From ebff5fcb068b4d6e7b39014d15d69e04a56d4a2c Mon Sep 17 00:00:00 2001
From: kozo <87003759+kozoy@users.noreply.github.com>
Date: Wed, 16 Jul 2025 09:17:34 +0800
Subject: [PATCH 001/396] feat: replace Decord with video_reader-rs (#5163)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
Co-authored-by: Xinyuan Tong <justinning0323@outlook.com>
---
 python/pyproject.toml                         |  1 +
 python/sglang/check_env.py                    |  2 +-
 .../multimodal/processors/base_processor.py   |  4 ++--
 .../srt/multimodal/processors/internvl.py     |  4 ++--
 .../srt/multimodal/processors/qwen_vl.py      |  4 ++--
 python/sglang/srt/utils.py                    | 22 +++++++------------
 6 files changed, 16 insertions(+), 21 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 86467457a78e..3d72566f71fc 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -21,6 +21,7 @@ runtime_common = [
     "build",
     "compressed-tensors",
     "datasets",
+    "video-reader-rs",
     "fastapi",
     "hf_transfer",
     "huggingface_hub",
diff --git a/python/sglang/check_env.py b/python/sglang/check_env.py
index 1870e3207ae7..ba42c17beb2b 100644
--- a/python/sglang/check_env.py
+++ b/python/sglang/check_env.py
@@ -47,7 +47,7 @@ def is_cuda_v2():
     "tiktoken",
     "anthropic",
     "litellm",
-    "decord",
+    "video-reader-rs",
 ]
 
 
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 91aaa19090cf..7d7784c18f38 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -206,7 +206,7 @@ def get_estimated_frames_list(self, image_data):
         estimate the total frame count from all visual input
         """
         # Lazy import because decord is not available on some arm platforms.
-        from decord import VideoReader, cpu
+        from video_reader import PyVideoReader, cpu
 
         # Before processing inputs
         if not image_data or len(image_data) == 0:
@@ -216,7 +216,7 @@ def get_estimated_frames_list(self, image_data):
             if isinstance(image, str) and image.startswith("video:"):
                 path = image[len("video:") :]
                 # Estimate frames for the video
-                vr = VideoReader(path, ctx=cpu(0))
+                vr = PyVideoReader(path, threads=0)
                 num_frames = len(vr)
             else:
                 # For images, each contributes one frame
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index df9b67aadeae..4b27a91a374c 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -150,7 +150,7 @@ def get_index(bound, fps, max_frame, first_idx=0, num_segments=32):
     def load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=32):
         vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)
         max_frame = len(vr) - 1
-        fps = float(vr.get_avg_fps())
+        fps = float(vr.get_fps())
 
         pixel_values_list, num_patches_list = [], []
         transform = InternVLImageProcessor.build_transform(input_size=input_size)
@@ -158,7 +158,7 @@ def load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=3
             bound, fps, max_frame, first_idx=0, num_segments=num_segments
         )
         for frame_index in frame_indices:
-            img = Image.fromarray(vr[frame_index].asnumpy()).convert("RGB")
+            img = Image.fromarray(vr[frame_index]).convert("RGB")
             img = InternVLImageProcessor.dynamic_preprocess(
                 img, image_size=input_size, use_thumbnail=True, max_num=max_num
             )
diff --git a/python/sglang/srt/multimodal/processors/qwen_vl.py b/python/sglang/srt/multimodal/processors/qwen_vl.py
index 1ecb4e119ac3..68381dbec639 100644
--- a/python/sglang/srt/multimodal/processors/qwen_vl.py
+++ b/python/sglang/srt/multimodal/processors/qwen_vl.py
@@ -156,10 +156,10 @@ async def preprocess_video(
     # vr: VideoReader, image_factor: int = IMAGE_FACTOR
 ) -> torch.Tensor:
     ele = {}
-    total_frames, video_fps = len(vr), vr.get_avg_fps()
+    total_frames, video_fps = len(vr), vr.get_fps()
     nframes = smart_nframes({}, total_frames=total_frames, video_fps=video_fps)
     idx = torch.linspace(0, total_frames - 1, nframes).round().long().tolist()
-    video = vr.get_batch(idx).asnumpy()
+    video = vr.get_batch(idx)
     video = torch.tensor(video).permute(0, 3, 1, 2)  # Convert to TCHW format
     nframes, _, height, width = video.shape
     min_pixels = ele.get("min_pixels", VIDEO_MIN_PIXELS)
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index ce159a4da77b..377fa90c8367 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -84,6 +84,7 @@
 from torch.profiler import ProfilerActivity, profile, record_function
 from torch.utils._contextlib import _DecoratorContextManager
 from triton.runtime.cache import FileCacheManager
+from video_reader import PyVideoReader
 
 logger = logging.getLogger(__name__)
 
@@ -757,16 +758,9 @@ def load_image(
 
 def load_video(video_file: Union[str, bytes], use_gpu: bool = True):
     # We import decord here to avoid a strange Segmentation fault (core dumped) issue.
-    from decord import VideoReader, cpu, gpu
-
-    try:
-        from decord.bridge import decord_bridge
-
-        ctx = gpu(0)
-        _ = decord_bridge.get_ctx_device(ctx)
-    except Exception:
-        ctx = cpu(0)
+    from video_reader import PyVideoReader
 
+    device = "cuda" if use_gpu and torch.cuda.is_available() else None
     tmp_file = None
     vr = None
     try:
@@ -774,7 +768,7 @@ def load_video(video_file: Union[str, bytes], use_gpu: bool = True):
             tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4")
             tmp_file.write(video_file)
             tmp_file.close()
-            vr = VideoReader(tmp_file.name, ctx=ctx)
+            vr = PyVideoReader(tmp_file.name, device=device, threads=0)
         elif isinstance(video_file, str):
             if video_file.startswith(("http://", "https://")):
                 timeout = int(os.getenv("REQUEST_TIMEOUT", "10"))
@@ -784,22 +778,22 @@ def load_video(video_file: Union[str, bytes], use_gpu: bool = True):
                 for chunk in response.iter_content(chunk_size=8192):
                     tmp_file.write(chunk)
                 tmp_file.close()
-                vr = VideoReader(tmp_file.name, ctx=ctx)
+                vr = PyVideoReader(tmp_file.name, device=device, threads=0)
             elif video_file.startswith("data:"):
                 _, encoded = video_file.split(",", 1)
                 video_bytes = base64.b64decode(encoded)
                 tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4")
                 tmp_file.write(video_bytes)
                 tmp_file.close()
-                vr = VideoReader(tmp_file.name, ctx=ctx)
+                vr = PyVideoReader(tmp_file.name, device=device, threads=0)
             elif os.path.isfile(video_file):
-                vr = VideoReader(video_file, ctx=ctx)
+                vr = PyVideoReader(video_file, device=device, threads=0)
             else:
                 video_bytes = base64.b64decode(video_file)
                 tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4")
                 tmp_file.write(video_bytes)
                 tmp_file.close()
-                vr = VideoReader(tmp_file.name, ctx=ctx)
+                vr = PyVideoReader(tmp_file.name, device=device, threads=0)
         else:
             raise ValueError(f"Unsupported video input type: {type(video_file)}")
 

From 194841e3292ea918aae8389b1d6716ee1dab6653 Mon Sep 17 00:00:00 2001
From: strgrb <zhangkaihong.zkh@antgroup.com>
Date: Wed, 16 Jul 2025 09:20:41 +0800
Subject: [PATCH 002/396] remove kv_a.congigous in DeepseekV2AttentionMLA
 (#8058)

Co-authored-by: Zhang Kaihong <zhangkaihong.zkh@alibaba-inc.com>
---
 python/sglang/srt/models/deepseek_v2.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 2b87d91d475f..bb1efde2941e 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -1154,7 +1154,7 @@ def forward_normal_prepare(
         _, q_pe = q.split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
         kv_a, _ = latent_cache.split([self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
         latent_cache = latent_cache.unsqueeze(1)
-        kv_a = self.kv_a_layernorm(kv_a.contiguous())
+        kv_a = self.kv_a_layernorm(kv_a)
         kv = self.kv_b_proj(kv_a)[0]
         kv = kv.view(-1, self.num_local_heads, self.qk_nope_head_dim + self.v_head_dim)
         k_nope = kv[..., : self.qk_nope_head_dim]
@@ -1693,7 +1693,7 @@ def forward_normal_chunked_kv_prepare(
         _, q_pe = q.split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
         kv_a, _ = latent_cache.split([self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
         latent_cache = latent_cache.unsqueeze(1)
-        kv_a = self.kv_a_layernorm(kv_a.contiguous())
+        kv_a = self.kv_a_layernorm(kv_a)
         kv = self.kv_b_proj(kv_a)[0]
         kv = kv.view(-1, self.num_local_heads, self.qk_nope_head_dim + self.v_head_dim)
         k_nope = kv[..., : self.qk_nope_head_dim]

From 7498522f7d296f9fbfe6534aec511674d0786dc4 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Tue, 15 Jul 2025 18:24:39 -0700
Subject: [PATCH 003/396] update transformers to 4.53.2 (#8029)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
---
 python/pyproject.toml         | 2 +-
 test/srt/test_vlm_accuracy.py | 1 -
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 3d72566f71fc..c538c4bcb3e0 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -46,7 +46,7 @@ runtime_common = [
     "soundfile==0.13.1",
     "scipy",
     "torchao==0.9.0",
-    "transformers==4.53.0",
+    "transformers==4.53.2",
     "timm==1.0.16",
     "uvicorn",
     "uvloop",
diff --git a/test/srt/test_vlm_accuracy.py b/test/srt/test_vlm_accuracy.py
index a699a36feef4..ea83f3eef755 100644
--- a/test/srt/test_vlm_accuracy.py
+++ b/test/srt/test_vlm_accuracy.py
@@ -161,7 +161,6 @@ def get_sglang_model(self):
         return self.model_runner.model
 
 
-# TODO: MiniCPMV is not compatible with transformers==4.52.3, temporarily disabled
 class TestMiniCPMVLogits(VisionLLMLogitsBase):
     @classmethod
     def setUpClass(cls):

From 3bc43c683e6297cbc6b01e2d2468ca2b25052710 Mon Sep 17 00:00:00 2001
From: Qiaolin Yu <liin1211@outlook.com>
Date: Tue, 15 Jul 2025 19:37:14 -0700
Subject: [PATCH 004/396] Fix different device type adjustment in PP (#7760)

---
 .../sglang/srt/distributed/parallel_state.py  | 12 +++----
 python/sglang/srt/managers/scheduler.py       |  5 +++
 python/sglang/srt/managers/tp_worker.py       |  1 +
 python/sglang/srt/utils.py                    | 34 ++++++++-----------
 4 files changed, 25 insertions(+), 27 deletions(-)

diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
index 509c71531062..5ab2e3758115 100644
--- a/python/sglang/srt/distributed/parallel_state.py
+++ b/python/sglang/srt/distributed/parallel_state.py
@@ -699,14 +699,14 @@ def send_object(self, obj: Any, dst: int) -> None:
         )
 
         # Serialize object to tensor and get the size as well
-        object_tensor = torch.frombuffer(pickle.dumps(obj), dtype=torch.uint8).cuda(
-            device=torch.cuda.current_device()
+        object_tensor = torch.frombuffer(pickle.dumps(obj), dtype=torch.uint8).to(
+            device=self.device
         )
 
         size_tensor = torch.tensor(
             [object_tensor.numel()],
             dtype=torch.long,
-            device=torch.cuda.current_device(),
+            device=self.device,
         )
 
         # Send object size
@@ -731,9 +731,7 @@ def recv_object(self, src: int) -> Any:
             src != self.rank_in_group
         ), "Invalid source rank. Source rank is the same as the current rank."
 
-        size_tensor = torch.empty(
-            1, dtype=torch.long, device=torch.cuda.current_device()
-        )
+        size_tensor = torch.empty(1, dtype=torch.long, device=self.device)
 
         # Receive object size
         rank_size = torch.distributed.recv(
@@ -744,7 +742,7 @@ def recv_object(self, src: int) -> Any:
         object_tensor = torch.empty(  # type: ignore[call-overload]
             size_tensor.item(),  # type: ignore[arg-type]
             dtype=torch.uint8,
-            device=torch.cuda.current_device(),
+            device=self.device,
         )
 
         rank_object = torch.distributed.recv(
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index afb4b870d34d..9a1654343603 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -962,6 +962,7 @@ def event_loop_pp(self):
                             self.world_group.device_group,
                             self.pp_rank * self.tp_size + dp_offset,
                             (self.pp_rank + 1) * self.tp_size + dp_offset,
+                            device=self.device,
                         )
 
                     # send out proxy tensors to the next stage
@@ -1010,6 +1011,7 @@ def recv_requests(self) -> List[Req]:
                     self.world_group.device_group,
                     (self.pp_rank - 1) * self.tp_size + dp_offset,
                     self.pp_rank * self.tp_size + dp_offset,
+                    device=self.device,
                 )
             else:
                 recv_reqs = None
@@ -1040,6 +1042,7 @@ def recv_requests(self) -> List[Req]:
                     self.attn_tp_group.rank,
                     self.attn_tp_cpu_group,
                     src=self.attn_tp_group.ranks[0],
+                    device=self.device,
                 )
             if self.tp_size != 1:
                 control_reqs = broadcast_pyobj(
@@ -1047,6 +1050,7 @@ def recv_requests(self) -> List[Req]:
                     self.tp_group.rank,
                     self.tp_cpu_group,
                     src=self.tp_group.ranks[0],
+                    device=self.device,
                 )
             recv_reqs = work_reqs + control_reqs
         elif self.tp_size != 1:
@@ -1055,6 +1059,7 @@ def recv_requests(self) -> List[Req]:
                 self.tp_group.rank,
                 self.tp_cpu_group,
                 src=self.tp_group.ranks[0],
+                device=self.device,
             )
         return recv_reqs
 
diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index ff20ea01e4d3..daeed4faff7c 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -144,6 +144,7 @@ def __init__(
             self.tp_size * self.pp_rank + tp_rank,
             self.world_group.cpu_group,
             src=self.world_group.ranks[0],
+            device=self.device,
         )[0]
         set_random_seed(self.random_seed)
 
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 377fa90c8367..d055aab5b9cf 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -1094,15 +1094,15 @@ def broadcast_pyobj(
     rank: int,
     dist_group: Optional[torch.distributed.ProcessGroup] = None,
     src: int = 0,
-    force_cpu_device: bool = True,
+    device: Optional[str] = None,
 ):
     """Broadcast inputs from src rank to all other ranks with torch.dist backend.
     The `rank` here refer to the source rank on global process group (regardless
     of dist_group argument).
     """
-    device = torch.device(
-        "cuda" if torch.cuda.is_available() and not force_cpu_device else "cpu"
-    )
+
+    if device is None:
+        device = get_device()
 
     if rank == src:
         if len(data) == 0:
@@ -1142,44 +1142,38 @@ def point_to_point_pyobj(
     group: Optional[torch.distributed.ProcessGroup] = None,
     src: int = 0,
     dst: int = 1,
+    device: Optional[str] = None,
 ):
     """Send data from src to dst in group using DeviceToDevice communication."""
-
+    if device is None:
+        device = get_device()
     if rank == src:
         if len(data) == 0:
-            tensor_size = torch.tensor(
-                [0], dtype=torch.long, device=torch.cuda.current_device()
-            )
+            tensor_size = torch.tensor([0], dtype=torch.long, device=device)
             dist.send(tensor_size, dst=dst, group=group)
         else:
             serialized_data = pickle.dumps(data)
             size = len(serialized_data)
             tensor_data = torch.ByteTensor(
                 np.frombuffer(serialized_data, dtype=np.uint8)
-            ).cuda(
-                device=torch.cuda.current_device()
-            )  # Move to GPU
-            tensor_size = torch.tensor(
-                [size], dtype=torch.long, device=torch.cuda.current_device()
-            )
+            ).to(
+                device=device
+            )  # Move to Device
+            tensor_size = torch.tensor([size], dtype=torch.long, device=device)
 
             dist.send(tensor_size, dst=dst, group=group)
             dist.send(tensor_data, dst=dst, group=group)
         return data
 
     elif rank == dst:
-        tensor_size = torch.tensor(
-            [0], dtype=torch.long, device=torch.cuda.current_device()
-        )
+        tensor_size = torch.tensor([0], dtype=torch.long, device=device)
         dist.recv(tensor_size, src=src, group=group)
         size = tensor_size.item()
 
         if size == 0:
             return []
 
-        tensor_data = torch.empty(
-            size, dtype=torch.uint8, device=torch.cuda.current_device()
-        )
+        tensor_data = torch.empty(size, dtype=torch.uint8, device=device)
         dist.recv(tensor_data, src=src, group=group)
 
         serialized_data = bytes(

From 69f453e5a446a2fec28a106252836d644c33c2c6 Mon Sep 17 00:00:00 2001
From: Qiaolin Yu <liin1211@outlook.com>
Date: Tue, 15 Jul 2025 19:38:58 -0700
Subject: [PATCH 005/396] Use device_group for all_gather when disabling
 overlap scheduling (#8001)

---
 python/sglang/bench_one_batch.py        |  3 ++-
 python/sglang/srt/managers/scheduler.py | 16 +++++++++++++---
 2 files changed, 15 insertions(+), 4 deletions(-)

diff --git a/python/sglang/bench_one_batch.py b/python/sglang/bench_one_batch.py
index cca7d5a495fa..4a027ae99721 100644
--- a/python/sglang/bench_one_batch.py
+++ b/python/sglang/bench_one_batch.py
@@ -271,12 +271,13 @@ def _maybe_prepare_mlp_sync_batch(batch: ScheduleBatch, model_runner):
             batch,
             dp_size=model_runner.server_args.dp_size,
             attn_tp_size=1,
-            tp_cpu_group=model_runner.tp_group.cpu_group,
+            tp_group=model_runner.tp_group,
             get_idle_batch=None,
             disable_cuda_graph=model_runner.server_args.disable_cuda_graph,
             spec_algorithm=SpeculativeAlgorithm.NONE,
             speculative_num_draft_tokens=None,
             require_mlp_tp_gather=require_mlp_tp_gather(model_runner.server_args),
+            disable_overlap_schedule=model_runner.server_args.disable_overlap_schedule,
         )
 
 
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 9a1654343603..a7f893253637 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1945,7 +1945,7 @@ def prepare_mlp_sync_batch(self, local_batch: ScheduleBatch):
             local_batch,
             dp_size=self.server_args.dp_size,
             attn_tp_size=self.attn_tp_size,
-            tp_cpu_group=self.tp_cpu_group,
+            tp_group=self.tp_group,
             get_idle_batch=self.get_idle_batch,
             disable_cuda_graph=self.server_args.disable_cuda_graph,
             spec_algorithm=self.spec_algorithm,
@@ -1954,6 +1954,7 @@ def prepare_mlp_sync_batch(self, local_batch: ScheduleBatch):
             enable_deepep_moe=self.server_args.enable_deepep_moe,
             deepep_mode=DeepEPMode[self.server_args.deepep_mode],
             require_mlp_tp_gather=require_mlp_tp_gather(self.server_args),
+            disable_overlap_schedule=self.server_args.disable_overlap_schedule,
         )
 
     @staticmethod
@@ -1961,7 +1962,7 @@ def prepare_mlp_sync_batch_raw(
         local_batch: ScheduleBatch,
         dp_size,
         attn_tp_size: int,
-        tp_cpu_group,
+        tp_group,
         get_idle_batch,
         disable_cuda_graph: bool,
         spec_algorithm,
@@ -1970,6 +1971,7 @@ def prepare_mlp_sync_batch_raw(
         enable_deepep_moe: bool,
         deepep_mode: DeepEPMode,
         require_mlp_tp_gather: bool,
+        disable_overlap_schedule: bool,
     ):
         # Check if other DP workers have running batches
         if local_batch is None:
@@ -2000,6 +2002,12 @@ def prepare_mlp_sync_batch_raw(
         )
 
         tbo_preparer = TboDPAttentionPreparer()
+        if disable_overlap_schedule:
+            group = tp_group.device_group
+            device = tp_group.device
+        else:
+            group = tp_group.cpu_group
+            device = "cpu"
 
         local_info = torch.tensor(
             [
@@ -2015,15 +2023,17 @@ def prepare_mlp_sync_batch_raw(
                 ),
             ],
             dtype=torch.int64,
+            device=device,
         )
         global_info = torch.empty(
             (dp_size, attn_tp_size, 6),
             dtype=torch.int64,
+            device=device,
         )
         torch.distributed.all_gather_into_tensor(
             global_info.flatten(),
             local_info,
-            group=tp_cpu_group,
+            group=group,
         )
         global_num_tokens = global_info[:, 0, 0].tolist()
         can_cuda_graph = min(global_info[:, 0, 1].tolist())

From 497efe747d1f1cbcb6721f9d1721901e978956b4 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Wed, 16 Jul 2025 11:04:56 +0800
Subject: [PATCH 006/396] Revert "feat: replace Decord with video_reader-rs"
 (#8077)

---
 python/pyproject.toml                         |  1 -
 python/sglang/check_env.py                    |  2 +-
 .../multimodal/processors/base_processor.py   |  4 ++--
 .../srt/multimodal/processors/internvl.py     |  4 ++--
 .../srt/multimodal/processors/qwen_vl.py      |  4 ++--
 python/sglang/srt/utils.py                    | 22 ++++++++++++-------
 6 files changed, 21 insertions(+), 16 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index c538c4bcb3e0..7afb3581a3b5 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -21,7 +21,6 @@ runtime_common = [
     "build",
     "compressed-tensors",
     "datasets",
-    "video-reader-rs",
     "fastapi",
     "hf_transfer",
     "huggingface_hub",
diff --git a/python/sglang/check_env.py b/python/sglang/check_env.py
index ba42c17beb2b..1870e3207ae7 100644
--- a/python/sglang/check_env.py
+++ b/python/sglang/check_env.py
@@ -47,7 +47,7 @@ def is_cuda_v2():
     "tiktoken",
     "anthropic",
     "litellm",
-    "video-reader-rs",
+    "decord",
 ]
 
 
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 7d7784c18f38..91aaa19090cf 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -206,7 +206,7 @@ def get_estimated_frames_list(self, image_data):
         estimate the total frame count from all visual input
         """
         # Lazy import because decord is not available on some arm platforms.
-        from video_reader import PyVideoReader, cpu
+        from decord import VideoReader, cpu
 
         # Before processing inputs
         if not image_data or len(image_data) == 0:
@@ -216,7 +216,7 @@ def get_estimated_frames_list(self, image_data):
             if isinstance(image, str) and image.startswith("video:"):
                 path = image[len("video:") :]
                 # Estimate frames for the video
-                vr = PyVideoReader(path, threads=0)
+                vr = VideoReader(path, ctx=cpu(0))
                 num_frames = len(vr)
             else:
                 # For images, each contributes one frame
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index 4b27a91a374c..df9b67aadeae 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -150,7 +150,7 @@ def get_index(bound, fps, max_frame, first_idx=0, num_segments=32):
     def load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=32):
         vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)
         max_frame = len(vr) - 1
-        fps = float(vr.get_fps())
+        fps = float(vr.get_avg_fps())
 
         pixel_values_list, num_patches_list = [], []
         transform = InternVLImageProcessor.build_transform(input_size=input_size)
@@ -158,7 +158,7 @@ def load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=3
             bound, fps, max_frame, first_idx=0, num_segments=num_segments
         )
         for frame_index in frame_indices:
-            img = Image.fromarray(vr[frame_index]).convert("RGB")
+            img = Image.fromarray(vr[frame_index].asnumpy()).convert("RGB")
             img = InternVLImageProcessor.dynamic_preprocess(
                 img, image_size=input_size, use_thumbnail=True, max_num=max_num
             )
diff --git a/python/sglang/srt/multimodal/processors/qwen_vl.py b/python/sglang/srt/multimodal/processors/qwen_vl.py
index 68381dbec639..1ecb4e119ac3 100644
--- a/python/sglang/srt/multimodal/processors/qwen_vl.py
+++ b/python/sglang/srt/multimodal/processors/qwen_vl.py
@@ -156,10 +156,10 @@ async def preprocess_video(
     # vr: VideoReader, image_factor: int = IMAGE_FACTOR
 ) -> torch.Tensor:
     ele = {}
-    total_frames, video_fps = len(vr), vr.get_fps()
+    total_frames, video_fps = len(vr), vr.get_avg_fps()
     nframes = smart_nframes({}, total_frames=total_frames, video_fps=video_fps)
     idx = torch.linspace(0, total_frames - 1, nframes).round().long().tolist()
-    video = vr.get_batch(idx)
+    video = vr.get_batch(idx).asnumpy()
     video = torch.tensor(video).permute(0, 3, 1, 2)  # Convert to TCHW format
     nframes, _, height, width = video.shape
     min_pixels = ele.get("min_pixels", VIDEO_MIN_PIXELS)
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index d055aab5b9cf..37e06b8dcc72 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -84,7 +84,6 @@
 from torch.profiler import ProfilerActivity, profile, record_function
 from torch.utils._contextlib import _DecoratorContextManager
 from triton.runtime.cache import FileCacheManager
-from video_reader import PyVideoReader
 
 logger = logging.getLogger(__name__)
 
@@ -758,9 +757,16 @@ def load_image(
 
 def load_video(video_file: Union[str, bytes], use_gpu: bool = True):
     # We import decord here to avoid a strange Segmentation fault (core dumped) issue.
-    from video_reader import PyVideoReader
+    from decord import VideoReader, cpu, gpu
+
+    try:
+        from decord.bridge import decord_bridge
+
+        ctx = gpu(0)
+        _ = decord_bridge.get_ctx_device(ctx)
+    except Exception:
+        ctx = cpu(0)
 
-    device = "cuda" if use_gpu and torch.cuda.is_available() else None
     tmp_file = None
     vr = None
     try:
@@ -768,7 +774,7 @@ def load_video(video_file: Union[str, bytes], use_gpu: bool = True):
             tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4")
             tmp_file.write(video_file)
             tmp_file.close()
-            vr = PyVideoReader(tmp_file.name, device=device, threads=0)
+            vr = VideoReader(tmp_file.name, ctx=ctx)
         elif isinstance(video_file, str):
             if video_file.startswith(("http://", "https://")):
                 timeout = int(os.getenv("REQUEST_TIMEOUT", "10"))
@@ -778,22 +784,22 @@ def load_video(video_file: Union[str, bytes], use_gpu: bool = True):
                 for chunk in response.iter_content(chunk_size=8192):
                     tmp_file.write(chunk)
                 tmp_file.close()
-                vr = PyVideoReader(tmp_file.name, device=device, threads=0)
+                vr = VideoReader(tmp_file.name, ctx=ctx)
             elif video_file.startswith("data:"):
                 _, encoded = video_file.split(",", 1)
                 video_bytes = base64.b64decode(encoded)
                 tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4")
                 tmp_file.write(video_bytes)
                 tmp_file.close()
-                vr = PyVideoReader(tmp_file.name, device=device, threads=0)
+                vr = VideoReader(tmp_file.name, ctx=ctx)
             elif os.path.isfile(video_file):
-                vr = PyVideoReader(video_file, device=device, threads=0)
+                vr = VideoReader(video_file, ctx=ctx)
             else:
                 video_bytes = base64.b64decode(video_file)
                 tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4")
                 tmp_file.write(video_bytes)
                 tmp_file.close()
-                vr = PyVideoReader(tmp_file.name, device=device, threads=0)
+                vr = VideoReader(tmp_file.name, ctx=ctx)
         else:
             raise ValueError(f"Unsupported video input type: {type(video_file)}")
 

From b188a89a5d09ba634c77c34a2407e95dea5826b8 Mon Sep 17 00:00:00 2001
From: YanbingJiang <yanbing.jiang@intel.com>
Date: Wed, 16 Jul 2025 17:12:23 +0800
Subject: [PATCH 007/396] Fix CI xeon test with triton 3.3.1 (#8086)

---
 python/sglang/srt/layers/quantization/fp8_kernel.py | 12 +++++++++++-
 1 file changed, 11 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/fp8_kernel.py b/python/sglang/srt/layers/quantization/fp8_kernel.py
index 7d73c5bc2b1e..79504265c299 100644
--- a/python/sglang/srt/layers/quantization/fp8_kernel.py
+++ b/python/sglang/srt/layers/quantization/fp8_kernel.py
@@ -29,6 +29,7 @@
     direct_register_custom_op,
     get_device_core_count,
     get_device_name,
+    is_cpu,
     is_cuda,
     is_hip,
     log_info_on_rank0,
@@ -37,6 +38,7 @@
 
 _is_hip = is_hip()
 _is_cuda = is_cuda()
+_is_cpu = is_cpu()
 
 if _is_cuda:
     from sgl_kernel import (
@@ -1168,7 +1170,7 @@ def scaled_fp8_quant(
     return output, scale
 
 
-@triton.autotune(
+fp8_autotune = triton.autotune(
     configs=[
         triton.Config({"BLOCK_M": block_m}, num_warps=num_warps)
         for block_m in [16, 32, 64, 128]
@@ -1176,6 +1178,8 @@ def scaled_fp8_quant(
     ],
     key=["K", "BLOCK_K", "M_ALIGNMENT"],
 )
+
+
 @triton.jit
 def _per_token_group_quant_fp8_hopper_moe_mn_major(
     a,  # (M, K):(K, 1)
@@ -1221,6 +1225,12 @@ def _per_token_group_quant_fp8_hopper_moe_mn_major(
         tl.store(sfa_ptrs, inp_amax / 448.0, mask=coord_m < m)
 
 
+if not _is_cpu:
+    _per_token_group_quant_fp8_hopper_moe_mn_major = fp8_autotune(
+        _per_token_group_quant_fp8_hopper_moe_mn_major
+    )
+
+
 def per_token_group_quant_fp8_hopper_moe_mn_major(
     A: torch.Tensor,
     expert_offsets: torch.Tensor,

From 6dc4af49377d25fb9d745c5dd14f13a04f9ffbdd Mon Sep 17 00:00:00 2001
From: Peng Zhang <zhuangsen.zp@antgroup.com>
Date: Wed, 16 Jul 2025 22:08:46 +0800
Subject: [PATCH 008/396] fix greenctx stream compability (#8090)

---
 sgl-kernel/csrc/spatial/greenctx_stream.cu | 65 ++++++++++++++++------
 1 file changed, 48 insertions(+), 17 deletions(-)

diff --git a/sgl-kernel/csrc/spatial/greenctx_stream.cu b/sgl-kernel/csrc/spatial/greenctx_stream.cu
index b549aea5fa00..8c2e6d813c95 100644
--- a/sgl-kernel/csrc/spatial/greenctx_stream.cu
+++ b/sgl-kernel/csrc/spatial/greenctx_stream.cu
@@ -7,52 +7,83 @@
 #include "cuda_utils.h"
 #include "greenctx_stream.h"
 
+std::vector<int64_t> create_greenctx_stream_fallback(CUgreenCtx gctx[2]) {
+  CUstream streamA, streamB;
+  CUcontext ctx;
+
+  // Stream A
+  CUDA_DRV(cuCtxFromGreenCtx(&ctx, gctx[0]));
+  CUDA_DRV(cuCtxPushCurrent(ctx));
+  CUDA_DRV(cuStreamCreate(&streamA, CU_STREAM_NON_BLOCKING));
+  CUDA_DRV(cuCtxPopCurrent(nullptr));
+
+  // Stream B
+  CUDA_DRV(cuCtxFromGreenCtx(&ctx, gctx[1]));
+  CUDA_DRV(cuCtxPushCurrent(ctx));
+  CUDA_DRV(cuStreamCreate(&streamB, CU_STREAM_NON_BLOCKING));
+  CUDA_DRV(cuCtxPopCurrent(nullptr));
+
+  return {(int64_t)streamA, (int64_t)streamB};
+}
+
+#if CUDA_VERSION >= 12050
+std::vector<int64_t> create_greenctx_stream_direct(CUgreenCtx gctx[2]) {
+  CUstream streamA;
+  CUstream streamB;
+
+  CUDA_DRV(cuGreenCtxStreamCreate(&streamA, gctx[0], CU_STREAM_NON_BLOCKING, 0));
+  CUDA_DRV(cuGreenCtxStreamCreate(&streamB, gctx[1], CU_STREAM_NON_BLOCKING, 0));
+
+  std::vector<int64_t> vec = {(int64_t)streamA, (int64_t)streamB};
+  return vec;
+}
+#endif
+
 std::vector<int64_t> create_greenctx_stream_by_value(int64_t smA, int64_t smB, int64_t device) {
+  TORCH_CHECK(CUDA_VERSION >= 12040, "Green Contexts feature requires CUDA Toolkit 12.4 or newer.");
+
   CUgreenCtx gctx[3];
   CUdevResourceDesc desc[3];
   CUdevResource input;
   CUdevResource resources[4];
-  CUstream streamA;
-  CUstream streamB;
-
   unsigned int nbGroups = 1;
 
   if (smA <= 0 || smB <= 0) {
     TORCH_CHECK(false, "SM counts must be positive");
   }
 
-  // Initialize device
-  CUDA_RT(cudaInitDevice(device, 0, 0));
-
-  // Query input SMs
   CUDA_DRV(cuDeviceGetDevResource((CUdevice)device, &input, CU_DEV_RESOURCE_TYPE_SM));
-  // We want 3/4 the device for our green context
   unsigned int minCount = (unsigned int)(smA + smB);
   unsigned int minCountA = (unsigned int)(smA);
-
   TORCH_CHECK(minCount <= input.sm.smCount, "Not enough SMs available for the requested configuration");
 
-  // Split resources
   CUDA_DRV(cuDevSmResourceSplitByCount(&resources[2], &nbGroups, &input, &resources[3], 0, minCount));
-
   CUDA_DRV(cuDevResourceGenerateDesc(&desc[2], &resources[2], 1));
   CUDA_DRV(cuGreenCtxCreate(&gctx[2], desc[2], (CUdevice)device, CU_GREEN_CTX_DEFAULT_STREAM));
   CUDA_DRV(cuGreenCtxGetDevResource(gctx[2], &input, CU_DEV_RESOURCE_TYPE_SM));
   CUDA_DRV(cuDevSmResourceSplitByCount(&resources[0], &nbGroups, &input, &resources[1], 0, minCountA));
-
   CUDA_DRV(cuDevResourceGenerateDesc(&desc[0], &resources[0], 1));
   CUDA_DRV(cuGreenCtxCreate(&gctx[0], desc[0], (CUdevice)device, CU_GREEN_CTX_DEFAULT_STREAM));
   CUDA_DRV(cuDevResourceGenerateDesc(&desc[1], &resources[1], 1));
   CUDA_DRV(cuGreenCtxCreate(&gctx[1], desc[1], (CUdevice)device, CU_GREEN_CTX_DEFAULT_STREAM));
-
-  CUDA_DRV(cuGreenCtxStreamCreate(&streamA, gctx[0], CU_STREAM_NON_BLOCKING, 0));
-  CUDA_DRV(cuGreenCtxStreamCreate(&streamB, gctx[1], CU_STREAM_NON_BLOCKING, 0));
-
   int smCountA = resources[0].sm.smCount;
   int smCountB = resources[1].sm.smCount;
 
+  std::vector<int64_t> stream_handles;
+
+#if CUDA_VERSION >= 12050
+  stream_handles = create_greenctx_stream_direct(gctx);
+#else
+  stream_handles = create_greenctx_stream_fallback(gctx);
+#endif
+
   CUDA_DRV(cuGreenCtxDestroy(gctx[2]));
 
-  std::vector<int64_t> vec = {(int64_t)streamA, (int64_t)streamB, smCountA, smCountB};
+  std::vector<int64_t> vec = {
+      stream_handles[0],  // streamA
+      stream_handles[1],  // streamB
+      (int64_t)smCountA,
+      (int64_t)smCountB};
+
   return vec;
 }

From d9eb5efc71b1a8eabf7a6f1765fcf3e73736d63d Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 16 Jul 2025 08:54:55 -0700
Subject: [PATCH 009/396] [misc] update nvshmem and pin deepEP commit hash
 (#8098)

---
 docker/Dockerfile | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index f998bddbc821..349873da4acf 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -2,6 +2,7 @@ ARG CUDA_VERSION=12.6.1
 FROM nvidia/cuda:${CUDA_VERSION}-cudnn-devel-ubuntu22.04
 
 ARG BUILD_TYPE=all
+ARG DEEPEP_COMMIT=b6ce310bb0b75079682d09bc2ebc063a074fbd58
 ENV DEBIAN_FRONTEND=noninteractive \
     CUDA_HOME=/usr/local/cuda \
     GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/ \
@@ -14,7 +15,7 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     tzdata \
     software-properties-common netcat-openbsd kmod unzip openssh-server \
     curl wget lsof zsh ccache tmux htop git-lfs tree \
-    python3 python3-pip python3-dev libpython3-dev \
+    python3 python3-pip python3-dev libpython3-dev python3-venv \
     build-essential cmake \
     libopenmpi-dev libnuma1 libnuma-dev \
     libibverbs-dev libibverbs1 libibumad3 \
@@ -62,13 +63,12 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
     fi
 
 # Build and install NVSHMEM + DeepEP
-RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.2.5/source/nvshmem_src_3.2.5-1.txz \
+RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.3.9/source/nvshmem_src_cuda12-all-all-3.3.9.tar.gz \
  && git clone https://github.com/deepseek-ai/DeepEP.git \
- && tar -xf nvshmem_src_3.2.5-1.txz && mv nvshmem_src nvshmem \
+ && cd DeepEP && git checkout ${DEEPEP_COMMIT} && cd .. \
+ && tar -xf nvshmem_src_cuda12-all-all-3.3.9.tar.gz && mv nvshmem_src nvshmem \
  && cd nvshmem \
- && git apply /sgl-workspace/DeepEP/third-party/nvshmem.patch \
- && sed -i '1i#include <unistd.h>' examples/moe_shuffle.cu \
- && rm -f /sgl-workspace/nvshmem_src_3.2.5-1.txz \
+ && rm -f /sgl-workspace/nvshmem_src_cuda12-all-all-3.3.9.tar.gz \
  && NVSHMEM_SHMEM_SUPPORT=0 \
     NVSHMEM_UCX_SUPPORT=0 \
     NVSHMEM_USE_NCCL=0 \

From 570d33437bf0b4ac42e00ad468ddc43f9e0b376f Mon Sep 17 00:00:00 2001
From: Xiaoze Fan <jason341132@qq.com>
Date: Thu, 17 Jul 2025 01:57:46 +0800
Subject: [PATCH 010/396] [Feature] Layer-wise Prefill (#7634)

Signed-off-by: jason-fxz <jason341132@qq.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 python/sglang/srt/managers/schedule_batch.py  |  5 ++
 .../srt/model_executor/forward_batch_info.py  | 13 ++++
 .../sglang/srt/model_executor/model_runner.py | 37 ++++++++++-
 python/sglang/srt/models/gemma.py             | 48 ++++++++++++++
 python/sglang/srt/models/gemma2.py            | 51 +++++++++++++++
 python/sglang/srt/models/gemma3_causal.py     | 63 +++++++++++++++++++
 python/sglang/srt/models/llama.py             | 41 ++++++++++++
 python/sglang/srt/models/qwen.py              | 37 +++++++++++
 python/sglang/srt/models/qwen2.py             | 41 ++++++++++++
 python/sglang/srt/models/qwen2_moe.py         | 44 +++++++++++++
 python/sglang/srt/models/qwen3.py             | 42 ++++++++++++-
 python/sglang/srt/models/qwen3_moe.py         | 43 +++++++++++++
 python/sglang/srt/two_batch_overlap.py        |  1 +
 13 files changed, 464 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 1a48b055369f..c2750d072457 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -1328,6 +1328,11 @@ def prepare_for_extend(self):
             self.model_config.vocab_size,
         )
 
+    def prepare_for_split_prefill(self):
+        self.prepare_for_extend()
+        # For split prefill, we need to set the forward mode to SPLIT_PREFILL
+        self.forward_mode = ForwardMode.SPLIT_PREFILL
+
     def mix_with_running(self, running_batch: "ScheduleBatch"):
         self.forward_mode = ForwardMode.MIXED
         running_bs = running_batch.batch_size()
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 7ed8eb1d47bd..fde60e0e5012 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -68,6 +68,8 @@ class ForwardMode(IntEnum):
     MIXED = auto()
     # No sequence to forward. For data parallel attention, some workers will be IDLE if no sequence are allocated.
     IDLE = auto()
+    # Split Prefill for PD multiplexing
+    SPLIT_PREFILL = auto()
 
     # Used in speculative decoding: verify a batch in the target model.
     TARGET_VERIFY = auto()
@@ -95,6 +97,9 @@ def is_decode(self):
     def is_mixed(self):
         return self == ForwardMode.MIXED
 
+    def is_split_prefill(self):
+        return self == ForwardMode.SPLIT_PREFILL
+
     def is_idle(self):
         return self == ForwardMode.IDLE
 
@@ -194,6 +199,14 @@ class ForwardBatch:
     extend_logprob_start_lens_cpu: Optional[List[int]] = None
     extend_input_logprob_token_ids_gpu: Optional[torch.Tensor] = None
 
+    # For split prefill
+    # intermediate values for split prefill
+    hidden_states: torch.Tensor = None
+    residual: torch.Tensor = None
+    model_specific_states: Dict[str, any] = None
+    # current split index of layer
+    split_index: int = 0
+
     # For MLA chunked prefix cache used in chunked prefill
     # Tell attention backend whether the kv cache needs to be attended in current pass
     attn_attend_prefix_cache: Optional[bool] = None
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index a7885a5e367c..12db1d0559f3 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -1513,11 +1513,34 @@ def forward_idle(
             **kwargs,
         )
 
+    def forward_split_prefill(
+        self,
+        forward_batch: ForwardBatch,
+        reinit_attn_backend: bool = False,
+        forward_count: int = 1,
+    ) -> LogitsProcessorOutput:
+        if forward_batch.split_index == 0 or reinit_attn_backend:
+            self.attn_backend.init_forward_metadata(forward_batch)
+        next_split_index = min(
+            forward_batch.split_index + forward_count,
+            self.model_config.num_hidden_layers,
+        )
+        ret = self.model.forward_split_prefill(
+            forward_batch.input_ids,
+            forward_batch.positions,
+            forward_batch,
+            (forward_batch.split_index, next_split_index),
+        )
+        forward_batch.split_index = next_split_index
+        return ret
+
     def forward(
         self,
         forward_batch: ForwardBatch,
         skip_attn_backend_init: bool = False,
         pp_proxy_tensors: Optional[PPProxyTensors] = None,
+        reinit_attn_backend: bool = False,
+        split_forward_count: int = 1,
     ) -> Tuple[Union[LogitsProcessorOutput, PPProxyTensors], bool]:
         self.forward_pass_id += 1
 
@@ -1526,7 +1549,11 @@ def forward(
             forward_batch,
         ):
             output = self._forward_raw(
-                forward_batch, skip_attn_backend_init, pp_proxy_tensors
+                forward_batch,
+                skip_attn_backend_init,
+                pp_proxy_tensors,
+                reinit_attn_backend,
+                split_forward_count,
             )
 
         if self.eplb_manager is not None:
@@ -1539,6 +1566,8 @@ def _forward_raw(
         forward_batch: ForwardBatch,
         skip_attn_backend_init: bool,
         pp_proxy_tensors: Optional[PPProxyTensors],
+        reinit_attn_backend: bool = False,
+        split_forward_count: int = 1,
     ) -> Tuple[Union[LogitsProcessorOutput, PPProxyTensors], bool]:
         can_run_cuda_graph = bool(
             forward_batch.forward_mode.is_cuda_graph()
@@ -1559,6 +1588,12 @@ def _forward_raw(
                 skip_attn_backend_init=skip_attn_backend_init,
                 pp_proxy_tensors=pp_proxy_tensors,
             )
+        elif forward_batch.forward_mode.is_split_prefill():
+            ret = self.forward_split_prefill(
+                forward_batch,
+                reinit_attn_backend=reinit_attn_backend,
+                forward_count=split_forward_count,
+            )
         elif forward_batch.forward_mode.is_idle():
             ret = self.forward_idle(forward_batch, pp_proxy_tensors=pp_proxy_tensors)
         else:
diff --git a/python/sglang/srt/models/gemma.py b/python/sglang/srt/models/gemma.py
index d8074487cb67..1ecb5011f71c 100644
--- a/python/sglang/srt/models/gemma.py
+++ b/python/sglang/srt/models/gemma.py
@@ -318,6 +318,54 @@ def forward(
             input_ids, hidden_states, self.model.embed_tokens, forward_batch
         )
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+
+            # Normalize the embedding by sqrt(hidden_size)
+            forward_batch.hidden_states *= self.model.config.hidden_size**0.5
+
+        # decoder layer
+        for i in range(start, end):
+            layer = self.model.layers[i]
+            forward_batch.hidden_states, forward_batch.residual = layer(
+                positions,
+                forward_batch.hidden_states,
+                forward_batch,
+                forward_batch.residual,
+            )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            forward_batch.hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+
+            # logits process
+            result = self.logits_processor(
+                input_ids,
+                forward_batch.hidden_states,
+                self.model.embed_tokens,
+                forward_batch,
+            )
+        else:
+            result = None
+
+        return result
+
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
diff --git a/python/sglang/srt/models/gemma2.py b/python/sglang/srt/models/gemma2.py
index 9ee892bb79fa..ee490d083d1b 100644
--- a/python/sglang/srt/models/gemma2.py
+++ b/python/sglang/srt/models/gemma2.py
@@ -381,6 +381,57 @@ def forward(
             input_ids, hidden_states, self.model.embed_tokens, forward_batch
         )
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+
+            # Normalize
+            normalizer = torch.tensor(
+                self.model.config.hidden_size**0.5, dtype=torch.float16
+            )
+            forward_batch.hidden_states *= normalizer
+
+        # decoder layer
+        for i in range(start, end):
+            layer = self.model.layers[i]
+            forward_batch.hidden_states, forward_batch.residual = layer(
+                positions,
+                forward_batch.hidden_states,
+                forward_batch,
+                forward_batch.residual,
+            )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            forward_batch.hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+
+            # logits process
+            result = self.logits_processor(
+                input_ids,
+                forward_batch.hidden_states,
+                self.model.embed_tokens,
+                forward_batch,
+            )
+        else:
+            result = None
+
+        return result
+
     def get_hidden_dim(self, module_name):
         # return input_dim, output_dim
         if module_name in ["q_proj", "qkv_proj"]:
diff --git a/python/sglang/srt/models/gemma3_causal.py b/python/sglang/srt/models/gemma3_causal.py
index f5bff8fc4f57..5b6145affacc 100644
--- a/python/sglang/srt/models/gemma3_causal.py
+++ b/python/sglang/srt/models/gemma3_causal.py
@@ -647,6 +647,69 @@ def forward(
             input_ids, hidden_states, self.model.embed_tokens, forward_batch
         )
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                hidden_states = input_embeds
+
+            if positions.dim() == 1:
+                positions = einops.rearrange(positions, "s -> 1 s")
+            position_embeddings_global = self.model.rotary_emb(hidden_states, positions)
+            position_embeddings_local = self.model.rotary_emb_local(
+                hidden_states, positions
+            )
+
+            forward_batch.hidden_states = hidden_states
+            forward_batch.model_specific_states = {
+                "positions": positions,
+                "position_embeddings_global": position_embeddings_global,
+                "position_embeddings_local": position_embeddings_local,
+            }
+
+        # decoder layer
+        for i in range(start, end):
+            layer = self.model.layers[i]
+            layer_output = layer(
+                positions=forward_batch.model_specific_states["positions"],
+                position_embeddings_global=forward_batch.model_specific_states[
+                    "position_embeddings_global"
+                ],
+                position_embeddings_local=forward_batch.model_specific_states[
+                    "position_embeddings_local"
+                ],
+                hidden_states=forward_batch.hidden_states,
+                forward_batch=forward_batch,
+            )
+            forward_batch.hidden_states = layer_output[0]
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            forward_batch.hidden_states = self.model.norm(forward_batch.hidden_states)
+
+            # logits process
+            result = self.logits_processor(
+                input_ids,
+                forward_batch.hidden_states,
+                self.model.embed_tokens,
+                forward_batch,
+            )
+        else:
+            result = None
+
+        return result
+
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
diff --git a/python/sglang/srt/models/llama.py b/python/sglang/srt/models/llama.py
index f8cfe859b2ba..d1614935bb18 100644
--- a/python/sglang/srt/models/llama.py
+++ b/python/sglang/srt/models/llama.py
@@ -480,6 +480,47 @@ def forward(
         else:
             return hidden_states
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ) -> Optional[LogitsProcessorOutput]:
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+        # decoder layer
+        for i in range(start, end):
+            layer = self.model.layers[i]
+            forward_batch.hidden_states, forward_batch.residual = layer(
+                positions,
+                forward_batch.hidden_states,
+                forward_batch,
+                forward_batch.residual,
+            )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+            forward_batch.hidden_states = hidden_states
+            # logits process
+            result = self.logits_processor(
+                input_ids, forward_batch.hidden_states, self.lm_head, forward_batch
+            )
+        else:
+            result = None
+
+        return result
+
     @property
     def start_layer(self):
         return self.model.start_layer
diff --git a/python/sglang/srt/models/qwen.py b/python/sglang/srt/models/qwen.py
index f0660f62da6d..009650411e3d 100644
--- a/python/sglang/srt/models/qwen.py
+++ b/python/sglang/srt/models/qwen.py
@@ -15,6 +15,7 @@
 # Adapted from
 # https://github.com/vllm-project/vllm/blob/c7f2cf2b7f67bce5842fedfdba508440fe257375/vllm/model_executor/models/qwen.py#L1
 
+import time
 from typing import Any, Dict, Iterable, Optional, Tuple
 
 import torch
@@ -286,6 +287,42 @@ def forward(
             input_ids, hidden_states, self.lm_head, forward_batch
         )
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            forward_batch.hidden_states = self.transformer.wte(input_ids)
+
+        # decoder layer
+        for i in range(start, end):
+            layer = self.transformer.h[i]
+            forward_batch.hidden_states = layer(
+                positions,
+                forward_batch.hidden_states,
+                forward_batch,
+            )
+
+        if end == self.transformer.config.num_hidden_layers:
+            # norm
+            forward_batch.hidden_states = self.transformer.ln_f(
+                forward_batch.hidden_states
+            )
+            # logits process
+            result = self.logits_processor(
+                input_ids, forward_batch.hidden_states, self.lm_head, forward_batch
+            )
+        else:
+            result = None
+
+        return result
+
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
diff --git a/python/sglang/srt/models/qwen2.py b/python/sglang/srt/models/qwen2.py
index e3670bb552e8..1696bdfa9177 100644
--- a/python/sglang/srt/models/qwen2.py
+++ b/python/sglang/srt/models/qwen2.py
@@ -481,6 +481,47 @@ def forward(
         else:
             return hidden_states
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+        # decoder layer
+        for i in range(start, end):
+            layer = self.model.layers[i]
+            forward_batch.hidden_states, forward_batch.residual = layer(
+                positions,
+                forward_batch.hidden_states,
+                forward_batch,
+                forward_batch.residual,
+            )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+            forward_batch.hidden_states = hidden_states
+            # logits process
+            result = self.logits_processor(
+                input_ids, forward_batch.hidden_states, self.lm_head, forward_batch
+            )
+        else:
+            result = None
+
+        return result
+
     @property
     def start_layer(self):
         return self.model.start_layer
diff --git a/python/sglang/srt/models/qwen2_moe.py b/python/sglang/srt/models/qwen2_moe.py
index 92637d73b76f..fe2636ab74e8 100644
--- a/python/sglang/srt/models/qwen2_moe.py
+++ b/python/sglang/srt/models/qwen2_moe.py
@@ -406,6 +406,7 @@ def __init__(
         alt_stream: Optional[torch.cuda.Stream] = None,
     ) -> None:
         super().__init__()
+        self.config = config
         self.padding_idx = config.pad_token_id
         self.vocab_size = config.vocab_size
         self.pp_group = get_pp_group()
@@ -554,6 +555,49 @@ def forward(
         else:
             return hidden_states
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+
+        # decoder layer
+        for i in range(start, end):
+            with get_global_expert_distribution_recorder().with_current_layer(i):
+                layer = self.model.layers[i]
+                forward_batch.hidden_states, forward_batch.residual = layer(
+                    positions,
+                    forward_batch.hidden_states,
+                    forward_batch,
+                    forward_batch.residual,
+                )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+            forward_batch.hidden_states = hidden_states
+            # logits process
+            result = self.logits_processor(
+                input_ids, forward_batch.hidden_states, self.lm_head, forward_batch
+            )
+        else:
+            result = None
+
+        return result
+
     @property
     def start_layer(self):
         return self.model.start_layer
diff --git a/python/sglang/srt/models/qwen3.py b/python/sglang/srt/models/qwen3.py
index 9c36598397fb..6289e61e7a72 100644
--- a/python/sglang/srt/models/qwen3.py
+++ b/python/sglang/srt/models/qwen3.py
@@ -1,5 +1,4 @@
 # Adapted from qwen2.py
-
 import logging
 from functools import partial
 from typing import Any, Dict, Iterable, List, Optional, Tuple
@@ -367,6 +366,47 @@ def forward(
         else:
             return hidden_states
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+        # decoder layer
+        for i in range(start, end):
+            layer = self.model.layers[i]
+            forward_batch.hidden_states, forward_batch.residual = layer(
+                positions,
+                forward_batch.hidden_states,
+                forward_batch,
+                forward_batch.residual,
+            )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+            forward_batch.hidden_states = hidden_states
+            # logits process
+            result = self.logits_processor(
+                input_ids, forward_batch.hidden_states, self.lm_head, forward_batch
+            )
+        else:
+            result = None
+
+        return result
+
     @property
     def start_layer(self):
         return self.model.start_layer
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index 7c7c7551be78..75d3b475cb0e 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -745,6 +745,49 @@ def forward(
         else:
             return hidden_states
 
+    @torch.no_grad()
+    def forward_split_prefill(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        split_interval: Tuple[int, int],  # [start, end) 0-based
+        input_embeds: torch.Tensor = None,
+    ):
+        start, end = split_interval
+        # embed
+        if start == 0:
+            if input_embeds is None:
+                forward_batch.hidden_states = self.model.embed_tokens(input_ids)
+            else:
+                forward_batch.hidden_states = input_embeds
+
+        # decoder layer
+        for i in range(start, end):
+            with get_global_expert_distribution_recorder().with_current_layer(i):
+                layer = self.model.layers[i]
+                forward_batch.hidden_states, forward_batch.residual = layer(
+                    positions,
+                    forward_batch.hidden_states,
+                    forward_batch,
+                    forward_batch.residual,
+                )
+
+        if end == self.model.config.num_hidden_layers:
+            # norm
+            hidden_states, _ = self.model.norm(
+                forward_batch.hidden_states, forward_batch.residual
+            )
+            forward_batch.hidden_states = hidden_states
+            # logits process
+            result = self.logits_processor(
+                input_ids, forward_batch.hidden_states, self.lm_head, forward_batch
+            )
+        else:
+            result = None
+
+        return result
+
     @property
     def start_layer(self):
         return self.model.start_layer
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index fc419b03c298..3fdf2a1f77a6 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -500,6 +500,7 @@ def filter_batch(
             "capture_hidden_mode",
             "padded_static_len",
             "mrope_positions",  # only used by qwen2-vl, thus not care
+            "split_index",  # for split prefill
         ]:
             output_dict[key] = getattr(batch, key)
         if not batch.forward_mode.is_target_verify():

From c28ad1990d29f3993c1eebff06673e819ac4b032 Mon Sep 17 00:00:00 2001
From: Peng Zhang <zhuangsen.zp@antgroup.com>
Date: Thu, 17 Jul 2025 06:56:26 +0800
Subject: [PATCH 011/396] [1/n] chore: decouple quantization implementation
 from vLLM dependency (#7992)

---
 .../layers/moe/fused_moe_triton/__init__.py   |   5 +-
 .../srt/layers/quantization/__init__.py       |   6 +-
 python/sglang/srt/layers/quantization/gptq.py | 610 +++++++++++---
 .../srt/layers/quantization/marlin_utils.py   | 781 ++++++++++++++++++
 .../srt/layers/quantization/moe_wna16.py      |  30 +
 .../srt/layers/quantization/quant_utils.py    | 166 ----
 .../srt/layers/quantization}/scalar_type.py   |   0
 .../sglang/srt/layers/quantization/utils.py   | 163 +++-
 sgl-kernel/python/sgl_kernel/fused_moe.py     |   3 +-
 sgl-kernel/tests/test_marlin_repack.py        |   6 +-
 test/srt/test_gptqmodel_dynamic.py            |   9 +-
 test/srt/test_int4_kernel.py                  | 301 -------
 test/srt/test_w4a8.py                         |  14 -
 13 files changed, 1478 insertions(+), 616 deletions(-)
 create mode 100644 python/sglang/srt/layers/quantization/marlin_utils.py
 delete mode 100644 python/sglang/srt/layers/quantization/quant_utils.py
 rename {sgl-kernel/python/sgl_kernel => python/sglang/srt/layers/quantization}/scalar_type.py (100%)
 delete mode 100644 test/srt/test_int4_kernel.py
 delete mode 100644 test/srt/test_w4a8.py

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py b/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py
index b68961931d54..839b659fe31b 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py
@@ -1,10 +1,11 @@
 from contextlib import contextmanager
 from typing import Any, Dict, Optional
 
-import sglang.srt.layers.moe.fused_moe_triton.fused_moe  # noqa
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
     fused_experts,
     get_config_file_name,
+    moe_align_block_size,
+    try_get_optimal_moe_config,
 )
 from sglang.srt.layers.moe.fused_moe_triton.layer import (
     FusedMoE,
@@ -37,4 +38,6 @@ def get_config() -> Optional[Dict[str, Any]]:
     "fused_moe",
     "fused_experts",
     "get_config_file_name",
+    "moe_align_block_size",
+    "try_get_optimal_moe_config",
 ]
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index 4ee498169baa..7507a5b62893 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -22,10 +22,6 @@
     from vllm.model_executor.layers.quantization.experts_int8 import ExpertsInt8Config
     from vllm.model_executor.layers.quantization.fbgemm_fp8 import FBGEMMFp8Config
     from vllm.model_executor.layers.quantization.gguf import GGUFConfig
-    from vllm.model_executor.layers.quantization.gptq import GPTQLinearMethod
-    from vllm.model_executor.layers.quantization.gptq_marlin import (
-        GPTQMarlinLinearMethod,
-    )
     from vllm.model_executor.layers.quantization.gptq_marlin_24 import (
         GPTQMarlin24Config,
     )
@@ -59,7 +55,9 @@ def override_quantization_method(self, *args, **kwargs):
 from sglang.srt.layers.quantization.fp8 import Fp8Config
 from sglang.srt.layers.quantization.gptq import (
     GPTQConfig,
+    GPTQLinearMethod,
     GPTQMarlinConfig,
+    GPTQMarlinLinearMethod,
     GPTQMarlinMoEMethod,
 )
 from sglang.srt.layers.quantization.modelopt_quant import (
diff --git a/python/sglang/srt/layers/quantization/gptq.py b/python/sglang/srt/layers/quantization/gptq.py
index 9e2b3e0630bf..3658d0b85793 100644
--- a/python/sglang/srt/layers/quantization/gptq.py
+++ b/python/sglang/srt/layers/quantization/gptq.py
@@ -1,48 +1,56 @@
 import logging
+from dataclasses import dataclass
 from fractions import Fraction
 from typing import Any, Callable, Dict, List, Optional, Union
 
 import torch
 
-from sglang.srt.layers.linear import LinearBase, set_weight_attrs
+from sglang.srt.layers.linear import LinearBase, LinearMethodBase, set_weight_attrs
+from sglang.srt.layers.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    RowvLLMParameter,
+    permute_param_layout_,
+)
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
-from sglang.srt.layers.quantization.utils import replace_parameter
-from sglang.srt.utils import is_cuda
-
-_is_cuda = is_cuda()
+from sglang.srt.layers.quantization.marlin_utils import (
+    apply_gptq_marlin_linear,
+    check_marlin_supported,
+    check_marlin_supports_shape,
+    marlin_is_k_full,
+    marlin_make_empty_g_idx,
+    marlin_make_workspace,
+    marlin_moe_permute_scales,
+    marlin_permute_scales,
+    marlin_repeat_scales_on_all_ranks,
+    marlin_sort_g_idx,
+    marlin_zero_points,
+    verify_marlin_supported,
+)
+from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
+from sglang.srt.layers.quantization.utils import replace_parameter, unpack_cols
 
 try:
     from vllm import _custom_ops as ops
-    from vllm.model_executor.layers.quantization.gptq import GPTQLinearMethod
-    from vllm.model_executor.layers.quantization.gptq_marlin import (
-        FusedMoE,
-        FusedMoEMethodBase,
-        FusedMoeWeightScaleSupported,
-        GPTQMarlinLinearMethod,
-        marlin_moe_permute_scales,
-    )
-    from vllm.model_executor.layers.quantization.marlin import MarlinLinearMethod
-    from vllm.model_executor.layers.quantization.utils.marlin_utils import (
-        check_marlin_supported,
-    )
-    from vllm.scalar_type import scalar_types
-
-    VLLM_AVAILABLE = True
 except ImportError:
-    VLLM_AVAILABLE = False
+    ops = None
 
-    GPTQLinearMethod = MarlinLinearMethod = Any
+from sglang.srt.utils import is_cuda
 
-    FusedMoEMethodBase = QuantizeMethodBase
+_is_cuda = is_cuda()
 
-    class scalar_types:
-        uint4b8 = "uint4b8"
-        uint8b128 = "uint8b128"
+if _is_cuda:
+    from sgl_kernel import fused_marlin_moe
 
 
+FusedMoEMethodBase = QuantizeMethodBase
+
 logger = logging.getLogger(__name__)
 
 
@@ -54,6 +62,38 @@ def check_marlin_format(hf_quant_cfg: Dict[str, Any]) -> bool:
     )
 
 
+def gptq_marlin_moe_repack(
+    b_q_weight: torch.Tensor,
+    perm: torch.Tensor,
+    size_k: int,
+    size_n: int,
+    num_bits: int,
+) -> torch.Tensor:
+    num_experts = b_q_weight.shape[0]
+    assert size_k % 16 == 0
+    output = torch.empty(
+        (num_experts, size_k // 16, size_n * (num_bits // 2)),
+        device=b_q_weight.device,
+        dtype=b_q_weight.dtype,
+    )
+    for e in range(num_experts):
+        output[e] = torch.ops.sgl_kernel.gptq_marlin_repack(
+            b_q_weight[e], perm[e], size_k, size_n, num_bits
+        )
+    return output
+
+
+@dataclass
+class MarlinLinearLayerConfig:
+    full_weight_shape: tuple[int, int]  # [in, out]
+    partition_weight_shape: tuple[int, int]
+    weight_type: ScalarType
+    act_type: torch.dtype
+    group_size: int
+    zero_points: bool
+    has_g_idx: bool
+
+
 class GPTQConfig(QuantizationConfig):
     """Config class for GPTQ.
 
@@ -151,11 +191,16 @@ def from_config(cls, config: Dict[str, Any]) -> "GPTQConfig":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional[GPTQLinearMethod]:
+    ) -> Optional["LinearMethodBase"]:
         # Delay the import to avoid circular dependency
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
         from sglang.srt.layers.quantization import get_linear_quant_method
 
-        return get_linear_quant_method(self, layer, prefix, GPTQLinearMethod)
+        if isinstance(layer, LinearBase):
+            return get_linear_quant_method(self, layer, prefix, GPTQLinearMethod)
+        elif isinstance(layer, FusedMoE):
+            raise TypeError("GPTQ Method does not support MoE, please use gptq_marlin")
+        return None
 
 
 class GPTQMarlinConfig(QuantizationConfig):
@@ -313,14 +358,6 @@ def get_quant_method(
 
         if isinstance(layer, FusedMoE):
             return GPTQMarlinMoEMethod(self)
-            # TODO: re-enable after SGLang syncs with vllm >= 0.7.3
-            # if layer.num_experts > 32:
-            #     # For MoEs with many experts the moe_wna16 kernel is faster
-            #     return MoeWNA16Config.from_config(self.full_config).get_quant_method(
-            #         layer, prefix
-            #     )
-            # else:
-            #     return GPTQMarlinMoEMethod(self)
         return get_linear_quant_method(self, layer, prefix, GPTQMarlinLinearMethod)
 
     @classmethod
@@ -344,112 +381,439 @@ def is_gptq_marlin_compatible(cls, quant_config: Dict[str, Any]):
         if (num_bits, sym) not in cls.TYPE_MAP:
             return False
 
-        assert (
-            VLLM_AVAILABLE
-        ), "vllm is not installed, to use gptq_marlin, please install vllm"
-
         return check_marlin_supported(
             quant_type=cls.TYPE_MAP[(num_bits, sym)], group_size=group_size
         )
 
 
-class MarlinConfig(QuantizationConfig):
-    """Config class for Marlin.
+class GPTQLinearMethod(LinearMethodBase):
+    """Linear method for GPTQ.
 
-    Reference: https://github.com/IST-DASLab/marlin/tree/master
+    Args:
+        quant_config: The GPTQ quantization config.
     """
 
-    def __init__(
+    def __init__(self, quant_config: GPTQConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
         self,
-        group_size: int,
-        lm_head_quantized: bool,
-    ) -> None:
-        # Group size for the quantization.
-        self.group_size = group_size
-        self.lm_head_quantized = lm_head_quantized
-        if self.group_size != 128 and self.group_size != -1:
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del output_size  # Unused.
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        if input_size_per_partition % self.quant_config.group_size != 0:
             raise ValueError(
-                "Currently, only group size 128 and -1 (channelwise) "
-                "is supported for Marlin, but got group_size of "
-                f"{self.group_size}"
+                "The input size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size."
+            )
+        output_size_per_partition = sum(output_partition_sizes)
+        if output_size_per_partition % self.quant_config.pack_factor.numerator != 0:
+            raise ValueError(
+                "The output size is not aligned with the quantized "
+                "weight shape. This can be caused by too large "
+                "tensor parallel size."
             )
 
-        # 4 Bits packed into 32 bit datatype.
-        self.pack_factor = 32 // 4
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        self.use_shuffle = True
+        scale_and_zero_size = input_size // group_size
+        scale_and_zero_input_dim = None
+        if (
+            input_size != input_size_per_partition
+            and self.quant_config.group_size != -1
+        ):
+            if self.quant_config.desc_act:
+                self.use_shuffle = False
+            else:
+                # we need to partition qzeros and scales for exllama kernel
+                scale_and_zero_size = input_size_per_partition // group_size
+                scale_and_zero_input_dim = 0
+
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.pack_factor,
+                output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
 
-        # Tile size used by marlin kernels.
-        self.tile_size = 16
+        g_idx = RowvLLMParameter(
+            data=torch.tensor(
+                [
+                    i // self.quant_config.group_size
+                    for i in range(input_size_per_partition)
+                ],
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            weight_loader=weight_loader,
+        )
+        qzeros_args = {
+            "data": torch.empty(
+                scale_and_zero_size,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            "weight_loader": weight_loader,
+        }
+        weight_scale_args = {
+            "data": torch.empty(
+                scale_and_zero_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+        if scale_and_zero_input_dim is None:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+            qzeros = PackedColumnParameter(
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
 
-        # Min out_features dim
-        self.min_n_threads = 64
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+            qzeros = PackedvLLMParameter(
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
 
-        # Min in_features dim
-        self.min_k_threads = 128
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("g_idx", g_idx)
+        layer.register_parameter("qzeros", qzeros)
+        layer.register_parameter("scales", scales)
 
-        # Max parallel problems to solve at once (improves large
-        # batch performance)
-        self.max_parallel = 16
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # for torch.compile
+        layer.qzeros = torch.nn.Parameter(layer.qzeros.data, requires_grad=False)
+        layer.qweight = torch.nn.Parameter(layer.qweight.data, requires_grad=False)
+        layer.g_idx = torch.nn.Parameter(layer.g_idx.data, requires_grad=False)
+        layer.scales = torch.nn.Parameter(layer.scales.data, requires_grad=False)
+
+        # exllama needs to shuffle the weight after the weight is loaded
+        # here we do the shuffle on first forward pass
+        if self.use_shuffle:
+            if self.quant_config.desc_act:
+                layer.g_idx.data = torch.argsort(layer.g_idx).to(torch.int)
+            else:
+                layer.g_idx.data = torch.empty(
+                    (0,), dtype=torch.int, device=layer.g_idx.device
+                )
+            ops.gptq_shuffle(layer.qweight, layer.g_idx, self.quant_config.weight_bits)
 
-        # Permutation length used by the marlin kernels.
-        self.perm_len = 1024
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        out_shape = x.shape[:-1] + (layer.qweight.shape[-1],)
+        reshaped_x = x.reshape(-1, x.shape[-1])
+
+        output = ops.gptq_gemm(
+            reshaped_x,
+            layer.qweight,
+            layer.qzeros,
+            layer.scales,
+            layer.g_idx,
+            self.use_shuffle,
+            self.quant_config.weight_bits,
+        )
+        if bias is not None:
+            output.add_(bias)
+        return output.reshape(out_shape)
 
-    def __repr__(self) -> str:
-        return (
-            f"MarlinConfig(group_size={self.group_size}, "
-            f"lm_head_quantized={self.lm_head_quantized})"
+
+class GPTQMarlinLinearMethod(LinearMethodBase):
+    """Linear method for GPTQ Marlin.
+
+    Args:
+        quant_config: The GPTQ Marlin quantization config.
+    """
+
+    _kernel_backends_being_used: set[str] = set()
+
+    def __init__(self, quant_config: GPTQMarlinConfig) -> None:
+        self.quant_config = quant_config
+
+        # Verify supported on platform.
+        verify_marlin_supported(
+            quant_type=self.quant_config.quant_type,
+            group_size=self.quant_config.group_size,
         )
 
-    @classmethod
-    def get_name(cls) -> str:
-        return "marlin"
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        output_size_per_partition = sum(output_partition_sizes)
+        is_row_parallel = input_size != input_size_per_partition
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        self.kernel_config = MarlinLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_config.quant_type,
+            act_type=params_dtype,
+            group_size=self.quant_config.group_size,
+            zero_points=False,
+            has_g_idx=self.quant_config.desc_act,
+        )
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
 
-    @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
-        return [torch.half]
+        # Determine sharding
+        if marlin_repeat_scales_on_all_ranks(
+            self.quant_config.desc_act, self.quant_config.group_size, is_row_parallel
+        ):
+            # By setting scale_dim == None, weight_loader will
+            # repeat the scales on each GPU in TP>1 case.
+            scales_and_zp_input_dim = None
+            scales_and_zp_size = input_size // group_size
+        else:
+            # By setting scale_dim == 0, weight_loader will
+            # shard the scales in TP>1 case.
+            scales_and_zp_input_dim = 0
+            scales_and_zp_size = input_size_per_partition // group_size
+
+        # Quantized weights
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.pack_factor,
+                output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
 
-    @classmethod
-    # Need to figure it out
-    def get_min_capability(cls) -> int:
-        return 80
+        # Activation order
+        g_idx = RowvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            weight_loader=weight_loader,
+        )
 
-    @classmethod
-    def get_config_filenames(cls) -> List[str]:
-        return ["quantize_config.json"]
+        qzeros_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            "weight_loader": weight_loader,
+        }
+        weight_scale_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+
+        if scales_and_zp_input_dim is None:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+            qzeros = PackedColumnParameter(
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
 
-    @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "MarlinConfig":
-        group_size = cls.get_from_keys(config, ["group_size"])
-        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
-        return cls(group_size, lm_head_quantized)
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+            qzeros = PackedvLLMParameter(
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
 
-    @classmethod
-    def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]:
-        is_marlin_format = check_marlin_format(hf_quant_cfg)
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("g_idx", g_idx)
+        layer.register_parameter("scales", scales)
+        layer.register_parameter("qzeros", qzeros)
 
-        is_valid_user_quant = (
-            user_quant is None or user_quant == "gptq" or user_quant == "marlin"
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        device = getattr(layer, "qweight").device
+        c = self.kernel_config
+
+        check_marlin_supports_shape(
+            c.partition_weight_shape[1],  # out_features
+            c.partition_weight_shape[0],  # in_features
+            c.full_weight_shape[0],  # in_features
+            c.group_size,
         )
 
-        if is_marlin_format and is_valid_user_quant:
-            msg = "The model is serialized in {} format. Using {} kernel.".format(
-                cls.get_name(), cls.get_name()
+        row_parallel = c.partition_weight_shape[0] != c.full_weight_shape[0]
+        self.is_k_full = marlin_is_k_full(c.has_g_idx, row_parallel)
+
+        # Allocate marlin workspace.
+        self.workspace = marlin_make_workspace(device)
+
+        # Default names since marlin requires empty parameters for these,
+        # TODO: remove this requirement from marlin (allow optional tensors)
+        self.w_q_name = "qweight"
+        self.w_s_name = "scales"
+        self.w_zp_name = "qzeros"
+        self.w_gidx_name = "g_idx"
+
+        def _transform_param(
+            layer: torch.nn.Module, name: Optional[str], fn: Callable
+        ) -> None:
+            if name is not None and getattr(layer, name, None) is not None:
+
+                old_param = getattr(layer, name)
+                new_param = fn(old_param)
+                # replace the parameter with torch.nn.Parameter for TorchDynamo
+                # compatibility
+                replace_parameter(
+                    layer, name, torch.nn.Parameter(new_param.data, requires_grad=False)
+                )
+
+        def transform_w_q(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1, packed_dim=0)
+            x.data = torch.ops.sgl_kernel.gptq_marlin_repack(
+                x.data.contiguous(),
+                perm=layer.g_idx_sort_indices,
+                size_k=c.partition_weight_shape[0],
+                size_n=c.partition_weight_shape[1],
+                num_bits=c.weight_type.size_bits,
             )
-            logger.info(msg)
-            return cls.get_name()
+            return x
+
+        def transform_w_s(x):
+            assert isinstance(x, BasevLLMParameter)
+            permute_param_layout_(x, input_dim=0, output_dim=1)
+            x.data = marlin_permute_scales(
+                x.data.contiguous(),
+                size_k=c.partition_weight_shape[0],
+                size_n=c.partition_weight_shape[1],
+                group_size=c.group_size,
+            )
+            return x
 
-        return None
+        if c.has_g_idx:
+            g_idx, g_idx_sort_indices = marlin_sort_g_idx(
+                getattr(layer, self.w_gidx_name)
+            )
+            _transform_param(layer, self.w_gidx_name, lambda _: g_idx)
+            layer.g_idx_sort_indices = g_idx_sort_indices
+        else:
+            setattr(layer, self.w_gidx_name, marlin_make_empty_g_idx(device))
+            layer.g_idx_sort_indices = marlin_make_empty_g_idx(device)
 
-    def get_quant_method(
-        self, layer: torch.nn.Module, prefix: str
-    ) -> Optional[MarlinLinearMethod]:
-        # Delay the import to avoid circular dependency
-        from sglang.srt.layers.vocab_parallel_embedding import ParallelLMHead
+        if c.zero_points:
+            grouped_k = (
+                c.partition_weight_shape[0] // c.group_size if c.group_size != -1 else 1
+            )
+            _transform_param(
+                layer,
+                self.w_zp_name,
+                lambda x: marlin_zero_points(
+                    unpack_cols(
+                        x.t(),
+                        c.weight_type.size_bits,
+                        grouped_k,
+                        c.partition_weight_shape[1],
+                    ),
+                    size_k=grouped_k,
+                    size_n=c.partition_weight_shape[1],
+                    num_bits=c.weight_type.size_bits,
+                ),
+            )
+        else:
+            setattr(layer, self.w_zp_name, marlin_make_empty_g_idx(device))
+        _transform_param(layer, self.w_q_name, transform_w_q)
+        _transform_param(layer, self.w_s_name, transform_w_s)
 
-        if isinstance(layer, LinearBase) or (
-            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
-        ):
-            return MarlinLinearMethod(self)
-        return None
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        c = self.kernel_config
+
+        def _get_weight_params(
+            layer: torch.nn.Module,
+        ) -> tuple[
+            torch.Tensor,  # w_q
+            torch.Tensor,  # w_s
+            Optional[torch.Tensor],  # w_zp,
+            Optional[torch.Tensor],  # w_gidx
+        ]:
+            return (
+                getattr(layer, self.w_q_name),
+                getattr(layer, self.w_s_name),
+                getattr(layer, self.w_zp_name or "", None),
+                getattr(layer, self.w_gidx_name or "", None),
+            )
+
+        w_q, w_s, w_zp, w_gidx = _get_weight_params(layer)
+
+        # `process_weights_after_loading` will ensure w_zp and w_gidx are not
+        #  None for marlin
+        return apply_gptq_marlin_linear(
+            input=x,
+            weight=w_q,
+            weight_scale=w_s,
+            weight_zp=w_zp,  # type: ignore
+            g_idx=w_gidx,  # type: ignore
+            g_idx_sort_indices=layer.g_idx_sort_indices,
+            workspace=self.workspace,
+            wtype=c.weight_type,
+            input_size_per_partition=c.partition_weight_shape[0],
+            output_size_per_partition=c.partition_weight_shape[1],
+            is_k_full=self.is_k_full,
+            bias=bias,
+        )
 
 
 class GPTQMarlinMoEMethod(FusedMoEMethodBase):
@@ -467,6 +831,9 @@ def create_weights(
         params_dtype: torch.dtype,
         **extra_weight_attrs,
     ):
+        # Delay the import to avoid circular dependency
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
+
         intermediate_size = extra_weight_attrs.pop("intermediate_size")
 
         self.is_k_full = (not self.quant_config.desc_act) or (
@@ -644,20 +1011,20 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
                 requires_grad=False,
             )
         # Repack weights
-        marlin_w13_qweight = ops.gptq_marlin_moe_repack(
+        marlin_w13_qweight = gptq_marlin_moe_repack(
             layer.w13_qweight,
             layer.w13_g_idx_sort_indices,
             layer.w13_qweight.shape[1] * self.quant_config.pack_factor,
             layer.w13_qweight.shape[2],
-            self.quant_config.quant_type.size_bits,
+            self.quant_config.weight_bits,
         )
         replace_parameter(layer, "w13_qweight", marlin_w13_qweight)
-        marlin_w2_qweight = ops.gptq_marlin_moe_repack(
+        marlin_w2_qweight = gptq_marlin_moe_repack(
             layer.w2_qweight,
             layer.w2_g_idx_sort_indices,
             layer.w2_qweight.shape[1] * self.quant_config.pack_factor,
             layer.w2_qweight.shape[2],
-            self.quant_config.quant_type.size_bits,
+            self.quant_config.weight_bits,
         )
         replace_parameter(layer, "w2_qweight", marlin_w2_qweight)
         # Repack scales
@@ -698,13 +1065,19 @@ def apply(
         e_score_correction_bias: Optional[torch.Tensor] = None,
         activation: str = "silu",
     ) -> torch.Tensor:
+        # Delay the import to avoid circular dependency
+        from sglang.srt.layers.moe.topk import select_experts
+
         assert activation == "silu", "Only SiLU activation is supported."
+        assert (
+            scoring_func == "softmax"
+        ), "Only softmax score func is supported for now."
 
         # The input must currently be float16
         orig_dtype = x.dtype
         x = x.half()
 
-        topk_weights, topk_ids = FusedMoE.select_experts(
+        topk_weights, topk_ids = select_experts(
             hidden_states=x,
             router_logits=router_logits,
             use_grouped_topk=use_grouped_topk,
@@ -713,11 +1086,10 @@ def apply(
             topk_group=topk_group,
             num_expert_group=num_expert_group,
             custom_routing_function=custom_routing_function,
-            scoring_func=scoring_func,
-            e_score_correction_bias=e_score_correction_bias,
+            correction_bias=e_score_correction_bias,
         )
 
-        return torch.ops.vllm.fused_marlin_moe(
+        return fused_marlin_moe(
             x,
             layer.w13_qweight,
             layer.w2_qweight,
@@ -730,6 +1102,6 @@ def apply(
             g_idx2=layer.w2_g_idx,
             sort_indices1=layer.w13_g_idx_sort_indices,
             sort_indices2=layer.w2_g_idx_sort_indices,
-            quant_type_id=self.quant_config.quant_type.id,
+            num_bits=self.quant_config.weight_bits,
             is_k_full=self.is_k_full,
         ).to(orig_dtype)
diff --git a/python/sglang/srt/layers/quantization/marlin_utils.py b/python/sglang/srt/layers/quantization/marlin_utils.py
new file mode 100644
index 000000000000..503c3d003632
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/marlin_utils.py
@@ -0,0 +1,781 @@
+# SPDX-License-Identifier: Apache-2.0
+# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+
+import logging
+from typing import Any, Optional
+
+import numpy
+import torch
+
+from sglang.srt.layers.linear import LinearBase, LinearMethodBase
+from sglang.srt.layers.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
+from sglang.srt.layers.quantization.utils import pack_cols, unpack_cols
+from sglang.srt.layers.vocab_parallel_embedding import ParallelLMHead
+from sglang.srt.utils import get_device_capability
+
+try:
+    from vllm import _custom_ops as ops
+except ImportError:
+    ops = None
+
+logger = logging.getLogger(__name__)
+
+GPTQ_MARLIN_TILE = 16
+GPTQ_MARLIN_MIN_THREAD_N = 64
+GPTQ_MARLIN_MIN_THREAD_K = 128
+GPTQ_MARLIN_MAX_PARALLEL = 16
+
+MARLIN_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+# In case there is a performance issue with Marlin, the variable below can be
+# changed to False, which allows Marlin to perform global reductions in fp16
+# precision (instead of fp32), and therefore, save on some memory movements.
+USE_FP32_REDUCE_DEFAULT = True
+
+
+# For binary size and compile time, we don't support the same types for with and
+#  without runtime zero-point. We support common cases, i.e. AWQ and GPTQ.
+#  TODO: we may want to move this into the C++ so its closer to the actual impl
+def query_marlin_supported_quant_types(
+    has_zp: Optional[bool] = None,
+    include_fp_type: bool = True,
+    device_capability: Optional[int] = None,
+):
+    if device_capability is None:
+        major, minor = get_device_capability()
+        capability = major * 10 + minor
+        device_capability = -1 if capability is None else capability
+
+    if device_capability < 80:
+        return []
+
+    # - has_zp is True: return quant_types that has zero points
+    # - has_zp is False: return quant_types that has not zero points
+    # - has_zp is None: both
+    if has_zp is None:
+        types0 = query_marlin_supported_quant_types(
+            False, include_fp_type, device_capability
+        )
+        types1 = query_marlin_supported_quant_types(
+            True, include_fp_type, device_capability
+        )
+        return types0 + types1
+
+    if has_zp:
+        # AWQ style, unsigned + runtime zero-point
+        return [scalar_types.uint4]
+    else:
+        # GPTQ style, unsigned + symmetric bias
+        res = [scalar_types.uint4b8, scalar_types.uint8b128]
+        if include_fp_type:
+            res += [scalar_types.float8_e4m3fn, scalar_types.float4_e2m1f]
+        return res
+
+
+def _check_marlin_supported(
+    quant_type: ScalarType,
+    group_size: Optional[int],
+    has_zp: bool,
+    device_capability: Optional[int] = None,
+) -> tuple[bool, Optional[str]]:
+
+    if device_capability is None:
+        major, minor = get_device_capability()
+        capability = major * 10 + minor
+        device_capability = -1 if capability is None else capability
+
+    supported_types = query_marlin_supported_quant_types(
+        has_zp, True, device_capability
+    )
+
+    if quant_type not in supported_types:
+        return (
+            False,
+            f"Marlin does not support weight_bits = {quant_type}. "
+            f"Only types = {supported_types} "
+            f"are supported (for group_size = {group_size}, "
+            f"device_capability = {device_capability}, zp = {has_zp}).",
+        )
+    if group_size is None or group_size not in MARLIN_SUPPORTED_GROUP_SIZES:
+        return (
+            False,
+            f"Marlin does not support group_size = {group_size}. "
+            f"Only group_sizes = {MARLIN_SUPPORTED_GROUP_SIZES} "
+            "are supported.",
+        )
+
+    return True, None
+
+
+def check_marlin_supported(
+    quant_type: ScalarType,
+    group_size: int,
+    has_zp: bool = False,
+    device_capability: Optional[int] = None,
+) -> bool:
+    cond, _ = _check_marlin_supported(quant_type, group_size, has_zp, device_capability)
+    return cond
+
+
+def verify_marlin_supported(
+    quant_type: ScalarType, group_size: int, has_zp: bool = False
+) -> None:
+    cond, err_msg = _check_marlin_supported(quant_type, group_size, has_zp)
+    if not cond:
+        assert err_msg is not None
+        raise ValueError(err_msg)
+
+
+def verify_marlin_supports_shape(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    input_size: int,
+    group_size: int,
+) -> None:
+
+    # Validate output_size_per_partition
+    if output_size_per_partition % GPTQ_MARLIN_MIN_THREAD_N != 0:
+        raise ValueError(
+            f"Weight output_size_per_partition = "
+            f"{output_size_per_partition} is not divisible by "
+            f" min_thread_n = {GPTQ_MARLIN_MIN_THREAD_N}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+    # Validate input_size_per_partition
+    if input_size_per_partition % GPTQ_MARLIN_MIN_THREAD_K != 0:
+        raise ValueError(
+            f"Weight input_size_per_partition = "
+            f"{input_size_per_partition} is not divisible "
+            f"by min_thread_k = {GPTQ_MARLIN_MIN_THREAD_K}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+    if group_size < input_size and input_size_per_partition % group_size != 0:
+        raise ValueError(
+            f"Weight input_size_per_partition = {input_size_per_partition}"
+            f" is not divisible by group_size = {group_size}. "
+            "Consider reducing tensor_parallel_size or running "
+            "with --quantization gptq."
+        )
+
+
+def check_marlin_supports_shape(
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    input_size: int,
+    group_size: int,
+) -> tuple[bool, Optional[str]]:
+    try:
+        verify_marlin_supports_shape(
+            output_size_per_partition, input_size_per_partition, input_size, group_size
+        )
+    except ValueError as e:
+        return False, e.__str__()
+    return True, None
+
+
+def check_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    output_size_per_partition = (
+        getattr(layer, "output_size_per_partition", None) or layer.output_size
+    )
+    input_size_per_partition = (
+        getattr(layer, "input_size_per_partition", None) or layer.input_size
+    )
+
+    return check_marlin_supports_shape(
+        output_size_per_partition=output_size_per_partition,
+        input_size_per_partition=input_size_per_partition,
+        input_size=layer.input_size,
+        group_size=group_size,
+    )[0]
+
+
+def check_moe_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    hidden_size = layer.hidden_size
+    intermediate_size_per_partition = layer.intermediate_size_per_partition
+    # apply_router_weight_on_input is not supported for moe marlin
+    supports_router_weight = not layer.apply_router_weight_on_input
+    # moe marlin requires the activation to be silu
+    supports_activation = layer.activation == "silu"
+
+    # gate-up: (n, k) = (intermediate_size_per_partition * 2, hidden_size)
+    # down: (n, k) = (hidden_size, intermediate_size_per_partition)
+    # moe marlin requires n % 128 == 0 and k % 64 == 0
+    supports_shape = (
+        hidden_size % 128 == 0
+        and intermediate_size_per_partition % max(64, group_size) == 0
+    )
+    supports_group_size = group_size in [-1, 32, 64, 128]
+    return (
+        supports_shape
+        and supports_group_size
+        and supports_router_weight
+        and supports_activation
+    )
+
+
+def marlin_make_workspace(
+    device: torch.device, max_blocks_per_sm: int = 1
+) -> torch.Tensor:
+    # In the new marlin kernel, we use the num of threadblocks as workspace
+    # size. The num of threadblocks is is sms_count * max_blocks_per_sm.
+    sms = torch.cuda.get_device_properties(device).multi_processor_count
+    return torch.zeros(
+        sms * max_blocks_per_sm, dtype=torch.int, device=device, requires_grad=False
+    )
+
+
+def marlin_is_k_full(act_order: bool, is_row_parallel: bool) -> bool:
+    return (not act_order) or (act_order and not is_row_parallel)
+
+
+def marlin_repeat_scales_on_all_ranks(
+    act_order: bool, group_size: int, is_row_parallel: bool
+) -> bool:
+    # Need to repeat scales on every rank if act_ordering or
+    # channelwise and RowParallelLinear
+    is_channelwise = group_size == -1
+    return act_order or (is_channelwise and is_row_parallel)
+
+
+def marlin_make_empty_g_idx(device: torch.device) -> torch.Tensor:
+    return torch.nn.Parameter(
+        torch.empty(0, dtype=torch.int, device=device), requires_grad=False
+    )
+
+
+def marlin_make_empty_zp(device: torch.device) -> torch.Tensor:
+    return torch.nn.Parameter(
+        torch.empty(0, dtype=torch.int, device=device), requires_grad=False
+    )
+
+
+def marlin_sort_g_idx(g_idx: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
+    g_idx_sort_indices = torch.argsort(g_idx).to(torch.int)
+    return g_idx[g_idx_sort_indices], g_idx_sort_indices
+
+
+def get_scale_perms():
+    scale_perm: list[int] = []
+    for i in range(8):
+        scale_perm.extend([i + 8 * j for j in range(8)])
+    scale_perm_single: list[int] = []
+    for i in range(4):
+        scale_perm_single.extend([2 * i + j for j in [0, 1, 8, 9, 16, 17, 24, 25]])
+    return scale_perm, scale_perm_single
+
+
+def marlin_permute_scales(
+    s: torch.Tensor, size_k: int, size_n: int, group_size: int
+) -> torch.Tensor:
+
+    scale_perm, scale_perm_single = get_scale_perms()
+    if group_size < size_k and group_size != -1:
+        s = s.reshape((-1, len(scale_perm)))[:, scale_perm]
+    else:
+        s = s.reshape((-1, len(scale_perm_single)))[:, scale_perm_single]
+    s = s.reshape((-1, size_n)).contiguous()
+
+    return s
+
+
+def marlin_moe_permute_scales(
+    s: torch.Tensor,
+    size_k: int,
+    size_n: int,
+    group_size: int,
+):
+    num_experts = s.shape[0]
+    output = torch.empty(
+        (num_experts, s.shape[1], s.shape[2]),
+        device=s.device,
+        dtype=s.dtype,
+    )
+
+    for e in range(num_experts):
+        output[e] = marlin_permute_scales(s[e], size_k, size_n, group_size)
+    return output
+
+
+def marlin_zero_points(
+    zp: torch.Tensor, size_k: int, size_n: int, num_bits: int
+) -> torch.Tensor:
+    # Permute zero-points in a similar way to scales, but do not use the
+    # "single" permutation, since zero-points are applied on every MMA
+    scale_perm, _ = get_scale_perms()
+    zp = zp.reshape((-1, len(scale_perm)))[:, scale_perm]
+
+    # Interleave column dim (for the dequantize code) and pack it to int32
+    if num_bits == 4:
+        interleave = numpy.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = numpy.array([0, 2, 1, 3])
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    zp = zp.reshape((-1, len(interleave)))[:, interleave].ravel()
+    zp = zp.reshape((-1, size_n)).contiguous()
+    zp = pack_cols(zp, num_bits, size_k, size_n)
+
+    return zp
+
+
+def awq_to_marlin_zero_points(
+    q_zp_packed: torch.Tensor, size_k: int, size_n: int, num_bits: int
+) -> torch.Tensor:
+    # AWQ zero-points are quantized and packed on the column dim.
+    # In addition, the values are permuted based on dequantizer.
+    # Here we undo both of these, and then apply marlin permutation
+    # and pack it back.
+    q_zp = unpack_cols(q_zp_packed, num_bits, size_k, size_n)
+
+    # Undo interleaving (use argsort(..) to get inverse perm)
+    if num_bits == 4:
+        undo_interleave = numpy.argsort(numpy.array([0, 2, 4, 6, 1, 3, 5, 7]))
+    elif num_bits == 8:
+        undo_interleave = numpy.argsort(numpy.array([0, 2, 1, 3]))
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    q_zp = q_zp.reshape((-1, len(undo_interleave)))[:, undo_interleave].ravel()
+    q_zp = q_zp.reshape((-1, size_n)).contiguous()
+
+    marlin_zp = marlin_zero_points(q_zp, size_k, size_n, num_bits)
+    return marlin_zp
+
+
+def moe_awq_to_marlin_zero_points(
+    q_zp_packed: torch.Tensor, size_k: int, size_n: int, num_bits: int
+):
+    num_experts = q_zp_packed.shape[0]
+    output = torch.empty(
+        (num_experts, q_zp_packed.shape[1], q_zp_packed.shape[2]),
+        device=q_zp_packed.device,
+        dtype=q_zp_packed.dtype,
+    )
+    for e in range(num_experts):
+        output[e] = awq_to_marlin_zero_points(q_zp_packed[e], size_k, size_n, num_bits)
+    return output
+
+
+def maybe_warn_marlin_atomic_add(device, dtype):
+    if torch.compiler.is_dynamo_compiling():
+        return
+    device_capability = torch.cuda.get_device_capability(device)
+    if device_capability[0] < 9 and dtype == torch.bfloat16:
+        logger.info_once(
+            "You are running Marlin kernel with bf16 on GPUs before SM90. "
+            "You can consider change to fp16 to achieve better performance "
+            "if possible."
+        )
+
+
+def maybe_warn_marlin_atomic_add_env():
+    if torch.compiler.is_dynamo_compiling():
+        return
+    # TODO(yiyun): Need to add sglang's MARLIN_USE_ATOMIC_ADD: bool = False
+    if True:
+        return
+    # if envs.VLLM_MARLIN_USE_ATOMIC_ADD:
+    #     return
+    logger.info_once(
+        "Marlin kernel can achieve better performance for small size_n "
+        "with experimental use_atomic_add feature. "
+        "You can consider set environment variable "
+        "VLLM_MARLIN_USE_ATOMIC_ADD to 1 if possible."
+    )
+
+
+def should_use_atomic_add_reduce(
+    m: int, n: int, k: int, device: torch.device, dtype: torch.dtype
+) -> bool:
+
+    # the performance of atomicAdd is better than global reduce
+    # only when m*n is small and k is large
+    if n >= 2048 or k < 2048 or device.type != "cuda":
+        return False
+
+    # disable atomicAdd reduce by default,
+    # one can enable it with VLLM_MARLIN_USE_ATOMIC_ADD=1
+    # TODO: Need to add sglang's MARLIN_USE_ATOMIC_ADD: bool = False
+    if not True:
+        maybe_warn_marlin_atomic_add_env()
+        return False
+
+    # sm8x doesn't support atomicAdd + bfloat16 natively
+    device_capability = torch.cuda.get_device_capability(device)
+    if device_capability[0] < 9 and dtype == torch.bfloat16:
+        maybe_warn_marlin_atomic_add(device, dtype)
+        return False
+
+    return True
+
+
+def apply_gptq_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_zp: torch.Tensor,
+    g_idx: torch.Tensor,
+    g_idx_sort_indices: torch.Tensor,
+    workspace: torch.Tensor,
+    wtype: ScalarType,
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    is_k_full: bool,
+    bias: Optional[torch.Tensor] = None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (output_size_per_partition,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0),
+        n=output_size_per_partition,
+        k=reshaped_x.size(1),
+        device=input.device,
+        dtype=input.dtype,
+    )
+
+    output = ops.gptq_marlin_gemm(
+        reshaped_x,
+        None,
+        weight,
+        weight_scale,
+        None,
+        weight_zp,
+        g_idx,
+        g_idx_sort_indices,
+        workspace,
+        wtype,
+        size_m=reshaped_x.shape[0],
+        size_n=output_size_per_partition,
+        size_k=input_size_per_partition,
+        is_k_full=is_k_full,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+        is_zp_float=False,
+    )
+
+    if bias is not None:
+        output.add_(bias)  # In-place add
+
+    return output.reshape(out_shape)
+
+
+def apply_awq_marlin_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_zp: torch.Tensor,
+    g_idx: torch.Tensor,
+    g_idx_sort_indices: torch.Tensor,
+    workspace: torch.Tensor,
+    quant_type: ScalarType,
+    output_size_per_partition: int,
+    input_size_per_partition: int,
+    bias: Optional[torch.Tensor] = None,
+    use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT,
+) -> torch.Tensor:
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (output_size_per_partition,)
+
+    use_atomic_add = should_use_atomic_add_reduce(
+        m=reshaped_x.size(0),
+        n=output_size_per_partition,
+        k=reshaped_x.size(1),
+        device=input.device,
+        dtype=input.dtype,
+    )
+
+    output = ops.gptq_marlin_gemm(
+        reshaped_x,
+        None,
+        weight,
+        weight_scale,
+        None,
+        weight_zp,
+        g_idx,
+        g_idx_sort_indices,
+        workspace,
+        quant_type,
+        size_m=reshaped_x.shape[0],
+        size_n=output_size_per_partition,
+        size_k=input_size_per_partition,
+        use_atomic_add=use_atomic_add,
+        use_fp32_reduce=use_fp32_reduce,
+        is_zp_float=False,
+    )
+
+    if bias is not None:
+        output.add_(bias)  # In-place add
+
+    return output.reshape(out_shape)
+
+
+class MarlinConfig(QuantizationConfig):
+    """Config class for Marlin.
+
+    Reference: https://github.com/IST-DASLab/marlin/tree/master
+    """
+
+    def __init__(
+        self,
+        group_size: int,
+        lm_head_quantized: bool,
+    ) -> None:
+        super().__init__()
+
+        # Group size for the quantization.
+        self.group_size = group_size
+        self.lm_head_quantized = lm_head_quantized
+        if self.group_size != 128 and self.group_size != -1:
+            raise ValueError(
+                "Currently, only group size 128 and -1 (channelwise) "
+                "is supported for Marlin, but got group_size of "
+                f"{self.group_size}"
+            )
+
+        # 4 Bits packed into 32 bit datatype.
+        self.pack_factor = 32 // 4
+
+        # Tile size used by marlin kernels.
+        self.tile_size = 16
+
+        # Min out_features dim
+        self.min_n_threads = 64
+
+        # Min in_features dim
+        self.min_k_threads = 128
+
+        # Max parallel problems to solve at once (improves large
+        # batch performance)
+        self.max_parallel = 16
+
+        # Permutation length used by the marlin kernels.
+        self.perm_len = 1024
+
+    def __repr__(self) -> str:
+        return (
+            f"MarlinConfig(group_size={self.group_size}, "
+            f"lm_head_quantized={self.lm_head_quantized})"
+        )
+
+    @classmethod
+    def get_name(cls) -> str:
+        return "marlin"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half]
+
+    @classmethod
+    # Need to figure it out
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "MarlinConfig":
+        group_size = cls.get_from_keys(config, ["group_size"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        return cls(group_size, lm_head_quantized)
+
+    @classmethod
+    def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]:
+        # compat: autogptq >=0.8.0 use checkpoint_format: str
+        # compat: autogptq <=0.7.1 is_marlin_format: bool
+        is_marlin_format = hf_quant_cfg.get(
+            "checkpoint_format"
+        ) == "marlin" or hf_quant_cfg.get("is_marlin_format", False)
+
+        is_valid_user_quant = (
+            user_quant is None or user_quant == "gptq" or user_quant == "marlin"
+        )
+
+        if is_marlin_format and is_valid_user_quant:
+            msg = "The model is serialized in {} format. Using {} kernel.".format(
+                cls.get_name(), cls.get_name()
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["MarlinLinearMethod"]:
+        if isinstance(layer, LinearBase) or (
+            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
+        ):
+            return MarlinLinearMethod(self)
+        return None
+
+
+class MarlinLinearMethod(LinearMethodBase):
+    """Linear method for Marlin.
+
+    Args:
+        quant_config: The Marlin quantization config.
+    """
+
+    def __init__(self, quant_config: MarlinConfig):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del output_size  # Unused.
+        weight_loader = extra_weight_attrs["weight_loader"]
+
+        if params_dtype != torch.float16:
+            raise ValueError(
+                f"The params dtype must be float16, but got {params_dtype}"
+            )
+
+        # Validate output_size_per_partition
+        output_size_per_partition = sum(output_partition_sizes)
+        if output_size_per_partition % self.quant_config.min_n_threads != 0:
+            raise ValueError(
+                f"Weight output_size_per_partition = "
+                f"{output_size_per_partition} is not divisible by "
+                f"min_n_threads = {self.quant_config.min_n_threads}."
+            )
+        if output_size_per_partition % self.quant_config.pack_factor != 0:
+            raise ValueError(
+                f"Weight output_size_per_partition = "
+                f"{output_size_per_partition} is not divisible by "
+                f"pack_factor = {self.quant_config.pack_factor}."
+            )
+
+        # Validate input_size_per_partition
+        if input_size_per_partition % self.quant_config.min_k_threads != 0:
+            raise ValueError(
+                f"Weight input_size_per_partition = "
+                f"{input_size_per_partition} is not divisible by "
+                f"min_k_threads = {self.quant_config.min_k_threads}."
+            )
+        if (
+            self.quant_config.group_size != -1
+            and input_size_per_partition % self.quant_config.group_size != 0
+        ):
+            raise ValueError(
+                f"Weight input_size_per_partition = "
+                f"{input_size_per_partition} is not divisible by "
+                f"group_size = {self.quant_config.group_size}."
+            )
+
+        # Check that we have at least 4 tiles horizontally in the shard
+        num_tiles_per_perm = self.quant_config.perm_len // (
+            self.quant_config.tile_size**2
+        )
+        if output_size_per_partition % num_tiles_per_perm != 0:
+            raise ValueError("Each permutation group must reside on the same gpu")
+
+        # Quantized 4Bit weights packed into Int32.
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.tile_size,
+                output_size_per_partition
+                * self.quant_config.tile_size
+                // self.quant_config.pack_factor,
+                device="cuda",
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            marlin_tile_size=self.quant_config.tile_size,
+            weight_loader=weight_loader,
+        )
+
+        # Determine if channelwise or not
+        input_groups = (
+            1
+            if self.quant_config.group_size == -1
+            else input_size_per_partition // self.quant_config.group_size
+        )
+
+        weight_scale_args = {
+            "data": torch.empty(
+                input_groups,
+                output_size_per_partition,
+                device="cuda",
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+        if input_groups == 1:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+
+        # Allocate workspace (Used for internal locking mechanism)
+        max_workspace_size = (
+            output_size_per_partition // self.quant_config.min_n_threads
+        ) * self.quant_config.max_parallel
+
+        workspace = BasevLLMParameter(
+            data=torch.zeros(max_workspace_size, device="cuda", dtype=torch.int),
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("B", qweight)
+        layer.register_parameter("s", scales)
+        layer.register_parameter("workspace", workspace)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # required by torch.compile
+        layer.B = torch.nn.Parameter(layer.B.data, requires_grad=False)
+        layer.s = torch.nn.Parameter(layer.s.data, requires_grad=False)
+        layer.workspace = torch.nn.Parameter(layer.workspace.data, requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        qweight = layer.B
+        scales = layer.s
+        workspace = layer.workspace
+
+        x_2d = x.view(-1, x.shape[-1])
+
+        size_m = x_2d.shape[0]
+        size_k = x_2d.shape[1]
+        size_n = scales.shape[1]
+
+        output_2d = ops.marlin_gemm(
+            x_2d, qweight, scales, workspace, size_m, size_n, size_k
+        )
+
+        output = output_2d.view(x.shape[:-1] + (output_2d.shape[1],))
+
+        if bias is not None:
+            output.add_(bias)  # In-place add
+
+        return output
diff --git a/python/sglang/srt/layers/quantization/moe_wna16.py b/python/sglang/srt/layers/quantization/moe_wna16.py
index 0bae43435f07..fe812595a80b 100644
--- a/python/sglang/srt/layers/quantization/moe_wna16.py
+++ b/python/sglang/srt/layers/quantization/moe_wna16.py
@@ -19,6 +19,36 @@
 logger = logging.getLogger(__name__)
 
 
+def get_weight_perm(num_bits: int):
+    perm_list: List[int] = []
+    for i in range(32):
+        perm1: List[int] = []
+        col = i // 4
+        for block in [0, 1]:
+            for row in [
+                2 * (i % 4),
+                2 * (i % 4) + 1,
+                2 * (i % 4 + 4),
+                2 * (i % 4 + 4) + 1,
+            ]:
+                perm1.append(16 * row + col + 8 * block)
+        for j in range(4):
+            perm_list.extend([p + 256 * j for p in perm1])
+
+    perm = np.array(perm_list)
+
+    if num_bits == 4:
+        interleave = np.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = np.array([0, 2, 1, 3])
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    perm = perm.reshape((-1, len(interleave)))[:, interleave].ravel()
+    perm = torch.from_numpy(perm)
+    return perm
+
+
 class MoeWNA16Config(QuantizationConfig):
     """Config class for MOE WNA16 (W8A16/W4A16) quantization."""
 
diff --git a/python/sglang/srt/layers/quantization/quant_utils.py b/python/sglang/srt/layers/quantization/quant_utils.py
deleted file mode 100644
index 59a1b1fdcfa6..000000000000
--- a/python/sglang/srt/layers/quantization/quant_utils.py
+++ /dev/null
@@ -1,166 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/quant_utils.py
-
-from typing import Optional
-
-import numpy
-import torch
-from sgl_kernel.scalar_type import ScalarType
-
-
-def get_pack_factor(num_bits):
-    assert 32 % num_bits == 0, f"Unsupported num_bits = {num_bits}"
-    return 32 // num_bits
-
-
-def pack_cols(
-    q_w: torch.Tensor,
-    num_bits: int,
-    size_k: int,
-    size_n: int,
-):
-    assert q_w.shape == (size_k, size_n)
-
-    pack_factor = get_pack_factor(num_bits)
-    assert size_n % pack_factor == 0
-
-    orig_device = q_w.device
-
-    q_w = q_w.cpu().numpy().astype(numpy.uint32)
-
-    q_res = numpy.zeros((size_k, size_n // pack_factor), dtype=numpy.uint32)
-
-    for i in range(pack_factor):
-        q_res |= q_w[:, i::pack_factor] << num_bits * i
-
-    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
-    q_res = q_res.contiguous()
-
-    return q_res
-
-
-def unpack_cols(
-    packed_q_w: torch.Tensor,
-    num_bits: int,
-    size_k: int,
-    size_n: int,
-):
-    pack_factor = get_pack_factor(num_bits)
-    assert size_n % pack_factor == 0
-    assert packed_q_w.shape == (
-        size_k,
-        size_n // pack_factor,
-    ), "packed_q_w.shape = {} size_k = {}, size_n = {} pack_Factor = {}".format(
-        packed_q_w.shape, size_k, size_n, pack_factor
-    )
-
-    orig_device = packed_q_w.device
-
-    packed_q_w_cpu = packed_q_w.cpu().numpy().astype(numpy.uint32)
-    q_res = numpy.zeros((size_k, size_n), dtype=numpy.uint32)
-
-    mask = (1 << num_bits) - 1
-    for i in range(pack_factor):
-        vals = packed_q_w_cpu & mask
-        packed_q_w_cpu >>= num_bits
-        q_res[:, i::pack_factor] = vals
-
-    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
-    q_res = q_res.contiguous()
-
-    return q_res
-
-
-def quantize_weights(
-    w: torch.Tensor,
-    quant_type: ScalarType,
-    group_size: Optional[int],
-    zero_points: bool = False,
-    ref_zero_points_after_scales: bool = False,
-):
-    assert (
-        quant_type.is_integer()
-    ), "Floating point quantization may work but has not been tested"
-    assert not zero_points or group_size is not None, (
-        "to have group zero points, group_size must be provided "
-        "(-1 group_size is channelwise)"
-    )
-
-    orig_device = w.device
-    orig_type = w.dtype
-    size_k, size_n = w.shape
-
-    assert w.is_floating_point(), "w must be float"
-
-    if group_size == -1:
-        group_size = size_k
-
-    # Reshape to [groupsize, -1]
-    if group_size is not None and group_size < size_k:
-        w = w.reshape((-1, group_size, size_n))
-        w = w.permute(1, 0, 2)
-        w = w.reshape((group_size, -1))
-
-    # Compute scale for each group
-    max_val = torch.max(w, 0, keepdim=True).values
-    min_val = torch.min(w, 0, keepdim=True).values
-
-    max_q_val = quant_type.max()
-    min_q_val = quant_type.min()
-
-    w_s = torch.Tensor([1.0]).to(w.device)  # unscaled case
-    maybe_w_zp = None
-    if group_size is not None:
-        if zero_points:
-            assert not quant_type.is_signed() and quant_type.max() > 0
-            w_s = (max_val - min_val).clamp(min=1e-5) / quant_type.max()
-            maybe_w_zp = (
-                torch.round(torch.abs(min_val / w_s)).clamp(min_q_val, max_q_val).int()
-            )
-        else:
-            # If the bias is such that there are no possible negative/positive
-            #  values, set the max value to inf to avoid divide by 0
-            w_s = torch.max(
-                abs(max_val / (max_q_val if max_q_val != 0 else torch.inf)),
-                abs(min_val / (min_q_val if min_q_val != 0 else torch.inf)),
-            )
-
-    # Quantize
-    w_q = torch.round(w / w_s).int() + (maybe_w_zp if zero_points else 0)
-    w_q = torch.clamp(w_q, min_q_val, max_q_val)
-
-    # Compute ref (dequantized)
-    # For some kernels (namely Machete) the zero-points are applied after the
-    # scales are applied, for this case computing the reference in similar way
-    # allows us to use tighter error tolerances in our unit tests.
-    if ref_zero_points_after_scales and maybe_w_zp is not None:
-        w_ref = w_q.to(orig_type) * w_s - maybe_w_zp.to(orig_type) * w_s
-    else:
-        w_ref = (w_q - (maybe_w_zp if zero_points else 0)).to(orig_type) * w_s
-
-    if quant_type.has_bias():
-        w_q += quant_type.bias
-
-    # Restore original shapes
-    if group_size is not None and group_size < size_k:
-
-        def reshape_w(w):
-            w = w.reshape((group_size, -1, size_n))
-            w = w.permute(1, 0, 2)
-            w = w.reshape((size_k, size_n)).contiguous()
-            return w
-
-        w_q = reshape_w(w_q)
-        w_ref = reshape_w(w_ref)
-        w_s = w_s.reshape((-1, size_n)).contiguous()
-
-    if maybe_w_zp is not None:
-        maybe_w_zp = maybe_w_zp.reshape((-1, size_n)).contiguous()
-        maybe_w_zp = maybe_w_zp.to(device=orig_device)
-
-    return (
-        w_ref.to(device=orig_device),
-        w_q.to(device=orig_device),
-        w_s if group_size is not None else None,
-        maybe_w_zp,
-    )
diff --git a/sgl-kernel/python/sgl_kernel/scalar_type.py b/python/sglang/srt/layers/quantization/scalar_type.py
similarity index 100%
rename from sgl-kernel/python/sgl_kernel/scalar_type.py
rename to python/sglang/srt/layers/quantization/scalar_type.py
diff --git a/python/sglang/srt/layers/quantization/utils.py b/python/sglang/srt/layers/quantization/utils.py
index 40a381f3b9f8..2371208f7895 100644
--- a/python/sglang/srt/layers/quantization/utils.py
+++ b/python/sglang/srt/layers/quantization/utils.py
@@ -1,11 +1,13 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/quant_utils.py
 
 from types import MappingProxyType
-from typing import List, Mapping, Tuple, Union
+from typing import List, Mapping, Optional, Tuple, Union
 
+import numpy
 import torch
 
 from sglang.srt.layers.quantization.fp8_kernel import scaled_fp8_quant
+from sglang.srt.layers.quantization.scalar_type import ScalarType
 from sglang.srt.utils import cpu_has_amx_support, is_cpu, is_cuda, is_npu
 
 _is_cuda = is_cuda()
@@ -143,3 +145,162 @@ def replace_parameter(
         if not isinstance(new, torch.nn.Parameter):
             new = torch.nn.Parameter(new, requires_grad=False)
         mod.register_parameter(name, torch.nn.Parameter(new, requires_grad=False))
+
+
+def get_pack_factor(num_bits):
+    assert 32 % num_bits == 0, f"Unsupported num_bits = {num_bits}"
+    return 32 // num_bits
+
+
+def pack_cols(
+    q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    assert q_w.shape == (size_k, size_n)
+
+    pack_factor = get_pack_factor(num_bits)
+    assert size_n % pack_factor == 0
+
+    orig_device = q_w.device
+
+    q_w = q_w.cpu().numpy().astype(numpy.uint32)
+
+    q_res = numpy.zeros((size_k, size_n // pack_factor), dtype=numpy.uint32)
+
+    for i in range(pack_factor):
+        q_res |= q_w[:, i::pack_factor] << num_bits * i
+
+    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
+    q_res = q_res.contiguous()
+
+    return q_res
+
+
+def unpack_cols(
+    packed_q_w: torch.Tensor,
+    num_bits: int,
+    size_k: int,
+    size_n: int,
+):
+    pack_factor = get_pack_factor(num_bits)
+    assert size_n % pack_factor == 0
+    assert packed_q_w.shape == (
+        size_k,
+        size_n // pack_factor,
+    ), "packed_q_w.shape = {} size_k = {}, size_n = {} pack_Factor = {}".format(
+        packed_q_w.shape, size_k, size_n, pack_factor
+    )
+
+    orig_device = packed_q_w.device
+
+    packed_q_w_cpu = packed_q_w.cpu().numpy().astype(numpy.uint32)
+    q_res = numpy.zeros((size_k, size_n), dtype=numpy.uint32)
+
+    mask = (1 << num_bits) - 1
+    for i in range(pack_factor):
+        vals = packed_q_w_cpu & mask
+        packed_q_w_cpu >>= num_bits
+        q_res[:, i::pack_factor] = vals
+
+    q_res = torch.from_numpy(q_res.astype(numpy.int32)).to(orig_device)
+    q_res = q_res.contiguous()
+
+    return q_res
+
+
+# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/quant_utils.py
+def quantize_weights(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: Optional[int],
+    zero_points: bool = False,
+    ref_zero_points_after_scales: bool = False,
+):
+    assert (
+        quant_type.is_integer()
+    ), "Floating point quantization may work but has not been tested"
+    assert not zero_points or group_size is not None, (
+        "to have group zero points, group_size must be provided "
+        "(-1 group_size is channelwise)"
+    )
+
+    orig_device = w.device
+    orig_type = w.dtype
+    size_k, size_n = w.shape
+
+    assert w.is_floating_point(), "w must be float"
+
+    if group_size == -1:
+        group_size = size_k
+
+    # Reshape to [groupsize, -1]
+    if group_size is not None and group_size < size_k:
+        w = w.reshape((-1, group_size, size_n))
+        w = w.permute(1, 0, 2)
+        w = w.reshape((group_size, -1))
+
+    # Compute scale for each group
+    max_val = torch.max(w, 0, keepdim=True).values
+    min_val = torch.min(w, 0, keepdim=True).values
+
+    max_q_val = quant_type.max()
+    min_q_val = quant_type.min()
+
+    w_s = torch.Tensor([1.0]).to(w.device)  # unscaled case
+    maybe_w_zp = None
+    if group_size is not None:
+        if zero_points:
+            assert not quant_type.is_signed() and quant_type.max() > 0
+            w_s = (max_val - min_val).clamp(min=1e-5) / quant_type.max()
+            maybe_w_zp = (
+                torch.round(torch.abs(min_val / w_s)).clamp(min_q_val, max_q_val).int()
+            )
+        else:
+            # If the bias is such that there are no possible negative/positive
+            #  values, set the max value to inf to avoid divide by 0
+            w_s = torch.max(
+                abs(max_val / (max_q_val if max_q_val != 0 else torch.inf)),
+                abs(min_val / (min_q_val if min_q_val != 0 else torch.inf)),
+            )
+
+    # Quantize
+    w_q = torch.round(w / w_s).int() + (maybe_w_zp if zero_points else 0)
+    w_q = torch.clamp(w_q, min_q_val, max_q_val)
+
+    # Compute ref (dequantized)
+    # For some kernels (namely Machete) the zero-points are applied after the
+    # scales are applied, for this case computing the reference in similar way
+    # allows us to use tighter error tolerances in our unit tests.
+    if ref_zero_points_after_scales and maybe_w_zp is not None:
+        w_ref = w_q.to(orig_type) * w_s - maybe_w_zp.to(orig_type) * w_s
+    else:
+        w_ref = (w_q - (maybe_w_zp if zero_points else 0)).to(orig_type) * w_s
+
+    if quant_type.has_bias():
+        w_q += quant_type.bias
+
+    # Restore original shapes
+    if group_size is not None and group_size < size_k:
+
+        def reshape_w(w):
+            w = w.reshape((group_size, -1, size_n))
+            w = w.permute(1, 0, 2)
+            w = w.reshape((size_k, size_n)).contiguous()
+            return w
+
+        w_q = reshape_w(w_q)
+        w_ref = reshape_w(w_ref)
+        w_s = w_s.reshape((-1, size_n)).contiguous()
+
+    if maybe_w_zp is not None:
+        maybe_w_zp = maybe_w_zp.reshape((-1, size_n)).contiguous()
+        maybe_w_zp = maybe_w_zp.to(device=orig_device)
+
+    return (
+        w_ref.to(device=orig_device),
+        w_q.to(device=orig_device),
+        w_s if group_size is not None else None,
+        maybe_w_zp,
+    )
diff --git a/sgl-kernel/python/sgl_kernel/fused_moe.py b/sgl-kernel/python/sgl_kernel/fused_moe.py
index f9322e22824a..f825131ac254 100644
--- a/sgl-kernel/python/sgl_kernel/fused_moe.py
+++ b/sgl-kernel/python/sgl_kernel/fused_moe.py
@@ -2,10 +2,11 @@
 from typing import Optional
 
 import torch
-from sgl_kernel.scalar_type import scalar_types
 
 
 def get_scalar_type(num_bits: int, has_zp: bool):
+    from sglang.srt.layers.quantization.scalar_type import scalar_types
+
     if has_zp:
         assert num_bits == 4
         return scalar_types.uint4
diff --git a/sgl-kernel/tests/test_marlin_repack.py b/sgl-kernel/tests/test_marlin_repack.py
index c0f13f46bea0..c229ae1cd01e 100644
--- a/sgl-kernel/tests/test_marlin_repack.py
+++ b/sgl-kernel/tests/test_marlin_repack.py
@@ -1,12 +1,10 @@
-import math
-
 import numpy as np
 import pytest
 import torch
 from sgl_kernel import awq_marlin_repack
-from sgl_kernel.scalar_type import scalar_types
 
-from sglang.srt.layers.quantization.quant_utils import (
+from sglang.srt.layers.quantization.scalar_type import scalar_types
+from sglang.srt.layers.quantization.utils import (
     get_pack_factor,
     pack_cols,
     quantize_weights,
diff --git a/test/srt/test_gptqmodel_dynamic.py b/test/srt/test_gptqmodel_dynamic.py
index 284465b8b39e..feda8693459e 100644
--- a/test/srt/test_gptqmodel_dynamic.py
+++ b/test/srt/test_gptqmodel_dynamic.py
@@ -51,13 +51,12 @@ def check_quant_method(model_path: str, use_marlin_kernel: bool):
         model_config=model_config, load_config=load_config, device_config=device_config
     )
 
-    from vllm.model_executor.layers.quantization.gptq import GPTQLinearMethod
-    from vllm.model_executor.layers.quantization.gptq_marlin import (
+    from sglang.srt.layers.linear import UnquantizedLinearMethod
+    from sglang.srt.layers.quantization.gptq import (
+        GPTQLinearMethod,
         GPTQMarlinLinearMethod,
     )
 
-    from sglang.srt.layers.linear import UnquantizedLinearMethod
-
     linear_method_cls = (
         GPTQMarlinLinearMethod if use_marlin_kernel else (GPTQLinearMethod)
     )
@@ -162,7 +161,7 @@ def setUpClass(cls):
             cls.model,
             cls.base_url,
             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            other_args=["--dtype", "float16"],
+            other_args=["--dtype", "bfloat16"],
         )
 
     @classmethod
diff --git a/test/srt/test_int4_kernel.py b/test/srt/test_int4_kernel.py
deleted file mode 100644
index 0665f9b91a56..000000000000
--- a/test/srt/test_int4_kernel.py
+++ /dev/null
@@ -1,301 +0,0 @@
-import itertools
-import sys
-import unittest
-
-import torch
-
-sys.path.insert(0, "/home/hadoop-hmart-waimai-rank/vllm")
-
-# from sglang.srt.layers.moe.topk import select_experts
-from sgl_kernel import fused_marlin_moe
-from vllm.model_executor.layers.activation import SiluAndMul
-from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
-
-# from vllm.model_executor.layers. import select_experts
-from vllm.model_executor.layers.fused_moe.layer import FusedMoE
-from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
-    marlin_quantize,
-)
-from vllm.scalar_type import scalar_types
-
-
-def stack_and_dev(tensors: list[torch.Tensor]):
-    dev = tensors[0].device
-    return torch.stack(tensors, dim=0).to(dev)
-
-
-def torch_moe(a, w1, w2, score, topk, expert_map):
-    B, D = a.shape
-    a = a.view(B, -1, D).repeat(1, topk, 1).reshape(-1, D)
-    out = torch.zeros(B * topk, w2.shape[1], dtype=a.dtype, device=a.device)
-    score = torch.softmax(score, dim=-1, dtype=torch.float32)
-    topk_weight, topk_ids = torch.topk(score, topk)
-    topk_weight = topk_weight.view(-1)
-    topk_ids = topk_ids.view(-1)
-    if expert_map is not None:
-        topk_ids = expert_map[topk_ids]
-    for i in range(w1.shape[0]):
-        mask = topk_ids == i
-        if mask.sum():
-            out[mask] = SiluAndMul()(a[mask] @ w1[i].transpose(0, 1)) @ w2[i].transpose(
-                0, 1
-            )
-    return (
-        out.view(B, -1, w2.shape[1]) * topk_weight.view(B, -1, 1).to(out.dtype)
-    ).sum(dim=1)
-
-
-def native_w8a8_per_token_matmul(A, B, As, Bs, output_dtype=torch.float16):
-    """Matrix multiplication function that supports per-token input quantization and per-column weight quantization"""
-    A = A.to(torch.float32)
-    B = B.to(torch.float32)
-
-    assert A.shape[-1] == B.shape[-1], "Dimension mismatch"
-    assert B.ndim == 2 and B.is_contiguous(), "B must be a 2D contiguous tensor"
-
-    # Reshape input
-    M = A.numel() // A.shape[-1]
-    B = B.t()  # Transpose weight matrix
-    N, K = B.shape
-    origin_C_shape = A.shape[:-1] + (K,)
-    A = A.reshape(M, N)
-    # As is per-token [M, 1], Bs is per-column [1, K]
-    C = torch.matmul(A, B)  # [M, K]
-    C = As * C * Bs.view(1, -1)  # Broadcast per-column scale
-
-    return C.reshape(origin_C_shape).to(output_dtype)
-
-
-def torch_w8a8_per_column_moe(a, w1, w2, w1_s, w2_s, score, topk):
-    """This function performs fused moe with per-column int8 quantization using native torch."""
-
-    B, D = a.shape
-    # Perform per-token quantization
-    a_q, a_s = per_token_quant_int8(a)
-    # Repeat tokens to match topk
-    a_q = a_q.view(B, -1, D).repeat(1, topk, 1).reshape(-1, D)
-    # Also repeat the scale
-    a_s = a_s.view(B, -1, 1).repeat(1, topk, 1).reshape(-1, 1)  # [B*topk, 1]
-
-    out = torch.zeros(B * topk, w2.shape[1], dtype=a.dtype, device=a.device)
-
-    # Calculate routing
-    score = torch.softmax(score, dim=-1, dtype=torch.float32)
-    topk_weight, topk_ids = torch.topk(score, topk)
-    topk_weight = topk_weight.view(-1)
-    topk_ids = topk_ids.view(-1)
-    # Process each expert
-    for i in range(w1.shape[0]):
-        mask = topk_ids == i
-        if mask.sum():
-            # First MLP layer: note that a_s is now per-token
-            inter_out = native_w8a8_per_token_matmul(
-                a_q[mask], w1[i], a_s[mask], w1_s[i], output_dtype=a.dtype
-            )
-            # Activation function
-            act_out = SiluAndMul().forward_native(inter_out)
-            # Quantize activation output with per-token
-            act_out_q, act_out_s = per_token_quant_int8(act_out)
-
-            # Second MLP layer
-            out[mask] = native_w8a8_per_token_matmul(
-                act_out_q, w2[i], act_out_s, w2_s[i], output_dtype=a.dtype
-            )
-    # Apply routing weights and sum
-    return (
-        out.view(B, -1, w2.shape[1]) * topk_weight.view(B, -1, 1).to(out.dtype)
-    ).sum(dim=1)
-
-
-def marlin_fused_moe(
-    N, E, K, a, w1, w2, num_bits, group_size, act_order, score, topk, ep_size
-):
-    quant_type = scalar_types.uint4b8 if num_bits == 4 else scalar_types.uint8b128
-    if ep_size > 1:
-        local_e = E // ep_size
-        e_ids = torch.randperm(E, device="cuda", dtype=torch.int32)[:local_e]
-        e_map = torch.full((E,), -1, device="cuda", dtype=torch.int32)
-        e_map[e_ids] = torch.arange(local_e, device="cuda", dtype=torch.int32)
-        w1 = w1[e_ids]
-        w2 = w2[e_ids]
-    else:
-        e_map = None
-    w_ref1_l = []
-    qweight1_l = []
-    scales1_l = []
-    zeros1_l = []
-    g_idx1_l = []
-    sort_indices1_l = []
-    s1_l = []
-    for i in range(w1.shape[0]):
-        test_perm = torch.randperm(n=K)
-        quant_res = marlin_quantize(
-            w1[i].transpose(1, 0), quant_type, group_size, act_order, test_perm
-        )
-        w_ref1, qweight1, scales1, g_idx1, sort_indices1, _ = quant_res
-        w_ref1_l.append(w_ref1.T)
-        qweight1_l.append(qweight1)
-        scales1_l.append(scales1)
-        g_idx1_l.append(g_idx1)
-        sort_indices1_l.append(sort_indices1)
-    w_ref1 = stack_and_dev(w_ref1_l)
-    qweight1 = stack_and_dev(qweight1_l).contiguous()
-    scales1 = stack_and_dev(scales1_l)
-    g_idx1 = stack_and_dev(g_idx1_l) if g_idx1_l else None
-    zeros1 = stack_and_dev(zeros1_l) if zeros1_l else None
-    sort_indices1 = stack_and_dev(sort_indices1_l) if sort_indices1_l else None
-
-    w_ref2_l = []
-    qweight2_l = []
-    scales2_l = []
-    zeros2_l = []
-    g_idx2_l = []
-    sort_indices2_l = []
-    for i in range(w2.shape[0]):
-        test_perm = torch.randperm(n=N)
-        quant_res = marlin_quantize(
-            w2[i].transpose(1, 0), quant_type, group_size, act_order, test_perm
-        )
-        w_ref2, qweight2, scales2, g_idx2, sort_indices2, _ = quant_res
-
-        w_ref2_l.append(w_ref2.T)
-        qweight2_l.append(qweight2)
-        scales2_l.append(scales2)
-        g_idx2_l.append(g_idx2)
-        sort_indices2_l.append(sort_indices2)
-
-    w_ref2 = stack_and_dev(w_ref2_l)
-    qweight2 = stack_and_dev(qweight2_l).contiguous()
-    scales2 = stack_and_dev(scales2_l)
-    g_idx2 = stack_and_dev(g_idx2_l) if g_idx2_l else None
-    zeros2 = stack_and_dev(zeros2_l) if zeros2_l else None
-    sort_indices2 = stack_and_dev(sort_indices2_l) if sort_indices2_l else None
-
-    topk_weights, topk_ids = fused_topk(a, score, topk, False)
-    # topk_weights, topk_ids = FusedMoE.select_experts(
-    #     hidden_states=a,
-    #     router_logits=score,
-    #     top_k=topk,
-    #     num_expert_group=E,
-    #     use_grouped_topk=False,
-    #     renormalize=False,
-    #     topk_group=None,
-    #     )
-
-    torch_output = torch_moe(a, w_ref1, w_ref2, score, topk, e_map)
-    marlin_output = fused_marlin_moe(
-        a,
-        qweight1,
-        qweight2,
-        scales1,
-        scales2,
-        score,
-        topk_weights,
-        topk_ids,
-        global_num_experts=E,
-        expert_map=e_map,
-        g_idx1=g_idx1,
-        g_idx2=g_idx2,
-        sort_indices1=sort_indices1,
-        sort_indices2=sort_indices2,
-        w1_zeros=zeros1,
-        w2_zeros=zeros2,
-        num_bits=num_bits,
-        is_k_full=True,
-    )
-    return marlin_output, torch_output
-
-
-class TestW8A8Int8FusedMoE(unittest.TestCase):
-    DTYPES = [torch.float16]
-    M = [1, 16]
-    N = [128]
-    K = [256]
-    E = [4, 10]
-    TOP_KS = [2, 4]
-    BLOCK_SIZE = [[128, 128]]
-    SEEDS = [0]
-    NUM_BITS = [4]
-    EP_SIZE = [1, 4]
-
-    @classmethod
-    def setUpClass(cls):
-        if not torch.cuda.is_available():
-            raise unittest.SkipTest("CUDA is not available")
-        torch.set_default_device("cuda")
-
-    def _w4a8_int8_fused_moe(
-        self, M, N, K, E, topk, block_size, dtype, seed, num_bits, ep_size
-    ):
-        torch.manual_seed(seed)
-        a = torch.randn((M, K), dtype=dtype) / 10
-
-        # Generate int8 weights
-        w1_fp16 = (torch.rand((E, 2 * N, K), dtype=dtype) - 0.5) * 2
-        w2_fp16 = (torch.rand((E, K, N), dtype=dtype) - 0.5) * 2
-
-        score = torch.randn((M, E), dtype=dtype)
-
-        with torch.inference_mode():
-            marlin_out, ref_out = marlin_fused_moe(
-                N=N,
-                E=E,
-                K=K,
-                a=a,
-                w1=w1_fp16,
-                w2=w2_fp16,
-                num_bits=num_bits,
-                group_size=-1,
-                act_order=False,
-                score=score,
-                topk=topk,
-                ep_size=ep_size,
-            )
-        # Check results
-        if (
-            torch.mean(
-                torch.abs(marlin_out.to(torch.float32) - ref_out.to(torch.float32))
-            )
-            / torch.mean(torch.abs(ref_out.to(torch.float32)))
-            > 0.1
-        ):
-            print(f"marlin_out: {marlin_out}")
-            print(f"ref_out: {ref_out}")
-            print(
-                torch.mean(
-                    torch.abs(marlin_out.to(torch.float32) - ref_out.to(torch.float32))
-                )
-                / torch.mean(torch.abs(ref_out.to(torch.float32)))
-            )
-        torch.testing.assert_close(marlin_out, ref_out, atol=2e-2, rtol=0)
-
-    def test_w4a8_int8_fused_moe(self):
-        for params in itertools.product(
-            self.M,
-            self.N,
-            self.K,
-            self.E,
-            self.TOP_KS,
-            self.BLOCK_SIZE,
-            self.DTYPES,
-            self.SEEDS,
-            self.NUM_BITS,
-            self.EP_SIZE,
-        ):
-            with self.subTest(
-                M=params[0],
-                N=params[1],
-                K=params[2],
-                E=params[3],
-                topk=params[4],
-                block_size=params[5],
-                dtype=params[6],
-                seed=params[7],
-                num_bits=params[8],
-                ep_size=params[9],
-            ):
-                self._w4a8_int8_fused_moe(*params)
-
-
-if __name__ == "__main__":
-    unittest.main(verbosity=2)
diff --git a/test/srt/test_w4a8.py b/test/srt/test_w4a8.py
deleted file mode 100644
index 75d41ee5f8e2..000000000000
--- a/test/srt/test_w4a8.py
+++ /dev/null
@@ -1,14 +0,0 @@
-import sgl_kernel
-import torch
-
-x = torch.randn(10, 10, device="cuda")
-qweight = torch.randn(10, 10, device="cuda")
-s1_scales = torch.randn(10, device="cuda")
-input_scales = torch.randn(10, device="cuda")
-s1_szeros = torch.randn(10, device="cuda")
-input_sum = torch.randn(10, device="cuda")
-output_buffer = torch.randn(10, device="cuda")
-
-torch.ops.sgl_kernel.gemm_forward_cuda.default(
-    x, qweight, s1_scales, input_scales, s1_szeros, input_sum, output_buffer
-)

From 4395c87a9b831672823c40884348620e641f6559 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Thu, 17 Jul 2025 08:52:38 +0800
Subject: [PATCH 012/396] refactor: unify names of the feature field of
 MultimodalDataItem (#8075)

---
 .../multimodal_processors/qwen_audio.py       |  2 +-
 python/sglang/srt/managers/schedule_batch.py  | 41 +++++++------------
 python/sglang/srt/models/clip.py              |  2 +-
 .../sglang/srt/models/deepseek_janus_pro.py   |  2 +-
 python/sglang/srt/models/deepseek_vl2.py      |  4 +-
 python/sglang/srt/models/gemma3_mm.py         |  2 +-
 python/sglang/srt/models/gemma3n_mm.py        |  6 +--
 python/sglang/srt/models/internvl.py          |  2 +-
 python/sglang/srt/models/kimi_vl.py           |  2 +-
 python/sglang/srt/models/llava.py             |  4 +-
 python/sglang/srt/models/llavavid.py          |  2 +-
 python/sglang/srt/models/minicpmo.py          | 10 ++---
 python/sglang/srt/models/minicpmv.py          |  2 +-
 python/sglang/srt/models/mistral.py           |  2 +-
 python/sglang/srt/models/mllama.py            |  8 ++--
 python/sglang/srt/models/mllama4.py           |  2 +-
 python/sglang/srt/models/phi4mm.py            |  4 +-
 python/sglang/srt/models/qwen2_5_vl.py        |  8 ++--
 python/sglang/srt/models/qwen2_audio.py       |  2 +-
 python/sglang/srt/models/qwen2_vl.py          |  8 ++--
 python/sglang/srt/models/vila.py              |  2 +-
 .../multimodal/processors/base_processor.py   |  8 +++-
 .../sglang/srt/multimodal/processors/clip.py  |  2 +-
 .../multimodal/processors/deepseek_vl_v2.py   |  2 +-
 .../srt/multimodal/processors/internvl.py     |  2 +-
 .../srt/multimodal/processors/janus_pro.py    |  2 +-
 .../sglang/srt/multimodal/processors/llava.py |  2 +-
 .../srt/multimodal/processors/minicpm.py      |  4 +-
 .../sglang/srt/multimodal/processors/mlama.py |  2 +-
 .../srt/multimodal/processors/mllama4.py      |  2 +-
 .../srt/multimodal/processors/phi4mm.py       |  2 +-
 .../srt/multimodal/processors/pixtral.py      |  2 +-
 test/srt/test_vlm_accuracy.py                 |  2 +-
 33 files changed, 66 insertions(+), 83 deletions(-)

diff --git a/python/sglang/srt/managers/multimodal_processors/qwen_audio.py b/python/sglang/srt/managers/multimodal_processors/qwen_audio.py
index 0558b5f5a4b8..23b7de5cfd96 100644
--- a/python/sglang/srt/managers/multimodal_processors/qwen_audio.py
+++ b/python/sglang/srt/managers/multimodal_processors/qwen_audio.py
@@ -78,7 +78,7 @@ async def process_mm_data_async(
             output_lengths = (input_lengths - 2) // 2 + 1
 
             item = MultimodalDataItem(
-                audio_features=res["input_features"],
+                feature=res["input_features"],
                 audio_feature_lens=output_lengths,
                 audio_offsets=audio_offsets,
                 modality=Modality.AUDIO,
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index c2750d072457..01da558b7bf9 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -207,13 +207,12 @@ class MultimodalDataItem:
     modality: Modality
     hash: int = None
     pad_value: int = None
-    image_sizes: Tuple[int, int] = None
     offsets: Optional[list] = None
+    # the raw features returned by processor, e.g. pixel_values or audio_features
+    feature: Union[torch.Tensor, np.ndarray] = None
+
+    image_sizes: Tuple[int, int] = None
 
-    # the real data, pixel_values or audio_features
-    # data: Union[List[torch.Tensor], List[np.ndarray]]
-    pixel_values: Union[torch.Tensor, np.ndarray, "PIL.Image"] = None
-    audio_features: Union[torch.Tensor, np.ndarray] = None
     audio_feature_lens: Optional[List[torch.Tensor]] = None
     audio_offsets: Optional[List[Tuple[int, int]]] = None
     precomputed_features: Optional[Union[torch.Tensor, np.ndarray]] = None
@@ -238,7 +237,6 @@ class MultimodalDataItem:
     image_grid_hws: Optional[List[torch.Tensor]] = None
 
     # For gemma3n
-    input_features: Optional[torch.Tensor] = None
     input_features_mask: Optional[torch.Tensor] = None
 
     @staticmethod
@@ -254,18 +252,11 @@ def set_pad_value(self):
         from sglang.srt.managers.mm_utils import hash_feature
 
         if self.hash is None:
-            if self.precomputed_features is not None:
-                self.hash = hash_feature(self.precomputed_features)
-            elif self.is_audio():
-                if self.audio_features is not None:
-                    self.hash = hash_feature(self.audio_features)
-                elif self.input_features is not None:
-                    self.hash = hash_feature(self.input_features)
-            elif self.is_video():
-                self.hash = hash_feature(self.pixel_values_videos)
+            if self.feature is not None:
+                hashed_feature = self.feature
             else:
-                self.hash = hash_feature(self.pixel_values)
-
+                hashed_feature = self.precomputed_features
+            self.hash = hash_feature(hashed_feature)
         assert self.hash is not None
         self.pad_value = self.hash % (1 << 30)
 
@@ -275,8 +266,7 @@ def is_modality(self, modality: Modality) -> bool:
     def is_audio(self):
         return (self.modality == Modality.AUDIO) and (
             self.precomputed_features is not None
-            or not MultimodalDataItem.is_empty_list(self.audio_features)
-            or not MultimodalDataItem.is_empty_list(self.input_features)
+            or not MultimodalDataItem.is_empty_list(self.feature)
         )
 
     def is_image(self):
@@ -284,13 +274,13 @@ def is_image(self):
             self.is_modality(Modality.IMAGE) or self.is_modality(Modality.MULTI_IMAGES)
         ) and (
             self.precomputed_features is not None
-            or not MultimodalDataItem.is_empty_list(self.pixel_values)
+            or not MultimodalDataItem.is_empty_list(self.feature)
         )
 
     def is_video(self):
         return (self.modality == Modality.VIDEO) and (
             self.precomputed_features is not None
-            or not MultimodalDataItem.is_empty_list(self.pixel_values_videos)
+            or not MultimodalDataItem.is_empty_list(self.feature)
         )
 
     def is_valid(self) -> bool:
@@ -311,7 +301,7 @@ def from_dict(obj: dict):
         return ret
 
     def merge(self, other):
-        self.pixel_values += other.pixel_values
+        self.feature += other.feature
         self.image_sizes += other.image_sizes
         self.image_offsets += other.image_offsets
         self.hash = hash((self.hash, other.hash))
@@ -354,7 +344,6 @@ def from_dict(obj: dict):
 
         assert isinstance(ret.mm_items, list)
         ret.mm_items = [item for item in ret.mm_items if item.is_valid()]
-
         for item in ret.mm_items:
             item.set_pad_value()
 
@@ -1278,11 +1267,9 @@ def prepare_for_extend(self):
             if mm_input is None:
                 continue
             for mm_item in mm_input.mm_items:
-                pixel_values = getattr(mm_item, "pixel_values", None)
+                pixel_values = getattr(mm_item, "feature", None)
                 if isinstance(pixel_values, torch.Tensor):
-                    mm_item.pixel_values = pixel_values.to(
-                        self.device, non_blocking=True
-                    )
+                    mm_item.feature = pixel_values.to(self.device, non_blocking=True)
         self.multimodal_inputs = multimodal_inputs
         self.token_type_ids = token_type_ids_tensor
         self.seq_lens_sum = sum(seq_lens)
diff --git a/python/sglang/srt/models/clip.py b/python/sglang/srt/models/clip.py
index f271b45a4d11..ea9fee9ac29e 100644
--- a/python/sglang/srt/models/clip.py
+++ b/python/sglang/srt/models/clip.py
@@ -463,7 +463,7 @@ def forward(
         if forward_batch.mm_inputs is not None:
             mm_inputs = forward_batch.mm_inputs
         pixel_values_list = [
-            item.pixel_values
+            item.feature
             for item in flatten_nested_list(
                 [mm_input.mm_items for mm_input in mm_inputs if mm_input is not None]
             )
diff --git a/python/sglang/srt/models/deepseek_janus_pro.py b/python/sglang/srt/models/deepseek_janus_pro.py
index 8d266a3be6d8..fe1c833f7224 100644
--- a/python/sglang/srt/models/deepseek_janus_pro.py
+++ b/python/sglang/srt/models/deepseek_janus_pro.py
@@ -1960,7 +1960,7 @@ def __init__(
         self.logits_processor = LogitsProcessor(config)
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
-        pixel_values = torch.concat([item.pixel_values for item in items], dim=0)
+        pixel_values = torch.concat([item.feature for item in items], dim=0)
         bs, n = pixel_values.shape[0:2]
         pixel_values = pixel_values.to(
             device=self.vision_model.device, dtype=self.vision_model.dtype
diff --git a/python/sglang/srt/models/deepseek_vl2.py b/python/sglang/srt/models/deepseek_vl2.py
index 9941927cd65e..cf4988b5201b 100644
--- a/python/sglang/srt/models/deepseek_vl2.py
+++ b/python/sglang/srt/models/deepseek_vl2.py
@@ -268,9 +268,9 @@ def get_image_feature(self, items: List[MultimodalDataItem]):
         # TODO: can it be batched ?
         images_in_this_batch = []
         for item in items:
-            assert item.pixel_values.dim() == 4
+            assert item.feature.dim() == 4
             image_feature = self.vision.forward_features(
-                item.pixel_values.type(next(self.vision.parameters()).dtype).to(
+                item.feature.type(next(self.vision.parameters()).dtype).to(
                     device=next(self.vision.parameters()).device
                 )
             )
diff --git a/python/sglang/srt/models/gemma3_mm.py b/python/sglang/srt/models/gemma3_mm.py
index 93c145e1b54b..527a11b691e2 100644
--- a/python/sglang/srt/models/gemma3_mm.py
+++ b/python/sglang/srt/models/gemma3_mm.py
@@ -283,7 +283,7 @@ def get_image_feature(self, items: List[MultimodalDataItem]):
             image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
         """
         # Process images one by one to handle flatten_batch=True constraint in vision_tower
-        all_pixel_values = flatten_nested_list([item.pixel_values for item in items])
+        all_pixel_values = flatten_nested_list([item.feature for item in items])
         vision_outputs_list = []
 
         for pixel_values_batch in all_pixel_values:
diff --git a/python/sglang/srt/models/gemma3n_mm.py b/python/sglang/srt/models/gemma3n_mm.py
index 3bc327ea3e97..5139a9c2ded5 100644
--- a/python/sglang/srt/models/gemma3n_mm.py
+++ b/python/sglang/srt/models/gemma3n_mm.py
@@ -265,7 +265,7 @@ def get_image_feature(self, items: List[MultimodalDataItem]):
             image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
         """
         # Process images one by one to handle flatten_batch=True constraint in vision_tower
-        all_pixel_values = flatten_nested_list([item.pixel_values for item in items])
+        all_pixel_values = flatten_nested_list([item.feature for item in items])
         vision_outputs_list = []
 
         for pixel_values_batch in all_pixel_values:
@@ -316,9 +316,7 @@ def get_audio_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
             audio_features (`torch.Tensor`): Audio feature tensor of shape `(num_audios, audio_length, embed_dim)`).
         """
         # Extract audio features and masks from items
-        all_input_features = flatten_nested_list(
-            [item.input_features for item in items]
-        )
+        all_input_features = flatten_nested_list([item.feature for item in items])
         all_input_features_mask = flatten_nested_list(
             [~item.input_features_mask for item in items]
         )  # Note(Xinyuan): reverse the mask according to the HF implementation
diff --git a/python/sglang/srt/models/internvl.py b/python/sglang/srt/models/internvl.py
index 732752317400..056797cbfe00 100644
--- a/python/sglang/srt/models/internvl.py
+++ b/python/sglang/srt/models/internvl.py
@@ -510,7 +510,7 @@ def get_image_feature(self, items: List[MultimodalDataItem]):
         Returns:
             image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
         """
-        pixel_values = torch.cat([item.pixel_values for item in items])
+        pixel_values = torch.cat([item.feature for item in items])
         image_features = self.extract_feature(pixel_values)
         return image_features
 
diff --git a/python/sglang/srt/models/kimi_vl.py b/python/sglang/srt/models/kimi_vl.py
index f4386a80882f..68ed47b2ef0f 100644
--- a/python/sglang/srt/models/kimi_vl.py
+++ b/python/sglang/srt/models/kimi_vl.py
@@ -144,7 +144,7 @@ def __init__(
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         pixel_values = (
-            torch.cat([item.pixel_values for item in items], dim=0)
+            torch.cat([item.feature for item in items], dim=0)
             .type(self.vision_tower.dtype)
             .to(self.vision_tower.device)
         )
diff --git a/python/sglang/srt/models/llava.py b/python/sglang/srt/models/llava.py
index b0b82a82b770..6375657e77a6 100644
--- a/python/sglang/srt/models/llava.py
+++ b/python/sglang/srt/models/llava.py
@@ -186,7 +186,7 @@ def forward(
                 bs = forward_batch.batch_size
                 pixel_values = flatten_nested_list(
                     [
-                        [item.pixel_values for item in image_inputs[i].mm_items]
+                        [item.feature for item in image_inputs[i].mm_items]
                         for i in range(bs)
                         if need_vision[i]
                     ]
@@ -753,7 +753,7 @@ def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         features = []
         for item in items:
             # in each item, we assume pixel_values is always batched
-            pixel_values, image_sizes = item.pixel_values, item.image_sizes
+            pixel_values, image_sizes = item.feature, item.image_sizes
             image_outputs = self.vision_tower(
                 pixel_values, image_sizes, output_hidden_states=True
             )
diff --git a/python/sglang/srt/models/llavavid.py b/python/sglang/srt/models/llavavid.py
index 22a007e128ad..e5d6aa72ba9a 100644
--- a/python/sglang/srt/models/llavavid.py
+++ b/python/sglang/srt/models/llavavid.py
@@ -135,7 +135,7 @@ def forward(
             if need_vision.any():
                 pixel_values = flatten_nested_list(
                     [
-                        [item.pixel_values for item in image_inputs[i].mm_items]
+                        [item.feature for item in image_inputs[i].mm_items]
                         for i in range(bs)
                         if need_vision[i]
                     ]
diff --git a/python/sglang/srt/models/minicpmo.py b/python/sglang/srt/models/minicpmo.py
index a5234772eaf1..786738ecaa21 100644
--- a/python/sglang/srt/models/minicpmo.py
+++ b/python/sglang/srt/models/minicpmo.py
@@ -1552,9 +1552,7 @@ def get_audio_embedding_streaming(self, items: List[MultimodalDataItem]):
         Returns:
             List[List[torch.Tensor]]: audio embeddings
         """
-        wavforms = flatten_nested_list(
-            [item.audio_features for item in items if item.audio_features]
-        )
+        wavforms = flatten_nested_list([item.feature for item in items if item.feature])
         # list, [[x1, x2], [y1], [z1]]
         audio_feature_lens_raw = flatten_nested_list(
             [item.audio_feature_lens for item in items if item.audio_feature_lens]
@@ -1659,9 +1657,7 @@ def get_audio_embedding(self, items: List[MultimodalDataItem], chunk_length=-1):
             List[List[torch.Tensor]]: audio embeddings
         """
         # (bs, 80, frames) or [], multi audios need filled in advance
-        wavforms = flatten_nested_list(
-            [item.audio_features for item in items if item.audio_features]
-        )
+        wavforms = flatten_nested_list([item.feature for item in items if item.feature])
         # list, [[x1, x2], [y1], [z1]]
         audio_feature_lens_raw = flatten_nested_list(
             [item.audio_feature_lens for item in items if item.audio_feature_lens]
@@ -1778,7 +1774,7 @@ def get_omni_embedding(
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # list of tensors
-        pixel_values = flatten_nested_list([item.pixel_values for item in items])
+        pixel_values = flatten_nested_list([item.feature for item in items])
         tgt_sizes = torch.stack(
             flatten_nested_list([item.tgt_size for item in items]), dim=0
         )
diff --git a/python/sglang/srt/models/minicpmv.py b/python/sglang/srt/models/minicpmv.py
index 0c6d4297fb9d..8166d1646ad9 100644
--- a/python/sglang/srt/models/minicpmv.py
+++ b/python/sglang/srt/models/minicpmv.py
@@ -724,7 +724,7 @@ def get_vision_embedding(
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # list of tensors
-        pixel_values = flatten_nested_list([item.pixel_values for item in items])
+        pixel_values = flatten_nested_list([item.feature for item in items])
         tgt_sizes = torch.stack(
             flatten_nested_list([item.tgt_size for item in items]), dim=0
         )
diff --git a/python/sglang/srt/models/mistral.py b/python/sglang/srt/models/mistral.py
index d3d2efcaee94..632e857c280b 100644
--- a/python/sglang/srt/models/mistral.py
+++ b/python/sglang/srt/models/mistral.py
@@ -56,7 +56,7 @@ def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         features = []
         for item in items:
             # in each item, we assume pixel_values is always batched
-            pixel_values, image_sizes = item.pixel_values, item.image_sizes
+            pixel_values, image_sizes = item.feature, item.image_sizes
             image_outputs = self.vision_tower(
                 pixel_values, image_sizes, output_hidden_states=True
             )
diff --git a/python/sglang/srt/models/mllama.py b/python/sglang/srt/models/mllama.py
index fed9e4b59a16..fa294ddcd0c4 100644
--- a/python/sglang/srt/models/mllama.py
+++ b/python/sglang/srt/models/mllama.py
@@ -838,9 +838,7 @@ def __init__(
         self.logits_processor = LogitsProcessor(config.text_config)
 
     def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
-        pixel_values = torch.cat(
-            [item.pixel_values for item in mm_inputs.mm_items], dim=0
-        )
+        pixel_values = torch.cat([item.feature for item in mm_inputs.mm_items], dim=0)
         pad_values = [item.pad_value for item in mm_inputs.mm_items]
 
         num_concurrent_media, num_tiles = pixel_values.shape[1:3]
@@ -862,7 +860,7 @@ def _batch_image_inputs(self, forward_batch: ForwardBatch):
 
             if not forward_batch.encoder_cached[i] and mm_input is not None:
                 pixel_values = torch.cat(
-                    [item.pixel_values for item in mm_input.mm_items], dim=0
+                    [item.feature for item in mm_input.mm_items], dim=0
                 )
                 max_num_images = max(max_num_images, pixel_values.shape[1])
 
@@ -897,7 +895,7 @@ def _batch_image_inputs(self, forward_batch: ForwardBatch):
 
                 encoder_lens_need.append(forward_batch.encoder_lens[k])
                 pixel_values = torch.cat(
-                    [item.pixel_values for item in mm_input.mm_items], dim=0
+                    [item.feature for item in mm_input.mm_items], dim=0
                 )
                 for j in range(pixel_values.shape[1]):
                     img = pixel_values[0, j]
diff --git a/python/sglang/srt/models/mllama4.py b/python/sglang/srt/models/mllama4.py
index 55e793247584..18b7e57e5872 100644
--- a/python/sglang/srt/models/mllama4.py
+++ b/python/sglang/srt/models/mllama4.py
@@ -147,7 +147,7 @@ def get_image_feature(
             raise ValueError("Vision model not available for text-only checkpoint")
 
         pixel_values = (
-            torch.concat([item.pixel_values for item in items])
+            torch.concat([item.feature for item in items])
             .to(next(self.vision_model.parameters()).device)
             .type(next(self.vision_model.parameters()).dtype)
         )
diff --git a/python/sglang/srt/models/phi4mm.py b/python/sglang/srt/models/phi4mm.py
index 44bcad97a81e..8a74888ac9c5 100644
--- a/python/sglang/srt/models/phi4mm.py
+++ b/python/sglang/srt/models/phi4mm.py
@@ -422,9 +422,7 @@ def __init__(
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         dtype = next(self.vision_encoder.parameters()).dtype
-        pixel_values = torch.cat([item.pixel_values for item in items], dim=0).type(
-            dtype
-        )
+        pixel_values = torch.cat([item.feature for item in items], dim=0).type(dtype)
         image_attention_mask = torch.cat([item.image_emb_mask for item in items], dim=0)
         image_sizes = torch.cat([item.image_sizes for item in items], dim=0)
         image_embeds = self.vision_encoder(
diff --git a/python/sglang/srt/models/qwen2_5_vl.py b/python/sglang/srt/models/qwen2_5_vl.py
index d4f412e49582..d2a92217a315 100644
--- a/python/sglang/srt/models/qwen2_5_vl.py
+++ b/python/sglang/srt/models/qwen2_5_vl.py
@@ -497,7 +497,7 @@ def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # in qwen-vl, last dim is the same
-        pixel_values = torch.cat([item.pixel_values for item in items], dim=0).type(
+        pixel_values = torch.cat([item.feature for item in items], dim=0).type(
             self.visual.dtype
         )
         image_grid_thw = torch.concat([item.image_grid_thw for item in items], dim=0)
@@ -508,9 +508,9 @@ def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
 
     def get_video_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # in qwen-vl, last dim is the same
-        pixel_values = torch.cat(
-            [getattr(item, "pixel_values_videos") for item in items], dim=0
-        ).type(self.visual.dtype)
+        pixel_values = torch.cat([item.feature for item in items], dim=0).type(
+            self.visual.dtype
+        )
         video_grid_thw = torch.concat([item.video_grid_thw for item in items], dim=0)
         assert pixel_values.dim() == 2, pixel_values.dim()
         assert video_grid_thw.dim() == 2, video_grid_thw.dim()
diff --git a/python/sglang/srt/models/qwen2_audio.py b/python/sglang/srt/models/qwen2_audio.py
index 53e087496242..bc232f0bee15 100644
--- a/python/sglang/srt/models/qwen2_audio.py
+++ b/python/sglang/srt/models/qwen2_audio.py
@@ -118,7 +118,7 @@ def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
 
     def get_audio_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # Extract audio features from input items
-        input_features = torch.cat([item.audio_features for item in items], dim=0).type(
+        input_features = torch.cat([item.feature for item in items], dim=0).type(
             self.audio_tower.dtype
         )
 
diff --git a/python/sglang/srt/models/qwen2_vl.py b/python/sglang/srt/models/qwen2_vl.py
index 59179752a7e2..55f325813782 100644
--- a/python/sglang/srt/models/qwen2_vl.py
+++ b/python/sglang/srt/models/qwen2_vl.py
@@ -484,7 +484,7 @@ def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
 
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # in qwen-vl, last dim is the same
-        pixel_values = torch.cat([item.pixel_values for item in items], dim=0).type(
+        pixel_values = torch.cat([item.feature for item in items], dim=0).type(
             self.visual.dtype
         )
         image_grid_thw = torch.concat([item.image_grid_thw for item in items], dim=0)
@@ -495,9 +495,9 @@ def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
 
     def get_video_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         # in qwen-vl, last dim is the same
-        pixel_values = torch.cat(
-            [item.pixel_values_videos for item in items], dim=0
-        ).type(self.visual.dtype)
+        pixel_values = torch.cat([item.feature for item in items], dim=0).type(
+            self.visual.dtype
+        )
         video_grid_thw = torch.concat([item.video_grid_thw for item in items], dim=0)
         assert pixel_values.dim() == 2, pixel_values.dim()
         assert video_grid_thw.dim() == 2, video_grid_thw.dim()
diff --git a/python/sglang/srt/models/vila.py b/python/sglang/srt/models/vila.py
index 752217d674f6..2bb0b2d35d9e 100644
--- a/python/sglang/srt/models/vila.py
+++ b/python/sglang/srt/models/vila.py
@@ -237,7 +237,7 @@ def forward(
         return cast(LogitsProcessorOutput, output)
 
     def get_image_feature(self, mm_input: List[MultimodalDataItem]) -> Tensor:
-        pixel_values = cast(Tensor, mm_input[0].pixel_values)
+        pixel_values = cast(Tensor, mm_input[0].feature)
 
         ##### BEGIN COPY modeling_vila.py #####
 
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 91aaa19090cf..44e22885caec 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -5,7 +5,6 @@
 import os
 import re
 from abc import ABC, abstractmethod
-from functools import lru_cache
 from typing import Any, Dict, List, Optional, Tuple, Union
 
 import numpy as np
@@ -156,6 +155,10 @@ def __init__(self, hf_config, server_args, _processor):
             # "precomputed_features" - handled specially as it can be any modality
         }
 
+        # name of the feature filed
+        # TODO: pass from processors
+        self.FEATURE_NAMES = ["pixel_values", "pixel_values_videos", "audio_features"]
+
     def process_mm_data(
         self, input_text, images=None, videos=None, audios=None, **kwargs
     ):
@@ -524,6 +527,9 @@ def collect_mm_items_from_processor_output(
                 if modality not in items:
                     items[modality] = MultimodalDataItem(modality=modality)
 
+                if attr_name in self.FEATURE_NAMES:
+                    attr_name = "feature"
+
                 # Set attribute
                 setattr(items[modality], attr_name, value)
 
diff --git a/python/sglang/srt/multimodal/processors/clip.py b/python/sglang/srt/multimodal/processors/clip.py
index cda5edf89525..a36269819c42 100644
--- a/python/sglang/srt/multimodal/processors/clip.py
+++ b/python/sglang/srt/multimodal/processors/clip.py
@@ -26,7 +26,7 @@ async def process_mm_data_async(
         image_inputs["input_ids"] = image_inputs["input_ids"].tolist()[0]
         image_inputs["mm_items"] = [
             MultimodalDataItem(
-                pixel_values=image_inputs["pixel_values"], modality=Modality.IMAGE
+                feature=image_inputs["pixel_values"], modality=Modality.IMAGE
             )
         ]
 
diff --git a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
index 0ffd91dc3237..50547ad2d714 100644
--- a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
+++ b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
@@ -68,7 +68,7 @@ async def process_mm_data_async(
             input_ids=input_ids, mm_token_id=self._processor.image_token_id
         )
         item = MultimodalDataItem(
-            pixel_values=res["images"],
+            feature=res["images"],
             offsets=image_offsets,
             modality=Modality.IMAGE,
             image_emb_mask=images_seq_mask,
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index df9b67aadeae..f9ed9ba76d86 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -223,7 +223,7 @@ def process_image_internvl(image, input_size=448, max_num=12):
         )
         items = [
             MultimodalDataItem(
-                pixel_values=pixel_values,
+                feature=pixel_values,
                 modality=Modality.IMAGE,
                 offsets=image_offsets,
             )
diff --git a/python/sglang/srt/multimodal/processors/janus_pro.py b/python/sglang/srt/multimodal/processors/janus_pro.py
index 36be9ded80ab..8ea013d29aae 100644
--- a/python/sglang/srt/multimodal/processors/janus_pro.py
+++ b/python/sglang/srt/multimodal/processors/janus_pro.py
@@ -47,7 +47,7 @@ async def process_mm_data_async(
         return {
             "mm_items": [
                 MultimodalDataItem(
-                    pixel_values=res["pixel_values"],
+                    feature=res["pixel_values"],
                     image_emb_mask=res["images_emb_mask"],
                     offsets=image_offsets,
                     modality=Modality.IMAGE,
diff --git a/python/sglang/srt/multimodal/processors/llava.py b/python/sglang/srt/multimodal/processors/llava.py
index d32398d85b9a..03c4bf5ec634 100644
--- a/python/sglang/srt/multimodal/processors/llava.py
+++ b/python/sglang/srt/multimodal/processors/llava.py
@@ -158,7 +158,7 @@ async def process_mm_data_async(
         return {
             "mm_items": [
                 MultimodalDataItem(
-                    pixel_values=pixel_values,
+                    feature=pixel_values,
                     image_sizes=image_sizes,
                     modality=modality,
                 )
diff --git a/python/sglang/srt/multimodal/processors/minicpm.py b/python/sglang/srt/multimodal/processors/minicpm.py
index 7945f20b5f50..369971ccbe53 100644
--- a/python/sglang/srt/multimodal/processors/minicpm.py
+++ b/python/sglang/srt/multimodal/processors/minicpm.py
@@ -114,7 +114,7 @@ async def process_mm_data_async(
 
         if len(pixel_values) != 0:
             item = MultimodalDataItem(
-                pixel_values=pixel_values,
+                feature=pixel_values,
                 offsets=image_offsets,
                 tgt_size=tgt_sizes_flat,
                 modality=Modality.IMAGE,
@@ -135,7 +135,7 @@ async def process_mm_data_async(
             else:
                 audio_offsets = None
             item = MultimodalDataItem(
-                audio_features=[res["audio_features"]],
+                feature=[res["audio_features"]],
                 audio_feature_lens=res["audio_feature_lens"],
                 offsets=audio_offsets,
                 modality=Modality.AUDIO,
diff --git a/python/sglang/srt/multimodal/processors/mlama.py b/python/sglang/srt/multimodal/processors/mlama.py
index aeb227be2f70..783145027b79 100644
--- a/python/sglang/srt/multimodal/processors/mlama.py
+++ b/python/sglang/srt/multimodal/processors/mlama.py
@@ -24,7 +24,7 @@ async def process_mm_data_async(
         image_inputs["input_ids"] = image_inputs["input_ids"].tolist()[0]
         image_inputs["mm_items"] = [
             MultimodalDataItem(
-                pixel_values=image_inputs["pixel_values"],
+                feature=image_inputs["pixel_values"],
                 aspect_ratio_id=image_inputs["aspect_ratio_ids"],
                 aspect_ratio_mask=image_inputs["aspect_ratio_mask"],
                 modality=Modality.IMAGE,
diff --git a/python/sglang/srt/multimodal/processors/mllama4.py b/python/sglang/srt/multimodal/processors/mllama4.py
index a7988c3557f9..ccf70adc8766 100644
--- a/python/sglang/srt/multimodal/processors/mllama4.py
+++ b/python/sglang/srt/multimodal/processors/mllama4.py
@@ -142,7 +142,7 @@ async def process_mm_data_async(
         # Add metadata for image processing
         processor_output["mm_items"] = [
             MultimodalDataItem(
-                pixel_values=processor_output["pixel_values"],
+                feature=processor_output["pixel_values"],
                 modality=Modality.IMAGE,
                 offsets=image_offsets,
             )
diff --git a/python/sglang/srt/multimodal/processors/phi4mm.py b/python/sglang/srt/multimodal/processors/phi4mm.py
index fbf2cccb590f..d2e009d27f3e 100644
--- a/python/sglang/srt/multimodal/processors/phi4mm.py
+++ b/python/sglang/srt/multimodal/processors/phi4mm.py
@@ -62,7 +62,7 @@ async def process_mm_data_async(
 
         items = [
             MultimodalDataItem(
-                pixel_values=res["input_image_embeds"],
+                feature=res["input_image_embeds"],
                 image_sizes=res["image_sizes"],
                 image_emb_mask=res["image_attention_mask"],
                 offsets=image_offsets,
diff --git a/python/sglang/srt/multimodal/processors/pixtral.py b/python/sglang/srt/multimodal/processors/pixtral.py
index 9be08cdcc99a..8b741d6279c0 100644
--- a/python/sglang/srt/multimodal/processors/pixtral.py
+++ b/python/sglang/srt/multimodal/processors/pixtral.py
@@ -103,7 +103,7 @@ async def process_mm_data_async(
             )
             mm_items = [
                 MultimodalDataItem(
-                    pixel_values=processor_output["pixel_values"],
+                    feature=processor_output["pixel_values"],
                     image_sizes=processor_output["image_sizes"],
                     modality=Modality.IMAGE,
                     offsets=image_offsets,
diff --git a/test/srt/test_vlm_accuracy.py b/test/srt/test_vlm_accuracy.py
index ea83f3eef755..2f2e294fa0c3 100644
--- a/test/srt/test_vlm_accuracy.py
+++ b/test/srt/test_vlm_accuracy.py
@@ -245,7 +245,7 @@ async def test_vlm_embedding_output(self):
                     MultimodalInputs(
                         mm_items=[
                             MultimodalDataItem(
-                                pixel_values=pixel_values_flat,
+                                feature=pixel_values_flat,
                                 offsets=image_offsets,
                                 tgt_size=tgt_sizes_flat,
                                 modality=Modality.IMAGE,

From 795668dc73eecc09907b7f25161c53b0bdc3cc43 Mon Sep 17 00:00:00 2001
From: Yingchun Lai <laiyingchun@apache.org>
Date: Thu, 17 Jul 2025 08:55:59 +0800
Subject: [PATCH 013/396] feat: add tp_rank, pp_rank and dp_rank labels for
 scheduler metrics (#7597)

Co-authored-by: Stefan He <hebiaobuaa@gmail.com>
---
 python/sglang/srt/managers/scheduler.py       | 38 ++++++++++++-------
 .../scheduler_output_processor_mixin.py       |  2 +-
 python/sglang/srt/server_args.py              |  8 ++++
 3 files changed, 33 insertions(+), 15 deletions(-)

diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index a7f893253637..ab966f924cc6 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -252,6 +252,9 @@ def __init__(
         self.enable_overlap = not server_args.disable_overlap_schedule
         self.skip_tokenizer_init = server_args.skip_tokenizer_init
         self.enable_metrics = server_args.enable_metrics
+        self.enable_metrics_for_all_schedulers = (
+            server_args.enable_metrics_for_all_schedulers
+        )
         self.enable_kv_cache_events = server_args.kv_events_config is not None
         self.stream_interval = server_args.stream_interval
         self.spec_algorithm = SpeculativeAlgorithm.from_string(
@@ -281,9 +284,6 @@ def __init__(
             self.send_to_tokenizer = get_zmq_socket(
                 context, zmq.PUSH, port_args.tokenizer_ipc_name, False
             )
-            self.send_metrics_from_scheduler = get_zmq_socket(
-                context, zmq.PUSH, port_args.metrics_ipc_name, False
-            )
 
             if server_args.skip_tokenizer_init:
                 # Directly send to the TokenizerManager
@@ -309,10 +309,14 @@ def __init__(
         else:
             self.recv_from_tokenizer = None
             self.recv_from_rpc = None
-            self.send_metrics_from_scheduler = None
             self.send_to_tokenizer = SimpleNamespace(send_pyobj=lambda x: None)
             self.send_to_detokenizer = SimpleNamespace(send_pyobj=lambda x: None)
 
+        if self.current_scheduler_metrics_enabled():
+            self.send_metrics_from_scheduler = get_zmq_socket(
+                context, zmq.PUSH, port_args.metrics_ipc_name, False
+            )
+
         # Init tokenizer
         self.init_tokenizer()
 
@@ -495,7 +499,7 @@ def __init__(
         self.init_profier()
 
         # Init metrics stats
-        self.init_metrics()
+        self.init_metrics(tp_rank, pp_rank, dp_rank)
         self.init_kv_events(server_args.kv_events_config)
 
         # Init request dispatcher
@@ -537,6 +541,9 @@ def __init__(
         if get_bool_env_var("SGLANG_GC_LOG"):
             configure_gc_logger()
 
+    def current_scheduler_metrics_enabled(self):
+        return self.attn_tp_rank == 0 or self.enable_metrics_for_all_schedulers
+
     def maybe_sleep_on_idle(self):
         if self.idle_sleeper is not None:
             self.idle_sleeper.maybe_sleep()
@@ -660,7 +667,7 @@ def init_profier(self):
         self.profile_in_progress: bool = False
         self.rpd_profiler = None
 
-    def init_metrics(self):
+    def init_metrics(self, tp_rank: int, pp_rank: int, dp_rank: Optional[int]):
         self.last_gen_throughput: float = 0.0
         self.last_input_throughput: float = 0.0
         self.step_time_dict = defaultdict(list)  # Dict[batch size -> step time]
@@ -671,12 +678,15 @@ def init_metrics(self):
         self.stats = SchedulerStats()
         if self.enable_metrics:
             engine_type = "unified"
-            self.metrics_collector = SchedulerMetricsCollector(
-                labels={
-                    "model_name": self.server_args.served_model_name,
-                    "engine_type": engine_type,
-                },
-            )
+            labels = {
+                "model_name": self.server_args.served_model_name,
+                "engine_type": engine_type,
+                "tp_rank": tp_rank,
+                "pp_rank": pp_rank,
+            }
+            if dp_rank is not None:
+                labels["dp_rank"] = dp_rank
+            self.metrics_collector = SchedulerMetricsCollector(labels=labels)
 
     def init_kv_events(self, kv_events_config: Optional[str]):
         if self.enable_kv_cache_events:
@@ -1519,7 +1529,7 @@ def check_memory(self):
 
         if (
             self.enable_metrics
-            and self.attn_tp_rank == 0
+            and self.current_scheduler_metrics_enabled()
             and time.perf_counter() > self.metrics_collector.last_log_time + 30
         ):
             # During idle time, also collect metrics every 30 seconds.
@@ -1755,7 +1765,7 @@ def get_new_batch_prefill(self) -> Optional[ScheduleBatch]:
             self.chunked_req.is_chunked += 1
 
         # Print stats
-        if self.attn_tp_rank == 0:
+        if self.current_scheduler_metrics_enabled():
             self.log_prefill_stats(adder, can_run_list, running_bs)
 
         # Create a new batch
diff --git a/python/sglang/srt/managers/scheduler_output_processor_mixin.py b/python/sglang/srt/managers/scheduler_output_processor_mixin.py
index 75bc4427a7e5..635121920479 100644
--- a/python/sglang/srt/managers/scheduler_output_processor_mixin.py
+++ b/python/sglang/srt/managers/scheduler_output_processor_mixin.py
@@ -290,7 +290,7 @@ def process_batch_result_decode(
 
         self.forward_ct_decode = (self.forward_ct_decode + 1) % (1 << 30)
         if (
-            self.attn_tp_rank == 0
+            self.current_scheduler_metrics_enabled()
             and self.forward_ct_decode % self.server_args.decode_log_interval == 0
         ):
             self.log_decode_stats(can_run_cuda_graph, running_batch=batch)
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 95ba9bee69e5..e475039d7380 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -105,6 +105,7 @@ class ServerArgs:
     crash_dump_folder: Optional[str] = None
     show_time_cost: bool = False
     enable_metrics: bool = False
+    enable_metrics_for_all_schedulers: bool = False
     bucket_time_to_first_token: Optional[List[float]] = None
     bucket_e2e_request_latency: Optional[List[float]] = None
     bucket_inter_token_latency: Optional[List[float]] = None
@@ -1002,6 +1003,13 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Enable log prometheus metrics.",
         )
+        parser.add_argument(
+            "--enable-metrics-for-all-schedulers",
+            action="store_true",
+            help="Enable --enable-metrics-for-all-schedulers when you want schedulers on all TP ranks (not just TP 0) "
+            "to record request metrics separately. This is especially useful when dp_attention is enabled, as "
+            "otherwise all metrics appear to come from TP 0.",
+        )
         parser.add_argument(
             "--bucket-time-to-first-token",
             type=float,

From 8a7a7770e58b2dfaa67aa49b2e24fc98ddcfd731 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 16 Jul 2025 18:09:28 -0700
Subject: [PATCH 014/396] [ci] limit cmake build nproc (#8100)

---
 .github/workflows/release-docker-dev.yml | 2 +-
 docker/Dockerfile                        | 3 ++-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/release-docker-dev.yml b/.github/workflows/release-docker-dev.yml
index fcc1d8866bf3..f75f64683bb7 100644
--- a/.github/workflows/release-docker-dev.yml
+++ b/.github/workflows/release-docker-dev.yml
@@ -41,5 +41,5 @@ jobs:
 
       - name: Build and Push Dev Image
         run: |
-          docker buildx build --output type=image,compression=zstd . -f docker/Dockerfile --build-arg CUDA_VERSION=${{ matrix.variant.version }} --build-arg BUILD_TYPE=${{ matrix.variant.type }} -t lmsysorg/sglang:${{ matrix.variant.tag }} --no-cache
+          docker buildx build --output type=image,compression=zstd . -f docker/Dockerfile --build-arg CUDA_VERSION=${{ matrix.variant.version }} --build-arg BUILD_TYPE=${{ matrix.variant.type }} --build-arg CMAKE_BUILD_PARALLEL_LEVEL=$(nproc) -t lmsysorg/sglang:${{ matrix.variant.tag }} --no-cache
           docker push lmsysorg/sglang:${{ matrix.variant.tag }}
diff --git a/docker/Dockerfile b/docker/Dockerfile
index 349873da4acf..eac2c8a4c446 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -3,6 +3,7 @@ FROM nvidia/cuda:${CUDA_VERSION}-cudnn-devel-ubuntu22.04
 
 ARG BUILD_TYPE=all
 ARG DEEPEP_COMMIT=b6ce310bb0b75079682d09bc2ebc063a074fbd58
+ARG CMAKE_BUILD_PARALLEL_LEVEL=2
 ENV DEBIAN_FRONTEND=noninteractive \
     CUDA_HOME=/usr/local/cuda \
     GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/ \
@@ -78,7 +79,7 @@ RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.3.9/sour
     NVSHMEM_TIMEOUT_DEVICE_POLLING=0 \
     NVSHMEM_USE_GDRCOPY=1 \
     cmake -S . -B build/ -DCMAKE_INSTALL_PREFIX=${NVSHMEM_DIR} -DCMAKE_CUDA_ARCHITECTURES=90 \
- && cmake --build build --target install -j \
+ && cmake --build build --target install -j${CMAKE_BUILD_PARALLEL_LEVEL} \
  && cd /sgl-workspace/DeepEP \
  && NVSHMEM_DIR=${NVSHMEM_DIR} pip install .
 

From 9069884b5140f95fc4a381b5c98114717744e110 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Wed, 16 Jul 2025 20:41:47 -0700
Subject: [PATCH 015/396] [ci] disable memory imbalance check for draft worker
 (#8108)

---
 python/sglang/srt/model_executor/model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 12db1d0559f3..923b4d02b543 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -561,7 +561,7 @@ def init_torch_distributed(self):
 
         # Check memory for tensor parallelism
         local_gpu_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        if self.tp_size > 1:
+        if self.tp_size > 1 and not self.is_draft_worker:
             if min_per_gpu_memory < local_gpu_memory * 0.9:
                 if get_bool_env_var("SGL_DISABLE_TP_MEMORY_INBALANCE_CHECK"):
                     logger.warning(

From 5c08a36cbfaeefab461ef7c42d897acae568b97a Mon Sep 17 00:00:00 2001
From: hzh0425 <hzh0425@apache.org>
Date: Thu, 17 Jul 2025 12:33:29 +0800
Subject: [PATCH 016/396] [Fix] ensure DeepGEMM is only enabled for FP8_W8A8
 models (#8110)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 353f131c91a3..e8bfadfb65fe 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1272,6 +1272,12 @@ def __init__(
             routed_scaling_factor=routed_scaling_factor,
         )
         self.deepep_mode = deepep_mode
+        if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM:
+            assert self.use_fp8_w8a8, (
+                "DeepGEMM requires an fp8_w8a8 model; "
+                "alternatively, you can disable DeepGEMM by turning off the ENABLE_JIT_DEEPGEMM environment variable."
+            )
+
         if self.deepep_mode.enable_low_latency():
             assert (
                 deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM

From 02404a1e35d9e53b6ed28f0707f4eaa5a431d3a1 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Thu, 17 Jul 2025 00:46:40 -0700
Subject: [PATCH 017/396] [ci] recover 8-gpu deepep test (#8105)

---
 .github/workflows/pr-test.yml | 42 +++++++++++++++++------------------
 scripts/ci_install_deepep.sh  | 29 +++++++++---------------
 test/srt/test_deepep_large.py | 20 +++++++++--------
 test/srt/test_deepep_small.py | 20 ++++++++---------
 4 files changed, 52 insertions(+), 59 deletions(-)

diff --git a/.github/workflows/pr-test.yml b/.github/workflows/pr-test.yml
index b29bf63f4576..2378695e21ee 100644
--- a/.github/workflows/pr-test.yml
+++ b/.github/workflows/pr-test.yml
@@ -324,33 +324,33 @@ jobs:
           cd test/srt
           python3 run_suite.py --suite per-commit-4-gpu-deepep
 
-  # unit-test-deepep-8-gpu:
-  #   if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-  #       github.event.pull_request.draft == false
-  #   runs-on: 8-gpu-runner
-  #   needs: [
-  #     unit-test-deepep-4-gpu,
-  #   ]
-  #   steps:
-  #     - name: Checkout code
-  #       uses: actions/checkout@v4
-  #
-  #     - name: Install dependencies
-  #       run: |
-  #         bash scripts/ci_install_deepep.sh
-  #
-  #     - name: Run test
-  #       timeout-minutes: 20
-  #       run: |
-  #         cd test/srt
-  #         python3 run_suite.py --suite per-commit-8-gpu-deepep
+  unit-test-deepep-8-gpu:
+    if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
+        github.event.pull_request.draft == false
+    runs-on: 8-gpu-runner
+    needs: [
+      unit-test-deepep-4-gpu,
+    ]
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Install dependencies
+        run: |
+          bash scripts/ci_install_deepep.sh
+
+      - name: Run test
+        timeout-minutes: 20
+        run: |
+          cd test/srt
+          python3 run_suite.py --suite per-commit-8-gpu-deepep
 
   finish:
     if: always()
     needs: [
       unit-test-frontend, unit-test-backend-1-gpu, unit-test-backend-2-gpu, unit-test-backend-4-gpu,
       unit-test-backend-8-gpu, performance-test-1-gpu-part-1, performance-test-1-gpu-part-2, performance-test-2-gpu,
-      accuracy-test-1-gpu, accuracy-test-2-gpu, unit-test-deepep-4-gpu, # unit-test-deepep-8-gpu,
+      accuracy-test-1-gpu, accuracy-test-2-gpu, unit-test-deepep-4-gpu, unit-test-deepep-8-gpu,
     ]
     runs-on: ubuntu-latest
     steps:
diff --git a/scripts/ci_install_deepep.sh b/scripts/ci_install_deepep.sh
index aa4dab097bb6..e743bddaf6a6 100755
--- a/scripts/ci_install_deepep.sh
+++ b/scripts/ci_install_deepep.sh
@@ -4,30 +4,30 @@ set -euxo pipefail
 
 bash scripts/ci_install_dependency.sh
 
-if python3 -c "import deep_ep" >/dev/null 2>&1; then
-    echo "deep_ep is already installed or importable. Skipping installation."
-    exit 0
-fi
-
 export GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/
 export NVSHMEM_DIR=/opt/nvshmem/install
 export LD_LIBRARY_PATH="${NVSHMEM_DIR}/lib:$LD_LIBRARY_PATH"
 export PATH="${NVSHMEM_DIR}/bin:$PATH"
 export CUDA_HOME=/usr/local/cuda
 
+if python3 -c "import deep_ep" >/dev/null 2>&1; then
+    echo "deep_ep is already installed or importable. Skipping installation."
+    exit 0
+fi
+
 # Install system dependencies
 apt install -y curl wget git sudo libibverbs-dev rdma-core infiniband-diags openssh-server perftest ibverbs-providers libibumad3 libibverbs1 libnl-3-200 libnl-route-3-200 librdmacm1 build-essential cmake
 
 # Install GDRCopy
 rm -rf /opt/gdrcopy && mkdir -p /opt/gdrcopy
-mkdir -p /opt/nvshmem
+rm -rf /opt/nvshmem && mkdir -p /opt/nvshmem
 cd /opt/gdrcopy
 git clone https://github.com/NVIDIA/gdrcopy.git .
 git checkout v2.4.4
 apt update
 apt install -y nvidia-dkms-535
 apt install -y build-essential devscripts debhelper fakeroot pkg-config dkms
-apt install -y check libsubunit0 libsubunit-dev
+apt install -y check libsubunit0 libsubunit-dev python3-venv
 cd packages
 CUDA=/usr/local/cuda ./build-deb-packages.sh
 dpkg -i gdrdrv-dkms_*.deb
@@ -40,16 +40,11 @@ if [ ! -e "/usr/lib/x86_64-linux-gnu/libmlx5.so" ]; then
 fi
 apt-get update && apt-get install -y libfabric-dev
 
-# Clone DeepEP
-rm -rf /root/.cache/deepep && git clone https://github.com/deepseek-ai/DeepEP.git /root/.cache/deepep && cd /root/.cache/deepep && git checkout eef7ab50fa5cf0ab1dd3fce4c6493c90bdf290ac
-
 # Install NVSHMEM
 cd /opt/nvshmem
-wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.2.5/source/nvshmem_src_3.2.5-1.txz
-tar -xf nvshmem_src_3.2.5-1.txz
-rm -rf nvshmem && mv nvshmem_src nvshmem
-cd nvshmem
-git apply /root/.cache/deepep/third-party/nvshmem.patch
+wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.3.9/source/nvshmem_src_cuda12-all-all-3.3.9.tar.gz
+tar -xf nvshmem_src_cuda12-all-all-3.3.9.tar.gz
+mv nvshmem_src nvshmem && cd nvshmem
 NVSHMEM_SHMEM_SUPPORT=0 \
 NVSHMEM_UCX_SUPPORT=0 \
 NVSHMEM_USE_NCCL=0 \
@@ -63,12 +58,10 @@ cd build
 make -j$(nproc) install
 
 # Install DeepEP
+rm -rf /root/.cache/deepep && git clone https://github.com/deepseek-ai/DeepEP.git /root/.cache/deepep && cd /root/.cache/deepep && git checkout b6ce310bb0b75079682d09bc2ebc063a074fbd58
 cd /root/.cache/deepep && python3 setup.py install
 
 # Verify configuration
-echo "=== NCCL Configuration ==="
-nvidia-smi topo -m
-nvidia-smi nvlink -s
 echo "=== Verify GDRCOPY ==="
 gdrcopy_copybw
 echo "=== Verify NVSHMEM ==="
diff --git a/test/srt/test_deepep_large.py b/test/srt/test_deepep_large.py
index 8afb2896f8f8..703eb7789316 100644
--- a/test/srt/test_deepep_large.py
+++ b/test/srt/test_deepep_large.py
@@ -45,6 +45,7 @@ def setUpClass(cls):
                 "256",
                 "--max-running-requests",
                 "2048",
+                "--disable-radix-cache",
             ],
         )
 
@@ -54,10 +55,10 @@ def tearDownClass(cls):
 
     def test_gsm8k(self):
         args = SimpleNamespace(
-            num_shots=8,
+            num_shots=5,
             data_path=None,
-            num_questions=1250,
-            parallel=1250,
+            num_questions=1200,
+            parallel=1200,
             max_new_tokens=512,
             host="http://127.0.0.1",
             port=int(self.base_url.split(":")[-1]),
@@ -65,7 +66,7 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(f"Eval accuracy of GSM8K: {metrics=}")
 
-        self.assertGreater(metrics["accuracy"], 0.93)
+        self.assertGreater(metrics["accuracy"], 0.92)
 
 
 class TestDeepseekMTP(CustomTestCase):
@@ -107,6 +108,7 @@ def setUpClass(cls):
                 "1",
                 "--speculative-num-draft-tokens",
                 "2",
+                "--disable-radix-cache",
             ],
         )
 
@@ -116,10 +118,10 @@ def tearDownClass(cls):
 
     def test_gsm8k(self):
         args = SimpleNamespace(
-            num_shots=8,
+            num_shots=5,
             data_path=None,
-            num_questions=1250,
-            parallel=1250,
+            num_questions=1200,
+            parallel=1200,
             max_new_tokens=512,
             host="http://127.0.0.1",
             port=int(self.base_url.split(":")[-1]),
@@ -127,7 +129,7 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(f"Eval accuracy of GSM8K: {metrics=}")
 
-        self.assertGreater(metrics["accuracy"], 0.93)
+        self.assertGreater(metrics["accuracy"], 0.92)
 
         server_info = requests.get(self.base_url + "/get_server_info")
         avg_spec_accept_length = server_info.json()["internal_states"][0][
@@ -138,7 +140,7 @@ def test_gsm8k(self):
             f"accuracy={metrics['accuracy']=:.3f}\n"
             f"{avg_spec_accept_length=:.3f}\n"
         )
-        self.assertGreater(avg_spec_accept_length, 1.9)
+        self.assertGreater(avg_spec_accept_length, 1.85)
 
 
 if __name__ == "__main__":
diff --git a/test/srt/test_deepep_small.py b/test/srt/test_deepep_small.py
index 9724ae735f97..e26017ade608 100644
--- a/test/srt/test_deepep_small.py
+++ b/test/srt/test_deepep_small.py
@@ -36,6 +36,8 @@ def setUpClass(cls):
                 "128",
                 "--max-running-requests",
                 "128",
+                "--mem-fraction-static",
+                "0.5",
             ],
         )
 
@@ -56,7 +58,7 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(metrics)
 
-        self.assertGreater(metrics["accuracy"], 0.62)
+        self.assertGreater(metrics["accuracy"], 0.60)
 
 
 class TestHybridDPTP(CustomTestCase):
@@ -100,7 +102,7 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(metrics)
 
-        self.assertGreater(metrics["accuracy"], 0.62)
+        self.assertGreater(metrics["accuracy"], 0.60)
 
 
 class TestTP(CustomTestCase):
@@ -141,10 +143,10 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(metrics)
 
-        self.assertGreater(metrics["accuracy"], 0.62)
+        self.assertGreater(metrics["accuracy"], 0.60)
 
 
-# @unittest.skip("covered in test_deepep_large.py")
+@unittest.skip("covered in test_deepep_large.py")
 class TestNoGatherdBuffer(CustomTestCase):
     @classmethod
     def setUpClass(cls):
@@ -189,7 +191,7 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(metrics)
 
-        self.assertGreater(metrics["accuracy"], 0.62)
+        self.assertGreater(metrics["accuracy"], 0.60)
 
 
 class TestTBO(CustomTestCase):
@@ -236,10 +238,10 @@ def test_gsm8k(self):
         metrics = run_eval_few_shot_gsm8k(args)
         print(metrics)
 
-        self.assertGreater(metrics["accuracy"], 0.62)
+        self.assertGreater(metrics["accuracy"], 0.60)
 
 
-# @unittest.skip("covered in TestMTPWithTBO")
+@unittest.skip("covered in TestMTPWithTBO")
 class TestMTP(CustomTestCase):
     @classmethod
     def setUpClass(cls):
@@ -280,8 +282,6 @@ def tearDownClass(cls):
         kill_process_tree(cls.process.pid)
 
     def test_gsm8k(self):
-        requests.get(self.base_url + "/flush_cache")
-
         args = SimpleNamespace(
             num_shots=5,
             data_path=None,
@@ -352,8 +352,6 @@ def tearDownClass(cls):
         kill_process_tree(cls.process.pid)
 
     def test_gsm8k(self):
-        requests.get(self.base_url + "/flush_cache")
-
         args = SimpleNamespace(
             num_shots=5,
             data_path=None,

From 49b8777460b707809c60584b7a801fac5e0426b4 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Thu, 17 Jul 2025 00:47:07 -0700
Subject: [PATCH 018/396] Refactor: move all quantization-related code to
 `srt/layer/quantization` (#7989)

---
 python/sglang/srt/layers/linear.py            | 116 +---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 327 +----------
 .../layers/moe/fused_moe_triton/__init__.py   |   3 -
 .../srt/layers/moe/fused_moe_triton/layer.py  | 375 +------------
 python/sglang/srt/layers/moe/topk.py          |   6 +-
 .../srt/layers/quantization/__init__.py       | 100 +---
 python/sglang/srt/layers/quantization/awq.py  |  16 +-
 .../srt/layers/quantization/base_config.py    |  86 ++-
 .../srt/layers/quantization/blockwise_int8.py |  37 +-
 .../compressed_tensors/compressed_tensors.py  |  19 +-
 python/sglang/srt/layers/quantization/fp8.py  | 292 +++++++++-
 python/sglang/srt/layers/quantization/gptq.py |  23 +-
 .../srt/layers/quantization/marlin_utils.py   |  19 +-
 .../srt/layers/quantization/modelopt_quant.py |  71 +--
 .../srt/layers/quantization/moe_wna16.py      |  30 +-
 python/sglang/srt/layers/quantization/qoq.py  |  13 +-
 .../sglang/srt/layers/quantization/unquant.py | 515 ++++++++++++++++++
 .../sglang/srt/layers/quantization/utils.py   |  97 +++-
 .../sglang/srt/layers/quantization/w4afp8.py  |  12 +-
 .../srt/layers/quantization/w8a8_fp8.py       |  31 +-
 .../srt/layers/quantization/w8a8_int8.py      |  40 +-
 .../srt/layers/vocab_parallel_embedding.py    |  40 +-
 22 files changed, 1094 insertions(+), 1174 deletions(-)
 create mode 100644 python/sglang/srt/layers/quantization/unquant.py

diff --git a/python/sglang/srt/layers/linear.py b/python/sglang/srt/layers/linear.py
index 0cc44be55321..1c770193fccb 100644
--- a/python/sglang/srt/layers/linear.py
+++ b/python/sglang/srt/layers/linear.py
@@ -1,12 +1,12 @@
 """Adapted from https://github.com/vllm-project/vllm/blob/v0.6.4.post1/vllm/model_executor/layers/linear.py"""
 
+from __future__ import annotations
+
 import itertools
 import logging
-from abc import abstractmethod
-from typing import Dict, List, Optional, Tuple
+from typing import TYPE_CHECKING, Dict, List, Optional, Tuple
 
 import torch
-import torch.nn.functional as F
 from torch.nn.parameter import Parameter, UninitializedParameter
 
 from sglang.srt.distributed import (
@@ -17,7 +17,6 @@
     tensor_model_parallel_all_gather,
     tensor_model_parallel_all_reduce,
 )
-from sglang.srt.layers.amx_utils import _amx_process_weight_after_loading
 from sglang.srt.layers.parameter import (
     BasevLLMParameter,
     BlockQuantScaleParameter,
@@ -27,17 +26,14 @@
     RowvLLMParameter,
     _ColumnvLLMParameter,
 )
-from sglang.srt.layers.quantization.base_config import (
-    QuantizationConfig,
-    QuantizeMethodBase,
-)
-from sglang.srt.utils import (
-    cpu_has_amx_support,
-    is_cpu,
-    is_npu,
-    set_weight_attrs,
-    use_intel_amx_backend,
-)
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
+from sglang.srt.utils import is_cpu, is_npu, set_weight_attrs
+
+if TYPE_CHECKING:
+    from sglang.srt.layers.quantization.base_config import (
+        QuantizationConfig,
+        QuantizeMethodBase,
+    )
 
 logger = logging.getLogger(__name__)
 
@@ -59,7 +55,6 @@
     "IPEXAWQLinearMethod",
 ]
 
-_is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
 _is_npu = is_npu()
 
@@ -110,91 +105,6 @@ def adjust_scalar_to_fused_array(param, loaded_weight, shard_id):
     return param[shard_id], loaded_weight
 
 
-class LinearMethodBase(QuantizeMethodBase):
-    """Base class for different (maybe quantized) linear methods."""
-
-    @abstractmethod
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        input_size_per_partition: int,
-        output_partition_sizes: List[int],
-        input_size: int,
-        output_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        """Create weights for a linear layer.
-           The weights will be set as attributes of the layer.
-
-        Args:
-            layer: The layer that is using the LinearMethodBase factory.
-            input_size_per_partition: Size of the weight input dim on rank X.
-            output_partition_sizes: Sizes of the output dim of each logical
-                weight on rank X. E.g., output_partition_sizes for QKVLinear
-                is a list contains the width of Wq, Wk, Wv on rank X.
-            input_size: Size of the input dim of the weight across all ranks.
-            output_size: Size of the output dim of the weight across all ranks.
-            params_dtype: Datatype of the parameters.
-        """
-        raise NotImplementedError
-
-    @abstractmethod
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        bias: Optional[torch.Tensor] = None,
-    ) -> torch.Tensor:
-        """Apply the weights in layer to the input tensor.
-        Expects create_weights to have been called before on the layer."""
-        raise NotImplementedError
-
-
-class UnquantizedLinearMethod(LinearMethodBase):
-    """Linear method without quantization."""
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        input_size_per_partition: int,
-        output_partition_sizes: List[int],
-        input_size: int,
-        output_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        weight = Parameter(
-            torch.empty(
-                sum(output_partition_sizes),
-                input_size_per_partition,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
-        layer.register_parameter("weight", weight)
-        set_weight_attrs(weight, extra_weight_attrs)
-
-    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
-        if _is_cpu and _is_cpu_amx_available:
-            _amx_process_weight_after_loading(layer, ["weight"])
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        bias: Optional[torch.Tensor] = None,
-    ) -> torch.Tensor:
-
-        if use_intel_amx_backend(layer):
-            return torch.ops.sgl_kernel.weight_packed_linear(
-                x, layer.weight, bias, True  # is_vnni
-            )
-
-        return F.linear(x, layer.weight, bias)
-
-
 class LinearBase(torch.nn.Module):
     """Base linear layer.
 
@@ -310,7 +220,7 @@ def weight_loader(self, param: Parameter, loaded_weight: torch.Tensor):
         assert param.size() == loaded_weight.size()
         param.data.copy_(loaded_weight)
 
-    def forward(self, x: torch.Tensor) -> torch.Tensor:
+    def forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         bias = self.bias if not self.skip_bias_add else None
         assert self.quant_method is not None
         output = self.quant_method.apply(self, x, bias)
@@ -845,7 +755,7 @@ def __init__(
         bias: bool = True,
         skip_bias_add: bool = False,
         params_dtype: Optional[torch.dtype] = None,
-        quant_config: Optional[QuantizationConfig] = None,
+        quant_config: Optional["QuantizationConfig"] = None,
         prefix: str = "",
         tp_rank: Optional[int] = None,
         tp_size: Optional[int] = None,
diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index e8bfadfb65fe..a839b47febed 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -27,22 +27,20 @@
     silu_and_mul_triton_kernel,
     tma_align_input_scale,
 )
-from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
-from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE, FusedMoEMethodBase
+from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE
 from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
-from sglang.srt.layers.quantization.fp8 import Fp8Config, Fp8MoEMethod
+from sglang.srt.layers.quantization.fp8 import Fp8EPMoEMethod
 from sglang.srt.layers.quantization.fp8_kernel import (
     is_fp8_fnuz,
-    scaled_fp8_quant,
     sglang_per_token_group_quant_fp8,
     sglang_per_token_quant_fp8,
 )
-from sglang.srt.layers.quantization.fp8_utils import normalize_e4m3fn_to_e4m3fnuz
+from sglang.srt.layers.quantization.unquant import UnquantizedEPMoEMethod
 from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config, W4AFp8MoEMethod
 from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch
@@ -53,7 +51,6 @@
     get_bool_env_var,
     is_hip,
     is_npu,
-    set_weight_attrs,
 )
 
 _is_hip = is_hip()
@@ -904,324 +901,6 @@ def _load_fp8_scale(
                     param_data[expert_id] = loaded_weight
 
 
-class UnquantizedEPMoEMethod(FusedMoEMethodBase, CustomOp):
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts_per_partition: int,
-        hidden_size: int,
-        intermediate_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        # Fused gate_up_proj (column parallel)
-        w13_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                2 * intermediate_size,
-                hidden_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w13_weight", w13_weight)
-        set_weight_attrs(w13_weight, extra_weight_attrs)
-
-        # down_proj (row parallel)
-        w2_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                hidden_size,
-                intermediate_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight", w2_weight)
-        set_weight_attrs(w2_weight, extra_weight_attrs)
-
-        # scale
-        layer.register_parameter("w13_input_scale", None)
-        layer.register_parameter("w13_weight_scale", None)
-
-        ones_tensor = torch.ones(num_experts_per_partition, dtype=torch.float32)
-
-        w2_input_scale = torch.nn.Parameter(
-            ones_tensor,
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_input_scale", w2_input_scale)
-        set_weight_attrs(w2_input_scale, extra_weight_attrs)
-
-        w2_weight_scale = torch.nn.Parameter(
-            ones_tensor,
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight_scale", w2_weight_scale)
-        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        custom_routing_function: Optional[Callable] = None,
-    ) -> torch.Tensor:
-        raise NotImplementedError
-
-
-class Fp8EPMoEMethod(Fp8MoEMethod):
-    """MoE method for FP8.
-    Supports loading FP8 checkpoints with static weight scale and
-    dynamic/static activation scale.
-
-    Args:
-        quant_config: The quantization config.
-    """
-
-    def __init__(self, quant_config: Fp8Config):
-        self.quant_config = quant_config
-        self.block_quant = self.quant_config.weight_block_size is not None
-
-    def create_weights(
-        self,
-        layer: Module,
-        num_experts_per_partition: int,
-        hidden_size: int,
-        intermediate_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        if self.quant_config.is_checkpoint_fp8_serialized:
-            params_dtype = torch.float8_e4m3fn
-
-        tp_size = get_tensor_model_parallel_world_size()
-        if self.block_quant:
-            block_n, block_k = (
-                self.quant_config.weight_block_size[0],
-                self.quant_config.weight_block_size[1],
-            )
-            # NOTE(HandH1998): To ensure proper alignment of the block-wise quantization scales, the output_size of the weights for both the gate and up layers must be divisible by block_n.
-            # Required by column parallel or enabling merged weights
-            if intermediate_size % block_n != 0:
-                raise ValueError(
-                    f"The output_size of gate's and up's weight = "
-                    f"{intermediate_size} is not divisible by "
-                    f"weight quantization block_n = {block_n}."
-                )
-            if tp_size > 1:
-                # Required by row parallel
-                if intermediate_size % block_k != 0:
-                    raise ValueError(
-                        f"The input_size of down's weight = "
-                        f"{intermediate_size} is not divisible by "
-                        f"weight quantization block_k = {block_k}."
-                    )
-
-        # WEIGHTS
-        w13_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                2 * intermediate_size,
-                hidden_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w13_weight", w13_weight)
-        set_weight_attrs(w13_weight, extra_weight_attrs)
-
-        w2_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                hidden_size,
-                intermediate_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight", w2_weight)
-        set_weight_attrs(w2_weight, extra_weight_attrs)
-
-        # WEIGHT_SCALES
-        if self.block_quant:
-            w13_weight_scale = torch.nn.Parameter(
-                torch.ones(
-                    num_experts_per_partition,
-                    2 * ((intermediate_size + block_n - 1) // block_n),
-                    (hidden_size + block_k - 1) // block_k,
-                    dtype=torch.float32,
-                ),
-                requires_grad=False,
-            )
-            w2_weight_scale = torch.nn.Parameter(
-                torch.ones(
-                    num_experts_per_partition,
-                    (hidden_size + block_n - 1) // block_n,
-                    (intermediate_size + block_k - 1) // block_k,
-                    dtype=torch.float32,
-                ),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_weight_scale_inv", w13_weight_scale)
-            layer.register_parameter("w2_weight_scale_inv", w2_weight_scale)
-            assert self.quant_config.activation_scheme == "dynamic"
-        else:
-            # WEIGHT_SCALES
-            # Allocate 2 scales for w1 and w3 respectively.
-            w13_weight_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, 2, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_weight_scale", w13_weight_scale)
-
-            w2_weight_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w2_weight_scale", w2_weight_scale)
-        # Add the quantization method used (per tensor/grouped/channel)
-        # to ensure the weight scales are loaded in properly
-        extra_weight_attrs.update(
-            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
-            if self.block_quant
-            else {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
-        )
-        # If loading fp8 checkpoint, pass the weight loaders.
-        # If loading an fp16 checkpoint, do not (we will quantize in
-        #   process_weights_after_loading()
-        if self.quant_config.is_checkpoint_fp8_serialized:
-            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
-            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
-
-        # INPUT_SCALES
-        if self.quant_config.activation_scheme == "static":
-            if not self.quant_config.is_checkpoint_fp8_serialized:
-                raise ValueError(
-                    "Found static activation scheme for checkpoint that "
-                    "was not serialized fp8."
-                )
-
-            w13_input_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_input_scale", w13_input_scale)
-            set_weight_attrs(w13_input_scale, extra_weight_attrs)
-
-            w2_input_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w2_input_scale", w2_input_scale)
-            set_weight_attrs(w2_input_scale, extra_weight_attrs)
-
-        else:
-            layer.w13_input_scale = None
-            layer.w2_input_scale = None
-
-    def process_weights_after_loading(self, layer: Module) -> None:
-
-        # If checkpoint is fp16, quantize in place.
-        if not self.quant_config.is_checkpoint_fp8_serialized:
-            # If rocm, use float8_e4m3fnuz as dtype
-            fp8_dtype = torch.float8_e4m3fnuz if _is_hip else torch.float8_e4m3fn
-            w13_weight = torch.empty_like(layer.w13_weight.data, dtype=fp8_dtype)
-            w2_weight = torch.empty_like(layer.w2_weight.data, dtype=fp8_dtype)
-
-            layer.w13_weight_scale = torch.nn.Parameter(
-                torch.ones(
-                    layer.num_experts_per_partition,
-                    dtype=torch.float32,
-                    device=w13_weight.device,
-                ),
-                requires_grad=False,
-            )
-
-            for expert in range(layer.num_experts_per_partition):
-                w13_weight[expert, :, :], layer.w13_weight_scale[expert] = (
-                    scaled_fp8_quant(layer.w13_weight.data[expert, :, :])
-                )
-                w2_weight[expert, :, :], layer.w2_weight_scale[expert] = (
-                    scaled_fp8_quant(layer.w2_weight.data[expert, :, :])
-                )
-            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
-            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
-            return
-
-        # If checkpoint is fp8, we need to handle that the
-        # MoE kernels require single activation scale and single weight
-        # scale for w13 per expert.
-        else:
-            if self.quant_config.activation_scheme == "static":
-                if layer.w13_input_scale is None or layer.w2_input_scale is None:
-                    raise ValueError(
-                        "QuantConfig has static quantization, but found "
-                        "activation scales are None."
-                    )
-                layer.w13_weight_scale = torch.nn.Parameter(
-                    torch.max(layer.w13_weight_scale, dim=1).values,
-                    requires_grad=False,
-                )
-            if self.block_quant:
-                # If ROCm, normalize the weights and scales to e4m3fnuz
-                if _is_fp8_fnuz:
-                    # activation_scheme: dynamic
-                    w13_weight, w13_weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
-                        weight=layer.w13_weight,
-                        weight_scale=layer.w13_weight_scale_inv,
-                        input_scale=None,
-                    )
-                    w2_weight, w2_weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
-                        weight=layer.w2_weight,
-                        weight_scale=layer.w2_weight_scale_inv,
-                        input_scale=None,
-                    )
-                    # Reset the parameter
-                    layer.w13_weight = torch.nn.Parameter(
-                        w13_weight, requires_grad=False
-                    )
-                    layer.w13_weight_scale_inv = torch.nn.Parameter(
-                        w13_weight_scale, requires_grad=False
-                    )
-                    layer.w13_input_scale = None
-                    layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
-                    layer.w2_weight_scale_inv = torch.nn.Parameter(
-                        w2_weight_scale, requires_grad=False
-                    )
-                    layer.w2_input_scale = None
-                if _use_aiter:
-                    layer.w13_weight = torch.nn.Parameter(
-                        shuffle_weight(layer.w13_weight.data, (16, 16)),
-                        requires_grad=False,
-                    )
-                    layer.w2_weight = torch.nn.Parameter(
-                        shuffle_weight(layer.w2_weight.data, (16, 16)),
-                        requires_grad=False,
-                    )
-            return
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        custom_routing_function: Optional[Callable] = None,
-    ) -> torch.Tensor:
-        raise NotImplementedError
-
-
 class DeepEPMoE(EPMoE):
     """
     MoE Expert Parallel Impl based on DeepEP (https://github.com/deepseek-ai/DeepEP/tree/main)
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py b/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py
index 839b659fe31b..6d8aee85293d 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/__init__.py
@@ -9,7 +9,6 @@
 )
 from sglang.srt.layers.moe.fused_moe_triton.layer import (
     FusedMoE,
-    FusedMoEMethodBase,
     FusedMoeWeightScaleSupported,
 )
 
@@ -31,11 +30,9 @@ def get_config() -> Optional[Dict[str, Any]]:
 
 __all__ = [
     "FusedMoE",
-    "FusedMoEMethodBase",
     "FusedMoeWeightScaleSupported",
     "override_config",
     "get_config",
-    "fused_moe",
     "fused_experts",
     "get_config_file_name",
     "moe_align_block_size",
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index ad495d5953cf..41ae6274b087 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -1,60 +1,28 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/a6221a144af772fd1a68fe7e627935dc53e81738/vllm/model_executor/layers/fused_moe/layer.py
 
-import importlib
-from abc import abstractmethod
+import logging
 from enum import Enum
 from typing import Callable, List, Optional, Tuple
 
 import torch
 
-from sglang.srt.custom_op import CustomOp
 from sglang.srt.distributed import (
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
 )
-from sglang.srt.layers.amx_utils import _amx_process_weight_after_loading
-from sglang.srt.layers.moe.fused_moe_native import moe_forward_native
-from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
+from sglang.srt.layers.quantization.unquant import UnquantizedFusedMoEMethod
 from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_loader.weight_utils import narrow_padded_param_and_loaded_weight
-from sglang.srt.utils import (
-    cpu_has_amx_support,
-    get_bool_env_var,
-    is_cpu,
-    is_hip,
-    set_weight_attrs,
-    use_intel_amx_backend,
-)
-
-has_triton_kernels = importlib.util.find_spec("triton_kernels") is not None
-
-if torch.cuda.is_available():
-    from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-
-    if has_triton_kernels:
-        from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
-            triton_kernel_moe_forward,
-        )
-else:
-    fused_experts = None  # type: ignore
-
-import logging
+from sglang.srt.utils import cpu_has_amx_support, get_bool_env_var, is_cpu, is_hip
 
 _is_hip = is_hip()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
-_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
-
-if _use_aiter:
-    from aiter import ActivationType
-    from aiter.fused_moe import fused_moe
-    from aiter.fused_moe_bf16_asm import ck_moe_2stages
-    from aiter.ops.shuffle import shuffle_weight
 
 logger = logging.getLogger(__name__)
 
@@ -66,333 +34,6 @@ class FusedMoeWeightScaleSupported(Enum):
     BLOCK = "block"
 
 
-class FusedMoEMethodBase(QuantizeMethodBase):
-
-    @abstractmethod
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts: int,
-        hidden_size: int,
-        intermediate_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        raise NotImplementedError
-
-    @abstractmethod
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-    ) -> torch.Tensor:
-        raise NotImplementedError
-
-
-class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
-    """MoE method without quantization."""
-
-    def __init__(self, use_triton_kernels: bool = False):
-        super().__init__()
-        self.use_triton_kernels = use_triton_kernels
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts: int,
-        hidden_size: int,
-        intermediate_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        # Fused gate_up_proj (column parallel)
-        w13_weight_n, w13_weight_k = 2 * intermediate_size, hidden_size
-        if self.use_triton_kernels:
-            w13_weight_n, w13_weight_k = w13_weight_k, w13_weight_n
-        w13_weight = torch.nn.Parameter(
-            torch.empty(num_experts, w13_weight_n, w13_weight_k, dtype=params_dtype),
-            requires_grad=False,
-        )
-        layer.register_parameter("w13_weight", w13_weight)
-        set_weight_attrs(w13_weight, extra_weight_attrs)
-
-        # down_proj (row parallel)
-        w2_weight_n, w2_weight_k = (
-            hidden_size,
-            intermediate_size,
-        )
-        if self.use_triton_kernels:
-            w2_weight_n, w2_weight_k = w2_weight_k, w2_weight_n
-        w2_weight = torch.nn.Parameter(
-            torch.empty(num_experts, w2_weight_n, w2_weight_k, dtype=params_dtype),
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight", w2_weight)
-        set_weight_attrs(w2_weight, extra_weight_attrs)
-
-    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
-        if _use_aiter:
-            layer.w13_weight = torch.nn.Parameter(
-                shuffle_weight(layer.w13_weight.data, (16, 16)),
-                requires_grad=False,
-            )
-            torch.cuda.empty_cache()
-            layer.w2_weight = torch.nn.Parameter(
-                shuffle_weight(layer.w2_weight.data, (16, 16)),
-                requires_grad=False,
-            )
-            torch.cuda.empty_cache()
-
-        # Pack weight for get better performance on CPU
-        if _is_cpu and _is_cpu_amx_available:
-            _amx_process_weight_after_loading(layer, ["w13_weight", "w2_weight"])
-
-        return
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
-        activation: str = "silu",
-        apply_router_weight_on_input: bool = False,
-        inplace: bool = True,
-        no_combine: bool = False,
-        routed_scaling_factor: Optional[float] = None,
-    ) -> torch.Tensor:
-        return self.forward(
-            x=x,
-            layer=layer,
-            router_logits=router_logits,
-            top_k=top_k,
-            renormalize=renormalize,
-            use_grouped_topk=use_grouped_topk,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            activation=activation,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-            inplace=inplace,
-            no_combine=no_combine,
-            routed_scaling_factor=routed_scaling_factor,
-        )
-
-    def forward_cuda(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
-        activation: str = "silu",
-        apply_router_weight_on_input: bool = False,
-        inplace: bool = True,
-        no_combine: bool = False,
-        routed_scaling_factor: Optional[float] = None,
-    ) -> torch.Tensor:
-
-        if self.use_triton_kernels:
-            return triton_kernel_moe_forward(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                gating_output=router_logits,
-                topk=top_k,
-                renormalize=renormalize,
-            )
-        else:
-            topk_weights, topk_ids = select_experts(
-                hidden_states=x,
-                router_logits=router_logits,
-                use_grouped_topk=use_grouped_topk,
-                top_k=top_k,
-                renormalize=renormalize,
-                topk_group=topk_group,
-                num_expert_group=num_expert_group,
-                num_fused_shared_experts=num_fused_shared_experts,
-                custom_routing_function=custom_routing_function,
-                correction_bias=correction_bias,
-                routed_scaling_factor=routed_scaling_factor,
-            )
-
-            if _use_aiter:
-                assert not no_combine, "unsupported"
-                if apply_router_weight_on_input:
-                    assert (
-                        topk_weights.dim() == 2
-                    ), "`topk_weights` should be in shape (num_tokens, topk)"
-                    _, topk = topk_weights.shape
-                    assert (
-                        topk == 1
-                    ), "Only support topk=1 when `apply_router_weight_on_input` is True"
-                    x = x * topk_weights.to(x.dtype)
-                    topk_weights = torch.ones_like(
-                        topk_weights, dtype=torch.float32
-                    )  # topk_weights must be FP32 (float32)
-
-                return fused_moe(
-                    x,
-                    layer.w13_weight,
-                    layer.w2_weight,
-                    topk_weights,
-                    topk_ids,
-                    activation=(
-                        ActivationType.Silu
-                        if activation == "silu"
-                        else ActivationType.Gelu
-                    ),
-                )
-            else:
-                return fused_experts(
-                    hidden_states=x,
-                    w1=layer.w13_weight,
-                    w2=layer.w2_weight,
-                    topk_weights=topk_weights,
-                    topk_ids=topk_ids,
-                    inplace=inplace and not no_combine,
-                    activation=activation,
-                    apply_router_weight_on_input=apply_router_weight_on_input,
-                    no_combine=no_combine,
-                    routed_scaling_factor=routed_scaling_factor,
-                )
-
-    def forward_cpu(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
-        activation: str = "silu",
-        apply_router_weight_on_input: bool = False,
-        inplace: bool = True,
-        no_combine: bool = False,
-        routed_scaling_factor: Optional[float] = None,
-    ) -> torch.Tensor:
-        assert activation == "silu", f"activation = {activation} is not supported."
-
-        if use_intel_amx_backend(layer) and not apply_router_weight_on_input:
-            topk_weights, topk_ids = select_experts(
-                hidden_states=x,
-                router_logits=router_logits,
-                use_grouped_topk=use_grouped_topk,
-                top_k=top_k,
-                renormalize=renormalize,
-                topk_group=topk_group,
-                num_expert_group=num_expert_group,
-                num_fused_shared_experts=num_fused_shared_experts,
-                custom_routing_function=custom_routing_function,
-                correction_bias=correction_bias,
-                routed_scaling_factor=routed_scaling_factor,
-            )
-
-            # TODO: support apply_router_weight_on_input in the fused_experts_cpu kernel
-            return torch.ops.sgl_kernel.fused_experts_cpu(
-                x,
-                layer.w13_weight,
-                layer.w2_weight,
-                topk_weights,
-                topk_ids,
-                False,  # inplace # See [Note] inplace should be False in fused_experts.
-                False,  # use_int8_w8a8
-                False,  # use_fp8_w8a16
-                None,  # w1_scale
-                None,  # w2_scale
-                None,  # block_size
-                None,  # a1_scale
-                None,  # a2_scale
-                True,  # is_vnni
-            )
-        else:
-            return moe_forward_native(
-                layer,
-                x,
-                use_grouped_topk,
-                top_k,
-                router_logits,
-                renormalize,
-                topk_group,
-                num_expert_group,
-                num_fused_shared_experts,
-                custom_routing_function,
-                correction_bias,
-                activation,
-                apply_router_weight_on_input,
-                inplace,
-                no_combine,
-                routed_scaling_factor,
-            )
-
-    def forward_npu(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
-        activation: str = "silu",
-        apply_router_weight_on_input: bool = False,
-        inplace: bool = True,
-        no_combine: bool = False,
-        routed_scaling_factor: Optional[float] = None,
-    ) -> torch.Tensor:
-        return moe_forward_native(
-            layer,
-            x,
-            use_grouped_topk,
-            top_k,
-            router_logits,
-            renormalize,
-            topk_group,
-            num_expert_group,
-            num_fused_shared_experts,
-            custom_routing_function,
-            correction_bias,
-            activation,
-            apply_router_weight_on_input,
-            inplace,
-            no_combine,
-            routed_scaling_factor,
-        )
-
-    def forward_tpu(self, *args, **kwargs) -> torch.Tensor:
-        raise NotImplementedError("The TPU backend currently does not support MoE.")
-
-    forward_native = forward_cpu
-
-
 class FusedMoE(torch.nn.Module):
     """FusedMoE layer for MoE models.
 
@@ -553,7 +194,7 @@ def _load_model_weight_or_group_weight_scale(
         shard_dim: int,
         expert_data: torch.Tensor,
         shard_id: str,
-        loaded_weight: torch.tensor,
+        loaded_weight: torch.Tensor,
         tp_rank: int,
     ):
         # Load grouped weight scales for group quantization
@@ -580,7 +221,7 @@ def _load_per_channel_weight_scale(
         expert_data: torch.Tensor,
         shard_dim: int,
         shard_id: str,
-        loaded_weight: torch.tensor,
+        loaded_weight: torch.Tensor,
         tp_rank: int,
     ):
         # for per channel weight quantization
@@ -600,7 +241,7 @@ def _load_w13(
         expert_data: torch.Tensor,
         shard_dim: int,
         shard_id: str,
-        loaded_weight: torch.tensor,
+        loaded_weight: torch.Tensor,
         tp_rank: int,
     ):
 
@@ -645,7 +286,7 @@ def _load_w2(
         expert_data: torch.Tensor,
         shard_dim: int,
         shard_id: str,
-        loaded_weight: torch.tensor,
+        loaded_weight: torch.Tensor,
         tp_rank: int,
     ):
         """Load w2 weights for down projection.
@@ -717,7 +358,7 @@ def _load_g_idx(
         shard_id: str,
         expert_data: torch.Tensor,
         shard_dim: int,
-        loaded_weight: torch.tensor,
+        loaded_weight: torch.Tensor,
         tp_rank: int,
     ):
 
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index 18f3dea8dffa..1c8d219e4ec0 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -19,15 +19,11 @@
 import torch.nn.functional as F
 
 from sglang.srt.eplb import expert_location_dispatch
-from sglang.srt.eplb.expert_distribution import (
-    ExpertDistributionRecorder,
-    get_global_expert_distribution_recorder,
-)
+from sglang.srt.eplb.expert_distribution import get_global_expert_distribution_recorder
 from sglang.srt.eplb.expert_location_dispatch import (
     ExpertLocationDispatchInfo,
     topk_ids_logical_to_physical,
 )
-from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.utils import (
     cpu_has_amx_support,
     get_bool_env_var,
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index 7507a5b62893..e0f4363437b3 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -1,8 +1,6 @@
 # Adapted from https://raw.githubusercontent.com/vllm-project/vllm/v0.5.5/vllm/model_executor/layers/quantization/__init__.py
 import builtins
 import inspect
-import re
-from copy import deepcopy
 from typing import Callable, Dict, Optional, Type, Union
 
 import torch
@@ -45,7 +43,6 @@ def override_quantization_method(self, *args, **kwargs):
     ) = QQQConfig = Int8TpuConfig = DummyConfig
 
 
-from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
 from sglang.srt.layers.quantization.awq import AWQConfig
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.blockwise_int8 import BlockInt8Config
@@ -66,6 +63,10 @@ def override_quantization_method(self, *args, **kwargs):
 )
 from sglang.srt.layers.quantization.moe_wna16 import MoeWNA16Config
 from sglang.srt.layers.quantization.qoq import QoQConfig
+from sglang.srt.layers.quantization.utils import (
+    get_dynamic_override,
+    get_linear_quant_method,
+)
 from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config
 from sglang.srt.layers.quantization.w8a8_fp8 import W8A8Fp8Config
 from sglang.srt.layers.quantization.w8a8_int8 import W8A8Int8Config
@@ -120,99 +121,6 @@ def get_quantization_config(quantization: str) -> Type[QuantizationConfig]:
     return QUANTIZATION_METHODS[quantization]
 
 
-# Match dynamic rules with module name (prefix) and override quantize
-# config if module (prefix) matches a rule
-def override_config(config: QuantizationConfig, prefix: str):
-    weight_bits = get_dynamic_override(config, prefix, "bits", config.weight_bits)
-    if isinstance(weight_bits, int):
-        config.weight_bits = weight_bits
-    group_size = get_dynamic_override(config, prefix, "group_size", config.group_size)
-    if isinstance(group_size, int):
-        config.group_size = group_size
-    desc_act = get_dynamic_override(config, prefix, "desc_act", config.desc_act)
-    if isinstance(desc_act, bool):
-        config.desc_act = desc_act
-
-    config.pack_factor = 32 // config.weight_bits  # packed into int32
-    if config.get_name() == "gptq_marlin":
-        is_sym = get_dynamic_override(config, prefix, "sym", config.is_sym)
-        if isinstance(is_sym, bool):
-            config.is_sym = is_sym
-
-        if (config.weight_bits, config.is_sym) not in config.TYPE_MAP:
-            raise ValueError(
-                "Unsupported quantization config: "
-                f"bits={config.weight_bits}, sym={config.is_sym}"
-            )
-
-        config.quant_type = config.TYPE_MAP[(config.weight_bits, config.is_sym)]
-    elif config.get_name() == "gptq":
-        if config.weight_bits not in [2, 3, 4, 8]:
-            raise ValueError(
-                "Currently, only 2/3/4/8-bit weight quantization is "
-                f"supported for GPTQ, but got {config.weight_bits} bits."
-            )
-
-
-def get_dynamic_override(
-    config: QuantizationConfig,
-    layer_name: str,
-    key: Optional[str] = None,
-    default_value: Union[int, bool, None] = None,
-) -> Union[Dict, int, bool, None]:
-    for pattern, pattern_dict in config.dynamic.items():
-        # Negative match: matched modules are excluded from quantized init
-        if pattern.startswith("-:"):
-            if re.match(pattern.removeprefix("-:"), layer_name):
-                return False
-        # Positive match: matched modules have quant properties overrides
-        # base quant config
-        elif re.match(pattern.removeprefix("+:"), layer_name):
-            if key is None:
-                return pattern_dict
-            else:
-                return pattern_dict.get(key, default_value)
-    return default_value
-
-
-def get_linear_quant_method(
-    config: QuantizationConfig,
-    layer: torch.nn.Module,
-    prefix: str,
-    linear_method_cls: type,
-):
-    # Move import here to avoid circular import. This is only used in monkey patching
-    # of vllm's QuantizationConfig.
-    from sglang.srt.layers.vocab_parallel_embedding import (
-        ParallelLMHead,
-        UnquantizedEmbeddingMethod,
-    )
-
-    cloned_config = deepcopy(config)
-    parallel_lm_head_quantized = (
-        isinstance(layer, ParallelLMHead) and cloned_config.lm_head_quantized
-    )
-
-    if isinstance(layer, LinearBase) or parallel_lm_head_quantized:
-        # False = skip module, None = no override, else = Positive match
-        if (
-            get_dynamic_override(  # noqa: E712
-                cloned_config, layer_name=prefix  # noqa: E712
-            )
-            == False
-        ):  # noqa: E712
-            if parallel_lm_head_quantized:
-                return UnquantizedEmbeddingMethod()
-            return UnquantizedLinearMethod()
-
-        if prefix:
-            # Dynamic per module/layer rules may override base config
-            override_config(cloned_config, prefix=prefix)
-
-        return linear_method_cls(cloned_config)
-    return None
-
-
 def gptq_get_quant_method(self, layer, prefix):
     from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE
 
diff --git a/python/sglang/srt/layers/quantization/awq.py b/python/sglang/srt/layers/quantization/awq.py
index 9f14ac4c1cac..6265f2217d79 100644
--- a/python/sglang/srt/layers/quantization/awq.py
+++ b/python/sglang/srt/layers/quantization/awq.py
@@ -1,16 +1,17 @@
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
+
 import logging
 from typing import Any, Dict, List, Optional
 
 import torch
 
-from sglang.srt.layers.linear import (
-    LinearBase,
+from sglang.srt.layers.parameter import GroupQuantScaleParameter, PackedvLLMParameter
+from sglang.srt.layers.quantization.base_config import (
     LinearMethodBase,
-    UnquantizedLinearMethod,
+    QuantizationConfig,
 )
-from sglang.srt.layers.parameter import GroupQuantScaleParameter, PackedvLLMParameter
-from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.utils import is_cuda
 
 _is_cuda = is_cuda()
@@ -81,7 +82,7 @@ def get_config_filenames() -> List[str]:
         ]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "AWQConfig":
+    def from_config(cls, config: Dict[str, Any]) -> AWQConfig:
         weight_bits = cls.get_from_keys(config, ["w_bit", "bits"])
         group_size = cls.get_from_keys(config, ["q_group_size", "group_size"])
         zero_point = cls.get_from_keys(config, ["zero_point"])
@@ -92,7 +93,8 @@ def from_config(cls, config: Dict[str, Any]) -> "AWQConfig":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["LinearMethodBase"]:
+    ) -> Optional[LinearMethodBase]:
+        from sglang.srt.layers.linear import LinearBase
 
         if isinstance(layer, LinearBase):
             if is_layer_skipped_awq(prefix, self.modules_to_not_convert):
diff --git a/python/sglang/srt/layers/quantization/base_config.py b/python/sglang/srt/layers/quantization/base_config.py
index 6058702c9a10..607151671bff 100644
--- a/python/sglang/srt/layers/quantization/base_config.py
+++ b/python/sglang/srt/layers/quantization/base_config.py
@@ -18,14 +18,14 @@ def create_weights(
         """Create weights for a layer.
 
         The weights will be set as attributes of the layer."""
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @abstractmethod
     def apply(self, layer: torch.nn.Module, *args, **kwargs) -> torch.Tensor:
         """Apply the weights in layer to the input tensor.
 
         Expects create_weights to have been called before on the layer."""
-        raise NotImplementedError
+        raise NotImplementedError()
 
     def process_weights_after_loading(self, layer: nn.Module) -> None:
         """Process the weight after loading.
@@ -35,6 +35,74 @@ def process_weights_after_loading(self, layer: nn.Module) -> None:
         return
 
 
+class LinearMethodBase(QuantizeMethodBase):
+    """Base class for different (maybe quantized) linear methods."""
+
+    @abstractmethod
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: List[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """Create weights for a linear layer.
+           The weights will be set as attributes of the layer.
+
+        Args:
+            layer: The layer that is using the LinearMethodBase factory.
+            input_size_per_partition: Size of the weight input dim on rank X.
+            output_partition_sizes: Sizes of the output dim of each logical
+                weight on rank X. E.g., output_partition_sizes for QKVLinear
+                is a list contains the width of Wq, Wk, Wv on rank X.
+            input_size: Size of the input dim of the weight across all ranks.
+            output_size: Size of the output dim of the weight across all ranks.
+            params_dtype: Datatype of the parameters.
+        """
+        raise NotImplementedError()
+
+    @abstractmethod
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """Apply the weights in layer to the input tensor.
+        Expects create_weights to have been called before on the layer."""
+        raise NotImplementedError()
+
+
+class FusedMoEMethodBase(QuantizeMethodBase):
+
+    @abstractmethod
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError()
+
+    @abstractmethod
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool,
+    ) -> torch.Tensor:
+        raise NotImplementedError()
+
+
 class QuantizationConfig(ABC):
     """Base class for quantization configs."""
 
@@ -46,12 +114,12 @@ def __init__(self):
     @abstractmethod
     def get_name(self) -> str:
         """Name of the quantization method."""
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @abstractmethod
     def get_supported_act_dtypes(self) -> List[torch.dtype]:
         """List of supported activation dtypes."""
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @classmethod
     @abstractmethod
@@ -62,19 +130,19 @@ def get_min_capability(cls) -> int:
         This requirement is due to the custom CUDA kernels used by the
         quantization method.
         """
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @staticmethod
     @abstractmethod
     def get_config_filenames() -> List[str]:
         """List of filenames to search for in the model directory."""
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @classmethod
     @abstractmethod
     def from_config(cls, config: Dict[str, Any]) -> "QuantizationConfig":
         """Create a config class from the model's quantization config."""
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @classmethod
     def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]:
@@ -117,7 +185,7 @@ def get_quant_method(
             The quantize method. None if the given layer doesn't support quant
             method.
         """
-        raise NotImplementedError
+        raise NotImplementedError()
 
     @abstractmethod
     def get_scaled_act_names(self) -> List[str]:
@@ -125,7 +193,7 @@ def get_scaled_act_names(self) -> List[str]:
 
         For now, this is only used by AWQ.
         """
-        raise NotImplementedError
+        raise NotImplementedError()
 
 
 def method_has_implemented_embedding(method_class: Type[QuantizeMethodBase]) -> bool:
diff --git a/python/sglang/srt/layers/quantization/blockwise_int8.py b/python/sglang/srt/layers/quantization/blockwise_int8.py
index f38857595580..a1da999b3af1 100644
--- a/python/sglang/srt/layers/quantization/blockwise_int8.py
+++ b/python/sglang/srt/layers/quantization/blockwise_int8.py
@@ -1,5 +1,7 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/v0.6.4.post1/vllm/model_executor/layers/quantization/fp8.py
 
+from __future__ import annotations
+
 import logging
 from typing import Any, Callable, Dict, List, Optional
 
@@ -7,17 +9,15 @@
 from torch.nn import Module
 
 from sglang.srt.distributed import get_tensor_model_parallel_world_size
-from sglang.srt.layers.linear import (
-    LinearBase,
-    LinearMethodBase,
-    UnquantizedLinearMethod,
-)
 from sglang.srt.layers.parameter import BlockQuantScaleParameter, ModelWeightParameter
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
 from sglang.srt.layers.quantization.int8_utils import apply_w8a8_block_int8_linear
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.layers.quantization.utils import is_layer_skipped
 from sglang.srt.utils import set_weight_attrs
 
@@ -78,7 +78,7 @@ def get_config_filenames(cls) -> List[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "BlockInt8Config":
+    def from_config(cls, config: Dict[str, Any]) -> BlockInt8Config:
         quant_method = cls.get_from_keys(config, ["quant_method"])
         is_checkpoint_int8_serialized = "int8" in quant_method
         activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
@@ -93,7 +93,8 @@ def from_config(cls, config: Dict[str, Any]) -> "BlockInt8Config":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
@@ -230,7 +231,7 @@ def apply(
         )
 
 
-class BlockInt8MoEMethod:
+class BlockInt8MoEMethod(FusedMoEMethodBase):
     """MoE method for INT8.
     Supports loading INT8 checkpoints with static weight scale and
     dynamic activation scale.
@@ -242,25 +243,7 @@ class BlockInt8MoEMethod:
         quant_config: The quantization config.
     """
 
-    def __new__(cls, *args, **kwargs):
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
-    def __init__(self, quant_config):
+    def __init__(self, quant_config: BlockInt8Config):
         self.quant_config = quant_config
         assert self.quant_config.weight_block_size is not None
         assert self.quant_config.is_checkpoint_int8_serialized
diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
index 7ce89345fd6b..50d90406d26f 100644
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -1,5 +1,6 @@
 # Adapted from https://github.com/vllm-project/vllm/tree/v0.8.2/vllm/model_executor/layers/quantization/compressed_tensors
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 
 import logging
 from contextlib import suppress
@@ -18,12 +19,8 @@
 )
 from pydantic import BaseModel
 
-from sglang.srt.layers.linear import (
-    LinearBase,
-    LinearMethodBase,
-    UnquantizedLinearMethod,
-)
 from sglang.srt.layers.quantization.base_config import (
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
@@ -40,6 +37,7 @@
     is_activation_quantization_format,
     should_ignore_layer,
 )
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 
 try:
     import vllm
@@ -97,7 +95,7 @@ def __init__(
         self.config = config
         self.packed_modules_mapping = packed_modules_mapping
 
-    def get_linear_method(self) -> "CompressedTensorsLinearMethod":
+    def get_linear_method(self) -> CompressedTensorsLinearMethod:
         return CompressedTensorsLinearMethod(self)
 
     def get_supported_act_dtypes(cls) -> List[torch.dtype]:
@@ -117,7 +115,8 @@ def get_quant_method(
         self,
         layer: torch.nn.Module,
         prefix: str,
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
+        from sglang.srt.layers.linear import LinearBase
 
         # Check if the layer is skipped for quantization.
         # TODO (@robertgshaw2): support module names
@@ -138,7 +137,7 @@ def get_quant_method(
         return None
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "CompressedTensorsConfig":
+    def from_config(cls, config: Dict[str, Any]) -> CompressedTensorsConfig:
         ignore: List[str] = cast(List[str], config.get("ignore", []))
         quant_format = cast(str, config.get("format"))
         target_scheme_map = cls._quantization_scheme_map_from_config(config=config)
@@ -357,7 +356,7 @@ def _is_wNa16_group_channel(
 
     def _get_scheme_from_parts(
         self, weight_quant: BaseModel, input_quant: BaseModel
-    ) -> "CompressedTensorsScheme":
+    ) -> CompressedTensorsScheme:
 
         # Detect If Mixed Precision
         if self._is_wNa16_group_channel(weight_quant, input_quant):
@@ -435,7 +434,7 @@ def _get_scheme_from_parts(
 
     def get_scheme(
         self, layer: torch.nn.Module, layer_name: Optional[str] = None
-    ) -> Optional["CompressedTensorsScheme"]:
+    ) -> Optional[CompressedTensorsScheme]:
         """
         compressed-tensors supports non uniform in the following way:
 
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 4d886de91818..38588c809039 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -1,7 +1,9 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/v0.6.4.post1/vllm/model_executor/layers/quantization/fp8.py
 
+from __future__ import annotations
+
 import logging
-from typing import Any, Callable, Dict, List, Optional, Union
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -28,17 +30,14 @@ def dummy_func(*args, **kwargs):
 
 from sglang.srt.distributed import get_tensor_model_parallel_world_size
 from sglang.srt.layers.amx_utils import _amx_process_weight_after_loading
-from sglang.srt.layers.linear import (
-    LinearBase,
-    LinearMethodBase,
-    UnquantizedLinearMethod,
-)
 from sglang.srt.layers.parameter import (
     BlockQuantScaleParameter,
     ModelWeightParameter,
     PerTensorScaleParameter,
 )
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
@@ -56,6 +55,7 @@ def dummy_func(*args, **kwargs):
     normalize_e4m3fn_to_e4m3fnuz,
 )
 from sglang.srt.layers.quantization.kv_cache import BaseKVCacheMethod
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.layers.quantization.utils import (
     all_close_1d,
     convert_to_channelwise,
@@ -77,6 +77,9 @@ def dummy_func(*args, **kwargs):
     use_intel_amx_backend,
 )
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config
+
 _is_hip = is_hip()
 _is_cuda = is_cuda()
 _is_npu = is_npu()
@@ -152,7 +155,7 @@ def get_config_filenames(cls) -> List[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "Fp8Config":
+    def from_config(cls, config: Dict[str, Any]) -> Fp8Config:
         quant_method = cls.get_from_keys(config, ["quant_method"])
         is_checkpoint_fp8_serialized = "fp8" in quant_method
         activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
@@ -167,7 +170,8 @@ def from_config(cls, config: Dict[str, Any]) -> "Fp8Config":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
@@ -200,7 +204,7 @@ class Fp8LinearMethod(LinearMethodBase):
         quant_config: The quantization config.
     """
 
-    def __init__(self, quant_config: Union["Fp8Config", "W4AFp8Config"]):
+    def __init__(self, quant_config: Union[Fp8Config, W4AFp8Config]):
         self.quant_config = quant_config
         self.cutlass_fp8_supported = cutlass_fp8_supported()
 
@@ -486,7 +490,7 @@ def apply(
         )
 
 
-class Fp8MoEMethod:
+class Fp8MoEMethod(FusedMoEMethodBase):
     """MoE method for FP8.
     Supports loading FP8 checkpoints with static weight scale and
     dynamic/static activation scale.
@@ -499,25 +503,7 @@ class Fp8MoEMethod:
         quant_config: The quantization config.
     """
 
-    def __new__(cls, *args, **kwargs):
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
-    def __init__(self, quant_config):
+    def __init__(self, quant_config: Fp8Config):
         self.quant_config = quant_config
         self.block_quant = self.quant_config.weight_block_size is not None
         self.cutlass_fp8_supported = cutlass_fp8_supported()
@@ -1169,6 +1155,254 @@ def maybe_apply_hip_fused_experts(
         return None
 
 
+class Fp8EPMoEMethod(Fp8MoEMethod):
+    """MoE method for FP8.
+    Supports loading FP8 checkpoints with static weight scale and
+    dynamic/static activation scale.
+
+    Args:
+        quant_config: The quantization config.
+    """
+
+    def __init__(self, quant_config: Fp8Config):
+        self.quant_config = quant_config
+        self.block_quant = self.quant_config.weight_block_size is not None
+
+    def create_weights(
+        self,
+        layer: Module,
+        num_experts_per_partition: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
+
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            params_dtype = torch.float8_e4m3fn
+
+        tp_size = get_tensor_model_parallel_world_size()
+        if self.block_quant:
+            block_n, block_k = (
+                self.quant_config.weight_block_size[0],
+                self.quant_config.weight_block_size[1],
+            )
+            # NOTE(HandH1998): To ensure proper alignment of the block-wise quantization scales, the output_size of the weights for both the gate and up layers must be divisible by block_n.
+            # Required by column parallel or enabling merged weights
+            if intermediate_size % block_n != 0:
+                raise ValueError(
+                    f"The output_size of gate's and up's weight = "
+                    f"{intermediate_size} is not divisible by "
+                    f"weight quantization block_n = {block_n}."
+                )
+            if tp_size > 1:
+                # Required by row parallel
+                if intermediate_size % block_k != 0:
+                    raise ValueError(
+                        f"The input_size of down's weight = "
+                        f"{intermediate_size} is not divisible by "
+                        f"weight quantization block_k = {block_k}."
+                    )
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts_per_partition,
+                2 * intermediate_size,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts_per_partition,
+                hidden_size,
+                intermediate_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        if self.block_quant:
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts_per_partition,
+                    2 * ((intermediate_size + block_n - 1) // block_n),
+                    (hidden_size + block_k - 1) // block_k,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    num_experts_per_partition,
+                    (hidden_size + block_n - 1) // block_n,
+                    (intermediate_size + block_k - 1) // block_k,
+                    dtype=torch.float32,
+                ),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_scale_inv", w13_weight_scale)
+            layer.register_parameter("w2_weight_scale_inv", w2_weight_scale)
+            assert self.quant_config.activation_scheme == "dynamic"
+        else:
+            # WEIGHT_SCALES
+            # Allocate 2 scales for w1 and w3 respectively.
+            w13_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts_per_partition, 2, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_scale", w13_weight_scale)
+
+            w2_weight_scale = torch.nn.Parameter(
+                torch.ones(num_experts_per_partition, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        # Add the quantization method used (per tensor/grouped/channel)
+        # to ensure the weight scales are loaded in properly
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
+            if self.block_quant
+            else {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+        # If loading fp8 checkpoint, pass the weight loaders.
+        # If loading an fp16 checkpoint, do not (we will quantize in
+        #   process_weights_after_loading()
+        if self.quant_config.is_checkpoint_fp8_serialized:
+            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # INPUT_SCALES
+        if self.quant_config.activation_scheme == "static":
+            if not self.quant_config.is_checkpoint_fp8_serialized:
+                raise ValueError(
+                    "Found static activation scheme for checkpoint that "
+                    "was not serialized fp8."
+                )
+
+            w13_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts_per_partition, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_input_scale", w13_input_scale)
+            set_weight_attrs(w13_input_scale, extra_weight_attrs)
+
+            w2_input_scale = torch.nn.Parameter(
+                torch.ones(num_experts_per_partition, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_input_scale", w2_input_scale)
+            set_weight_attrs(w2_input_scale, extra_weight_attrs)
+
+        else:
+            layer.w13_input_scale = None
+            layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+
+        # If checkpoint is fp16, quantize in place.
+        if not self.quant_config.is_checkpoint_fp8_serialized:
+            # If rocm, use float8_e4m3fnuz as dtype
+            fp8_dtype = torch.float8_e4m3fnuz if _is_hip else torch.float8_e4m3fn
+            w13_weight = torch.empty_like(layer.w13_weight.data, dtype=fp8_dtype)
+            w2_weight = torch.empty_like(layer.w2_weight.data, dtype=fp8_dtype)
+
+            layer.w13_weight_scale = torch.nn.Parameter(
+                torch.ones(
+                    layer.num_experts_per_partition,
+                    dtype=torch.float32,
+                    device=w13_weight.device,
+                ),
+                requires_grad=False,
+            )
+
+            for expert in range(layer.num_experts_per_partition):
+                w13_weight[expert, :, :], layer.w13_weight_scale[expert] = (
+                    scaled_fp8_quant(layer.w13_weight.data[expert, :, :])
+                )
+                w2_weight[expert, :, :], layer.w2_weight_scale[expert] = (
+                    scaled_fp8_quant(layer.w2_weight.data[expert, :, :])
+                )
+            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+            return
+
+        # If checkpoint is fp8, we need to handle that the
+        # MoE kernels require single activation scale and single weight
+        # scale for w13 per expert.
+        else:
+            if self.quant_config.activation_scheme == "static":
+                if layer.w13_input_scale is None or layer.w2_input_scale is None:
+                    raise ValueError(
+                        "QuantConfig has static quantization, but found "
+                        "activation scales are None."
+                    )
+                layer.w13_weight_scale = torch.nn.Parameter(
+                    torch.max(layer.w13_weight_scale, dim=1).values,
+                    requires_grad=False,
+                )
+            if self.block_quant:
+                # If ROCm, normalize the weights and scales to e4m3fnuz
+                if _is_fp8_fnuz:
+                    # activation_scheme: dynamic
+                    w13_weight, w13_weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
+                        weight=layer.w13_weight,
+                        weight_scale=layer.w13_weight_scale_inv,
+                        input_scale=None,
+                    )
+                    w2_weight, w2_weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
+                        weight=layer.w2_weight,
+                        weight_scale=layer.w2_weight_scale_inv,
+                        input_scale=None,
+                    )
+                    # Reset the parameter
+                    layer.w13_weight = torch.nn.Parameter(
+                        w13_weight, requires_grad=False
+                    )
+                    layer.w13_weight_scale_inv = torch.nn.Parameter(
+                        w13_weight_scale, requires_grad=False
+                    )
+                    layer.w13_input_scale = None
+                    layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
+                    layer.w2_weight_scale_inv = torch.nn.Parameter(
+                        w2_weight_scale, requires_grad=False
+                    )
+                    layer.w2_input_scale = None
+                if _use_aiter:
+                    layer.w13_weight = torch.nn.Parameter(
+                        shuffle_weight(layer.w13_weight.data, (16, 16)),
+                        requires_grad=False,
+                    )
+                    layer.w2_weight = torch.nn.Parameter(
+                        shuffle_weight(layer.w2_weight.data, (16, 16)),
+                        requires_grad=False,
+                    )
+            return
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        custom_routing_function: Optional[Callable] = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError
+
+
 class Fp8KVCacheMethod(BaseKVCacheMethod):
     """
     Supports loading kv-cache scaling factors from FP8 checkpoints.
diff --git a/python/sglang/srt/layers/quantization/gptq.py b/python/sglang/srt/layers/quantization/gptq.py
index 3658d0b85793..af56c3be719a 100644
--- a/python/sglang/srt/layers/quantization/gptq.py
+++ b/python/sglang/srt/layers/quantization/gptq.py
@@ -1,3 +1,5 @@
+from __future__ import annotations
+
 import logging
 from dataclasses import dataclass
 from fractions import Fraction
@@ -5,7 +7,6 @@
 
 import torch
 
-from sglang.srt.layers.linear import LinearBase, LinearMethodBase, set_weight_attrs
 from sglang.srt.layers.parameter import (
     BasevLLMParameter,
     ChannelQuantScaleParameter,
@@ -16,6 +17,8 @@
     permute_param_layout_,
 )
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
@@ -34,7 +37,11 @@
     verify_marlin_supported,
 )
 from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
-from sglang.srt.layers.quantization.utils import replace_parameter, unpack_cols
+from sglang.srt.layers.quantization.utils import (
+    get_linear_quant_method,
+    replace_parameter,
+    unpack_cols,
+)
 
 try:
     from vllm import _custom_ops as ops
@@ -49,8 +56,6 @@
     from sgl_kernel import fused_marlin_moe
 
 
-FusedMoEMethodBase = QuantizeMethodBase
-
 logger = logging.getLogger(__name__)
 
 
@@ -179,7 +184,7 @@ def get_config_filenames(cls) -> List[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GPTQConfig":
+    def from_config(cls, config: Dict[str, Any]) -> GPTQConfig:
         dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
         dynamic = {} if dynamic is None else dynamic
 
@@ -191,10 +196,10 @@ def from_config(cls, config: Dict[str, Any]) -> "GPTQConfig":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["LinearMethodBase"]:
+    ) -> Optional[LinearMethodBase]:
         # Delay the import to avoid circular dependency
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
-        from sglang.srt.layers.quantization import get_linear_quant_method
 
         if isinstance(layer, LinearBase):
             return get_linear_quant_method(self, layer, prefix, GPTQLinearMethod)
@@ -303,7 +308,7 @@ def get_config_filenames(cls) -> List[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GPTQMarlinConfig":
+    def from_config(cls, config: Dict[str, Any]) -> GPTQMarlinConfig:
         dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
         dynamic = {} if dynamic is None else dynamic
 
@@ -354,7 +359,6 @@ def get_quant_method(
     ) -> Optional[QuantizeMethodBase]:
         # Delay the import to avoid circular dependency
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
-        from sglang.srt.layers.quantization import get_linear_quant_method
 
         if isinstance(layer, FusedMoE):
             return GPTQMarlinMoEMethod(self)
@@ -832,6 +836,7 @@ def create_weights(
         **extra_weight_attrs,
     ):
         # Delay the import to avoid circular dependency
+        from sglang.srt.layers.linear import set_weight_attrs
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
 
         intermediate_size = extra_weight_attrs.pop("intermediate_size")
diff --git a/python/sglang/srt/layers/quantization/marlin_utils.py b/python/sglang/srt/layers/quantization/marlin_utils.py
index 503c3d003632..1edc672ab3f8 100644
--- a/python/sglang/srt/layers/quantization/marlin_utils.py
+++ b/python/sglang/srt/layers/quantization/marlin_utils.py
@@ -1,25 +1,31 @@
 # SPDX-License-Identifier: Apache-2.0
 # Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/marlin_utils.py
 
+from __future__ import annotations
+
 import logging
-from typing import Any, Optional
+from typing import TYPE_CHECKING, Any, Optional
 
 import numpy
 import torch
 
-from sglang.srt.layers.linear import LinearBase, LinearMethodBase
 from sglang.srt.layers.parameter import (
     BasevLLMParameter,
     ChannelQuantScaleParameter,
     GroupQuantScaleParameter,
     PackedvLLMParameter,
 )
-from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.quantization.base_config import (
+    LinearMethodBase,
+    QuantizationConfig,
+)
 from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
 from sglang.srt.layers.quantization.utils import pack_cols, unpack_cols
-from sglang.srt.layers.vocab_parallel_embedding import ParallelLMHead
 from sglang.srt.utils import get_device_capability
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.linear import LinearBase
+
 try:
     from vllm import _custom_ops as ops
 except ImportError:
@@ -617,7 +623,10 @@ def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["MarlinLinearMethod"]:
+    ) -> Optional[MarlinLinearMethod]:
+        from sglang.srt.layers.linear import LinearBase
+        from sglang.srt.layers.vocab_parallel_embedding import ParallelLMHead
+
         if isinstance(layer, LinearBase) or (
             isinstance(layer, ParallelLMHead) and self.lm_head_quantized
         ):
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 85be4f8f4604..5263f3b920b1 100644
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -1,4 +1,5 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/modelopt.py
+from __future__ import annotations
 
 import logging
 from typing import Any, Callable, Dict, List, Optional
@@ -6,14 +7,11 @@
 import torch
 from torch.nn.parameter import Parameter
 
-from sglang.srt.layers.linear import (
-    LinearBase,
-    LinearMethodBase,
-    UnquantizedLinearMethod,
-)
 from sglang.srt.layers.moe.cutlass_moe_params import CutlassMoEParams, CutlassMoEType
 from sglang.srt.layers.parameter import ModelWeightParameter, PerTensorScaleParameter
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
@@ -23,6 +21,7 @@
     is_sm100_supported,
 )
 from sglang.srt.layers.quantization.kv_cache import BaseKVCacheMethod
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.layers.quantization.utils import (
     convert_to_channelwise,
     is_layer_skipped,
@@ -86,7 +85,7 @@ def get_config_filenames(cls) -> List[str]:
         return ["hf_quant_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "ModelOptFp8Config":
+    def from_config(cls, config: Dict[str, Any]) -> ModelOptFp8Config:
         quant_method = cls.get_from_keys(config, ["quantization"]).get("quant_algo")
         kv_cache_quant_method = cls.get_from_keys(config, ["quantization"]).get(
             "kv_cache_quant_algo"
@@ -109,7 +108,11 @@ def from_config(cls, config: Dict[str, Any]) -> "ModelOptFp8Config":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
+
+        from sglang.srt.layers.linear import LinearBase
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+
         if self.exclude_modules and any(
             module in prefix
             or (
@@ -125,9 +128,6 @@ def get_quant_method(
         if self.kv_cache_quant_method and isinstance(layer, RadixAttention):
             return ModelOptFp8KVCacheMethod(self)
 
-        # Add MoE support
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
-
         if isinstance(layer, FusedMoE):
             return ModelOptFp8MoEMethod(self)
 
@@ -246,7 +246,7 @@ def __init__(self, quant_config: ModelOptFp8Config):
         super().__init__(quant_config)
 
 
-class ModelOptFp8MoEMethod:
+class ModelOptFp8MoEMethod(FusedMoEMethodBase):
     """MoE method for ModelOpt FP8.
     Supports loading FP8 checkpoints with static weight scale and activation scale.
 
@@ -254,30 +254,6 @@ class ModelOptFp8MoEMethod:
         quant_config: The ModelOpt quantization config.
     """
 
-    def __new__(cls, *args, **kwargs):
-        """
-        Dynamic class composition pattern.
-
-        This allows us to effectively "inject" FusedMoEMethodBase as a parent class
-        at runtime while avoiding circular import issues.
-        """
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
     def __init__(self, quant_config: ModelOptFp8Config):
         self.quant_config = quant_config
         self.cutlass_fp8_supported = cutlass_fp8_supported()
@@ -514,7 +490,7 @@ def get_config_filenames(cls) -> List[str]:
         return ["hf_quant_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "ModelOptFp4Config":
+    def from_config(cls, config: Dict[str, Any]) -> ModelOptFp4Config:
         quant_config = cls.get_from_keys(config, ["quantization"])
         quant_method = quant_config["quant_algo"]
         if not quant_method in ["FP8", "NVFP4"]:
@@ -559,7 +535,8 @@ def is_layer_excluded(self, prefix: str, exclude_modules: list):
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
@@ -740,31 +717,13 @@ def apply(
         return out.view(*output_shape)
 
 
-class ModelOptNvFp4FusedMoEMethod:
+class ModelOptNvFp4FusedMoEMethod(FusedMoEMethodBase):
     """
        MoE Method for FP4 Quantization with Blockscales and PerTensorScales
     Args:
         quant_config: NVFP4 Quant Config
     """
 
-    def __new__(cls, *args, **kwargs):
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
     def __init__(self, quant_config: ModelOptFp4Config):
         self.quant_config = quant_config
         if not is_sm100_supported():
diff --git a/python/sglang/srt/layers/quantization/moe_wna16.py b/python/sglang/srt/layers/quantization/moe_wna16.py
index fe812595a80b..f83b9bb1f71d 100644
--- a/python/sglang/srt/layers/quantization/moe_wna16.py
+++ b/python/sglang/srt/layers/quantization/moe_wna16.py
@@ -1,4 +1,5 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/moe_wna16.py
+from __future__ import annotations
 
 import logging
 from typing import Any, Callable, Dict, List, Optional
@@ -7,13 +8,14 @@
 
 from sglang.srt.distributed import get_tensor_model_parallel_rank
 from sglang.srt.distributed.parallel_state import get_tp_group
-from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
 from sglang.srt.layers.quantization.awq import AWQConfig
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
 from sglang.srt.layers.quantization.gptq import GPTQConfig, GPTQMarlinConfig
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.utils import get_device_capability, set_weight_attrs
 
 logger = logging.getLogger(__name__)
@@ -118,7 +120,7 @@ def get_scaled_act_names(self) -> List[str]:
         raise NotImplementedError
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "MoeWNA16Config":
+    def from_config(cls, config: Dict[str, Any]) -> MoeWNA16Config:
         quant_method = cls.get_from_keys(config, ["quant_method"])
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
@@ -177,8 +179,9 @@ def is_moe_wna16_compatible(cls, quant_config: Dict[str, Any]):
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
         # avoid circular import
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE
 
         if is_layer_skipped_quant(prefix, self.modules_to_not_convert):
@@ -209,32 +212,13 @@ def is_layer_skipped_quant(prefix: str, modules_to_not_convert: List[str]):
     return any(module_name in prefix for module_name in modules_to_not_convert)
 
 
-class MoeWNA16Method:
+class MoeWNA16Method(FusedMoEMethodBase):
     """Linear method for MOE WNA16 (W8A16/W4A16) quantization.
 
     Args:
         quant_config: The MOE WNA16 (W8A16/W4A16) quantization config.
     """
 
-    def __new__(cls, *args, **kwargs):
-        # avoid circular import
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
     def __init__(self, quant_config: MoeWNA16Config):
         self.quant_config = quant_config
 
diff --git a/python/sglang/srt/layers/quantization/qoq.py b/python/sglang/srt/layers/quantization/qoq.py
index 3e3a3dfb6340..ec0fda482c4b 100644
--- a/python/sglang/srt/layers/quantization/qoq.py
+++ b/python/sglang/srt/layers/quantization/qoq.py
@@ -1,16 +1,17 @@
-from typing import Any, Callable, Dict, List, Optional
+from __future__ import annotations
+
+from typing import Any, Dict, List, Optional
 
 import torch
 from torch.nn.parameter import Parameter
 
-from sglang.srt.distributed import get_tensor_model_parallel_world_size
-from sglang.srt.layers.linear import LinearMethodBase
 from sglang.srt.layers.parameter import (
     ChannelQuantScaleParameter,
     GroupQuantScaleParameter,
     ModelWeightParameter,
 )
 from sglang.srt.layers.quantization.base_config import (
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
@@ -71,7 +72,7 @@ def get_min_capability(cls) -> int:
         return 80
 
     @classmethod
-    def get_name(self) -> str:
+    def get_name(cls) -> str:
         return "qoq"
 
     @classmethod
@@ -83,7 +84,7 @@ def get_config_filenames(cls) -> List[str]:
         ]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "QoQConfig":
+    def from_config(cls, config: Dict[str, Any]) -> QoQConfig:
         weight_bits = cls.get_from_keys(config, ["wbits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         return cls(weight_bits, group_size)
@@ -92,7 +93,7 @@ def get_quant_method(
         self,
         layer: torch.nn.Module,
         prefix: str,
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
 
         if isinstance(layer, LinearBase):
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
new file mode 100644
index 000000000000..28d006255d8e
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -0,0 +1,515 @@
+import importlib
+from typing import Callable, List, Optional
+
+import torch
+import torch.nn.functional as F
+from torch.nn.parameter import Parameter
+
+from sglang.srt.custom_op import CustomOp
+from sglang.srt.layers.amx_utils import _amx_process_weight_after_loading
+from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
+    QuantizeMethodBase,
+)
+from sglang.srt.utils import (
+    cpu_has_amx_support,
+    get_bool_env_var,
+    is_cpu,
+    is_hip,
+    set_weight_attrs,
+    use_intel_amx_backend,
+)
+
+has_triton_kernels = importlib.util.find_spec("triton_kernels") is not None
+
+
+_is_cpu_amx_available = cpu_has_amx_support()
+_is_hip = is_hip()
+_is_cpu = is_cpu()
+_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
+
+if _use_aiter:
+    from aiter import ActivationType
+    from aiter.fused_moe import fused_moe
+    from aiter.fused_moe_bf16_asm import ck_moe_2stages
+    from aiter.ops.shuffle import shuffle_weight
+
+
+class UnquantizedEmbeddingMethod(QuantizeMethodBase):
+    """Unquantized method for embeddings."""
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: List[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """Create weights for embedding layer."""
+        weight = Parameter(
+            torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(weight, extra_weight_attrs)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        return F.linear(x, layer.weight, bias)
+
+    def embedding(self, layer: torch.nn.Module, input_: torch.Tensor) -> torch.Tensor:
+        return F.embedding(input_, layer.weight)
+
+
+class UnquantizedLinearMethod(LinearMethodBase):
+    """Linear method without quantization."""
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: List[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        weight = Parameter(
+            torch.empty(
+                sum(output_partition_sizes),
+                input_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
+        layer.register_parameter("weight", weight)
+        set_weight_attrs(weight, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        if _is_cpu and _is_cpu_amx_available:
+            _amx_process_weight_after_loading(layer, ["weight"])
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+
+        if use_intel_amx_backend(layer):
+            return torch.ops.sgl_kernel.weight_packed_linear(
+                x, layer.weight, bias, True  # is_vnni
+            )
+
+        return F.linear(x, layer.weight, bias)
+
+
+class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
+    """MoE method without quantization."""
+
+    def __init__(self, use_triton_kernels: bool = False):
+        super().__init__()
+        self.use_triton_kernels = use_triton_kernels
+
+        from sglang.srt.layers.moe.fused_moe_native import moe_forward_native
+
+        if torch.cuda.is_available():
+            from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
+
+            if has_triton_kernels:
+                from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
+                    triton_kernel_moe_forward,
+                )
+            else:
+                triton_kernel_moe_forward = None
+        else:
+            fused_experts = None  # type: ignore
+            triton_kernel_moe_forward = None
+
+        self.moe_forward_native = moe_forward_native
+        self.fused_experts = fused_experts
+        self.triton_kernel_moe_forward = triton_kernel_moe_forward
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Fused gate_up_proj (column parallel)
+        w13_weight_n, w13_weight_k = 2 * intermediate_size, hidden_size
+        if self.use_triton_kernels:
+            w13_weight_n, w13_weight_k = w13_weight_k, w13_weight_n
+        w13_weight = torch.nn.Parameter(
+            torch.empty(num_experts, w13_weight_n, w13_weight_k, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        w2_weight_n, w2_weight_k = (
+            hidden_size,
+            intermediate_size,
+        )
+        if self.use_triton_kernels:
+            w2_weight_n, w2_weight_k = w2_weight_k, w2_weight_n
+        w2_weight = torch.nn.Parameter(
+            torch.empty(num_experts, w2_weight_n, w2_weight_k, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        if _use_aiter:
+            layer.w13_weight = torch.nn.Parameter(
+                shuffle_weight(layer.w13_weight.data, (16, 16)),
+                requires_grad=False,
+            )
+            torch.cuda.empty_cache()
+            layer.w2_weight = torch.nn.Parameter(
+                shuffle_weight(layer.w2_weight.data, (16, 16)),
+                requires_grad=False,
+            )
+            torch.cuda.empty_cache()
+
+        # Pack weight for get better performance on CPU
+        if _is_cpu and _is_cpu_amx_available:
+            _amx_process_weight_after_loading(layer, ["w13_weight", "w2_weight"])
+
+        return
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        num_fused_shared_experts: int = 0,
+        custom_routing_function: Optional[Callable] = None,
+        correction_bias: Optional[torch.Tensor] = None,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+
+        return self.forward(
+            x=x,
+            layer=layer,
+            router_logits=router_logits,
+            top_k=top_k,
+            renormalize=renormalize,
+            use_grouped_topk=use_grouped_topk,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            num_fused_shared_experts=num_fused_shared_experts,
+            custom_routing_function=custom_routing_function,
+            correction_bias=correction_bias,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            inplace=inplace,
+            no_combine=no_combine,
+            routed_scaling_factor=routed_scaling_factor,
+        )
+
+    def forward_cuda(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        num_fused_shared_experts: int = 0,
+        custom_routing_function: Optional[Callable] = None,
+        correction_bias: Optional[torch.Tensor] = None,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+
+        if self.use_triton_kernels:
+            return self.triton_kernel_moe_forward(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                gating_output=router_logits,
+                topk=top_k,
+                renormalize=renormalize,
+            )
+        else:
+            from sglang.srt.layers.moe.topk import select_experts
+
+            topk_weights, topk_ids = select_experts(
+                hidden_states=x,
+                router_logits=router_logits,
+                use_grouped_topk=use_grouped_topk,
+                top_k=top_k,
+                renormalize=renormalize,
+                topk_group=topk_group,
+                num_expert_group=num_expert_group,
+                num_fused_shared_experts=num_fused_shared_experts,
+                custom_routing_function=custom_routing_function,
+                correction_bias=correction_bias,
+                routed_scaling_factor=routed_scaling_factor,
+            )
+
+            if _use_aiter:
+                assert not no_combine, "unsupported"
+                if apply_router_weight_on_input:
+                    assert (
+                        topk_weights.dim() == 2
+                    ), "`topk_weights` should be in shape (num_tokens, topk)"
+                    _, topk = topk_weights.shape
+                    assert (
+                        topk == 1
+                    ), "Only support topk=1 when `apply_router_weight_on_input` is True"
+                    x = x * topk_weights.to(x.dtype)
+                    topk_weights = torch.ones_like(
+                        topk_weights, dtype=torch.float32
+                    )  # topk_weights must be FP32 (float32)
+
+                return fused_moe(
+                    x,
+                    layer.w13_weight,
+                    layer.w2_weight,
+                    topk_weights,
+                    topk_ids,
+                    activation=(
+                        ActivationType.Silu
+                        if activation == "silu"
+                        else ActivationType.Gelu
+                    ),
+                )
+            else:
+                return self.fused_experts(
+                    hidden_states=x,
+                    w1=layer.w13_weight,
+                    w2=layer.w2_weight,
+                    topk_weights=topk_weights,
+                    topk_ids=topk_ids,
+                    inplace=inplace and not no_combine,
+                    activation=activation,
+                    apply_router_weight_on_input=apply_router_weight_on_input,
+                    no_combine=no_combine,
+                    routed_scaling_factor=routed_scaling_factor,
+                )
+
+    def forward_cpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        num_fused_shared_experts: int = 0,
+        custom_routing_function: Optional[Callable] = None,
+        correction_bias: Optional[torch.Tensor] = None,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+        assert activation == "silu", f"activation = {activation} is not supported."
+
+        if use_intel_amx_backend(layer) and not apply_router_weight_on_input:
+
+            from sglang.srt.layers.moe.topk import select_experts
+
+            topk_weights, topk_ids = select_experts(
+                hidden_states=x,
+                router_logits=router_logits,
+                use_grouped_topk=use_grouped_topk,
+                top_k=top_k,
+                renormalize=renormalize,
+                topk_group=topk_group,
+                num_expert_group=num_expert_group,
+                num_fused_shared_experts=num_fused_shared_experts,
+                custom_routing_function=custom_routing_function,
+                correction_bias=correction_bias,
+                routed_scaling_factor=routed_scaling_factor,
+            )
+
+            # TODO: support apply_router_weight_on_input in the fused_experts_cpu kernel
+            return torch.ops.sgl_kernel.fused_experts_cpu(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                topk_weights,
+                topk_ids,
+                False,  # inplace # See [Note] inplace should be False in fused_experts.
+                False,  # use_int8_w8a8
+                False,  # use_fp8_w8a16
+                None,  # w1_scale
+                None,  # w2_scale
+                None,  # block_size
+                None,  # a1_scale
+                None,  # a2_scale
+                True,  # is_vnni
+            )
+        else:
+            return self.moe_forward_native(
+                layer,
+                x,
+                use_grouped_topk,
+                top_k,
+                router_logits,
+                renormalize,
+                topk_group,
+                num_expert_group,
+                num_fused_shared_experts,
+                custom_routing_function,
+                correction_bias,
+                activation,
+                apply_router_weight_on_input,
+                inplace,
+                no_combine,
+                routed_scaling_factor,
+            )
+
+    def forward_npu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        num_fused_shared_experts: int = 0,
+        custom_routing_function: Optional[Callable] = None,
+        correction_bias: Optional[torch.Tensor] = None,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+        return self.moe_forward_native(
+            layer,
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            num_fused_shared_experts,
+            custom_routing_function,
+            correction_bias,
+            activation,
+            apply_router_weight_on_input,
+            inplace,
+            no_combine,
+            routed_scaling_factor,
+        )
+
+    def forward_tpu(self, *args, **kwargs) -> torch.Tensor:
+        raise NotImplementedError("The TPU backend currently does not support MoE.")
+
+    forward_native = forward_cpu
+
+
+class UnquantizedEPMoEMethod(FusedMoEMethodBase, CustomOp):
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts_per_partition: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Fused gate_up_proj (column parallel)
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts_per_partition,
+                2 * intermediate_size,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts_per_partition,
+                hidden_size,
+                intermediate_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # scale
+        layer.register_parameter("w13_input_scale", None)
+        layer.register_parameter("w13_weight_scale", None)
+
+        ones_tensor = torch.ones(num_experts_per_partition, dtype=torch.float32)
+
+        w2_input_scale = torch.nn.Parameter(
+            ones_tensor,
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_input_scale", w2_input_scale)
+        set_weight_attrs(w2_input_scale, extra_weight_attrs)
+
+        w2_weight_scale = torch.nn.Parameter(
+            ones_tensor,
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        custom_routing_function: Optional[Callable] = None,
+    ) -> torch.Tensor:
+        raise NotImplementedError
diff --git a/python/sglang/srt/layers/quantization/utils.py b/python/sglang/srt/layers/quantization/utils.py
index 2371208f7895..51d70255d90c 100644
--- a/python/sglang/srt/layers/quantization/utils.py
+++ b/python/sglang/srt/layers/quantization/utils.py
@@ -1,7 +1,11 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/quant_utils.py
 
+from __future__ import annotations
+
+import re
+from copy import deepcopy
 from types import MappingProxyType
-from typing import List, Mapping, Optional, Tuple, Union
+from typing import TYPE_CHECKING, Dict, List, Mapping, Optional, Tuple, Union
 
 import numpy
 import torch
@@ -10,6 +14,9 @@
 from sglang.srt.layers.quantization.scalar_type import ScalarType
 from sglang.srt.utils import cpu_has_amx_support, is_cpu, is_cuda, is_npu
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.quantization.base_config import QuantizationConfig
+
 _is_cuda = is_cuda()
 _is_npu = is_npu()
 _is_cpu_amx_available = cpu_has_amx_support()
@@ -147,6 +154,94 @@ def replace_parameter(
         mod.register_parameter(name, torch.nn.Parameter(new, requires_grad=False))
 
 
+# Match dynamic rules with module name (prefix) and override quantize
+# config if module (prefix) matches a rule
+def override_config(config: QuantizationConfig, prefix: str):
+    weight_bits = get_dynamic_override(config, prefix, "bits", config.weight_bits)
+    if isinstance(weight_bits, int):
+        config.weight_bits = weight_bits
+    group_size = get_dynamic_override(config, prefix, "group_size", config.group_size)
+    if isinstance(group_size, int):
+        config.group_size = group_size
+    desc_act = get_dynamic_override(config, prefix, "desc_act", config.desc_act)
+    if isinstance(desc_act, bool):
+        config.desc_act = desc_act
+
+    config.pack_factor = 32 // config.weight_bits  # packed into int32
+    if config.get_name() == "gptq_marlin":
+        is_sym = get_dynamic_override(config, prefix, "sym", config.is_sym)
+        if isinstance(is_sym, bool):
+            config.is_sym = is_sym
+
+        if (config.weight_bits, config.is_sym) not in config.TYPE_MAP:
+            raise ValueError(
+                "Unsupported quantization config: "
+                f"bits={config.weight_bits}, sym={config.is_sym}"
+            )
+
+        config.quant_type = config.TYPE_MAP[(config.weight_bits, config.is_sym)]
+    elif config.get_name() == "gptq":
+        if config.weight_bits not in [2, 3, 4, 8]:
+            raise ValueError(
+                "Currently, only 2/3/4/8-bit weight quantization is "
+                f"supported for GPTQ, but got {config.weight_bits} bits."
+            )
+
+
+def get_dynamic_override(
+    config: QuantizationConfig,
+    layer_name: str,
+    key: Optional[str] = None,
+    default_value: Union[int, bool, None] = None,
+) -> Union[Dict, int, bool, None]:
+    for pattern, pattern_dict in config.dynamic.items():
+        # Negative match: matched modules are excluded from quantized init
+        if pattern.startswith("-:"):
+            if re.match(pattern.removeprefix("-:"), layer_name):
+                return False
+        # Positive match: matched modules have quant properties overrides
+        # base quant config
+        elif re.match(pattern.removeprefix("+:"), layer_name):
+            if key is None:
+                return pattern_dict
+            else:
+                return pattern_dict.get(key, default_value)
+    return default_value
+
+
+def get_linear_quant_method(
+    config: QuantizationConfig,
+    layer: torch.nn.Module,
+    prefix: str,
+    linear_method_cls: type,
+):
+    from sglang.srt.layers.linear import LinearBase
+    from sglang.srt.layers.quantization.unquant import (
+        UnquantizedEmbeddingMethod,
+        UnquantizedLinearMethod,
+    )
+    from sglang.srt.layers.vocab_parallel_embedding import ParallelLMHead
+
+    cloned_config = deepcopy(config)
+    parallel_lm_head_quantized = (
+        isinstance(layer, ParallelLMHead) and cloned_config.lm_head_quantized
+    )
+
+    if isinstance(layer, LinearBase) or parallel_lm_head_quantized:
+        # False = skip module, None = no override, else = Positive match
+        if get_dynamic_override(cloned_config, layer_name=prefix) is False:
+            if parallel_lm_head_quantized:
+                return UnquantizedEmbeddingMethod()
+            return UnquantizedLinearMethod()
+
+        if prefix:
+            # Dynamic per module/layer rules may override base config
+            override_config(cloned_config, prefix=prefix)
+
+        return linear_method_cls(cloned_config)
+    return None
+
+
 def get_pack_factor(num_bits):
     assert 32 % num_bits == 0, f"Unsupported num_bits = {num_bits}"
     return 32 // num_bits
diff --git a/python/sglang/srt/layers/quantization/w4afp8.py b/python/sglang/srt/layers/quantization/w4afp8.py
index c2820bdfc8cf..1c9dc5d33710 100644
--- a/python/sglang/srt/layers/quantization/w4afp8.py
+++ b/python/sglang/srt/layers/quantization/w4afp8.py
@@ -1,3 +1,5 @@
+from __future__ import annotations
+
 import logging
 from typing import Any, Dict, List, Optional
 
@@ -5,12 +7,13 @@
 from torch.nn import Module
 from torch.nn.parameter import Parameter
 
-from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
 from sglang.srt.layers.quantization.fp8 import Fp8LinearMethod
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.layers.quantization.utils import is_layer_skipped
 from sglang.srt.utils import set_weight_attrs
 
@@ -62,7 +65,7 @@ def get_config_filenames(cls) -> List[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "W4AFp8Config":
+    def from_config(cls, config: Dict[str, Any]) -> W4AFp8Config:
         quant_method = cls.get_from_keys(config, ["quant_method"])
         is_checkpoint_fp8_serialized = "fp8" in quant_method
         is_checkpoint_w4afp8_serialized = "w4afp8" in quant_method
@@ -79,7 +82,8 @@ def from_config(cls, config: Dict[str, Any]) -> "W4AFp8Config":
 
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
@@ -94,7 +98,7 @@ def get_scaled_act_names(self) -> List[str]:
         return []
 
 
-class W4AFp8MoEMethod:
+class W4AFp8MoEMethod(FusedMoEMethodBase):
 
     def __init__(self, quant_config: W4AFp8Config):
         self.quant_config = quant_config
diff --git a/python/sglang/srt/layers/quantization/w8a8_fp8.py b/python/sglang/srt/layers/quantization/w8a8_fp8.py
index b2e606f4d2ed..871a4534ca3e 100644
--- a/python/sglang/srt/layers/quantization/w8a8_fp8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_fp8.py
@@ -1,11 +1,14 @@
+from __future__ import annotations
+
 from typing import Any, Callable, Dict, List, Optional
 
 import torch
 from torch.nn.parameter import Parameter
 
-from sglang.srt.layers.linear import LinearMethodBase
 from sglang.srt.layers.parameter import ChannelQuantScaleParameter, ModelWeightParameter
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
@@ -64,7 +67,7 @@ def get_config_filenames(cls) -> List[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "W8A8Fp8Config":
+    def from_config(cls, config: Dict[str, Any]) -> W8A8Fp8Config:
         quant_method = cls.get_from_keys(config, ["quant_method"])
         is_checkpoint_fp8_serialized = (
             "compressed-tensors" in quant_method or "w8a8_fp8" in quant_method
@@ -75,7 +78,7 @@ def get_quant_method(
         self,
         layer: torch.nn.Module,
         prefix: str,
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
@@ -183,7 +186,7 @@ def apply(
         )
 
 
-class W8A8FP8MoEMethod:
+class W8A8FP8MoEMethod(FusedMoEMethodBase):
     """MoE method for FP8.
     Supports loading FP8 checkpoints with static weight scale and
     dynamic/static activation scale.
@@ -194,25 +197,7 @@ class W8A8FP8MoEMethod:
         quant_config: The quantization config.
     """
 
-    def __new__(cls, *args, **kwargs):
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
-    def __init__(self, quant_config):
+    def __init__(self, quant_config: W8A8Fp8Config):
         self.quant_config = quant_config
 
     def create_weights(
diff --git a/python/sglang/srt/layers/quantization/w8a8_int8.py b/python/sglang/srt/layers/quantization/w8a8_int8.py
index 49e6f0e8c91e..c8a024bf33ed 100644
--- a/python/sglang/srt/layers/quantization/w8a8_int8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_int8.py
@@ -1,3 +1,5 @@
+from __future__ import annotations
+
 import importlib
 import sys
 from types import MappingProxyType
@@ -11,21 +13,19 @@
     get_tensor_model_parallel_world_size,
 )
 from sglang.srt.layers.amx_utils import _amx_process_weight_after_loading
-from sglang.srt.layers.linear import (
-    LinearMethodBase,
-    RowParallelLinear,
-    UnquantizedLinearMethod,
-)
 from sglang.srt.layers.parameter import (
     ChannelQuantScaleParameter,
     ModelWeightParameter,
     PerTensorScaleParameter,
 )
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
     QuantizationConfig,
     QuantizeMethodBase,
 )
 from sglang.srt.layers.quantization.int8_kernel import per_token_quant_int8
+from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.utils import (
     apply_module_patch,
     cpu_has_amx_support,
@@ -229,14 +229,14 @@ def get_config_filenames(cls) -> List[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "W8A8Int8Config":
+    def from_config(cls, config: Dict[str, Any]) -> W8A8Int8Config:
         return cls(config)
 
     def get_quant_method(
         self,
         layer: torch.nn.Module,
         prefix: str,
-    ) -> Optional["QuantizeMethodBase"]:
+    ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
@@ -374,7 +374,7 @@ def apply(
         )
 
 
-class W8A8Int8MoEMethod:
+class W8A8Int8MoEMethod(FusedMoEMethodBase):
     """MoE method for INT8.
     Supports loading INT8 checkpoints with static weight scale and
     dynamic/static activation scale.
@@ -385,25 +385,7 @@ class W8A8Int8MoEMethod:
         quant_config: The quantization config.
     """
 
-    def __new__(cls, *args, **kwargs):
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoEMethodBase
-
-        if not hasattr(cls, "_initialized"):
-            original_init = cls.__init__
-            new_cls = type(
-                cls.__name__,
-                (FusedMoEMethodBase,),
-                {
-                    "__init__": original_init,
-                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
-                },
-            )
-            obj = super(new_cls, new_cls).__new__(new_cls)
-            obj.__init__(*args, **kwargs)
-            return obj
-        return super().__new__(cls)
-
-    def __init__(self, quant_config):
+    def __init__(self, quant_config: W8A8Int8Config):
         self.quant_config = quant_config
 
     def create_weights(
@@ -885,13 +867,15 @@ def apply(
         x: torch.Tensor,
         bias: Optional[torch.Tensor] = None,
     ) -> torch.Tensor:
+        from sglang.srt.layers.linear import RowParallelLinear
+
         if isinstance(layer, RowParallelLinear):
             tp_rank = get_tensor_model_parallel_rank()
             return self.quant_method.apply(layer, x, bias, tp_rank)
         return self.quant_method.apply(layer, x, bias)
 
 
-class NPU_W8A8MoEMethod:
+class NPU_W8A8MoEMethod(FusedMoEMethodBase):
     """MoE method for NPU quantization.
 
     This class search for specific quantization
diff --git a/python/sglang/srt/layers/vocab_parallel_embedding.py b/python/sglang/srt/layers/vocab_parallel_embedding.py
index 0e075a2518f2..d925506f5ecc 100644
--- a/python/sglang/srt/layers/vocab_parallel_embedding.py
+++ b/python/sglang/srt/layers/vocab_parallel_embedding.py
@@ -5,7 +5,6 @@
 from typing import List, Optional, Sequence, Tuple
 
 import torch
-import torch.nn.functional as F
 from torch.nn.parameter import Parameter, UninitializedParameter
 
 from sglang.srt.distributed import (
@@ -22,6 +21,7 @@
     QuantizeMethodBase,
     method_has_implemented_embedding,
 )
+from sglang.srt.layers.quantization.unquant import UnquantizedEmbeddingMethod
 from sglang.srt.utils import cpu_has_amx_support, is_cpu, set_weight_attrs
 
 DEFAULT_VOCAB_PADDING_SIZE = 64
@@ -32,44 +32,6 @@
 logger = logging.getLogger(__name__)
 
 
-class UnquantizedEmbeddingMethod(QuantizeMethodBase):
-    """Unquantized method for embeddings."""
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        input_size_per_partition: int,
-        output_partition_sizes: List[int],
-        input_size: int,
-        output_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        """Create weights for embedding layer."""
-        weight = Parameter(
-            torch.empty(
-                sum(output_partition_sizes),
-                input_size_per_partition,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
-        layer.register_parameter("weight", weight)
-        set_weight_attrs(weight, extra_weight_attrs)
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        bias: Optional[torch.Tensor] = None,
-    ) -> torch.Tensor:
-        return F.linear(x, layer.weight, bias)
-
-    def embedding(self, layer: torch.nn.Module, input_: torch.Tensor) -> torch.Tensor:
-        return F.embedding(input_, layer.weight)
-
-
 def pad_vocab_size(vocab_size: int, pad_to: int = DEFAULT_VOCAB_PADDING_SIZE) -> int:
     """Pad the vocab size to the given value."""
     return ((vocab_size + pad_to - 1) // pad_to) * pad_to

From af1cc8fe2dd8f87f3d79419e20cf655338eecf28 Mon Sep 17 00:00:00 2001
From: Yuan Luo <yuan.luo@hotmail.com>
Date: Thu, 17 Jul 2025 19:33:02 +0800
Subject: [PATCH 019/396] [kernel] opt moe align block kernel by block/warp
 scan algorithm (#7884)

---
 sgl-kernel/csrc/moe/moe_align_kernel.cu | 93 ++++++++++++++-----------
 1 file changed, 51 insertions(+), 42 deletions(-)

diff --git a/sgl-kernel/csrc/moe/moe_align_kernel.cu b/sgl-kernel/csrc/moe/moe_align_kernel.cu
index ad80b0c75e81..b66afa0e4843 100644
--- a/sgl-kernel/csrc/moe/moe_align_kernel.cu
+++ b/sgl-kernel/csrc/moe/moe_align_kernel.cu
@@ -26,6 +26,12 @@ limitations under the License.
 #define VEC_SIZE 4
 using Vec = int4;
 
+#ifndef __CUDA_ARCH__  // HIP
+#define SHFL_UP(mask, val, delta) __shfl_up((val), (delta))
+#else  // CUDA
+#define SHFL_UP(mask, val, delta) __shfl_up_sync((mask), (val), (delta))
+#endif
+
 template <typename scalar_t>
 __global__ void count_and_sort_expert_tokens_kernel(
     const scalar_t* __restrict__ topk_ids,
@@ -42,6 +48,16 @@ __global__ void count_and_sort_expert_tokens_kernel(
   }
 }
 
+__device__ __forceinline__ int warp_exclusive_scan(int v, unsigned mask = 0xffffffffu) {
+  int original = v;
+#pragma unroll
+  for (int offset = 1; offset < WARP_SIZE; offset <<= 1) {
+    int n = SHFL_UP(mask, v, offset);
+    if ((threadIdx.x & (WARP_SIZE - 1)) >= offset) v += n;
+  }
+  return v - original;
+}
+
 template <typename scalar_t>
 __global__ void moe_align_block_size_kernel(
     const scalar_t* __restrict__ topk_ids,
@@ -58,6 +74,7 @@ __global__ void moe_align_block_size_kernel(
   int32_t* shared_counts = smem;                  // [num_experts]
   int32_t* prefix = shared_counts + num_experts;  // [num_experts + 1]
   int32_t* scan_buf = prefix + num_experts + 1;   // [scan_size]
+  int32_t* warp_sums = scan_buf + scan_size;      // [<= 32]
   __shared__ int32_t s_total_tokens_post_pad;
 
   const size_t tid = threadIdx.x;
@@ -76,6 +93,7 @@ __global__ void moe_align_block_size_kernel(
 
   __syncthreads();
 
+  // Calculate padded_cnt, write scan_buf, directly prefix sum
   int32_t padded_count = 0;
   if (tid < num_experts) {
     int32_t count = shared_counts[tid];
@@ -83,58 +101,52 @@ __global__ void moe_align_block_size_kernel(
     scan_buf[tid] = padded_count;
   }
 
-  if (tid >= num_experts && tid < scan_size) {
-    scan_buf[tid] = 0;
-  }
-
+  // Intra warp prefix sum
+  const int warp_id = tid / WARP_SIZE;
+  const int lane_id = tid & (WARP_SIZE - 1);
+  const int num_warps_for_scan = (scan_size + WARP_SIZE - 1) / WARP_SIZE;
+  const int warp_sum = warp_exclusive_scan(padded_count) + padded_count;
+  if (lane_id == WARP_SIZE - 1) warp_sums[warp_id] = warp_sum;
   __syncthreads();
 
-  // Blelloch scan
-  int offset = 1;
-#pragma unroll
-  for (int d = scan_size >> 1; d > 0; d >>= 1) {
-    if (tid < d) {
-      int ai = offset * (2 * tid + 1) - 1;
-      int bi = offset * (2 * tid + 2) - 1;
-      scan_buf[bi] += scan_buf[ai];
-    }
-    offset <<= 1;
-    __syncthreads();
+  // warp0 accumulate all the block's prefix sum
+  if (tid < WARP_SIZE) {
+    int val = (tid < num_warps_for_scan) ? warp_sums[tid] : 0;
+    int incl = warp_exclusive_scan(val) + val;
+    warp_sums[tid] = incl;
   }
+  __syncthreads();
 
-  // down-sweep
+  // Every thread obtains the whole block's sum
   if (tid == 0) {
-    prefix[num_experts] = scan_buf[scan_size - 1];
-    scan_buf[scan_size - 1] = 0;
+    prefix[num_experts] = warp_sums[num_warps_for_scan - 1];
+    s_total_tokens_post_pad = prefix[num_experts];
+    *total_tokens_post_pad = s_total_tokens_post_pad;
   }
   __syncthreads();
 
-#pragma unroll
-  for (int d = 1; d < scan_size; d <<= 1) {
-    offset >>= 1;
-    if (tid < d) {
-      int ai = offset * (2 * tid + 1) - 1;
-      int bi = offset * (2 * tid + 2) - 1;
-      if (bi < scan_size) {
-        int temp = scan_buf[ai];
-        scan_buf[ai] = scan_buf[bi];
-        scan_buf[bi] += temp;
-      }
-    }
-    __syncthreads();
-  }
+  // Fill 0 to scan_buf extended area (tid >= num_expert)
+  if (tid >= num_experts && tid < scan_size) scan_buf[tid] = 0;
+  __syncthreads();
 
-  if (tid < num_experts) {
-    prefix[tid] = scan_buf[tid];
-  }
+  // Perform 2 level exclusive-prefix-sum to scan_buf
+  int v = (tid < scan_size) ? scan_buf[tid] : 0;
+  int pre = warp_exclusive_scan(v);
+  if (lane_id == WARP_SIZE - 1) warp_sums[warp_id] = pre + v;
+  __syncthreads();
 
-  if (tid == 0) {
-    s_total_tokens_post_pad = prefix[num_experts];
-    *total_tokens_post_pad = s_total_tokens_post_pad;
+  if (warp_id == 0) {
+    int val = (lane_id < num_warps_for_scan) ? warp_sums[lane_id] : 0;
+    warp_sums[lane_id] = warp_exclusive_scan(val);
   }
+  __syncthreads();
 
+  int offset = warp_sums[warp_id];
+  if (tid < scan_size) scan_buf[tid] = pre + offset;
   __syncthreads();
 
+  // Write prefix[0..num_experts - 1] and cumsum
+  if (tid < num_experts) prefix[tid] = scan_buf[tid];
   if (tid <= num_experts) {
     cumsum[tid] = prefix[tid];
   }
@@ -250,9 +262,6 @@ void moe_align_block_size(
     bool pad_sorted_token_ids) {
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
 
-  int64_t padded_num_experts = ((num_experts + WARP_SIZE - 1) / WARP_SIZE) * WARP_SIZE;
-
-  int experts_per_warp = WARP_SIZE;
   int threads = 1024;
 
   threads = ((threads + WARP_SIZE - 1) / WARP_SIZE) * WARP_SIZE;
@@ -278,7 +287,7 @@ void moe_align_block_size(
       auto align_kernel = moe_align_block_size_kernel<scalar_t>;
 
       const size_t scan_size = next_pow2(num_experts);
-      const size_t shared_mem_size = (num_experts + (num_experts + 1) + scan_size) * sizeof(int32_t);
+      const size_t shared_mem_size = (num_experts + (num_experts + 1) + scan_size + WARP_SIZE) * sizeof(int32_t);
 
       align_kernel<<<1, threads, shared_mem_size, stream>>>(
           topk_ids.data_ptr<scalar_t>(),

From 519ff5c8e69e076fa9120d8f3ffaed98c68b5236 Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Thu, 17 Jul 2025 21:15:51 +0800
Subject: [PATCH 020/396] Super tiny fix typo (#8046)

---
 .../sglang/srt/layers/attention/flashattention_backend.py   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/attention/flashattention_backend.py b/python/sglang/srt/layers/attention/flashattention_backend.py
index b0615be3c2ca..740b46b6be18 100644
--- a/python/sglang/srt/layers/attention/flashattention_backend.py
+++ b/python/sglang/srt/layers/attention/flashattention_backend.py
@@ -1617,7 +1617,7 @@ def init_forward_metadata_replay_cuda_graph(
                         metadata.max_seq_len_k + self.page_size - 1
                     ) // self.page_size
 
-                    normal_decode_set_medadata(
+                    normal_decode_set_metadata(
                         metadata.cache_seqlens_int32,
                         metadata.cu_seqlens_k,
                         metadata.page_table,
@@ -1666,7 +1666,7 @@ def init_forward_metadata_replay_cuda_graph(
                 max_seq_pages = (max_len + self.page_size - 1) // self.page_size
                 metadata.max_seq_len_k = max_len
 
-                normal_decode_set_medadata(
+                normal_decode_set_metadata(
                     metadata.cache_seqlens_int32,
                     metadata.cu_seqlens_k,
                     metadata.page_table,
@@ -2089,7 +2089,7 @@ def init_forward_metadata_replay_cuda_graph(
 # @torch.compile(dynamic=True, backend=get_compiler_backend())
 # TODO: fuse these kernels
 # NOTE: torch.compile makes it slower in speculative decoding
-def normal_decode_set_medadata(
+def normal_decode_set_metadata(
     cache_seqlens_int32: torch.Tensor,
     cu_seqlens_k: torch.Tensor,
     page_table: torch.Tensor,

From 01857fab6189a81b31c9140b67bab5135cf36bb0 Mon Sep 17 00:00:00 2001
From: Ziqi Fan <ziqif@nvidia.com>
Date: Thu, 17 Jul 2025 06:24:34 -0700
Subject: [PATCH 021/396] fix: update HostKVCache init to report correct msg
 when available memory is not enough (#8102)

---
 python/sglang/srt/mem_cache/memory_pool_host.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index a5977fd1d7ce..1bc2ddf7ec45 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -71,11 +71,12 @@ def __init__(
         requested_bytes = self.size * self.size_per_token
         # preserve at least 10GB for other usage
         ten_gb = 10 * (1024**3)
-        if requested_bytes > host_mem.available - ten_gb:
+        available_bytes = host_mem.available - ten_gb
+        if requested_bytes > available_bytes:
             raise ValueError(
                 f"Not enough host memory available. Requesting "
                 f"{requested_bytes / 1e9:.2f} GB but only have "
-                f"{host_mem.available / 1e9:.2f} GB free. Please reduce the "
+                f"{available_bytes / 1e9:.2f} GB free. Please reduce the "
                 f"size of the hierarchical cache."
             )
         else:

From 42960214994461d93dec2fc3e00383e33c9f0401 Mon Sep 17 00:00:00 2001
From: Asher <kzjeef@gmail.com>
Date: Fri, 18 Jul 2025 01:00:11 +0800
Subject: [PATCH 022/396] [Hunyuan]: Fix Dense Model Support (#8117)

Signed-off-by: Asher Zhang <asherszhang@tencent.com>
---
 python/sglang/srt/models/hunyuan.py | 66 ++++++++++++++++++++++++-----
 1 file changed, 55 insertions(+), 11 deletions(-)

diff --git a/python/sglang/srt/models/hunyuan.py b/python/sglang/srt/models/hunyuan.py
index 41a833f3df98..f23ccc0a8d94 100644
--- a/python/sglang/srt/models/hunyuan.py
+++ b/python/sglang/srt/models/hunyuan.py
@@ -206,6 +206,42 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         return final_hidden_states.view(orig_shape)
 
 
+def get_head_dim(config):
+    if hasattr(config, "head_dim"):
+        return int(config.head_dim)
+    if hasattr(config, "attention_head_dim"):
+        return int(config.attention_head_dim)
+
+    # since some hunyuan model don't follow the self.hidden_size // self.total_num_heads rule
+    # wrong setting may cause runtime error, just throw error if this field is missing.
+    raise ValueError("Missing head dim config, try set head_dim in config.json")
+
+
+def check_head_dim(config):
+    # Some models may lack `head_dim` and use `attention_head_dim` instead.
+    # This attribute is also used by flashinfer_backend.py, so we check for
+    # consistency and raise an error if it's not met to avoid silent failures.
+    # Although we could adapt the HunYuan model to use `attention_head_dim`,
+    # flashinfer expects `head_dim`, so we enforce its presence for correctness.
+    calc_head_dim = config.hidden_size // config.num_attention_heads
+
+    if hasattr(config, "attention_head_dim"):
+        if calc_head_dim != config.attention_head_dim and not hasattr(
+            config, "head_dim"
+        ):
+            # in this case, flash infer(and other components may calculate wrong value.)
+            raise ValueError(
+                f"HunYuan model config error: calculated head_dim {calc_head_dim} != attention_head_dim {config.attention_head_dim}"
+                + f"\nPlease Add head_dim:{config.attention_head_dim} in config.json to make sure correctly inference."
+            )
+
+        if hasattr(config, "head_dim") and config.attention_head_dim != config.head_dim:
+            raise ValueError(
+                f"HunYuan model config error: head_dim({config.head_dim}) != attention_head_dim({config.attention_head_dim})"
+                + f"\nPlease change head_dim:{config.attention_head_dim} in config.json to make sure correctly inference."
+            )
+
+
 class HunYuanAttention(nn.Module):
 
     def __init__(
@@ -240,9 +276,11 @@ def __init__(
             assert tp_size % self.total_num_kv_heads == 0
         self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
         # MistralConfig has an optional head_dim introduced by Mistral-Nemo
-        self.head_dim = getattr(
-            config, "head_dim", self.hidden_size // self.total_num_heads
-        )
+        # Prioritize `head_dim` but fall back to `attention_head_dim` for Hunyuan models.
+        self.head_dim = get_head_dim(config)
+
+        check_head_dim(config)
+
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
@@ -493,7 +531,6 @@ def forward(
             hidden_states = self.get_input_embeddings(input_ids)
         residual = None
 
-        cla_factor = _get_cla_factor(self.config)
         prev_kv_states = None
         for i in range(len(self.layers)):
             layer = self.layers[i]
@@ -560,6 +597,11 @@ def __init__(
         if config.tie_word_embeddings:
             self.lm_head.weight = self.model.embed_tokens.weight
 
+        self.hidden_size = config.hidden_size
+        self.head_dim = get_head_dim(config)
+
+        check_head_dim(config)
+
         logit_scale = getattr(config, "logit_scale", 1.0)
         self.logits_processor = LogitsProcessor(config, logit_scale=logit_scale)
         self.sampler = Sampler()
@@ -582,16 +624,14 @@ def _split_qkv_weight(self, qkv: torch.Tensor):
             self.config, "num_key_value_heads", self.config.num_attention_heads
         )
         num_key_value_groups = num_attention_heads // num_kv_heads
-        hidden_size = self.config.hidden_size
-        attention_head_dim = self.config.hidden_size // num_attention_heads
 
         qkv = qkv.reshape(
-            num_kv_heads, num_key_value_groups + 2, attention_head_dim, hidden_size
+            num_kv_heads, num_key_value_groups + 2, self.head_dim, self.hidden_size
         )
         q, k, v = torch.split(qkv, (num_key_value_groups, 1, 1), dim=1)
-        q = q.reshape(-1, hidden_size)
-        k = k.reshape(-1, hidden_size)
-        v = v.reshape(-1, hidden_size)
+        q = q.reshape(-1, self.hidden_size)
+        k = k.reshape(-1, self.hidden_size)
+        v = v.reshape(-1, self.hidden_size)
         return torch.concat((q, k, v))
         # return qkv.reshape((num_kv_heads, num_key_value_groups+2 , attention_head_dim, hidden_size)).permute((1,0,2,3)).reshape((-1, hidden_size)),
 
@@ -768,4 +808,8 @@ def load_kv_cache_scales(self, quantization_param_path: str) -> None:
                 )
 
 
-EntryClass = HunYuanMoEV1ForCausalLM
+class HunYuanDenseV1ForCausalLM(HunYuanMoEV1ForCausalLM):
+    pass
+
+
+EntryClass = [HunYuanMoEV1ForCausalLM, HunYuanDenseV1ForCausalLM]

From 3586b4cef232d829491fa47631d3522900f8ff35 Mon Sep 17 00:00:00 2001
From: Zhao Chen <winters.zc@antgroup.com>
Date: Fri, 18 Jul 2025 02:59:05 +0800
Subject: [PATCH 023/396] feat: add production metric for retracted requests
 due to insufficient kvcache (#7030)

Signed-off-by: Zhao Chen <zhaochen.zju@gmail.com>
---
 python/sglang/srt/managers/scheduler.py | 7 ++++++-
 python/sglang/srt/metrics/collector.py  | 9 +++++++++
 2 files changed, 15 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index ab966f924cc6..874ed60f0fd2 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -675,6 +675,7 @@ def init_metrics(self, tp_rank: int, pp_rank: int, dp_rank: Optional[int]):
         self.spec_num_total_forward_ct = 0
         self.cum_spec_accept_length = 0
         self.cum_spec_accept_count = 0
+        self.total_retracted_reqs = 0
         self.stats = SchedulerStats()
         if self.enable_metrics:
             engine_type = "unified"
@@ -1477,6 +1478,7 @@ def log_decode_stats(
             self.stats.num_queue_reqs = len(self.waiting_queue)
             self.stats.num_grammar_queue_reqs = len(self.grammar_queue)
             self.stats.spec_accept_length = spec_accept_length
+            self.stats.total_retracted_reqs = self.total_retracted_reqs
             self.metrics_collector.log_stats(self.stats)
             self._emit_kv_metrics()
         self._publish_kv_events()
@@ -1824,14 +1826,17 @@ def update_running_batch(self, batch: ScheduleBatch) -> Optional[ScheduleBatch]:
             old_ratio = self.new_token_ratio
 
             retracted_reqs, new_token_ratio = batch.retract_decode(self.server_args)
+            num_retracted_reqs = len(retracted_reqs)
             self.new_token_ratio = new_token_ratio
 
             logger.info(
                 "KV cache pool is full. Retract requests. "
-                f"#retracted_reqs: {len(retracted_reqs)}, "
+                f"#retracted_reqs: {num_retracted_reqs}, "
                 f"#new_token_ratio: {old_ratio:.4f} -> {self.new_token_ratio:.4f}"
             )
+
             self._extend_requests_to_queue(retracted_reqs, is_retracted=True)
+            self.total_retracted_reqs += num_retracted_reqs
         else:
             self.new_token_ratio = max(
                 self.new_token_ratio - self.new_token_ratio_decay,
diff --git a/python/sglang/srt/metrics/collector.py b/python/sglang/srt/metrics/collector.py
index f8dac44727f2..4c32b8fc6348 100644
--- a/python/sglang/srt/metrics/collector.py
+++ b/python/sglang/srt/metrics/collector.py
@@ -145,6 +145,7 @@ class SchedulerStats:
     num_prefill_infight_queue_reqs: int = 0
     num_decode_prealloc_queue_reqs: int = 0
     num_decode_transfer_queue_reqs: int = 0
+    total_retracted_reqs: int = 0
 
 
 class SchedulerMetricsCollector:
@@ -219,6 +220,13 @@ def __init__(self, labels: Dict[str, str]) -> None:
             multiprocess_mode="mostrecent",
         )
 
+        self.total_retracted_reqs = Gauge(
+            name="sglang:total_retracted_reqs",
+            documentation="The total number of retracted requests due to kvcache full.",
+            labelnames=labels.keys(),
+            multiprocess_mode="mostrecent",
+        )
+
         # Disaggregation queue metrics
         self.num_prefill_prealloc_queue_reqs = Gauge(
             name="sglang:num_prefill_prealloc_queue_reqs",
@@ -279,6 +287,7 @@ def log_stats(self, stats: SchedulerStats) -> None:
         self._log_gauge(self.num_grammar_queue_reqs, stats.num_grammar_queue_reqs)
         self._log_gauge(self.cache_hit_rate, stats.cache_hit_rate)
         self._log_gauge(self.spec_accept_length, stats.spec_accept_length)
+        self._log_gauge(self.total_retracted_reqs, stats.total_retracted_reqs)
 
         # Disaggregation metrics
         self._log_gauge(

From e1020dc5883b5a39191952d386f4af60a2ae7a5b Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Fri, 18 Jul 2025 08:59:15 +0800
Subject: [PATCH 024/396] refactor: simply MultimodalTokens logic (#7924)

---
 .../multimodal/processors/base_processor.py   | 79 +++++++++++--------
 .../multimodal/processors/deepseek_vl_v2.py   |  6 +-
 .../srt/multimodal/processors/gemma3.py       | 25 +++---
 .../srt/multimodal/processors/gemma3n.py      | 40 +++++-----
 .../srt/multimodal/processors/internvl.py     | 14 ++--
 .../srt/multimodal/processors/janus_pro.py    | 12 +--
 .../srt/multimodal/processors/kimi_vl.py      | 24 +++---
 .../srt/multimodal/processors/minicpm.py      | 14 ++--
 .../srt/multimodal/processors/mllama4.py      |  4 +-
 .../srt/multimodal/processors/phi4mm.py       |  2 +-
 .../srt/multimodal/processors/pixtral.py      |  2 +-
 .../srt/multimodal/processors/qwen_vl.py      | 35 ++++----
 .../sglang/srt/multimodal/processors/vila.py  | 22 +++---
 13 files changed, 146 insertions(+), 133 deletions(-)

diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 44e22885caec..5c44c4d49953 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -21,7 +21,7 @@ class BaseMultiModalProcessorOutput:
     # input_text, with each frame of video/image represented with a image_token
     input_text: str
 
-    # frames loaded from image and video, in given order
+    # frames loaded from image, in given order
     images: Optional[list[Union[Image.Image, dict]]] = None
 
     # videos
@@ -44,14 +44,26 @@ def organize_results(self) -> List[Tuple[Modality, Any]]:
 
 @dataclasses.dataclass
 class MultimodalSpecialTokens:
-    image_token: Optional[Union[int, str, List[str]]] = None
-    video_token: Optional[Union[int, str, List[str]]] = None
-    audio_token: Optional[Union[int, str, List[str]]] = None
+    image_token: Optional[Union[str, List[str]]] = None
+    video_token: Optional[Union[str, List[str]]] = None
+    audio_token: Optional[Union[str, List[str]]] = None
+
+    image_token_id: Optional[int] = None
+    video_token_id: Optional[int] = None
+    audio_token_id: Optional[int] = None
 
     image_token_regex: Optional[re.Pattern] = None
     video_token_regex: Optional[re.Pattern] = None
     audio_token_regex: Optional[re.Pattern] = None
 
+    combined_regex: Optional[re.Pattern] = None
+
+    def build(self, processor):
+        self.convert_to_strs(processor)
+        self.parse_regex()
+        self.get_combined_regex()
+        return self
+
     def convert_to_str(self, token: Union[str, int], processor) -> str:
         if token is None:
             return token
@@ -60,11 +72,14 @@ def convert_to_str(self, token: Union[str, int], processor) -> str:
         return processor.tokenizer.convert_ids_to_tokens([token])[0]
 
     def convert_to_strs(self, processor):
-        self.image_token = self.convert_to_str(self.image_token, processor)
-        self.video_token = self.convert_to_str(self.video_token, processor)
-        self.audio_token = self.convert_to_str(self.audio_token, processor)
-
-    def get_modality_of_token(self, token) -> Optional[Modality]:
+        if not self.image_token:
+            self.image_token = self.convert_to_str(self.image_token_id, processor)
+        if not self.video_token:
+            self.video_token = self.convert_to_str(self.video_token_id, processor)
+        if not self.audio_token:
+            self.audio_token = self.convert_to_str(self.audio_token_id, processor)
+
+    def get_modality_of_token(self, token: str) -> Optional[Modality]:
         """
         :return: the modality associated with the given token, if the token is a special_token or matches with the multimodal token regex
         """
@@ -94,7 +109,12 @@ def parse_regex(self):
         if self.audio_token_regex is None and self.audio_token is not None:
             self.audio_token_regex = re.compile(re.escape(self.audio_token))
 
-    def combine_regex(self) -> re.Pattern:
+    def get_combined_regex(self) -> re.Pattern:
+        """
+        Builds and returns a regex, used to split input str into tokens (with mm special tokens)
+        """
+        if self.combined_regex:
+            return self.combined_regex
         tokens = [
             self.image_token_regex,
             self.video_token_regex,
@@ -107,7 +127,8 @@ def combine_regex(self) -> re.Pattern:
                 patterns.append(t.pattern)
                 flags |= t.flags
         combined = "(" + "|".join(f"(?:{p})" for p in patterns) + ")"
-        return re.compile(combined, flags)
+        self.combined_regex = re.compile(combined, flags)
+        return self.combined_regex
 
 
 class BaseMultimodalProcessor(ABC):
@@ -341,9 +362,8 @@ def load_mm_data(
             discard_alpha_channel: if True, discards the alpha channel in the returned images
 
         """
-        multimodal_tokens.convert_to_strs(self._processor)
-        multimodal_tokens.parse_regex()
-        multimodal_tokens_pattern = multimodal_tokens.combine_regex()
+        multimodal_tokens_pattern = multimodal_tokens.get_combined_regex()
+
         if isinstance(prompt, list) and return_text:
             assert len(prompt) and isinstance(prompt[0], int)
             prompt = self._processor.tokenizer.decode(prompt)
@@ -445,7 +465,6 @@ def get_mm_items_offset(
             return result = [(2,4),(6,7)]
         """
         mask = input_ids == mm_token_id
-
         start_positions = (mask & ~torch.roll(mask, 1)).nonzero(as_tuple=True)[0]
         end_positions = (mask & ~torch.roll(mask, -1)).nonzero(as_tuple=True)[0]
 
@@ -554,7 +573,9 @@ def _process_and_collect_mm_items(
         return collected_items, input_ids, ret
 
     def process_and_combine_mm_data(
-        self, base_output: BaseMultiModalProcessorOutput
+        self,
+        base_output: BaseMultiModalProcessorOutput,
+        mm_tokens: MultimodalSpecialTokens,
     ) -> Tuple[List[MultimodalDataItem], torch.Tensor, dict]:
         """
         Process multimodal data and return the combined multimodal items and input_ids.
@@ -618,22 +639,14 @@ def process_and_combine_mm_data(
 
         # Add offsets to all items
         for mm_item in all_collected_items:
-            if mm_item.modality in [Modality.IMAGE, Modality.MULTI_IMAGES]:
-                mm_item.offsets = self.get_mm_items_offset(
-                    input_ids=input_ids,
-                    mm_token_id=self.IM_TOKEN_ID,
-                )
-            elif mm_item.modality == Modality.AUDIO:
-                mm_item.offsets = self.get_mm_items_offset(
-                    input_ids=input_ids,
-                    mm_token_id=self.AUDIO_TOKEN_ID,
-                )
-            elif mm_item.modality == Modality.VIDEO:
-                mm_item.offsets = self.get_mm_items_offset(
-                    input_ids=input_ids,
-                    mm_token_id=self.VIDEO_TOKEN_ID,
-                )
-            else:
-                raise ValueError(f"Unknown modality: {mm_item.modality}")
+            mm_item.offsets = self.get_mm_items_offset(
+                input_ids=input_ids,
+                mm_token_id={
+                    Modality.IMAGE: mm_tokens.image_token_id,
+                    Modality.MULTI_IMAGES: mm_tokens.image_token_id,
+                    Modality.VIDEO: mm_tokens.video_token_id,
+                    Modality.AUDIO: mm_tokens.audio_token_id,
+                }.get(mm_item.modality, None),
+            )
 
         return all_collected_items, input_ids, ret
diff --git a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
index 50547ad2d714..c21dce176905 100644
--- a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
+++ b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
@@ -33,7 +33,9 @@ class DeepseekVL2ImageProcessor(BaseMultimodalProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        self.IMAGE_TOKEN = "<image>"
+        self.mm_tokens = MultimodalSpecialTokens(image_token="<image>").build(
+            _processor
+        )
 
     async def process_mm_data_async(
         self,
@@ -47,7 +49,7 @@ async def process_mm_data_async(
         base_output = self.load_mm_data(
             input_text,
             image_data=image_data,
-            multimodal_tokens=MultimodalSpecialTokens(image_token=self.IMAGE_TOKEN),
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
         )
         res = self.process_mm_data(
diff --git a/python/sglang/srt/multimodal/processors/gemma3.py b/python/sglang/srt/multimodal/processors/gemma3.py
index e0858674a7b2..dac9bd5c8241 100644
--- a/python/sglang/srt/multimodal/processors/gemma3.py
+++ b/python/sglang/srt/multimodal/processors/gemma3.py
@@ -4,7 +4,6 @@
 from sglang.srt.managers.multimodal_processor import (
     BaseMultimodalProcessor as SGLangBaseProcessor,
 )
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.gemma3_mm import Gemma3ForConditionalGeneration
 from sglang.srt.multimodal.processors.base_processor import MultimodalSpecialTokens
 
@@ -17,15 +16,17 @@ class Gemma3SGLangImageProcessor(SGLangBaseProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        # The single, pre-expanded image token.
-        self.IMAGE_TOKEN = "<start_of_image>"
-        # The regex that matches expanded image tokens.
-        self.IMAGE_TOKEN_REGEX = re.compile(
-            r"<start_of_image>(?:(?:<image_soft_token>)*<end_of_image>)?"
-        )
         self.IM_START_TOKEN_ID = hf_config.boi_token_index
         self.IM_END_TOKEN_ID = hf_config.eoi_token_index
-        self.IM_TOKEN_ID = hf_config.image_token_index
+        self.mm_tokens = MultimodalSpecialTokens(
+            # The single, pre-expanded image token.
+            image_token="<start_of_image>",
+            image_token_id=hf_config.image_token_index,
+            # The regex that matches expanded image tokens.
+            image_token_regex=re.compile(
+                r"<start_of_image>(?:(?:<image_soft_token>)*<end_of_image>)?"
+            ),
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -39,14 +40,14 @@ async def process_mm_data_async(
         base_output = self.load_mm_data(
             prompt=input_text,
             image_data=image_data,
-            multimodal_tokens=MultimodalSpecialTokens(
-                image_token=self.IMAGE_TOKEN, image_token_regex=self.IMAGE_TOKEN_REGEX
-            ),
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
             discard_alpha_channel=True,
         )
 
-        mm_items, input_ids, _ = self.process_and_combine_mm_data(base_output)
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
         return {
             "input_ids": input_ids.tolist(),
             "mm_items": mm_items,
diff --git a/python/sglang/srt/multimodal/processors/gemma3n.py b/python/sglang/srt/multimodal/processors/gemma3n.py
index 92f3c0b939d5..aafeab7c9383 100644
--- a/python/sglang/srt/multimodal/processors/gemma3n.py
+++ b/python/sglang/srt/multimodal/processors/gemma3n.py
@@ -30,23 +30,23 @@ class Gemma3nSGLangProcessor(SGLangBaseProcessor):
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
 
-        self.IMAGE_TOKEN = "<image_soft_token>"
-        self.IMAGE_TOKEN_REGEX = re.compile(
-            r"<start_of_image>(?:(?:<image_soft_token>)*<end_of_image>)?"
-        )
-
-        self.AUDIO_TOKEN = "<audio_soft_token>"
-        self.AUDIO_TOKEN_REGEX = re.compile(
-            r"<start_of_audio>(?:(?:<audio_soft_token>)*<end_of_audio>)?"
-        )
-
-        self.IM_TOKEN_ID = hf_config.image_token_id
         self.IM_START_TOKEN_ID = hf_config.boi_token_id
         self.IM_END_TOKEN_ID = hf_config.eoi_token_id
 
-        self.AUDIO_TOKEN_ID = hf_config.audio_token_id
         self.AUDIO_START_TOKEN_ID = hf_config.boa_token_id
         self.AUDIO_END_TOKEN_ID = hf_config.eoa_token_id
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="<image_soft_token>",
+            image_token_id=hf_config.image_token_id,
+            image_token_regex=re.compile(
+                r"<start_of_image>(?:(?:<image_soft_token>)*<end_of_image>)?"
+            ),
+            audio_token="<audio_soft_token>",
+            audio_token_id=hf_config.audio_token_id,
+            audio_token_regex=re.compile(
+                r"<start_of_audio>(?:(?:<audio_soft_token>)*<end_of_audio>)?"
+            ),
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -64,19 +64,17 @@ async def process_mm_data_async(
             image_data=image_data,
             audio_data=audio_data,
             max_req_input_len=max_req_input_len,
-            multimodal_tokens=MultimodalSpecialTokens(
-                image_token=self.IMAGE_TOKEN,
-                image_token_regex=self.IMAGE_TOKEN_REGEX,
-                audio_token=self.AUDIO_TOKEN,
-                audio_token_regex=self.AUDIO_TOKEN_REGEX,
-            ),
+            multimodal_tokens=self.mm_tokens,
         )
 
-        mm_items, input_ids, _ = self.process_and_combine_mm_data(base_output)
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
 
         return {
             "input_ids": input_ids.tolist(),
             "mm_items": mm_items,
-            "im_token_id": self.IM_TOKEN_ID,
-            "audio_token_id": self.AUDIO_TOKEN_ID,
+            # TODO(mick): could we return MultimodalSpecialTokens directly?
+            "im_token_id": self.mm_tokens.image_token_id,
+            "audio_token_id": self.mm_tokens.audio_token_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index f9ed9ba76d86..d3413c457dde 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -24,7 +24,6 @@ def __init__(self, hf_config, server_args, _image_processor):
         self.IMG_CONTEXT_TOKEN = "<IMG_CONTEXT>"
         self.IMG_START_TOKEN = "<img>"
         self.IMG_END_TOKEN = "</img>"
-        self.IMG_TOKEN = "<image>"
         self.num_image_token = int(
             (image_size // patch_size) ** 2 * (hf_config.downsample_ratio**2)
         )
@@ -32,9 +31,10 @@ def __init__(self, hf_config, server_args, _image_processor):
         tokenizer = self._processor
         self.img_start_token_id = tokenizer.convert_tokens_to_ids(self.IMG_START_TOKEN)
         self.img_end_token_id = tokenizer.convert_tokens_to_ids(self.IMG_END_TOKEN)
-        self.img_context_token_id = tokenizer.convert_tokens_to_ids(
-            self.IMG_CONTEXT_TOKEN
-        )
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="<image>",
+            image_token_id=tokenizer.convert_tokens_to_ids(self.IMG_CONTEXT_TOKEN),
+        ).build(_image_processor)
 
     @staticmethod
     def build_transform(input_size):
@@ -175,7 +175,7 @@ async def process_mm_data_async(
         base_output = self.load_mm_data(
             prompt=input_text,
             image_data=image_data,
-            multimodal_tokens=MultimodalSpecialTokens(image_token=self.IMG_TOKEN),
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
             discard_alpha_channel=True,
         )
@@ -219,7 +219,7 @@ def process_image_internvl(image, input_size=448, max_num=12):
         input_ids = tokenizer(input_text, return_tensors="pt")["input_ids"].flatten()
         image_offsets = self.get_mm_items_offset(
             input_ids=input_ids,
-            mm_token_id=self.img_context_token_id,
+            mm_token_id=self.mm_tokens.image_token_id,
         )
         items = [
             MultimodalDataItem(
@@ -234,5 +234,5 @@ def process_image_internvl(image, input_size=448, max_num=12):
             "mm_items": items,
             "im_start_id": self.img_start_token_id,
             "im_end_id": self.img_end_token_id,
-            "im_token_id": self.img_context_token_id,
+            "im_token_id": self.mm_tokens.image_token_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/janus_pro.py b/python/sglang/srt/multimodal/processors/janus_pro.py
index 8ea013d29aae..28be34c57b01 100644
--- a/python/sglang/srt/multimodal/processors/janus_pro.py
+++ b/python/sglang/srt/multimodal/processors/janus_pro.py
@@ -11,8 +11,12 @@
 class JanusProImageProcessor(BaseMultimodalProcessor):
     models = [MultiModalityCausalLM]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, processor):
+        super().__init__(hf_config, server_args, processor)
+
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token=processor.image_token
+        ).build(processor)
 
     async def process_mm_data_async(
         self,
@@ -27,9 +31,7 @@ async def process_mm_data_async(
         base_out = self.load_mm_data(
             prompt=input_text,
             image_data=image_data,
-            multimodal_tokens=MultimodalSpecialTokens(
-                image_token=processor.image_token
-            ),
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
         )
 
diff --git a/python/sglang/srt/multimodal/processors/kimi_vl.py b/python/sglang/srt/multimodal/processors/kimi_vl.py
index b593da48f27a..ef533c16d579 100644
--- a/python/sglang/srt/multimodal/processors/kimi_vl.py
+++ b/python/sglang/srt/multimodal/processors/kimi_vl.py
@@ -1,9 +1,6 @@
 import re
-from typing import Any, Dict, List, Optional, Union
+from typing import Dict, List, Union
 
-import torch
-
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.kimi_vl import KimiVLForConditionalGeneration
 from sglang.srt.multimodal.processors.base_processor import (
     BaseMultimodalProcessor as SGLangBaseProcessor,
@@ -17,9 +14,12 @@ class KimiVLImageProcessor(SGLangBaseProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        self.IMAGE_TOKEN = "<|media_pad|>"
-        self.IMAGE_TOKEN_REGEX = re.compile(r"(?:<\|media_pad\|>)+")
-        self.IM_TOKEN_ID = _processor.tokenizer.convert_tokens_to_ids(self.IMAGE_TOKEN)
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="<|media_pad|>",
+            # TODO: could we convert in MultimodalSpecialTokens?
+            image_token_id=hf_config.media_placeholder_token_id,
+            image_token_regex=re.compile(r"(?:<\|media_pad\|>)+"),
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -33,16 +33,16 @@ async def process_mm_data_async(
         base_output = self.load_mm_data(
             prompt=input_text,
             image_data=image_data,
-            multimodal_tokens=MultimodalSpecialTokens(
-                image_token=self.IMAGE_TOKEN, image_token_regex=self.IMAGE_TOKEN_REGEX
-            ),
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
         )
 
-        mm_items, input_ids, _ = self.process_and_combine_mm_data(base_output)
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
 
         return {
             "input_ids": input_ids.tolist(),
             "mm_items": mm_items,
-            "im_token_id": self.IM_TOKEN_ID,
+            "im_token_id": self.mm_tokens.image_token_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/minicpm.py b/python/sglang/srt/multimodal/processors/minicpm.py
index 369971ccbe53..3ba547b380e0 100644
--- a/python/sglang/srt/multimodal/processors/minicpm.py
+++ b/python/sglang/srt/multimodal/processors/minicpm.py
@@ -17,9 +17,11 @@ class MiniCPMMultimodalProcessor(BaseMultimodalProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        self.image_token = "(<image>./</image>)"
-        self.audio_token = "(<audio>./</audio>)"
-        self.video_token = "(<video>./</video>)"
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="(<image>./</image>)",
+            audio_token="(<audio>./</audio>)",
+            video_token="(<video>./</video>)",
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -35,11 +37,7 @@ async def process_mm_data_async(
             max_req_input_len=max_req_input_len,
             audio_data=audio_data,
             image_data=image_data,
-            multimodal_tokens=MultimodalSpecialTokens(
-                image_token=self.image_token,
-                video_token=self.video_token,
-                audio_token=self.audio_token,
-            ),
+            multimodal_tokens=self.mm_tokens,
         )
         if base_output is None:
             return None
diff --git a/python/sglang/srt/multimodal/processors/mllama4.py b/python/sglang/srt/multimodal/processors/mllama4.py
index ccf70adc8766..566eb3230c17 100644
--- a/python/sglang/srt/multimodal/processors/mllama4.py
+++ b/python/sglang/srt/multimodal/processors/mllama4.py
@@ -26,8 +26,8 @@ def __init__(self, hf_config, server_args, _processor):
         self.eoi_token_index = hf_config.eoi_token_index
         self.image_token_index = hf_config.image_token_index
         self.multimodal_tokens = MultimodalSpecialTokens(
-            image_token=_processor.image_token
-        )
+            image_token=_processor.image_token,
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
diff --git a/python/sglang/srt/multimodal/processors/phi4mm.py b/python/sglang/srt/multimodal/processors/phi4mm.py
index d2e009d27f3e..aea06506d078 100644
--- a/python/sglang/srt/multimodal/processors/phi4mm.py
+++ b/python/sglang/srt/multimodal/processors/phi4mm.py
@@ -21,7 +21,7 @@ def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
         self.multimodal_tokens = MultimodalSpecialTokens(
             image_token=_IMAGE_SPECIAL_TOKEN,
-        )
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
diff --git a/python/sglang/srt/multimodal/processors/pixtral.py b/python/sglang/srt/multimodal/processors/pixtral.py
index 8b741d6279c0..b18dfa1b023e 100644
--- a/python/sglang/srt/multimodal/processors/pixtral.py
+++ b/python/sglang/srt/multimodal/processors/pixtral.py
@@ -55,7 +55,7 @@ def __init__(self, hf_config, server_args, _processor):
         self.patch_size = self.vision_config.patch_size
         self.multimodal_tokens = MultimodalSpecialTokens(
             image_token=_processor.image_token
-        )
+        ).build(_processor)
         _processor.tokenizer.add_special_tokens(
             {
                 "pad_token": getattr(hf_config, "pad_token", self.PAD_TOKEN),
diff --git a/python/sglang/srt/multimodal/processors/qwen_vl.py b/python/sglang/srt/multimodal/processors/qwen_vl.py
index 1ecb4e119ac3..bdfaf140624f 100644
--- a/python/sglang/srt/multimodal/processors/qwen_vl.py
+++ b/python/sglang/srt/multimodal/processors/qwen_vl.py
@@ -203,16 +203,9 @@ class Qwen2_5VLImageProcessor(SGLangBaseProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        # The single, pre-expanded image token.
-        self.IMAGE_TOKEN = "<|vision_start|><|image_pad|><|vision_end|>"
         # The regex that matches expanded image tokens.
-        self.IMAGE_TOKEN_REGEX = re.compile(
-            r"<\|vision_start\|>(?:<\|image_pad\|>)+<\|vision_end\|>"
-        )
         self.IM_START_TOKEN_ID = hf_config.vision_start_token_id
         self.IM_END_TOKEN_ID = hf_config.vision_end_token_id
-        self.IM_TOKEN_ID = hf_config.image_token_id
-        self.VIDEO_TOKEN_ID = hf_config.video_token_id
         self.vision_start_token_id = hf_config.vision_start_token_id
         self.vision_end_token_id = hf_config.vision_end_token_id
         self.NUM_TOKEN_PER_FRAME = 770
@@ -220,12 +213,14 @@ def __init__(self, hf_config, server_args, _processor):
         self.MIN_PIXELS = 4 * 28 * 28
         self.MAX_PIXELS = 16384 * 28 * 28
         self.MAX_RATIO = 200
-        # TODO(mick): move all MultimodalSpecialTokens initializations into processor init
-        self.mm_special_tokens = MultimodalSpecialTokens(
-            image_token=self.IMAGE_TOKEN,
-            image_token_regex=self.IMAGE_TOKEN_REGEX,
-            video_token=self.VIDEO_TOKEN_ID,
-        )
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="<|vision_start|><|image_pad|><|vision_end|>",
+            image_token_id=hf_config.image_token_id,
+            image_token_regex=re.compile(
+                r"<\|vision_start\|>(?:<\|image_pad\|>)+<\|vision_end\|>"
+            ),
+            video_token_id=hf_config.video_token_id,
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -241,7 +236,7 @@ async def process_mm_data_async(
             prompt=input_text,
             image_data=image_data,
             video_data=request_obj.video_data,
-            multimodal_tokens=self.mm_special_tokens,
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
         )
 
@@ -255,13 +250,15 @@ async def process_mm_data_async(
                 await preprocess_video(video) for video in base_output.videos
             ]
 
-        mm_items, input_ids, ret = self.process_and_combine_mm_data(base_output)
+        mm_items, input_ids, ret = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
 
         input_ids = input_ids.flatten()
         mrope_positions, mrope_position_delta = MRotaryEmbedding.get_rope_index(
             spatial_merge_size=self.hf_config.vision_config.spatial_merge_size,
-            image_token_id=self.IM_TOKEN_ID,
-            video_token_id=self.VIDEO_TOKEN_ID,
+            image_token_id=self.mm_tokens.image_token_id,
+            video_token_id=self.mm_tokens.video_token_id,
             vision_start_token_id=self.vision_start_token_id,
             model_type=self.hf_config.model_type,
             tokens_per_second=getattr(
@@ -279,8 +276,8 @@ async def process_mm_data_async(
             "mm_items": mm_items,
             "im_start_id": self.IM_START_TOKEN_ID,
             "im_end_id": self.IM_END_TOKEN_ID,
-            "im_token_id": self.IM_TOKEN_ID,
-            "video_token_id": self.VIDEO_TOKEN_ID,
+            "im_token_id": self.mm_tokens.image_token_id,
+            "video_token_id": self.mm_tokens.video_token_id,
             "mrope_positions": mrope_positions,
             "mrope_position_delta": mrope_position_delta,
         }
diff --git a/python/sglang/srt/multimodal/processors/vila.py b/python/sglang/srt/multimodal/processors/vila.py
index c4d676c6d09f..8e0f04acae89 100644
--- a/python/sglang/srt/multimodal/processors/vila.py
+++ b/python/sglang/srt/multimodal/processors/vila.py
@@ -1,4 +1,4 @@
-from typing import Any, Dict, List, Optional, Type, cast
+from typing import Any, Dict, List, Optional, Type
 
 import torch.nn as nn
 from transformers.configuration_utils import PretrainedConfig
@@ -10,7 +10,6 @@
     GenerateReqInput,
     ImageDataInputItem,
 )
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.vila import VILAForConditionalGeneration
 from sglang.srt.multimodal.processors.base_processor import (
     BaseMultimodalProcessor,
@@ -37,8 +36,11 @@ def __init__(
         _processor: VILAProcessor,
     ) -> None:
         super().__init__(hf_config, server_args, _processor)
-        self.IM_TOKEN_ID = hf_config.image_token_id
-        self.VIDEO_TOKEN_ID = hf_config.video_token_id
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token=self._processor.tokenizer.image_token,
+            image_token_id=hf_config.image_token_id,
+            video_token_id=hf_config.video_token_id,
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -50,18 +52,18 @@ async def process_mm_data_async(
     ) -> Optional[Dict[str, Any]]:
         base_output = self.load_mm_data(
             prompt=input_text,
-            multimodal_tokens=MultimodalSpecialTokens(
-                image_token=self._processor.tokenizer.image_token
-            ),
+            multimodal_tokens=self.mm_tokens,
             max_req_input_len=max_req_input_len,
             image_data=image_data,
         )
 
-        mm_items, input_ids, _ = self.process_and_combine_mm_data(base_output)
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
 
         return {
             "input_ids": input_ids.tolist(),
             "mm_items": mm_items,
-            "im_token_id": self.IM_TOKEN_ID,
-            "video_token_id": self.VIDEO_TOKEN_ID,
+            "im_token_id": self.mm_tokens.image_token_id,
+            "video_token_id": self.mm_tokens.video_token_id,
         }

From 6e92da8fca18c746a0aa15c7bd95b47b6827befa Mon Sep 17 00:00:00 2001
From: Qi Yuhang <45795032+HydraQYH@users.noreply.github.com>
Date: Fri, 18 Jul 2025 11:49:36 +0800
Subject: [PATCH 025/396] [Fix][Ready]Fix register spilling in cutlass nvfp4
 gemm kernel on Blackwell (#8127)

---
 .../csrc/gemm/nvfp4_scaled_mm_kernels.cu      | 52 ++++++++++---------
 1 file changed, 28 insertions(+), 24 deletions(-)

diff --git a/sgl-kernel/csrc/gemm/nvfp4_scaled_mm_kernels.cu b/sgl-kernel/csrc/gemm/nvfp4_scaled_mm_kernels.cu
index 4fc4972dc0e1..d1193ea4473a 100644
--- a/sgl-kernel/csrc/gemm/nvfp4_scaled_mm_kernels.cu
+++ b/sgl-kernel/csrc/gemm/nvfp4_scaled_mm_kernels.cu
@@ -40,27 +40,21 @@ using namespace cute;
 #if defined(CUTLASS_ARCH_MMA_SM100_SUPPORTED)
 // Kernel Perf config
 template <typename T>
-struct KernelTraits;
-
-template <>
-struct KernelTraits<float> {
-  using MmaTileShape = Shape<_128, _128, _256>;
-  using ClusterShape = Shape<_1, _1, _1>;
-  using PerSmTileShape_MNK = Shape<_128, _128, _256>;
-};
-
-template <>
-struct KernelTraits<cutlass::half_t> {
+struct KernelTraits {
   using MmaTileShape = Shape<_256, _256, _256>;
-  using ClusterShape = Shape<_4, _4, _1>;
-  using PerSmTileShape_MNK = Shape<_128, _256, _256>;
+  using ClusterShape = Shape<int, int, _1>;
+  using EpilogueTile = Shape<_128, _64>;
+  using EpilogueSchedule = cutlass::epilogue::TmaWarpSpecialized2Sm;
+  using MainloopSchedule = cutlass::gemm::KernelTmaWarpSpecialized2SmNvf4Sm100;
 };
 
 template <>
-struct KernelTraits<cutlass::bfloat16_t> {
-  using MmaTileShape = Shape<_256, _256, _256>;
-  using ClusterShape = Shape<_4, _4, _1>;
-  using PerSmTileShape_MNK = Shape<_128, _256, _256>;
+struct KernelTraits<float> {
+  using MmaTileShape = Shape<_128, _128, _256>;
+  using ClusterShape = Shape<int, int, _1>;
+  using EpilogueTile = cutlass::epilogue::collective::EpilogueTileAuto;
+  using EpilogueSchedule = cutlass::epilogue::TmaWarpSpecialized1Sm;
+  using MainloopSchedule = cutlass::gemm::KernelTmaWarpSpecialized1SmNvf4Sm100;
 };
 
 template <typename T>
@@ -90,23 +84,26 @@ struct Fp4GemmSm100 {
   // Kernel Perf config
   using MmaTileShape = typename KernelTraits<T>::MmaTileShape;
   using ClusterShape = typename KernelTraits<T>::ClusterShape;
-  using PerSmTileShape_MNK = typename KernelTraits<T>::PerSmTileShape_MNK;
+  using EpilogueTile = typename KernelTraits<T>::EpilogueTile;
+  using EpilogueSchedule = typename KernelTraits<T>::EpilogueSchedule;
+  using MainloopSchedule = typename KernelTraits<T>::MainloopSchedule;
 
   using CollectiveEpilogue = typename cutlass::epilogue::collective::CollectiveBuilder<
       ArchTag,
-      OperatorClass,
-      PerSmTileShape_MNK,
+      cutlass::arch::OpClassTensorOp,
+      MmaTileShape,
       ClusterShape,
-      cutlass::epilogue::collective::EpilogueTileAuto,
+      EpilogueTile,
       ElementAccumulator,
       ElementAccumulator,
-      ElementC,
+      void,
       LayoutCTag,
       AlignmentC,
       ElementD,
       LayoutDTag,
       AlignmentD,
-      cutlass::epilogue::collective::EpilogueScheduleAuto>::CollectiveOp;
+      EpilogueSchedule,
+      cutlass::epilogue::fusion::LinearCombination<ElementD, float, void, float>>::CollectiveOp;
 
   using CollectiveMainloop = typename cutlass::gemm::collective::CollectiveBuilder<
       ArchTag,
@@ -122,7 +119,7 @@ struct Fp4GemmSm100 {
       ClusterShape,
       cutlass::gemm::collective::StageCountAutoCarveout<static_cast<int>(
           sizeof(typename CollectiveEpilogue::SharedStorage))>,
-      cutlass::gemm::collective::KernelScheduleAuto>::CollectiveOp;
+      MainloopSchedule>::CollectiveOp;
 
   using GemmKernel =
       cutlass::gemm::kernel::GemmUniversal<Shape<int, int, int, int>, CollectiveMainloop, CollectiveEpilogue, void>;
@@ -191,6 +188,13 @@ typename T::Gemm::Arguments args_from_options(
        stride_D}};
   auto& fusion_args = arguments.epilogue.thread;
   fusion_args.alpha_ptr = static_cast<ElementCompute const*>(alpha.data_ptr());
+  if constexpr (std::is_same_v<T, float>) {
+    arguments.hw_info.cluster_shape = dim3(1, 4, 1);
+    arguments.hw_info.cluster_shape_fallback = dim3(1, 1, 1);
+  } else {
+    arguments.hw_info.cluster_shape = dim3(4, 4, 1);
+    arguments.hw_info.cluster_shape_fallback = dim3(2, 1, 1);
+  }
   return arguments;
 }
 

From 8a3235570403f203021b4d1730dcce04f652ff96 Mon Sep 17 00:00:00 2001
From: Minglei Zhu <mingleizhu1122@gmail.com>
Date: Thu, 17 Jul 2025 20:56:03 -0700
Subject: [PATCH 026/396] Feat: Support Granite 3.0 MoE in SGLang (#7959)

---
 docs/supported_models/generative_models.md |   2 +
 python/sglang/srt/models/granitemoe.py     | 379 +++++++++++++++++++++
 2 files changed, 381 insertions(+)
 create mode 100644 python/sglang/srt/models/granitemoe.py

diff --git a/docs/supported_models/generative_models.md b/docs/supported_models/generative_models.md
index f1a941cdc3bf..0096d6e0932d 100644
--- a/docs/supported_models/generative_models.md
+++ b/docs/supported_models/generative_models.md
@@ -45,3 +45,5 @@ in the GitHub search bar.
 | **SmolLM** (135M–1.7B)            | `HuggingFaceTB/SmolLM-1.7B`                      | Hugging Face’s ultra-small LLM series (135M–1.7B params) offering surprisingly strong results, enabling advanced AI on mobile/edge devices. |
 | **GLM-4** (Multilingual 9B)        | `ZhipuAI/glm-4-9b-chat`                          | Zhipu’s GLM-4 series (up to 9B parameters) – open multilingual models with support for 1M-token context and even a 5.6B multimodal variant (Phi-4V). |
 | **MiMo** (7B series)               | `XiaomiMiMo/MiMo-7B-RL`                         | Xiaomi's reasoning-optimized model series, leverages Multiple-Token Prediction for faster inference. |
+| **Granite 3.0, 3.1** (IBM)               | `ibm-granite/granite-3.1-8b-instruct`                          | IBM's open dense foundation models optimized for reasoning, code, and business AI use cases. Integrated with Red Hat and watsonx systems. |
+| **Granite 3.0 MoE** (IBM)               | `ibm-granite/granite-3.0-3b-a800m-instruct`                          | IBM’s Mixture-of-Experts models offering strong performance with cost-efficiency. MoE expert routing designed for enterprise deployment at scale. |
diff --git a/python/sglang/srt/models/granitemoe.py b/python/sglang/srt/models/granitemoe.py
new file mode 100644
index 000000000000..b4a9c17af56f
--- /dev/null
+++ b/python/sglang/srt/models/granitemoe.py
@@ -0,0 +1,379 @@
+"""Inference-only GraniteMoe model."""
+
+from typing import Iterable, Optional
+
+import torch
+from torch import nn
+from transformers import GraniteConfig
+
+from sglang.srt.distributed import get_tensor_model_parallel_world_size
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
+from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.pooler import Pooler, PoolingType
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.models import mixtral
+from sglang.srt.utils import add_prefix
+
+
+class GraniteMoeMoE(nn.Module):
+    """A tensor-parallel MoE implementation for GraniteMoe that shards each
+    expert across all ranks.
+    Each expert's weights are sharded across all ranks and a fused MoE
+    kernel is used for the forward pass, and finally we reduce the outputs
+    across ranks.
+    """
+
+    def __init__(
+        self,
+        num_experts: int,
+        top_k: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: Optional[torch.dtype] = None,
+        quant_config: Optional[QuantizationConfig] = None,
+        tp_size: Optional[int] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            params_dtype=params_dtype,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=top_k,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            params_dtype=params_dtype,
+            reduce_results=True,
+            renormalize=True,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            prefix=f"{prefix}.experts",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # NOTE: hidden_states can have either 1D or 2D shape.
+        orig_shape = hidden_states.shape
+        hidden_states = hidden_states.view(-1, self.hidden_size)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = self.experts(hidden_states, router_logits)
+        return final_hidden_states.view(orig_shape)
+
+
+class GraniteMoeAttention(nn.Module):
+
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        layer_id: int = 0,
+        rope_theta: float = 10000,
+        quant_config: Optional[QuantizationConfig] = None,
+        attention_multiplier: Optional[float] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = (
+            attention_multiplier
+            if attention_multiplier is not None
+            else self.head_dim**-1
+        )
+        self.rope_theta = rope_theta
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=int(self.rope_theta),
+            is_neox_style=True,
+        )
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v, forward_batch)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class GraniteMoeDecoderLayer(nn.Module):
+
+    def __init__(
+        self,
+        config: GraniteConfig,
+        layer_id: int = 0,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        self.self_attn = GraniteMoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attention_multiplier=config.attention_multiplier,
+        )
+        self.block_sparse_moe = GraniteMoeMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.block_sparse_moe",
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.residual_multiplier = config.residual_multiplier
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        # Self Attention
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+            forward_batch=forward_batch,
+        )
+        hidden_states = residual + hidden_states * self.residual_multiplier
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.block_sparse_moe(hidden_states)
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states
+
+
+class GraniteMoeModel(nn.Module):
+
+    def __init__(
+        self,
+        config: GraniteConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            org_num_embeddings=config.vocab_size,
+        )
+        self.embedding_multiplier = config.embedding_multiplier
+
+        self.layers = nn.ModuleList(
+            [
+                GraniteMoeDecoderLayer(
+                    config,
+                    i,
+                    quant_config=quant_config,
+                    prefix=add_prefix(f"layers.{i}", prefix),
+                )
+                for i in range(config.num_hidden_layers)
+            ]
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        else:
+            hidden_states = self.get_input_embeddings(input_ids)
+        hidden_states *= self.embedding_multiplier
+
+        for i in range(len(self.layers)):
+            layer = self.layers[i]
+            hidden_states = layer(
+                positions,
+                hidden_states,
+                forward_batch,
+            )
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+
+class GraniteMoeForCausalLM(nn.Module):
+
+    def __init__(
+        self,
+        config: GraniteConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.quant_config = quant_config
+
+        self.model = GraniteMoeModel(
+            config, quant_config=quant_config, prefix=add_prefix("model", prefix)
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=add_prefix("lm_head", prefix),
+        )
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        # Granite logit scaling factors are applied via division, but
+        # LogitsProcessor expects a multiplicative factor.
+        if hasattr(config, "logits_scaling"):
+            logit_scale = 1.0 / config.logits_scaling
+        else:
+            logit_scale = None
+        self.logits_processor = LogitsProcessor(config, logit_scale=logit_scale)
+        self.pooler = Pooler(pooling_type=PoolingType.LAST, normalize=True)
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+        get_embedding: bool = False,
+    ) -> LogitsProcessorOutput:
+        hidden_states = self.model(input_ids, positions, forward_batch, input_embeds)
+        if not get_embedding:
+            logits_processor_output: LogitsProcessorOutput = self.logits_processor(
+                input_ids, hidden_states, self.lm_head, forward_batch
+            )
+            return logits_processor_output
+        else:
+            return self.pooler(hidden_states, forward_batch)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        new_weights = {}
+        for n, p in weights:
+            if n.endswith(".block_sparse_moe.input_linear.weight"):
+                for e in range(p.size(0)):
+                    w1_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w1.weight",
+                    )
+                    w3_name = n.replace(
+                        ".block_sparse_moe.input_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w3.weight",
+                    )
+                    w1_param, w3_param = p[e].chunk(2, dim=0)
+                    assert w1_name not in new_weights
+                    assert w3_name not in new_weights
+                    new_weights[w1_name] = w1_param
+                    new_weights[w3_name] = w3_param
+            elif n.endswith(".block_sparse_moe.output_linear.weight"):
+                for e in range(p.size(0)):
+                    w2_name = n.replace(
+                        ".block_sparse_moe.output_linear.weight",
+                        f".block_sparse_moe.experts.{e}.w2.weight",
+                    )
+                    w2_param = p[e]
+                    assert w2_name not in new_weights
+                    new_weights[w2_name] = w2_param
+            elif n.endswith(".block_sparse_moe.router.layer.weight"):
+                gate_name = n.replace(
+                    ".block_sparse_moe.router.layer.weight",
+                    ".block_sparse_moe.gate.weight",
+                )
+                assert gate_name not in new_weights
+                new_weights[gate_name] = p
+            else:
+                new_weights[n] = p
+        mixtral.MixtralForCausalLM.load_weights(self, new_weights.items())
+
+
+EntryClass = [GraniteMoeForCausalLM]

From 8aa5ae6b042f09d9beb2b0e814ea9c2311b6c2b6 Mon Sep 17 00:00:00 2001
From: yilian49 <43861414+yilian49@users.noreply.github.com>
Date: Fri, 18 Jul 2025 00:41:32 -0400
Subject: [PATCH 027/396] load draft model fix (#7506)

---
 python/sglang/srt/model_loader/loader.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/model_loader/loader.py b/python/sglang/srt/model_loader/loader.py
index 733e6df9e4de..2e2f71078382 100644
--- a/python/sglang/srt/model_loader/loader.py
+++ b/python/sglang/srt/model_loader/loader.py
@@ -575,7 +575,13 @@ def load_model(
             # 2. Post-processing of weights, including assigning specific member variables.
             # For `dummy_init`, only the second stage is required.
             if hasattr(model, "post_load_weights"):
-                model.post_load_weights()
+                if (
+                    model_config.hf_config.architectures[0]
+                    == "DeepseekV3ForCausalLMNextN"
+                ):
+                    model.post_load_weights(is_nextn=True)
+                else:
+                    model.post_load_weights()
 
         return model.eval()
 

From 48c1fa7bb6950b81788a84da32c3c42bc7c77e67 Mon Sep 17 00:00:00 2001
From: jianan-gu <jianan.gu@intel.com>
Date: Fri, 18 Jul 2025 12:43:25 +0800
Subject: [PATCH 028/396] [CPU][Llama4] Fix Llama4 MoE inputs with
 "apply_router_weight_on_input"  (#7889)

---
 python/sglang/srt/configs/update_config.py         |  4 +++-
 python/sglang/srt/layers/moe/topk.py               | 13 +++++++++++++
 python/sglang/srt/layers/quantization/fp8.py       |  6 ++++++
 python/sglang/srt/layers/quantization/unquant.py   | 11 ++++++++---
 python/sglang/srt/layers/quantization/w8a8_int8.py |  5 +++++
 5 files changed, 35 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/configs/update_config.py b/python/sglang/srt/configs/update_config.py
index f9e6d15a85f1..241d9566ab5e 100644
--- a/python/sglang/srt/configs/update_config.py
+++ b/python/sglang/srt/configs/update_config.py
@@ -115,5 +115,7 @@ def adjust_config_with_unaligned_cpu_tp(
     model_config = update_intermediate_size(
         model_config, "intermediate_size", intermediate_padding_size
     )
-
+    model_config = update_intermediate_size(
+        model_config, "intermediate_size_mlp", intermediate_padding_size
+    )
     return model_config
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index 1c8d219e4ec0..40fc0b61f650 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -93,6 +93,19 @@ def fused_topk_cpu(
     return topk_weights, topk_ids
 
 
+def apply_topk_weights_cpu(need_apply, topk_weights, inputs):
+    if not need_apply:
+        return inputs, topk_weights
+
+    # TODO: fuse below processing in fused_experts_cpu kernel
+    inputs = inputs * topk_weights.to(inputs.dtype)
+    topk_weights = torch.ones_like(
+        topk_weights, dtype=torch.float32
+    )  # clear topk_weights as already applied
+
+    return inputs, topk_weights
+
+
 def fused_topk(
     hidden_states: torch.Tensor,
     gating_output: torch.Tensor,
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 38588c809039..7275ea430132 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -1005,6 +1005,12 @@ def apply(
         )
 
         if use_intel_amx_backend(layer):
+            from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
+
+            x, topk_weights = apply_topk_weights_cpu(
+                apply_router_weight_on_input, topk_weights, x
+            )
+
             return torch.ops.sgl_kernel.fused_experts_cpu(
                 x,
                 layer.w13_weight,
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index 28d006255d8e..821b1cb8509b 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -344,9 +344,12 @@ def forward_cpu(
     ) -> torch.Tensor:
         assert activation == "silu", f"activation = {activation} is not supported."
 
-        if use_intel_amx_backend(layer) and not apply_router_weight_on_input:
+        if use_intel_amx_backend(layer):
 
-            from sglang.srt.layers.moe.topk import select_experts
+            from sglang.srt.layers.moe.topk import (
+                select_experts,
+                apply_topk_weights_cpu,
+            )
 
             topk_weights, topk_ids = select_experts(
                 hidden_states=x,
@@ -361,8 +364,10 @@ def forward_cpu(
                 correction_bias=correction_bias,
                 routed_scaling_factor=routed_scaling_factor,
             )
+            x, topk_weights = apply_topk_weights_cpu(
+                apply_router_weight_on_input, topk_weights, x
+            )
 
-            # TODO: support apply_router_weight_on_input in the fused_experts_cpu kernel
             return torch.ops.sgl_kernel.fused_experts_cpu(
                 x,
                 layer.w13_weight,
diff --git a/python/sglang/srt/layers/quantization/w8a8_int8.py b/python/sglang/srt/layers/quantization/w8a8_int8.py
index c8a024bf33ed..56ac26c57823 100644
--- a/python/sglang/srt/layers/quantization/w8a8_int8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_int8.py
@@ -497,6 +497,11 @@ def apply(
         )
 
         if use_intel_amx_backend(layer):
+            from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
+
+            x, topk_weights = apply_topk_weights_cpu(
+                apply_router_weight_on_input, topk_weights, x
+            )
             return torch.ops.sgl_kernel.fused_experts_cpu(
                 x,
                 layer.w13_weight,

From 7891bac16b0a905aacfbbe49709d740916555ae0 Mon Sep 17 00:00:00 2001
From: jianan-gu <jianan.gu@intel.com>
Date: Fri, 18 Jul 2025 13:03:56 +0800
Subject: [PATCH 029/396] [Quantization][w8a8_int8] Fix weight loading issue
 for w8a8_int8 path with "ignore" layer list in quantization config (#7820)

---
 .../sglang/srt/layers/quantization/unquant.py |  2 +-
 .../srt/layers/quantization/w8a8_int8.py      | 36 +++++++++++--------
 2 files changed, 22 insertions(+), 16 deletions(-)

diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index 821b1cb8509b..06afcb70be91 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -347,8 +347,8 @@ def forward_cpu(
         if use_intel_amx_backend(layer):
 
             from sglang.srt.layers.moe.topk import (
-                select_experts,
                 apply_topk_weights_cpu,
+                select_experts,
             )
 
             topk_weights, topk_ids = select_experts(
diff --git a/python/sglang/srt/layers/quantization/w8a8_int8.py b/python/sglang/srt/layers/quantization/w8a8_int8.py
index 56ac26c57823..c9af7ae29cc7 100644
--- a/python/sglang/srt/layers/quantization/w8a8_int8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_int8.py
@@ -3,7 +3,7 @@
 import importlib
 import sys
 from types import MappingProxyType
-from typing import Any, Callable, Dict, List, Mapping, Optional, Tuple, Union
+from typing import Any, Callable, Dict, List, Mapping, Optional, Tuple, Union, cast
 
 import torch
 from torch.nn.parameter import Parameter
@@ -24,6 +24,7 @@
     QuantizationConfig,
     QuantizeMethodBase,
 )
+from sglang.srt.layers.quantization.compressed_tensors.utils import should_ignore_layer
 from sglang.srt.layers.quantization.int8_kernel import per_token_quant_int8
 from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.utils import (
@@ -178,17 +179,18 @@ class W8A8Int8Config(QuantizationConfig):
     - Activation: dynamic, per-token, symmetric
     """
 
-    def __init__(self, quant_config: Dict[str, Any]):
+    def __init__(self, quant_config: Dict[str, Any] = {}):
         super().__init__()
         self.quant_description = quant_config
         self.is_dynamic = quant_config.get("is_dynamic", False)
-        if _is_npu:
-            if (
-                "packed_modules_mapping" in quant_config
-                and quant_config["packed_modules_mapping"] is not None
-            ):
-                self.packed_modules_mapping = quant_config["packed_modules_mapping"]
+        ignore = cast(List[str], quant_config.get("ignore", []))
+        self.ignore = ignore if ignore is not None else []
+        packed_modules_mapping = quant_config.get("packed_modules_mapping", {})
+        self.packed_modules_mapping = (
+            packed_modules_mapping if packed_modules_mapping is not None else {}
+        )
 
+        if _is_npu:
             # Ascend w8a8_int8 quantization with bias, use wrappers to isolate the effects between models
             for name in self.quant_description.keys():
                 if "norm.bias" in name:
@@ -237,7 +239,7 @@ def get_quant_method(
         layer: torch.nn.Module,
         prefix: str,
     ) -> Optional[QuantizeMethodBase]:
-        from sglang.srt.layers.linear import LinearBase
+        from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if _is_npu:
@@ -262,12 +264,16 @@ def get_quant_method(
             elif isinstance(layer, FusedMoE):
                 return NPU_W8A8MoEMethod(self)
             return None
-        else:
-            if isinstance(layer, LinearBase):
-                return W8A8Int8LinearMethod(self)
-            elif isinstance(layer, FusedMoE):
-                return W8A8Int8MoEMethod(self)
-            return None
+
+        if should_ignore_layer(
+            prefix, ignore=self.ignore, fused_mapping=self.packed_modules_mapping
+        ):
+            return UnquantizedLinearMethod()
+        if isinstance(layer, LinearBase):
+            return W8A8Int8LinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            return W8A8Int8MoEMethod(self)
+        return None
 
     def is_layer_skipped(
         self, prefix: str, fused_mapping: Mapping[str, List[str]] = MappingProxyType({})

From 9d33fcfb8e93c4a01fb39c6609c71f7104cb3371 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Fri, 18 Jul 2025 00:20:19 -0700
Subject: [PATCH 030/396] Hicache Storage Layer Prototype (#7704)

---
 .../sglang/srt/managers/cache_controller.py   | 241 ++++++++++++++++++
 python/sglang/srt/managers/scheduler.py       |  14 +
 .../sglang/srt/mem_cache/hicache_storage.py   | 152 +++++++++++
 python/sglang/srt/mem_cache/hiradix_cache.py  | 183 ++++++++++++-
 .../sglang/srt/mem_cache/memory_pool_host.py  |  38 +++
 python/sglang/srt/mem_cache/radix_cache.py    |  26 ++
 python/sglang/srt/server_args.py              |   8 +
 test/srt/run_suite.py                         |   1 +
 test/srt/test_hicache_storage.py              |  55 ++++
 9 files changed, 714 insertions(+), 4 deletions(-)
 create mode 100644 python/sglang/srt/mem_cache/hicache_storage.py
 create mode 100644 test/srt/test_hicache_storage.py

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index cad1d74b71de..5f43a5e9a033 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -25,6 +25,8 @@
     from sglang.srt.mem_cache.allocator import BaseTokenToKVPoolAllocator
     from sglang.srt.mem_cache.memory_pool_host import HostKVCache
 
+from sglang.srt.mem_cache.hicache_storage import HiCacheFile, get_hash_str
+
 logger = logging.getLogger(__name__)
 
 
@@ -159,6 +161,57 @@ def clear(self):
         self.buffers.queue.clear()
 
 
+class StorageOperation:
+    counter = 0
+
+    def __init__(
+        self,
+        host_indices: torch.Tensor,
+        token_ids: List[int],
+        last_hash: Optional[str] = None,
+    ):
+        self.host_indices = host_indices
+        self.token_ids = token_ids
+        self.last_hash = last_hash
+        self.completed_tokens = 0
+        self.hash_value = []
+
+        self.id = StorageOperation.counter
+        StorageOperation.counter += 1
+
+    def __lt__(self, other: "StorageOperation"):
+        return self.id < other.id
+
+
+class PrefetchOperation(StorageOperation):
+    def __init__(
+        self,
+        request_id: str,
+        host_indices: torch.Tensor,
+        token_ids: List[int],
+        last_hash: Optional[str] = None,
+    ):
+        self.request_id = request_id
+
+        self._done_flag = False
+        self._lock = threading.Lock()
+
+        super().__init__(host_indices, token_ids, last_hash)
+
+    def increment(self, num_tokens: int):
+        with self._lock:
+            if self._done_flag:
+                return
+            self.completed_tokens += num_tokens
+
+    def mark_done(self):
+        with self._lock:
+            self._done_flag = True
+
+    def is_done(self) -> bool:
+        return self._done_flag
+
+
 class HiCacheController:
 
     def __init__(
@@ -169,6 +222,8 @@ def __init__(
         load_cache_event: threading.Event = None,
         write_policy: str = "write_through_selective",
         io_backend: str = "",
+        storage_backend: Optional[str] = None,
+        prefetch_threshold: int = 256,
     ):
         self.mem_pool_device_allocator = token_to_kv_pool_allocator
         self.mem_pool_device = token_to_kv_pool_allocator.get_kvcache()
@@ -186,6 +241,19 @@ def __init__(
         else:
             self.io_backend = io_backend
 
+        self.enable_storage = False
+        # todo: move backend initialization to storage backend module
+        if storage_backend is not None:
+            if storage_backend == "file":
+                self.storage_backend = HiCacheFile()
+                self.enable_storage = True
+                # todo: threshold policy for prefetching
+                self.prefetch_threshold = prefetch_threshold
+            else:
+                raise NotImplementedError(
+                    f"Unsupported storage backend: {storage_backend}"
+                )
+
         self.load_cache_event = load_cache_event
         self.layer_done_counter = LayerDoneCounter(self.mem_pool_device.layer_num)
         self.mem_pool_device.register_layer_transfer_counter(self.layer_done_counter)
@@ -218,9 +286,26 @@ def __init__(
         self.load_thread = threading.Thread(
             target=self.load_thread_func_layer_by_layer, daemon=True
         )
+
         self.write_thread.start()
         self.load_thread.start()
 
+        if self.enable_storage:
+            self.prefetch_thread = threading.Thread(
+                target=self.prefetch_thread_func, daemon=True
+            )
+            self.backup_thread = threading.Thread(
+                target=self.backup_thread_func, daemon=True
+            )
+            self.prefetch_queue = Queue()
+            self.backup_queue = Queue()
+
+            self.prefetch_revoke_queue = Queue()
+            self.ack_backup_queue = Queue()
+
+            self.prefetch_thread.start()
+            self.backup_thread.start()
+
     def reset(self):
         self.stop_event.set()
         self.write_thread.join()
@@ -232,6 +317,13 @@ def reset(self):
         self.load_buffer.clear()
         self.ack_write_queue.queue.clear()
         self.ack_load_queue.queue.clear()
+        if self.enable_storage:
+            self.prefetch_thread.join()
+            self.backup_thread.join()
+            self.prefetch_queue.queue.clear()
+            self.backup_queue.queue.clear()
+            self.prefetch_revoke_queue.queue.clear()
+            self.ack_backup_queue.queue.clear()
 
         self.write_thread = threading.Thread(
             target=self.write_thread_func_direct, daemon=True
@@ -243,6 +335,16 @@ def reset(self):
         self.write_thread.start()
         self.load_thread.start()
 
+        if self.enable_storage:
+            self.prefetch_thread = threading.Thread(
+                target=self.prefetch_thread_func, daemon=True
+            )
+            self.backup_thread = threading.Thread(
+                target=self.backup_thread_func, daemon=True
+            )
+            self.prefetch_thread.start()
+            self.backup_thread.start()
+
     def write(
         self,
         device_indices: torch.Tensor,
@@ -383,3 +485,142 @@ def evict_host(self, host_indices: torch.Tensor, backup_only: bool = True) -> in
             raise ValueError(
                 f"Inconsistent states: {self.mem_pool_host.get_state(host_indices)}"
             )
+
+    def prefetch(
+        self,
+        request_id: str,
+        host_indices: torch.Tensor,
+        new_input_tokens: List[int],
+        last_hash: Optional[str] = None,
+    ) -> int:
+        """
+        Prefetch KV caches from storage backend to host memory.
+        """
+        operation = PrefetchOperation(
+            request_id, host_indices, new_input_tokens, last_hash
+        )
+        self.prefetch_queue.put(operation)
+        return operation
+
+    def terminate_prefetch(self, operation):
+        operation.mark_done()
+        return operation.completed_tokens, operation.hash_value
+
+    def prefetch_io_aux_func(self):
+        """
+        Auxiliary function conducting IO operations for prefetching.
+        """
+        while not self.stop_event.is_set():
+            try:
+                operation = self.prefetch_buffer.get(block=True, timeout=1)
+                for h in operation.hash_value:
+                    page_data = self.storage_backend.get(h)
+                    if page_data is None:
+                        logger.warning(
+                            f"Prefetch operation {operation.request_id} failed to retrieve page {h}."
+                        )
+                        break
+                    self.mem_pool_host.set_from_flat_data_page(
+                        operation.host_indices[operation.completed_tokens],
+                        page_data,
+                    )
+                    operation.increment(self.page_size)
+                    if operation.is_done():
+                        # operation terminated by controller, release pre-allocated memory
+                        self.mem_pool_host.free(
+                            operation.host_indices[operation.completed_tokens :]
+                        )
+                        break
+            except Empty:
+                continue
+
+    def prefetch_thread_func(self):
+        """
+        Manage prefetching operations from storage backend to host memory.
+        """
+        self.prefetch_buffer = Queue()
+        aux_thread = threading.Thread(target=self.prefetch_io_aux_func, daemon=True)
+        aux_thread.start()
+        while (not self.stop_event.is_set()) or not self.prefetch_queue.empty():
+            try:
+                operation = self.prefetch_queue.get(block=True, timeout=1)
+                if operation is None:
+                    continue
+
+                last_hash = operation.last_hash
+                tokens_to_fetch = operation.token_ids
+
+                storage_hit_count = 0
+                remaining_tokens = len(tokens_to_fetch)
+                hash_value = []
+                while remaining_tokens >= self.page_size:
+                    last_hash = get_hash_str(
+                        tokens_to_fetch[
+                            storage_hit_count : storage_hit_count + self.page_size
+                        ],
+                        last_hash,
+                    )
+                    if self.storage_backend.exists(last_hash):
+                        storage_hit_count += self.page_size
+                        hash_value.append(last_hash)
+                        remaining_tokens -= self.page_size
+                    else:
+                        break
+
+                if storage_hit_count < self.prefetch_threshold:
+                    # not to prefetch if not enough benefits
+                    self.prefetch_revoke_queue.put(operation.request_id)
+                else:
+                    operation.hash_value = hash_value
+                    logger.debug(
+                        f"Prefetching {len(hash_value)} pages for request {operation.request_id}."
+                    )
+                    self.prefetch_buffer.put(operation)
+
+            except Empty:
+                continue
+
+    def write_storage(
+        self,
+        host_indices: torch.Tensor,
+        token_ids: List[int],
+        last_hash: Optional[str] = None,
+    ) -> int:
+        """
+        Write KV caches from host memory to storage backend.
+        """
+        operation = StorageOperation(host_indices, token_ids, last_hash)
+        self.backup_queue.put(operation)
+        return operation.id
+
+    def backup_thread_func(self):
+        """
+        Manage backup operations from host memory to storage backend.
+        """
+        while not self.stop_event.is_set():
+            try:
+                operation = self.backup_queue.get(block=True, timeout=1)
+                if operation is None:
+                    continue
+
+                last_hash = operation.last_hash
+                tokens_to_backup = operation.token_ids
+
+                for i in range(0, len(tokens_to_backup), self.page_size):
+                    last_hash = get_hash_str(
+                        tokens_to_backup[i : i + self.page_size], last_hash
+                    )
+                    # todo, handle failures in storage backend
+                    self.storage_backend.set(
+                        last_hash,
+                        self.mem_pool_host.get_flat_data_page(
+                            operation.host_indices[i]
+                        ),
+                    )
+                    operation.completed_tokens += self.page_size
+                    operation.hash_value.append(last_hash)
+
+                self.ack_backup_queue.put((operation.id, operation.hash_value))
+
+            except Empty:
+                continue
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 874ed60f0fd2..c79e296f60f9 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -262,6 +262,7 @@ def __init__(
         )
         self.gpu_id = gpu_id
         self.enable_hierarchical_cache = server_args.enable_hierarchical_cache
+        self.enable_hicache_storage = server_args.hicache_storage_backend is not None
         self.page_size = server_args.page_size
         self.dp_size = server_args.dp_size
         self.attn_tp_rank, self.attn_tp_size, self.attn_dp_rank = (
@@ -614,6 +615,7 @@ def init_memory_pool_and_cache(self):
                         == "fa3"  # hot fix for incompatibility
                         else server_args.hicache_io_backend
                     ),
+                    hicache_storage_backend=server_args.hicache_storage_backend,
                 )
                 self.tp_worker.register_hicache_layer_transfer_counter(
                     self.tree_cache.cache_controller.layer_done_counter
@@ -1258,6 +1260,15 @@ def _add_request_to_queue(self, req: Req):
         elif self.disaggregation_mode == DisaggregationMode.DECODE:
             self.disagg_decode_prealloc_queue.add(req)
         else:
+            if self.enable_hicache_storage:
+                req.init_next_round_input(self.tree_cache)
+                last_hash = req.last_host_node.get_last_hash_value()
+                matched_len = len(req.prefix_indices) + req.host_hit_length
+                if (matched_len > 0 and last_hash is not None) or matched_len == 0:
+                    new_input_tokens = req.fill_ids[matched_len:]
+                    self.tree_cache.prefetch_from_storage(
+                        req.rid, req.last_host_node, new_input_tokens, last_hash
+                    )
             self.waiting_queue.append(req)
 
     def _extend_requests_to_queue(self, reqs: List[Req], is_retracted: bool = False):
@@ -1731,6 +1742,9 @@ def get_new_batch_prefill(self) -> Optional[ScheduleBatch]:
                     self.running_batch.batch_is_full = True
                     break
 
+            if self.enable_hicache_storage:
+                self.tree_cache.check_prefetch_progress(req.rid)
+
             req.init_next_round_input(self.tree_cache)
             res = adder.add_one_req(req, has_chunked_req=(self.chunked_req is not None))
 
diff --git a/python/sglang/srt/mem_cache/hicache_storage.py b/python/sglang/srt/mem_cache/hicache_storage.py
new file mode 100644
index 000000000000..1dfe661ab5c9
--- /dev/null
+++ b/python/sglang/srt/mem_cache/hicache_storage.py
@@ -0,0 +1,152 @@
+import hashlib
+import logging
+import os
+from abc import ABC, abstractmethod
+from typing import List, Optional
+
+import torch
+
+logger = logging.getLogger(__name__)
+
+
+def get_hash_str(token_ids: List[int], prior_hash: Optional[str] = None) -> str:
+    hasher = hashlib.sha256()
+
+    if prior_hash:
+        hasher.update(bytes.fromhex(prior_hash))
+
+    for t in token_ids:
+        hasher.update(t.to_bytes(4, byteorder="little", signed=False))
+
+    return hasher.hexdigest()
+
+
+class HiCacheStorage(ABC):
+    """
+    HiCacheStorage is a class that provides a generic key-value interface for storing and retrieving KV cache.
+    It abstracts the underlying storage mechanism, allowing different implementations to be used.
+    """
+
+    # todo, translate tensor object access for different TP ranks
+    # potentially pass model and TP configs into storage backend
+    # todo, the page size of storage backend does not have to be the same as the same as host memory pool
+
+    @abstractmethod
+    def get(
+        self, key: str, target_location: Optional[torch.Tensor] = None
+    ) -> torch.Tensor | None:
+        """
+        Retrieve the value associated with the given key.
+        Returns None if the key does not exist.
+        """
+        pass
+
+    @abstractmethod
+    def batch_get(
+        self, keys: List[str], target_locations: Optional[List[torch.Tensor]] = None
+    ) -> List[torch.Tensor | None]:
+        """
+        Retrieve values for multiple keys.
+        Returns a list of tensors or None for each key.
+        """
+        pass
+
+    @abstractmethod
+    def set(self, key, value) -> bool:
+        """
+        Store the value associated with the given key.
+        Returns True if the operation was successful, False otherwise.
+        """
+        pass
+
+    @abstractmethod
+    def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
+        """
+        Store multiple key-value pairs.
+        Returns True if all operations were successful, False otherwise.
+        """
+        pass
+
+    @abstractmethod
+    def exists(self, key: str) -> bool:
+        """
+        Check if the key exists in the storage.
+        Returns True if the key exists, False otherwise.
+        """
+        pass
+
+
+class HiCacheFile(HiCacheStorage):
+
+    def __init__(self, file_path: str = "/tmp/hicache"):
+        self.file_path = file_path
+        if not os.path.exists(self.file_path):
+            os.makedirs(self.file_path)
+            logger.info(f"Created HiCacheFile storage directory at {self.file_path}")
+
+    def get(
+        self, key: str, target_location: Optional[torch.Tensor] = None
+    ) -> torch.Tensor | None:
+        tensor_path = os.path.join(self.file_path, f"{key}.bin")
+        try:
+            # todo: fixing the target_location logic to enable in-place loading
+            loaded_tensor = torch.load(tensor_path)
+            if isinstance(loaded_tensor, torch.Tensor):
+                return loaded_tensor
+            else:
+                logger.error(f"Loaded data for key {key} is not a tensor.")
+                return None
+        except FileNotFoundError:
+            return None
+
+    def batch_get(
+        self,
+        keys: List[str],
+        target_locations: Optional[List[torch.Tensor]] = None,
+    ) -> List[torch.Tensor | None]:
+        return [
+            self.get(key, target_location)
+            for key, target_location in zip(
+                keys, target_locations or [None] * len(keys)
+            )
+        ]
+
+    def set(self, key: str, value: torch.Tensor) -> bool:
+        tensor_path = os.path.join(self.file_path, f"{key}.bin")
+        if self.exists(key):
+            logger.debug(f"Key {key} already exists. Skipped.")
+            return True
+        try:
+            torch.save(value, tensor_path)
+            return True
+        except Exception as e:
+            logger.error(f"Failed to save tensor {key}: {e}")
+            return False
+
+    def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
+        for key, value in zip(keys, values):
+            if not self.set(key, value):
+                return False
+        return True
+
+    def exists(self, key: str) -> bool:
+        tensor_path = os.path.join(self.file_path, f"{key}.bin")
+        return os.path.exists(tensor_path)
+
+    def delete(self, key: str) -> None:
+        tensor_path = os.path.join(self.file_path, f"{key}.bin")
+        try:
+            os.remove(tensor_path)
+        except FileNotFoundError:
+            logger.warning(f"Key {key} does not exist. Cannot delete.")
+            return
+
+    def clear(self) -> None:
+        try:
+            for filename in os.listdir(self.file_path):
+                file_path = os.path.join(self.file_path, filename)
+                if os.path.isfile(file_path):
+                    os.remove(file_path)
+            logger.info("Cleared all entries in HiCacheFile storage.")
+        except Exception as e:
+            logger.error(f"Failed to clear HiCacheFile storage: {e}")
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index cb7d95558bec..796f0553ceca 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -35,6 +35,7 @@ def __init__(
         hicache_size: int,
         hicache_write_policy: str,
         hicache_io_backend: str,
+        hicache_storage_backend: Optional[str] = None,
     ):
         self.kv_cache = token_to_kv_pool_allocator.get_kvcache()
         if isinstance(self.kv_cache, MHATokenToKVPool):
@@ -49,6 +50,9 @@ def __init__(
             raise ValueError(f"HiRadixCache only supports MHA and MLA yet")
 
         self.tp_group = tp_cache_group
+        self.enable_storage = hicache_storage_backend is not None
+        # todo: customizable storage prefetch threshold
+        self.prefetch_threshold = 256
 
         self.load_cache_event = threading.Event()
         self.cache_controller = HiCacheController(
@@ -58,16 +62,22 @@ def __init__(
             load_cache_event=self.load_cache_event,
             write_policy=hicache_write_policy,
             io_backend=hicache_io_backend,
+            storage_backend=hicache_storage_backend,
+            prefetch_threshold=self.prefetch_threshold,
         )
 
         # record the nodes with ongoing write through
         self.ongoing_write_through = {}
         # record the node segments with ongoing load back
         self.ongoing_load_back = {}
+        # record the ongoing prefetch requests
+        self.ongoing_prefetch = {}
+        self.ongoing_backup = {}
         # todo: dynamically adjust the threshold
         self.write_through_threshold = (
             1 if hicache_write_policy == "write_through" else 3
         )
+        self.write_through_threshold_storage = 3
         self.load_back_threshold = 10
         super().__init__(
             req_to_token_pool, token_to_kv_pool_allocator, page_size, disable=False
@@ -108,13 +118,30 @@ def write_backup(self, node: TreeNode, write_back=False):
 
         return len(host_indices)
 
+    def write_backup_storage(self, node: TreeNode):
+        operation_id = self.cache_controller.write_storage(
+            node.host_value, node.key, node.parent.get_last_hash_value()
+        )
+        self.ongoing_backup[operation_id] = node
+        node.protect_host()
+
     def inc_hit_count(self, node: TreeNode):
-        if node.backuped or self.cache_controller.write_policy == "write_back":
+        if self.cache_controller.write_policy == "write_back":
             return
         node.hit_count += 1
-        if node.hit_count >= self.write_through_threshold:
-            self.write_backup(node)
-            node.hit_count = 0
+
+        if not node.backuped:
+            if node.hit_count >= self.write_through_threshold:
+                # write to host if the node is not backuped
+                self.write_backup(node)
+        else:
+            if (
+                self.enable_storage
+                and (not node.backuped_storage)
+                and node.hit_count >= self.write_through_threshold_storage
+            ):
+                # if the node is backuped on host memory but not on storage
+                self.write_backup_storage(node)
 
     def writing_check(self, write_back=False):
         if write_back:
@@ -221,6 +248,10 @@ def evict_host(self, num_tokens: int):
             if not x.evicted:
                 continue
 
+            # node is protected from eviction as it has ongoing prefetch or backup to storage
+            if x.host_ref_counter > 0:
+                continue
+
             num_evicted += self.cache_controller.evict_host(x.host_value)
 
             for k, v in x.parent.children.items():
@@ -314,6 +345,85 @@ def ready_to_load_host_cache(self):
     def check_hicache_events(self):
         self.writing_check()
         self.loading_check()
+        if self.enable_storage:
+            self.check_revoked_prefetch()
+            self.check_backup_progress()
+
+    def check_revoked_prefetch(self):
+        queue_size = torch.tensor(
+            self.cache_controller.prefetch_revoke_queue.qsize(), dtype=torch.int
+        )
+        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+            # synchrnoize TP workers to make the same update to hiradix cache
+            torch.distributed.all_reduce(
+                queue_size,
+                op=torch.distributed.ReduceOp.MIN,
+                group=self.tp_group,
+            )
+        for _ in range(queue_size.item()):
+            req_id = self.cache_controller.prefetch_revoke_queue.get()
+            if req_id in self.ongoing_prefetch:
+                last_host_node, _, host_indices, _ = self.ongoing_prefetch[req_id]
+                last_host_node.release_host()
+                self.cache_controller.mem_pool_host.free(host_indices)
+                del self.ongoing_prefetch[req_id]
+
+    def check_backup_progress(self):
+        queue_size = torch.tensor(
+            self.cache_controller.ack_backup_queue.qsize(), dtype=torch.int
+        )
+        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+            # synchrnoize TP workers to make the same update to hiradix cache
+            torch.distributed.all_reduce(
+                queue_size,
+                op=torch.distributed.ReduceOp.MIN,
+                group=self.tp_group,
+            )
+        for _ in range(queue_size.item()):
+            ack_id, hash_value = self.cache_controller.ack_backup_queue.get()
+            self.ongoing_backup[ack_id].hash_value = hash_value
+            self.ongoing_backup[ack_id].release_host()
+            del self.ongoing_backup[ack_id]
+
+    def check_prefetch_progress(self, req_id: str):
+        if req_id not in self.ongoing_prefetch:
+            # there is no ongoing prefetch for this request or it has been revoked
+            return
+
+        # todo: more policies for prefetch progress such as timeout
+        # the current policy is to prefetch with best effort and terminate when queuing is over
+        last_host_node, token_ids, host_indices, operation = self.ongoing_prefetch[
+            req_id
+        ]
+        completed_tokens, hash_value = self.cache_controller.terminate_prefetch(
+            operation
+        )
+        logger.debug(f"Prefetch {req_id} completed with {completed_tokens} tokens")
+
+        min_completed_tokens = torch.tensor(completed_tokens, dtype=torch.int)
+        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+            # synchrnoize TP workers to make the same update to hiradix cache
+            torch.distributed.all_reduce(
+                min_completed_tokens,
+                op=torch.distributed.ReduceOp.MIN,
+                group=self.tp_group,
+            )
+        min_completed_tokens = min_completed_tokens.item()
+        fetched_token_ids = token_ids[:min_completed_tokens]
+        written_indices = host_indices[:min_completed_tokens]
+        matched_length = self._insert_helper_host(
+            last_host_node,
+            fetched_token_ids,
+            written_indices,
+            hash_value[:min_completed_tokens],
+        )
+
+        self.cache_controller.mem_pool_host.free(host_indices[:matched_length])
+        self.cache_controller.mem_pool_host.free(
+            host_indices[min_completed_tokens:completed_tokens]
+        )
+        last_host_node.release_host()
+        del self.ongoing_prefetch[req_id]
 
     def match_prefix(self, key: List[int], **kwargs):
         empty_value = torch.empty((0,), dtype=torch.int64, device=self.device)
@@ -348,6 +458,71 @@ def match_prefix(self, key: List[int], **kwargs):
             host_hit_length=host_hit_length,
         )
 
+    def prefetch_from_storage(
+        self,
+        req_id: str,
+        last_host_node: TreeNode,
+        new_input_tokens: List[int],
+        last_hash: Optional[str] = None,
+    ):
+        if not self.enable_storage or len(new_input_tokens) < self.prefetch_threshold:
+            return
+
+        last_host_node.protect_host()
+        host_indices = self.cache_controller.mem_pool_host.alloc(len(new_input_tokens))
+        if host_indices is None:
+            self.evict_host(len(new_input_tokens))
+            host_indices = self.cache_controller.mem_pool_host.alloc(
+                len(new_input_tokens)
+            )
+        if host_indices is None:
+            last_host_node.release_host()
+            # no sufficient host memory to prefetch
+            return
+        operation = self.cache_controller.prefetch(
+            req_id, host_indices, new_input_tokens, last_hash
+        )
+        self.ongoing_prefetch[req_id] = (
+            last_host_node,
+            new_input_tokens,
+            host_indices,
+            operation,
+        )
+
+    def _insert_helper_host(self, node: TreeNode, key: List, host_value, hash_value):
+        node.last_access_time = time.monotonic()
+        if len(key) == 0:
+            return 0
+
+        child_key = self.get_child_key_fn(key)
+
+        matched_length = 0
+        while len(key) > 0 and child_key in node.children.keys():
+            node = node.children[child_key]
+            node.last_access_time = time.monotonic()
+            prefix_len = self.key_match_fn(node.key, key)
+            key = key[prefix_len:]
+            host_value = host_value[prefix_len:]
+            hash_value = hash_value[prefix_len:]
+            matched_length += prefix_len
+
+            if prefix_len < len(node.key):
+                new_node = self._split_node(node.key, node, prefix_len)
+                node = new_node
+
+            if len(key):
+                child_key = self.get_child_key_fn(key)
+
+        if len(key):
+            new_node = TreeNode()
+            new_node.parent = node
+            new_node.key = key
+            new_node.value = None
+            new_node.host_value = host_value
+            new_node.hash_value = hash_value
+            node.children[child_key] = new_node
+        return matched_length
+
     def _match_prefix_helper(self, node: TreeNode, key: List):
         node.last_access_time = time.monotonic()
         child_key = self.get_child_key_fn(key)
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index 1bc2ddf7ec45..f503479628a9 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -99,6 +99,20 @@ def get_size_per_token(self):
     def init_kv_buffer(self):
         raise NotImplementedError()
 
+    @abc.abstractmethod
+    def get_flat_data_page(self, index) -> torch.Tensor:
+        """
+        Get a flat data page from the host memory pool.
+        """
+        raise NotImplementedError()
+
+    @abc.abstractmethod
+    def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
+        """
+        Set a flat data page to the host memory pool.
+        """
+        raise NotImplementedError()
+
     @synchronized()
     def clear(self):
         # Initialize memory states and tracking structures.
@@ -227,6 +241,19 @@ def init_kv_buffer(self):
             pin_memory=self.pin_memory,
         )
 
+    # todo, page first memory layout
+    def get_flat_data_page(self, index) -> torch.Tensor:
+        return self.kv_buffer[:, :, index : index + self.page_size, :, :].flatten()
+
+    def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
+        self.kv_buffer[:, :, index : index + self.page_size, :, :] = data_page.reshape(
+            2,
+            self.layer_num,
+            self.page_size,
+            self.head_num,
+            self.head_dim,
+        )
+
     @property
     def k_buffer(self):
         return self.kv_buffer[0]
@@ -276,3 +303,14 @@ def init_kv_buffer(self):
             device=self.device,
             pin_memory=self.pin_memory,
         )
+
+    def get_flat_data_page(self, index) -> torch.Tensor:
+        return self.kv_buffer[:, index : index + self.page_size, :, :].flatten()
+
+    def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
+        self.kv_buffer[:, index : index + self.page_size, :, :] = data_page.reshape(
+            self.layer_num,
+            self.page_size,
+            1,
+            self.kv_lora_rank + self.qk_rope_head_dim,
+        )
diff --git a/python/sglang/srt/mem_cache/radix_cache.py b/python/sglang/srt/mem_cache/radix_cache.py
index 7064322090ae..0826990c21aa 100644
--- a/python/sglang/srt/mem_cache/radix_cache.py
+++ b/python/sglang/srt/mem_cache/radix_cache.py
@@ -55,8 +55,13 @@ def __init__(self, id: Optional[int] = None):
         self.hit_count = 0
         # indicating the node is loading KV cache from host
         self.loading = False
+        # indicating the node is locked to protect from eviction
+        # incremented when the node is referenced by a storage operation
+        self.host_ref_counter = 0
         # store the host indices of KV cache
         self.host_value: Optional[torch.Tensor] = None
+        # store hash values of each pages
+        self.hash_value: Optional[List[str]] = None
 
         self.id = TreeNode.counter if id is None else id
         TreeNode.counter += 1
@@ -69,6 +74,27 @@ def evicted(self):
     def backuped(self):
         return self.host_value is not None
 
+    @property
+    def backuped_storage(self):
+        return self.hash_value is not None and len(self.hash_value) > 0
+
+    def protect_host(self):
+        """Protect the host value from eviction."""
+        self.host_ref_counter += 1
+
+    def release_host(self):
+        """Release the host value, allowing it to be evicted."""
+        if self.host_ref_counter > 0:
+            self.host_ref_counter -= 1
+        else:
+            raise RuntimeError("Host reference counter is already zero.")
+
+    def get_last_hash_value(self) -> Optional[str]:
+        """Returns the hash value of the last page in this node."""
+        if self.hash_value is None or len(self.hash_value) == 0:
+            return None
+        return self.hash_value[-1]
+
     def __lt__(self, other: "TreeNode"):
         return self.last_access_time < other.last_access_time
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index e475039d7380..cb8038d3366a 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -222,6 +222,7 @@ class ServerArgs:
     hicache_size: int = 0
     hicache_write_policy: str = "write_through_selective"
     hicache_io_backend: str = ""
+    hicache_storage_backend: Optional[str] = None
     flashinfer_mla_disable_ragged: bool = False
     disable_shared_experts_fusion: bool = False
     disable_chunked_prefix_cache: bool = False
@@ -1604,6 +1605,13 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.hicache_io_backend,
             help="The IO backend for KV cache transfer between CPU and GPU",
         )
+        parser.add_argument(
+            "--hicache-storage-backend",
+            type=str,
+            choices=["file"],  # todo, mooncacke
+            default=ServerArgs.hicache_storage_backend,
+            help="The storage backend for hierarchical KV cache.",
+        )
         parser.add_argument(
             "--flashinfer-mla-disable-ragged",
             action="store_true",
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 059955f3351c..41564869ed9b 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -64,6 +64,7 @@ class TestFile:
         TestFile("test_fused_moe.py", 30),
         TestFile("test_hicache.py", 116),
         TestFile("test_hicache_mla.py", 127),
+        TestFile("test_hicache_storage.py", 127),
         TestFile("test_hidden_states.py", 55),
         TestFile("test_int8_kernel.py", 8),
         TestFile("test_input_embeddings.py", 38),
diff --git a/test/srt/test_hicache_storage.py b/test/srt/test_hicache_storage.py
new file mode 100644
index 000000000000..aadc9529d50b
--- /dev/null
+++ b/test/srt/test_hicache_storage.py
@@ -0,0 +1,55 @@
+import unittest
+from types import SimpleNamespace
+
+from sglang.srt.utils import kill_process_tree
+from sglang.test.run_eval import run_eval
+from sglang.test.test_utils import (
+    DEFAULT_MODEL_NAME_FOR_TEST,
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    CustomTestCase,
+    popen_launch_server,
+)
+
+
+class TestHiCache(CustomTestCase):
+    @classmethod
+    def setUpClass(cls):
+        cls.model = DEFAULT_MODEL_NAME_FOR_TEST
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            other_args=[
+                "--enable-hierarchical-cache",
+                "--mem-fraction-static",
+                0.7,
+                "--hicache-size",
+                100,
+                "--page-size",
+                "64",
+                "--hicache-storage-backend",
+                "file",
+            ],
+        )
+
+    @classmethod
+    def tearDownClass(cls):
+        kill_process_tree(cls.process.pid)
+
+    def test_mmlu(self):
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mmlu",
+            num_examples=64,
+            num_threads=32,
+        )
+
+        metrics = run_eval(args)
+        self.assertGreaterEqual(metrics["score"], 0.65)
+
+
+if __name__ == "__main__":
+    unittest.main()

From d0510f08feaa155c4d99f01667e1b5673652478c Mon Sep 17 00:00:00 2001
From: Sai Enduri <saimanas.enduri@amd.com>
Date: Fri, 18 Jul 2025 01:12:11 -0700
Subject: [PATCH 031/396] Revert "Fix different device type adjustment in PP"
 (#8141)

---
 .../sglang/srt/distributed/parallel_state.py  | 12 ++++---
 python/sglang/srt/managers/scheduler.py       |  5 ---
 python/sglang/srt/managers/tp_worker.py       |  1 -
 python/sglang/srt/utils.py                    | 34 +++++++++++--------
 4 files changed, 27 insertions(+), 25 deletions(-)

diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
index 5ab2e3758115..509c71531062 100644
--- a/python/sglang/srt/distributed/parallel_state.py
+++ b/python/sglang/srt/distributed/parallel_state.py
@@ -699,14 +699,14 @@ def send_object(self, obj: Any, dst: int) -> None:
         )
 
         # Serialize object to tensor and get the size as well
-        object_tensor = torch.frombuffer(pickle.dumps(obj), dtype=torch.uint8).to(
-            device=self.device
+        object_tensor = torch.frombuffer(pickle.dumps(obj), dtype=torch.uint8).cuda(
+            device=torch.cuda.current_device()
         )
 
         size_tensor = torch.tensor(
             [object_tensor.numel()],
             dtype=torch.long,
-            device=self.device,
+            device=torch.cuda.current_device(),
         )
 
         # Send object size
@@ -731,7 +731,9 @@ def recv_object(self, src: int) -> Any:
             src != self.rank_in_group
         ), "Invalid source rank. Source rank is the same as the current rank."
 
-        size_tensor = torch.empty(1, dtype=torch.long, device=self.device)
+        size_tensor = torch.empty(
+            1, dtype=torch.long, device=torch.cuda.current_device()
+        )
 
         # Receive object size
         rank_size = torch.distributed.recv(
@@ -742,7 +744,7 @@ def recv_object(self, src: int) -> Any:
         object_tensor = torch.empty(  # type: ignore[call-overload]
             size_tensor.item(),  # type: ignore[arg-type]
             dtype=torch.uint8,
-            device=self.device,
+            device=torch.cuda.current_device(),
         )
 
         rank_object = torch.distributed.recv(
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index c79e296f60f9..748cb7322ade 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -975,7 +975,6 @@ def event_loop_pp(self):
                             self.world_group.device_group,
                             self.pp_rank * self.tp_size + dp_offset,
                             (self.pp_rank + 1) * self.tp_size + dp_offset,
-                            device=self.device,
                         )
 
                     # send out proxy tensors to the next stage
@@ -1024,7 +1023,6 @@ def recv_requests(self) -> List[Req]:
                     self.world_group.device_group,
                     (self.pp_rank - 1) * self.tp_size + dp_offset,
                     self.pp_rank * self.tp_size + dp_offset,
-                    device=self.device,
                 )
             else:
                 recv_reqs = None
@@ -1055,7 +1053,6 @@ def recv_requests(self) -> List[Req]:
                     self.attn_tp_group.rank,
                     self.attn_tp_cpu_group,
                     src=self.attn_tp_group.ranks[0],
-                    device=self.device,
                 )
             if self.tp_size != 1:
                 control_reqs = broadcast_pyobj(
@@ -1063,7 +1060,6 @@ def recv_requests(self) -> List[Req]:
                     self.tp_group.rank,
                     self.tp_cpu_group,
                     src=self.tp_group.ranks[0],
-                    device=self.device,
                 )
             recv_reqs = work_reqs + control_reqs
         elif self.tp_size != 1:
@@ -1072,7 +1068,6 @@ def recv_requests(self) -> List[Req]:
                 self.tp_group.rank,
                 self.tp_cpu_group,
                 src=self.tp_group.ranks[0],
-                device=self.device,
             )
         return recv_reqs
 
diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index daeed4faff7c..ff20ea01e4d3 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -144,7 +144,6 @@ def __init__(
             self.tp_size * self.pp_rank + tp_rank,
             self.world_group.cpu_group,
             src=self.world_group.ranks[0],
-            device=self.device,
         )[0]
         set_random_seed(self.random_seed)
 
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 37e06b8dcc72..ce159a4da77b 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -1100,15 +1100,15 @@ def broadcast_pyobj(
     rank: int,
     dist_group: Optional[torch.distributed.ProcessGroup] = None,
     src: int = 0,
-    device: Optional[str] = None,
+    force_cpu_device: bool = True,
 ):
     """Broadcast inputs from src rank to all other ranks with torch.dist backend.
     The `rank` here refer to the source rank on global process group (regardless
     of dist_group argument).
     """
-
-    if device is None:
-        device = get_device()
+    device = torch.device(
+        "cuda" if torch.cuda.is_available() and not force_cpu_device else "cpu"
+    )
 
     if rank == src:
         if len(data) == 0:
@@ -1148,38 +1148,44 @@ def point_to_point_pyobj(
     group: Optional[torch.distributed.ProcessGroup] = None,
     src: int = 0,
     dst: int = 1,
-    device: Optional[str] = None,
 ):
     """Send data from src to dst in group using DeviceToDevice communication."""
-    if device is None:
-        device = get_device()
+
     if rank == src:
         if len(data) == 0:
-            tensor_size = torch.tensor([0], dtype=torch.long, device=device)
+            tensor_size = torch.tensor(
+                [0], dtype=torch.long, device=torch.cuda.current_device()
+            )
             dist.send(tensor_size, dst=dst, group=group)
         else:
             serialized_data = pickle.dumps(data)
             size = len(serialized_data)
             tensor_data = torch.ByteTensor(
                 np.frombuffer(serialized_data, dtype=np.uint8)
-            ).to(
-                device=device
-            )  # Move to Device
-            tensor_size = torch.tensor([size], dtype=torch.long, device=device)
+            ).cuda(
+                device=torch.cuda.current_device()
+            )  # Move to GPU
+            tensor_size = torch.tensor(
+                [size], dtype=torch.long, device=torch.cuda.current_device()
+            )
 
             dist.send(tensor_size, dst=dst, group=group)
             dist.send(tensor_data, dst=dst, group=group)
         return data
 
     elif rank == dst:
-        tensor_size = torch.tensor([0], dtype=torch.long, device=device)
+        tensor_size = torch.tensor(
+            [0], dtype=torch.long, device=torch.cuda.current_device()
+        )
         dist.recv(tensor_size, src=src, group=group)
         size = tensor_size.item()
 
         if size == 0:
             return []
 
-        tensor_data = torch.empty(size, dtype=torch.uint8, device=device)
+        tensor_data = torch.empty(
+            size, dtype=torch.uint8, device=torch.cuda.current_device()
+        )
         dist.recv(tensor_data, src=src, group=group)
 
         serialized_data = bytes(

From 719b29f218a09642193c4bda2a7ffa32829d5604 Mon Sep 17 00:00:00 2001
From: Peng Zhang <zhuangsen.zp@antgroup.com>
Date: Fri, 18 Jul 2025 17:45:03 +0800
Subject: [PATCH 032/396] feat: enchance green context stream creation robust
 with backward compatibility (#8136)

---
 sgl-kernel/csrc/spatial/greenctx_stream.cu | 59 ++++++++++++----------
 1 file changed, 33 insertions(+), 26 deletions(-)

diff --git a/sgl-kernel/csrc/spatial/greenctx_stream.cu b/sgl-kernel/csrc/spatial/greenctx_stream.cu
index 8c2e6d813c95..9d7a44a1aab3 100644
--- a/sgl-kernel/csrc/spatial/greenctx_stream.cu
+++ b/sgl-kernel/csrc/spatial/greenctx_stream.cu
@@ -7,17 +7,15 @@
 #include "cuda_utils.h"
 #include "greenctx_stream.h"
 
-std::vector<int64_t> create_greenctx_stream_fallback(CUgreenCtx gctx[2]) {
+static std::vector<int64_t> create_greenctx_stream_fallback(CUgreenCtx gctx[2]) {
   CUstream streamA, streamB;
   CUcontext ctx;
 
-  // Stream A
   CUDA_DRV(cuCtxFromGreenCtx(&ctx, gctx[0]));
   CUDA_DRV(cuCtxPushCurrent(ctx));
   CUDA_DRV(cuStreamCreate(&streamA, CU_STREAM_NON_BLOCKING));
   CUDA_DRV(cuCtxPopCurrent(nullptr));
 
-  // Stream B
   CUDA_DRV(cuCtxFromGreenCtx(&ctx, gctx[1]));
   CUDA_DRV(cuCtxPushCurrent(ctx));
   CUDA_DRV(cuStreamCreate(&streamB, CU_STREAM_NON_BLOCKING));
@@ -26,18 +24,31 @@ std::vector<int64_t> create_greenctx_stream_fallback(CUgreenCtx gctx[2]) {
   return {(int64_t)streamA, (int64_t)streamB};
 }
 
-#if CUDA_VERSION >= 12050
-std::vector<int64_t> create_greenctx_stream_direct(CUgreenCtx gctx[2]) {
-  CUstream streamA;
-  CUstream streamB;
+typedef CUresult(CUDAAPI* PFN_cuGreenCtxStreamCreate)(CUstream*, CUgreenCtx, unsigned int, int);
 
-  CUDA_DRV(cuGreenCtxStreamCreate(&streamA, gctx[0], CU_STREAM_NON_BLOCKING, 0));
-  CUDA_DRV(cuGreenCtxStreamCreate(&streamB, gctx[1], CU_STREAM_NON_BLOCKING, 0));
+static std::vector<int64_t> create_greenctx_stream_direct_dynamic(CUgreenCtx gctx[2]) {
+  static PFN_cuGreenCtxStreamCreate pfn = nullptr;
+  static std::once_flag pfn_probed_flag;
 
-  std::vector<int64_t> vec = {(int64_t)streamA, (int64_t)streamB};
-  return vec;
+  // detect compatibility in runtime
+  std::call_once(pfn_probed_flag, []() {
+    cuGetProcAddress("cuGreenCtxStreamCreate", reinterpret_cast<void**>(&pfn), 0, 0, nullptr);
+  });
+
+  if (!pfn) {  // fallback if not compatible
+    return create_greenctx_stream_fallback(gctx);
+  }
+
+  CUstream streamA, streamB;
+  CUDA_DRV(pfn(&streamA, gctx[0], CU_STREAM_NON_BLOCKING, 0));
+  CUDA_DRV(pfn(&streamB, gctx[1], CU_STREAM_NON_BLOCKING, 0));
+
+  return {(int64_t)streamA, (int64_t)streamB};
+}
+
+inline void destroy_green_context(int64_t h) {
+  if (h) CUDA_DRV(cuGreenCtxDestroy(reinterpret_cast<CUgreenCtx>(h)));
 }
-#endif
 
 std::vector<int64_t> create_greenctx_stream_by_value(int64_t smA, int64_t smB, int64_t device) {
   TORCH_CHECK(CUDA_VERSION >= 12040, "Green Contexts feature requires CUDA Toolkit 12.4 or newer.");
@@ -46,42 +57,38 @@ std::vector<int64_t> create_greenctx_stream_by_value(int64_t smA, int64_t smB, i
   CUdevResourceDesc desc[3];
   CUdevResource input;
   CUdevResource resources[4];
-  unsigned int nbGroups = 1;
-
   if (smA <= 0 || smB <= 0) {
     TORCH_CHECK(false, "SM counts must be positive");
   }
 
   CUDA_DRV(cuDeviceGetDevResource((CUdevice)device, &input, CU_DEV_RESOURCE_TYPE_SM));
-  unsigned int minCount = (unsigned int)(smA + smB);
-  unsigned int minCountA = (unsigned int)(smA);
+
+  const unsigned minCount = smA + smB;
+  const unsigned minCountA = smA;
   TORCH_CHECK(minCount <= input.sm.smCount, "Not enough SMs available for the requested configuration");
 
+  unsigned nbGroups = 1;
   CUDA_DRV(cuDevSmResourceSplitByCount(&resources[2], &nbGroups, &input, &resources[3], 0, minCount));
   CUDA_DRV(cuDevResourceGenerateDesc(&desc[2], &resources[2], 1));
   CUDA_DRV(cuGreenCtxCreate(&gctx[2], desc[2], (CUdevice)device, CU_GREEN_CTX_DEFAULT_STREAM));
   CUDA_DRV(cuGreenCtxGetDevResource(gctx[2], &input, CU_DEV_RESOURCE_TYPE_SM));
+  nbGroups = 1;
   CUDA_DRV(cuDevSmResourceSplitByCount(&resources[0], &nbGroups, &input, &resources[1], 0, minCountA));
   CUDA_DRV(cuDevResourceGenerateDesc(&desc[0], &resources[0], 1));
   CUDA_DRV(cuGreenCtxCreate(&gctx[0], desc[0], (CUdevice)device, CU_GREEN_CTX_DEFAULT_STREAM));
   CUDA_DRV(cuDevResourceGenerateDesc(&desc[1], &resources[1], 1));
   CUDA_DRV(cuGreenCtxCreate(&gctx[1], desc[1], (CUdevice)device, CU_GREEN_CTX_DEFAULT_STREAM));
-  int smCountA = resources[0].sm.smCount;
-  int smCountB = resources[1].sm.smCount;
 
-  std::vector<int64_t> stream_handles;
+  const int smCountA = resources[0].sm.smCount;
+  const int smCountB = resources[1].sm.smCount;
 
-#if CUDA_VERSION >= 12050
-  stream_handles = create_greenctx_stream_direct(gctx);
-#else
-  stream_handles = create_greenctx_stream_fallback(gctx);
-#endif
+  std::vector<int64_t> streams = create_greenctx_stream_direct_dynamic(gctx);
 
   CUDA_DRV(cuGreenCtxDestroy(gctx[2]));
 
   std::vector<int64_t> vec = {
-      stream_handles[0],  // streamA
-      stream_handles[1],  // streamB
+      streams[0],  // streamA
+      streams[1],  // streamB
       (int64_t)smCountA,
       (int64_t)smCountB};
 

From fd63b62eaad903ac0b75630e5b1eee9002783b10 Mon Sep 17 00:00:00 2001
From: Enrique Shockwave <33002121+qeternity@users.noreply.github.com>
Date: Fri, 18 Jul 2025 19:34:14 +0100
Subject: [PATCH 033/396] fix compressed tensors WNA16 imports (#8142)

---
 .../quantization/compressed_tensors/compressed_tensors.py    | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
index 50d90406d26f..8afc15a73718 100644
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -40,7 +40,10 @@
 from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 
 try:
-    import vllm
+    from vllm.model_executor.layers.quantization.compressed_tensors.schemes.compressed_tensors_wNa16 import (
+        WNA16_SUPPORTED_BITS,
+        CompressedTensorsWNA16,
+    )
 
     VLLM_AVAILABLE = True
 except ImportError:

From 6737671c82cd654dc052b3ffd7ddfcce73dfbe90 Mon Sep 17 00:00:00 2001
From: Even Zhou <even.y.zhou@outlook.com>
Date: Sat, 19 Jul 2025 02:34:55 +0800
Subject: [PATCH 034/396] [Bugfix] Fix w8a8_int8 import error on NPU (#8147)

---
 python/sglang/srt/layers/quantization/w8a8_int8.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/python/sglang/srt/layers/quantization/w8a8_int8.py b/python/sglang/srt/layers/quantization/w8a8_int8.py
index c9af7ae29cc7..19cf49c9bc86 100644
--- a/python/sglang/srt/layers/quantization/w8a8_int8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_int8.py
@@ -754,6 +754,8 @@ def apply(
         x: torch.Tensor,
         bias: Optional[torch.Tensor] = None,
     ) -> torch.Tensor:
+        from sglang.srt.layers.linear import RowParallelLinear
+
         if isinstance(layer, RowParallelLinear):
             tp_rank = get_tensor_model_parallel_rank()
             return self.quant_method.apply(layer, x, bias, tp_rank)

From 1f76fc874759c257b4e928b9847a8da8e8ea2b30 Mon Sep 17 00:00:00 2001
From: Hongbo Xu <1320612015@qq.com>
Date: Sat, 19 Jul 2025 02:45:22 +0800
Subject: [PATCH 035/396] [3/n] chore: decouple AWQ implementation from vLLM
 dependency (#8113)

Co-authored-by: AniZpZ <zhuangsen.zp@antgroup.com>
---
 benchmark/deepseek_v3/README.md               |   9 +
 .../srt/layers/quantization/__init__.py       |  22 +-
 python/sglang/srt/layers/quantization/awq.py  | 584 +++++++++++++++++-
 .../sglang/srt/layers/quantization/utils.py   |  85 ++-
 python/sglang/srt/models/deepseek_v2.py       |   4 +-
 python/sglang/test/test_marlin_moe.py         | 286 +++++++++
 python/sglang/test/test_marlin_utils.py       | 171 +++++
 test/srt/test_gptqmodel_dynamic.py            |   2 +-
 8 files changed, 1143 insertions(+), 20 deletions(-)
 create mode 100644 python/sglang/test/test_marlin_moe.py
 create mode 100644 python/sglang/test/test_marlin_utils.py

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index ebac6f41abaa..7fd380f91a62 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -178,6 +178,8 @@ python3 -m sglang.bench_one_batch_server --model None --base-url http://10.0.0.1
 
 ### Example: Serving with 8 A100/A800 with AWQ Quantization
 
+**Recommended Usage**
+
 Add `--quantization moe_wna16` flag to enable moe wna16 kernel for better performance.
 One example is as follows:
 
@@ -185,6 +187,13 @@ One example is as follows:
 python3 -m sglang.launch_server --model cognitivecomputations/DeepSeek-R1-AWQ --tp 8 --trust-remote-code --quantization moe_wna16
 ```
 
+Alternatively, you can use `--quantization awq_marlin` as follows:
+
+```bash
+python3 -m sglang.launch_server --model cognitivecomputations/DeepSeek-R1-AWQ --tp 8 --trust-remote-code --quantization awq_marlin --dtype float16
+```
+
+Note that `awq_marlin` only supports `float16` now, which may lead to some precision loss.
 
 ### Example: Serving with 16 A100/A800 with int8 Quantization
 
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index e0f4363437b3..9995b72d0e0b 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -7,10 +7,6 @@
 
 try:
     from vllm.model_executor.layers.quantization.aqlm import AQLMConfig
-    from vllm.model_executor.layers.quantization.awq_marlin import (
-        AWQMarlinConfig,
-        AWQMoEMethod,
-    )
     from vllm.model_executor.layers.quantization.bitsandbytes import BitsAndBytesConfig
     from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_moe import (
         CompressedTensorsW8A8Fp8MoEMethod,
@@ -36,14 +32,14 @@ class DummyConfig:
         def override_quantization_method(self, *args, **kwargs):
             return None
 
-    AQLMConfig = AWQMarlinConfig = BitsAndBytesConfig = CompressedTensorsConfig = (
-        DeepSpeedFPConfig
-    ) = ExpertsInt8Config = FBGEMMFp8Config = GGUFConfig = GPTQMarlin24Config = (
-        MarlinConfig
-    ) = QQQConfig = Int8TpuConfig = DummyConfig
+    AQLMConfig = BitsAndBytesConfig = CompressedTensorsConfig = DeepSpeedFPConfig = (
+        ExpertsInt8Config
+    ) = FBGEMMFp8Config = GGUFConfig = GPTQMarlin24Config = MarlinConfig = QQQConfig = (
+        Int8TpuConfig
+    ) = DummyConfig
 
 
-from sglang.srt.layers.quantization.awq import AWQConfig
+from sglang.srt.layers.quantization.awq import AWQConfig, AWQMarlinConfig
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.blockwise_int8 import BlockInt8Config
 from sglang.srt.layers.quantization.compressed_tensors.compressed_tensors import (
@@ -63,10 +59,7 @@ def override_quantization_method(self, *args, **kwargs):
 )
 from sglang.srt.layers.quantization.moe_wna16 import MoeWNA16Config
 from sglang.srt.layers.quantization.qoq import QoQConfig
-from sglang.srt.layers.quantization.utils import (
-    get_dynamic_override,
-    get_linear_quant_method,
-)
+from sglang.srt.layers.quantization.utils import get_linear_quant_method
 from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config
 from sglang.srt.layers.quantization.w8a8_fp8 import W8A8Fp8Config
 from sglang.srt.layers.quantization.w8a8_int8 import W8A8Int8Config
@@ -237,7 +230,6 @@ def monkey_patch_quant_configs():
     setattr(GPTQMarlinConfig, "get_quant_method", gptq_get_quant_method)
     setattr(GPTQConfig, "get_quant_method", gptq_get_quant_method)
 
-    monkey_patch_moe_apply(AWQMoEMethod)
     monkey_patch_moe_apply(GPTQMarlinMoEMethod)
     monkey_patch_moe_apply(CompressedTensorsW8A8Fp8MoEMethod)
     monkey_patch_moe_apply(CompressedTensorsWNA16MoEMethod)
diff --git a/python/sglang/srt/layers/quantization/awq.py b/python/sglang/srt/layers/quantization/awq.py
index 6265f2217d79..4532673837dc 100644
--- a/python/sglang/srt/layers/quantization/awq.py
+++ b/python/sglang/srt/layers/quantization/awq.py
@@ -2,21 +2,52 @@
 from __future__ import annotations
 
 import logging
-from typing import Any, Dict, List, Optional
+import warnings
+from typing import Any, Callable, Dict, List, Optional
 
 import torch
 
+from sglang.srt.layers.linear import LinearBase, set_weight_attrs
 from sglang.srt.layers.parameter import GroupQuantScaleParameter, PackedvLLMParameter
 from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
     LinearMethodBase,
     QuantizationConfig,
+    QuantizeMethodBase,
 )
+from sglang.srt.layers.quantization.marlin_utils import (
+    apply_awq_marlin_linear,
+    awq_to_marlin_zero_points,
+    check_marlin_supported,
+    check_marlin_supports_layer,
+    check_moe_marlin_supports_layer,
+    marlin_make_empty_g_idx,
+    marlin_make_workspace,
+    marlin_moe_permute_scales,
+    marlin_permute_scales,
+    moe_awq_to_marlin_zero_points,
+    verify_marlin_supported,
+    verify_marlin_supports_shape,
+)
+from sglang.srt.layers.quantization.scalar_type import scalar_types
 from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
+from sglang.srt.layers.quantization.utils import replace_parameter
+
+try:
+    from vllm import _custom_ops as ops
+
+    warnings.warn(
+        f"Using kernels directly from vllm. This might lead to performance degradation or "
+        f"missing functionalities as certain kernels may not be optimized. "
+    )
+except ImportError:
+    ops = None
+
 from sglang.srt.utils import is_cuda
 
 _is_cuda = is_cuda()
 if _is_cuda:
-    from sgl_kernel import awq_dequantize
+    from sgl_kernel import awq_dequantize, fused_marlin_moe
 
 logger = logging.getLogger(__name__)
 
@@ -103,6 +134,176 @@ def get_quant_method(
         return None
 
 
+class AWQMarlinConfig(QuantizationConfig):
+    """Config class for AWQ Marlin"""
+
+    # num_bits -> type
+    TYPE_MAP = {
+        4: scalar_types.uint4,
+        8: scalar_types.uint8,
+    }
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        zero_point: bool,
+        lm_head_quantized: bool,
+        modules_to_not_convert: Optional[list[str]],
+        full_config: dict[str, Any],
+    ) -> None:
+        super().__init__()
+        self.pack_factor = 32 // weight_bits  # packed into int32
+        self.group_size = group_size
+        self.zero_point = zero_point
+        self.lm_head_quantized = lm_head_quantized
+        self.weight_bits = weight_bits
+        self.modules_to_not_convert = modules_to_not_convert or []
+        self.full_config = full_config
+
+        if self.weight_bits not in self.TYPE_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {self.weight_bits}. "
+                f"Supported num_bits = {self.TYPE_MAP.keys()}"
+            )
+
+        self.quant_type = self.TYPE_MAP[self.weight_bits]
+
+        verify_marlin_supported(
+            self.quant_type, group_size=self.group_size, has_zp=self.zero_point
+        )
+
+    def __repr__(self) -> str:
+        return (
+            f"AWQMarlinConfig(quant_type={self.quant_type}, "
+            f"group_size={self.group_size}, "
+            f"zero_point={self.zero_point}, "
+            f"lm_head_quantized={self.lm_head_quantized}, "
+            f"modules_to_not_convert={self.modules_to_not_convert})"
+        )
+
+    def get_scaled_act_names(self) -> List[str]:
+        return []
+
+    @classmethod
+    def get_name(cls) -> str:
+        return "awq_marlin"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> AWQMarlinConfig:
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        zero_point = cls.get_from_keys(config, ["zero_point"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        modules_to_not_convert = cls.get_from_keys_or(
+            config, ["modules_to_not_convert"], None
+        )
+        return cls(
+            weight_bits,
+            group_size,
+            zero_point,
+            lm_head_quantized,
+            modules_to_not_convert,
+            config,
+        )
+
+    @classmethod
+    def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]:
+        can_convert = cls.is_awq_marlin_compatible(hf_quant_cfg)
+        is_valid_user_quant = (
+            user_quant is None or user_quant == "marlin" or user_quant == "awq_marlin"
+        )
+
+        if can_convert and is_valid_user_quant:
+            msg = (
+                "The model is convertible to {} during runtime."
+                " Using {} kernel.".format(cls.get_name(), cls.get_name())
+            )
+            logger.info(msg)
+            return cls.get_name()
+
+        if can_convert and user_quant == "awq":
+            logger.info(
+                "Detected that the model can run with awq_marlin"
+                ", however you specified quantization=awq explicitly,"
+                " so forcing awq. Use quantization=awq_marlin for"
+                " faster inference"
+            )
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional[QuantizeMethodBase]:
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+        from sglang.srt.layers.vocab_parallel_embedding import ParallelLMHead
+
+        if isinstance(layer, LinearBase) or (
+            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
+        ):
+            if is_layer_skipped_awq(prefix, self.modules_to_not_convert):
+                return UnquantizedLinearMethod()
+            # Check if the layer is supported by AWQMarlin.
+            if not check_marlin_supports_layer(layer, self.group_size):
+                logger.warning_once(
+                    "Layer '%s' is not supported by AWQMarlin. Falling back to unoptimized AWQ kernels.",  # noqa: E501
+                    prefix,
+                )
+                return AWQConfig.from_config(self.full_config).get_quant_method(
+                    layer, prefix
+                )
+            return AWQMarlinLinearMethod(self)
+        elif isinstance(layer, FusedMoE):
+            from sglang.srt.layers.quantization.moe_wna16 import MoeWNA16Config
+
+            if not check_moe_marlin_supports_layer(layer, self.group_size):
+                logger.warning_once(
+                    f"Layer '{prefix}' is not supported by AWQMoeMarlin. "
+                    "Falling back to Moe WNA16 kernels."
+                )
+                return MoeWNA16Config.from_config(self.full_config).get_quant_method(
+                    layer, prefix
+                )
+            return AWQMoEMethod(self)
+        return None
+
+    @classmethod
+    def is_awq_marlin_compatible(cls, quant_config: dict[str, Any]):
+        # Extract data from quant config.
+        quant_method = quant_config.get("quant_method", "").lower()
+        num_bits = quant_config.get("bits")
+        group_size = quant_config.get("group_size")
+        zero_point = quant_config.get("zero_point")
+
+        if not _is_cuda:
+            return False
+
+        if quant_method != "awq":
+            return False
+
+        # If we cannot find the info needed in the config, cannot convert.
+        if num_bits is None or group_size is None or zero_point is None:
+            return False
+
+        if num_bits not in cls.TYPE_MAP:
+            return False
+
+        return check_marlin_supported(
+            quant_type=cls.TYPE_MAP[num_bits], group_size=group_size, has_zp=zero_point
+        )
+
+
 class AWQLinearMethod(LinearMethodBase):
     """Linear method for AWQ.
 
@@ -204,3 +405,382 @@ def apply(
         if bias is not None:
             out.add_(bias)
         return out.reshape(out_shape)
+
+
+class AWQMarlinLinearMethod(LinearMethodBase):
+    """Linear method for AWQ Marlin.
+
+    Args:
+        quant_config: The AWQ Marlin quantization config.
+    """
+
+    def __init__(self, quant_config: AWQMarlinConfig) -> None:
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        del output_size
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        verify_marlin_supports_shape(
+            output_size_per_partition=output_size_per_partition,
+            input_size_per_partition=input_size_per_partition,
+            input_size=input_size,
+            group_size=group_size,
+        )
+
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        num_groups = input_size_per_partition // group_size
+
+        qzeros = PackedvLLMParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        scales = GroupQuantScaleParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            input_dim=0,
+            output_dim=1,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("qzeros", qzeros)
+        layer.register_parameter("scales", scales)
+
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        layer.num_groups = num_groups
+
+    # TODO: Update this docs
+    # Checkpoints are serialized in AutoAWQ format, which is different from the
+    # marlin format. This function is called after the weights are loaded.
+    # Here, we handle the repacking
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        device = layer.qweight.device
+        layer.qweight = torch.nn.Parameter(layer.qweight.data, requires_grad=False)
+        layer.qzeros = torch.nn.Parameter(layer.qzeros.data, requires_grad=False)
+        layer.scales = torch.nn.Parameter(layer.scales.data, requires_grad=False)
+
+        # Allocate marlin workspace
+        layer.workspace = marlin_make_workspace(device)
+
+        # Repack weights from AWQ format to marlin format.
+        marlin_qweight = ops.awq_marlin_repack(
+            layer.qweight,
+            size_k=layer.input_size_per_partition,
+            size_n=layer.output_size_per_partition,
+            num_bits=self.quant_config.quant_type.size_bits,
+        )
+        replace_parameter(layer, "qweight", marlin_qweight)
+
+        # Permute scales from AWQ format to marlin format.
+        marlin_scales = marlin_permute_scales(
+            layer.scales,
+            size_k=layer.input_size_per_partition,
+            size_n=layer.output_size_per_partition,
+            group_size=self.quant_config.group_size,
+        )
+        replace_parameter(layer, "scales", marlin_scales)
+
+        # Permute zero-points from AWQ format to marlin format.
+        marlin_zp = awq_to_marlin_zero_points(
+            layer.qzeros,
+            size_k=layer.num_groups,
+            size_n=layer.output_size_per_partition,
+            num_bits=self.quant_config.quant_type.size_bits,
+        )
+        replace_parameter(layer, "qzeros", marlin_zp)
+
+        # Not-used
+        layer.g_idx = marlin_make_empty_g_idx(device)
+        layer.g_idx_sort_indices = marlin_make_empty_g_idx(device)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        return apply_awq_marlin_linear(
+            input=x,
+            weight=layer.qweight,
+            weight_scale=layer.scales,
+            weight_zp=layer.qzeros,
+            g_idx=layer.g_idx,
+            g_idx_sort_indices=layer.g_idx_sort_indices,
+            workspace=layer.workspace,
+            quant_type=self.quant_config.quant_type,
+            output_size_per_partition=layer.output_size_per_partition,
+            input_size_per_partition=layer.input_size_per_partition,
+            bias=bias,
+        )
+
+
+class AWQMoEMethod(FusedMoEMethodBase):
+
+    def __init__(self, quant_config: AWQMarlinConfig):
+        self.quant_config = quant_config
+        if self.quant_config.weight_bits != 4:
+            raise ValueError("AWQMoEMethod only supports 4bit now.")
+        self.quant_type = scalar_types.uint4
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # Delay the import to avoid circular dependency
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
+
+        extra_weight_attrs.update(
+            {
+                "is_transposed": True,
+                "quant_method": FusedMoeWeightScaleSupported.GROUP.value,
+            }
+        )
+
+        w13_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                2 * intermediate_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qweight", w13_qweight)
+        set_weight_attrs(w13_qweight, extra_weight_attrs)
+
+        w2_qweight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                intermediate_size_per_partition,
+                hidden_size // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qweight", w2_qweight)
+        set_weight_attrs(w2_qweight, extra_weight_attrs)
+
+        num_groups_w13 = hidden_size // self.quant_config.group_size
+        num_groups_w2 = intermediate_size_per_partition // self.quant_config.group_size
+
+        # WEIGHT_SCALES
+        # Allocate 2 scales for w1 and w3 respectively.
+        w13_scales = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                num_groups_w13,
+                intermediate_size_per_partition * 2,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_scales", w13_scales)
+        set_weight_attrs(w13_scales, extra_weight_attrs)
+
+        w2_scales = torch.nn.Parameter(
+            torch.empty(num_experts, num_groups_w2, hidden_size, dtype=params_dtype),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_scales", w2_scales)
+        set_weight_attrs(w2_scales, extra_weight_attrs)
+
+        # WEIGHT_ZERO_POINT
+        # Allocate 2 zero points for w1 and w3 respectively.
+        w13_qzeros = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                num_groups_w13,
+                2 * intermediate_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_qzeros", w13_qzeros)
+        set_weight_attrs(w13_qzeros, extra_weight_attrs)
+
+        w2_qzeros = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                num_groups_w2,
+                hidden_size // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_qzeros", w2_qzeros)
+        set_weight_attrs(w2_qzeros, extra_weight_attrs)
+
+        device = layer.w13_qweight.device
+        layer.workspace = marlin_make_workspace(device, 4)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        num_experts = layer.w13_qweight.shape[0]
+        device = layer.w13_qweight.device
+
+        layer.w13_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+            requires_grad=False,
+        )
+        layer.w2_g_idx_sort_indices = torch.nn.Parameter(
+            torch.empty((num_experts, 0), dtype=torch.int32, device=device),
+            requires_grad=False,
+        )
+
+        marlin_w13_qweight = ops.awq_marlin_moe_repack(
+            layer.w13_qweight,
+            layer.w13_g_idx_sort_indices,
+            size_k=layer.w13_qweight.shape[1],
+            size_n=layer.w13_qweight.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w13_qweight", marlin_w13_qweight)
+
+        marlin_w2_qweight = ops.awq_marlin_moe_repack(
+            layer.w2_qweight,
+            layer.w2_g_idx_sort_indices,
+            size_k=layer.w2_qweight.shape[1],
+            size_n=layer.w2_qweight.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w2_qweight", marlin_w2_qweight)
+
+        # hidden_size->intermediate_size
+        marlin_w13_scales = marlin_moe_permute_scales(
+            s=layer.w13_scales,
+            size_k=layer.intermediate_size_per_partition,
+            size_n=layer.w13_scales.shape[2],
+            group_size=self.quant_config.group_size,
+        )
+
+        replace_parameter(layer, "w13_scales", marlin_w13_scales)
+
+        marlin_w2_scales = marlin_moe_permute_scales(
+            s=layer.w2_scales,
+            size_k=layer.intermediate_size_per_partition,
+            size_n=layer.w2_scales.shape[2],
+            group_size=self.quant_config.group_size,
+        )
+        replace_parameter(layer, "w2_scales", marlin_w2_scales)
+
+        marlin_w13_zp = moe_awq_to_marlin_zero_points(
+            layer.w13_qzeros,
+            size_k=layer.w13_qzeros.shape[1],
+            size_n=layer.w13_qzeros.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w13_qzeros", marlin_w13_zp)
+
+        marlin_w2_zp = moe_awq_to_marlin_zero_points(
+            layer.w2_qzeros,
+            size_k=layer.w2_qzeros.shape[1],
+            size_n=layer.w2_qzeros.shape[2] * self.quant_config.pack_factor,
+            num_bits=self.quant_config.weight_bits,
+        )
+        replace_parameter(layer, "w2_qzeros", marlin_w2_zp)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        num_fused_shared_experts: int = 0,
+        custom_routing_function: Optional[Callable] = None,
+        scoring_func: str = "softmax",
+        correction_bias: Optional[torch.Tensor] = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+        # Delay the import to avoid circular dependency
+        from sglang.srt.layers.moe.topk import select_experts
+
+        assert activation == "silu", "Only SiLU activation is supported."
+        assert (
+            scoring_func == "softmax"
+        ), "Only softmax score func is supported for now."
+
+        # The input must currently be float16
+        orig_dtype = x.dtype
+        x = x.half()
+
+        topk_weights, topk_ids = select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            top_k=top_k,
+            use_grouped_topk=use_grouped_topk,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            num_fused_shared_experts=num_fused_shared_experts,
+            custom_routing_function=custom_routing_function,
+            correction_bias=correction_bias,
+            routed_scaling_factor=routed_scaling_factor,
+        )
+
+        return fused_marlin_moe(
+            x,
+            layer.w13_qweight,
+            layer.w2_qweight,
+            layer.w13_scales,
+            layer.w2_scales,
+            router_logits,
+            topk_weights,
+            topk_ids,
+            sort_indices1=layer.w13_g_idx_sort_indices,
+            sort_indices2=layer.w2_g_idx_sort_indices,
+            w1_zeros=layer.w13_qzeros,
+            w2_zeros=layer.w2_qzeros,
+            num_bits=self.quant_config.weight_bits,
+        ).to(orig_dtype)
diff --git a/python/sglang/srt/layers/quantization/utils.py b/python/sglang/srt/layers/quantization/utils.py
index 51d70255d90c..89e0eb84a2e6 100644
--- a/python/sglang/srt/layers/quantization/utils.py
+++ b/python/sglang/srt/layers/quantization/utils.py
@@ -11,7 +11,7 @@
 import torch
 
 from sglang.srt.layers.quantization.fp8_kernel import scaled_fp8_quant
-from sglang.srt.layers.quantization.scalar_type import ScalarType
+from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
 from sglang.srt.utils import cpu_has_amx_support, is_cpu, is_cuda, is_npu
 
 if TYPE_CHECKING:
@@ -247,6 +247,36 @@ def get_pack_factor(num_bits):
     return 32 // num_bits
 
 
+def permute_rows(
+    q_w: torch.Tensor,
+    w_ref: torch.Tensor,
+    group_size: int,
+    test_perm: Optional[torch.Tensor] = None,
+):
+    assert q_w.shape == w_ref.shape
+
+    orig_device = q_w.device
+    k_size, _ = q_w.shape
+
+    g_idx = torch.zeros((k_size,), dtype=torch.int32)
+    for i in range(k_size):
+        g_idx[i] = i // group_size
+
+    # Simulate act_order by doing a random permutation on K
+    rand_perm = test_perm if test_perm is not None else torch.randperm(k_size)
+
+    g_idx = g_idx[rand_perm].contiguous()
+    q_w = q_w[rand_perm, :].contiguous()
+    w_ref = w_ref[rand_perm, :].contiguous()
+
+    return (
+        w_ref.to(device=orig_device),
+        q_w.to(device=orig_device),
+        g_idx.to(device=orig_device),
+        rand_perm.to(device=orig_device),
+    )
+
+
 def pack_cols(
     q_w: torch.Tensor,
     num_bits: int,
@@ -399,3 +429,56 @@ def reshape_w(w):
         w_s if group_size is not None else None,
         maybe_w_zp,
     )
+
+
+SUPPORTED_GPTQ_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
+SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+
+def gptq_quantize_weights(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: int,
+    act_order: bool,
+    test_perm: Optional[torch.Tensor] = None,
+):
+    size_k, _ = w.shape
+
+    assert w.is_floating_point(), "w must be float"
+    assert (
+        quant_type in SUPPORTED_GPTQ_QUANT_TYPES
+    ), f"Unsupported gptq type = {quant_type}"
+    assert group_size in SUPPORTED_GROUP_SIZES + [
+        size_k
+    ], f"Unsupported groupsize = {group_size}"
+
+    w_ref, w_q, w_s, _ = quantize_weights(w, quant_type, group_size)
+
+    # Apply act_order
+    g_idx = torch.empty(0, dtype=torch.int, device=w.device)
+    rand_perm = torch.empty(0, dtype=torch.int, device=w.device)
+    if act_order:
+        assert (
+            group_size < size_k
+        ), "For act_order, groupsize = {} must be less than size_k = {}".format(
+            group_size, size_k
+        )
+
+        w_ref, w_q, g_idx, rand_perm = permute_rows(w_q, w_ref, group_size, test_perm)
+
+    return w_ref, w_q, w_s, g_idx, rand_perm
+
+
+def sort_weights(q_w: torch.Tensor, g_idx: torch.Tensor):
+    orig_device = q_w.device
+
+    sort_indices = torch.argsort(g_idx).to(dtype=torch.int32)  # Sort based on g_idx
+
+    g_idx = g_idx[sort_indices].contiguous()
+    q_w = q_w[sort_indices, :].contiguous()
+
+    return (
+        q_w.to(device=orig_device),
+        g_idx.to(device=orig_device),
+        sort_indices.to(device=orig_device),
+    )
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index bb1efde2941e..12aa9cb39c78 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -355,6 +355,7 @@ def __init__(
                 self.shared_experts.gate_up_proj.quant_method, "quant_config"
             ) and self.shared_experts.gate_up_proj.quant_method.quant_config.get_name() in {
                 "awq",
+                "awq_marlin",
                 "moe_wna16",
             }
             self.shared_experts_is_int8 = (
@@ -929,7 +930,7 @@ def __init__(
             has_fused_proj
             and hasattr(self.fused_qkv_a_proj_with_mqa.quant_method, "quant_config")
             and self.fused_qkv_a_proj_with_mqa.quant_method.quant_config.get_name()
-            in {"awq", "moe_wna16"}
+            in {"awq", "awq_marlin", "moe_wna16"}
         )
         self.use_min_latency_fused_a_gemm = (
             has_fused_proj
@@ -2551,6 +2552,7 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]], is_nextn=Fal
                                 cat_dim = 0
                                 if self.quant_config is not None and (
                                     self.quant_config.get_name() == "awq"
+                                    or self.quant_config.get_name() == "awq_marlin"
                                     or self.quant_config.get_name() == "moe_wna16"
                                 ):
                                     cat_dim = 1
diff --git a/python/sglang/test/test_marlin_moe.py b/python/sglang/test/test_marlin_moe.py
new file mode 100644
index 000000000000..e5b4c986a770
--- /dev/null
+++ b/python/sglang/test/test_marlin_moe.py
@@ -0,0 +1,286 @@
+import types
+from typing import Optional
+
+import pytest
+import torch
+from sgl_kernel import fused_marlin_moe
+
+from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
+from sglang.test.test_marlin_utils import awq_marlin_quantize, marlin_quantize
+
+
+def stack_and_dev(tensors: list[torch.Tensor]):
+    dev = tensors[0].device
+    return torch.stack(tensors, dim=0).to(dev)
+
+
+def torch_experts(
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+    global_num_experts: int = -1,
+    expert_map: Optional[torch.Tensor] = None,
+    quant_dtype: Optional[torch.dtype] = None,
+    apply_router_weights_on_input: bool = False,
+) -> torch.Tensor:
+    assert (
+        global_num_experts == -1
+        or (global_num_experts == w1.shape[0] and expert_map is None)
+        or (expert_map is not None and global_num_experts == expert_map.shape[0])
+    )
+
+    M, K = a.shape
+    topk = topk_ids.shape[1]
+    print("quant_dtype", quant_dtype)
+    # exit(0)
+    if apply_router_weights_on_input:
+        assert topk == 1
+        a = a * topk_weight.to(a.dtype)
+
+    a = a.view(M, -1, K).repeat(1, topk, 1).reshape(-1, K)
+
+    out = torch.zeros(M * topk, w2.shape[1], dtype=a.dtype, device=a.device)
+
+    num_experts = w1.shape[0]
+
+    topk_ids = topk_ids.view(-1)
+    if expert_map is not None:
+        topk_ids = expert_map[topk_ids]
+
+    f32 = torch.float32
+
+    for i in range(num_experts):
+        mask = topk_ids == i
+        if mask.sum():
+            if quant_dtype is None:
+                tmp1 = a[mask] @ w1[i].transpose(0, 1)
+                tmp2 = SiluAndMul()(tmp1)
+                out[mask] = tmp2 @ w2[i].transpose(0, 1)
+
+    if apply_router_weights_on_input:
+        return out
+    else:
+        return (
+            (out.view(M, -1, w2.shape[1]).to(f32) * topk_weight.view(M, -1, 1))
+            .sum(dim=1)
+            .to(out.dtype)
+        )
+
+
+def torch_moe(
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    score: torch.Tensor,
+    topk: int,
+    global_num_experts: int = -1,
+    expert_map: Optional[torch.Tensor] = None,
+) -> torch.Tensor:
+    score = torch.softmax(score, dim=-1, dtype=torch.float32)
+    topk_weight, topk_ids = torch.topk(score, topk)
+    return torch_experts(
+        a, w1, w2, topk_weight, topk_ids, global_num_experts, expert_map
+    )
+
+
+def marlin_moe_generate_valid_test_cases():
+    import itertools
+
+    m_list = [1, 123, 666]
+    n_list = [128, 1024]
+    k_list = [256, 2048]
+    e_list = [4, 12]
+    topk_list = [2, 3]
+    dtype_list = [torch.half, torch.bfloat16]
+    group_size_list = [128]
+    act_order_list = [True, False]
+    quant_type_list = [
+        scalar_types.uint4,
+        scalar_types.uint4b8,
+    ]
+    is_k_full_list = [True, False]
+
+    all_combinations = itertools.product(
+        m_list,
+        n_list,
+        k_list,
+        e_list,
+        topk_list,
+        dtype_list,
+        group_size_list,
+        act_order_list,
+        quant_type_list,
+        is_k_full_list,
+    )
+
+    def is_invalid(
+        m, n, k, e, topk, dtype, group_size, act_order, quant_type, is_k_full
+    ):
+
+        # Filter act_order
+        if act_order:
+            if group_size in (-1, k, n):
+                return False
+            if quant_type not in [scalar_types.uint4b8]:
+                return False
+        elif not is_k_full:
+            return False
+
+        return True
+
+    cases = []
+    for case in all_combinations:
+        if is_invalid(*case):
+            cases.append(case)
+    return cases
+
+
+@pytest.mark.flaky(reruns=2)
+@pytest.mark.parametrize(
+    ("m, n, k, e, topk, dtype, group_size," "act_order, quant_type, is_k_full"),
+    marlin_moe_generate_valid_test_cases(),
+)
+def test_fused_marlin_moe(
+    m: int,
+    n: int,
+    k: int,
+    e: int,
+    topk: int,
+    dtype: torch.dtype,
+    group_size: int,
+    act_order: bool,
+    quant_type: ScalarType,
+    is_k_full: bool,
+):
+    if not torch.cuda.is_available():
+        pytest.skip("CUDA device not available")
+
+    torch.manual_seed(0)
+
+    has_zp = quant_type in [scalar_types.uint4, scalar_types.uint8]
+
+    # Filter act_order
+    if act_order:
+        if group_size == -1:
+            return
+        if group_size in (k, n):
+            return
+        if has_zp:
+            return
+    else:
+        if not is_k_full:
+            return
+
+    a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
+    w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 20
+    w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 20
+
+    e_map = None
+
+    w_ref1_l = []
+    qweight1_l = []
+    scales1_l = []
+    zeros1_l = []
+    g_idx1_l = []
+    sort_indices1_l = []
+
+    for i in range(w1.shape[0]):
+        if has_zp:
+            w_ref1, qweight1, scales1, zeros1 = awq_marlin_quantize(
+                w1[i].transpose(1, 0), quant_type, group_size
+            )
+
+            w_ref1_l.append(w_ref1.T)
+            qweight1_l.append(qweight1)
+            scales1_l.append(scales1)
+            zeros1_l.append(zeros1)
+        else:
+            test_perm = torch.randperm(k)
+            w_ref1, qweight1, scales1, g_idx1, sort_indices1, _ = marlin_quantize(
+                w1[i].transpose(1, 0), quant_type, group_size, act_order, test_perm
+            )
+
+            w_ref1_l.append(w_ref1.T)
+            qweight1_l.append(qweight1)
+            scales1_l.append(scales1)
+            g_idx1_l.append(g_idx1)
+            sort_indices1_l.append(sort_indices1)
+
+    w_ref1 = stack_and_dev(w_ref1_l)
+    qweight1 = stack_and_dev(qweight1_l).contiguous()
+    scales1 = stack_and_dev(scales1_l)
+    g_idx1 = stack_and_dev(g_idx1_l) if g_idx1_l else None
+    zeros1 = stack_and_dev(zeros1_l) if zeros1_l else None
+    sort_indices1 = stack_and_dev(sort_indices1_l) if sort_indices1_l else None
+
+    w_ref2_l = []
+    qweight2_l = []
+    scales2_l = []
+    zeros2_l = []
+    g_idx2_l = []
+    sort_indices2_l = []
+
+    for i in range(w2.shape[0]):
+        if has_zp:
+            w_ref2, qweight2, scales2, zeros2 = awq_marlin_quantize(
+                w2[i].transpose(1, 0), quant_type, group_size
+            )
+
+            w_ref2_l.append(w_ref2.T)
+            qweight2_l.append(qweight2)
+            scales2_l.append(scales2)
+            zeros2_l.append(zeros2)
+        else:
+            test_perm = torch.randperm(n)
+            w_ref2, qweight2, scales2, g_idx2, sort_indices2, _ = marlin_quantize(
+                w2[i].transpose(1, 0), quant_type, group_size, act_order, test_perm
+            )
+
+            w_ref2_l.append(w_ref2.T)
+            qweight2_l.append(qweight2)
+            scales2_l.append(scales2)
+            g_idx2_l.append(g_idx2)
+            sort_indices2_l.append(sort_indices2)
+
+    w_ref2 = stack_and_dev(w_ref2_l)
+    qweight2 = stack_and_dev(qweight2_l).contiguous()
+    scales2 = stack_and_dev(scales2_l)
+    g_idx2 = stack_and_dev(g_idx2_l) if g_idx2_l else None
+    zeros2 = stack_and_dev(zeros2_l) if zeros2_l else None
+    sort_indices2 = stack_and_dev(sort_indices2_l) if sort_indices2_l else None
+
+    score = torch.randn((m, e), device="cuda", dtype=dtype)
+    from sglang.srt.layers.moe.topk import fused_topk_torch_native
+
+    topk_weights, topk_ids = fused_topk_torch_native(a, score, topk, False)
+
+    torch_output = torch_moe(a, w_ref1, w_ref2, score, topk, expert_map=e_map)
+
+    marlin_output = fused_marlin_moe(
+        a,
+        qweight1,
+        qweight2,
+        scales1,
+        scales2,
+        score,
+        topk_weights,
+        topk_ids,
+        g_idx1=g_idx1,
+        g_idx2=g_idx2,
+        sort_indices1=sort_indices1,
+        sort_indices2=sort_indices2,
+        w1_zeros=zeros1,
+        w2_zeros=zeros2,
+        num_bits=4,
+        is_k_full=is_k_full,
+    )
+
+    torch.testing.assert_close(marlin_output, torch_output, atol=5e-2, rtol=0)
+
+
+if __name__ == "__main__":
+    # Run the specific test function directly
+    pytest.main([__file__])
diff --git a/python/sglang/test/test_marlin_utils.py b/python/sglang/test/test_marlin_utils.py
new file mode 100644
index 000000000000..920cb7d8bef7
--- /dev/null
+++ b/python/sglang/test/test_marlin_utils.py
@@ -0,0 +1,171 @@
+"""
+Adapted from
+https://github.com/vllm-project/vllm/blob/020f58abcdea65302225663130d08fd8f4dd755a/vllm/model_executor/layers/quantization/utils/marlin_utils_test.py
+"""
+
+# SPDX-License-Identifier: Apache-2.0
+"""Utility functions used for tests and benchmarks"""
+
+from typing import Optional
+
+import numpy as np
+import torch
+
+from sglang.srt.layers.quantization.marlin_utils import (
+    GPTQ_MARLIN_TILE,
+    marlin_permute_scales,
+    marlin_zero_points,
+)
+from sglang.srt.layers.quantization.scalar_type import ScalarType
+from sglang.srt.layers.quantization.utils import (
+    get_pack_factor,
+    gptq_quantize_weights,
+    quantize_weights,
+    sort_weights,
+)
+
+
+class MarlinWorkspace:
+
+    def __init__(self, out_features, min_thread_n, max_parallel):
+        assert (
+            out_features % min_thread_n == 0
+        ), "out_features = {} is undivisible by min_thread_n = {}".format(
+            out_features, min_thread_n
+        )
+
+        max_workspace_size = (out_features // min_thread_n) * max_parallel
+
+        self.scratch = torch.zeros(max_workspace_size, dtype=torch.int, device="cuda")
+
+
+def marlin_permute_weights(q_w, size_k, size_n, perm, tile=GPTQ_MARLIN_TILE):
+    assert q_w.shape == (size_k, size_n)
+    assert size_k % tile == 0, f"size_k = {size_k}, tile = {tile}"
+    assert size_n % tile == 0, f"size_k = {size_n}, tile = {tile}"
+
+    # Permute weights to 16x64 marlin tiles
+    q_w = q_w.reshape((size_k // tile, tile, size_n // tile, tile))
+    q_w = q_w.permute((0, 2, 1, 3))
+    q_w = q_w.reshape((size_k // tile, size_n * tile))
+
+    q_w = q_w.reshape((-1, perm.numel()))[:, perm].reshape(q_w.shape)
+
+    return q_w
+
+
+def marlin_weights(q_w, size_k, size_n, num_bits, perm):
+    # Permute
+    q_w = marlin_permute_weights(q_w, size_k, size_n, perm)
+
+    # Pack
+    pack_factor = get_pack_factor(num_bits)
+    orig_device = q_w.device
+
+    q_w = q_w.cpu().numpy().astype(np.uint32)
+
+    q_packed = np.zeros((q_w.shape[0], q_w.shape[1] // pack_factor), dtype=np.uint32)
+    for i in range(pack_factor):
+        q_packed |= q_w[:, i::pack_factor] << num_bits * i
+
+    q_packed = torch.from_numpy(q_packed.astype(np.int32)).to(orig_device)
+
+    return q_packed
+
+
+def get_weight_perm(num_bits: int):
+    perm_list: list[int] = []
+    for i in range(32):
+        perm1: list[int] = []
+        col = i // 4
+        for block in [0, 1]:
+            for row in [
+                2 * (i % 4),
+                2 * (i % 4) + 1,
+                2 * (i % 4 + 4),
+                2 * (i % 4 + 4) + 1,
+            ]:
+                perm1.append(16 * row + col + 8 * block)
+        for j in range(4):
+            perm_list.extend([p + 256 * j for p in perm1])
+
+    perm = np.array(perm_list)
+
+    if num_bits == 4:
+        interleave = np.array([0, 2, 4, 6, 1, 3, 5, 7])
+    elif num_bits == 8:
+        interleave = np.array([0, 2, 1, 3])
+    else:
+        raise Exception("num_bits must be 4 or 8, got {}".format(num_bits))
+
+    perm = perm.reshape((-1, len(interleave)))[:, interleave].ravel()
+    perm = torch.from_numpy(perm)
+    return perm
+
+
+def marlin_quantize(
+    w: torch.Tensor,
+    quant_type: ScalarType,
+    group_size: int,
+    act_order: bool,
+    test_perm: Optional[torch.Tensor] = None,
+):
+    size_k, size_n = w.shape
+    num_bits = quant_type.size_bits
+
+    # Normalize group_size
+    if group_size == -1:
+        group_size = size_k
+    assert group_size <= size_k
+
+    # Quantize (and apply act_order if provided)
+    w_ref, q_w, s, g_idx, rand_perm = gptq_quantize_weights(
+        w, quant_type, group_size, act_order, test_perm
+    )
+
+    # For act_order, sort the "weights" and "g_idx" so that group ids are
+    # increasing
+    sort_indices = torch.empty(0, dtype=torch.int, device=w.device)
+    if act_order:
+        q_w, g_idx, sort_indices = sort_weights(q_w, g_idx)
+
+    # Reformat to marlin
+    weight_perm = get_weight_perm(num_bits)
+    marlin_q_w = marlin_weights(q_w, size_k, size_n, num_bits, weight_perm)
+    marlin_s = marlin_permute_scales(s, size_k, size_n, group_size)
+
+    # Create result
+    res_list = [w_ref, marlin_q_w, marlin_s, g_idx, sort_indices, rand_perm]
+    for i in range(len(res_list)):
+        res_list[i] = res_list[i].to(w.device)
+
+    return res_list
+
+
+def awq_marlin_quantize(w: torch.Tensor, quant_type: ScalarType, group_size: int):
+    size_k, size_n = w.shape
+
+    # Normalize group_size
+    if group_size == -1:
+        group_size = size_k
+    assert group_size <= size_k
+
+    # Detect num groups
+    assert size_k % group_size == 0
+    num_groups = size_k // group_size
+
+    # Quantize with zp
+    w_ref, q_w, s, zp = quantize_weights(w, quant_type, group_size, zero_points=True)
+
+    # Reformat to marlin
+    weight_perm = get_weight_perm(quant_type.size_bits)
+    marlin_q_w = marlin_weights(q_w, size_k, size_n, quant_type.size_bits, weight_perm)
+    marlin_s = marlin_permute_scales(s, size_k, size_n, group_size)
+    marlin_zp = marlin_zero_points(zp, num_groups, size_n, quant_type.size_bits)
+
+    # Create result
+    res_list = [w_ref, marlin_q_w, marlin_s, marlin_zp]
+    for i in range(len(res_list)):
+        res_list[i] = res_list[i].to(w.device)
+
+    return res_list
diff --git a/test/srt/test_gptqmodel_dynamic.py b/test/srt/test_gptqmodel_dynamic.py
index feda8693459e..9be711d12420 100644
--- a/test/srt/test_gptqmodel_dynamic.py
+++ b/test/srt/test_gptqmodel_dynamic.py
@@ -24,7 +24,7 @@ def check_quant_method(model_path: str, use_marlin_kernel: bool):
         set_custom_all_reduce,
     )
     from sglang.srt.distributed.parallel_state import monkey_patch_vllm_parallel_state
-    from sglang.srt.layers.quantization import get_dynamic_override
+    from sglang.srt.layers.quantization.utils import get_dynamic_override
     from sglang.srt.model_loader import get_model
     from sglang.srt.server_args import PortArgs, ServerArgs
 

From c8f31042a85fe49c19e5dd2b38bc8356d2bf9e94 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Fri, 18 Jul 2025 14:24:24 -0700
Subject: [PATCH 036/396] [router] Refactor router and policy traits with
 dependency injection (#7987)

Co-authored-by: Jin Pan <jpan236@wisc.edu>
Co-authored-by: Keru Yang <rukeyang@gmail.com>
Co-authored-by: Yingyi Huang <yingyihuang2000@outlook.com>
Co-authored-by: Philip Zhu <phlipzhux@gmail.com>
---
 .github/workflows/pr-test-pd-router.yml       |  310 ++--
 scripts/ci_start_disaggregation_servers.sh    |   20 +-
 sgl-router/benches/request_processing.rs      |    2 +-
 sgl-router/py_test/test_launch_router.py      |   35 +-
 sgl-router/src/config/types.rs                |    4 +-
 sgl-router/src/config/validation.rs           |   51 +-
 sgl-router/src/lib.rs                         |   14 +-
 sgl-router/src/policies/cache_aware.rs        |  399 +++++
 sgl-router/src/policies/factory.rs            |   94 ++
 sgl-router/src/policies/mod.rs                |  143 ++
 sgl-router/src/policies/power_of_two.rs       |  201 +++
 sgl-router/src/policies/random.rs             |  116 ++
 sgl-router/src/policies/round_robin.rs        |  136 ++
 sgl-router/src/router.rs                      | 1376 -----------------
 sgl-router/src/routers/factory.rs             |   66 +
 sgl-router/src/routers/mod.rs                 |  101 ++
 sgl-router/src/{ => routers}/pd_router.rs     |  633 +++++---
 sgl-router/src/{ => routers}/pd_types.rs      |    0
 .../src/{ => routers}/request_adapter.rs      |    2 +-
 sgl-router/src/routers/router.rs              | 1055 +++++++++++++
 sgl-router/src/server.rs                      |  193 +--
 sgl-router/src/service_discovery.rs           |   87 +-
 sgl-router/tests/benchmark_integration.rs     |    2 +-
 sgl-router/tests/test_pd_routing.rs           |  110 +-
 24 files changed, 3198 insertions(+), 1952 deletions(-)
 create mode 100644 sgl-router/src/policies/cache_aware.rs
 create mode 100644 sgl-router/src/policies/factory.rs
 create mode 100644 sgl-router/src/policies/mod.rs
 create mode 100644 sgl-router/src/policies/power_of_two.rs
 create mode 100644 sgl-router/src/policies/random.rs
 create mode 100644 sgl-router/src/policies/round_robin.rs
 delete mode 100644 sgl-router/src/router.rs
 create mode 100644 sgl-router/src/routers/factory.rs
 create mode 100644 sgl-router/src/routers/mod.rs
 rename sgl-router/src/{ => routers}/pd_router.rs (67%)
 rename sgl-router/src/{ => routers}/pd_types.rs (100%)
 rename sgl-router/src/{ => routers}/request_adapter.rs (99%)
 create mode 100644 sgl-router/src/routers/router.rs

diff --git a/.github/workflows/pr-test-pd-router.yml b/.github/workflows/pr-test-pd-router.yml
index 271a8b3d92b6..91e809123934 100644
--- a/.github/workflows/pr-test-pd-router.yml
+++ b/.github/workflows/pr-test-pd-router.yml
@@ -131,110 +131,199 @@ jobs:
         SERVER_PID=$!
         echo "server_pid=$SERVER_PID" >> $GITHUB_OUTPUT
 
-        echo "Waiting for router to become healthy..."
-        TIMEOUT=300
-        ELAPSED=0
-        while [ $ELAPSED -lt $TIMEOUT ]; do
-          if curl --connect-timeout 5 --silent http://127.0.0.9:8000 > /dev/null 2>&1; then
-            echo "✓ Router is reachable"
-            break
-          fi
-          if ! ps -p $SERVER_PID > /dev/null; then
-            echo "Error: Server processes failed to start"
-            exit 1
+        # Wait for all 8 servers to be healthy (script already does this)
+        wait_count=0
+        while [ $wait_count -lt 30 ]; do
+          if ps -p $SERVER_PID > /dev/null; then
+            # Check if the startup script printed success message
+            sleep 2
+            wait_count=$((wait_count + 1))
+          else
+            # Script exited - check if it was successful
+            wait $SERVER_PID
+            exit_code=$?
+            if [ $exit_code -eq 0 ]; then
+              echo "✓ All disaggregation servers are healthy"
+              break
+            else
+              echo "Error: Server startup failed with code $exit_code"
+              exit 1
+            fi
           fi
-          echo "Waiting for router... (${ELAPSED}s/${TIMEOUT}s)"
-          sleep 10
-          ELAPSED=$((ELAPSED + 10))
         done
 
-        if [ $ELAPSED -ge $TIMEOUT ]; then
-          echo "Error: Router health check timeout after ${TIMEOUT}s"
-          exit 1
-        fi
-
-        echo "✓ Servers started and healthy (PID: $SERVER_PID)"
+        echo "✓ Servers started (PID: $SERVER_PID)"
 
-    - name: Test API functionality
-      timeout-minutes: 5
+    - name: Test all policies sequentially
+      timeout-minutes: 30
       run: |
+        POLICIES=("random" "round_robin" "cache_aware" "power_of_two")
         BASE_URL="http://127.0.0.9:8000"
 
-        echo "Testing API completions..."
-        response=$(curl -s -X POST "$BASE_URL/v1/chat/completions" \
-          -H "Content-Type: application/json" \
-          -H "Authorization: Bearer test-token" \
-          -d '{
-            "model": "/raid/models/meta-llama/Llama-3.1-8B-Instruct",
-            "messages": [
-              {"role": "user", "content": "Write a Python function to calculate fibonacci numbers recursively"}
-            ],
-            "stream": false,
-            "max_tokens": 100
-          }')
-
-        if echo "$response" | jq -e '.choices[0].message.content' > /dev/null 2>&1; then
-          echo "✓ API test passed"
-        else
-          echo "✗ API test failed: $response"
-          exit 1
-        fi
+        for policy in "${POLICIES[@]}"; do
+          echo ""
+          echo "=================================================="
+          echo "Testing policy: $policy"
+          echo "=================================================="
+
+          # Start router with the current policy
+          echo "Starting router with policy: $policy..."
+          python3 -m sglang_router.launch_router \
+            --pd-disaggregation \
+            --policy "$policy" \
+            --prefill http://127.0.0.1:30001 9001 \
+            --prefill http://127.0.0.2:30002 9002 \
+            --prefill http://127.0.0.3:30003 9003 \
+            --prefill http://127.0.0.4:30004 9004 \
+            --decode http://127.0.0.5:30005 \
+            --decode http://127.0.0.6:30006 \
+            --decode http://127.0.0.7:30007 \
+            --decode http://127.0.0.8:30008 \
+            --host 127.0.0.9 \
+            --port 8000 &
+          ROUTER_PID=$!
+
+          # Wait for router to become healthy
+          echo "Waiting for router to become healthy..."
+          TIMEOUT=60
+          ELAPSED=0
+          while [ $ELAPSED -lt $TIMEOUT ]; do
+            if curl --connect-timeout 5 --silent http://127.0.0.9:8000 > /dev/null 2>&1; then
+              echo "✓ Router is reachable"
+              break
+            fi
+            if ! ps -p $ROUTER_PID > /dev/null; then
+              echo "Error: Router process died"
+              exit 1
+            fi
+            sleep 5
+            ELAPSED=$((ELAPSED + 5))
+          done
 
-        echo "Testing streaming API..."
-        stream_response=$(timeout 30 curl -s -X POST "$BASE_URL/v1/chat/completions" \
-          -H "Content-Type: application/json" \
-          -H "Authorization: Bearer test-token" \
-          -d '{
-            "model": "/raid/models/meta-llama/Llama-3.1-8B-Instruct",
-            "messages": [
-              {"role": "user", "content": "Count from 1 to 5"}
-            ],
-            "stream": true,
-            "max_tokens": 50
-          }')
-
-        if echo "$stream_response" | grep -q "data:"; then
-          echo "✓ Streaming API test passed"
-        else
-          echo "✗ Streaming API test failed"
-          exit 1
-        fi
+          if [ $ELAPSED -ge $TIMEOUT ]; then
+            echo "Error: Router health check timeout"
+            kill $ROUTER_PID 2>/dev/null || true
+            exit 1
+          fi
 
-    - name: Run benchmark test
-      timeout-minutes: 5
-      run: |
-        echo "Running benchmark test..."
-        benchmark_output=$(python3 -m sglang.bench_one_batch_server \
-          --model-path "/raid/models/meta-llama/Llama-3.1-8B-Instruct" \
-          --base-url "http://127.0.0.9:8000" \
-          --batch-size 8 \
-          --input-len 4096 \
-          --output-len 5 \
-          --skip-warmup)
-
-        echo "$benchmark_output"
-
-        # Extract metrics from output
-        latency=$(echo "$benchmark_output" | grep "latency:" | awk '{print $2}' | sed 's/s//')
-        input_throughput=$(echo "$benchmark_output" | grep "input throughput:" | awk '{print $3}')
-        output_throughput=$(echo "$benchmark_output" | grep "output throughput:" | awk '{print $3}')
-
-        # Validate performance (latency<1.5s, input>20k, output>1k)
-        command -v bc >/dev/null || (apt-get update && apt-get install -y bc)
-
-        echo "Performance: ${latency}s | ${input_throughput} | ${output_throughput} tok/s"
-
-        fail=""
-        (( $(echo "$latency > 1.5" | bc -l) )) && fail="Latency too high (${latency}s>1.5s) "
-        (( $(echo "$input_throughput < 20000" | bc -l) )) && fail="${fail}Input too low (${input_throughput}<20k) "
-        (( $(echo "$output_throughput < 1000" | bc -l) )) && fail="${fail}Output too low (${output_throughput}<1k) "
-
-        if [ -n "$fail" ]; then
-          echo "✗ Benchmark failed: $fail"
-          exit 1
-        else
-          echo "✓ Performance validation passed"
-        fi
+          # Test API functionality
+          echo "Testing API completions for $policy..."
+          response=$(curl -s -X POST "$BASE_URL/v1/chat/completions" \
+            -H "Content-Type: application/json" \
+            -H "Authorization: Bearer test-token" \
+            -d '{
+              "model": "/raid/models/meta-llama/Llama-3.1-8B-Instruct",
+              "messages": [
+                {"role": "user", "content": "Write a Python function to calculate fibonacci numbers recursively"}
+              ],
+              "stream": false,
+              "max_tokens": 100
+            }')
+
+          if echo "$response" | jq -e '.choices[0].message.content' > /dev/null 2>&1; then
+            echo "✓ API test passed for $policy"
+          else
+            echo "✗ API test failed for $policy: $response"
+            kill $ROUTER_PID 2>/dev/null || true
+            exit 1
+          fi
+
+          # Test streaming
+          echo "Testing streaming API for $policy..."
+          stream_response=$(timeout 30 curl -s -X POST "$BASE_URL/v1/chat/completions" \
+            -H "Content-Type: application/json" \
+            -H "Authorization: Bearer test-token" \
+            -d '{
+              "model": "/raid/models/meta-llama/Llama-3.1-8B-Instruct",
+              "messages": [
+                {"role": "user", "content": "Count from 1 to 5"}
+              ],
+              "stream": true,
+              "max_tokens": 50
+            }')
+
+          if echo "$stream_response" | grep -q "data:"; then
+            echo "✓ Streaming API test passed for $policy"
+          else
+            echo "✗ Streaming API test failed for $policy"
+            kill $ROUTER_PID 2>/dev/null || true
+            exit 1
+          fi
+
+          # Run benchmark
+          echo "Running benchmark for $policy..."
+          benchmark_output=$(python3 -m sglang.bench_one_batch_server \
+            --model-path "/raid/models/meta-llama/Llama-3.1-8B-Instruct" \
+            --base-url "http://127.0.0.9:8000" \
+            --batch-size 8 \
+            --input-len 4096 \
+            --output-len 5 \
+            --skip-warmup)
+
+          echo "$benchmark_output"
+
+          # Save benchmark output
+          echo "$benchmark_output" > "benchmark_${policy}.txt"
+
+          # Extract and validate metrics
+          latency=$(echo "$benchmark_output" | grep "latency:" | awk '{print $2}' | sed 's/s//')
+          input_throughput=$(echo "$benchmark_output" | grep "input throughput:" | awk '{print $3}')
+          output_throughput=$(echo "$benchmark_output" | grep "output throughput:" | awk '{print $3}')
+
+          command -v bc >/dev/null || (apt-get update && apt-get install -y bc)
+
+          echo "Performance for $policy: ${latency}s | ${input_throughput} | ${output_throughput} tok/s"
+
+          # Validate performance
+          fail=""
+          (( $(echo "$latency > 1.5" | bc -l) )) && fail="Latency too high (${latency}s>1.5s) "
+          (( $(echo "$input_throughput < 20000" | bc -l) )) && fail="${fail}Input too low (${input_throughput}<20k) "
+          (( $(echo "$output_throughput < 1000" | bc -l) )) && fail="${fail}Output too low (${output_throughput}<1k) "
+
+          if [ -n "$fail" ]; then
+            echo "✗ Benchmark failed for $policy: $fail"
+            kill $ROUTER_PID 2>/dev/null || true
+            exit 1
+          else
+            echo "✓ Performance validation passed for $policy"
+          fi
+
+          # Stop router before testing next policy
+          echo "Stopping router for $policy..."
+          # First try graceful shutdown
+          kill $ROUTER_PID 2>/dev/null || true
+
+          # Wait up to 5 seconds for graceful shutdown
+          for i in {1..5}; do
+            if ! ps -p $ROUTER_PID > /dev/null 2>&1; then
+              echo "Router stopped gracefully"
+              break
+            fi
+            sleep 1
+          done
+
+          # Force kill if still running
+          if ps -p $ROUTER_PID > /dev/null 2>&1; then
+            echo "Force killing router..."
+            kill -9 $ROUTER_PID 2>/dev/null || true
+          fi
+
+          # Short delay to ensure port is released
+          sleep 2
+
+          echo "✓ Completed testing for $policy"
+        done
+
+        echo ""
+        echo "✅ All policies tested successfully!"
+
+
+    - name: Upload benchmark results
+      if: success()
+      uses: actions/upload-artifact@v4
+      with:
+        name: benchmark-results-all-policies
+        path: benchmark_*.txt
 
     - name: Cleanup servers
       if: always()
@@ -247,3 +336,34 @@ jobs:
         sleep 5
         remaining=$(ps aux | grep -c "sglang.launch_server" || echo "0")
         echo "Cleanup completed. Remaining processes: $remaining"
+
+  summarize-benchmarks:
+    needs: test-disaggregation
+    runs-on: ubuntu-latest
+    if: success()
+
+    steps:
+    - name: Download benchmark results
+      uses: actions/download-artifact@v4
+      with:
+        name: benchmark-results-all-policies
+
+    - name: Create benchmark summary
+      run: |
+        echo "## PD Router Benchmark Results Summary" >> $GITHUB_STEP_SUMMARY
+        echo "" >> $GITHUB_STEP_SUMMARY
+        echo "| Policy | Latency (s) | Input Throughput (tok/s) | Output Throughput (tok/s) |" >> $GITHUB_STEP_SUMMARY
+        echo "|--------|-------------|-------------------------|--------------------------|" >> $GITHUB_STEP_SUMMARY
+
+        for policy in random round_robin cache_aware power_of_two; do
+          if [ -f "benchmark_${policy}.txt" ]; then
+            latency=$(grep "latency:" "benchmark_${policy}.txt" | awk '{print $2}')
+            input_throughput=$(grep "input throughput:" "benchmark_${policy}.txt" | awk '{print $3}')
+            output_throughput=$(grep "output throughput:" "benchmark_${policy}.txt" | awk '{print $3}')
+
+            echo "| ${policy} | ${latency} | ${input_throughput} | ${output_throughput} |" >> $GITHUB_STEP_SUMMARY
+          fi
+        done
+
+        echo "" >> $GITHUB_STEP_SUMMARY
+        echo "✅ All policies tested successfully!" >> $GITHUB_STEP_SUMMARY
diff --git a/scripts/ci_start_disaggregation_servers.sh b/scripts/ci_start_disaggregation_servers.sh
index f652a4f048b4..22643e0df1a8 100755
--- a/scripts/ci_start_disaggregation_servers.sh
+++ b/scripts/ci_start_disaggregation_servers.sh
@@ -87,20 +87,8 @@ while true; do
     fi
 done
 
-# Launch the router
-echo "Launching router at 127.0.0.9:8000..."
-python3 -m sglang_router.launch_router \
-  --pd-disaggregation \
-  --policy power_of_two \
-  --prefill http://127.0.0.1:30001 9001 \
-  --prefill http://127.0.0.2:30002 9002 \
-  --prefill http://127.0.0.3:30003 9003 \
-  --prefill http://127.0.0.4:30004 9004 \
-  --decode http://127.0.0.5:30005 \
-  --decode http://127.0.0.6:30006 \
-  --decode http://127.0.0.7:30007 \
-  --decode http://127.0.0.8:30008 \
-  --host 127.0.0.9 \
-  --port 8000 &
+# Don't launch router here - just keep servers running
+echo "✅ All disaggregation servers are ready and waiting for router connections"
 
-wait  # Wait for all background jobs to finish
+# Keep the script running
+wait  # Wait for all background server jobs
diff --git a/sgl-router/benches/request_processing.rs b/sgl-router/benches/request_processing.rs
index c2cee90d51c1..576d07d2f79c 100644
--- a/sgl-router/benches/request_processing.rs
+++ b/sgl-router/benches/request_processing.rs
@@ -6,7 +6,7 @@ use sglang_router_rs::openai_api_types::{
     ChatCompletionRequest, ChatMessage, CompletionRequest, GenerateParameters, GenerateRequest,
     SamplingParams, StringOrArray, UserMessageContent,
 };
-use sglang_router_rs::request_adapter::{RouteableRequest, ToPdRequest};
+use sglang_router_rs::routers::request_adapter::{RouteableRequest, ToPdRequest};
 
 // Sample request data for benchmarks
 fn create_sample_generate_request() -> GenerateRequest {
diff --git a/sgl-router/py_test/test_launch_router.py b/sgl-router/py_test/test_launch_router.py
index eb2018283070..14a0fa12d4a9 100644
--- a/sgl-router/py_test/test_launch_router.py
+++ b/sgl-router/py_test/test_launch_router.py
@@ -164,56 +164,47 @@ def test_policy_validation(self):
         """Test that policy validation works correctly for PD and regular modes."""
         from sglang_router.launch_router import RouterArgs, launch_router
 
-        # Test 1: PowerOfTwo is only valid in PD mode
+        # Test 1: PowerOfTwo requires at least 2 workers
         args = self.create_router_args(
             pd_disaggregation=False,
             policy="power_of_two",
-            worker_urls=["http://localhost:8000"],
+            worker_urls=["http://localhost:8000"],  # Only 1 worker
         )
 
         # Should raise error
         with self.assertRaises(ValueError) as cm:
             launch_router(args)
         self.assertIn(
-            "PowerOfTwo policy is only supported in PD disaggregated mode",
+            "Power-of-two policy requires at least 2 workers",
             str(cm.exception),
         )
 
-        # Test 2: RoundRobin is not valid in PD mode
+        # Test 2: PowerOfTwo with sufficient workers should succeed
         args = self.create_router_args(
-            pd_disaggregation=True,
-            policy="round_robin",
-            prefill=[["http://prefill1:8080", "9000"]],
-            decode=[["http://decode1:8081"]],
-            worker_urls=[],
-        )
-
-        # Should raise error
-        with self.assertRaises(ValueError) as cm:
-            launch_router(args)
-        self.assertIn(
-            "RoundRobin policy is not supported in PD disaggregated mode",
-            str(cm.exception),
+            pd_disaggregation=False,
+            policy="power_of_two",
+            worker_urls=["http://localhost:8000", "http://localhost:8001"],  # 2 workers
         )
+        # This should not raise an error (validation passes)
 
-        # Test 3: Valid combinations should not raise errors
+        # Test 3: All policies now work in both modes
         # Regular mode with RoundRobin
         args = self.create_router_args(
             pd_disaggregation=False,
             policy="round_robin",
             worker_urls=["http://localhost:8000"],
         )
-        # This should not raise (though it may fail to connect)
+        # This should not raise validation error
 
-        # PD mode with PowerOfTwo
+        # PD mode with RoundRobin (now supported!)
         args = self.create_router_args(
             pd_disaggregation=True,
-            policy="power_of_two",
+            policy="round_robin",
             prefill=[["http://prefill1:8080", "9000"]],
             decode=[["http://decode1:8081"]],
             worker_urls=[],
         )
-        # This should not raise (though it may fail to connect)
+        # This should not raise validation error
 
     def test_pd_service_discovery_args_parsing(self):
         """Test PD service discovery CLI argument parsing."""
diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index 9d57f439d756..6b24a5fd1f4a 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -1,4 +1,4 @@
-use super::{ConfigError, ConfigResult};
+use super::ConfigResult;
 use serde::{Deserialize, Serialize};
 use std::collections::HashMap;
 
@@ -215,6 +215,7 @@ impl RouterConfig {
         self.metrics.is_some()
     }
 
+    /* Commented out - no longer needed without compatibility layer
     /// Convert to routing PolicyConfig for internal use
     pub fn to_routing_policy_config(&self) -> ConfigResult<crate::router::PolicyConfig> {
         match (&self.mode, &self.policy) {
@@ -291,4 +292,5 @@ impl RouterConfig {
             }
         }
     }
+    */
 }
diff --git a/sgl-router/src/config/validation.rs b/sgl-router/src/config/validation.rs
index 838742722e19..381fcce075d8 100644
--- a/sgl-router/src/config/validation.rs
+++ b/sgl-router/src/config/validation.rs
@@ -255,29 +255,8 @@ impl ConfigValidator {
 
     /// Validate compatibility between different configuration sections
     fn validate_compatibility(config: &RouterConfig) -> ConfigResult<()> {
-        // Check mode and policy compatibility
-        match (&config.mode, &config.policy) {
-            (RoutingMode::Regular { .. }, PolicyConfig::PowerOfTwo { .. }) => {
-                // PowerOfTwo is only supported in PD mode
-                return Err(ConfigError::IncompatibleConfig {
-                    reason: "PowerOfTwo policy is only supported in PD disaggregated mode"
-                        .to_string(),
-                });
-            }
-            (RoutingMode::PrefillDecode { .. }, PolicyConfig::RoundRobin) => {
-                return Err(ConfigError::IncompatibleConfig {
-                    reason: "RoundRobin policy is not supported in PD disaggregated mode"
-                        .to_string(),
-                });
-            }
-            (RoutingMode::PrefillDecode { .. }, PolicyConfig::CacheAware { .. }) => {
-                return Err(ConfigError::IncompatibleConfig {
-                    reason: "CacheAware policy is not supported in PD disaggregated mode"
-                        .to_string(),
-                });
-            }
-            _ => {}
-        }
+        // All policies are now supported for both router types thanks to the unified trait design
+        // No mode/policy restrictions needed anymore
 
         // Check if service discovery is enabled for worker count validation
         let has_service_discovery = config.discovery.as_ref().map_or(false, |d| d.enabled);
@@ -459,8 +438,8 @@ mod tests {
     }
 
     #[test]
-    fn test_validate_incompatible_policy() {
-        // RoundRobin with PD mode
+    fn test_validate_roundrobin_with_pd_mode() {
+        // RoundRobin with PD mode is now supported
         let config = RouterConfig::new(
             RoutingMode::PrefillDecode {
                 prefill_urls: vec![("http://prefill:8000".to_string(), None)],
@@ -470,16 +449,12 @@ mod tests {
         );
 
         let result = ConfigValidator::validate(&config);
-        assert!(result.is_err());
-        assert!(result
-            .unwrap_err()
-            .to_string()
-            .contains("RoundRobin policy is not supported in PD disaggregated mode"));
+        assert!(result.is_ok());
     }
 
     #[test]
     fn test_validate_cache_aware_with_pd_mode() {
-        // CacheAware with PD mode should fail
+        // CacheAware with PD mode is now supported
         let config = RouterConfig::new(
             RoutingMode::PrefillDecode {
                 prefill_urls: vec![("http://prefill:8000".to_string(), None)],
@@ -495,16 +470,12 @@ mod tests {
         );
 
         let result = ConfigValidator::validate(&config);
-        assert!(result.is_err());
-        assert!(result
-            .unwrap_err()
-            .to_string()
-            .contains("CacheAware policy is not supported in PD disaggregated mode"));
+        assert!(result.is_ok());
     }
 
     #[test]
     fn test_validate_power_of_two_with_regular_mode() {
-        // PowerOfTwo with Regular mode should fail
+        // PowerOfTwo with Regular mode is now supported
         let config = RouterConfig::new(
             RoutingMode::Regular {
                 worker_urls: vec![
@@ -518,10 +489,6 @@ mod tests {
         );
 
         let result = ConfigValidator::validate(&config);
-        assert!(result.is_err());
-        assert!(result
-            .unwrap_err()
-            .to_string()
-            .contains("PowerOfTwo policy is only supported in PD disaggregated mode"));
+        assert!(result.is_ok());
     }
 }
diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index 2b1bcffce94d..49e8cc573059 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -4,11 +4,9 @@ pub mod logging;
 use std::collections::HashMap;
 pub mod core;
 pub mod openai_api_types;
-pub mod pd_router;
-pub mod pd_types;
+pub mod policies;
 pub mod prometheus;
-pub mod request_adapter;
-pub mod router;
+pub mod routers;
 pub mod server;
 pub mod service_discovery;
 pub mod tree;
@@ -241,11 +239,6 @@ impl Router {
             ))
         })?;
 
-        // Convert to internal policy config
-        let policy_config = router_config
-            .to_routing_policy_config()
-            .map_err(|e| pyo3::exceptions::PyValueError::new_err(e.to_string()))?;
-
         // Create service discovery config if enabled
         let service_discovery_config = if self.service_discovery {
             Some(service_discovery::ServiceDiscoveryConfig {
@@ -282,8 +275,7 @@ impl Router {
             server::startup(server::ServerConfig {
                 host: self.host.clone(),
                 port: self.port,
-                worker_urls: self.worker_urls.clone(),
-                policy_config,
+                router_config,
                 max_payload_size: self.max_payload_size,
                 log_dir: self.log_dir.clone(),
                 log_level: self.log_level.clone(),
diff --git a/sgl-router/src/policies/cache_aware.rs b/sgl-router/src/policies/cache_aware.rs
new file mode 100644
index 000000000000..db5972ba68a1
--- /dev/null
+++ b/sgl-router/src/policies/cache_aware.rs
@@ -0,0 +1,399 @@
+/*
+    Cache-Aware Load Balancing Router
+
+    This router combines two strategies to optimize both cache utilization and request distribution:
+
+    1. Cache-Aware Routing (Approximate Tree)
+    2. Load Balancing (Shortest Queue with Balance Thresholds)
+
+    The router dynamically switches between these strategies based on load conditions:
+    - Uses load balancing when the system is imbalanced
+    - Uses cache-aware routing when the system is balanced
+
+    A system is considered imbalanced if both conditions are met:
+    1. (max - min) > abs_threshold
+    2. max > rel_threshold * min
+
+    Strategy Details:
+
+    1. Cache-Aware Routing (Approximate Tree)
+    -------------------------------------------
+    This strategy maintains an approximate radix tree for each worker based on request history,
+    eliminating the need for direct cache state queries. The tree stores raw text characters
+    instead of token IDs to avoid tokenization overhead.
+
+    Process:
+    a. For each request, find the worker with the highest prefix match
+    b. If match rate > cache_threshold:
+    Route to the worker with highest match (likely has relevant data cached)
+    c. If match rate ≤ cache_threshold:
+    Route to the worker with smallest tree size (most available cache capacity)
+    d. Background maintenance:
+    Periodically evict least recently used leaf nodes to prevent memory overflow
+
+    2. Load Balancing (Shortest Queue)
+    -------------------------------------------
+    This strategy tracks pending request counts per worker and routes new requests
+    to the least busy worker when the system is detected to be imbalanced.
+
+    Configuration Parameters:
+    ------------------------
+    1. cache_threshold: (float, 0.0 to 1.0)
+    Minimum prefix match ratio to use highest-match routing.
+    Below this threshold, routes to worker with most available cache space.
+
+    2. balance_abs_threshold: (integer)
+    Absolute difference threshold for load imbalance detection.
+    System is potentially imbalanced if (max_load - min_load) > abs_threshold
+
+    3. balance_rel_threshold: (float)
+    Relative ratio threshold for load imbalance detection.
+    System is potentially imbalanced if max_load > min_load * rel_threshold
+    Used in conjunction with abs_threshold to determine final imbalance state.
+
+    4. eviction_interval_secs: (integer)
+    Interval between LRU eviction cycles for the approximate trees.
+
+    5. max_tree_size: (integer)
+    Maximum nodes per tree. When exceeded, LRU leaf nodes are evicted
+    during the next eviction cycle.
+*/
+
+use super::{get_healthy_worker_indices, CacheAwareConfig, LoadBalancingPolicy};
+use crate::core::Worker;
+use crate::tree::Tree;
+use metrics::{counter, gauge};
+use std::sync::{Arc, Mutex};
+use std::thread;
+use std::time::Duration;
+use tracing::{debug, info};
+
+/// Cache-aware routing policy
+///
+/// Routes requests based on cache affinity when load is balanced,
+/// switches to shortest-queue routing when load is imbalanced.
+#[derive(Debug)]
+pub struct CacheAwarePolicy {
+    config: CacheAwareConfig,
+    tree: Arc<Mutex<Tree>>,
+    eviction_handle: Option<thread::JoinHandle<()>>,
+}
+
+impl CacheAwarePolicy {
+    pub fn new() -> Self {
+        Self::with_config(CacheAwareConfig::default())
+    }
+
+    pub fn with_config(config: CacheAwareConfig) -> Self {
+        let tree = Arc::new(Mutex::new(Tree::new()));
+
+        // Start background eviction thread if configured
+        let eviction_handle = if config.eviction_interval_secs > 0 {
+            let tree_clone = Arc::clone(&tree);
+            let max_tree_size = config.max_tree_size;
+            let interval = config.eviction_interval_secs;
+
+            Some(thread::spawn(move || loop {
+                thread::sleep(Duration::from_secs(interval));
+
+                if let Ok(tree_guard) = tree_clone.lock() {
+                    tree_guard.evict_tenant_by_size(max_tree_size);
+                    debug!("Cache eviction completed, max_size: {}", max_tree_size);
+                }
+            }))
+        } else {
+            None
+        };
+
+        Self {
+            config,
+            tree,
+            eviction_handle,
+        }
+    }
+
+    /// Initialize the tree with worker URLs
+    pub fn init_workers(&self, workers: &[Box<dyn Worker>]) {
+        if let Ok(tree) = self.tree.lock() {
+            for worker in workers {
+                tree.insert("", worker.url());
+            }
+        }
+    }
+
+    /// Remove a worker from the tree
+    pub fn remove_worker(&self, url: &str) {
+        if let Ok(tree) = self.tree.lock() {
+            tree.remove_tenant(url);
+        }
+    }
+
+    /// Run cache eviction to prevent unbounded growth
+    pub fn evict_cache(&self, max_size: usize) {
+        if let Ok(tree) = self.tree.lock() {
+            tree.evict_tenant_by_size(max_size);
+        }
+    }
+}
+
+impl LoadBalancingPolicy for CacheAwarePolicy {
+    fn select_worker(
+        &self,
+        workers: &[Box<dyn Worker>],
+        request_text: Option<&str>,
+    ) -> Option<usize> {
+        let healthy_indices = get_healthy_worker_indices(workers);
+
+        if healthy_indices.is_empty() {
+            return None;
+        }
+
+        // Get current load statistics
+        let loads: Vec<usize> = workers.iter().map(|w| w.load()).collect();
+        let max_load = *loads.iter().max().unwrap_or(&0);
+        let min_load = *loads.iter().min().unwrap_or(&0);
+
+        // Check if load is imbalanced
+        let is_imbalanced = max_load.saturating_sub(min_load) > self.config.balance_abs_threshold
+            && (max_load as f32) > (min_load as f32 * self.config.balance_rel_threshold);
+
+        if is_imbalanced {
+            // Log load balancing trigger
+            let worker_loads: Vec<(String, usize)> = workers
+                .iter()
+                .map(|w| (w.url().to_string(), w.load()))
+                .collect();
+
+            info!(
+                "Load balancing triggered due to workload imbalance:\n\
+                Max load: {}, Min load: {}\n\
+                Current worker loads: {:?}",
+                max_load, min_load, worker_loads
+            );
+
+            counter!("sgl_router_load_balancing_events_total").increment(1);
+            gauge!("sgl_router_max_load").set(max_load as f64);
+            gauge!("sgl_router_min_load").set(min_load as f64);
+
+            // Use shortest queue when imbalanced
+            let min_load_idx = healthy_indices
+                .iter()
+                .min_by_key(|&&idx| workers[idx].load())
+                .copied()?;
+
+            // Increment processed counter
+            workers[min_load_idx].increment_processed();
+            counter!("sgl_router_processed_requests_total", "worker" => workers[min_load_idx].url().to_string())
+                .increment(1);
+
+            return Some(min_load_idx);
+        }
+
+        // Use cache-aware routing when balanced
+        let text = request_text.unwrap_or("");
+
+        if let Ok(tree) = self.tree.lock() {
+            let (matched_text, matched_worker) = tree.prefix_match(text);
+            let match_rate = if text.is_empty() {
+                0.0
+            } else {
+                matched_text.chars().count() as f32 / text.chars().count() as f32
+            };
+
+            let selected_url = if match_rate > self.config.cache_threshold {
+                counter!("sgl_router_cache_hits_total").increment(1);
+                matched_worker.to_string()
+            } else {
+                counter!("sgl_router_cache_misses_total").increment(1);
+                tree.get_smallest_tenant()
+            };
+
+            // Find the index of the selected worker
+            let selected_idx = workers.iter().position(|w| w.url() == selected_url)?;
+
+            // Only proceed if the worker is healthy
+            if !workers[selected_idx].is_healthy() {
+                return healthy_indices.first().copied();
+            }
+
+            // Update the tree with this request
+            tree.insert(text, &selected_url);
+
+            // Increment processed counter
+            workers[selected_idx].increment_processed();
+            counter!("sgl_router_processed_requests_total", "worker" => selected_url).increment(1);
+
+            return Some(selected_idx);
+        }
+
+        // Fallback to first healthy worker if tree operations fail
+        healthy_indices.first().copied()
+    }
+
+    fn name(&self) -> &'static str {
+        "cache_aware"
+    }
+
+    fn on_request_complete(&self, worker_url: &str, success: bool) {
+        // Could track success rates per worker for more intelligent routing
+        if !success {
+            // Optionally reduce affinity for failed requests
+            tracing::debug!(
+                "Request to {} completed with success={}",
+                worker_url,
+                success
+            );
+        }
+    }
+
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+
+    fn select_worker_pair(
+        &self,
+        prefill_workers: &[Box<dyn Worker>],
+        decode_workers: &[Box<dyn Worker>],
+        request_text: Option<&str>,
+    ) -> Option<(usize, usize)> {
+        // In PD mode:
+        // - Prefill: Use cache-aware routing for better cache utilization
+        // - Decode: Use least-load routing for better load distribution
+
+        // Select prefill worker using cache-aware logic
+        let prefill_idx = self.select_worker(prefill_workers, request_text)?;
+
+        // Select decode worker using least-load logic
+        let healthy_decode = get_healthy_worker_indices(decode_workers);
+        if healthy_decode.is_empty() {
+            return None;
+        }
+
+        let decode_idx = healthy_decode
+            .iter()
+            .min_by_key(|&&idx| decode_workers[idx].load())
+            .copied()?;
+
+        Some((prefill_idx, decode_idx))
+    }
+}
+
+impl Default for CacheAwarePolicy {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+
+impl Drop for CacheAwarePolicy {
+    fn drop(&mut self) {
+        // Note: We can't properly stop the eviction thread since it's in an infinite loop
+        // In a production system, we'd use a channel or atomic flag to signal shutdown
+        if let Some(handle) = self.eviction_handle.take() {
+            // The thread will continue running until the program exits
+            // This is acceptable for now since the router typically runs for the lifetime of the program
+            drop(handle);
+        }
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::{BasicWorker, WorkerType};
+
+    #[test]
+    fn test_cache_aware_with_balanced_load() {
+        // Create policy without eviction thread for testing
+        let config = CacheAwareConfig {
+            eviction_interval_secs: 0, // Disable eviction thread
+            ..Default::default()
+        };
+        let policy = CacheAwarePolicy::with_config(config);
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Initialize the policy with workers
+        policy.init_workers(&workers);
+
+        // First request should be distributed
+        let idx1 = policy.select_worker(&workers, Some("hello world")).unwrap();
+
+        // Same request should go to same worker (cache hit)
+        let idx2 = policy.select_worker(&workers, Some("hello world")).unwrap();
+        assert_eq!(idx1, idx2);
+
+        // Similar request should also go to same worker
+        let idx3 = policy.select_worker(&workers, Some("hello")).unwrap();
+        assert_eq!(idx1, idx3);
+    }
+
+    #[test]
+    fn test_cache_aware_with_imbalanced_load() {
+        let policy = CacheAwarePolicy::with_config(CacheAwareConfig {
+            cache_threshold: 0.5,
+            balance_abs_threshold: 5,
+            balance_rel_threshold: 2.0,
+            eviction_interval_secs: 0, // Disable eviction thread
+            max_tree_size: 10000,
+        });
+
+        let worker1 = BasicWorker::new("http://w1:8000".to_string(), WorkerType::Regular);
+        let worker2 = BasicWorker::new("http://w2:8000".to_string(), WorkerType::Regular);
+
+        // Create significant load imbalance
+        for _ in 0..20 {
+            worker1.increment_load();
+        }
+        // worker2 has load 0
+
+        let workers: Vec<Box<dyn Worker>> = vec![Box::new(worker1), Box::new(worker2)];
+        policy.init_workers(&workers);
+
+        // Should select worker2 (lower load) despite cache affinity
+        for _ in 0..5 {
+            let idx = policy.select_worker(&workers, Some("test")).unwrap();
+            assert_eq!(idx, 1); // Should always pick worker2
+        }
+    }
+
+    #[test]
+    fn test_cache_aware_worker_removal() {
+        let config = CacheAwareConfig {
+            eviction_interval_secs: 0, // Disable eviction thread
+            ..Default::default()
+        };
+        let policy = CacheAwarePolicy::with_config(config);
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        policy.init_workers(&workers);
+
+        // Route some requests
+        policy.select_worker(&workers, Some("test1"));
+        policy.select_worker(&workers, Some("test2"));
+
+        // Remove a worker
+        policy.remove_worker("http://w1:8000");
+        workers[0].set_healthy(false);
+
+        // All requests should now go to worker2
+        let idx = policy.select_worker(&workers, Some("test1")).unwrap();
+        assert_eq!(idx, 1);
+    }
+}
diff --git a/sgl-router/src/policies/factory.rs b/sgl-router/src/policies/factory.rs
new file mode 100644
index 000000000000..c65785d637ce
--- /dev/null
+++ b/sgl-router/src/policies/factory.rs
@@ -0,0 +1,94 @@
+//! Factory for creating load balancing policies
+
+use super::{
+    CacheAwareConfig, CacheAwarePolicy, LoadBalancingPolicy, PowerOfTwoPolicy, RandomPolicy,
+    RoundRobinPolicy,
+};
+use crate::config::PolicyConfig;
+use std::sync::Arc;
+
+/// Factory for creating policy instances
+pub struct PolicyFactory;
+
+impl PolicyFactory {
+    /// Create a policy from configuration
+    pub fn create_from_config(config: &PolicyConfig) -> Arc<dyn LoadBalancingPolicy> {
+        match config {
+            PolicyConfig::Random => Arc::new(RandomPolicy::new()),
+            PolicyConfig::RoundRobin => Arc::new(RoundRobinPolicy::new()),
+            PolicyConfig::PowerOfTwo { .. } => Arc::new(PowerOfTwoPolicy::new()),
+            PolicyConfig::CacheAware {
+                cache_threshold,
+                balance_abs_threshold,
+                balance_rel_threshold,
+                eviction_interval_secs,
+                max_tree_size,
+            } => {
+                let config = CacheAwareConfig {
+                    cache_threshold: *cache_threshold,
+                    balance_abs_threshold: *balance_abs_threshold,
+                    balance_rel_threshold: *balance_rel_threshold,
+                    eviction_interval_secs: *eviction_interval_secs,
+                    max_tree_size: *max_tree_size,
+                };
+                Arc::new(CacheAwarePolicy::with_config(config))
+            }
+        }
+    }
+
+    /// Create a policy by name (for dynamic loading)
+    pub fn create_by_name(name: &str) -> Option<Arc<dyn LoadBalancingPolicy>> {
+        match name.to_lowercase().as_str() {
+            "random" => Some(Arc::new(RandomPolicy::new())),
+            "round_robin" | "roundrobin" => Some(Arc::new(RoundRobinPolicy::new())),
+            "power_of_two" | "poweroftwo" => Some(Arc::new(PowerOfTwoPolicy::new())),
+            "cache_aware" | "cacheaware" => Some(Arc::new(CacheAwarePolicy::new())),
+            _ => None,
+        }
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+
+    #[test]
+    fn test_create_from_config() {
+        // Test Random
+        let policy = PolicyFactory::create_from_config(&PolicyConfig::Random);
+        assert_eq!(policy.name(), "random");
+
+        // Test RoundRobin
+        let policy = PolicyFactory::create_from_config(&PolicyConfig::RoundRobin);
+        assert_eq!(policy.name(), "round_robin");
+
+        // Test PowerOfTwo
+        let policy = PolicyFactory::create_from_config(&PolicyConfig::PowerOfTwo {
+            load_check_interval_secs: 60,
+        });
+        assert_eq!(policy.name(), "power_of_two");
+
+        // Test CacheAware
+        let policy = PolicyFactory::create_from_config(&PolicyConfig::CacheAware {
+            cache_threshold: 0.7,
+            balance_abs_threshold: 10,
+            balance_rel_threshold: 1.5,
+            eviction_interval_secs: 30,
+            max_tree_size: 1000,
+        });
+        assert_eq!(policy.name(), "cache_aware");
+    }
+
+    #[test]
+    fn test_create_by_name() {
+        assert!(PolicyFactory::create_by_name("random").is_some());
+        assert!(PolicyFactory::create_by_name("RANDOM").is_some());
+        assert!(PolicyFactory::create_by_name("round_robin").is_some());
+        assert!(PolicyFactory::create_by_name("RoundRobin").is_some());
+        assert!(PolicyFactory::create_by_name("power_of_two").is_some());
+        assert!(PolicyFactory::create_by_name("PowerOfTwo").is_some());
+        assert!(PolicyFactory::create_by_name("cache_aware").is_some());
+        assert!(PolicyFactory::create_by_name("CacheAware").is_some());
+        assert!(PolicyFactory::create_by_name("unknown").is_none());
+    }
+}
diff --git a/sgl-router/src/policies/mod.rs b/sgl-router/src/policies/mod.rs
new file mode 100644
index 000000000000..83fdd95b085d
--- /dev/null
+++ b/sgl-router/src/policies/mod.rs
@@ -0,0 +1,143 @@
+//! Load balancing policies for SGLang router
+//!
+//! This module provides a unified abstraction for routing policies that work
+//! across both regular and prefill-decode (PD) routing modes.
+
+use crate::core::Worker;
+use std::fmt::Debug;
+
+mod cache_aware;
+mod factory;
+mod power_of_two;
+mod random;
+mod round_robin;
+
+pub use cache_aware::CacheAwarePolicy;
+pub use factory::PolicyFactory;
+pub use power_of_two::PowerOfTwoPolicy;
+pub use random::RandomPolicy;
+pub use round_robin::RoundRobinPolicy;
+
+/// Core trait for load balancing policies
+///
+/// This trait provides a unified interface for implementing routing algorithms
+/// that can work with both regular single-worker selection and PD dual-worker selection.
+pub trait LoadBalancingPolicy: Send + Sync + Debug {
+    /// Select a single worker from the available workers
+    ///
+    /// This is used for regular routing mode where requests go to a single worker.
+    fn select_worker(
+        &self,
+        workers: &[Box<dyn Worker>],
+        request_text: Option<&str>,
+    ) -> Option<usize>;
+
+    /// Select a pair of workers (prefill and decode) for PD routing
+    ///
+    /// Returns indices of (prefill_worker, decode_worker) from their respective arrays.
+    /// Default implementation uses select_worker for each array independently.
+    fn select_worker_pair(
+        &self,
+        prefill_workers: &[Box<dyn Worker>],
+        decode_workers: &[Box<dyn Worker>],
+        request_text: Option<&str>,
+    ) -> Option<(usize, usize)> {
+        // Default implementation: independently select from each pool
+        let prefill_idx = self.select_worker(prefill_workers, request_text)?;
+        let decode_idx = self.select_worker(decode_workers, request_text)?;
+        Some((prefill_idx, decode_idx))
+    }
+
+    /// Update policy state after request completion
+    ///
+    /// This is called when a request completes (successfully or not) to allow
+    /// policies to update their internal state.
+    fn on_request_complete(&self, _worker_url: &str, _success: bool) {
+        // Default: no-op for stateless policies
+    }
+
+    /// Get policy name for metrics and debugging
+    fn name(&self) -> &'static str;
+
+    /// Update worker load information
+    ///
+    /// This is called periodically with current load information for load-aware policies.
+    fn update_loads(&self, _loads: &std::collections::HashMap<String, isize>) {
+        // Default: no-op for policies that don't use load information
+    }
+
+    /// Reset any internal state
+    ///
+    /// This is useful for policies that maintain state (e.g., round-robin counters).
+    fn reset(&self) {
+        // Default: no-op for stateless policies
+    }
+
+    /// Get as Any for downcasting
+    fn as_any(&self) -> &dyn std::any::Any;
+}
+
+/// Configuration for cache-aware policy
+#[derive(Debug, Clone)]
+pub struct CacheAwareConfig {
+    pub cache_threshold: f32,
+    pub balance_abs_threshold: usize,
+    pub balance_rel_threshold: f32,
+    pub eviction_interval_secs: u64,
+    pub max_tree_size: usize,
+}
+
+impl Default for CacheAwareConfig {
+    fn default() -> Self {
+        Self {
+            cache_threshold: 0.5,
+            balance_abs_threshold: 32,
+            balance_rel_threshold: 1.1,
+            eviction_interval_secs: 30,
+            max_tree_size: 10000,
+        }
+    }
+}
+
+/// Helper function to filter healthy workers and return their indices
+pub(crate) fn get_healthy_worker_indices(workers: &[Box<dyn Worker>]) -> Vec<usize> {
+    workers
+        .iter()
+        .enumerate()
+        .filter(|(_, w)| w.is_healthy())
+        .map(|(idx, _)| idx)
+        .collect()
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::{BasicWorker, WorkerType};
+
+    #[test]
+    fn test_get_healthy_worker_indices() {
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w3:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // All healthy initially
+        let indices = get_healthy_worker_indices(&workers);
+        assert_eq!(indices, vec![0, 1, 2]);
+
+        // Mark one unhealthy
+        workers[1].set_healthy(false);
+        let indices = get_healthy_worker_indices(&workers);
+        assert_eq!(indices, vec![0, 2]);
+    }
+}
diff --git a/sgl-router/src/policies/power_of_two.rs b/sgl-router/src/policies/power_of_two.rs
new file mode 100644
index 000000000000..53c8461965ff
--- /dev/null
+++ b/sgl-router/src/policies/power_of_two.rs
@@ -0,0 +1,201 @@
+//! Power-of-two choices load balancing policy
+
+use super::{get_healthy_worker_indices, LoadBalancingPolicy};
+use crate::core::Worker;
+use metrics::counter;
+use rand::Rng;
+use std::collections::HashMap;
+use std::sync::RwLock;
+use tracing::info;
+
+/// Power-of-two choices policy
+///
+/// Randomly selects two workers and routes to the one with lower load.
+/// This provides good load distribution with minimal coordination overhead.
+#[derive(Debug)]
+pub struct PowerOfTwoPolicy {
+    /// Cached load information from external monitoring
+    cached_loads: RwLock<HashMap<String, isize>>,
+}
+
+impl PowerOfTwoPolicy {
+    pub fn new() -> Self {
+        Self {
+            cached_loads: RwLock::new(HashMap::new()),
+        }
+    }
+
+    fn get_worker_load(&self, worker: &dyn Worker) -> isize {
+        // First check cached loads (from external monitoring)
+        if let Ok(loads) = self.cached_loads.read() {
+            if let Some(&load) = loads.get(worker.url()) {
+                return load;
+            }
+        }
+
+        // Fall back to local load counter
+        worker.load() as isize
+    }
+}
+
+impl LoadBalancingPolicy for PowerOfTwoPolicy {
+    fn select_worker(
+        &self,
+        workers: &[Box<dyn Worker>],
+        _request_text: Option<&str>,
+    ) -> Option<usize> {
+        let healthy_indices = get_healthy_worker_indices(workers);
+
+        if healthy_indices.is_empty() {
+            return None;
+        }
+
+        if healthy_indices.len() == 1 {
+            return Some(healthy_indices[0]);
+        }
+
+        // Select two random workers
+        let mut rng = rand::thread_rng();
+        let idx1 = rng.gen_range(0..healthy_indices.len());
+        let mut idx2 = rng.gen_range(0..healthy_indices.len());
+
+        // Ensure we pick two different workers
+        while idx2 == idx1 {
+            idx2 = rng.gen_range(0..healthy_indices.len());
+        }
+
+        let worker_idx1 = healthy_indices[idx1];
+        let worker_idx2 = healthy_indices[idx2];
+
+        // Compare loads and select the less loaded one
+        let load1 = self.get_worker_load(workers[worker_idx1].as_ref());
+        let load2 = self.get_worker_load(workers[worker_idx2].as_ref());
+
+        // Log selection for debugging
+        let selected_idx = if load1 <= load2 {
+            worker_idx1
+        } else {
+            worker_idx2
+        };
+
+        info!(
+            "Power-of-two selection: {}={} vs {}={} -> selected {}",
+            workers[worker_idx1].url(),
+            load1,
+            workers[worker_idx2].url(),
+            load2,
+            workers[selected_idx].url()
+        );
+
+        // Increment processed counter
+        workers[selected_idx].increment_processed();
+        counter!("sgl_router_processed_requests_total", "worker" => workers[selected_idx].url().to_string())
+            .increment(1);
+
+        Some(selected_idx)
+    }
+
+    fn name(&self) -> &'static str {
+        "power_of_two"
+    }
+
+    fn update_loads(&self, loads: &HashMap<String, isize>) {
+        if let Ok(mut cached) = self.cached_loads.write() {
+            *cached = loads.clone();
+        }
+    }
+
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+}
+
+impl Default for PowerOfTwoPolicy {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::{BasicWorker, WorkerType};
+
+    #[test]
+    fn test_power_of_two_selection() {
+        let policy = PowerOfTwoPolicy::new();
+        let worker1 = BasicWorker::new("http://w1:8000".to_string(), WorkerType::Regular);
+        let worker2 = BasicWorker::new("http://w2:8000".to_string(), WorkerType::Regular);
+        let worker3 = BasicWorker::new("http://w3:8000".to_string(), WorkerType::Regular);
+
+        // Set different loads
+        for _ in 0..10 {
+            worker1.increment_load();
+        }
+        for _ in 0..5 {
+            worker2.increment_load();
+        }
+        // worker3 has load 0
+
+        let workers: Vec<Box<dyn Worker>> =
+            vec![Box::new(worker1), Box::new(worker2), Box::new(worker3)];
+
+        // Run multiple selections
+        let mut selected_counts = vec![0; 3];
+        for _ in 0..100 {
+            if let Some(idx) = policy.select_worker(&workers, None) {
+                selected_counts[idx] += 1;
+            }
+        }
+
+        // Worker with lowest load (worker3) should be selected most often
+        assert!(selected_counts[2] > selected_counts[1]);
+        assert!(selected_counts[1] > selected_counts[0]);
+    }
+
+    #[test]
+    fn test_power_of_two_with_cached_loads() {
+        let policy = PowerOfTwoPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Update cached loads
+        let mut loads = HashMap::new();
+        loads.insert("http://w1:8000".to_string(), 100);
+        loads.insert("http://w2:8000".to_string(), 10);
+        policy.update_loads(&loads);
+
+        // Should prefer worker2 with lower cached load
+        let mut w2_selected = 0;
+        for _ in 0..50 {
+            if let Some(idx) = policy.select_worker(&workers, None) {
+                if idx == 1 {
+                    w2_selected += 1;
+                }
+            }
+        }
+
+        // Worker2 should be selected significantly more often
+        assert!(w2_selected > 35); // Should win most of the time
+    }
+
+    #[test]
+    fn test_power_of_two_single_worker() {
+        let policy = PowerOfTwoPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![Box::new(BasicWorker::new(
+            "http://w1:8000".to_string(),
+            WorkerType::Regular,
+        ))];
+
+        // With single worker, should always select it
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+    }
+}
diff --git a/sgl-router/src/policies/random.rs b/sgl-router/src/policies/random.rs
new file mode 100644
index 000000000000..50920bdf1800
--- /dev/null
+++ b/sgl-router/src/policies/random.rs
@@ -0,0 +1,116 @@
+//! Random load balancing policy
+
+use super::{get_healthy_worker_indices, LoadBalancingPolicy};
+use crate::core::Worker;
+use rand::Rng;
+
+/// Random selection policy
+///
+/// Selects workers randomly with uniform distribution among healthy workers.
+#[derive(Debug, Default)]
+pub struct RandomPolicy;
+
+impl RandomPolicy {
+    pub fn new() -> Self {
+        Self
+    }
+}
+
+impl LoadBalancingPolicy for RandomPolicy {
+    fn select_worker(
+        &self,
+        workers: &[Box<dyn Worker>],
+        _request_text: Option<&str>,
+    ) -> Option<usize> {
+        let healthy_indices = get_healthy_worker_indices(workers);
+
+        if healthy_indices.is_empty() {
+            return None;
+        }
+
+        let mut rng = rand::thread_rng();
+        let random_idx = rng.gen_range(0..healthy_indices.len());
+        Some(healthy_indices[random_idx])
+    }
+
+    fn name(&self) -> &'static str {
+        "random"
+    }
+
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::{BasicWorker, WorkerType};
+    use std::collections::HashMap;
+
+    #[test]
+    fn test_random_selection() {
+        let policy = RandomPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w3:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Test multiple selections to ensure randomness
+        let mut counts = HashMap::new();
+        for _ in 0..100 {
+            if let Some(idx) = policy.select_worker(&workers, None) {
+                *counts.entry(idx).or_insert(0) += 1;
+            }
+        }
+
+        // All workers should be selected at least once
+        assert_eq!(counts.len(), 3);
+        assert!(counts.values().all(|&count| count > 0));
+    }
+
+    #[test]
+    fn test_random_with_unhealthy_workers() {
+        let policy = RandomPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Mark first worker as unhealthy
+        workers[0].set_healthy(false);
+
+        // Should always select the healthy worker (index 1)
+        for _ in 0..10 {
+            assert_eq!(policy.select_worker(&workers, None), Some(1));
+        }
+    }
+
+    #[test]
+    fn test_random_no_healthy_workers() {
+        let policy = RandomPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![Box::new(BasicWorker::new(
+            "http://w1:8000".to_string(),
+            WorkerType::Regular,
+        ))];
+
+        workers[0].set_healthy(false);
+        assert_eq!(policy.select_worker(&workers, None), None);
+    }
+}
diff --git a/sgl-router/src/policies/round_robin.rs b/sgl-router/src/policies/round_robin.rs
new file mode 100644
index 000000000000..4401605f007e
--- /dev/null
+++ b/sgl-router/src/policies/round_robin.rs
@@ -0,0 +1,136 @@
+//! Round-robin load balancing policy
+
+use super::{get_healthy_worker_indices, LoadBalancingPolicy};
+use crate::core::Worker;
+use std::sync::atomic::{AtomicUsize, Ordering};
+
+/// Round-robin selection policy
+///
+/// Selects workers in sequential order, cycling through all healthy workers.
+#[derive(Debug, Default)]
+pub struct RoundRobinPolicy {
+    counter: AtomicUsize,
+}
+
+impl RoundRobinPolicy {
+    pub fn new() -> Self {
+        Self {
+            counter: AtomicUsize::new(0),
+        }
+    }
+}
+
+impl LoadBalancingPolicy for RoundRobinPolicy {
+    fn select_worker(
+        &self,
+        workers: &[Box<dyn Worker>],
+        _request_text: Option<&str>,
+    ) -> Option<usize> {
+        let healthy_indices = get_healthy_worker_indices(workers);
+
+        if healthy_indices.is_empty() {
+            return None;
+        }
+
+        // Get and increment counter atomically
+        let count = self.counter.fetch_add(1, Ordering::Relaxed);
+        let selected_idx = count % healthy_indices.len();
+
+        Some(healthy_indices[selected_idx])
+    }
+
+    fn name(&self) -> &'static str {
+        "round_robin"
+    }
+
+    fn reset(&self) {
+        self.counter.store(0, Ordering::Relaxed);
+    }
+
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::{BasicWorker, WorkerType};
+
+    #[test]
+    fn test_round_robin_selection() {
+        let policy = RoundRobinPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w3:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Should select workers in order: 0, 1, 2, 0, 1, 2, ...
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+        assert_eq!(policy.select_worker(&workers, None), Some(1));
+        assert_eq!(policy.select_worker(&workers, None), Some(2));
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+        assert_eq!(policy.select_worker(&workers, None), Some(1));
+    }
+
+    #[test]
+    fn test_round_robin_with_unhealthy_workers() {
+        let policy = RoundRobinPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w3:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Mark middle worker as unhealthy
+        workers[1].set_healthy(false);
+
+        // Should skip unhealthy worker: 0, 2, 0, 2, ...
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+        assert_eq!(policy.select_worker(&workers, None), Some(2));
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+        assert_eq!(policy.select_worker(&workers, None), Some(2));
+    }
+
+    #[test]
+    fn test_round_robin_reset() {
+        let policy = RoundRobinPolicy::new();
+        let workers: Vec<Box<dyn Worker>> = vec![
+            Box::new(BasicWorker::new(
+                "http://w1:8000".to_string(),
+                WorkerType::Regular,
+            )),
+            Box::new(BasicWorker::new(
+                "http://w2:8000".to_string(),
+                WorkerType::Regular,
+            )),
+        ];
+
+        // Advance the counter
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+        assert_eq!(policy.select_worker(&workers, None), Some(1));
+
+        // Reset should start from beginning
+        policy.reset();
+        assert_eq!(policy.select_worker(&workers, None), Some(0));
+    }
+}
diff --git a/sgl-router/src/router.rs b/sgl-router/src/router.rs
deleted file mode 100644
index e8b68d7c599e..000000000000
--- a/sgl-router/src/router.rs
+++ /dev/null
@@ -1,1376 +0,0 @@
-use crate::core::{HealthChecker, Worker, WorkerFactory};
-use crate::pd_router::PDRouter;
-use crate::pd_types::PDSelectionPolicy;
-use crate::tree::Tree;
-use ::metrics::{counter, gauge, histogram};
-use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
-use actix_web::{HttpRequest, HttpResponse};
-use futures_util::{StreamExt, TryStreamExt};
-use std::fmt::Debug;
-use std::sync::atomic::AtomicUsize;
-use std::sync::{Arc, Mutex, RwLock};
-use std::thread;
-use std::time::Duration;
-use std::time::Instant;
-use tokio;
-use tracing::{debug, error, info, warn};
-
-pub fn copy_request_headers(req: &HttpRequest) -> Vec<(String, String)> {
-    req.headers()
-        .iter()
-        .filter_map(|(name, value)| {
-            value
-                .to_str()
-                .ok()
-                .map(|v| (name.to_string(), v.to_string()))
-        })
-        .collect()
-}
-
-#[derive(Debug)]
-pub enum Router {
-    RoundRobin {
-        workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
-        current_index: AtomicUsize,
-        timeout_secs: u64,
-        interval_secs: u64,
-        _health_checker: Option<HealthChecker>,
-    },
-    Random {
-        workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
-        timeout_secs: u64,
-        interval_secs: u64,
-        _health_checker: Option<HealthChecker>,
-    },
-    PrefillDecode {
-        pd_router: Arc<PDRouter>,
-    },
-    CacheAware {
-        /*
-            Cache-Aware Load Balancing Router
-
-            This router combines two strategies to optimize both cache utilization and request distribution:
-
-            1. Cache-Aware Routing (Approximate Tree)
-            2. Load Balancing (Shortest Queue with Balance Thresholds)
-
-            The router dynamically switches between these strategies based on load conditions:
-            - Uses load balancing when the system is imbalanced
-            - Uses cache-aware routing when the system is balanced
-
-            A system is considered imbalanced if both conditions are met:
-            1. (max - min) > abs_threshold
-            2. max > rel_threshold * min
-
-            Strategy Details:
-
-            1. Cache-Aware Routing (Approximate Tree)
-            -------------------------------------------
-            This strategy maintains an approximate radix tree for each worker based on request history,
-            eliminating the need for direct cache state queries. The tree stores raw text characters
-            instead of token IDs to avoid tokenization overhead.
-
-            Process:
-            a. For each request, find the worker with the highest prefix match
-            b. If match rate > cache_threshold:
-            Route to the worker with highest match (likely has relevant data cached)
-            c. If match rate ≤ cache_threshold:
-            Route to the worker with smallest tree size (most available cache capacity)
-            d. Background maintenance:
-            Periodically evict least recently used leaf nodes to prevent memory overflow
-
-            2. Load Balancing (Shortest Queue)
-            -------------------------------------------
-            This strategy tracks pending request counts per worker and routes new requests
-            to the least busy worker when the system is detected to be imbalanced.
-
-            Configuration Parameters:
-            ------------------------
-            1. cache_threshold: (float, 0.0 to 1.0)
-            Minimum prefix match ratio to use highest-match routing.
-            Below this threshold, routes to worker with most available cache space.
-
-            2. balance_abs_threshold: (integer)
-            Absolute difference threshold for load imbalance detection.
-            System is potentially imbalanced if (max_load - min_load) > abs_threshold
-
-            3. balance_rel_threshold: (float)
-            Relative ratio threshold for load imbalance detection.
-            System is potentially imbalanced if max_load > min_load * rel_threshold
-            Used in conjunction with abs_threshold to determine final imbalance state.
-
-            4. eviction_interval_secs: (integer)
-            Interval between LRU eviction cycles for the approximate trees.
-
-            5. max_tree_size: (integer)
-            Maximum nodes per tree. When exceeded, LRU leaf nodes are evicted
-            during the next eviction cycle.
-        */
-        workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
-        tree: Arc<Mutex<Tree>>,
-        cache_threshold: f32,
-        balance_abs_threshold: usize,
-        balance_rel_threshold: f32,
-        timeout_secs: u64,
-        interval_secs: u64,
-        _eviction_thread: Option<thread::JoinHandle<()>>,
-        _health_checker: Option<HealthChecker>,
-    },
-}
-
-#[derive(Debug, Clone)]
-pub enum PolicyConfig {
-    RandomConfig {
-        timeout_secs: u64,
-        interval_secs: u64,
-    },
-    RoundRobinConfig {
-        timeout_secs: u64,
-        interval_secs: u64,
-    },
-    CacheAwareConfig {
-        cache_threshold: f32,
-        balance_abs_threshold: usize,
-        balance_rel_threshold: f32,
-        eviction_interval_secs: u64,
-        max_tree_size: usize,
-        timeout_secs: u64,
-        interval_secs: u64,
-    },
-    PrefillDecodeConfig {
-        selection_policy: PDSelectionPolicy,
-        prefill_urls: Vec<(String, Option<u16>)>, // (url, bootstrap_port)
-        decode_urls: Vec<String>,
-        timeout_secs: u64,
-        interval_secs: u64,
-    },
-}
-
-impl Router {
-    pub fn new(worker_urls: Vec<String>, policy_config: PolicyConfig) -> Result<Self, String> {
-        // Update active workers gauge
-        gauge!("sgl_router_active_workers").set(worker_urls.len() as f64);
-
-        // Get timeout and interval from policy config
-        let (timeout_secs, interval_secs) = match &policy_config {
-            PolicyConfig::RandomConfig {
-                timeout_secs,
-                interval_secs,
-            } => (*timeout_secs, *interval_secs),
-            PolicyConfig::RoundRobinConfig {
-                timeout_secs,
-                interval_secs,
-            } => (*timeout_secs, *interval_secs),
-            PolicyConfig::CacheAwareConfig {
-                timeout_secs,
-                interval_secs,
-                ..
-            } => (*timeout_secs, *interval_secs),
-            PolicyConfig::PrefillDecodeConfig {
-                timeout_secs,
-                interval_secs,
-                ..
-            } => (*timeout_secs, *interval_secs),
-        };
-
-        // For PrefillDecode, we need to handle workers differently
-        match &policy_config {
-            PolicyConfig::PrefillDecodeConfig { .. } => {
-                // PD mode doesn't use the worker_urls parameter
-                // We'll validate PD workers separately
-            }
-            _ => {
-                // Wait until all workers are healthy for regular modes
-                let worker_urls = worker_urls.clone();
-                std::thread::spawn(move || {
-                    Self::wait_for_healthy_workers(&worker_urls, timeout_secs, interval_secs)
-                })
-                .join()
-                .map_err(|e| {
-                    error!("Health-check thread panicked: {:?}", e);
-                    format!("Health-check thread panicked: {e:?}")
-                })??;
-            }
-        }
-
-        // Create Worker trait objects from URLs
-        let workers: Vec<Box<dyn Worker>> = worker_urls
-            .iter()
-            .map(|url| WorkerFactory::create_regular(url.clone()))
-            .collect();
-
-        // Create router based on policy...
-        Ok(match policy_config {
-            PolicyConfig::RandomConfig {
-                timeout_secs,
-                interval_secs,
-            } => {
-                let workers = Arc::new(RwLock::new(workers));
-                let health_checker =
-                    crate::core::start_health_checker(Arc::clone(&workers), interval_secs);
-                Router::Random {
-                    workers,
-                    timeout_secs,
-                    interval_secs,
-                    _health_checker: Some(health_checker),
-                }
-            }
-            PolicyConfig::RoundRobinConfig {
-                timeout_secs,
-                interval_secs,
-            } => {
-                let workers = Arc::new(RwLock::new(workers));
-                let health_checker =
-                    crate::core::start_health_checker(Arc::clone(&workers), interval_secs);
-                Router::RoundRobin {
-                    workers,
-                    current_index: std::sync::atomic::AtomicUsize::new(0),
-                    timeout_secs,
-                    interval_secs,
-                    _health_checker: Some(health_checker),
-                }
-            }
-            PolicyConfig::CacheAwareConfig {
-                cache_threshold,
-                balance_abs_threshold,
-                balance_rel_threshold,
-                eviction_interval_secs,
-                max_tree_size,
-                timeout_secs,
-                interval_secs,
-            } => {
-                let tree = Arc::new(Mutex::new(Tree::new()));
-
-                // Create background eviction thread
-                let tree_clone = Arc::clone(&tree);
-                let workers = Arc::new(RwLock::new(workers));
-                let workers_clone = Arc::clone(&workers);
-                let eviction_thread = thread::spawn(move || {
-                    loop {
-                        // Sleep for the specified interval
-                        thread::sleep(Duration::from_secs(eviction_interval_secs));
-
-                        let locked_tree_clone = tree_clone.lock().unwrap();
-                        // Run eviction
-                        locked_tree_clone.evict_tenant_by_size(max_tree_size);
-                        drop(locked_tree_clone);
-
-                        // Log worker loads and processed requests
-                        let workers_guard = workers_clone.read().unwrap();
-                        let loads: Vec<(String, usize)> = workers_guard
-                            .iter()
-                            .map(|w| (w.url().to_string(), w.load()))
-                            .collect();
-                        info!("Worker loads: {:?}", loads);
-
-                        let processed: Vec<(String, usize)> = workers_guard
-                            .iter()
-                            .map(|w| (w.url().to_string(), w.processed_requests()))
-                            .collect();
-                        info!("Processed requests: {:?}", processed);
-                    }
-                });
-
-                for worker in workers.read().unwrap().iter() {
-                    tree.lock().unwrap().insert("", worker.url());
-                }
-
-                let health_checker =
-                    crate::core::start_health_checker(Arc::clone(&workers), interval_secs);
-
-                Router::CacheAware {
-                    workers,
-                    tree,
-                    cache_threshold,
-                    balance_abs_threshold,
-                    balance_rel_threshold,
-                    timeout_secs,
-                    interval_secs,
-                    _eviction_thread: Some(eviction_thread),
-                    _health_checker: Some(health_checker),
-                }
-            }
-            PolicyConfig::PrefillDecodeConfig {
-                selection_policy,
-                prefill_urls,
-                decode_urls,
-                timeout_secs,
-                interval_secs,
-            } => {
-                // Create PDRouter instance
-                let pd_router = PDRouter::new(
-                    prefill_urls,
-                    decode_urls,
-                    selection_policy,
-                    timeout_secs,
-                    interval_secs,
-                )?;
-
-                Router::PrefillDecode {
-                    pd_router: Arc::new(pd_router),
-                }
-            }
-        })
-    }
-
-    /// Get the current list of worker URLs
-    pub fn get_worker_urls(&self) -> Vec<String> {
-        match self {
-            Router::RoundRobin { workers, .. }
-            | Router::Random { workers, .. }
-            | Router::CacheAware { workers, .. } => workers
-                .read()
-                .unwrap()
-                .iter()
-                .map(|w| w.url().to_string())
-                .collect(),
-            Router::PrefillDecode { .. } => Vec::new(),
-        }
-    }
-
-    pub fn wait_for_healthy_workers(
-        worker_urls: &[String],
-        timeout_secs: u64,
-        interval_secs: u64,
-    ) -> Result<(), String> {
-        let start_time = std::time::Instant::now();
-        let sync_client = reqwest::blocking::Client::builder()
-            .timeout(Duration::from_secs(timeout_secs))
-            .build()
-            .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
-
-        loop {
-            if start_time.elapsed() > Duration::from_secs(timeout_secs) {
-                error!(
-                    "Timeout {}s waiting for workers {:?} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
-                    timeout_secs, worker_urls
-                );
-                return Err(format!(
-                    "Timeout {}s waiting for workers {:?} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
-                    timeout_secs, worker_urls
-                ));
-            }
-
-            let mut all_healthy = true;
-            let mut unhealthy_workers = Vec::new();
-
-            for url in worker_urls {
-                match sync_client.get(&format!("{}/health", url)).send() {
-                    Ok(res) => {
-                        if !res.status().is_success() {
-                            let msg = format!(
-                                "Worker heatlh check is pending with status {}",
-                                res.status()
-                            );
-                            info!("{}", msg);
-                            all_healthy = false;
-                            unhealthy_workers.push((url, msg));
-                        }
-                    }
-                    Err(_) => {
-                        let msg = format!("Worker is not ready yet");
-                        info!("{}", msg);
-                        all_healthy = false;
-                        unhealthy_workers.push((url, msg));
-                    }
-                }
-            }
-
-            if all_healthy {
-                info!("All workers are healthy");
-                return Ok(());
-            } else {
-                info!("Initializing workers:");
-                for (url, reason) in &unhealthy_workers {
-                    info!("  {} - {}", url, reason);
-                }
-                thread::sleep(Duration::from_secs(interval_secs));
-            }
-        }
-    }
-
-    fn select_first_worker(&self) -> Result<String, String> {
-        match self {
-            Router::RoundRobin { workers, .. }
-            | Router::Random { workers, .. }
-            | Router::CacheAware { workers, .. } => {
-                let workers_guard = workers.read().unwrap();
-                if workers_guard.is_empty() {
-                    Err("No workers are available".to_string())
-                } else {
-                    Ok(workers_guard[0].url().to_string())
-                }
-            }
-            Router::PrefillDecode { .. } => {
-                // For PD mode, we don't need this method as routing is handled by PDRouter
-                Err("PrefillDecode mode doesn't use select_first_worker".to_string())
-            }
-        }
-    }
-
-    pub async fn send_request(
-        &self,
-        client: &reqwest::Client,
-        worker_url: &str,
-        route: &str,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        let start = Instant::now();
-        let mut request_builder = client.get(format!("{}{}", worker_url, route));
-
-        // Copy all headers from original request except for /health because it does not need authorization
-        if route != "/health" {
-            for (name, value) in copy_request_headers(req) {
-                // Skip Content-Type and Content-Length as .json() sets them
-                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
-                {
-                    request_builder = request_builder.header(name, value);
-                }
-            }
-        }
-
-        let response = match request_builder.send().await {
-            Ok(res) => {
-                let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                    .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
-
-                match res.bytes().await {
-                    Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                    Err(e) => HttpResponse::InternalServerError()
-                        .body(format!("Failed to read response body: {}", e)),
-                }
-            }
-            Err(e) => HttpResponse::InternalServerError().body(format!(
-                "Failed to send request to worker {}: {}",
-                worker_url, e
-            )),
-        };
-
-        // Record request metrics
-        if route != "/health" {
-            let duration = start.elapsed();
-            counter!("sgl_router_requests_total", "route" => route.to_string()).increment(1);
-            histogram!("sgl_router_request_duration_seconds", "route" => route.to_string())
-                .record(duration.as_secs_f64());
-
-            if !response.status().is_success() {
-                counter!("sgl_router_request_errors_total", "route" => route.to_string())
-                    .increment(1);
-            }
-        }
-        response
-    }
-
-    pub async fn route_to_first(
-        &self,
-        client: &reqwest::Client,
-        route: &str,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        const MAX_REQUEST_RETRIES: u32 = 3;
-        const MAX_TOTAL_RETRIES: u32 = 6;
-        let mut total_retries = 0;
-
-        while total_retries < MAX_TOTAL_RETRIES {
-            match self.select_first_worker() {
-                Ok(worker_url) => {
-                    let mut request_retries = 0;
-
-                    // Try the same worker multiple times
-                    while request_retries < MAX_REQUEST_RETRIES {
-                        if total_retries >= 1 {
-                            info!("Retrying request after {} failed attempts", total_retries);
-                        }
-
-                        let response = self.send_request(client, &worker_url, route, req).await;
-
-                        if response.status().is_success() {
-                            return response;
-                        } else {
-                            // if the worker is healthy, it means the request is bad, so return the error response
-                            let health_response =
-                                self.send_request(client, &worker_url, "/health", req).await;
-                            if health_response.status().is_success() {
-                                return response;
-                            }
-                        }
-
-                        warn!(
-                            "Request to {} failed (attempt {}/{})",
-                            worker_url,
-                            request_retries + 1,
-                            MAX_REQUEST_RETRIES
-                        );
-
-                        request_retries += 1;
-                        total_retries += 1;
-
-                        if request_retries == MAX_REQUEST_RETRIES {
-                            warn!("Removing failed worker: {}", worker_url);
-                            self.remove_worker(&worker_url);
-                            break;
-                        }
-                    }
-                }
-                Err(e) => return HttpResponse::InternalServerError().body(e),
-            }
-        }
-
-        HttpResponse::InternalServerError().body("All retry attempts failed")
-    }
-
-    pub async fn route_to_all(
-        &self,
-        client: &reqwest::Client,
-        route: &str,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        // Get all worker URLs based on router type
-        let worker_urls = match self {
-            Router::PrefillDecode { .. } => {
-                // For PD mode, route_to_all is not supported directly
-                // It should be handled by PDRouter if needed
-                return HttpResponse::NotImplemented()
-                    .body("route_to_all not implemented for PrefillDecode mode");
-            }
-            _ => self.get_worker_urls(),
-        };
-
-        // Send requests to all workers concurrently
-        let mut tasks = Vec::new();
-        for worker_url in &worker_urls {
-            let mut request_builder = client.post(format!("{}{}", worker_url, route));
-
-            // Copy headers from original request
-            for (name, value) in copy_request_headers(req) {
-                request_builder = request_builder.header(name, value);
-            }
-
-            tasks.push(request_builder.send());
-        }
-
-        // Wait for all responses
-        let results = futures_util::future::join_all(tasks).await;
-
-        // Check if all succeeded
-        let all_success = results.iter().all(|r| {
-            r.as_ref()
-                .map(|res| res.status().is_success())
-                .unwrap_or(false)
-        });
-
-        if all_success {
-            HttpResponse::Ok().body("Operation completed on all servers")
-        } else {
-            HttpResponse::InternalServerError().body("Operation failed on one or more servers")
-        }
-    }
-
-    pub async fn get_all_loads(
-        &self,
-        client: &reqwest::Client,
-        _req: &HttpRequest,
-    ) -> HttpResponse {
-        // For PD mode, delegate to PDRouter
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                return pd_router.get_loads(client).await;
-            }
-            _ => {
-                // For non-PD routers, handle normally
-            }
-        }
-
-        let urls = self.get_worker_urls();
-        let prefill_urls: Vec<String> = Vec::new();
-        let decode_urls = urls;
-
-        // Collect loads from all servers
-        let mut prefill_loads = Vec::new();
-        let mut decode_loads = Vec::new();
-
-        // Get prefill loads
-        for url in &prefill_urls {
-            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
-            prefill_loads.push(serde_json::json!({
-                "engine": format!("(Prefill@{})", url),
-                "load": load as i64
-            }));
-        }
-
-        // Get decode loads
-        for url in &decode_urls {
-            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
-            decode_loads.push(serde_json::json!({
-                "engine": format!("(Decode@{})", url),
-                "load": load as i64
-            }));
-        }
-
-        HttpResponse::Ok().json(serde_json::json!({
-            "prefill": prefill_loads,
-            "decode": decode_loads
-        }))
-    }
-
-    // New method to route typed requests directly
-    pub async fn route_typed_request<
-        T: crate::openai_api_types::GenerationRequest + serde::Serialize + Clone,
-    >(
-        &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
-        typed_req: &T,
-        route: &str,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { .. } => HttpResponse::InternalServerError()
-                .body("PD routing should use specialized typed handlers"),
-            _ => {
-                // Handle retries like the original implementation
-                let start = Instant::now();
-                const MAX_REQUEST_RETRIES: u32 = 3;
-                const MAX_TOTAL_RETRIES: u32 = 6;
-                let mut total_retries = 0;
-
-                while total_retries < MAX_TOTAL_RETRIES {
-                    // Extract routing text directly from typed request
-                    let text = typed_req.extract_text_for_routing();
-                    let is_stream = typed_req.is_stream();
-
-                    // Select worker based on text
-                    let worker_url = self.select_generate_worker_from_text(&text);
-                    let mut request_retries = 0;
-
-                    // Try the same worker multiple times
-                    while request_retries < MAX_REQUEST_RETRIES {
-                        if total_retries >= 1 {
-                            info!("Retrying request after {} failed attempts", total_retries);
-                            counter!("sgl_router_retries_total", "route" => route.to_string())
-                                .increment(1);
-                        }
-
-                        // For CacheAware router, increment load before request
-                        let load_incremented = match self {
-                            Router::CacheAware { workers, .. } => {
-                                let workers_guard = workers.read().unwrap();
-                                if let Some(worker) =
-                                    workers_guard.iter().find(|w| w.url() == &worker_url)
-                                {
-                                    worker.increment_load();
-                                    gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                                        .set(worker.load() as f64);
-                                    true
-                                } else {
-                                    false
-                                }
-                            }
-                            _ => false,
-                        };
-
-                        // Send typed request directly
-                        let response = self
-                            .send_typed_request(
-                                client,
-                                req,
-                                typed_req,
-                                route,
-                                &worker_url,
-                                is_stream,
-                                load_incremented,
-                            )
-                            .await;
-
-                        if response.status().is_success() {
-                            let duration = start.elapsed();
-                            histogram!("sgl_router_generate_duration_seconds", "route" => route.to_string())
-                                .record(duration.as_secs_f64());
-                            return response;
-                        } else {
-                            // if the worker is healthy, it means the request is bad, so return the error response
-                            let health_response =
-                                self.send_request(client, &worker_url, "/health", req).await;
-                            if health_response.status().is_success() {
-                                counter!("sgl_router_request_errors_total", "route" => route.to_string())
-                                    .increment(1);
-                                return response;
-                            }
-                        }
-
-                        warn!(
-                            "Generate request to {} failed (attempt {}/{})",
-                            worker_url,
-                            request_retries + 1,
-                            MAX_REQUEST_RETRIES
-                        );
-
-                        request_retries += 1;
-                        total_retries += 1;
-
-                        if request_retries == MAX_REQUEST_RETRIES {
-                            warn!("Removing failed worker: {}", worker_url);
-                            self.remove_worker(&worker_url);
-                            break;
-                        }
-                    }
-                }
-
-                counter!("sgl_router_request_errors_total", "route" => route.to_string())
-                    .increment(1);
-                HttpResponse::InternalServerError().body("All retry attempts failed")
-            }
-        }
-    }
-
-    // Helper method to select worker from text (returns index for RoundRobin/Random, URL for CacheAware)
-    fn select_generate_worker_from_text(&self, text: &str) -> String {
-        match self {
-            Router::RoundRobin {
-                workers,
-                current_index,
-                ..
-            } => {
-                let workers_guard = workers.read().unwrap();
-                let idx = current_index
-                    .fetch_update(
-                        std::sync::atomic::Ordering::SeqCst,
-                        std::sync::atomic::Ordering::SeqCst,
-                        |x| Some((x + 1) % workers_guard.len()),
-                    )
-                    .unwrap();
-                workers_guard[idx].url().to_string()
-            }
-
-            Router::Random { workers, .. } => {
-                let workers_guard = workers.read().unwrap();
-                workers_guard[rand::random::<usize>() % workers_guard.len()]
-                    .url()
-                    .to_string()
-            }
-
-            Router::CacheAware {
-                workers,
-                tree,
-                cache_threshold,
-                balance_abs_threshold,
-                balance_rel_threshold,
-                ..
-            } => {
-                let tree = tree.lock().unwrap();
-                let workers_guard = workers.read().unwrap();
-
-                // Get current load statistics from workers
-                let loads: Vec<usize> = workers_guard.iter().map(|w| w.load()).collect();
-                let max_load = *loads.iter().max().unwrap_or(&0);
-                let min_load = *loads.iter().min().unwrap_or(&0);
-
-                // Load is considered imbalanced if:
-                // 1. (max - min) > abs_threshold AND
-                // 2. max > rel_threshold * min
-                let is_imbalanced = max_load.saturating_sub(min_load) > *balance_abs_threshold
-                    && (max_load as f32) > (min_load as f32 * balance_rel_threshold);
-
-                let selected_url = if is_imbalanced {
-                    // Log load balancing trigger and current queue state
-                    let worker_loads: Vec<(String, usize)> = workers_guard
-                        .iter()
-                        .map(|w| (w.url().to_string(), w.load()))
-                        .collect();
-
-                    info!(
-                        "Load balancing triggered due to workload imbalance:\n\
-                        Max load: {}, Min load: {}\n\
-                        Current worker loads: {:?}",
-                        max_load, min_load, worker_loads
-                    );
-
-                    counter!("sgl_router_load_balancing_events_total").increment(1);
-                    gauge!("sgl_router_max_load").set(max_load as f64);
-                    gauge!("sgl_router_min_load").set(min_load as f64);
-
-                    // Use shortest queue routing when load is imbalanced
-                    workers_guard
-                        .iter()
-                        .min_by_key(|w| w.load())
-                        .map(|w| w.url().to_string())
-                        .unwrap_or_else(|| workers_guard[0].url().to_string())
-                } else {
-                    // Use cache-aware routing when load is balanced
-                    let (matched_text, matched_worker) = tree.prefix_match(&text);
-                    let matched_rate =
-                        matched_text.chars().count() as f32 / text.chars().count() as f32;
-
-                    if matched_rate > *cache_threshold {
-                        counter!("sgl_router_cache_hits_total").increment(1);
-                        matched_worker.to_string()
-                    } else {
-                        counter!("sgl_router_cache_misses_total").increment(1);
-                        tree.get_smallest_tenant()
-                    }
-                };
-
-                // Find the selected worker and increment processed counter only
-                if let Some(worker) = workers_guard.iter().find(|w| w.url() == &selected_url) {
-                    worker.increment_processed();
-                    counter!("sgl_router_processed_requests_total", "worker" => selected_url.to_string())
-                        .increment(1);
-                }
-
-                tree.insert(&text, &selected_url);
-
-                selected_url
-            }
-            Router::PrefillDecode { .. } => {
-                // For PD mode, we don't use this method
-                return "PD_MODE_ERROR".to_string();
-            }
-        }
-    }
-
-    // Send typed request directly without conversion
-    async fn send_typed_request<T: serde::Serialize>(
-        &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
-        typed_req: &T,
-        route: &str,
-        worker_url: &str,
-        is_stream: bool,
-        load_incremented: bool, // Whether load was incremented for this request
-    ) -> HttpResponse {
-        let start = Instant::now();
-
-        // Debug: Log what we're sending
-        if let Ok(json_str) = serde_json::to_string_pretty(typed_req) {
-            debug!("Sending request to {}: {}", route, json_str);
-        }
-
-        let mut request_builder = client
-            .post(format!("{}{}", worker_url, route))
-            .json(typed_req); // Use json() directly with typed request
-
-        // Copy all headers from original request
-        for (name, value) in copy_request_headers(req) {
-            // Skip Content-Type and Content-Length as .json() sets them
-            if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length" {
-                request_builder = request_builder.header(&name, &value);
-            }
-        }
-
-        let res = match request_builder.send().await {
-            Ok(res) => res,
-            Err(e) => {
-                error!("Failed to send request to {}: {}", worker_url, e);
-
-                // Decrement load on error for CacheAware router
-                if load_incremented {
-                    if let Router::CacheAware { workers, .. } = self {
-                        if let Ok(workers_guard) = workers.read() {
-                            if let Some(worker) =
-                                workers_guard.iter().find(|w| w.url() == worker_url)
-                            {
-                                worker.decrement_load();
-                                gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                                    .set(worker.load() as f64);
-                            }
-                        }
-                    }
-                }
-
-                return HttpResponse::InternalServerError().body(format!("Request failed: {}", e));
-            }
-        };
-
-        let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-            .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
-
-        if !is_stream {
-            // For non-streaming requests, get response first
-            let response = match res.bytes().await {
-                Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                Err(e) => {
-                    let error_msg = format!("Failed to get response body: {}", e);
-                    HttpResponse::InternalServerError().body(error_msg)
-                }
-            };
-
-            // Decrement load counter for non-streaming CacheAware requests
-            if load_incremented && !is_stream {
-                if let Router::CacheAware { workers, .. } = self {
-                    if let Ok(workers_guard) = workers.read() {
-                        if let Some(worker) = workers_guard.iter().find(|w| w.url() == worker_url) {
-                            worker.decrement_load();
-                            gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                                .set(worker.load() as f64);
-                        }
-                    }
-                }
-            }
-
-            // Record metrics
-            let duration = start.elapsed();
-            histogram!("sgl_router_generate_duration_seconds", "route" => route.to_string())
-                .record(duration.as_secs_f64());
-            counter!("sgl_router_requests_total", "route" => route.to_string()).increment(1);
-
-            response
-        } else if let Router::CacheAware { workers, .. } = self {
-            // For streaming with CacheAware router, we need to manually decrement when done
-            let workers = Arc::clone(workers);
-            let worker_url = worker_url.to_string();
-
-            HttpResponse::build(status)
-                .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
-                .streaming(
-                    res.bytes_stream()
-                        .map_err(|_| {
-                            actix_web::error::ErrorInternalServerError("Failed to read stream")
-                        })
-                        .inspect(move |bytes| {
-                            if let Ok(bytes) = bytes {
-                                if bytes
-                                    .as_ref()
-                                    .windows(12)
-                                    .any(|window| window == b"data: [DONE]")
-                                {
-                                    if let Ok(workers_guard) = workers.read() {
-                                        if let Some(worker) =
-                                            workers_guard.iter().find(|w| w.url() == &worker_url)
-                                        {
-                                            worker.decrement_load();
-                                            gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                                                .set(worker.load() as f64);
-                                            debug!("Streaming is done!!")
-                                        }
-                                    }
-                                }
-                            }
-                        }),
-                )
-        } else {
-            // For non-CacheAware routers, just stream without load tracking
-            HttpResponse::build(status)
-                .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
-                .streaming(res.bytes_stream().map_err(|_| {
-                    actix_web::error::ErrorInternalServerError("Failed to read stream")
-                }))
-        }
-    }
-
-    pub async fn add_worker(&self, worker_url: &str) -> Result<String, String> {
-        let (timeout_secs, interval_secs) = match self {
-            Router::Random {
-                timeout_secs,
-                interval_secs,
-                ..
-            } => (*timeout_secs, *interval_secs),
-            Router::RoundRobin {
-                timeout_secs,
-                interval_secs,
-                ..
-            } => (*timeout_secs, *interval_secs),
-            Router::CacheAware {
-                timeout_secs,
-                interval_secs,
-                ..
-            } => (*timeout_secs, *interval_secs),
-            Router::PrefillDecode { .. } => {
-                // For PD mode, we don't support adding workers via this method
-                return Err("Adding workers to PrefillDecode router not supported via add_worker. Use dedicated PD management methods.".to_string());
-            }
-        };
-
-        let start_time = std::time::Instant::now();
-        let client = reqwest::Client::builder()
-            .timeout(Duration::from_secs(timeout_secs))
-            .build()
-            .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
-
-        loop {
-            if start_time.elapsed() > Duration::from_secs(timeout_secs) {
-                error!(
-                    "Timeout {}s waiting for worker {} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
-                    timeout_secs, worker_url
-                );
-                return Err(format!(
-                    "Timeout {}s waiting for worker {} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
-                    timeout_secs, worker_url
-                ));
-            }
-
-            match client.get(&format!("{}/health", worker_url)).send().await {
-                Ok(res) => {
-                    if res.status().is_success() {
-                        match self {
-                            Router::RoundRobin { workers, .. }
-                            | Router::Random { workers, .. }
-                            | Router::CacheAware { workers, .. } => {
-                                info!("Worker {} health check passed", worker_url);
-                                let mut workers_guard = workers.write().unwrap();
-                                if workers_guard.iter().any(|w| w.url() == worker_url) {
-                                    return Err(format!("Worker {} already exists", worker_url));
-                                }
-                                info!("Added worker: {}", worker_url);
-                                let new_worker =
-                                    WorkerFactory::create_regular(worker_url.to_string());
-                                workers_guard.push(new_worker);
-                                gauge!("sgl_router_active_workers").set(workers_guard.len() as f64);
-                            }
-                            Router::PrefillDecode { .. } => {
-                                return Err("Adding workers to PrefillDecode router not supported via add_worker. Use dedicated PD management methods.".to_string());
-                            }
-                        }
-
-                        // If cache aware, add worker to tree
-                        if let Router::CacheAware { tree, .. } = self {
-                            // Add worker to tree
-                            tree.lock().unwrap().insert("", worker_url);
-                        }
-
-                        return Ok(format!("Successfully added worker: {}", worker_url));
-                    } else {
-                        info!(
-                            "Worker {} health check is pending with status: {}.",
-                            worker_url,
-                            res.status()
-                        );
-                        // if the url does not have http or https prefix, warn users
-                        if !worker_url.starts_with("http://") && !worker_url.starts_with("https://")
-                        {
-                            warn!("The worker url {} does not have http or https prefix. Please add the prefix to the url.", worker_url);
-                        }
-
-                        tokio::time::sleep(Duration::from_secs(interval_secs)).await;
-                        continue;
-                    }
-                }
-                Err(e) => {
-                    info!(
-                        "Worker {} health check is pending with error: {}",
-                        worker_url, e
-                    );
-
-                    // if the url does not have http or https prefix, warn users
-                    if !worker_url.starts_with("http://") && !worker_url.starts_with("https://") {
-                        warn!("The worker url {} does not have http or https prefix. Please add the prefix to the url.", worker_url);
-                    }
-
-                    tokio::time::sleep(Duration::from_secs(interval_secs)).await;
-                    continue;
-                }
-            }
-        }
-    }
-
-    pub fn remove_worker(&self, worker_url: &str) {
-        match self {
-            Router::RoundRobin { workers, .. }
-            | Router::Random { workers, .. }
-            | Router::CacheAware { workers, .. } => {
-                let mut workers_guard = workers.write().unwrap();
-                if let Some(index) = workers_guard.iter().position(|w| w.url() == worker_url) {
-                    workers_guard.remove(index);
-                    info!("Removed worker: {}", worker_url);
-                    gauge!("sgl_router_active_workers").set(workers_guard.len() as f64);
-                } else {
-                    warn!("Worker {} not found, skipping removal", worker_url);
-                    return;
-                }
-            }
-            Router::PrefillDecode { .. } => {
-                warn!("Removing workers from PrefillDecode router not supported via remove_worker. Use dedicated PD management methods.");
-                return;
-            }
-        }
-
-        // if cache aware, remove the worker from the tree
-        if let Router::CacheAware { tree, .. } = self {
-            tree.lock().unwrap().remove_tenant(&worker_url);
-            info!("Removed worker from tree: {}", worker_url);
-        }
-    }
-
-    /// Add a worker with PD mode support
-    pub async fn add_pd_worker(
-        &self,
-        worker_url: &str,
-        pod_type: crate::service_discovery::PodType,
-        bootstrap_port: Option<u16>,
-    ) -> Result<String, String> {
-        match self {
-            Router::PrefillDecode { pd_router } => match pod_type {
-                crate::service_discovery::PodType::Prefill => pd_router
-                    .add_prefill_server(worker_url.to_string(), bootstrap_port)
-                    .await
-                    .map_err(|e| e.to_string()),
-                crate::service_discovery::PodType::Decode => pd_router
-                    .add_decode_server(worker_url.to_string())
-                    .await
-                    .map_err(|e| e.to_string()),
-                crate::service_discovery::PodType::Regular => {
-                    Err("Regular pod type not supported in PD mode".to_string())
-                }
-            },
-            _ => Err("add_pd_worker only supported in PD mode".to_string()),
-        }
-    }
-
-    /// Remove a worker with PD mode support
-    pub async fn remove_pd_worker(
-        &self,
-        worker_url: &str,
-        pod_type: crate::service_discovery::PodType,
-    ) -> Result<String, String> {
-        match self {
-            Router::PrefillDecode { pd_router } => match pod_type {
-                crate::service_discovery::PodType::Prefill => pd_router
-                    .remove_prefill_server(worker_url)
-                    .await
-                    .map_err(|e| e.to_string()),
-                crate::service_discovery::PodType::Decode => pd_router
-                    .remove_decode_server(worker_url)
-                    .await
-                    .map_err(|e| e.to_string()),
-                crate::service_discovery::PodType::Regular => {
-                    Err("Regular pod type not supported in PD mode".to_string())
-                }
-            },
-            _ => Err("remove_pd_worker only supported in PD mode".to_string()),
-        }
-    }
-
-    async fn get_worker_load(&self, client: &reqwest::Client, worker_url: &str) -> Option<isize> {
-        match client.get(&format!("{}/get_load", worker_url)).send().await {
-            Ok(res) if res.status().is_success() => match res.bytes().await {
-                Ok(bytes) => match serde_json::from_slice::<serde_json::Value>(&bytes) {
-                    Ok(data) => data
-                        .get("load")
-                        .and_then(|v| v.as_i64())
-                        .map(|v| v as isize),
-                    Err(e) => {
-                        debug!("Failed to parse load response from {}: {}", worker_url, e);
-                        None
-                    }
-                },
-                Err(e) => {
-                    debug!("Failed to read load response from {}: {}", worker_url, e);
-                    None
-                }
-            },
-            Ok(res) => {
-                debug!(
-                    "Worker {} returned non-success status: {}",
-                    worker_url,
-                    res.status()
-                );
-                None
-            }
-            Err(e) => {
-                debug!("Failed to get load from {}: {}", worker_url, e);
-                None
-            }
-        }
-    }
-
-    // PD-specific wrapper methods that delegate to PDRouter
-    pub async fn route_pd_health_generate(
-        &self,
-        _client: &reqwest::Client,
-        _req: &HttpRequest,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router.health_generate(&pd_router.http_client).await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-
-    pub async fn route_pd_generate_typed(
-        &self,
-        _client: &reqwest::Client,
-        req: &HttpRequest,
-        typed_req: crate::pd_types::GenerateReqInput,
-        route: &str,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router
-                    .route_generate(&pd_router.http_client, req, typed_req, route)
-                    .await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-
-    pub async fn route_pd_chat_typed(
-        &self,
-        _client: &reqwest::Client,
-        req: &HttpRequest,
-        typed_req: crate::pd_types::ChatReqInput,
-        route: &str,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router
-                    .route_chat(&pd_router.http_client, req, typed_req, route)
-                    .await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-
-    pub async fn get_pd_server_info(
-        &self,
-        _client: &reqwest::Client,
-        _req: &HttpRequest,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router.get_server_info(&pd_router.http_client).await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-
-    pub async fn get_pd_models(
-        &self,
-        _client: &reqwest::Client,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router.get_models(&pd_router.http_client, req).await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-
-    pub async fn route_pd_flush_cache(&self, _client: &reqwest::Client) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router.flush_cache(&pd_router.http_client).await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-
-    pub async fn get_pd_model_info(
-        &self,
-        _client: &reqwest::Client,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        match self {
-            Router::PrefillDecode { pd_router } => {
-                pd_router.get_model_info(&pd_router.http_client, req).await
-            }
-            _ => HttpResponse::InternalServerError().body("Not in PrefillDecode mode"),
-        }
-    }
-}
-
-#[cfg(test)]
-mod tests {
-    use super::*;
-    use crate::service_discovery::PodType;
-
-    fn create_test_regular_router() -> Router {
-        let workers = vec![
-            WorkerFactory::create_regular("http://worker1:8080".to_string()),
-            WorkerFactory::create_regular("http://worker2:8080".to_string()),
-        ];
-        Router::Random {
-            workers: Arc::new(RwLock::new(workers)),
-            timeout_secs: 5,
-            interval_secs: 1,
-            _health_checker: None,
-        }
-    }
-
-    #[test]
-    fn test_router_get_worker_urls_regular() {
-        let router = create_test_regular_router();
-        let urls = router.get_worker_urls();
-
-        assert_eq!(urls.len(), 2);
-        assert!(urls.contains(&"http://worker1:8080".to_string()));
-        assert!(urls.contains(&"http://worker2:8080".to_string()));
-    }
-
-    // #[test]
-    // fn test_router_get_worker_urls_pd_mode() {
-    //     // For PD mode, get_worker_urls returns empty list
-    //     // Note: PDRouter::new requires health checks which fail in tests
-    //     // This test would need a mock server or different test setup
-    // }
-
-    #[tokio::test]
-    async fn test_add_pd_worker_with_regular_router() {
-        let router = create_test_regular_router();
-
-        let result = router
-            .add_pd_worker("http://new-worker:8080", PodType::Prefill, Some(8081))
-            .await;
-
-        assert!(result.is_err());
-        assert!(result
-            .unwrap_err()
-            .contains("add_pd_worker only supported in PD mode"));
-    }
-
-    #[tokio::test]
-    async fn test_remove_pd_worker_with_regular_router() {
-        let router = create_test_regular_router();
-
-        let result = router
-            .remove_pd_worker("http://worker:8080", PodType::Decode)
-            .await;
-
-        assert!(result.is_err());
-        assert!(result
-            .unwrap_err()
-            .contains("remove_pd_worker only supported in PD mode"));
-    }
-
-    // #[tokio::test]
-    // async fn test_add_pd_worker_with_pd_router_regular_type() {
-    //     // Note: PDRouter::new requires health checks which fail in tests
-    //     // This test would need a mock server or different test setup
-    // }
-
-    // #[tokio::test]
-    // async fn test_remove_pd_worker_with_pd_router_regular_type() {
-    //     // Note: PDRouter::new requires health checks which fail in tests
-    //     // This test would need a mock server or different test setup
-    // }
-
-    #[test]
-    fn test_select_first_worker_regular() {
-        let router = create_test_regular_router();
-        let result = router.select_first_worker();
-
-        assert!(result.is_ok());
-        assert_eq!(result.unwrap(), "http://worker1:8080");
-    }
-
-    // #[test]
-    // fn test_select_first_worker_pd_mode() {
-    //     // Note: PDRouter::new requires health checks which fail in tests
-    //     // This test would need a mock server or different test setup
-    // }
-
-    #[test]
-    fn test_wait_for_healthy_workers_empty_list() {
-        let result = Router::wait_for_healthy_workers(&[], 1, 1);
-        assert!(result.is_ok());
-    }
-
-    #[test]
-    fn test_wait_for_healthy_workers_invalid_urls() {
-        // This test will timeout quickly since the URLs are invalid
-        let result =
-            Router::wait_for_healthy_workers(&["http://nonexistent:8080".to_string()], 1, 1);
-        assert!(result.is_err());
-        assert!(result.unwrap_err().contains("Timeout"));
-    }
-}
diff --git a/sgl-router/src/routers/factory.rs b/sgl-router/src/routers/factory.rs
new file mode 100644
index 000000000000..201240121645
--- /dev/null
+++ b/sgl-router/src/routers/factory.rs
@@ -0,0 +1,66 @@
+//! Factory for creating router instances
+
+use super::{pd_router::PDRouter, router::Router, RouterTrait};
+use crate::config::{PolicyConfig, RouterConfig, RoutingMode};
+use crate::policies::PolicyFactory;
+
+/// Factory for creating router instances based on configuration
+pub struct RouterFactory;
+
+impl RouterFactory {
+    /// Create a router instance from configuration
+    pub fn create_router(config: &RouterConfig) -> Result<Box<dyn RouterTrait>, String> {
+        match &config.mode {
+            RoutingMode::Regular { worker_urls } => {
+                Self::create_regular_router(worker_urls, &config.policy, config)
+            }
+            RoutingMode::PrefillDecode {
+                prefill_urls,
+                decode_urls,
+            } => Self::create_pd_router(prefill_urls, decode_urls, &config.policy, config),
+        }
+    }
+
+    /// Create a regular router with injected policy
+    fn create_regular_router(
+        worker_urls: &[String],
+        policy_config: &PolicyConfig,
+        router_config: &RouterConfig,
+    ) -> Result<Box<dyn RouterTrait>, String> {
+        // Create policy
+        let policy = PolicyFactory::create_from_config(policy_config);
+
+        // Create regular router with injected policy
+        let router = Router::new(
+            worker_urls.to_vec(),
+            policy,
+            router_config.worker_startup_timeout_secs,
+            router_config.worker_startup_check_interval_secs,
+        )?;
+
+        Ok(Box::new(router))
+    }
+
+    /// Create a PD router with injected policy
+    fn create_pd_router(
+        prefill_urls: &[(String, Option<u16>)],
+        decode_urls: &[String],
+        policy_config: &PolicyConfig,
+        router_config: &RouterConfig,
+    ) -> Result<Box<dyn RouterTrait>, String> {
+        // Create policy directly from PolicyConfig
+        // All policies now support PD mode through the select_worker_pair method
+        let policy = PolicyFactory::create_from_config(policy_config);
+
+        // Create PD router with injected policy
+        let router = PDRouter::new(
+            prefill_urls.to_vec(),
+            decode_urls.to_vec(),
+            policy,
+            router_config.worker_startup_timeout_secs,
+            router_config.worker_startup_check_interval_secs,
+        )?;
+
+        Ok(Box::new(router))
+    }
+}
diff --git a/sgl-router/src/routers/mod.rs b/sgl-router/src/routers/mod.rs
new file mode 100644
index 000000000000..ffb6d93c7d24
--- /dev/null
+++ b/sgl-router/src/routers/mod.rs
@@ -0,0 +1,101 @@
+//! Router implementations
+
+use actix_web::{HttpRequest, HttpResponse};
+use async_trait::async_trait;
+use reqwest::Client;
+use std::fmt::Debug;
+
+pub mod factory;
+pub mod pd_router;
+pub mod pd_types;
+pub mod request_adapter;
+pub mod router;
+
+pub use factory::RouterFactory;
+
+/// Worker management trait for administrative operations
+///
+/// This trait is separate from RouterTrait to allow Send futures
+/// for use in service discovery and other background tasks
+#[async_trait]
+pub trait WorkerManagement: Send + Sync {
+    /// Add a worker to the router
+    async fn add_worker(&self, worker_url: &str) -> Result<String, String>;
+
+    /// Remove a worker from the router
+    fn remove_worker(&self, worker_url: &str);
+
+    /// Get all worker URLs
+    fn get_worker_urls(&self) -> Vec<String>;
+}
+
+/// Core trait for all router implementations
+///
+/// This trait provides a unified interface for routing requests,
+/// regardless of whether it's a regular router or PD router.
+#[async_trait(?Send)]
+pub trait RouterTrait: Send + Sync + Debug + WorkerManagement {
+    /// Get a reference to self as Any for downcasting
+    fn as_any(&self) -> &dyn std::any::Any;
+    /// Route a health check request
+    async fn health(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+
+    /// Route a health generate request
+    async fn health_generate(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+
+    /// Get server information
+    async fn get_server_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+
+    /// Get available models
+    async fn get_models(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+
+    /// Get model information
+    async fn get_model_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+
+    /// Route a generate request
+    async fn route_generate(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse;
+
+    /// Route a chat completion request
+    async fn route_chat(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse;
+
+    /// Route a completion request
+    async fn route_completion(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse;
+
+    /// Flush cache on all workers
+    async fn flush_cache(&self, client: &Client) -> HttpResponse;
+
+    /// Get worker loads (for monitoring)
+    async fn get_worker_loads(&self, client: &Client) -> HttpResponse;
+
+    /// Get router type name
+    fn router_type(&self) -> &'static str;
+
+    /// Check if this is a PD router
+    fn is_pd_mode(&self) -> bool {
+        self.router_type() == "pd"
+    }
+
+    /// Server liveness check - is the server process running
+    fn liveness(&self) -> HttpResponse {
+        // Simple liveness check - if we can respond, we're alive
+        HttpResponse::Ok().body("OK")
+    }
+
+    /// Server readiness check - is the server ready to handle requests
+    fn readiness(&self) -> HttpResponse;
+}
diff --git a/sgl-router/src/pd_router.rs b/sgl-router/src/routers/pd_router.rs
similarity index 67%
rename from sgl-router/src/pd_router.rs
rename to sgl-router/src/routers/pd_router.rs
index a1f04c7d29db..2ac8f9027762 100644
--- a/sgl-router/src/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -1,10 +1,11 @@
 // PD (Prefill-Decode) Router Implementation
 // This module handles routing for disaggregated prefill-decode systems
 
+use super::pd_types::{api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRouterError};
+use super::request_adapter::ToPdRequest;
 use crate::core::{HealthChecker, Worker, WorkerFactory, WorkerLoadGuard};
-use crate::pd_types::{
-    api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRouterError, PDSelectionPolicy,
-};
+use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
+use crate::policies::LoadBalancingPolicy;
 use crate::tree::Tree;
 use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
 use actix_web::{HttpRequest, HttpResponse};
@@ -17,13 +18,11 @@ use std::time::{Duration, Instant};
 use tracing::{debug, error, info, warn};
 use uuid::Uuid;
 
-// Removed over-engineered ProxyResponse - using HttpResponse directly
-
 #[derive(Debug)]
 pub struct PDRouter {
     pub prefill_workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
     pub decode_workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
-    pub selection_policy: PDSelectionPolicy,
+    pub policy: Arc<dyn LoadBalancingPolicy>,
     pub prefill_tree: Option<Arc<Mutex<Tree>>>,
     pub timeout_secs: u64,
     pub interval_secs: u64,
@@ -42,7 +41,7 @@ impl PDRouter {
         bootstrap_port: Option<u16>,
     ) -> Result<String, PDRouterError> {
         // Wait for the new server to be healthy
-        crate::router::Router::wait_for_healthy_workers(
+        crate::routers::router::Router::wait_for_healthy_workers(
             &[url.clone()],
             self.timeout_secs,
             self.interval_secs,
@@ -78,7 +77,7 @@ impl PDRouter {
 
     pub async fn add_decode_server(&self, url: String) -> Result<String, PDRouterError> {
         // Wait for the new server to be healthy
-        crate::router::Router::wait_for_healthy_workers(
+        crate::routers::router::Router::wait_for_healthy_workers(
             &[url.clone()],
             self.timeout_secs,
             self.interval_secs,
@@ -103,9 +102,6 @@ impl PDRouter {
 
         workers.push(worker);
 
-        // Initialize load tracking
-        // Worker tracks its own load internally
-
         info!("Added decode server: {}", url);
         Ok(format!("Successfully added decode server: {}", url))
     }
@@ -128,9 +124,6 @@ impl PDRouter {
             });
         }
 
-        // Remove from load tracking
-        // Worker load tracking is internal
-
         // Remove from cache tree if using cache-aware policy
         if let Some(ref tree) = self.prefill_tree {
             // Note: Tree doesn't have a remove method, so we rebuild it
@@ -170,7 +163,7 @@ impl PDRouter {
     pub fn new(
         prefill_urls: Vec<(String, Option<u16>)>,
         decode_urls: Vec<String>,
-        selection_policy: PDSelectionPolicy,
+        policy: Arc<dyn LoadBalancingPolicy>,
         timeout_secs: u64,
         interval_secs: u64,
     ) -> Result<Self, String> {
@@ -185,25 +178,38 @@ impl PDRouter {
             .map(WorkerFactory::create_decode)
             .collect();
 
-        // Wait for PD workers to be healthy
+        // Wait for PD workers to be healthy (skip if empty - for service discovery mode)
         let all_urls: Vec<String> = prefill_workers
             .iter()
             .chain(decode_workers.iter())
             .map(|worker| worker.url().to_string())
             .collect();
-        crate::router::Router::wait_for_healthy_workers(&all_urls, timeout_secs, interval_secs)?;
+        if !all_urls.is_empty() {
+            crate::routers::router::Router::wait_for_healthy_workers(
+                &all_urls,
+                timeout_secs,
+                interval_secs,
+            )?;
+        }
 
         // Initialize cache-aware components if needed
-        let prefill_tree = match &selection_policy {
-            PDSelectionPolicy::CacheAware { .. } => {
-                let tree = Arc::new(Mutex::new(Tree::new()));
-                // Initialize tree with prefill workers
-                for worker in &prefill_workers {
-                    tree.lock().unwrap().insert("", worker.url());
-                }
-                Some(tree)
+        let prefill_tree = if policy.name() == "cache_aware" {
+            // Initialize the policy's internal tree with prefill workers
+            if let Some(cache_policy) = policy
+                .as_any()
+                .downcast_ref::<crate::policies::CacheAwarePolicy>()
+            {
+                cache_policy.init_workers(&prefill_workers);
+            }
+
+            let tree = Arc::new(Mutex::new(Tree::new()));
+            // Initialize tree with prefill workers
+            for worker in &prefill_workers {
+                tree.lock().unwrap().insert("", worker.url());
             }
-            _ => None,
+            Some(tree)
+        } else {
+            None
         };
 
         // Set up background load monitoring for power-of-two selection
@@ -216,10 +222,11 @@ impl PDRouter {
             .build()
             .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
 
-        let load_monitor_handle = if matches!(selection_policy, PDSelectionPolicy::PowerOfTwo) {
+        let load_monitor_handle = if policy.name() == "power_of_two" {
             let monitor_urls = all_urls.clone();
             let monitor_interval = interval_secs;
             let monitor_client = http_client.clone();
+            let policy_clone = Arc::clone(&policy);
 
             Some(Arc::new(tokio::spawn(async move {
                 Self::monitor_worker_loads_with_client(
@@ -227,6 +234,7 @@ impl PDRouter {
                     tx,
                     monitor_interval,
                     monitor_client,
+                    policy_clone,
                 )
                 .await;
             })))
@@ -246,7 +254,7 @@ impl PDRouter {
         Ok(PDRouter {
             prefill_workers,
             decode_workers,
-            selection_policy,
+            policy,
             prefill_tree,
             timeout_secs,
             interval_secs,
@@ -270,15 +278,21 @@ impl PDRouter {
         let _request_id = Uuid::new_v4();
 
         // Get stream flag and return_logprob flag before moving the request
-        let is_stream = typed_req.is_stream();
+        let is_stream = typed_req.stream;
         let return_logprob = typed_req
             .other
             .get("return_logprob")
             .and_then(|v| v.as_bool())
             .unwrap_or(false);
 
+        // Extract text for cache-aware routing from the typed request
+        let request_text = typed_req.text.as_ref().and_then(|t| match t {
+            super::pd_types::InputText::Single(s) => Some(s.as_str()),
+            super::pd_types::InputText::Batch(v) => v.first().map(|s| s.as_str()),
+        });
+
         // Select servers
-        let (prefill, decode) = match self.select_pd_pair(client).await {
+        let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair: {}", e);
@@ -339,15 +353,24 @@ impl PDRouter {
         let start = Instant::now();
 
         // Get stream flag and return_logprob flag before moving the request
-        let is_stream = typed_req.is_stream();
+        let is_stream = typed_req.stream;
         let return_logprob = typed_req
             .other
             .get("return_logprob")
             .and_then(|v| v.as_bool())
             .unwrap_or(false);
 
+        // Extract text for cache-aware routing from chat messages
+        let request_text = typed_req
+            .other
+            .get("messages")
+            .and_then(|messages| messages.as_array())
+            .and_then(|arr| arr.first())
+            .and_then(|msg| msg.get("content"))
+            .and_then(|content| content.as_str());
+
         // Select servers
-        let (prefill, decode) = match self.select_pd_pair(client).await {
+        let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair: {}", e);
@@ -424,7 +447,7 @@ impl PDRouter {
             .json(&json_request);
 
         // Copy headers from original request
-        for (name, value) in crate::router::copy_request_headers(req) {
+        for (name, value) in crate::routers::router::copy_request_headers(req) {
             if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length" {
                 prefill_request = prefill_request.header(&name, &value);
                 decode_request = decode_request.header(&name, &value);
@@ -620,104 +643,47 @@ impl PDRouter {
     async fn select_pd_pair(
         &self,
         _client: &reqwest::Client,
+        request_text: Option<&str>,
     ) -> Result<(Box<dyn Worker>, Box<dyn Worker>), String> {
-        // Check we have workers
-        if self
+        // Get read locks for both worker lists
+        let prefill_workers = self
             .prefill_workers
             .read()
-            .map_err(|e| format!("Failed to acquire prefill workers lock: {}", e))?
-            .is_empty()
-        {
-            return Err("No prefill workers available. Please check if prefill servers are configured and healthy.".to_string());
-        }
-        if self
+            .map_err(|e| format!("Failed to acquire prefill workers lock: {}", e))?;
+        let decode_workers = self
             .decode_workers
             .read()
-            .map_err(|e| format!("Failed to acquire decode workers lock: {}", e))?
-            .is_empty()
-        {
+            .map_err(|e| format!("Failed to acquire decode workers lock: {}", e))?;
+
+        // Check we have workers
+        if prefill_workers.is_empty() {
+            return Err("No prefill workers available. Please check if prefill servers are configured and healthy.".to_string());
+        }
+        if decode_workers.is_empty() {
             return Err("No decode workers available. Please check if decode servers are configured and healthy.".to_string());
         }
 
-        match &self.selection_policy {
-            PDSelectionPolicy::Random => self.select_random(),
-            PDSelectionPolicy::PowerOfTwo => self.select_power_of_two().await,
-            PDSelectionPolicy::CacheAware { .. } => {
-                // TODO: Implement cache-aware selection
-                self.select_power_of_two().await
+        // Use the policy to select worker pair
+        match self
+            .policy
+            .select_worker_pair(&prefill_workers, &decode_workers, request_text)
+        {
+            Some((prefill_idx, decode_idx)) => {
+                let prefill = prefill_workers[prefill_idx].clone_worker();
+                let decode = decode_workers[decode_idx].clone_worker();
+                Ok((prefill, decode))
             }
+            None => Err("Failed to select worker pair".to_string()),
         }
     }
 
-    fn select_random(&self) -> Result<(Box<dyn Worker>, Box<dyn Worker>), String> {
-        let prefill_list = self.prefill_workers.read().map_err(|_| "Lock error")?;
-        let decode_list = self.decode_workers.read().map_err(|_| "Lock error")?;
-
-        let prefill = prefill_list[rand::random::<usize>() % prefill_list.len()].clone_worker();
-        let decode = decode_list[rand::random::<usize>() % decode_list.len()].clone_worker();
-
-        Ok((prefill, decode))
-    }
-
-    async fn select_power_of_two(&self) -> Result<(Box<dyn Worker>, Box<dyn Worker>), String> {
-        let prefill_list = self.prefill_workers.read().map_err(|_| "Lock error")?;
-        let decode_list = self.decode_workers.read().map_err(|_| "Lock error")?;
-
-        let (p1_idx, p2_idx) = get_two_random_indices(prefill_list.len());
-        let (d1_idx, d2_idx) = get_two_random_indices(decode_list.len());
-
-        let loads = self.worker_loads.borrow();
-
-        let p1_load = loads
-            .get(prefill_list[p1_idx].url())
-            .copied()
-            .unwrap_or(isize::MAX);
-        let p2_load = loads
-            .get(prefill_list[p2_idx].url())
-            .copied()
-            .unwrap_or(isize::MAX);
-        let d1_load = loads
-            .get(decode_list[d1_idx].url())
-            .copied()
-            .unwrap_or(isize::MAX);
-        let d2_load = loads
-            .get(decode_list[d2_idx].url())
-            .copied()
-            .unwrap_or(isize::MAX);
-
-        info!(
-            "Power-of-two selection - Prefill: {}={} vs {}={} | Decode: {}={} vs {}={}",
-            prefill_list[p1_idx].url(),
-            p1_load,
-            prefill_list[p2_idx].url(),
-            p2_load,
-            decode_list[d1_idx].url(),
-            d1_load,
-            decode_list[d2_idx].url(),
-            d2_load
-        );
-
-        let selected_prefill = if p1_load <= p2_load {
-            prefill_list[p1_idx].clone_worker()
-        } else {
-            prefill_list[p2_idx].clone_worker()
-        };
-
-        let selected_decode = if d1_load <= d2_load {
-            decode_list[d1_idx].clone_worker()
-        } else {
-            decode_list[d2_idx].clone_worker()
-        };
-
-        Ok((selected_prefill, selected_decode))
-    }
-
     // Background task to monitor worker loads with shared client
     async fn monitor_worker_loads_with_client(
         worker_urls: Vec<String>,
         tx: tokio::sync::watch::Sender<HashMap<String, isize>>,
         interval_secs: u64,
         client: reqwest::Client,
+        policy: Arc<dyn LoadBalancingPolicy>,
     ) {
         loop {
             let mut loads = HashMap::new();
@@ -742,6 +708,9 @@ impl PDRouter {
 
             debug!("Worker loads updated: {:?}", loads);
 
+            // Update the policy with current loads
+            policy.update_loads(&loads);
+
             // Check if receiver is still active
             if tx.send(loads).is_err() {
                 info!("Load monitor receiver dropped, shutting down monitor task");
@@ -792,18 +761,6 @@ impl PDRouter {
 }
 
 // Helper functions
-fn get_two_random_indices(len: usize) -> (usize, usize) {
-    if len == 1 {
-        (0, 0)
-    } else {
-        let idx1 = rand::random::<usize>() % len;
-        let mut idx2 = rand::random::<usize>() % len;
-        while idx2 == idx1 {
-            idx2 = rand::random::<usize>() % len;
-        }
-        (idx1, idx2)
-    }
-}
 
 async fn get_worker_load(client: &reqwest::Client, worker_url: &str) -> Option<isize> {
     match client.get(format!("{}/get_load", worker_url)).send().await {
@@ -841,61 +798,72 @@ async fn get_worker_load(client: &reqwest::Client, worker_url: &str) -> Option<i
 // PD-specific endpoints
 impl PDRouter {
     pub async fn health_generate(&self, client: &reqwest::Client) -> HttpResponse {
-        let mut all_healthy = true;
-        let mut unhealthy_servers = Vec::new();
+        // Test model generation capability by selecting a random pair and testing them
+        // Note: This endpoint actually causes the model to generate tokens, so we only test one pair
 
-        // Collect all worker URLs with their types
-        let mut worker_infos = Vec::new();
+        // Select a random worker pair using the policy
+        let (prefill, decode) = match self.select_pd_pair(client, None).await {
+            Ok(pair) => pair,
+            Err(e) => {
+                return HttpResponse::ServiceUnavailable()
+                    .body(format!("No healthy worker pair available: {}", e));
+            }
+        };
 
-        for worker in self.prefill_workers.read().unwrap().iter() {
-            worker_infos.push((worker.url().to_string(), "prefill"));
-        }
+        // Test prefill server's health_generate
+        let prefill_url = format!("{}/health_generate", prefill.url());
+        let prefill_result = client.get(&prefill_url).send().await;
 
-        for worker in self.decode_workers.read().unwrap().iter() {
-            worker_infos.push((worker.url().to_string(), "decode"));
-        }
+        // Test decode server's health_generate
+        let decode_url = format!("{}/health_generate", decode.url());
+        let decode_result = client.get(&decode_url).send().await;
 
-        // Create tasks with URL tracking
-        let tasks: Vec<_> = worker_infos
-            .iter()
-            .map(|(url, _)| {
-                let health_url = format!("{}/health_generate", url);
-                client.get(&health_url).send()
-            })
-            .collect();
+        // Check results
+        let mut errors = Vec::new();
 
-        let results = futures_util::future::join_all(tasks).await;
+        match prefill_result {
+            Ok(res) if res.status().is_success() => {
+                debug!(
+                    "Health generate passed for prefill server: {}",
+                    prefill.url()
+                );
+            }
+            Ok(res) => {
+                errors.push(format!(
+                    "Prefill {} returned status {}",
+                    prefill.url(),
+                    res.status()
+                ));
+            }
+            Err(e) => {
+                errors.push(format!("Prefill {} error: {}", prefill.url(), e));
+            }
+        }
 
-        for ((url, worker_type), result) in worker_infos.iter().zip(results.into_iter()) {
-            match result {
-                Ok(res) if res.status().is_success() => {
-                    debug!("Health check passed for {} server: {}", worker_type, url);
-                }
-                Ok(res) => {
-                    all_healthy = false;
-                    let msg = format!(
-                        "{} server {} returned status {}",
-                        worker_type,
-                        url,
-                        res.status()
-                    );
-                    error!("{}", msg);
-                    unhealthy_servers.push(msg);
-                }
-                Err(e) => {
-                    all_healthy = false;
-                    let msg = format!("{} server {} error: {}", worker_type, url, e);
-                    error!("{}", msg);
-                    unhealthy_servers.push(msg);
-                }
+        match decode_result {
+            Ok(res) if res.status().is_success() => {
+                debug!("Health generate passed for decode server: {}", decode.url());
+            }
+            Ok(res) => {
+                errors.push(format!(
+                    "Decode {} returned status {}",
+                    decode.url(),
+                    res.status()
+                ));
+            }
+            Err(e) => {
+                errors.push(format!("Decode {} error: {}", decode.url(), e));
             }
         }
 
-        if all_healthy {
-            HttpResponse::Ok().body("Health check passed on all servers")
+        if errors.is_empty() {
+            HttpResponse::Ok().body(format!(
+                "Health generate passed on selected pair: prefill={}, decode={}",
+                prefill.url(),
+                decode.url()
+            ))
         } else {
-            HttpResponse::ServiceUnavailable()
-                .body(format!("Health check failed: {:?}", unhealthy_servers))
+            HttpResponse::ServiceUnavailable().body(format!("Health generate failed: {:?}", errors))
         }
     }
 
@@ -955,7 +923,7 @@ impl PDRouter {
         if let Some(worker_url) = first_worker_url {
             // Send request directly without going through Router
             let mut request_builder = client.get(format!("{}/v1/models", worker_url));
-            for (name, value) in crate::router::copy_request_headers(req) {
+            for (name, value) in crate::routers::router::copy_request_headers(req) {
                 if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
                 {
                     request_builder = request_builder.header(name, value);
@@ -1035,7 +1003,7 @@ impl PDRouter {
 
         if let Some(worker_url) = first_worker_url {
             let mut request_builder = client.get(format!("{}/get_model_info", worker_url));
-            for (name, value) in crate::router::copy_request_headers(req) {
+            for (name, value) in crate::routers::router::copy_request_headers(req) {
                 if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
                 {
                     request_builder = request_builder.header(name, value);
@@ -1102,3 +1070,324 @@ impl PDRouter {
         }
     }
 }
+
+use crate::routers::{RouterTrait, WorkerManagement};
+use async_trait::async_trait;
+use reqwest::Client;
+
+#[async_trait]
+impl WorkerManagement for PDRouter {
+    async fn add_worker(&self, _worker_url: &str) -> Result<String, String> {
+        // For PD router, we don't support adding workers via this generic method
+        Err(
+            "PD router requires specific add_prefill_server or add_decode_server methods"
+                .to_string(),
+        )
+    }
+
+    fn remove_worker(&self, worker_url: &str) {
+        // For PD router, we would need to know if it's a prefill or decode server
+        // For now, try both
+        if let Ok(mut workers) = self.prefill_workers.write() {
+            if let Some(index) = workers.iter().position(|w| w.url() == worker_url) {
+                workers.remove(index);
+                info!("Removed prefill worker: {}", worker_url);
+                return;
+            }
+        }
+
+        if let Ok(mut workers) = self.decode_workers.write() {
+            if let Some(index) = workers.iter().position(|w| w.url() == worker_url) {
+                workers.remove(index);
+                info!("Removed decode worker: {}", worker_url);
+            }
+        }
+    }
+
+    fn get_worker_urls(&self) -> Vec<String> {
+        let mut urls = Vec::new();
+
+        // Add prefill worker URLs
+        if let Ok(workers) = self.prefill_workers.read() {
+            for worker in workers.iter() {
+                urls.push(worker.url().to_string());
+            }
+        }
+
+        // Add decode worker URLs
+        if let Ok(workers) = self.decode_workers.read() {
+            for worker in workers.iter() {
+                urls.push(worker.url().to_string());
+            }
+        }
+
+        urls
+    }
+}
+
+#[async_trait(?Send)]
+impl RouterTrait for PDRouter {
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+
+    async fn health(&self, _client: &Client, _req: &HttpRequest) -> HttpResponse {
+        // This is a server readiness check - checking if we have healthy workers
+        // Workers handle their own health checks in the background
+        let mut all_healthy = true;
+        let mut unhealthy_servers = Vec::new();
+
+        // Check prefill servers
+        for worker in self.prefill_workers.read().unwrap().iter() {
+            if !worker.is_healthy() {
+                all_healthy = false;
+                unhealthy_servers.push(format!("Prefill: {}", worker.url()));
+            }
+        }
+
+        // Check decode servers
+        for worker in self.decode_workers.read().unwrap().iter() {
+            if !worker.is_healthy() {
+                all_healthy = false;
+                unhealthy_servers.push(format!("Decode: {}", worker.url()));
+            }
+        }
+
+        if all_healthy {
+            HttpResponse::Ok().body("All servers healthy")
+        } else {
+            HttpResponse::ServiceUnavailable()
+                .body(format!("Unhealthy servers: {:?}", unhealthy_servers))
+        }
+    }
+
+    async fn health_generate(&self, client: &Client, _req: &HttpRequest) -> HttpResponse {
+        // Use the existing PDRouter health_generate method
+        PDRouter::health_generate(self, client).await
+    }
+
+    async fn get_server_info(&self, client: &Client, _req: &HttpRequest) -> HttpResponse {
+        // Use the existing PDRouter get_server_info method
+        PDRouter::get_server_info(self, client).await
+    }
+
+    async fn get_models(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
+        // Get first prefill worker URL to avoid holding lock across await
+        let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
+            workers.first().map(|w| w.url().to_string())
+        } else {
+            return HttpResponse::InternalServerError().body("Failed to access prefill workers");
+        };
+
+        if let Some(worker_url) = first_worker_url {
+            // Send request directly without going through Router
+            let mut request_builder = client.get(format!("{}/v1/models", worker_url));
+            for (name, value) in crate::routers::router::copy_request_headers(req) {
+                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
+                {
+                    request_builder = request_builder.header(name, value);
+                }
+            }
+            match request_builder.send().await {
+                Ok(res) => {
+                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+                    match res.bytes().await {
+                        Ok(body) => HttpResponse::build(status).body(body.to_vec()),
+                        Err(e) => HttpResponse::InternalServerError()
+                            .body(format!("Failed to read response body: {}", e)),
+                    }
+                }
+                Err(e) => HttpResponse::InternalServerError()
+                    .body(format!("Failed to send request: {}", e)),
+            }
+        } else {
+            HttpResponse::ServiceUnavailable().body("No prefill servers available")
+        }
+    }
+
+    async fn get_model_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
+        // For PD router, get model info from the first prefill server
+        // Get first prefill worker URL to avoid holding lock across await
+        let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
+            workers.first().map(|w| w.url().to_string())
+        } else {
+            return HttpResponse::InternalServerError().body("Failed to access prefill workers");
+        };
+
+        if let Some(worker_url) = first_worker_url {
+            let mut request_builder = client.get(format!("{}/get_model_info", worker_url));
+            for (name, value) in crate::routers::router::copy_request_headers(req) {
+                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
+                {
+                    request_builder = request_builder.header(name, value);
+                }
+            }
+            match request_builder.send().await {
+                Ok(res) => {
+                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+                    match res.bytes().await {
+                        Ok(body) => HttpResponse::build(status).body(body.to_vec()),
+                        Err(e) => HttpResponse::InternalServerError()
+                            .body(format!("Failed to read response body: {}", e)),
+                    }
+                }
+                Err(e) => HttpResponse::InternalServerError()
+                    .body(format!("Failed to send request: {}", e)),
+            }
+        } else {
+            HttpResponse::ServiceUnavailable().body("No prefill servers available")
+        }
+    }
+
+    async fn route_generate(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse {
+        match serde_json::from_value::<GenerateRequest>(body.clone()) {
+            Ok(openai_req) => {
+                // Convert OpenAI format to PD format
+                let pd_req = openai_req.to_pd_request();
+                PDRouter::route_generate(self, client, req, pd_req, "/generate").await
+            }
+            Err(_) => {
+                // If that fails, try to deserialize directly as PD format (for backwards compatibility)
+                match serde_json::from_value::<GenerateReqInput>(body) {
+                    Ok(pd_req) => {
+                        PDRouter::route_generate(self, client, req, pd_req, "/generate").await
+                    }
+                    Err(e) => {
+                        HttpResponse::BadRequest().body(format!("Invalid request format: {}", e))
+                    }
+                }
+            }
+        }
+    }
+
+    async fn route_chat(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse {
+        match serde_json::from_value::<ChatCompletionRequest>(body.clone()) {
+            Ok(openai_req) => {
+                // Convert OpenAI format to PD format
+                let pd_req = openai_req.to_pd_request();
+                PDRouter::route_chat(self, client, req, pd_req, "/v1/chat/completions").await
+            }
+            Err(_) => {
+                // If that fails, try to deserialize directly as PD format (for backwards compatibility)
+                match serde_json::from_value::<ChatReqInput>(body) {
+                    Ok(pd_req) => {
+                        PDRouter::route_chat(self, client, req, pd_req, "/v1/chat/completions")
+                            .await
+                    }
+                    Err(e) => {
+                        HttpResponse::BadRequest().body(format!("Invalid request format: {}", e))
+                    }
+                }
+            }
+        }
+    }
+
+    async fn route_completion(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse {
+        match serde_json::from_value::<CompletionRequest>(body.clone()) {
+            Ok(openai_req) => {
+                // Convert OpenAI format to PD format (CompletionRequest -> GenerateReqInput)
+                let pd_req = openai_req.to_pd_request();
+                PDRouter::route_generate(self, client, req, pd_req, "/v1/completions").await
+            }
+            Err(_) => {
+                // If that fails, try to deserialize directly as PD format (for backwards compatibility)
+                match serde_json::from_value::<GenerateReqInput>(body) {
+                    Ok(pd_req) => {
+                        PDRouter::route_generate(self, client, req, pd_req, "/v1/completions").await
+                    }
+                    Err(e) => {
+                        HttpResponse::BadRequest().body(format!("Invalid request format: {}", e))
+                    }
+                }
+            }
+        }
+    }
+
+    async fn flush_cache(&self, client: &Client) -> HttpResponse {
+        // Use the existing PDRouter flush_cache method
+        PDRouter::flush_cache(self, client).await
+    }
+
+    async fn get_worker_loads(&self, client: &Client) -> HttpResponse {
+        // Use the existing PDRouter get_loads method
+        PDRouter::get_loads(self, client).await
+    }
+
+    fn router_type(&self) -> &'static str {
+        "pd"
+    }
+
+    fn readiness(&self) -> HttpResponse {
+        // PD router is ready if it has at least one healthy prefill AND one healthy decode worker
+        let healthy_prefill_count = self
+            .prefill_workers
+            .read()
+            .unwrap()
+            .iter()
+            .filter(|w| w.is_healthy())
+            .count();
+
+        let healthy_decode_count = self
+            .decode_workers
+            .read()
+            .unwrap()
+            .iter()
+            .filter(|w| w.is_healthy())
+            .count();
+
+        let total_prefill = self.prefill_workers.read().unwrap().len();
+        let total_decode = self.decode_workers.read().unwrap().len();
+
+        if healthy_prefill_count > 0 && healthy_decode_count > 0 {
+            HttpResponse::Ok().json(serde_json::json!({
+                "status": "ready",
+                "prefill": {
+                    "healthy": healthy_prefill_count,
+                    "total": total_prefill
+                },
+                "decode": {
+                    "healthy": healthy_decode_count,
+                    "total": total_decode
+                }
+            }))
+        } else {
+            let mut reasons = Vec::new();
+            if healthy_prefill_count == 0 {
+                reasons.push("no healthy prefill workers");
+            }
+            if healthy_decode_count == 0 {
+                reasons.push("no healthy decode workers");
+            }
+
+            HttpResponse::ServiceUnavailable().json(serde_json::json!({
+                "status": "not_ready",
+                "reason": reasons.join(", "),
+                "prefill": {
+                    "healthy": healthy_prefill_count,
+                    "total": total_prefill
+                },
+                "decode": {
+                    "healthy": healthy_decode_count,
+                    "total": total_decode
+                }
+            }))
+        }
+    }
+}
diff --git a/sgl-router/src/pd_types.rs b/sgl-router/src/routers/pd_types.rs
similarity index 100%
rename from sgl-router/src/pd_types.rs
rename to sgl-router/src/routers/pd_types.rs
diff --git a/sgl-router/src/request_adapter.rs b/sgl-router/src/routers/request_adapter.rs
similarity index 99%
rename from sgl-router/src/request_adapter.rs
rename to sgl-router/src/routers/request_adapter.rs
index 4396cc4d7eec..f5611bbe492b 100644
--- a/sgl-router/src/request_adapter.rs
+++ b/sgl-router/src/routers/request_adapter.rs
@@ -1,9 +1,9 @@
 // Request adapter to bridge OpenAI API types with PD routing requirements
 
+use super::pd_types::{Bootstrap, ChatReqInput, GenerateReqInput, SingleOrBatch};
 use crate::openai_api_types::{
     ChatCompletionRequest, CompletionRequest, GenerateRequest, GenerationRequest, StringOrArray,
 };
-use crate::pd_types::{Bootstrap, ChatReqInput, GenerateReqInput, SingleOrBatch};
 use serde_json::Value;
 
 /// Adapter trait to convert OpenAI requests to PD-compatible requests
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
new file mode 100644
index 000000000000..ef44348eca20
--- /dev/null
+++ b/sgl-router/src/routers/router.rs
@@ -0,0 +1,1055 @@
+use crate::core::{HealthChecker, Worker, WorkerFactory};
+use crate::policies::LoadBalancingPolicy;
+use ::metrics::{counter, gauge, histogram};
+use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
+use actix_web::{HttpRequest, HttpResponse};
+use futures_util::{StreamExt, TryStreamExt};
+use std::collections::HashMap;
+use std::sync::{Arc, RwLock};
+use std::thread;
+use std::time::{Duration, Instant};
+use tracing::{debug, error, info, warn};
+
+pub fn copy_request_headers(req: &HttpRequest) -> Vec<(String, String)> {
+    req.headers()
+        .iter()
+        .filter_map(|(name, value)| {
+            value
+                .to_str()
+                .ok()
+                .map(|v| (name.to_string(), v.to_string()))
+        })
+        .collect()
+}
+
+/// Regular router that uses injected load balancing policies
+#[derive(Debug)]
+pub struct Router {
+    workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
+    policy: Arc<dyn LoadBalancingPolicy>,
+    timeout_secs: u64,
+    interval_secs: u64,
+    _worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
+    _load_monitor_handle: Option<Arc<tokio::task::JoinHandle<()>>>,
+    _health_checker: Option<HealthChecker>,
+}
+
+impl Router {
+    /// Create a new router with injected policy
+    pub fn new(
+        worker_urls: Vec<String>,
+        policy: Arc<dyn LoadBalancingPolicy>,
+        timeout_secs: u64,
+        interval_secs: u64,
+    ) -> Result<Self, String> {
+        // Update active workers gauge
+        gauge!("sgl_router_active_workers").set(worker_urls.len() as f64);
+
+        // Wait for workers to be healthy (skip if empty - for service discovery mode)
+        if !worker_urls.is_empty() {
+            Self::wait_for_healthy_workers(&worker_urls, timeout_secs, interval_secs)?;
+        }
+
+        // Create Worker trait objects from URLs
+        let workers: Vec<Box<dyn Worker>> = worker_urls
+            .iter()
+            .map(|url| WorkerFactory::create_regular(url.clone()))
+            .collect();
+
+        // Initialize policy with workers if needed (e.g., for cache-aware)
+        if let Some(cache_aware) = policy
+            .as_any()
+            .downcast_ref::<crate::policies::CacheAwarePolicy>()
+        {
+            cache_aware.init_workers(&workers);
+        }
+
+        let workers = Arc::new(RwLock::new(workers));
+        let health_checker = crate::core::start_health_checker(Arc::clone(&workers), interval_secs);
+
+        // Setup load monitoring for PowerOfTwo policy
+        let (tx, rx) = tokio::sync::watch::channel(HashMap::new());
+        let worker_loads = Arc::new(rx);
+
+        let load_monitor_handle = if policy.name() == "power_of_two" {
+            let monitor_urls = worker_urls.clone();
+            let monitor_interval = interval_secs;
+            let policy_clone = Arc::clone(&policy);
+
+            Some(Arc::new(tokio::spawn(async move {
+                Self::monitor_worker_loads(monitor_urls, tx, monitor_interval, policy_clone).await;
+            })))
+        } else {
+            None
+        };
+
+        Ok(Router {
+            workers,
+            policy,
+            timeout_secs,
+            interval_secs,
+            _worker_loads: worker_loads,
+            _load_monitor_handle: load_monitor_handle,
+            _health_checker: Some(health_checker),
+        })
+    }
+
+    /// Get the current list of worker URLs
+    pub fn get_worker_urls(&self) -> Vec<String> {
+        self.workers
+            .read()
+            .unwrap()
+            .iter()
+            .map(|w| w.url().to_string())
+            .collect()
+    }
+
+    pub fn wait_for_healthy_workers(
+        worker_urls: &[String],
+        timeout_secs: u64,
+        interval_secs: u64,
+    ) -> Result<(), String> {
+        let start_time = std::time::Instant::now();
+        let sync_client = reqwest::blocking::Client::builder()
+            .timeout(Duration::from_secs(timeout_secs))
+            .build()
+            .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
+
+        loop {
+            if start_time.elapsed() > Duration::from_secs(timeout_secs) {
+                error!(
+                    "Timeout {}s waiting for workers {:?} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
+                    timeout_secs, worker_urls
+                );
+                return Err(format!(
+                    "Timeout {}s waiting for workers {:?} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
+                    timeout_secs, worker_urls
+                ));
+            }
+
+            let mut all_healthy = true;
+            let mut unhealthy_workers = Vec::new();
+
+            for url in worker_urls {
+                match sync_client.get(&format!("{}/health", url)).send() {
+                    Ok(res) => {
+                        if !res.status().is_success() {
+                            let msg = format!(
+                                "Worker heatlh check is pending with status {}",
+                                res.status()
+                            );
+                            info!("{}", msg);
+                            all_healthy = false;
+                            unhealthy_workers.push((url, msg));
+                        }
+                    }
+                    Err(_) => {
+                        let msg = format!("Worker is not ready yet");
+                        info!("{}", msg);
+                        all_healthy = false;
+                        unhealthy_workers.push((url, msg));
+                    }
+                }
+            }
+
+            if all_healthy {
+                info!("All workers are healthy");
+                return Ok(());
+            } else {
+                info!("Initializing workers:");
+                for (url, reason) in &unhealthy_workers {
+                    info!("  {} - {}", url, reason);
+                }
+                thread::sleep(Duration::from_secs(interval_secs));
+            }
+        }
+    }
+
+    fn select_first_worker(&self) -> Result<String, String> {
+        let workers_guard = self.workers.read().unwrap();
+        if workers_guard.is_empty() {
+            Err("No workers are available".to_string())
+        } else {
+            Ok(workers_guard[0].url().to_string())
+        }
+    }
+
+    pub async fn send_request(
+        &self,
+        client: &reqwest::Client,
+        worker_url: &str,
+        route: &str,
+        req: &HttpRequest,
+    ) -> HttpResponse {
+        let start = Instant::now();
+        let mut request_builder = client.get(format!("{}{}", worker_url, route));
+
+        // Copy all headers from original request except for /health because it does not need authorization
+        if route != "/health" {
+            for (name, value) in copy_request_headers(req) {
+                // Skip Content-Type and Content-Length as .json() sets them
+                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
+                {
+                    request_builder = request_builder.header(name, value);
+                }
+            }
+        }
+
+        let response = match request_builder.send().await {
+            Ok(res) => {
+                let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
+                    .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+
+                match res.bytes().await {
+                    Ok(body) => HttpResponse::build(status).body(body.to_vec()),
+                    Err(e) => HttpResponse::InternalServerError()
+                        .body(format!("Failed to read response body: {}", e)),
+                }
+            }
+            Err(e) => HttpResponse::InternalServerError().body(format!(
+                "Failed to send request to worker {}: {}",
+                worker_url, e
+            )),
+        };
+
+        // Record request metrics
+        if route != "/health" {
+            let duration = start.elapsed();
+            counter!("sgl_router_requests_total", "route" => route.to_string()).increment(1);
+            histogram!("sgl_router_request_duration_seconds", "route" => route.to_string())
+                .record(duration.as_secs_f64());
+
+            if !response.status().is_success() {
+                counter!("sgl_router_request_errors_total", "route" => route.to_string())
+                    .increment(1);
+            }
+        }
+        response
+    }
+
+    pub async fn route_to_first(
+        &self,
+        client: &reqwest::Client,
+        route: &str,
+        req: &HttpRequest,
+    ) -> HttpResponse {
+        const MAX_REQUEST_RETRIES: u32 = 3;
+        const MAX_TOTAL_RETRIES: u32 = 6;
+        let mut total_retries = 0;
+
+        while total_retries < MAX_TOTAL_RETRIES {
+            match self.select_first_worker() {
+                Ok(worker_url) => {
+                    let mut request_retries = 0;
+
+                    // Try the same worker multiple times
+                    while request_retries < MAX_REQUEST_RETRIES {
+                        if total_retries >= 1 {
+                            info!("Retrying request after {} failed attempts", total_retries);
+                        }
+
+                        let response = self.send_request(client, &worker_url, route, req).await;
+
+                        if response.status().is_success() {
+                            return response;
+                        } else {
+                            // if the worker is healthy, it means the request is bad, so return the error response
+                            let health_response =
+                                self.send_request(client, &worker_url, "/health", req).await;
+                            if health_response.status().is_success() {
+                                return response;
+                            }
+                        }
+
+                        warn!(
+                            "Request to {} failed (attempt {}/{})",
+                            worker_url,
+                            request_retries + 1,
+                            MAX_REQUEST_RETRIES
+                        );
+
+                        request_retries += 1;
+                        total_retries += 1;
+
+                        if request_retries == MAX_REQUEST_RETRIES {
+                            warn!("Removing failed worker: {}", worker_url);
+                            self.remove_worker(&worker_url);
+                            break;
+                        }
+                    }
+                }
+                Err(e) => return HttpResponse::InternalServerError().body(e),
+            }
+        }
+
+        HttpResponse::InternalServerError().body("All retry attempts failed")
+    }
+
+    pub async fn route_to_all(
+        &self,
+        client: &reqwest::Client,
+        route: &str,
+        req: &HttpRequest,
+    ) -> HttpResponse {
+        // Get all worker URLs
+        let worker_urls = self.get_worker_urls();
+
+        // Send requests to all workers concurrently
+        let mut tasks = Vec::new();
+        for worker_url in &worker_urls {
+            let mut request_builder = client.post(format!("{}{}", worker_url, route));
+
+            // Copy headers from original request
+            for (name, value) in copy_request_headers(req) {
+                request_builder = request_builder.header(name, value);
+            }
+
+            tasks.push(request_builder.send());
+        }
+
+        // Wait for all responses
+        let results = futures_util::future::join_all(tasks).await;
+
+        // Check if all succeeded
+        let all_success = results.iter().all(|r| {
+            r.as_ref()
+                .map(|res| res.status().is_success())
+                .unwrap_or(false)
+        });
+
+        if all_success {
+            HttpResponse::Ok().body("Operation completed on all servers")
+        } else {
+            HttpResponse::InternalServerError().body("Operation failed on one or more servers")
+        }
+    }
+
+    pub async fn get_all_loads(
+        &self,
+        client: &reqwest::Client,
+        _req: &HttpRequest,
+    ) -> HttpResponse {
+        let urls = self.get_worker_urls();
+        let prefill_urls: Vec<String> = Vec::new();
+        let decode_urls = urls;
+
+        // Collect loads from all servers
+        let mut prefill_loads = Vec::new();
+        let mut decode_loads = Vec::new();
+
+        // Get prefill loads
+        for url in &prefill_urls {
+            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
+            prefill_loads.push(serde_json::json!({
+                "engine": format!("(Prefill@{})", url),
+                "load": load as i64
+            }));
+        }
+
+        // Get decode loads
+        for url in &decode_urls {
+            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
+            decode_loads.push(serde_json::json!({
+                "engine": format!("(Decode@{})", url),
+                "load": load as i64
+            }));
+        }
+
+        HttpResponse::Ok().json(serde_json::json!({
+            "prefill": prefill_loads,
+            "decode": decode_loads
+        }))
+    }
+
+    // New method to route typed requests directly
+    pub async fn route_typed_request<
+        T: crate::openai_api_types::GenerationRequest + serde::Serialize + Clone,
+    >(
+        &self,
+        client: &reqwest::Client,
+        req: &HttpRequest,
+        typed_req: &T,
+        route: &str,
+    ) -> HttpResponse {
+        // Handle retries like the original implementation
+        let start = Instant::now();
+        const MAX_REQUEST_RETRIES: u32 = 3;
+        const MAX_TOTAL_RETRIES: u32 = 6;
+        let mut total_retries = 0;
+
+        while total_retries < MAX_TOTAL_RETRIES {
+            // Extract routing text directly from typed request
+            let text = typed_req.extract_text_for_routing();
+            let is_stream = typed_req.is_stream();
+
+            // Select worker based on text
+            let worker_url = self.select_generate_worker_from_text(&text);
+            let mut request_retries = 0;
+
+            // Try the same worker multiple times
+            while request_retries < MAX_REQUEST_RETRIES {
+                if total_retries >= 1 {
+                    info!("Retrying request after {} failed attempts", total_retries);
+                    counter!("sgl_router_retries_total", "route" => route.to_string()).increment(1);
+                }
+
+                // Increment load before request if using RAII load tracking
+                let load_incremented = if self.policy.name() == "cache_aware" {
+                    let workers_guard = self.workers.read().unwrap();
+                    if let Some(worker) = workers_guard.iter().find(|w| w.url() == &worker_url) {
+                        worker.increment_load();
+                        gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
+                            .set(worker.load() as f64);
+                        true
+                    } else {
+                        false
+                    }
+                } else {
+                    false
+                };
+
+                // Send typed request directly
+                let response = self
+                    .send_typed_request(
+                        client,
+                        req,
+                        typed_req,
+                        route,
+                        &worker_url,
+                        is_stream,
+                        load_incremented,
+                    )
+                    .await;
+
+                if response.status().is_success() {
+                    let duration = start.elapsed();
+                    histogram!("sgl_router_generate_duration_seconds", "route" => route.to_string())
+                        .record(duration.as_secs_f64());
+                    return response;
+                } else {
+                    // if the worker is healthy, it means the request is bad, so return the error response
+                    let health_response =
+                        self.send_request(client, &worker_url, "/health", req).await;
+                    if health_response.status().is_success() {
+                        counter!("sgl_router_request_errors_total", "route" => route.to_string())
+                            .increment(1);
+                        return response;
+                    }
+                }
+
+                warn!(
+                    "Generate request to {} failed (attempt {}/{})",
+                    worker_url,
+                    request_retries + 1,
+                    MAX_REQUEST_RETRIES
+                );
+
+                request_retries += 1;
+                total_retries += 1;
+
+                if request_retries == MAX_REQUEST_RETRIES {
+                    warn!("Removing failed worker: {}", worker_url);
+                    self.remove_worker(&worker_url);
+                    break;
+                }
+            }
+        }
+
+        counter!("sgl_router_request_errors_total", "route" => route.to_string()).increment(1);
+        HttpResponse::InternalServerError().body("All retry attempts failed")
+    }
+
+    // Helper method to select worker from text using the policy
+    fn select_generate_worker_from_text(&self, text: &str) -> String {
+        let workers = self.workers.read().unwrap();
+
+        match self.policy.select_worker(&workers, Some(text)) {
+            Some(idx) => workers[idx].url().to_string(),
+            None => {
+                warn!("No healthy workers available");
+                String::new()
+            }
+        }
+    }
+
+    // Send typed request directly without conversion
+    async fn send_typed_request<T: serde::Serialize>(
+        &self,
+        client: &reqwest::Client,
+        req: &HttpRequest,
+        typed_req: &T,
+        route: &str,
+        worker_url: &str,
+        is_stream: bool,
+        load_incremented: bool, // Whether load was incremented for this request
+    ) -> HttpResponse {
+        let start = Instant::now();
+
+        // Debug: Log what we're sending
+        if let Ok(json_str) = serde_json::to_string_pretty(typed_req) {
+            debug!("Sending request to {}: {}", route, json_str);
+        }
+
+        let mut request_builder = client
+            .post(format!("{}{}", worker_url, route))
+            .json(typed_req); // Use json() directly with typed request
+
+        // Copy all headers from original request
+        for (name, value) in copy_request_headers(req) {
+            // Skip Content-Type and Content-Length as .json() sets them
+            if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length" {
+                request_builder = request_builder.header(&name, &value);
+            }
+        }
+
+        let res = match request_builder.send().await {
+            Ok(res) => res,
+            Err(e) => {
+                error!("Failed to send request to {}: {}", worker_url, e);
+
+                // Decrement load on error if it was incremented
+                if load_incremented {
+                    if let Ok(workers_guard) = self.workers.read() {
+                        if let Some(worker) = workers_guard.iter().find(|w| w.url() == worker_url) {
+                            worker.decrement_load();
+                            gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
+                                .set(worker.load() as f64);
+                        }
+                    }
+                }
+
+                return HttpResponse::InternalServerError().body(format!("Request failed: {}", e));
+            }
+        };
+
+        let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
+            .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+
+        if !is_stream {
+            // For non-streaming requests, get response first
+            let response = match res.bytes().await {
+                Ok(body) => HttpResponse::build(status).body(body.to_vec()),
+                Err(e) => {
+                    let error_msg = format!("Failed to get response body: {}", e);
+                    HttpResponse::InternalServerError().body(error_msg)
+                }
+            };
+
+            // Decrement load counter for non-streaming requests if it was incremented
+            if load_incremented && !is_stream {
+                if let Ok(workers_guard) = self.workers.read() {
+                    if let Some(worker) = workers_guard.iter().find(|w| w.url() == worker_url) {
+                        worker.decrement_load();
+                        gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
+                            .set(worker.load() as f64);
+                    }
+                }
+            }
+
+            // Record metrics
+            let duration = start.elapsed();
+            histogram!("sgl_router_generate_duration_seconds", "route" => route.to_string())
+                .record(duration.as_secs_f64());
+            counter!("sgl_router_requests_total", "route" => route.to_string()).increment(1);
+
+            response
+        } else if load_incremented {
+            // For streaming with load tracking, we need to manually decrement when done
+            let workers = Arc::clone(&self.workers);
+            let worker_url = worker_url.to_string();
+
+            HttpResponse::build(status)
+                .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
+                .streaming(
+                    res.bytes_stream()
+                        .map_err(|_| {
+                            actix_web::error::ErrorInternalServerError("Failed to read stream")
+                        })
+                        .inspect(move |bytes| {
+                            if let Ok(bytes) = bytes {
+                                if bytes
+                                    .as_ref()
+                                    .windows(12)
+                                    .any(|window| window == b"data: [DONE]")
+                                {
+                                    if let Ok(workers_guard) = workers.read() {
+                                        if let Some(worker) =
+                                            workers_guard.iter().find(|w| w.url() == &worker_url)
+                                        {
+                                            worker.decrement_load();
+                                            gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
+                                                .set(worker.load() as f64);
+                                            debug!("Streaming is done!!")
+                                        }
+                                    }
+                                }
+                            }
+                        }),
+                )
+        } else {
+            // For requests without load tracking, just stream
+            HttpResponse::build(status)
+                .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
+                .streaming(res.bytes_stream().map_err(|_| {
+                    actix_web::error::ErrorInternalServerError("Failed to read stream")
+                }))
+        }
+    }
+
+    pub async fn add_worker(&self, worker_url: &str) -> Result<String, String> {
+        let start_time = std::time::Instant::now();
+        let client = reqwest::Client::builder()
+            .timeout(Duration::from_secs(self.timeout_secs))
+            .build()
+            .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
+
+        loop {
+            if start_time.elapsed() > Duration::from_secs(self.timeout_secs) {
+                error!(
+                    "Timeout {}s waiting for worker {} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
+                    self.timeout_secs, worker_url
+                );
+                return Err(format!(
+                    "Timeout {}s waiting for worker {} to become healthy. Please set --router-worker-startup-timeout-secs (sglang_router.launch_server) or --worker-startup-timeout-secs (sglang_worker.router) to a larger value",
+                    self.timeout_secs, worker_url
+                ));
+            }
+
+            match client.get(&format!("{}/health", worker_url)).send().await {
+                Ok(res) => {
+                    if res.status().is_success() {
+                        info!("Worker {} health check passed", worker_url);
+                        let mut workers_guard = self.workers.write().unwrap();
+                        if workers_guard.iter().any(|w| w.url() == worker_url) {
+                            return Err(format!("Worker {} already exists", worker_url));
+                        }
+                        info!("Added worker: {}", worker_url);
+                        let new_worker = WorkerFactory::create_regular(worker_url.to_string());
+                        workers_guard.push(new_worker);
+                        gauge!("sgl_router_active_workers").set(workers_guard.len() as f64);
+
+                        // If cache aware policy, initialize the worker in the tree
+                        if let Some(cache_aware) =
+                            self.policy
+                                .as_any()
+                                .downcast_ref::<crate::policies::CacheAwarePolicy>()
+                        {
+                            // Get updated workers after adding
+                            drop(workers_guard);
+                            let workers_guard = self.workers.read().unwrap();
+                            cache_aware.init_workers(&workers_guard);
+                        }
+
+                        return Ok(format!("Successfully added worker: {}", worker_url));
+                    } else {
+                        info!(
+                            "Worker {} health check is pending with status: {}.",
+                            worker_url,
+                            res.status()
+                        );
+                        // if the url does not have http or https prefix, warn users
+                        if !worker_url.starts_with("http://") && !worker_url.starts_with("https://")
+                        {
+                            warn!("The worker url {} does not have http or https prefix. Please add the prefix to the url.", worker_url);
+                        }
+
+                        tokio::time::sleep(Duration::from_secs(self.interval_secs)).await;
+                        continue;
+                    }
+                }
+                Err(e) => {
+                    info!(
+                        "Worker {} health check is pending with error: {}",
+                        worker_url, e
+                    );
+
+                    // if the url does not have http or https prefix, warn users
+                    if !worker_url.starts_with("http://") && !worker_url.starts_with("https://") {
+                        warn!("The worker url {} does not have http or https prefix. Please add the prefix to the url.", worker_url);
+                    }
+
+                    tokio::time::sleep(Duration::from_secs(self.interval_secs)).await;
+                    continue;
+                }
+            }
+        }
+    }
+
+    pub fn remove_worker(&self, worker_url: &str) {
+        let mut workers_guard = self.workers.write().unwrap();
+        if let Some(index) = workers_guard.iter().position(|w| w.url() == worker_url) {
+            workers_guard.remove(index);
+            info!("Removed worker: {}", worker_url);
+            gauge!("sgl_router_active_workers").set(workers_guard.len() as f64);
+        } else {
+            warn!("Worker {} not found, skipping removal", worker_url);
+            return;
+        }
+
+        // If cache aware policy, remove the worker from the tree
+        if let Some(cache_aware) = self
+            .policy
+            .as_any()
+            .downcast_ref::<crate::policies::CacheAwarePolicy>()
+        {
+            cache_aware.remove_worker(worker_url);
+            info!("Removed worker from tree: {}", worker_url);
+        }
+    }
+
+    async fn get_worker_load(&self, client: &reqwest::Client, worker_url: &str) -> Option<isize> {
+        match client.get(&format!("{}/get_load", worker_url)).send().await {
+            Ok(res) if res.status().is_success() => match res.bytes().await {
+                Ok(bytes) => match serde_json::from_slice::<serde_json::Value>(&bytes) {
+                    Ok(data) => data
+                        .get("load")
+                        .and_then(|v| v.as_i64())
+                        .map(|v| v as isize),
+                    Err(e) => {
+                        debug!("Failed to parse load response from {}: {}", worker_url, e);
+                        None
+                    }
+                },
+                Err(e) => {
+                    debug!("Failed to read load response from {}: {}", worker_url, e);
+                    None
+                }
+            },
+            Ok(res) => {
+                debug!(
+                    "Worker {} returned non-success status: {}",
+                    worker_url,
+                    res.status()
+                );
+                None
+            }
+            Err(e) => {
+                debug!("Failed to get load from {}: {}", worker_url, e);
+                None
+            }
+        }
+    }
+
+    // Background task to monitor worker loads
+    async fn monitor_worker_loads(
+        worker_urls: Vec<String>,
+        tx: tokio::sync::watch::Sender<HashMap<String, isize>>,
+        interval_secs: u64,
+        policy: Arc<dyn LoadBalancingPolicy>,
+    ) {
+        let client = match reqwest::Client::builder()
+            .timeout(Duration::from_secs(5))
+            .build()
+        {
+            Ok(c) => c,
+            Err(e) => {
+                error!("Failed to create HTTP client for load monitoring: {}", e);
+                return;
+            }
+        };
+
+        let mut interval = tokio::time::interval(Duration::from_secs(interval_secs));
+
+        loop {
+            interval.tick().await;
+
+            let mut loads = HashMap::new();
+            for url in &worker_urls {
+                if let Some(load) = Self::get_worker_load_static(&client, url).await {
+                    loads.insert(url.clone(), load);
+                    debug!("Worker {} load: {}", url, load);
+                }
+            }
+
+            if !loads.is_empty() {
+                // Update policy with new loads
+                policy.update_loads(&loads);
+
+                // Send to watchers
+                if let Err(e) = tx.send(loads) {
+                    error!("Failed to send load update: {}", e);
+                }
+            }
+        }
+    }
+
+    // Static version of get_worker_load for use in monitoring task
+    async fn get_worker_load_static(client: &reqwest::Client, worker_url: &str) -> Option<isize> {
+        match client.get(&format!("{}/get_load", worker_url)).send().await {
+            Ok(res) if res.status().is_success() => match res.bytes().await {
+                Ok(bytes) => match serde_json::from_slice::<serde_json::Value>(&bytes) {
+                    Ok(data) => data
+                        .get("load")
+                        .and_then(|v| v.as_i64())
+                        .map(|v| v as isize),
+                    Err(e) => {
+                        debug!("Failed to parse load response from {}: {}", worker_url, e);
+                        None
+                    }
+                },
+                Err(e) => {
+                    debug!("Failed to read load response from {}: {}", worker_url, e);
+                    None
+                }
+            },
+            Ok(res) => {
+                debug!(
+                    "Worker {} returned non-success status: {}",
+                    worker_url,
+                    res.status()
+                );
+                None
+            }
+            Err(e) => {
+                debug!("Failed to get load from {}: {}", worker_url, e);
+                None
+            }
+        }
+    }
+}
+
+use crate::routers::{RouterTrait, WorkerManagement};
+use async_trait::async_trait;
+use reqwest::Client;
+
+#[async_trait]
+impl WorkerManagement for Router {
+    async fn add_worker(&self, worker_url: &str) -> Result<String, String> {
+        Router::add_worker(self, worker_url).await
+    }
+
+    fn remove_worker(&self, worker_url: &str) {
+        Router::remove_worker(self, worker_url)
+    }
+
+    fn get_worker_urls(&self) -> Vec<String> {
+        Router::get_worker_urls(self)
+    }
+}
+
+#[async_trait(?Send)]
+impl RouterTrait for Router {
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+
+    async fn health(&self, _client: &Client, _req: &HttpRequest) -> HttpResponse {
+        // Check local health state of all workers (consistent with PD router)
+        // Note: This uses cached health status from background health checks, not live checks
+        let mut all_healthy = true;
+        let mut unhealthy_servers = Vec::new();
+
+        for worker in self.workers.read().unwrap().iter() {
+            if !worker.is_healthy() {
+                all_healthy = false;
+                unhealthy_servers.push(worker.url().to_string());
+            }
+        }
+
+        if all_healthy {
+            HttpResponse::Ok().body("All servers healthy")
+        } else {
+            HttpResponse::ServiceUnavailable()
+                .body(format!("Unhealthy servers: {:?}", unhealthy_servers))
+        }
+    }
+
+    async fn health_generate(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
+        // Test model generation capability by sending to first available worker
+        // Note: This endpoint actually causes the model to generate a token, so we only test one worker
+        self.route_to_first(client, "/health_generate", req).await
+    }
+
+    async fn get_server_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
+        self.route_to_first(client, "/get_server_info", req).await
+    }
+
+    async fn get_models(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
+        self.route_to_first(client, "/v1/models", req).await
+    }
+
+    async fn get_model_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
+        self.route_to_first(client, "/get_model_info", req).await
+    }
+
+    async fn route_generate(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse {
+        // Convert JSON to typed request
+        match serde_json::from_value::<crate::openai_api_types::GenerateRequest>(body) {
+            Ok(typed_req) => {
+                self.route_typed_request(client, req, &typed_req, "/generate")
+                    .await
+            }
+            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request: {}", e)),
+        }
+    }
+
+    async fn route_chat(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse {
+        // Convert JSON to typed request
+        match serde_json::from_value::<crate::openai_api_types::ChatCompletionRequest>(body) {
+            Ok(typed_req) => {
+                self.route_typed_request(client, req, &typed_req, "/v1/chat/completions")
+                    .await
+            }
+            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request: {}", e)),
+        }
+    }
+
+    async fn route_completion(
+        &self,
+        client: &Client,
+        req: &HttpRequest,
+        body: serde_json::Value,
+    ) -> HttpResponse {
+        // Convert JSON to typed request
+        match serde_json::from_value::<crate::openai_api_types::CompletionRequest>(body) {
+            Ok(typed_req) => {
+                self.route_typed_request(client, req, &typed_req, "/v1/completions")
+                    .await
+            }
+            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request: {}", e)),
+        }
+    }
+
+    async fn flush_cache(&self, client: &Client) -> HttpResponse {
+        // Get all worker URLs
+        let worker_urls = self.get_worker_urls();
+
+        // Send requests to all workers concurrently without headers
+        let mut tasks = Vec::new();
+        for worker_url in &worker_urls {
+            let request_builder = client.post(format!("{}/flush_cache", worker_url));
+            tasks.push(request_builder.send());
+        }
+
+        // Wait for all responses
+        let results = futures_util::future::join_all(tasks).await;
+
+        // Check if all succeeded
+        let all_success = results.iter().all(|r| {
+            r.as_ref()
+                .map(|res| res.status().is_success())
+                .unwrap_or(false)
+        });
+
+        if all_success {
+            HttpResponse::Ok().body("Cache flushed on all servers")
+        } else {
+            HttpResponse::InternalServerError().body("Cache flush failed on one or more servers")
+        }
+    }
+
+    async fn get_worker_loads(&self, client: &Client) -> HttpResponse {
+        let urls = self.get_worker_urls();
+        let mut loads = Vec::new();
+
+        // Get loads from all workers
+        for url in &urls {
+            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
+            loads.push(serde_json::json!({
+                "worker": url,
+                "load": load
+            }));
+        }
+
+        HttpResponse::Ok().json(serde_json::json!({
+            "workers": loads
+        }))
+    }
+
+    fn router_type(&self) -> &'static str {
+        "regular"
+    }
+
+    fn readiness(&self) -> HttpResponse {
+        // Regular router is ready if it has at least one healthy worker
+        let healthy_count = self
+            .workers
+            .read()
+            .unwrap()
+            .iter()
+            .filter(|w| w.is_healthy())
+            .count();
+
+        if healthy_count > 0 {
+            HttpResponse::Ok().json(serde_json::json!({
+                "status": "ready",
+                "healthy_workers": healthy_count,
+                "total_workers": self.workers.read().unwrap().len()
+            }))
+        } else {
+            HttpResponse::ServiceUnavailable().json(serde_json::json!({
+                "status": "not_ready",
+                "reason": "no healthy workers available",
+                "total_workers": self.workers.read().unwrap().len()
+            }))
+        }
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::policies::RandomPolicy;
+    use std::collections::HashMap;
+
+    fn create_test_regular_router() -> Router {
+        let workers = vec![
+            WorkerFactory::create_regular("http://worker1:8080".to_string()),
+            WorkerFactory::create_regular("http://worker2:8080".to_string()),
+        ];
+        let (_, rx) = tokio::sync::watch::channel(HashMap::new());
+        Router {
+            workers: Arc::new(RwLock::new(workers)),
+            policy: Arc::new(RandomPolicy::new()),
+            timeout_secs: 5,
+            interval_secs: 1,
+            _worker_loads: Arc::new(rx),
+            _load_monitor_handle: None,
+            _health_checker: None,
+        }
+    }
+
+    #[test]
+    fn test_router_get_worker_urls_regular() {
+        let router = create_test_regular_router();
+        let urls = router.get_worker_urls();
+
+        assert_eq!(urls.len(), 2);
+        assert!(urls.contains(&"http://worker1:8080".to_string()));
+        assert!(urls.contains(&"http://worker2:8080".to_string()));
+    }
+
+    #[test]
+    fn test_select_first_worker_regular() {
+        let router = create_test_regular_router();
+        let result = router.select_first_worker();
+
+        assert!(result.is_ok());
+        assert_eq!(result.unwrap(), "http://worker1:8080");
+    }
+
+    #[test]
+    fn test_wait_for_healthy_workers_empty_list() {
+        let result = Router::wait_for_healthy_workers(&[], 1, 1);
+        assert!(result.is_ok());
+    }
+
+    #[test]
+    fn test_wait_for_healthy_workers_invalid_urls() {
+        // This test will timeout quickly since the URLs are invalid
+        let result =
+            Router::wait_for_healthy_workers(&["http://nonexistent:8080".to_string()], 1, 1);
+        assert!(result.is_err());
+        assert!(result.unwrap_err().contains("Timeout"));
+    }
+}
diff --git a/sgl-router/src/server.rs b/sgl-router/src/server.rs
index bb2695b932ce..69340eefe52b 100644
--- a/sgl-router/src/server.rs
+++ b/sgl-router/src/server.rs
@@ -1,9 +1,8 @@
+use crate::config::RouterConfig;
 use crate::logging::{self, LoggingConfig};
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::prometheus::{self, PrometheusConfig};
-use crate::request_adapter::ToPdRequest;
-use crate::router::PolicyConfig;
-use crate::router::Router;
+use crate::routers::{RouterFactory, RouterTrait};
 use crate::service_discovery::{start_service_discovery, ServiceDiscoveryConfig};
 use actix_web::{
     error, get, post, web, App, Error, HttpRequest, HttpResponse, HttpServer, Responder,
@@ -19,27 +18,19 @@ use tracing::{error, info, warn, Level};
 
 #[derive(Debug)]
 pub struct AppState {
-    router: Arc<Router>,
+    router: Arc<dyn RouterTrait>,
     client: Client,
-    is_pd_mode: bool, // Add flag to track PD mode
 }
 
 impl AppState {
-    pub fn new(
-        worker_urls: Vec<String>,
-        client: Client,
-        policy_config: PolicyConfig,
-    ) -> Result<Self, String> {
-        // Check if this is PD mode from policy config
-        let is_pd_mode = matches!(policy_config, PolicyConfig::PrefillDecodeConfig { .. });
-
-        // Create router based on policy
-        let router = Arc::new(Router::new(worker_urls, policy_config)?);
-        Ok(Self {
-            router,
-            client,
-            is_pd_mode,
-        })
+    pub fn new(router_config: RouterConfig, client: Client) -> Result<Self, String> {
+        // Use RouterFactory to create the appropriate router type
+        let router = RouterFactory::create_router(&router_config)?;
+
+        // Convert Box<dyn RouterTrait> to Arc<dyn RouterTrait>
+        let router = Arc::from(router);
+
+        Ok(Self { router, client })
     }
 }
 
@@ -76,65 +67,39 @@ fn json_error_handler(err: error::JsonPayloadError, _req: &HttpRequest) -> Error
     }
 }
 
+#[get("/liveness")]
+async fn liveness(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
+    data.router.liveness()
+}
+
+#[get("/readiness")]
+async fn readiness(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
+    data.router.readiness()
+}
+
 #[get("/health")]
 async fn health(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router
-        .route_to_first(&data.client, "/health", &req)
-        .await
+    data.router.health(&data.client, &req).await
 }
 
 #[get("/health_generate")]
 async fn health_generate(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    // Check if we're in PD mode
-    if data.is_pd_mode {
-        // For PD mode, check health on all servers
-        data.router
-            .route_pd_health_generate(&data.client, &req)
-            .await
-    } else {
-        // Regular mode
-        data.router
-            .route_to_first(&data.client, "/health_generate", &req)
-            .await
-    }
+    data.router.health_generate(&data.client, &req).await
 }
 
 #[get("/get_server_info")]
 async fn get_server_info(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    if data.is_pd_mode {
-        // For PD mode, aggregate info from both prefill and decode servers
-        data.router.get_pd_server_info(&data.client, &req).await
-    } else {
-        // Regular mode - return first server's info
-        data.router
-            .route_to_first(&data.client, "/get_server_info", &req)
-            .await
-    }
+    data.router.get_server_info(&data.client, &req).await
 }
 
 #[get("/v1/models")]
 async fn v1_models(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    if data.is_pd_mode {
-        // For PD mode, return models from the first prefill server
-        data.router.get_pd_models(&data.client, &req).await
-    } else {
-        // Regular mode
-        data.router
-            .route_to_first(&data.client, "/v1/models", &req)
-            .await
-    }
+    data.router.get_models(&data.client, &req).await
 }
 
 #[get("/get_model_info")]
 async fn get_model_info(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    if data.is_pd_mode {
-        // For PD mode, get model info from the first prefill server
-        data.router.get_pd_model_info(&data.client, &req).await
-    } else {
-        data.router
-            .route_to_first(&data.client, "/get_model_info", &req)
-            .await
-    }
+    data.router.get_model_info(&data.client, &req).await
 }
 
 #[post("/generate")]
@@ -143,24 +108,12 @@ async fn generate(
     body: web::Json<GenerateRequest>,
     state: web::Data<AppState>,
 ) -> Result<HttpResponse, Error> {
-    let client = &state.client;
-    let router = &state.router;
-
-    // Use typed request directly for both PD and regular routing
-    if state.is_pd_mode {
-        // For PD mode, convert to PD request with bootstrap
-        let pd_request = body.into_inner().to_pd_request();
-
-        Ok(router
-            .route_pd_generate_typed(&client, &req, pd_request, "/generate")
-            .await)
-    } else {
-        // For regular mode, use typed request directly
-        let request = body.into_inner();
-        Ok(router
-            .route_typed_request(&client, &req, &request, "/generate")
-            .await)
-    }
+    let json_body = serde_json::to_value(body.into_inner())
+        .map_err(|e| error::ErrorBadRequest(format!("Invalid JSON: {}", e)))?;
+    Ok(state
+        .router
+        .route_generate(&state.client, &req, json_body)
+        .await)
 }
 
 #[post("/v1/chat/completions")]
@@ -169,24 +122,12 @@ async fn v1_chat_completions(
     body: web::Json<ChatCompletionRequest>,
     state: web::Data<AppState>,
 ) -> Result<HttpResponse, Error> {
-    let client = &state.client;
-    let router = &state.router;
-
-    // Use typed request directly for both PD and regular routing
-    if state.is_pd_mode {
-        // For PD mode, convert to PD request with bootstrap
-        let pd_request = body.into_inner().to_pd_request();
-
-        Ok(router
-            .route_pd_chat_typed(&client, &req, pd_request, "/v1/chat/completions")
-            .await)
-    } else {
-        // For regular mode, use typed request directly
-        let request = body.into_inner();
-        Ok(router
-            .route_typed_request(&client, &req, &request, "/v1/chat/completions")
-            .await)
-    }
+    let json_body = serde_json::to_value(body.into_inner())
+        .map_err(|e| error::ErrorBadRequest(format!("Invalid JSON: {}", e)))?;
+    Ok(state
+        .router
+        .route_chat(&state.client, &req, json_body)
+        .await)
 }
 
 #[post("/v1/completions")]
@@ -195,24 +136,12 @@ async fn v1_completions(
     body: web::Json<CompletionRequest>,
     state: web::Data<AppState>,
 ) -> Result<HttpResponse, Error> {
-    let client = &state.client;
-    let router = &state.router;
-
-    // Use typed request directly for both PD and regular routing
-    if state.is_pd_mode {
-        // For PD mode, convert to PD request with bootstrap
-        let pd_request = body.into_inner().to_pd_request();
-
-        Ok(router
-            .route_pd_generate_typed(&client, &req, pd_request, "/v1/completions")
-            .await)
-    } else {
-        // For regular mode, use typed request directly
-        let request = body.into_inner();
-        Ok(router
-            .route_typed_request(&client, &req, &request, "/v1/completions")
-            .await)
-    }
+    let json_body = serde_json::to_value(body.into_inner())
+        .map_err(|e| error::ErrorBadRequest(format!("Invalid JSON: {}", e)))?;
+    Ok(state
+        .router
+        .route_completion(&state.client, &req, json_body)
+        .await)
 }
 
 #[post("/add_worker")]
@@ -254,29 +183,19 @@ async fn remove_worker(
 }
 
 #[post("/flush_cache")]
-async fn flush_cache(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    if data.is_pd_mode {
-        // For PD mode, flush cache on both prefill and decode servers
-        data.router.route_pd_flush_cache(&data.client).await
-    } else {
-        // Route to all workers for cache flushing
-        data.router
-            .route_to_all(&data.client, "/flush_cache", &req)
-            .await
-    }
+async fn flush_cache(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
+    data.router.flush_cache(&data.client).await
 }
 
 #[get("/get_loads")]
-async fn get_loads(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    // Get loads from all workers
-    data.router.get_all_loads(&data.client, &req).await
+async fn get_loads(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
+    data.router.get_worker_loads(&data.client).await
 }
 
 pub struct ServerConfig {
     pub host: String,
     pub port: u16,
-    pub worker_urls: Vec<String>,
-    pub policy_config: PolicyConfig,
+    pub router_config: RouterConfig,
     pub max_payload_size: usize,
     pub log_dir: Option<String>,
     pub log_level: Option<String>,
@@ -324,8 +243,8 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
     }
 
     info!("🚧 Initializing router on {}:{}", config.host, config.port);
-    info!("🚧 Initializing workers on {:?}", config.worker_urls);
-    info!("🚧 Policy Config: {:?}", config.policy_config);
+    info!("🚧 Router mode: {:?}", config.router_config.mode);
+    info!("🚧 Policy: {:?}", config.router_config.policy);
     info!(
         "🚧 Max payload size: {} MB",
         config.max_payload_size / (1024 * 1024)
@@ -345,12 +264,8 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
         .build()
         .expect("Failed to create HTTP client");
 
-    let app_state_init = AppState::new(
-        config.worker_urls.clone(),
-        client.clone(),
-        config.policy_config.clone(),
-    )
-    .map_err(|e| std::io::Error::new(std::io::ErrorKind::Other, e))?;
+    let app_state_init = AppState::new(config.router_config.clone(), client.clone())
+        .map_err(|e| std::io::Error::new(std::io::ErrorKind::Other, e))?;
     let router_arc = Arc::clone(&app_state_init.router);
     let app_state = web::Data::new(app_state_init);
 
@@ -397,6 +312,8 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
             .service(v1_completions)
             .service(v1_models)
             .service(get_model_info)
+            .service(liveness)
+            .service(readiness)
             .service(health)
             .service(health_generate)
             .service(get_server_info)
diff --git a/sgl-router/src/service_discovery.rs b/sgl-router/src/service_discovery.rs
index 0e78717ce23b..72d78b490951 100644
--- a/sgl-router/src/service_discovery.rs
+++ b/sgl-router/src/service_discovery.rs
@@ -1,4 +1,4 @@
-use crate::router::Router;
+use crate::routers::RouterTrait;
 
 use futures::{StreamExt, TryStreamExt};
 use k8s_openapi::api::core::v1::Pod;
@@ -176,7 +176,7 @@ impl PodInfo {
 
 pub async fn start_service_discovery(
     config: ServiceDiscoveryConfig,
-    router: Arc<Router>,
+    router: Arc<dyn RouterTrait>,
 ) -> Result<task::JoinHandle<()>, kube::Error> {
     // Don't initialize anything if service discovery is disabled
     if !config.enabled {
@@ -346,7 +346,7 @@ pub async fn start_service_discovery(
 async fn handle_pod_event(
     pod_info: &PodInfo,
     tracked_pods: Arc<Mutex<HashSet<PodInfo>>>,
-    router: Arc<Router>,
+    router: Arc<dyn RouterTrait>,
     port: u16,
     pd_mode: bool,
 ) {
@@ -379,17 +379,32 @@ async fn handle_pod_event(
                 pod_info.name, pod_info.pod_type, worker_url
             );
 
+            // Handle PD mode with specific pod types
             let result = if pd_mode && pod_info.pod_type.is_some() {
-                // Use PD-aware worker management
-                if let Some(pod_type) = &pod_info.pod_type {
-                    router
-                        .add_pd_worker(&worker_url, pod_type.clone(), pod_info.bootstrap_port)
-                        .await
+                // Need to import PDRouter type
+                use crate::routers::pd_router::PDRouter;
+
+                // Try to downcast to PDRouter
+                if let Some(pd_router) = router.as_any().downcast_ref::<PDRouter>() {
+                    match &pod_info.pod_type {
+                        Some(PodType::Prefill) => pd_router
+                            .add_prefill_server(worker_url.clone(), pod_info.bootstrap_port)
+                            .await
+                            .map_err(|e| e.to_string()),
+                        Some(PodType::Decode) => pd_router
+                            .add_decode_server(worker_url.clone())
+                            .await
+                            .map_err(|e| e.to_string()),
+                        Some(PodType::Regular) | None => {
+                            // Fall back to regular add_worker for regular pods
+                            router.add_worker(&worker_url).await
+                        }
+                    }
                 } else {
-                    Err("Pod type is None in PD mode".to_string())
+                    Err("PD mode enabled but router is not a PDRouter".to_string())
                 }
             } else {
-                // Fallback to regular worker management
+                // Regular mode or no pod type specified
                 router.add_worker(&worker_url).await
             };
 
@@ -412,7 +427,7 @@ async fn handle_pod_event(
 async fn handle_pod_deletion(
     pod_info: &PodInfo,
     tracked_pods: Arc<Mutex<HashSet<PodInfo>>>,
-    router: Arc<Router>,
+    router: Arc<dyn RouterTrait>,
     port: u16,
     pd_mode: bool,
 ) {
@@ -435,18 +450,34 @@ async fn handle_pod_deletion(
             pod_info.name, pod_info.pod_type, worker_url
         );
 
+        // Handle PD mode removal
         if pd_mode && pod_info.pod_type.is_some() {
-            // Use PD-aware worker removal
-            if let Some(pod_type) = &pod_info.pod_type {
-                if let Err(e) = router.remove_pd_worker(&worker_url, pod_type.clone()).await {
-                    error!(
-                        "Failed to remove PD worker {} from router: {}",
-                        worker_url, e
-                    );
+            use crate::routers::pd_router::PDRouter;
+
+            // Try to downcast to PDRouter for PD-specific removal
+            if let Some(pd_router) = router.as_any().downcast_ref::<PDRouter>() {
+                match &pod_info.pod_type {
+                    Some(PodType::Prefill) => {
+                        if let Err(e) = pd_router.remove_prefill_server(&worker_url).await {
+                            error!("Failed to remove prefill server {}: {}", worker_url, e);
+                        }
+                    }
+                    Some(PodType::Decode) => {
+                        if let Err(e) = pd_router.remove_decode_server(&worker_url).await {
+                            error!("Failed to remove decode server {}: {}", worker_url, e);
+                        }
+                    }
+                    Some(PodType::Regular) | None => {
+                        // Fall back to regular remove_worker
+                        router.remove_worker(&worker_url);
+                    }
                 }
+            } else {
+                // PD mode but not a PDRouter, use generic removal
+                router.remove_worker(&worker_url);
             }
         } else {
-            // Fallback to regular worker removal
+            // Regular mode removal
             router.remove_worker(&worker_url);
         }
     } else {
@@ -462,11 +493,9 @@ async fn handle_pod_deletion(
 #[cfg(test)]
 mod tests {
     use super::*;
-    use crate::router::Router;
     use k8s_openapi::api::core::v1::{Pod, PodCondition, PodSpec, PodStatus};
     use k8s_openapi::apimachinery::pkg::apis::meta::v1::ObjectMeta;
     use k8s_openapi::apimachinery::pkg::apis::meta::v1::Time;
-    use std::sync::RwLock;
 
     // Helper function to create a Pod for testing PodInfo::from_pod
     fn create_k8s_pod(
@@ -546,14 +575,14 @@ mod tests {
     }
 
     // Helper to create a Router instance for testing event handlers
-    fn create_test_router() -> Arc<Router> {
-        let workers = Arc::new(RwLock::new(Vec::new()));
-        Arc::new(Router::Random {
-            workers,
-            timeout_secs: 5,
-            interval_secs: 1,
-            _health_checker: None,
-        })
+    fn create_test_router() -> Arc<dyn RouterTrait> {
+        use crate::config::PolicyConfig;
+        use crate::policies::PolicyFactory;
+        use crate::routers::router::Router;
+
+        let policy = PolicyFactory::create_from_config(&PolicyConfig::Random);
+        let router = Router::new(vec![], policy, 5, 1).unwrap();
+        Arc::new(router) as Arc<dyn RouterTrait>
     }
 
     // Helper to create a PD config for testing
diff --git a/sgl-router/tests/benchmark_integration.rs b/sgl-router/tests/benchmark_integration.rs
index b21c93fcf7e7..31785900011f 100644
--- a/sgl-router/tests/benchmark_integration.rs
+++ b/sgl-router/tests/benchmark_integration.rs
@@ -6,7 +6,7 @@ use sglang_router_rs::openai_api_types::{
     ChatCompletionRequest, ChatMessage, CompletionRequest, GenerateParameters, GenerateRequest,
     SamplingParams, StringOrArray, UserMessageContent,
 };
-use sglang_router_rs::request_adapter::{RouteableRequest, ToPdRequest};
+use sglang_router_rs::routers::request_adapter::{RouteableRequest, ToPdRequest};
 
 #[test]
 fn test_benchmark_request_creation() {
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index 02b8c99f5318..ceb5fe9e69d3 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -8,12 +8,18 @@
 //! Note: PD mode is enabled via the pd_disaggregation flag, not as a policy type.
 //! The policy type (Random, PowerOfTwo, CacheAware) determines the selection algorithm within PD mode.
 
+// TODO: This test file needs to be updated for the new configuration structure
+// where RoutingMode and PolicyConfig are separate
+
 #[cfg(test)]
 mod test_pd_routing {
     use rand::Rng;
     use serde_json::json;
-    use sglang_router_rs::pd_types::PDSelectionPolicy;
-    use sglang_router_rs::router::{PolicyConfig, Router};
+    use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+    use sglang_router_rs::core::{WorkerFactory, WorkerType};
+    use sglang_router_rs::routers::pd_types::get_hostname;
+    use sglang_router_rs::routers::pd_types::PDSelectionPolicy;
+    use sglang_router_rs::routers::RouterFactory;
 
     // Test-only struct to help validate PD request parsing
     #[derive(Debug)]
@@ -116,49 +122,68 @@ mod test_pd_routing {
 
     #[test]
     fn test_pd_router_configuration() {
-        // Test PrefillDecodeConfig creation with various policies
-        // This config is used when pd_disaggregation=true
-        let configs = vec![
-            PolicyConfig::PrefillDecodeConfig {
-                selection_policy: PDSelectionPolicy::Random,
-                prefill_urls: vec![
-                    ("http://prefill1:8080".to_string(), Some(9000)),
-                    ("http://prefill2:8080".to_string(), None),
-                ],
-                decode_urls: vec![
-                    "http://decode1:8080".to_string(),
-                    "http://decode2:8080".to_string(),
-                ],
-                timeout_secs: 10,
-                interval_secs: 1,
-            },
-            PolicyConfig::PrefillDecodeConfig {
-                selection_policy: PDSelectionPolicy::PowerOfTwo,
-                prefill_urls: vec![("http://prefill:8080".to_string(), Some(9000))],
-                decode_urls: vec!["http://decode:8080".to_string()],
-                timeout_secs: 5,
-                interval_secs: 1,
-            },
-            PolicyConfig::PrefillDecodeConfig {
-                selection_policy: PDSelectionPolicy::CacheAware {
+        // Test PD router configuration with various policies
+        // In the new structure, RoutingMode and PolicyConfig are separate
+        let test_cases = vec![
+            (
+                RoutingMode::PrefillDecode {
+                    prefill_urls: vec![
+                        ("http://prefill1:8080".to_string(), Some(9000)),
+                        ("http://prefill2:8080".to_string(), None),
+                    ],
+                    decode_urls: vec![
+                        "http://decode1:8080".to_string(),
+                        "http://decode2:8080".to_string(),
+                    ],
+                },
+                PolicyConfig::Random,
+            ),
+            (
+                RoutingMode::PrefillDecode {
+                    prefill_urls: vec![("http://prefill:8080".to_string(), Some(9000))],
+                    decode_urls: vec!["http://decode:8080".to_string()],
+                },
+                PolicyConfig::PowerOfTwo {
+                    load_check_interval_secs: 5,
+                },
+            ),
+            (
+                RoutingMode::PrefillDecode {
+                    prefill_urls: vec![
+                        ("http://p1:8080".to_string(), Some(9000)),
+                        ("http://p2:8080".to_string(), Some(9001)),
+                        ("http://p3:8080".to_string(), Some(9002)),
+                    ],
+                    decode_urls: vec!["http://d1:8080".to_string(), "http://d2:8080".to_string()],
+                },
+                PolicyConfig::CacheAware {
                     cache_threshold: 0.7,
                     balance_abs_threshold: 20,
                     balance_rel_threshold: 1.2,
+                    eviction_interval_secs: 60,
+                    max_tree_size: 1000000,
                 },
-                prefill_urls: vec![
-                    ("http://p1:8080".to_string(), Some(9000)),
-                    ("http://p2:8080".to_string(), Some(9001)),
-                    ("http://p3:8080".to_string(), Some(9002)),
-                ],
-                decode_urls: vec!["http://d1:8080".to_string(), "http://d2:8080".to_string()],
-                timeout_secs: 10,
-                interval_secs: 2,
-            },
+            ),
         ];
 
-        for config in configs {
+        for (mode, policy) in test_cases {
+            let config = RouterConfig {
+                mode,
+                policy,
+                host: "127.0.0.1".to_string(),
+                port: 3001,
+                max_payload_size: 1024 * 1024,
+                request_timeout_secs: 60,
+                worker_startup_timeout_secs: 10,
+                worker_startup_check_interval_secs: 1,
+                discovery: None,
+                metrics: None,
+                log_dir: None,
+                log_level: None,
+            };
+
             // Router creation will fail due to health checks, but config should be valid
-            let result = Router::new(vec![], config);
+            let result = RouterFactory::create_router(&config);
             assert!(result.is_err());
             let error_msg = result.unwrap_err();
             // Error should be about health/timeout, not configuration
@@ -225,9 +250,6 @@ mod test_pd_routing {
 
     #[test]
     fn test_bootstrap_injection_simulation() {
-        use sglang_router_rs::core::{WorkerFactory, WorkerType};
-        use sglang_router_rs::pd_types::get_hostname;
-
         // Since we can't test the actual inject_bootstrap_fields function here
         // (it's private in the router module), we'll test the expected behavior
 
@@ -315,8 +337,6 @@ mod test_pd_routing {
 
     #[test]
     fn test_hostname_extraction() {
-        use sglang_router_rs::pd_types::get_hostname;
-
         // Test various URL formats
         let test_cases = vec![
             ("http://localhost:8080", "localhost"),
@@ -662,7 +682,6 @@ mod test_pd_routing {
     #[test]
     fn test_bootstrap_injection_with_benchmark_requests() {
         use sglang_router_rs::core::{WorkerFactory, WorkerType};
-        use sglang_router_rs::pd_types::get_hostname;
 
         // Test bootstrap injection with actual benchmark request patterns
         let mut benchmark_request = json!({
@@ -790,9 +809,6 @@ mod test_pd_routing {
 
     #[test]
     fn test_large_batch_bootstrap_injection() {
-        use sglang_router_rs::core::{WorkerFactory, WorkerType};
-        use sglang_router_rs::pd_types::get_hostname;
-
         // Test bootstrap injection performance with very large batches
         // This simulates the bench_one_batch_server.py scenario
         let large_batch_sizes = vec![1024, 4096, 8192];

From 7750b91ca81d15b85290703f24f8cd2716fe149a Mon Sep 17 00:00:00 2001
From: Hubert Lu <55214931+hubertlu-tw@users.noreply.github.com>
Date: Fri, 18 Jul 2025 14:27:25 -0700
Subject: [PATCH 037/396] [AMD] Add triton awq_dequantize kernel to support AWQ
 on ROCm (#7661)

---
 python/sglang/srt/layers/quantization/awq.py  |  12 +-
 .../srt/layers/quantization/awq_triton.py     | 339 ++++++++++++++++++
 python/sglang/srt/models/deepseek_v2.py       |   6 +-
 test/srt/run_suite.py                         |   1 +
 test/srt/test_awq_dequant.py                  | 175 +++++++++
 5 files changed, 530 insertions(+), 3 deletions(-)
 create mode 100644 python/sglang/srt/layers/quantization/awq_triton.py
 create mode 100644 test/srt/test_awq_dequant.py

diff --git a/python/sglang/srt/layers/quantization/awq.py b/python/sglang/srt/layers/quantization/awq.py
index 4532673837dc..c20beb2ff0b9 100644
--- a/python/sglang/srt/layers/quantization/awq.py
+++ b/python/sglang/srt/layers/quantization/awq.py
@@ -43,11 +43,20 @@
 except ImportError:
     ops = None
 
-from sglang.srt.utils import is_cuda
+from sglang.srt.utils import is_cuda, is_hip
 
 _is_cuda = is_cuda()
+_is_hip = is_hip()
 if _is_cuda:
     from sgl_kernel import awq_dequantize, fused_marlin_moe
+elif _is_hip:
+    from sglang.srt.layers.quantization.awq_triton import (
+        awq_dequantize_triton as awq_dequantize,
+    )
+
+    warnings.warn(f"HIP does not support fused_marlin_moe currently.")
+else:
+    warnings.warn(f"Only CUDA and HIP support AWQ currently.")
 
 logger = logging.getLogger(__name__)
 
@@ -398,7 +407,6 @@ def apply(
         pack_factor = self.quant_config.pack_factor
         out_shape = x.shape[:-1] + (qweight.shape[-1] * pack_factor,)
         reshaped_x = x.reshape(-1, x.shape[-1])
-
         out = awq_dequantize(qweight, scales, qzeros)
         out = torch.matmul(reshaped_x, out)
 
diff --git a/python/sglang/srt/layers/quantization/awq_triton.py b/python/sglang/srt/layers/quantization/awq_triton.py
new file mode 100644
index 000000000000..13352efdb650
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/awq_triton.py
@@ -0,0 +1,339 @@
+# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/awq_triton.py
+
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+import triton
+import triton.language as tl
+
+AWQ_TRITON_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
+
+
+@triton.jit
+def awq_dequantize_kernel(
+    qweight_ptr,  # quantized matrix
+    scales_ptr,  # scales, per group
+    zeros_ptr,  # zeros, per group
+    group_size,  # Should always be one of the supported group sizes
+    result_ptr,  # Output matrix
+    num_cols,  # input num cols in qweight
+    num_rows,  # input num rows in qweight
+    BLOCK_SIZE_X: tl.constexpr,
+    BLOCK_SIZE_Y: tl.constexpr,
+):
+    # Setup the pids.
+    pid_x = tl.program_id(axis=0)
+    pid_y = tl.program_id(axis=1)
+
+    # Compute offsets and masks for qweight_ptr.
+    offsets_y = pid_y * BLOCK_SIZE_Y + tl.arange(0, BLOCK_SIZE_Y)
+    offsets_x = pid_x * BLOCK_SIZE_X + tl.arange(0, BLOCK_SIZE_X)
+    offsets = num_cols * offsets_y[:, None] + offsets_x[None, :]
+
+    masks_y = offsets_y < num_rows
+    masks_x = offsets_x < num_cols
+
+    masks = masks_y[:, None] & masks_x[None, :]
+
+    # Compute offsets and masks for result output ptr.
+    result_offsets_y = pid_y * BLOCK_SIZE_Y + tl.arange(0, BLOCK_SIZE_Y)
+    result_offsets_x = pid_x * BLOCK_SIZE_X * 8 + tl.arange(0, BLOCK_SIZE_X * 8)
+    result_offsets = (
+        8 * num_cols * result_offsets_y[:, None] + result_offsets_x[None, :]
+    )
+
+    result_masks_y = result_offsets_y < num_rows
+    result_masks_x = result_offsets_x < num_cols * 8
+    result_masks = result_masks_y[:, None] & result_masks_x[None, :]
+
+    # Load the weights.
+    iweights = tl.load(qweight_ptr + offsets, masks, 0.0)
+    iweights = tl.interleave(iweights, iweights)
+    iweights = tl.interleave(iweights, iweights)
+    iweights = tl.interleave(iweights, iweights)
+
+    # Create reverse AWQ order as tensor: [0, 4, 1, 5, 2, 6, 3, 7]
+    # that will map given indices to the correct order.
+    reverse_awq_order_tensor = (
+        (tl.arange(0, 2) * 4)[None, :] + tl.arange(0, 4)[:, None]
+    ).reshape(8)
+
+    # Use this to compute a set of shifts that can be used to unpack and
+    # reorder the values in iweights and zeros.
+    shifts = reverse_awq_order_tensor * 4
+    shifts = tl.broadcast_to(shifts[None, :], (BLOCK_SIZE_Y * BLOCK_SIZE_X, 8))
+    shifts = tl.reshape(shifts, (BLOCK_SIZE_Y, BLOCK_SIZE_X * 8))
+
+    # Unpack and reorder: shift out the correct 4-bit value and mask.
+    iweights = (iweights >> shifts) & 0xF
+
+    # Compute zero offsets and masks.
+    zero_offsets_y = pid_y * BLOCK_SIZE_Y // group_size + tl.arange(0, 1)
+    zero_offsets_x = pid_x * BLOCK_SIZE_X + tl.arange(0, BLOCK_SIZE_X)
+    zero_offsets = num_cols * zero_offsets_y[:, None] + zero_offsets_x[None, :]
+
+    zero_masks_y = zero_offsets_y < num_rows // group_size
+    zero_masks_x = zero_offsets_x < num_cols
+    zero_masks = zero_masks_y[:, None] & zero_masks_x[None, :]
+
+    # Load the zeros.
+    zeros = tl.load(zeros_ptr + zero_offsets, zero_masks, 0.0)
+    zeros = tl.interleave(zeros, zeros)
+    zeros = tl.interleave(zeros, zeros)
+    zeros = tl.interleave(zeros, zeros)
+    zeros = tl.broadcast_to(zeros, (BLOCK_SIZE_Y, BLOCK_SIZE_X * 8))
+
+    # Unpack and reorder: shift out the correct 4-bit value and mask.
+    zeros = (zeros >> shifts) & 0xF
+
+    # Compute scale offsets and masks.
+    scale_offsets_y = pid_y * BLOCK_SIZE_Y // group_size + tl.arange(0, 1)
+    scale_offsets_x = pid_x * BLOCK_SIZE_X * 8 + tl.arange(0, BLOCK_SIZE_X * 8)
+    scale_offsets = num_cols * 8 * scale_offsets_y[:, None] + scale_offsets_x[None, :]
+    scale_masks_y = scale_offsets_y < num_rows // group_size
+    scale_masks_x = scale_offsets_x < num_cols * 8
+    scale_masks = scale_masks_y[:, None] & scale_masks_x[None, :]
+
+    # Load the scales.
+    scales = tl.load(scales_ptr + scale_offsets, scale_masks, 0.0)
+    scales = tl.broadcast_to(scales, (BLOCK_SIZE_Y, BLOCK_SIZE_X * 8))
+
+    # Dequantize.
+    iweights = (iweights - zeros) * scales
+    iweights = iweights.to(result_ptr.type.element_ty)
+
+    # Finally, store.
+    tl.store(result_ptr + result_offsets, iweights, result_masks)
+
+
+@triton.jit
+def awq_gemm_kernel(
+    a_ptr,
+    b_ptr,
+    c_ptr,
+    zeros_ptr,
+    scales_ptr,
+    M,
+    N,
+    K,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(1)
+
+    # NOTE: This doesn't work in TRITON_INTERPRET=1 mode.  Use below instead.
+    # num_pid_n = (N + BLOCK_SIZE_N - 1) // BLOCK_SIZE_N
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    pid_m = pid // num_pid_n
+    pid_n = pid % num_pid_n
+
+    accumulator_dtype = c_ptr.type.element_ty
+
+    # NOTE: This doesn't work in TRITON_INTERPRET=1 mode.  Use below instead.
+    # accumulator = tl.arange(0, BLOCK_SIZE_N)
+    # accumulator = tl.broadcast_to(accumulator[None, :],
+    # (BLOCK_SIZE_M, BLOCK_SIZE_N))
+    # accumulator = accumulator & 0x0
+    # accumulator = accumulator.to(accumulator_dtype)
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=accumulator_dtype)
+
+    # Create reverse AWQ order as tensor: [0, 4, 1, 5, 2, 6, 3, 7]
+    # that will map given indices to the correct order.
+    reverse_awq_order_tensor = (
+        (tl.arange(0, 2) * 4)[None, :] + tl.arange(0, 4)[:, None]
+    ).reshape(8)
+
+    # Create the necessary shifts to use to unpack.
+    shifts = reverse_awq_order_tensor * 4
+    shifts = tl.broadcast_to(shifts[None, :], (BLOCK_SIZE_K * (BLOCK_SIZE_N // 8), 8))
+    shifts = tl.reshape(shifts, (BLOCK_SIZE_K, BLOCK_SIZE_N))
+
+    # Offsets and masks.
+    offsets_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    masks_am = offsets_am < M
+
+    offsets_bn = pid_n * (BLOCK_SIZE_N // 8) + tl.arange(0, BLOCK_SIZE_N // 8)
+    masks_bn = offsets_bn < N // 8
+
+    offsets_zn = pid_n * (BLOCK_SIZE_N // 8) + tl.arange(0, BLOCK_SIZE_N // 8)
+    masks_zn = offsets_zn < N // 8
+
+    offsets_sn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    masks_sn = offsets_sn < N
+
+    offsets_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offsets_a = K * offsets_am[:, None] + offsets_k[None, :]
+    offsets_b = (N // 8) * offsets_k[:, None] + offsets_bn[None, :]
+
+    a_ptrs = a_ptr + offsets_a
+    b_ptrs = b_ptr + offsets_b
+
+    # NOTE: Use this in TRITON_INTERPRET=1 mode instead of tl.cdiv
+    # block_offset = BLOCK_SIZE_K * SPLIT_K
+    # for k in range(0, (K + block_offset - 1) // (block_offset)):
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        masks_k = offsets_k < K
+        masks_a = masks_am[:, None] & masks_k[None, :]
+        a = tl.load(a_ptrs, mask=masks_a, other=0.0)
+
+        masks_b = masks_k[:, None] & masks_bn[None, :]
+        b = tl.load(b_ptrs, mask=masks_b, other=0.0)
+        b = tl.interleave(b, b)
+        b = tl.interleave(b, b)
+        b = tl.interleave(b, b)
+
+        # Dequantize b.
+        offsets_szk = (
+            BLOCK_SIZE_K * SPLIT_K * k + pid_z * BLOCK_SIZE_K
+        ) // group_size + tl.arange(0, 1)
+        offsets_z = (N // 8) * offsets_szk[:, None] + offsets_zn[None, :]
+        masks_zk = offsets_szk < K // group_size
+        masks_z = masks_zk[:, None] & masks_zn[None, :]
+        zeros_ptrs = zeros_ptr + offsets_z
+        zeros = tl.load(zeros_ptrs, mask=masks_z, other=0.0)
+        zeros = tl.interleave(zeros, zeros)
+        zeros = tl.interleave(zeros, zeros)
+        zeros = tl.interleave(zeros, zeros)
+        zeros = tl.broadcast_to(zeros, (BLOCK_SIZE_K, BLOCK_SIZE_N))
+
+        offsets_s = N * offsets_szk[:, None] + offsets_sn[None, :]
+        masks_sk = offsets_szk < K // group_size
+        masks_s = masks_sk[:, None] & masks_sn[None, :]
+        scales_ptrs = scales_ptr + offsets_s
+        scales = tl.load(scales_ptrs, mask=masks_s, other=0.0)
+        scales = tl.broadcast_to(scales, (BLOCK_SIZE_K, BLOCK_SIZE_N))
+
+        b = (b >> shifts) & 0xF
+        zeros = (zeros >> shifts) & 0xF
+        b = (b - zeros) * scales
+        b = b.to(c_ptr.type.element_ty)
+
+        # Accumulate results.
+        accumulator = tl.dot(a, b, accumulator, out_dtype=accumulator_dtype)
+
+        offsets_k += BLOCK_SIZE_K * SPLIT_K
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K
+        b_ptrs += BLOCK_SIZE_K * SPLIT_K * (N // 8)
+
+    c = accumulator.to(c_ptr.type.element_ty)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + pid_z * N * M + N * offs_cm[:, None] + offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+# qweights - [K     , M // 8], int32
+# scales   - [K // G, M     ], float16
+# zeros    - [K // G, M // 8], int32
+def awq_dequantize_triton(
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    zeros: torch.Tensor,
+    block_size_x: int = 32,
+    block_size_y: int = 32,
+) -> torch.Tensor:
+    K = qweight.shape[0]
+    M = scales.shape[1]
+    group_size = qweight.shape[0] // scales.shape[0]
+
+    assert K > 0 and M > 0
+    assert scales.shape[0] == K // group_size and scales.shape[1] == M
+    assert zeros.shape[0] == K // group_size and zeros.shape[1] == M // 8
+    assert group_size <= K
+    assert group_size in AWQ_TRITON_SUPPORTED_GROUP_SIZES or group_size == K
+
+    # Result tensor:
+    # number of rows = same as input tensor
+    # number of cols = 8 x input tensor num cols
+    result = torch.empty(
+        qweight.shape[0],
+        qweight.shape[1] * 8,
+        device=qweight.device,
+        dtype=scales.dtype,
+    )
+
+    Y = qweight.shape[0]  # num rows
+    X = qweight.shape[1]  # num cols
+
+    grid = lambda META: (
+        triton.cdiv(X, META["BLOCK_SIZE_X"]),
+        triton.cdiv(Y, META["BLOCK_SIZE_Y"]),
+    )
+    awq_dequantize_kernel[grid](
+        qweight,
+        scales,
+        zeros,
+        group_size,
+        result,
+        X,
+        Y,
+        BLOCK_SIZE_X=block_size_x,
+        BLOCK_SIZE_Y=block_size_y,
+    )
+
+    return result
+
+
+# input   - [M, K]
+# qweight - [K, N // 8]
+# qzeros  - [K // G, N // 8]
+# scales  - [K // G, N]
+# split_k_iters - parallelism along K-dimension, int, power of 2.
+def awq_gemm_triton(
+    input: torch.Tensor,
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    qzeros: torch.Tensor,
+    split_k_iters: int,
+    block_size_m: int = 32,
+    block_size_n: int = 32,
+    block_size_k: int = 32,
+) -> torch.Tensor:
+    M, K = input.shape
+    N = qweight.shape[1] * 8
+    group_size = qweight.shape[0] // qzeros.shape[0]
+
+    assert N > 0 and K > 0 and M > 0
+    assert qweight.shape[0] == K and qweight.shape[1] == N // 8
+    assert qzeros.shape[0] == K // group_size and qzeros.shape[1] == N // 8
+    assert scales.shape[0] == K // group_size and scales.shape[1] == N
+    assert split_k_iters & (split_k_iters - 1) == 0 and split_k_iters != 0
+    assert split_k_iters <= 32
+    assert group_size <= K
+    assert group_size in AWQ_TRITON_SUPPORTED_GROUP_SIZES or group_size == K
+
+    grid = lambda META: (
+        triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        split_k_iters,
+    )
+
+    result = torch.zeros((split_k_iters, M, N), dtype=scales.dtype, device=input.device)
+
+    # A = input, B = qweight, C = result
+    # A = M x K, B = K x N, C = M x N
+    awq_gemm_kernel[grid](
+        input,
+        qweight,
+        result,
+        qzeros,
+        scales,
+        M,
+        N,
+        K,
+        group_size,
+        BLOCK_SIZE_M=block_size_m,
+        BLOCK_SIZE_N=block_size_n,
+        BLOCK_SIZE_K=block_size_k,
+        SPLIT_K=split_k_iters,
+    )
+
+    result = result.sum(0)
+
+    return result
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 12aa9cb39c78..0da956b0158f 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -127,6 +127,10 @@
     )
 elif _is_cpu and _is_cpu_amx_available:
     pass
+elif _is_hip:
+    from sglang.srt.layers.quantization.awq_triton import (
+        awq_dequantize_triton as awq_dequantize,
+    )
 else:
     from vllm._custom_ops import awq_dequantize
 
@@ -2176,7 +2180,7 @@ def post_load_weights(self, is_nextn=False, weight_names=None):
             )
             if hasattr(self_attn.kv_b_proj, "qweight"):
                 # AWQ compatible
-                if _is_cuda:
+                if _is_cuda or _is_hip:
                     w = awq_dequantize(
                         self_attn.kv_b_proj.qweight,
                         self_attn.kv_b_proj.scales,
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 41564869ed9b..1a89971e1775 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -147,6 +147,7 @@ class TestFile:
         # TestFile("test_vision_chunked_prefill.py", 175), # Disabled temporarily and track in #7701
         TestFile("test_reasoning_parser.py", 5),
         TestFile("test_rope_rocm.py", 3),
+        TestFile("test_awq_dequant.py", 2),
     ],
     "per-commit-npu": [
         TestFile("test_ascend_attention_backend.py", 400),
diff --git a/test/srt/test_awq_dequant.py b/test/srt/test_awq_dequant.py
new file mode 100644
index 000000000000..ec1f2b16a3d2
--- /dev/null
+++ b/test/srt/test_awq_dequant.py
@@ -0,0 +1,175 @@
+# Adapted from https://github.com/vllm-project/vllm/blob/main/tests/kernels/quantization/test_awq_triton.py
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+unittest version of the AWQ Triton kernel tests.
+
+Run with:
+    python -m unittest test_awq_dequant.py
+"""
+import unittest
+
+import torch
+
+from sglang.srt.layers.quantization.awq_triton import (
+    AWQ_TRITON_SUPPORTED_GROUP_SIZES,
+    awq_dequantize_triton,
+    awq_gemm_triton,
+)
+from sglang.test.test_utils import CustomTestCase
+
+device = "cuda"
+
+
+def reverse_awq_order(t: torch.Tensor) -> torch.Tensor:
+    bits = 4
+    AWQ_REVERSE_ORDER = [0, 4, 1, 5, 2, 6, 3, 7]
+    idx = torch.arange(t.shape[-1], dtype=torch.int32, device=t.device)
+    idx = idx.view(-1, 32 // bits)[:, AWQ_REVERSE_ORDER].view(-1)
+    return (t[:, idx] & 0xF).contiguous()
+
+
+def awq_dequantize_torch(
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    qzeros: torch.Tensor,
+    group_size: int,
+) -> torch.Tensor:
+    if group_size == -1:
+        group_size = qweight.shape[0]
+
+    bits = 4
+    shifts = torch.arange(0, 32, bits, device=qzeros.device)
+
+    iweights = torch.bitwise_right_shift(qweight[:, :, None], shifts[None, None, :]).to(
+        torch.int8
+    )
+    iweights = reverse_awq_order(iweights.view(iweights.shape[0], -1))
+
+    zeros = torch.bitwise_right_shift(qzeros[:, :, None], shifts[None, None, :]).to(
+        torch.int8
+    )
+    zeros = reverse_awq_order(zeros.view(qzeros.shape[0], -1))
+
+    iweights = torch.bitwise_and(iweights, (2**bits) - 1)
+    zeros = torch.bitwise_and(zeros, (2**bits) - 1)
+
+    scales = scales.repeat_interleave(group_size, dim=0)
+    zeros = zeros.repeat_interleave(group_size, dim=0)
+    return (iweights - zeros) * scales
+
+
+class TestAWQTriton(CustomTestCase):
+    def test_dequantize(self):
+        rows_list = [3584, 18944, 128, 256, 512, 1024]
+        cols_list = [448, 576, 4736, 16, 32, 64, 128]
+
+        for qweight_rows in rows_list:
+            for qweight_cols in cols_list:
+                for group_size in AWQ_TRITON_SUPPORTED_GROUP_SIZES:
+                    with self.subTest(
+                        rows=qweight_rows, cols=qweight_cols, g=group_size
+                    ):
+                        self._run_dequant_case(
+                            qweight_rows=qweight_rows,
+                            qweight_cols=qweight_cols,
+                            group_size=group_size,
+                        )
+
+    def _run_dequant_case(self, qweight_rows, qweight_cols, group_size):
+        if group_size == -1:
+            group_size = qweight_rows
+
+        torch.manual_seed(0)
+
+        qweight = torch.randint(
+            0,
+            torch.iinfo(torch.int32).max,
+            (qweight_rows, qweight_cols),
+            dtype=torch.int32,
+            device=device,
+        )
+        scales = torch.rand(
+            qweight_rows // group_size,
+            qweight_cols * 8,
+            dtype=torch.float16,
+            device=device,
+        )
+        zeros = torch.randint(
+            0,
+            torch.iinfo(torch.int32).max,
+            (qweight_rows // group_size, qweight_cols),
+            dtype=torch.int32,
+            device=device,
+        )
+
+        ref = awq_dequantize_torch(qweight, scales, zeros, group_size)
+        tri = awq_dequantize_triton(qweight, scales, zeros)
+
+        # sanity
+        self.assertFalse(torch.any(torch.isinf(tri)) or torch.any(torch.isnan(tri)))
+        torch.testing.assert_close(ref, tri)
+
+    # GEMM
+    def test_gemm(self):
+        N_list = [1, 2, 4, 8, 14, 17, 23, 32]
+        K_list = [128]
+        M_list = [16, 24, 32]
+        splitK_list = [1, 8]
+
+        for N in N_list:
+            for K in K_list:
+                for M in M_list:
+                    for group_size in AWQ_TRITON_SUPPORTED_GROUP_SIZES:
+                        for splitK in splitK_list:
+                            with self.subTest(N=N, K=K, M=M, g=group_size, sk=splitK):
+                                self._run_gemm_case(
+                                    N=N,
+                                    K=K,
+                                    M=M,
+                                    group_size=group_size,
+                                    splitK=splitK,
+                                )
+
+    def _run_gemm_case(self, N, K, M, group_size, splitK):
+        if group_size == -1:
+            group_size = K
+
+        torch.manual_seed(0)
+
+        x = torch.rand((N, K), dtype=torch.float32, device=device)
+        qweight = torch.randint(
+            0,
+            torch.iinfo(torch.int32).max,
+            (K, M // 8),
+            dtype=torch.int32,
+            device=device,
+        )
+        qzeros = torch.randint(
+            0,
+            torch.iinfo(torch.int32).max,
+            (K // group_size, M // 8),
+            dtype=torch.int32,
+            device=device,
+        )
+        scales = torch.rand((K // group_size, M), dtype=torch.float32, device=device)
+
+        tri_out = awq_gemm_triton(x, qweight, scales, qzeros, splitK)
+
+        self.assertFalse(
+            torch.any(torch.isinf(tri_out)) or torch.any(torch.isnan(tri_out))
+        )
+
+        # dequantize & compare
+        w_deq = awq_dequantize_triton(qweight, scales, qzeros)
+        ref_out = torch.matmul(x, w_deq)
+
+        self.assertFalse(
+            torch.any(torch.isinf(ref_out)) or torch.any(torch.isnan(ref_out))
+        )
+
+        torch.testing.assert_close(tri_out.cpu(), ref_out.cpu(), atol=1e-1, rtol=1e-1)
+
+
+if __name__ == "__main__":
+    unittest.main(verbosity=2)

From 9c7a46180c251347c13bdf3325a04ceb77667bb3 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Fri, 18 Jul 2025 16:38:26 -0700
Subject: [PATCH 038/396] [Doc] Steps to add a new attention backend (#8155)

---
 .github/workflows/pr-test.yml           |  4 ++--
 docs/backend/attention_backend.md       | 28 +++++++++++++++++++++++++
 python/sglang/srt/managers/io_struct.py | 28 ++++++++++++-------------
 test/srt/run_suite.py                   | 22 +++++++++----------
 4 files changed, 55 insertions(+), 27 deletions(-)

diff --git a/.github/workflows/pr-test.yml b/.github/workflows/pr-test.yml
index 2378695e21ee..6c79b0ae63fa 100644
--- a/.github/workflows/pr-test.yml
+++ b/.github/workflows/pr-test.yml
@@ -56,7 +56,7 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        part: [0, 1, 2, 3, 4, 5, 6, 7, 8]
+        part: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
     steps:
       - name: Checkout code
         uses: actions/checkout@v4
@@ -69,7 +69,7 @@ jobs:
         timeout-minutes: 30
         run: |
           cd test/srt
-          python3 run_suite.py --suite per-commit --auto-partition-id ${{ matrix.part }} --auto-partition-size 9
+          python3 run_suite.py --suite per-commit --auto-partition-id ${{ matrix.part }} --auto-partition-size 10
 
   unit-test-backend-2-gpu:
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
diff --git a/docs/backend/attention_backend.md b/docs/backend/attention_backend.md
index 4e9ecf8e206a..caf23446f5a6 100644
--- a/docs/backend/attention_backend.md
+++ b/docs/backend/attention_backend.md
@@ -52,3 +52,31 @@ python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-R1 --attenti
 ```bash
 python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --attention-backend ascend
 ```
+
+
+## Steps to add a new attention backend
+To add a new attention backend, you can learn from the existing backends
+(`python/sglang/srt/layers/attention/triton_backend.py`, `python/sglang/srt/layers/attention/flashattention_backend.py`)
+and follow the steps below.
+
+1. Run without cuda graph. Support the two forward functions
+    - forward_extend
+        - Will be used for prefill, prefill with KV cache, and target verification
+        - It will be called once per layer
+    - forward_decode
+        - Will be used for normal decode, and draft decode
+        - It will be called once per layer
+    - init_forward_metadata
+        - Initialize the class and common metadata shared by all layers
+        - Call the plan function for optimizations like split_kv
+        - It will be called once per forward
+2. Run with cuda graph. It has two phases (capture and replay) and you need to implement three functions
+    - init_cuda_graph_state
+        - It will be called once during life time
+        - Create all common shared buffers
+    - init_forward_metadata_capture_cuda_graph
+        - It will be called before capturing a cuda graph
+        - It is similar to init_forward_metadata but write the medatada to some pre-defined buffers
+    - init_forward_metadata_replay_cuda_graph
+        - It will be called before replaying a cuda graph
+        - This function is in the critical path and needs to be fast
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 6eebf21e94b6..8e1d1075aab6 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -13,14 +13,14 @@
 # ==============================================================================
 """
 The definition of objects transferred between different
-processes (TokenizerManager, DetokenizerManager, Controller).
+processes (TokenizerManager, DetokenizerManager, Scheduler).
 """
 
 import copy
 import uuid
 from dataclasses import dataclass, field
 from enum import Enum
-from typing import TYPE_CHECKING, Any, Dict, List, Optional, Set, Union
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Union
 
 from sglang.srt.managers.schedule_batch import BaseFinishReason
 from sglang.srt.multimodal.mm_utils import has_valid_data
@@ -545,7 +545,7 @@ class EmbeddingReqInput:
     # The request id.
     rid: Optional[Union[List[str], str]] = None
     # Dummy sampling params for compatibility
-    sampling_params: Union[List[Dict], Dict] = None
+    sampling_params: Optional[Union[List[Dict], Dict]] = None
     # Dummy input embeds for compatibility
     input_embeds: Optional[Union[List[List[List[float]]], List[List[float]]]] = None
     # Whether to log metrics for this request (e.g. health_generate calls do not log metrics)
@@ -953,17 +953,6 @@ class ProfileReqType(Enum):
     STOP_PROFILE = 2
 
 
-class ExpertDistributionReq(Enum):
-    START_RECORD = 1
-    STOP_RECORD = 2
-    DUMP_RECORD = 3
-
-
-@dataclass
-class ExpertDistributionReqOutput:
-    pass
-
-
 @dataclass
 class ProfileReq:
     type: ProfileReqType
@@ -1013,6 +1002,17 @@ class HealthCheckOutput:
     pass
 
 
+class ExpertDistributionReq(Enum):
+    START_RECORD = 1
+    STOP_RECORD = 2
+    DUMP_RECORD = 3
+
+
+@dataclass
+class ExpertDistributionReqOutput:
+    pass
+
+
 @dataclass
 class Function:
     description: Optional[str] = None
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 1a89971e1775..e67362cf8258 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -155,11 +155,11 @@ class TestFile:
     "per-commit-2-gpu": [
         TestFile("models/lora/test_lora_tp.py", 116),
         TestFile("test_data_parallelism.py", 73),
-        TestFile("test_dp_attention.py", 137),
+        TestFile("test_dp_attention.py", 277),
         TestFile("test_mla_tp.py", 170),
         TestFile("test_patch_torch.py", 19),
         TestFile("test_update_weights_from_distributed.py", 103),
-        TestFile("test_release_memory_occupation.py", 44),
+        TestFile("test_release_memory_occupation.py", 127),
     ],
     "per-commit-2-gpu-amd": [
         TestFile("models/lora/test_lora_tp.py", 116),
@@ -170,7 +170,7 @@ class TestFile:
     ],
     "per-commit-4-gpu": [
         TestFile("test_local_attn.py", 250),
-        TestFile("test_pp_single_node.py", 150),
+        TestFile("test_pp_single_node.py", 372),
         TestFile("test_multi_instance_release_memory_occupation.py", 64),
     ],
     "per-commit-4-gpu-deepep": [
@@ -182,12 +182,12 @@ class TestFile:
     "per-commit-8-gpu": [
         # Disabled because it hangs on the CI.
         # TestFile("test_moe_ep.py", 181),
-        TestFile("test_disaggregation.py", 270),
+        TestFile("test_disaggregation.py", 499),
         TestFile("test_disaggregation_different_tp.py", 155),
-        TestFile("test_full_deepseek_v3.py", 463),
+        TestFile("test_full_deepseek_v3.py", 333),
     ],
     "per-commit-8-gpu-deepep": [
-        TestFile("test_deepep_large.py", 485),
+        TestFile("test_deepep_large.py", 338),
     ],
     "per-commit-8-gpu-amd": [
         TestFile("test_full_deepseek_v3.py", 250),
@@ -214,11 +214,11 @@ class TestFile:
         TestFile("test_nightly_gsm8k_eval_amd.py"),
     ],
     "vllm_dependency_test": [
-        TestFile("test_awq.py"),
-        TestFile("test_bnb.py"),
-        TestFile("test_gguf.py", 78),
-        TestFile("test_gptqmodel_dynamic.py", 72),
-        TestFile("test_vllm_dependency.py"),
+        TestFile("test_awq.py", 163),
+        TestFile("test_bnb.py", 5),
+        TestFile("test_gguf.py", 96),
+        TestFile("test_gptqmodel_dynamic.py", 102),
+        TestFile("test_vllm_dependency.py", 185),
     ],
 }
 

From 3964b352c3613b06b0f10fa5d7a8b2630fa80d61 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Sat, 19 Jul 2025 08:19:27 +0800
Subject: [PATCH 039/396] chore: tune mem fraction static for vlm (#6881)

---
 .../sglang/srt/model_executor/model_runner.py |  4 +-
 python/sglang/srt/server_args.py              | 48 ++++++++++++++++++-
 test/srt/test_vision_openai_server_a.py       | 10 ++--
 test/srt/test_vision_openai_server_b.py       |  8 ++--
 4 files changed, 57 insertions(+), 13 deletions(-)

diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 923b4d02b543..bbd5b000067f 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -411,7 +411,7 @@ def model_specific_adjustment(self):
                 else:
                     server_args.attention_backend = "triton"
             logger.info(
-                f"Attention backend not set. Use {server_args.attention_backend} backend by default."
+                f"Attention backend not explicitly specified. Use {server_args.attention_backend} backend by default."
             )
         elif self.use_mla_backend:
             if server_args.device != "cpu":
@@ -463,7 +463,7 @@ def model_specific_adjustment(self):
             if not self.is_multimodal_chunked_prefill_supported:
                 server_args.chunked_prefill_size = -1
                 logger.info(
-                    f"Automatically turn of --chunked-prefill-size as it is not supported for "
+                    f"Automatically turn off --chunked-prefill-size as it is not supported for "
                     f"{self.model_config.hf_config.model_type}"
                 )
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index cb8038d3366a..20db0b4b9c79 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -337,8 +337,52 @@ def __post_init__(self):
 
             # Multimodal models need more memory for the image processor
             model_config = ModelConfig.from_server_args(self)
-            if model_config.is_multimodal:
-                self.mem_fraction_static *= 0.90
+
+            vision_config = getattr(model_config.hf_config, "vision_config", None)
+
+            if model_config.is_multimodal and vision_config:
+                # roughly reduce the mem_fraction_static base on params of Vit
+                original_server_arg_mem_fraction = self.mem_fraction_static
+                # a base mem_fraction_static factor for regular Vit
+                base_mem_fraction_reduction_ratio = 0.95
+
+                vit_num_layers = getattr(vision_config, "num_hidden_layers", 24)
+                vit_hidden_size = getattr(vision_config, "hidden_size", 1024)
+
+                # baseline ViT params (ViT-L/14)
+                baseline_vit_layers = 24
+                baseline_vit_hidden_size = 1024
+
+                # weight params count
+                current_complexity_score = vit_num_layers * (vit_hidden_size**2)
+                baseline_complexity_score = baseline_vit_layers * (
+                    baseline_vit_hidden_size**2
+                )
+                complexity_ratio = (
+                    current_complexity_score / baseline_complexity_score
+                    if baseline_complexity_score > 0
+                    else 1.0
+                )
+
+                # every time the complexity grows 100%, adjust final factor for 10%
+                sensitivity_scale = 0.1
+                dynamic_adjustment_factor = 1.0 - sensitivity_scale * (
+                    complexity_ratio - 1.0
+                )
+                dynamic_adjustment_factor = max(
+                    0.8, min(1.05, dynamic_adjustment_factor)
+                )
+
+                final_overall_factor = (
+                    base_mem_fraction_reduction_ratio * dynamic_adjustment_factor
+                )
+                self.mem_fraction_static = (
+                    original_server_arg_mem_fraction * final_overall_factor
+                )
+                logger.warning(
+                    f"Multimodal model: Dynamically adjusted --mem-fraction-static "
+                    f"from: {original_server_arg_mem_fraction:.3f} to: {self.mem_fraction_static:.3f}."
+                )
 
         # Set chunked prefill size, which depends on the gpu memory capacity
         if self.chunked_prefill_size is None:
diff --git a/test/srt/test_vision_openai_server_a.py b/test/srt/test_vision_openai_server_a.py
index 90b91578f3cd..f252c4884eb0 100644
--- a/test/srt/test_vision_openai_server_a.py
+++ b/test/srt/test_vision_openai_server_a.py
@@ -30,7 +30,7 @@ def setUpClass(cls):
             api_key=cls.api_key,
             other_args=[
                 "--mem-fraction-static",
-                "0.4",
+                "0.35",
             ],
         )
         cls.base_url += "/v1"
@@ -52,7 +52,7 @@ def setUpClass(cls):
             api_key=cls.api_key,
             other_args=[
                 "--mem-fraction-static",
-                "0.4",
+                "0.35",
             ],
         )
         cls.base_url += "/v1"
@@ -75,7 +75,7 @@ def setUpClass(cls):
             other_args=[
                 "--context-length",
                 "300",
-                "--mem-fraction-static=0.80",
+                "--mem-fraction-static=0.75",
             ],
         )
         cls.base_url += "/v1"
@@ -147,7 +147,7 @@ def setUpClass(cls):
             other_args=[
                 "--trust-remote-code",
                 "--mem-fraction-static",
-                "0.4",
+                "0.35",
             ],
         )
         cls.base_url += "/v1"
@@ -181,7 +181,7 @@ def setUpClass(cls):
             other_args=[
                 "--trust-remote-code",
                 "--mem-fraction-static",
-                "0.7",
+                "0.65",
             ],
         )
         cls.base_url += "/v1"
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index 7a5716cb18a6..f6152ea76dfc 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -22,7 +22,7 @@ def setUpClass(cls):
             other_args=[
                 "--trust-remote-code",
                 "--mem-fraction-static",
-                "0.73",
+                "0.70",
             ],
         )
         cls.base_url += "/v1"
@@ -44,7 +44,7 @@ def setUpClass(cls):
             other_args=[
                 "--trust-remote-code",
                 "--mem-fraction-static",
-                "0.8",
+                "0.75",
             ],
         )
         cls.base_url += "/v1"
@@ -88,7 +88,7 @@ def setUpClass(cls):
             other_args=[
                 "--trust-remote-code",
                 "--mem-fraction-static",
-                "0.4",
+                "0.35",
             ],
         )
         cls.base_url += "/v1"
@@ -197,7 +197,7 @@ def setUpClass(cls):
             other_args=[
                 "--trust-remote-code",
                 "--mem-fraction-static",
-                "0.75",
+                "0.70",
                 "--disable-radix-cache",
                 "--max-loras-per-batch",
                 "1",

From d918ab7985580cebea03216a5e309058df449821 Mon Sep 17 00:00:00 2001
From: Haohui Mai <ricetons@gmail.com>
Date: Fri, 18 Jul 2025 19:59:39 -0700
Subject: [PATCH 040/396] Support NVFP4 quantized dense models on AMD
 CDNA2/CDNA3 GPUs (#7302)

Co-authored-by: HAI <hixiao@gmail.com>
Co-authored-by: Sai Enduri <saimanas.enduri@amd.com>
---
 python/pyproject.toml                         |   1 +
 python/sglang/srt/configs/model_config.py     |   3 +
 python/sglang/srt/layers/linear.py            |   1 +
 .../srt/layers/quantization/__init__.py       |   2 +
 .../sglang/srt/layers/quantization/petit.py   | 249 ++++++++++++++++++
 .../srt/layers/quantization/petit_utils.py    | 104 ++++++++
 python/sglang/srt/server_args.py              |   1 +
 7 files changed, 361 insertions(+)
 create mode 100644 python/sglang/srt/layers/quantization/petit.py
 create mode 100644 python/sglang/srt/layers/quantization/petit_utils.py

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 7afb3581a3b5..5b6501afd192 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -79,6 +79,7 @@ blackwell = [
 srt_hip = [
     "sglang[runtime_common]",
     "torch",
+    "petit_kernel",
 ]
 
 # xpu is not enabled in public vllm and torch whl,
diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index 1a62178b96c8..7d7f2eb95b22 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -391,6 +391,7 @@ def _verify_quantization(self) -> None:
             "compressed-tensors",
             "fbgemm_fp8",
             "w8a8_fp8",
+            "petit_nvfp4",
         ]
         optimized_quantization_methods = [
             "fp8",
@@ -408,9 +409,11 @@ def _verify_quantization(self) -> None:
             "moe_wna16",
             "qoq",
             "w4afp8",
+            "petit_nvfp4",
         ]
         compatible_quantization_methods = {
             "modelopt_fp4": ["modelopt"],
+            "petit_nvfp4": ["modelopt"],
             "w8a8_int8": ["compressed-tensors", "compressed_tensors"],
             "w8a8_fp8": ["compressed-tensors", "compressed_tensors"],
         }
diff --git a/python/sglang/srt/layers/linear.py b/python/sglang/srt/layers/linear.py
index 1c770193fccb..07be9a3c6b14 100644
--- a/python/sglang/srt/layers/linear.py
+++ b/python/sglang/srt/layers/linear.py
@@ -53,6 +53,7 @@
     "ModelOptFp8LinearMethod",
     "ModelOptFp4LinearMethod",
     "IPEXAWQLinearMethod",
+    "PetitNvFp4LinearMethod",
 ]
 
 _is_cpu = is_cpu()
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index 9995b72d0e0b..d51186465a0f 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -58,6 +58,7 @@ def override_quantization_method(self, *args, **kwargs):
     ModelOptFp8Config,
 )
 from sglang.srt.layers.quantization.moe_wna16 import MoeWNA16Config
+from sglang.srt.layers.quantization.petit import PetitNvFp4Config
 from sglang.srt.layers.quantization.qoq import QoQConfig
 from sglang.srt.layers.quantization.utils import get_linear_quant_method
 from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config
@@ -76,6 +77,7 @@ def override_quantization_method(self, *args, **kwargs):
     "compressed-tensors": CompressedTensorsConfig,
     "qoq": QoQConfig,
     "w4afp8": W4AFp8Config,
+    "petit_nvfp4": PetitNvFp4Config,
 }
 
 # VLLM-dependent quantization methods
diff --git a/python/sglang/srt/layers/quantization/petit.py b/python/sglang/srt/layers/quantization/petit.py
new file mode 100644
index 000000000000..e7ee3239f64c
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/petit.py
@@ -0,0 +1,249 @@
+# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/modelopt.py
+
+
+import logging
+from typing import Any, Callable, Dict, List, Optional
+
+import regex as re
+import torch
+from torch.nn.parameter import Parameter
+
+from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
+from sglang.srt.layers.parameter import ModelWeightParameter, PerTensorScaleParameter
+from sglang.srt.layers.quantization.base_config import (
+    LinearMethodBase,
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from sglang.srt.layers.quantization.petit_utils import (
+    apply_petit_nvfp4_linear,
+    prepare_nvfp4_layer_for_petit,
+    verify_petit_nvfp4_supported,
+)
+from sglang.srt.layers.quantization.utils import is_layer_skipped
+
+# Initialize logger for the module
+logger = logging.getLogger(__name__)
+
+
+# Configuration class to support the NVFP4 quantized model generated by the ModelOpt quantization tool
+class PetitNvFp4Config(QuantizationConfig):
+    """Config class for Petit FP4."""
+
+    def __init__(
+        self,
+        is_checkpoint_nvfp4_serialized: bool = False,
+        kv_cache_quant_algo: str = None,
+        group_size: int = None,
+        exclude_modules: List[str] = None,
+    ) -> None:
+        self.is_checkpoint_nvfp4_serialized = is_checkpoint_nvfp4_serialized
+        if is_checkpoint_nvfp4_serialized:
+            logger.warning(
+                "Detected nvfp4 checkpoint. Please note that the "
+                "format is experimental and subject to change."
+            )
+        self.group_size = group_size
+        self.kv_cache_quant_algo = kv_cache_quant_algo
+        self.exclude_modules = exclude_modules
+
+    @classmethod
+    def get_name(cls) -> str:
+        return "petit_nvfp4"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+        return [torch.bfloat16, torch.half]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # Petit supports the gfx90a and gfx942 GPUs
+        return 90
+
+    @classmethod
+    def get_config_filenames(cls) -> List[str]:
+        return ["hf_quant_config.json"]
+
+    @classmethod
+    def from_config(cls, config: Dict[str, Any]) -> "PetitNvFp4Config":
+        quant_config = cls.get_from_keys(config, ["quantization"])
+        quant_method = quant_config["quant_algo"]
+        group_size = quant_config.get("group_size", None)
+        verify_petit_nvfp4_supported(quant_method, group_size)
+
+        is_checkpoint_nvfp4_serialized = "NVFP4" in quant_method
+        kv_cache_quant_algo = quant_config["kv_cache_quant_algo"]
+        if not kv_cache_quant_algo:
+            kv_cache_quant_algo = "auto"
+        exclude_modules = quant_config.get("exclude_modules", None)
+        if not (group_size and kv_cache_quant_algo and (exclude_modules is not None)):
+            logger.warning(
+                f"group_size: {group_size},"
+                f"kv_cache_quant_algo: {kv_cache_quant_algo},"
+                f"exclude_modules: {exclude_modules}"
+            )
+            raise ValueError(
+                "NVFP4 quantization requires group size and "
+                "kv_cache_quant_algo specified in "
+                "hf_quant_config.json"
+            )
+        return cls(
+            is_checkpoint_nvfp4_serialized,
+            kv_cache_quant_algo,
+            group_size,
+            exclude_modules,
+        )
+
+    @classmethod
+    def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]:
+        can_convert = cls.is_petit_nvfp4_compatible(hf_quant_cfg)
+        if can_convert:
+            return cls.get_name()
+        return None
+
+    @classmethod
+    def is_petit_nvfp4_compatible(cls, quant_config: Dict[str, Any]) -> bool:
+        quant_method = quant_config.get("quant_method", "").lower()
+        return quant_method == "modelopt"
+
+    def is_layer_excluded(self, prefix: str, exclude_modules: list):
+        for pattern in exclude_modules:
+            regex_str = pattern.replace(".", r"\.").replace("*", r".*")
+            if re.fullmatch(regex_str, prefix):
+                return True
+        return False
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase):
+            if is_layer_skipped(prefix, self.exclude_modules) or self.is_layer_excluded(
+                prefix, self.exclude_modules
+            ):
+                return UnquantizedLinearMethod()
+            return PetitNvFp4LinearMethod(self)
+        return None
+
+    def get_scaled_act_names(self) -> List[str]:
+        return []
+
+
+class PetitNvFp4LinearMethod(LinearMethodBase):
+    """Linear method for NVFP4.
+    Supports loading NVFP4 checkpoints with the following structure:
+
+    |Tensor Name           | datatype      |  shape      |
+    |----------------------------------------------------|
+    |input_scale           | torch.float32 | scalar      |
+    |weight                | NVFP4(SE2M1)  | [1, X, y/2] |
+    |weight_scale          | FP8-E4M3      | [X, Y]      |
+    |weight_scale_2        | torch.float32 | scalar      |
+
+    The weights are quantized per block of 16 elements.
+    Args: quant_config: The ModelOpt quantization config.
+    """
+
+    def __init__(self, quant_config: PetitNvFp4Config):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: List[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        del input_size, output_size
+        if not self.quant_config.is_checkpoint_nvfp4_serialized:
+            raise ValueError(
+                "NVFP4 quantization was selected, "
+                " dynamic quantization is not supported."
+            )
+
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        layer.logical_widths = output_partition_sizes
+
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        if input_size_per_partition % 16 != 0:
+            raise ValueError(
+                "Unsupported model when in features size is " "not multiple of 16"
+            )
+
+        weight_dtype = (
+            torch.float8_e4m3fn
+            if self.quant_config.is_checkpoint_nvfp4_serialized
+            else params_dtype
+        )
+
+        weight = ModelWeightParameter(
+            data=torch.empty(
+                # 2 fp4 data is packed in one uint8 in the input dimension
+                output_size_per_partition,
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        input_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("input_scale", input_scale)
+
+        weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_scale_2", weight_scale_2)
+
+        weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // self.quant_config.group_size,
+                dtype=weight_dtype,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        input_scale_2 = layer.input_scale.max().to(torch.float32)
+        weight_scale_2 = layer.weight_scale_2.max().to(torch.float32)
+        layer.input_scale = Parameter(input_scale_2, requires_grad=False)
+        layer.weight_scale_2 = Parameter(weight_scale_2, requires_grad=False)
+        layer.alpha = Parameter(
+            layer.input_scale * layer.weight_scale_2, requires_grad=False
+        )
+
+        prepare_nvfp4_layer_for_petit(layer)
+        del layer.input_scale
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        return apply_petit_nvfp4_linear(
+            input=x,
+            weight=layer.weight,
+            weight_scale=layer.weight_scale,
+            weight_scale_2=layer.weight_scale_2,
+            size_n=layer.output_size_per_partition,
+            size_k=layer.input_size_per_partition,
+            bias=bias,
+        )
diff --git a/python/sglang/srt/layers/quantization/petit_utils.py b/python/sglang/srt/layers/quantization/petit_utils.py
new file mode 100644
index 000000000000..529869f2413f
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/petit_utils.py
@@ -0,0 +1,104 @@
+from typing import Optional
+
+import torch
+
+try:
+    from petit_kernel import mul_nvfp4_a16, process_nvfp4_scales, repack_nvfp4
+except ImportError:
+
+    def _check_petit_nvfp4_supported(
+        quant_method: str, group_size: Optional[int]
+    ) -> tuple[bool, Optional[str]]:
+        return (
+            False,
+            "Petit is not installed. Please install it with `pip install petit-kernel`.",
+        )
+
+    def prepare_nvfp4_layer_for_petit(layer: torch.nn.Module) -> None:
+        raise ValueError(
+            "Petit is not installed. Please install it with `pip install petit-kernel`."
+        )
+
+    def apply_petit_nvfp4_linear(
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        weight_scale_2: torch.Tensor,
+        size_n: int,
+        size_k: int,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        raise ValueError(
+            "Petit is not installed. Please install it with `pip install petit-kernel`."
+        )
+
+
+def _check_petit_nvfp4_supported(
+    quant_method: str, group_size: Optional[int]
+) -> tuple[bool, Optional[str]]:
+    if quant_method != "NVFP4":
+        return (
+            False,
+            "Petit currently only supports: NVFP4"
+            " quantizations in sglang. Please check the "
+            "`hf_quant_config.json` file for your model's "
+            "quant configuration.",
+        )
+    if group_size is not None and group_size != 16:
+        return (
+            False,
+            "Petit currently only supports: group_size=16" " quantizations.",
+        )
+    return (True, None)
+
+
+def verify_petit_nvfp4_supported(quant_method: str, group_size: Optional[int]) -> None:
+    supported, error_msg = _check_petit_nvfp4_supported(quant_method, group_size)
+    if not supported:
+        raise ValueError(error_msg)
+
+
+def prepare_nvfp4_layer_for_petit(layer: torch.nn.Module) -> None:
+    # Repack weights to petit format
+    part_size_n = layer.output_size_per_partition
+    part_size_k = layer.input_size_per_partition
+    qweight = layer.weight.view(torch.int32).contiguous()
+    petit_qweight = repack_nvfp4(qweight, size_n=part_size_n, size_k=part_size_k)
+    layer.weight = torch.nn.Parameter(petit_qweight, requires_grad=False)
+
+    # Permute scales
+    weight_scale = process_nvfp4_scales(
+        scales=layer.weight_scale, size_k=part_size_k, size_n=part_size_n
+    )
+    layer.weight_scale = torch.nn.Parameter(weight_scale, requires_grad=False)
+
+    return
+
+
+def apply_petit_nvfp4_linear(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    weight_scale: torch.Tensor,
+    weight_scale_2: torch.Tensor,
+    size_n: int,
+    size_k: int,
+    bias: Optional[torch.Tensor] = None,
+) -> torch.Tensor:
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (size_n,)
+
+    # TODO: Use auto-tuning to find the performant solution_id
+    output = mul_nvfp4_a16(
+        a=reshaped_x,
+        b=weight,
+        s=weight_scale,
+        global_scale=weight_scale_2,
+        size_m=reshaped_x.size(0),
+        size_n=size_n,
+        size_k=size_k,
+        solution_id=-1,
+    )
+    if bias is not None:
+        output.add_(bias)  # In-place add
+
+    return output.reshape(out_shape)
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 20db0b4b9c79..4f9e17e05dda 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -766,6 +766,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "gguf",
                 "modelopt",
                 "modelopt_fp4",
+                "petit_nvfp4",
                 "w8a8_int8",
                 "w8a8_fp8",
                 "moe_wna16",

From b7e951a6dbcd64a1c011f276c57ab84fb7fa76f0 Mon Sep 17 00:00:00 2001
From: Binyao Jiang <byjiang1996@gmail.com>
Date: Fri, 18 Jul 2025 21:03:53 -0700
Subject: [PATCH 041/396] Feat: Support audio in Phi4-mm model (#8048)

---
 .../multimodal_language_models.md             |    2 +-
 python/sglang/srt/conversation.py             |    1 +
 python/sglang/srt/managers/schedule_batch.py  |    4 +
 python/sglang/srt/models/phi4mm.py            |   41 +-
 python/sglang/srt/models/phi4mm_audio.py      | 1260 +++++++++++
 python/sglang/srt/models/phi4mm_utils.py      | 1917 +++++++++++++++++
 .../multimodal/processors/base_processor.py   |   14 +-
 .../srt/multimodal/processors/phi4mm.py       |   95 +-
 python/sglang/srt/utils.py                    |    7 +-
 test/srt/test_vision_openai_server_b.py       |   22 +-
 test/srt/test_vision_openai_server_common.py  |   22 +-
 11 files changed, 3332 insertions(+), 53 deletions(-)
 create mode 100644 python/sglang/srt/models/phi4mm_audio.py
 create mode 100644 python/sglang/srt/models/phi4mm_utils.py

diff --git a/docs/supported_models/multimodal_language_models.md b/docs/supported_models/multimodal_language_models.md
index 665d8de7ed7d..66de3d8a1c15 100644
--- a/docs/supported_models/multimodal_language_models.md
+++ b/docs/supported_models/multimodal_language_models.md
@@ -37,5 +37,5 @@ in the GitHub search bar.
 | **Gemma 3 (Multimodal)**   | `google/gemma-3-4b-it`                     | `gemma-it`       | Gemma 3's larger models (4B, 12B, 27B) accept images (each image encoded as 256 tokens) alongside text in a combined 128K-token context.                                                                        |
 | **Kimi-VL** (A3B)          | `moonshotai/Kimi-VL-A3B-Instruct`          | `kimi-vl`        | Kimi-VL is a multimodal model that can understand and generate text from images.                                                                                                                                |
 | **Mistral-Small-3.1-24B**  | `mistralai/Mistral-Small-3.1-24B-Instruct-2503` | `mistral`   | Mistral 3.1 is a multimodal model that can generate text from text or images input. It also supports tool calling and structured output. |
-| **Phi-4-multimodal-instruct**  | `microsoft/Phi-4-multimodal-instruct` | `phi-4-mm`   | Phi-4-multimodal-instruct is the multimodal variant of the Phi-4-mini model, enhanced with LoRA for improved multimodal capabilities. Currently, it supports only text and vision modalities in SGLang. |
+| **Phi-4-multimodal-instruct**  | `microsoft/Phi-4-multimodal-instruct` | `phi-4-mm`   | Phi-4-multimodal-instruct is the multimodal variant of the Phi-4-mini model, enhanced with LoRA for improved multimodal capabilities. It supports text, vision and audio modalities in SGLang. |
 | **MiMo-VL** (7B)           | `XiaomiMiMo/MiMo-VL-7B-RL`                 | `mimo-vl`        | Xiaomi's compact yet powerful vision-language model featuring a native resolution ViT encoder for fine-grained visual details, an MLP projector for cross-modal alignment, and the MiMo-7B language model optimized for complex reasoning tasks. |
diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index c085c4423af6..cb4bdbc44a0c 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -729,6 +729,7 @@ def generate_chat_conv(
         sep="<|end|>",
         stop_str="<|end|>",
         image_token="<|endoftext10|>",
+        audio_token="<|endoftext11|>",
     )
 )
 
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 01da558b7bf9..a9ed66f9aa3d 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -239,6 +239,10 @@ class MultimodalDataItem:
     # For gemma3n
     input_features_mask: Optional[torch.Tensor] = None
 
+    # For phi4-mm
+    image_attention_mask: Optional[torch.Tensor] = None
+    audio_attention_mask: Optional[torch.Tensor] = None
+
     @staticmethod
     def is_empty_list(l):
         if l is None:
diff --git a/python/sglang/srt/models/phi4mm.py b/python/sglang/srt/models/phi4mm.py
index 8a74888ac9c5..b7997fc0acae 100644
--- a/python/sglang/srt/models/phi4mm.py
+++ b/python/sglang/srt/models/phi4mm.py
@@ -40,6 +40,7 @@
 from sglang.srt.model_loader.weight_utils import default_weight_loader
 from sglang.srt.models.idefics2 import Idefics2VisionTransformer
 from sglang.srt.models.llama import LlamaForCausalLM
+from sglang.srt.models.phi4mm_audio import AudioEmbedding
 
 logger = logging.getLogger(__name__)
 
@@ -420,16 +421,49 @@ def __init__(
             model_dir=config._name_or_path,
         )
 
+        if isinstance(config.embd_layer["audio_embd_layer"], dict):
+            embedding_config = {
+                "embedding_cls": config.embd_layer["audio_embd_layer"]["embedding_cls"],
+                **config.embd_layer["audio_embd_layer"],
+            }
+        else:
+            embedding_config = {"embedding_cls": config.embd_layer["embedding_cls"]}
+
+        self.embed_tokens_extend = AudioEmbedding(config, **embedding_config)
+
     def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         dtype = next(self.vision_encoder.parameters()).dtype
         pixel_values = torch.cat([item.feature for item in items], dim=0).type(dtype)
-        image_attention_mask = torch.cat([item.image_emb_mask for item in items], dim=0)
+        image_attention_mask = torch.cat(
+            [item.image_attention_mask for item in items], dim=0
+        )
         image_sizes = torch.cat([item.image_sizes for item in items], dim=0)
         image_embeds = self.vision_encoder(
             pixel_values, image_sizes, image_attention_mask
         )
         return torch.cat(image_embeds).type(dtype)
 
+    def get_audio_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
+        # (e.g. multiple examples) and the second dim is the multi-audio dim
+        # (e.g. multiple audios in the same example)
+        embed_tokens_extend_param = next(self.embed_tokens_extend.parameters())
+        device = embed_tokens_extend_param.device
+        dtype = embed_tokens_extend_param.dtype
+        audio_embeds = [
+            self.embed_tokens_extend(
+                # item.feature: (num_audios_in_a_sequence, T, D)
+                # item.audio_attention_mask: (num_audios_in_a_sequence, T, D) BoolTensor or None
+                audio_features=item.feature.to(device).type(dtype),
+                audio_attention_mask=(
+                    item.audio_attention_mask.to(device)
+                    if item.audio_attention_mask is not None
+                    else None
+                ),
+            )
+            for item in items
+        ]
+        return torch.cat(audio_embeds).type(dtype)
+
     def forward(
         self,
         input_ids: torch.Tensor,
@@ -443,6 +477,7 @@ def forward(
             language_model=self.language_model,
             data_embedding_funcs={
                 Modality.IMAGE: self.get_image_feature,
+                Modality.AUDIO: self.get_audio_feature,
             },
             positions=positions,
         )
@@ -464,6 +499,9 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
             (".self_attn.qkv_proj", ".self_attn.v_proj", "v"),
         ]
         prefix_mapping = {
+            "model.embed_tokens_extend.audio_embed.audio_projection.vision.": "embed_tokens_extend.audio_projection_for_vision.",
+            "model.embed_tokens_extend.audio_embed.audio_projection.speech.": "embed_tokens_extend.audio_projection.",
+            "model.embed_tokens_extend.audio_embed.": "embed_tokens_extend.",
             "model.embed_tokens_extend.image_embed.": "vision_encoder.",
             "model.": "language_model.model.",
         }
@@ -472,7 +510,6 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
             "img_processor.encoder.layers.26",
             "img_processor.head",
             "img_processor.post_layernorm",
-            "audio",
         ]
 
         def _should_skip(name: str) -> bool:
diff --git a/python/sglang/srt/models/phi4mm_audio.py b/python/sglang/srt/models/phi4mm_audio.py
new file mode 100644
index 000000000000..fd199836e9a9
--- /dev/null
+++ b/python/sglang/srt/models/phi4mm_audio.py
@@ -0,0 +1,1260 @@
+# Copyright 2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+#!/usr/bin/env python3
+import abc
+import math
+from typing import Literal, Optional
+
+import numpy as np
+import torch
+import torch.nn.functional as F
+from torch import Tensor, nn
+from torch.distributed.algorithms._checkpoint.checkpoint_wrapper import (
+    CheckpointWrapper,
+)
+from torch.distributed.fsdp.fully_sharded_data_parallel import FullyShardedDataParallel
+from transformers import PretrainedConfig
+
+from sglang.srt.models.phi4mm_utils import (
+    AbsolutePositionalEncoding,
+    ConvModule,
+    FeedForward,
+    MeanVarianceNormLayer,
+    MultiHeadedAttention,
+    MultiSequential,
+    NemoConvSubsampling,
+    T5RelativeAttentionLogitBias,
+    adaptive_enc_mask,
+    get_offset,
+    unfold_tensor,
+)
+
+_AUDIO_PLACEHOLDER_TOKEN_ID = 200011  # <|endoftext11|>
+
+
+class ConformerEncoderLayer(nn.Module):
+    """ConformerEncoder Layer module.
+    for more details see conformer paper:
+        https://arxiv.org/abs/2005.08100
+    This module implement the Conformer block layer.
+
+    Args:
+        d_model: int
+            attention dim.
+        ext_pw_out_channel: int
+            if > 0, ext_pw_out_channel is a dim channel size
+             for the last pointwise conv after swish activation.
+        depthwise_seperable_out_channel: int
+            if set different to 0, the number of
+             depthwise_seperable_out_channel will be used as a
+             channel_out of the second conv1d layer.
+             otherwise, it equal to 0, the second conv1d layer is skipped.
+        depthwise_multiplier: int
+            number of input_dim channels duplication. this value
+             will be used to compute the hidden channels of the Conv1D.
+        n_head: int
+            the number of heads for multihead attention module.
+        d_ffn: int
+            output size of the feed_forward blocks.
+        ext_pw_kernel_size: int
+            kernel size of the conv pointwise of the conformer.
+        kernel_size: int
+            kernel size.
+        dropout_rate: float
+            dropout rate.
+        causal: bool, optional
+            if set to True, convolution have no access
+             to future frames. default False.
+        batch_norm: bool, optional
+            if set to True, apply batchnorm before activation
+            in ConvModule layer of the conformer.
+            default False
+        activation: str, optional
+            activation function name,
+            one of ["relu", "swish", "sigmoid"],
+            sigmoid activation is only used with "glu_in_fnn=True",
+            default "relu".
+        chunk_se: int, optional
+            0 for offline SE.
+            1 for streaming SE, where mean is computed
+             by accumulated history until current chunk_se.
+            2 for streaming SE, where mean is computed
+             by only the current chunk.
+            default 0.
+        chunk_size: int, optional
+            chunk_size for cnn. default 18
+        conv_activation: str, optional
+            activation function used in ConvModule part
+            of the conformer, default "relu".
+        conv_glu_type: str, optional
+            activation function used for the glu inside
+            the ConvModule part of the conformer.
+            default: "sigmoid".
+        bias_in_glu: bool, optional
+            if set to True, use additive bias in the weight module
+             before GLU.
+        linear_glu_in_convm: bool, optional
+            if set to True, use GLULinear module,
+             otherwise, used GLUPointWiseConv module.
+              default to False.
+        attention_inner_dim: int, optional
+            if equal to -1, attention dim for linears k/q/v is
+            equal to d_model. otherwise attention_inner_dim is used.
+            default -1.
+        attention_glu_type: str, optional
+            activation function for glu used in the multihead attention,
+             default "swish".
+        activation_checkpointing: str, optional
+            a dictionarry of {"module","interval","offload"}, where
+                "module": str
+                    accept ["transformer", "attention"] to select
+                    which module should do activation checkpointing.
+                "interval": int, default 1,
+                    interval of applying activation checkpointing,
+                    interval = 1 means that we apply checkpointing
+                    on every layer (if activation), otherwise,
+                    we apply it every x interval.
+                "offload": bool, default False,
+                    if set to True, we offload activation to cpu and
+                    reload it during backward, otherwise,
+                    we recalculate activation in backward.
+            default "".
+        export: bool, optional
+            if set to True, it remove the padding from convolutional layers
+             and allow the onnx conversion for inference.
+              default False.
+        use_pt_scaled_dot_product_attention: bool, optional
+            if set to True, use pytorch's scaled dot product attention
+            implementation in training.
+        attn_group_sizes: int, optional
+            the number of groups to use for attention, default 1
+            (Multi-Head Attention),
+            1 = typical Multi-Head Attention,
+            1 < attn_group_sizes < attention_heads = Grouped-Query Attention
+            attn_group_sizes = attention_heads = Multi-Query Attention
+    """
+
+    def __init__(
+        self,
+        d_model=512,
+        ext_pw_out_channel=0,
+        depthwise_seperable_out_channel=256,
+        depthwise_multiplier=1,
+        n_head=4,
+        d_ffn=2048,
+        ext_pw_kernel_size=1,
+        kernel_size=3,
+        dropout_rate=0.1,
+        causal=False,
+        batch_norm=False,
+        activation="relu",
+        chunk_se=0,
+        chunk_size=18,
+        conv_activation="relu",
+        conv_glu_type="sigmoid",
+        bias_in_glu=True,
+        linear_glu_in_convm=False,
+        attention_inner_dim=-1,
+        attention_glu_type="swish",
+        activation_checkpointing="",
+        export=False,
+        use_pt_scaled_dot_product_attention=False,
+        attn_group_sizes: int = 1,
+    ):
+        super().__init__()
+
+        self.feed_forward_in = FeedForward(
+            d_model=d_model,
+            d_inner=d_ffn,
+            dropout_rate=dropout_rate,
+            activation=activation,
+            bias_in_glu=bias_in_glu,
+        )
+
+        self.self_attn = MultiHeadedAttention(
+            n_head,
+            d_model,
+            dropout_rate,
+            attention_inner_dim,
+            attention_glu_type,
+            bias_in_glu,
+            use_pt_scaled_dot_product_attention=use_pt_scaled_dot_product_attention,
+            group_size=attn_group_sizes,
+        )
+        self.conv = ConvModule(
+            d_model,
+            ext_pw_out_channel,
+            depthwise_seperable_out_channel,
+            ext_pw_kernel_size,
+            kernel_size,
+            depthwise_multiplier,
+            dropout_rate,
+            causal,
+            batch_norm,
+            chunk_se,
+            chunk_size,
+            conv_activation,
+            conv_glu_type,
+            bias_in_glu,
+            linear_glu_in_convm,
+            export=export,
+        )
+
+        self.feed_forward_out = FeedForward(
+            d_model=d_model,
+            d_inner=d_ffn,
+            dropout_rate=dropout_rate,
+            activation=activation,
+            bias_in_glu=bias_in_glu,
+        )
+
+        self.layer_norm_att = nn.LayerNorm(d_model)
+        self.layer_norm = nn.LayerNorm(d_model)
+
+    def forward(
+        self,
+        x,
+        pos_k,
+        pos_v,
+        mask,
+        relative_attention_bias: Optional[Tensor] = None,
+    ):
+        """ConformerEncoder forward.
+
+        Args:
+            x: torch.Tensor
+                input feature of shape (batch, max_time_in, size)
+            pos_k: torch.Tensor
+                positional key embedding.
+            mask: torch.Tensor
+                mask for x (batch, max_time_in)
+            relative_attention_bias: Optional[torch.Tensor]
+                bias added to attention logits w.r.t. relative positions
+                (1, n_head, time1, time2)
+        """
+        x = x + 0.5 * self.feed_forward_in(x)
+        norm_x = self.layer_norm_att(x)
+
+        x = x + self.self_attn(
+            norm_x,
+            norm_x,
+            norm_x,
+            pos_k,
+            pos_v,
+            mask,
+            relative_attention_bias=relative_attention_bias,
+        )
+        x = x + self.conv(x)
+        x = x + 0.5 * self.feed_forward_out(x)
+
+        out = self.layer_norm(x)
+
+        return out, pos_k, pos_v, mask
+
+
+class TransformerEncoderBase(abc.ABC, nn.Module):
+    """The Base class for Transformer based encoders
+
+    Please set causal = True in streaming model
+    Args:
+        input_size: int
+            input feature dimension.
+        chunk_size: int, list(int)
+            Number of frames for each chunk
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training
+            Some examples for the 2 cases:
+            chunk_size = 12
+            chunk_size = [6, 8, 12, 24]
+        left_chunk: int, list(int)
+            Number of chunks used for masking in streaming mode.
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training. When
+            chunk_size is a list, left_chunk must be a list with same length.
+            Some examples for the 2 cases:
+            left_chunk = 6
+            left_chunk = [12, 9, 6, 3]
+        attention_dim: int, optional
+            attention dimension. default 256.
+        attention_heads: int, optional
+            the number of heads. default 4
+        input_layer: str, optional
+            input layer type before Conformer,
+            one of ["linear", "conv2d", "custom", "vgg2l", "embed"],
+            default "conv2d"
+        cnn_out: int, optional
+            the number of CNN channels before Conformer.
+            default -1.
+        cnn_layer_norm: bool, optional
+            layer norm between Conformer and the first CNN.
+            default False.
+        time_reduction: int, optional
+            time reduction factor
+            default 4
+        dropout_rate: float, optional
+            dropout rate. default 0.1
+        padding_idx: int, optional
+            padding index for input_layer=embed
+            default -1
+        relative_attention_bias_args: dict, optional
+            use more efficient scalar bias-based relative multihead attention
+            (Q*K^T + B) implemented in cmb.basics.embedding.
+            [T5/ALiBi]RelativeAttentionLogitBias
+            usage: relative_attention_bias_args={"type": t5/alibi}
+            additional method-specific arguments can be provided (see
+            transformer_base.py)
+        positional_dropout_rate: float, optional
+            dropout rate after positional encoding. default 0.0
+        nemo_conv_settings: dict, optional
+            A dictionary of settings for NeMo Subsampling.
+            default None
+        conv2d_extra_padding: str, optional
+            Add extra padding in conv2d subsampling layers. Choices are
+            (feat, feat_time, none, True).
+            if True or feat_time, the extra padding is added into non full
+            supraframe utts in batch.
+            Default: none
+        attention_group_size: int, optional
+            the number of groups to use for attention, default 1
+            (Multi-Head Attention),
+            1 = typical Multi-Head Attention,
+            1 < attention_group_size < attention_heads = Grouped-Query
+            Attention
+            attention_group_size = attention_heads = Multi-Query Attention
+    """
+
+    def __init__(
+        self,
+        input_size,
+        chunk_size,
+        left_chunk,
+        attention_dim=256,
+        attention_heads=4,
+        input_layer="nemo_conv",
+        cnn_out=-1,
+        cnn_layer_norm=False,
+        time_reduction=4,
+        dropout_rate=0.0,
+        padding_idx=-1,
+        relative_attention_bias_args=None,
+        positional_dropout_rate=0.0,
+        nemo_conv_settings=None,
+        conv2d_extra_padding: Literal["feat", "feat_time", "none", True] = "none",
+        attention_group_size=1,
+        encoder_embedding_config=None,
+    ):
+        super().__init__()
+        self.input_size = input_size
+        self.input_layer = input_layer
+        self.chunk_size = chunk_size
+        self.left_chunk = left_chunk
+        self.attention_dim = attention_dim
+        self.num_heads = attention_heads
+        self.attention_group_size = attention_group_size
+        self.time_reduction = time_reduction
+        self.nemo_conv_settings = nemo_conv_settings
+        self.encoder_embedding_config = encoder_embedding_config
+
+        if self.input_layer == "nemo_conv":
+            default_nemo_conv_settings = {
+                "subsampling": "dw_striding",
+                "subsampling_factor": self.time_reduction,
+                "feat_in": input_size,
+                "feat_out": attention_dim,
+                "conv_channels": 256,
+                "subsampling_conv_chunking_factor": 1,
+                "activation": nn.ReLU(),
+                "is_causal": False,
+            }
+            # Override any of the defaults with the incoming, user settings
+            if nemo_conv_settings:
+                default_nemo_conv_settings.update(nemo_conv_settings)
+                for i in ["subsampling_factor", "feat_in", "feat_out"]:
+                    assert (
+                        i not in nemo_conv_settings
+                    ), "{i} should be specified outside of the NeMo dictionary"
+
+            self.embed = NemoConvSubsampling(
+                **default_nemo_conv_settings,
+            )
+        else:
+            raise ValueError("unknown input_layer: " + input_layer)
+
+        self.pos_emb = AbsolutePositionalEncoding(
+            attention_dim, positional_dropout_rate
+        )
+
+        self.relative_attention_bias_type = (
+            relative_attention_bias_args.get("type")
+            if relative_attention_bias_args
+            else None
+        )
+        if self.relative_attention_bias_type == "t5":
+            assert (
+                self.num_heads % self.attention_group_size == 0
+            ), "attention_group_size must divide n_head"
+            self.relative_attention_bias_layer = T5RelativeAttentionLogitBias(
+                self.num_heads // self.attention_group_size,
+                max_distance=relative_attention_bias_args.get(
+                    "t5_bias_max_distance", 1000
+                ),
+                symmetric=relative_attention_bias_args.get("t5_bias_symmetric", False),
+            )
+        else:
+            raise NotImplementedError
+
+        self.encoder_embedding = MeanVarianceNormLayer(
+            self.encoder_embedding_config["input_size"]
+        )
+
+    def compute_lens_change(self, feature_lens):
+        """feature_lens: int
+        return updated feature lens.
+
+        This used to return a different lambda function for each case that
+        computed the right thing.  That does not work within Torchscript.
+        If you really need this to be faster, create nn.Module()-s for all
+        the cases and return one of them.  Torchscript does support that.
+        """
+        if self.input_layer == "nemo_conv":
+            # Handle the special causal case
+            subsampling_causal_cond = self.nemo_conv_settings.get(
+                "subsampling", "dw_striding"
+            ) in [
+                "dw_striding",
+                "striding",
+                "striding_conv1d",
+            ]
+            is_causal = self.nemo_conv_settings.get("is_causal", False)
+            if is_causal and subsampling_causal_cond:
+                lens_change = (
+                    torch.ceil(feature_lens / self.time_reduction).long()
+                    if isinstance(feature_lens, Tensor)
+                    else math.ceil(feature_lens / self.time_reduction)
+                )
+                feature_lens_remainder = feature_lens % self.time_reduction
+                if isinstance(feature_lens, Tensor):
+                    lens_change[feature_lens_remainder != 1] += 1
+                elif feature_lens_remainder != 1:
+                    lens_change += 1
+                return lens_change
+            ceil_func = math.ceil if isinstance(feature_lens, int) else torch.ceil
+            return ceil_func(feature_lens / self.time_reduction)
+
+    @abc.abstractmethod
+    def forward(self):
+        """Abstract forward method implementation."""
+
+    def _chunk_size_selection(self, chunk_size=None, left_chunk=None):
+        """If chunk size is a list, we will randomly select a chunk size."""
+
+        if chunk_size is None:
+            chunk_size = self.chunk_size
+        if left_chunk is None:
+            left_chunk = self.left_chunk
+        if isinstance(chunk_size, list):
+            # Variable chunk size during training
+            chunk_size_index = int(
+                torch.randint(low=0, high=len(chunk_size), size=(1,))
+            )
+            chunk_size_train_eff = chunk_size[chunk_size_index]
+            if not isinstance(left_chunk, list):
+                raise ValueError(
+                    "Since chunk_size is a list, left_chunk must be a list"
+                )
+            if len(left_chunk) != len(chunk_size):
+                raise ValueError(
+                    "The length of left_chunk must be the same as length of "
+                    "chunk_size."
+                )
+            left_chunk_train_eff = left_chunk[chunk_size_index]
+        else:
+            chunk_size_train_eff = chunk_size
+            left_chunk_train_eff = left_chunk
+
+        return chunk_size_train_eff, left_chunk_train_eff
+
+    def _get_embed_class(self, embed):
+        # pylint: disable=protected-access
+        is_embed_using_act_chkpt = isinstance(embed, CheckpointWrapper)
+        is_embed_fsdp_wrapped = isinstance(embed, FullyShardedDataParallel)
+        embed_class = embed
+        if is_embed_using_act_chkpt:
+            embed_class = embed._checkpoint_wrapped_module
+        if is_embed_fsdp_wrapped:
+            embed_class = embed.module
+        return embed_class
+
+    def _forward_embeddings_core(self, input_tensor, masks):
+        embed_class = self._get_embed_class(self.embed)
+        assert isinstance(embed_class, NemoConvSubsampling)
+        input_tensor, masks = self.embed(input_tensor, masks)
+        return input_tensor, masks
+
+    def _position_embedding(self, input_tensor):
+        pos_k = None
+        pos_v = None
+        if self.relative_attention_bias_layer is None:
+            input_tensor = self.pos_emb(
+                input_tensor
+            )  # default to add abs sinusoid embedding
+        return pos_k, pos_v
+
+    def _streaming_mask(self, seq_len, batch_size, chunk_size, left_chunk):
+        chunk_size_train_eff, left_chunk_train_eff = self._chunk_size_selection(
+            chunk_size, left_chunk
+        )
+
+        # Create mask matrix for streaming
+        # S stores start index. if chunksize is 18, s is [0,18,36,....]
+        chunk_start_idx = np.arange(0, seq_len, chunk_size_train_eff)
+
+        enc_streaming_mask = (
+            adaptive_enc_mask(
+                seq_len, chunk_start_idx, left_window=left_chunk_train_eff
+            )
+            .unsqueeze(0)
+            .expand([batch_size, -1, -1])
+        )
+        return enc_streaming_mask
+
+    def forward_embeddings(self, xs_pad, masks, chunk_size_nc=None, left_chunk_nc=None):
+        """Forwarding the inputs through the top embedding layers
+
+        Args:
+            xs_pad: torch.Tensor
+                input tensor
+            masks: torch.Tensor
+                input mask
+            chunk_size_nc: (optional, default is None) chunk size for
+                            non-causal layers
+            left_chunk_nc: (optional, default is None) # of left chunks for
+                            non-causal layers
+        """
+        # pylint: disable=R0915
+        # get new lens.
+        seq_len = int(self.compute_lens_change(xs_pad.shape[1]))
+        if seq_len <= 0:
+            raise ValueError(
+                f"""The sequence length after time reduction is invalid:
+                {seq_len}. Your input feature is too short. Consider
+                filtering out the very short sentence from data
+                loader""",
+            )
+
+        batch_size = xs_pad.shape[0]
+
+        enc_streaming_mask = self._streaming_mask(
+            seq_len, batch_size, self.chunk_size, self.left_chunk
+        )
+
+        if xs_pad.is_cuda:
+            enc_streaming_mask = enc_streaming_mask.cuda()
+            xs_pad = xs_pad.cuda()
+
+        input_tensor = xs_pad
+        input_tensor, masks = self._forward_embeddings_core(input_tensor, masks)
+
+        streaming_mask = enc_streaming_mask
+        if streaming_mask is not None and masks is not None:
+            hs_mask = masks & streaming_mask
+        elif masks is not None:
+            hs_mask = masks
+        else:
+            hs_mask = streaming_mask
+
+        if chunk_size_nc is not None:
+            enc_streaming_mask_nc = self._streaming_mask(
+                seq_len, batch_size, chunk_size_nc, left_chunk_nc
+            )
+            if xs_pad.is_cuda:
+                enc_streaming_mask_nc = enc_streaming_mask_nc.cuda()
+            if masks is not None:
+                hs_mask_nc = masks & enc_streaming_mask_nc
+            else:
+                hs_mask_nc = enc_streaming_mask_nc
+        else:
+            hs_mask_nc = None
+
+        pos_k, pos_v = self._position_embedding(input_tensor)
+
+        if chunk_size_nc is None:
+            return input_tensor, pos_k, pos_v, hs_mask, masks
+        return input_tensor, pos_k, pos_v, hs_mask, masks, hs_mask_nc
+
+    def get_offset(self):
+        """Returns offset used when retaining inputs for decoding.
+
+        This is essentially, how many additional frames have to be added to
+        the front-end CNN input to ensure it can produce a single output.
+        So if the "padding" parameter is 0, typically offset will be > 0.
+        """
+        return get_offset(self.input_layer, self.time_reduction)
+
+
+class ConformerEncoder(TransformerEncoderBase):
+    """ConformerEncoder module.
+    see original paper for more details:
+        https://arxiv.org/abs/2005.08100
+
+    Please set causal = True in streaming model
+    Args:
+        input_size: int
+            input feature dimension.
+        chunk_size: int, list(int)
+            Number of frames for each chunk
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training
+            Some examples for the 2 cases:
+            chunk_size = 12
+            chunk_size = [6, 8, 12, 24]
+        left_chunk: int, list(int)
+            Number of chunks used for masking in streaming mode.
+            This variable can take 2 forms:
+            int:  Used for inference, or single chunk size training
+            list(int) : Used only for variable chunk size training. When
+            chunk_size is a list, left_chunk must be a list with same length.
+            Some examples for the 2 cases:
+            left_chunk = 6
+            left_chunk = [12, 9, 6, 3]
+        left_chunk: int
+            number of chunks used for masking in streaming mode.
+        num_lang: int
+            This parameter is used to store the number of languages in the
+            lang_dict, only used for multiseed/multilingual models.
+            default None.
+        attention_dim: int, optional
+            attention dimension. default 256.
+        attention_heads: int, optional
+            the number of heads. default 4
+        linear_units:
+            the number of units of position-wise feed forward.
+            default 2048
+        num_block:
+            number of Transformer layer. default 6
+        dropout_rate: float, optional
+            dropout rate. default 0.1
+        input_layer: str, optional
+            input layer type before Conformer,
+            one of ["linear", "conv2d", "custom", "vgg2l", "embed"],
+            default "conv2d"
+        causal: bool, optional
+            if set to True, convolution have no access
+             to future frames. default False.
+        batch_norm: bool, optional
+            if set to True, apply batchnorm before activation
+            in ConvModule layer of the conformer.
+            default False
+        cnn_out: int, optional
+            the number of CNN channels before Conformer.
+            default -1.
+        cnn_layer_norm: bool, optional
+            layer norm between Conformer and the first CNN.
+            default False.
+        ext_pw_out_channel: int, optional
+            the number of channel for CNN
+            before depthwise_seperable_CNN.
+            If 0 then use linear. default 0.
+        ext_pw_kernel_size: int, optional
+            kernel size of N before depthwise_seperable_CNN.
+            only work for ext_pw_out_channel > 0.
+            default 1
+        depthwise_seperable_out_channel: int, optional
+            the number of channel for
+            depthwise_seperable_CNN.
+            default 256.
+        depthwise_multiplier: int, optional
+            the number of multiplier for
+            depthwise_seperable_CNN.
+            default 1.
+        chunk_se: int, optional
+            0 for offline SE.
+            1 for streaming SE, where mean is computed
+             by accumulated history until current chunk_se.
+            2 for streaming SE, where mean is computed
+             by only the current chunk.
+            default 0.
+        kernel_size: int, optional
+            the number of kernels for depthwise_seperable_CNN.
+            default 3.
+        activation: str, optional
+            FeedForward block activation.
+            one of ["relu", "swish", "sigmoid"]
+            default "relu".
+        conv_activation: str, optional
+            activation function used in ConvModule part
+            of the conformer, default "relu".
+        conv_glu_type: str, optional
+            activation used use glu in depthwise_seperable_CNN,
+            default "sigmoid"
+        bias_in_glu: bool, optional
+            if set to True, use additive bias in the weight module
+             before GLU. default True
+        linear_glu_in_convm: bool, optional
+            if set to True, use GLULinear module,
+             otherwise, used GLUPointWiseConv module.
+              default to False.
+        attention_glu_type: str
+            only work for glu_in_attention !=0
+            default "swish".
+        export: bool, optional
+            if set to True, it remove the padding from convolutional layers
+             and allow the onnx conversion for inference.
+              default False.
+        activation_checkpointing: str, optional
+            a dictionarry of {"module","interval","offload"}, where
+                "module": str
+                    accept ["transformer", "attention"] to select
+                    which module should do activation checkpointing.
+                "interval": int, default 1,
+                    interval of applying activation checkpointing,
+                    interval = 1 means that we apply checkpointing
+                    on every layer (if activation), otherwise,
+                    we apply it every x interval.
+                "offload": bool, default False,
+                    if set to True, we offload activation to cpu and
+                    reload it during backward, otherwise,
+                    we recalculate activation in backward.
+            default "".
+        extra_layer_output_idx: int
+            the layer index to be exposed.
+        relative_attention_bias_args: dict, optional
+            use more efficient scalar bias-based relative multihead attention
+            (Q*K^T + B) implemented in cmb.basics.embedding.
+            [T5/ALiBi]RelativeAttentionLogitBias
+            usage: relative_attention_bias_args={"type": t5/alibi}
+            additional method-specific arguments can be provided (see
+            transformer_base.py)
+        time_reduction: int optional
+            time reduction factor
+            default 4
+        use_pt_scaled_dot_product_attention: whether to use pytorch scaled
+            dot product attention in training.
+            Default: False
+        nemo_conv_settings: dict, optional
+            A dictionary of settings for NeMo Subsampling.
+            default: None
+            usage: nemo_conv_settings=
+                {
+                    "subsampling":
+                    dw_striding/striding/dw_striding_conv1d/striding_conv1d,
+                    "conv_channels": int,
+                    "subsampling_conv_chunking_factor": int,
+                    "is_causal": True/False
+                }
+        conv2d_extra_padding: str, optional
+            Add extra padding in conv2d subsampling layers. Choices are
+            (feat, feat_time, none, True)
+            Default: none
+        replication_pad_for_subsample_embedding:  For batched-streaming
+            decoding, use "replication" padding for the cache at start of
+            utterance.
+            Default: False
+        attention_group_size: int, optional
+            the number of groups to use for attention, default 1
+            (Multi-Head Attention),
+            1 = typical Multi-Head Attention,
+            1 < attention_group_size < attention_heads = Grouped-Query
+            Attention
+            attention_group_size = attention_heads = Multi-Query Attention
+    """
+
+    extra_multi_layer_output_idxs: list[int]
+
+    def __init__(  # pylint: disable-all
+        self,
+        input_size,
+        chunk_size,
+        left_chunk,
+        num_lang=None,
+        attention_dim=256,
+        attention_heads=4,
+        linear_units=2048,
+        num_blocks=6,
+        dropout_rate=0.1,
+        input_layer="nemo_conv",
+        causal=True,
+        batch_norm=False,
+        cnn_out=-1,
+        cnn_layer_norm=False,
+        ext_pw_out_channel=0,
+        ext_pw_kernel_size=1,
+        depthwise_seperable_out_channel=256,
+        depthwise_multiplier=1,
+        chunk_se=0,
+        kernel_size=3,
+        activation="relu",
+        conv_activation="relu",
+        conv_glu_type="sigmoid",
+        bias_in_glu=True,
+        linear_glu_in_convm=False,
+        attention_glu_type="swish",
+        export=False,
+        extra_layer_output_idx=-1,
+        extra_multi_layer_output_idxs=[],  # noqa
+        activation_checkpointing="",
+        relative_attention_bias_args=None,
+        time_reduction=4,
+        use_pt_scaled_dot_product_attention=False,
+        nemo_conv_settings=None,
+        conv2d_extra_padding: Literal["feat", "feat_time", "none", True] = "none",
+        replication_pad_for_subsample_embedding=False,
+        attention_group_size=1,
+        encoder_embedding_config=None,
+    ):
+        super().__init__(
+            input_size,
+            chunk_size,
+            left_chunk,
+            attention_dim,
+            attention_heads,
+            input_layer,
+            cnn_out,
+            cnn_layer_norm,
+            time_reduction,
+            dropout_rate=dropout_rate,
+            relative_attention_bias_args=relative_attention_bias_args,
+            positional_dropout_rate=0.0,
+            nemo_conv_settings=nemo_conv_settings,
+            conv2d_extra_padding=conv2d_extra_padding,
+            attention_group_size=attention_group_size,
+            encoder_embedding_config=encoder_embedding_config,
+        )
+        self.num_blocks = num_blocks
+        self.num_lang = num_lang
+        self.kernel_size = kernel_size
+        self.replication_pad_for_subsample_embedding: bool = (
+            replication_pad_for_subsample_embedding
+        )
+        assert (
+            self.num_heads % attention_group_size == 0
+        ), "attention_group_size must divide n_head"
+        self.num_heads_k = self.num_heads // attention_group_size
+
+        self.encoders = MultiSequential(
+            *[
+                ConformerEncoderLayer(
+                    d_model=attention_dim,
+                    ext_pw_out_channel=ext_pw_out_channel,
+                    depthwise_seperable_out_channel=depthwise_seperable_out_channel,
+                    depthwise_multiplier=depthwise_multiplier,
+                    n_head=attention_heads,
+                    d_ffn=linear_units,
+                    ext_pw_kernel_size=ext_pw_kernel_size,
+                    kernel_size=kernel_size,
+                    dropout_rate=dropout_rate,
+                    causal=causal,
+                    batch_norm=batch_norm,
+                    activation=activation,
+                    chunk_se=chunk_se,
+                    chunk_size=chunk_size,
+                    conv_activation=conv_activation,
+                    conv_glu_type=conv_glu_type,
+                    bias_in_glu=bias_in_glu,
+                    linear_glu_in_convm=linear_glu_in_convm,
+                    attention_glu_type=attention_glu_type,
+                    activation_checkpointing=activation_checkpointing,
+                    export=export,
+                    use_pt_scaled_dot_product_attention=use_pt_scaled_dot_product_attention,
+                    attn_group_sizes=attention_group_size,
+                )
+                for _ in range(num_blocks)
+            ]
+        )
+        self.extra_layer_output_idx = extra_layer_output_idx
+        self.extra_multi_layer_output_idxs = extra_multi_layer_output_idxs
+        # Make a zeros scalar we can use in get_initial_state to determine
+        # the device and the needed dtype:
+        self.register_buffer("dev_type", torch.zeros(()), persistent=False)
+
+    def init_relative_attention_bias(self, input_tensor):
+        if self.relative_attention_bias_layer:
+            return self.relative_attention_bias_layer(input_tensor)
+
+    def calculate_hs_mask(self, xs_pad, device, mask):
+        max_audio_length = xs_pad.shape[1]
+        batch_size = xs_pad.shape[0]
+        enc_streaming_mask = self._streaming_mask(
+            max_audio_length, batch_size, self.chunk_size, self.left_chunk
+        )
+        enc_streaming_mask = enc_streaming_mask.to(device)
+        if mask is None:
+            return enc_streaming_mask
+
+        feature_lens = mask.sum(1)
+        padding_length = feature_lens
+        pad_mask = torch.arange(0, max_audio_length, device=device).expand(
+            padding_length.size(0), -1
+        ) < padding_length.unsqueeze(1)
+        pad_mask = pad_mask.unsqueeze(1)
+        pad_mask = pad_mask & enc_streaming_mask
+        return pad_mask
+
+    @torch.jit.ignore
+    def forward(self, xs_pad, masks):
+        """Conformer Forward function
+
+        Args:
+            xs_pad: torch.Tensor
+                input tensor
+            masks: torch.Tensor
+                post-embedding input lengths
+        """
+        xs_pad = self.encoder_embedding(xs_pad)
+        input_tensor, pos_k, pos_v, hs_mask, masks = self.forward_embeddings(
+            xs_pad, masks
+        )
+
+        unfolded = False
+        ori_bz, seq_len, D = input_tensor.shape
+        max_seq_len = 500  # maximum position for absolute positional encoding
+        if seq_len > max_seq_len:
+            # audio sequence is longer than max_seq_len, unfold it into chunks
+            # of max_seq_len
+            unfolded = True
+            # the unfold op will drop residual frames, pad it to the multiple
+            # of max_seq_len
+            if seq_len % max_seq_len > 0:
+                chunk_pad_size = max_seq_len - (seq_len % max_seq_len)
+            else:
+                chunk_pad_size = 0
+            if chunk_pad_size > 0:
+                input_tensor_pad = F.pad(
+                    input_tensor, (0, 0, 0, chunk_pad_size), "constant", 0
+                )
+                input_tensor = input_tensor_pad.to(input_tensor.device)
+            input_tensor = unfold_tensor(input_tensor, max_seq_len)
+            if masks is not None:
+                # revise hs_mask here because the previous calculated hs_mask
+                # did not consider extra pad
+                subsampled_pad_mask = masks.squeeze(
+                    1
+                )  # [bz, subsampled_unmask_seq_len]
+                extra_padded_subsamlped_pad_mask = F.pad(
+                    subsampled_pad_mask, (0, chunk_pad_size), "constant", False
+                )  # extra padding to the pad mask
+                extra_padded_subsamlped_pad_mask = (
+                    extra_padded_subsamlped_pad_mask.unsqueeze(-1).float()
+                )
+                masks_unfold = unfold_tensor(
+                    extra_padded_subsamlped_pad_mask, max_seq_len
+                )  # unfold the pad mask like we did to the input tensor
+                masks_unfold = masks_unfold.squeeze(
+                    -1
+                ).bool()  # unfold op does not support bool tensor
+            else:
+                masks_unfold = None
+            hs_mask = self.calculate_hs_mask(
+                input_tensor, input_tensor.device, masks_unfold
+            )  # calculate hs_mask based on the unfolded pad mask
+
+        # layer_emb = None
+
+        relative_attention_bias = self.init_relative_attention_bias(input_tensor)
+
+        _simplified_path = (
+            self.extra_layer_output_idx == -1 and relative_attention_bias is None
+        )
+
+        if _simplified_path:
+            input_tensor, *_ = self.encoders(input_tensor, pos_k, pos_v, hs_mask)
+        else:
+            for i, layer in enumerate(self.encoders):
+                input_tensor, _, _, _ = layer(
+                    input_tensor,
+                    pos_k,
+                    pos_v,
+                    hs_mask,
+                    relative_attention_bias=relative_attention_bias,
+                )
+
+                # if i == self.extra_layer_output_idx:
+                #     layer_emb = input_tensor
+
+        if unfolded:
+            embed_dim = input_tensor.shape[-1]
+            input_tensor = input_tensor.reshape(ori_bz, -1, embed_dim)
+            # if we ever padded before unfolding, we need to remove the padding
+            if chunk_pad_size > 0:
+                input_tensor = input_tensor[:, :-chunk_pad_size, :]
+
+        return input_tensor, masks  # , layer_emb
+
+
+class WindowQformer(nn.Module):
+    """Window-level Qformer"""
+
+    def __init__(
+        self,
+        window_size: int = 8,
+        num_queries: int = 1,
+        num_blocks: int = 2,
+        attention_dim: int = 512,
+        attention_heads: int = 8,
+        linear_units: int = 2048,
+        dropout_rate: float = 0.0,
+        normalize_before: bool = True,
+    ):
+        super().__init__()
+
+        self.decoders = nn.ModuleList(
+            [
+                nn.TransformerDecoderLayer(
+                    d_model=attention_dim,
+                    nhead=attention_heads,
+                    dim_feedforward=linear_units,
+                    dropout=dropout_rate,
+                    activation="relu",
+                    batch_first=True,
+                    norm_first=normalize_before,  # TODO need to verify
+                )
+                for _ in range(num_blocks)
+            ]
+        )
+
+        self.queries = nn.Parameter(torch.zeros(1, num_queries, attention_dim))
+        self.after_norm = (
+            nn.LayerNorm(attention_dim, eps=1e-12) if normalize_before else None
+        )
+        self.window_size = window_size
+
+    def forward(self, audio_embed, mask, embed_len=None):
+        """forward decoder"""
+        # audio_embed: N x T x D => N x D x T
+
+        audio_embed = audio_embed.transpose(1, 2)
+        # audio_embed: N x D x 1 x T => N x DK x T'
+        padding = audio_embed.shape[-1] % self.window_size
+        if padding > 0:
+            audio_embed = F.pad(
+                audio_embed, (0, self.window_size - padding), "constant", 0
+            )
+
+        embed_chunk = F.unfold(
+            audio_embed[..., None, :],
+            kernel_size=(1, self.window_size),
+            stride=(1, self.window_size),
+        )
+        bsz, _, slen = embed_chunk.shape
+        # N x D x K x T'
+        embed_chunk = embed_chunk.view(bsz, -1, self.window_size, slen)
+        # N x T' x K x D
+        embed_chunk = embed_chunk.transpose(1, 3).contiguous()
+        # NT' x K x D
+        embed_chunk = embed_chunk.view(bsz * slen, self.window_size, -1)
+        # NT' x 1 x D
+        q = self.queries.expand(bsz * slen, -1, -1)
+        for layer in self.decoders:
+            q = layer(tgt=q, memory=embed_chunk, tgt_mask=None, memory_mask=mask)
+
+        if self.after_norm is not None:
+            q = self.after_norm(q)
+
+        if embed_len is not None:
+            embed_len = embed_len // self.window_size
+        # N x T' x D
+        out = q.view(bsz, slen, -1)
+
+        return out, embed_len
+
+
+class AudioEmbedding(nn.Module):
+    """Image embedding."""
+
+    def __init__(self, config: PretrainedConfig, **kwargs) -> None:
+        super().__init__()
+        self.config = config
+        # n_embed or hidden_size for text LM
+        hidden_size = config.n_embd if hasattr(config, "n_embd") else config.hidden_size
+
+        # self.wte = nn.Embedding(config.vocab_size, hidden_size)
+
+        audio_dim_out = (
+            None  # Set this variable according to the actual audio processor
+        )
+        self.layer_idx = -2
+
+        if (
+            isinstance(config.audio_processor, dict)
+            and config.audio_processor.get("name", None) == "cascades"
+        ):
+            encoder_config = config.audio_processor.get("config", None)
+            assert encoder_config is not None
+            self.encoder = ConformerEncoder(**encoder_config)
+
+            audio_dim_out = encoder_config["attention_dim"]
+            n_mels = encoder_config["input_size"]
+        else:
+            raise NotImplementedError("")
+
+        assert audio_dim_out is not None, "Remember to set values for audio_dim_out"
+        self.audio_dim_out = audio_dim_out
+        self.audio_dim_in = n_mels
+
+        self.freeze_audio_processor = kwargs.get("freeze_audio_processor", False)
+
+        self.downsample_rate = kwargs.get("downsample_rate", 1)
+
+        if kwargs.get("use_qformer", False):
+            qformer_config = kwargs.get("qformer_config", {})
+            qformer_config["attention_dim"] = audio_dim_out
+            self.qformer = WindowQformer(**qformer_config)
+        else:
+            self.qformer = None
+
+        if kwargs.get("use_conv_downsample", False):
+            assert (
+                self.qformer is None
+            ), "don't support use qformer and conv downsample together"
+            nemo_conv_settings = kwargs.get("nemo_conv_settings", {})
+            default_nemo_conv_settings = {
+                "subsampling": "dw_striding",
+                "subsampling_factor": self.downsample_rate,
+                "feat_in": audio_dim_out,
+                "feat_out": audio_dim_out,
+                "conv_channels": 256,
+                "subsampling_conv_chunking_factor": 1,
+                "activation": nn.ReLU(),
+                "is_causal": False,
+            }
+            # Override any of the defaults with the incoming, user settings
+            if nemo_conv_settings:
+                default_nemo_conv_settings.update(nemo_conv_settings)
+                for i in ["subsampling_factor", "feat_in", "feat_out"]:
+                    assert (
+                        i not in nemo_conv_settings
+                    ), "{i} should be specified outside of the NeMo dictionary"
+
+            self.conv_ds = NemoConvSubsampling(
+                **default_nemo_conv_settings,
+            )
+        else:
+            self.conv_ds = None
+
+        projection_cls = kwargs.get("projection_cls", "linear")
+        if projection_cls == "linear":
+            self.audio_projection = nn.Linear(audio_dim_out, hidden_size)
+        elif projection_cls == "mlp":
+            # follow llava-v1.5's implementation
+            # (do not use image_projection and image_proj_norm)
+            dim_projection = hidden_size
+            depth = 2
+            self.linear_downsample_rate = (
+                1 if (self.qformer or self.conv_ds) else self.downsample_rate
+            )
+            layers = [
+                nn.Linear(audio_dim_out * self.linear_downsample_rate, dim_projection)
+            ]
+            for _ in range(1, depth):
+                layers.extend([nn.GELU(), nn.Linear(dim_projection, dim_projection)])
+            self.audio_projection = nn.Sequential(*layers)
+            # NOTE vision-speech tasks use a separate projection layer
+            layers = [
+                nn.Linear(audio_dim_out * self.linear_downsample_rate, dim_projection)
+            ]
+            for _ in range(1, depth):
+                layers.extend([nn.GELU(), nn.Linear(dim_projection, dim_projection)])
+            self.audio_projection_for_vision = nn.Sequential(*layers)
+        else:
+            raise NotImplementedError(
+                f"projection_cls = {projection_cls}, not implemented"
+            )
+
+        # TODO: audio sequence compression - Qformer
+        self.vocab_size = config.vocab_size
+        self.input_embeds = None
+        self.audio_embed_sizes = None
+
+    def set_audio_embeds(self, input_embeds: torch.FloatTensor) -> None:
+        self.input_embeds = input_embeds
+
+    def set_audio_embed_sizes(self, audio_embed_sizes: torch.LongTensor) -> None:
+        self.audio_embed_sizes = audio_embed_sizes
+
+    def get_audio_features(
+        self,
+        input_embeds: torch.FloatTensor,
+        audio_attention_mask: torch.Tensor = None,
+        audio_projection_mode: str = "speech",
+    ) -> torch.FloatTensor:
+        """
+        arguments:
+            input_embeds: audio features (B, T, D)  B: num audios in a sequence
+        """
+        if self.freeze_audio_processor:
+            with torch.no_grad():
+                audio_features, masks = self.encoder(input_embeds, audio_attention_mask)
+        else:
+            audio_features, masks = self.encoder(input_embeds, audio_attention_mask)
+
+        if self.qformer is not None:
+            audio_features, _ = self.qformer(audio_features, mask=None)
+
+        if self.conv_ds is not None:
+            if masks is not None:
+                masks = masks.squeeze(1)
+
+            audio_features, masks = self.conv_ds(audio_features, mask=masks)
+
+        if self.linear_downsample_rate != 1:
+            bs, seq_len, feat_dim = audio_features.size()
+            padding = seq_len % self.linear_downsample_rate
+            if padding > 0:
+                audio_features = F.pad(
+                    audio_features,
+                    (0, 0, 0, self.linear_downsample_rate - padding),
+                    "constant",
+                    0,
+                )
+
+            seq_len = audio_features.size(1)
+            audio_features = audio_features.view(
+                bs,
+                seq_len // self.linear_downsample_rate,
+                feat_dim * self.linear_downsample_rate,
+            )
+
+        if audio_projection_mode == "speech":
+            audio_set_tensor = self.audio_projection(audio_features)
+        elif audio_projection_mode == "vision":
+            audio_set_tensor = self.audio_projection_for_vision(audio_features)
+        else:
+            raise ValueError(
+                f"audio_projection_mode = {audio_projection_mode} not " "implemented"
+            )
+
+        return audio_set_tensor
+
+    def forward(
+        self,
+        audio_features: torch.FloatTensor,
+        audio_attention_mask: torch.Tensor = None,
+        audio_projection_mode: str = "speech",
+    ) -> torch.FloatTensor:
+        """
+        arguments:
+            audio_features: audio features (num_audio_tokens, T, D)
+
+        returns:
+            audio_embeds: audio embeddings (num_audio_tokens, hidden_dim)
+        """
+        audio_embeds = self.get_audio_features(
+            audio_features,
+            audio_attention_mask=audio_attention_mask,
+            audio_projection_mode=audio_projection_mode,
+        )
+        return audio_embeds
diff --git a/python/sglang/srt/models/phi4mm_utils.py b/python/sglang/srt/models/phi4mm_utils.py
new file mode 100644
index 000000000000..e6bf35ebfc46
--- /dev/null
+++ b/python/sglang/srt/models/phi4mm_utils.py
@@ -0,0 +1,1917 @@
+# Copyright 2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+#!/usr/bin/env python3
+import math
+from typing import Optional, Union
+
+import torch
+import torch.nn.functional as F
+from torch import Tensor, nn
+
+
+class BlockBase(nn.Module):
+    """Block abstract module"""
+
+    def __init__(self, input_size, output_size):
+        super().__init__()
+        self.input_size = input_size
+        self.output_size = output_size
+
+
+def get_activation(name="relu"):
+    """Select an activation function by name
+
+    Args:
+        name: str
+            activation function name,
+            one of ["relu", "gelu", "swish", "sigmoid"],
+            default "relu".
+    """
+    name = name.lower()
+    if name == "relu":
+        return nn.ReLU(inplace=True)
+    if name == "gelu":
+        return nn.GELU()
+    if name == "swish":
+        return Swish()
+    if name == "sigmoid":
+        return torch.nn.Sigmoid()
+    return nn.Identity()
+
+
+def adaptive_enc_mask(x_len, chunk_start_idx, left_window=0, right_window=0):
+    """
+    The function is very important for Transformer Transducer Streaming mode
+    Args:
+        xs_len (int): sequence length
+        chunk_start_idx (list): first idx of each chunk, such as [0,18,36,48].
+        It also supports adaptive chunk size [0,10,15,45]
+        left_window (int): how many left chunks can be seen
+        right_window (int): how many right chunks can be seen. It is used for
+        chunk overlap model.
+        Returns:
+            mask (torch.Tensor): a mask tensor for streaming model
+            Torch 1.0.1
+            tensor([[1., 1., 0., 0.],
+                    [0., 1., 1., 0.],
+                    [0., 0., 1., 1.]])
+            Torch 1.4.1
+            tensor([[True., True., False., False.],
+                    [False., True., True., False.],
+                    [False., False., True., True.]])
+    """
+    chunk_start_idx = torch.Tensor(
+        chunk_start_idx
+    ).long()  # first idx of each chunk, such as [0,18,36,48].
+    start_pad = torch.nn.functional.pad(
+        chunk_start_idx, (1, 0)
+    )  # append 0 to the beginning, so it becomes [0, 0, 18, 36, 48]
+    end_pad = torch.nn.functional.pad(
+        chunk_start_idx, (0, 1), value=x_len
+    )  # append x_len to the end, so it becomes [0,18,36,48, x_len]
+    seq_range = torch.arange(0, x_len).unsqueeze(-1)  # seq_range size: [x_len, 1]
+    idx = ((seq_range < end_pad) & (seq_range >= start_pad)).nonzero()[
+        :, 1
+    ]  # idx size: [x_len]
+    # boundary = end_pad[idx]  # boundary size: [x_len]
+    seq_range_expand = (
+        torch.arange(0, x_len).unsqueeze(0).expand(x_len, -1)
+    )  # seq_range_expand size [x_len, x_len]
+    idx_left = idx - left_window
+    idx_left[idx_left < 0] = 0
+    boundary_left = start_pad[idx_left]
+    mask_left = seq_range_expand >= boundary_left.unsqueeze(-1)
+    idx_right = idx + right_window
+    idx_right[idx_right > len(chunk_start_idx)] = len(chunk_start_idx)
+    boundary_right = end_pad[idx_right]
+    mask_right = seq_range_expand < boundary_right.unsqueeze(-1)
+    return mask_left & mask_right
+
+
+class Swish(nn.Module):
+    """Implement Swish activation module.
+    From https://arxiv.org/pdf/2005.03191.pdf
+
+    """
+
+    def __init__(self) -> None:
+        super().__init__()
+        self.act_fn = nn.Sigmoid()
+
+    def forward(self, x: Tensor) -> Tensor:
+        """Apply Swish function
+
+        Args:
+            x: torch.Tensor
+                Input.
+        """
+        return x * self.act_fn(x)
+
+
+class GLU(nn.Module):
+    """Implement Gated Linear Unit (GLU) module"""
+
+    def __init__(self, dim: int = -1, act_name: str = "sigmoid") -> None:
+        super().__init__()
+        self.dim = dim
+        self.act_name = act_name.lower()
+
+        if self.act_name == "relu":
+            self.act_fn = nn.ReLU(inplace=True)
+        elif self.act_name == "gelu":
+            self.act_fn = nn.GELU()
+        elif self.act_name == "swish":
+            self.act_fn = Swish()
+        elif self.act_name == "sigmoid":
+            self.act_fn = nn.Sigmoid()
+        else:
+            self.act_fn = nn.Identity()
+
+    def forward(self, x: Tensor) -> Tensor:
+        """GLU forward
+        Apply Swish function on the first half of input matrices
+        with sigmoid of the second half.
+
+        Args:
+            x: torch.Tensor
+                Input.
+
+        """
+        half_x, gate = x.chunk(2, dim=self.dim)
+        return half_x * self.act_fn(gate)
+
+
+# TODO: Abdel, this can be improved using GLU module
+class GLUPointWiseConv(nn.Module):
+    """GLUPointWiseConv module
+    used for conformer architecture,
+    for more details see:
+    https://arxiv.org/pdf/2005.08100v1.pdf
+
+    Args:
+        input_dim: int
+            input channel size.
+        output_dim: int
+            output channel size.
+        kernel_size: int
+            kernel size
+        glu_type: str, optional
+            activation function one of
+             ["sigmoid", "relu", "gelu"]
+              default "sigmoid".
+        bias_in_glu: bool, optional
+            use addtive bias in glu
+        causal: bool, optional
+            if set to True, padding is set to the half of
+             kernel size, ie, convolution can't see future frames.
+              default False.
+
+    """
+
+    def __init__(
+        self,
+        input_dim,
+        output_dim,
+        kernel_size,
+        glu_type="sigmoid",
+        bias_in_glu=True,
+        causal=False,
+    ):
+        super().__init__()
+
+        self.glu_type = glu_type
+        self.output_dim = output_dim
+        self.bias_in_glu = bias_in_glu
+        if causal:
+            self.ext_pw_conv_1d = nn.Conv1d(
+                input_dim,
+                output_dim * 2,
+                kernel_size,
+                1,
+                padding=(kernel_size - 1),
+            )
+        else:
+            self.ext_pw_conv_1d = nn.Conv1d(
+                input_dim,
+                output_dim * 2,
+                kernel_size,
+                1,
+                padding=(kernel_size - 1) // 2,
+            )
+
+        if glu_type == "sigmoid":
+            self.glu_act = nn.Sigmoid()
+        elif glu_type == "relu":
+            self.glu_act = nn.ReLU()
+        elif glu_type == "gelu":
+            self.glu_act = nn.GELU()
+        elif glu_type == "swish":
+            self.glu_act = Swish()
+        else:
+            raise ValueError(f"Unsupported activation type {self.glu_act}")
+
+        if bias_in_glu:
+            self.b1 = nn.Parameter(torch.zeros(1, output_dim, 1))
+            self.b2 = nn.Parameter(torch.zeros(1, output_dim, 1))
+
+    def forward(self, x):
+        """
+        Args:
+            x: torch.Tensor
+                input tensor
+        """
+        # to be consistent with GLULinear, we assume the input always has the
+        # #channel (#dim) in the last dimension of the tensor, so need to
+        # switch the dimension first for 1D-Conv case
+        x = x.permute([0, 2, 1])
+        x = self.ext_pw_conv_1d(x)
+        if self.glu_type == "bilinear":
+            if self.bias_in_glu:
+                x = (x[:, 0 : self.output_dim, :] + self.b1) * (
+                    x[:, self.output_dim : self.output_dim * 2, :] + self.b2
+                )
+            else:
+                x = (x[:, 0 : self.output_dim, :]) * (
+                    x[:, self.output_dim : self.output_dim * 2, :]
+                )
+        else:
+            if self.bias_in_glu:
+                x = (x[:, 0 : self.output_dim, :] + self.b1) * self.glu_act(
+                    x[:, self.output_dim : self.output_dim * 2, :] + self.b2
+                )
+            else:
+                x = (x[:, 0 : self.output_dim, :]) * self.glu_act(
+                    x[:, self.output_dim : self.output_dim * 2, :]
+                )
+
+        x = x.permute([0, 2, 1])
+        return x
+
+
+class DepthWiseSeperableConv1d(nn.Module):
+    """DepthWiseSeperableConv1d module used in Convnet module
+    for the conformer, for more details see:
+    https://arxiv.org/pdf/2005.08100v1.pdf
+
+    Args:
+        input_dim: int
+            input channel size.
+        depthwise_seperable_out_channel: int
+            if set different to 0, the number of
+             depthwise_seperable_out_channel will be used as a channel_out
+             of the second conv1d layer.
+             otherwise, it equal to 0, the second conv1d layer is skipped.
+        kernel_size: int
+            kernel_size
+        depthwise_multiplier: int
+            number of input_dim channels duplication. this value
+            will be used to compute the hidden channels of the Conv1D.
+        padding: int, optional
+            padding for the conv1d,
+             default: 0.
+
+    """
+
+    def __init__(
+        self,
+        input_dim,
+        depthwise_seperable_out_channel,
+        kernel_size,
+        depthwise_multiplier,
+        padding=0,
+    ):
+        super().__init__()
+
+        self.dw_conv = nn.Conv1d(
+            input_dim,
+            input_dim * depthwise_multiplier,
+            kernel_size,
+            1,
+            padding=padding,
+            groups=input_dim,
+        )
+
+        if depthwise_seperable_out_channel != 0:
+            self.pw_conv = nn.Conv1d(
+                input_dim * depthwise_multiplier,
+                depthwise_seperable_out_channel,
+                1,
+                1,
+                0,
+            )
+        else:
+            self.pw_conv = nn.Identity()
+        self.depthwise_seperable_out_channel = depthwise_seperable_out_channel
+
+    def forward(self, x):
+        """
+
+        Args:
+            x: torch.Tensor
+                input tensor
+        """
+        x = self.dw_conv(x)
+        if self.depthwise_seperable_out_channel != 0:
+            x = self.pw_conv(x)
+        return x
+
+
+class ConvModule(nn.Module):
+    """ConvModule Module for the conformer block.
+    for more details see:
+    https://arxiv.org/pdf/2005.08100v1.pdf
+
+    Args:
+        input_dim: int
+            input channel size.
+        ext_pw_out_channel: int
+            if > 0, ext_pw_out_channel is a dim channel size
+             for the last pointwise conv after swish activation.
+        depthwise_seperable_out_channel: int
+            if set different to 0, the number of
+             depthwise_seperable_out_channel
+             will be used as a channel_out of the second conv1d layer.
+             otherwise, it equal to 0, the second conv1d layer is skipped.
+        ext_pw_kernel_size: int
+            kernel size of the conv pointwise of the conformer.
+        kernel_size: int
+            kernel size.
+        depthwise_multiplier: int
+            number of input_dim channels duplication. this value
+             will be used to compute the hidden channels of the Conv1D.
+        dropout_rate: float
+            dropout rate.
+        causal: bool, optional
+            if set to True, convolution have no access
+             to future frames. default False.
+        batch_norm: bool, optional
+            if set to True, apply batchnorm before activation.
+            default False
+        chunk_se: int, optional
+            0 for offline SE.
+            1 for streaming SE, where mean is computed
+             by accumulated history until current chunk_se.
+            2 for streaming SE, where mean is computed
+             by only the current chunk.
+        chunk_size: int, optional
+            chunk size for cnn. default 18
+        activation: str, optional
+            activation function used in ConvModule,
+            default: "relu".
+        glu_type: str, optional
+            activation function used for the glu,
+            default: "sigmoid".
+        bias_in_glu: bool, optional
+            if set to True, use additive bias in the weight module
+             before GLU.
+        linear_glu_in_convm: bool, optional
+            if set to True, use GLULinear module,
+             otherwise, used GLUPointWiseConv module.
+              default to False.
+        export: bool, optional,
+            if set to True, padding is equal to 0.  This is for inference,
+             or onnx export.  Typically this is set by the export program or
+             the decoder program, and it isn't present in your config file.
+             default False
+    """
+
+    def __init__(
+        self,
+        input_dim,
+        ext_pw_out_channel,
+        depthwise_seperable_out_channel,
+        ext_pw_kernel_size,
+        kernel_size,
+        depthwise_multiplier,
+        dropout_rate,
+        causal=False,
+        batch_norm=False,
+        chunk_se=0,
+        chunk_size=18,
+        activation="relu",
+        glu_type="sigmoid",
+        bias_in_glu=True,
+        linear_glu_in_convm=False,
+        export=False,
+    ):
+        super().__init__()
+        self.layer_norm = nn.LayerNorm(input_dim)
+        self.input_dim = input_dim
+        self.ext_pw_out_channel = ext_pw_out_channel
+        self.ext_pw_kernel_size = ext_pw_kernel_size
+        self.depthwise_seperable_out_channel = depthwise_seperable_out_channel
+        self.glu_type = glu_type
+        self.bias_in_glu = bias_in_glu
+        self.linear_glu_in_convm = linear_glu_in_convm
+        self.causal = causal
+
+        self._add_ext_pw_layer()
+
+        self.batch_norm = batch_norm
+        self.kernel_size = kernel_size
+
+        if batch_norm:
+            self.bn_layer = nn.BatchNorm1d(input_dim)
+
+        self.act = get_activation(activation)
+        self.dropout = nn.Dropout(dropout_rate)
+        self.export = export
+
+        if causal:
+            padding = 0 if export else kernel_size - 1
+        else:
+            padding = (kernel_size - 1) // 2
+
+        self.dw_sep_conv_1d = DepthWiseSeperableConv1d(
+            input_dim,
+            depthwise_seperable_out_channel,
+            kernel_size,
+            depthwise_multiplier,
+            padding=padding,
+        )
+
+        if depthwise_seperable_out_channel != 0:
+            if input_dim != depthwise_seperable_out_channel:
+                self.ln2 = nn.Linear(depthwise_seperable_out_channel, input_dim)
+        else:
+            if depthwise_multiplier != 1:
+                self.ln2 = nn.Linear(input_dim * depthwise_multiplier, input_dim)
+
+    def _add_ext_pw_layer(self):
+        """
+        This function is an extension of __init__ function
+        and dedicated to the convolution module creation
+        of the conformer.
+        """
+        self.ln1 = self.glu = self.bn_layer = self.ext_pw_conv_1d = (
+            nn.Identity()
+        )  # jit hacks.
+        self.squeeze_excitation = nn.Identity()  # jit.
+        self.apply_ln1 = self.fix_len1 = False  # jit.
+
+        if self.ext_pw_out_channel != 0:
+            if self.causal:
+                self.ext_pw_conv_1d = nn.Conv1d(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.ext_pw_kernel_size,
+                    1,
+                    padding=(self.ext_pw_kernel_size - 1),
+                )
+                if self.ext_pw_kernel_size > 1:
+                    self.fix_len1 = True
+                else:
+                    self.fix_len1 = False
+            else:
+                self.ext_pw_conv_1d = nn.Conv1d(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.ext_pw_kernel_size,
+                    1,
+                    padding=(self.ext_pw_kernel_size - 1) // 2,
+                )
+                self.fix_len1 = False
+
+            if self.linear_glu_in_convm:
+                self.glu = GLULinear(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.glu_type,
+                    self.bias_in_glu,
+                )
+            else:
+                self.glu = GLUPointWiseConv(
+                    self.input_dim,
+                    self.ext_pw_out_channel,
+                    self.ext_pw_kernel_size,
+                    self.glu_type,
+                    self.bias_in_glu,
+                    self.causal,
+                )
+
+            if self.input_dim != self.ext_pw_out_channel:
+                self.apply_ln1 = True
+                self.ln1 = nn.Linear(self.ext_pw_out_channel, self.input_dim)
+            else:
+                self.apply_ln1 = False
+        else:
+            self.pw_conv_simplify_w = torch.nn.Parameter(torch.ones(3))
+            self.pw_conv_simplify_b = torch.nn.Parameter(torch.zeros(3))
+
+    def forward(self, x):
+        """ConvModule Forward.
+
+        Args:
+            x: torch.Tensor
+                input tensor.
+        """
+        x = self.layer_norm(x)
+
+        if self.ext_pw_out_channel != 0:
+            x = self.glu(x)
+            if self.causal and self.ext_pw_kernel_size > 1:
+                x = x[:, : -(self.ext_pw_kernel_size - 1), :]
+            if self.apply_ln1:
+                x = self.ln1(x)
+        else:
+            x_0 = x * self.pw_conv_simplify_w[0] + self.pw_conv_simplify_b[0]
+            x_1 = x * self.pw_conv_simplify_w[1] + self.pw_conv_simplify_b[1]
+            x = x_0 + x_1
+
+        x = x.permute([0, 2, 1])
+
+        x = self.dw_sep_conv_1d(x)
+        if self.causal and self.kernel_size > 1:
+            x = x[:, :, : -(self.kernel_size - 1)]
+        if hasattr(self, "ln2"):
+            x = x.permute([0, 2, 1])
+            x = self.ln2(x)
+            x = x.permute([0, 2, 1])
+        if self.batch_norm:
+            x = self.bn_layer(x)
+        x = self.act(x)
+
+        if self.ext_pw_out_channel != 0:
+            x = self.ext_pw_conv_1d(x)
+            if self.fix_len1:
+                x = x[:, :, : -(self.ext_pw_kernel_size - 1)]
+
+            if self.apply_ln1:
+                x = x.permute([0, 2, 1])
+                x = self.ln1(x)
+                x = x.permute([0, 2, 1])
+
+            x = x.permute([0, 2, 1])
+        else:
+            x = x.unsqueeze(1).permute([0, 1, 3, 2])
+            x = x * self.pw_conv_simplify_w[2] + self.pw_conv_simplify_b[2]
+            x = x.squeeze(1)
+
+        x = self.dropout(x)
+        return x
+
+
+class GLULinear(nn.Module):
+    """Linear + GLU module
+
+    Args:
+        input_dim: int
+            input size
+        output_dim: int
+            output size.
+        glu_type:
+            activation function name used in glu module.
+            default "sigmoid" (swish function).
+        bias_in_glu: bool, optional
+            If True, the addtive bias is added. Default False.
+    """
+
+    def __init__(
+        self,
+        input_dim,
+        output_dim,
+        glu_type="sigmoid",
+        bias_in_glu=True,
+    ):
+        super().__init__()
+        self.linear = nn.Linear(input_dim, output_dim * 2, bias_in_glu)
+        self.glu_act = GLU(-1, glu_type)
+
+    def forward(self, x):
+        """GLULinear forward
+
+        Args:
+            x: torch.Tensor
+                inpute tensor.
+        """
+        x = self.linear(x)
+        return self.glu_act(x)
+
+
+class FeedForward(nn.Module):
+    """FeedForward Module.
+    For more details see Conformer paper:
+        https://arxiv.org/pdf/2005.08100.pdf
+
+    Args:
+        d_model: int
+            input size.
+        d_inner: int
+            output size.
+        dropout_rate: float,
+            dropout rate.
+        activation: str,
+            activation function name,
+            one of ["relu", "swish", "sigmoid"],
+            sigmoid activation is only used with "glu_in_fnn=True",
+            default "sigmoid".
+        bias_in_glu: bool, optional
+    """
+
+    def __init__(
+        self,
+        d_model,
+        d_inner,
+        dropout_rate,
+        activation="sigmoid",
+        bias_in_glu=True,
+    ):
+        super().__init__()
+        self.d_model = d_model
+        self.d_inner = d_inner
+
+        self.layer_norm = nn.LayerNorm(d_model)
+        module = GLULinear(d_model, d_inner, activation, bias_in_glu)
+        self.net = nn.Sequential(
+            module,
+            nn.Dropout(dropout_rate),
+            nn.Linear(d_inner, d_model),
+            nn.Dropout(dropout_rate),
+        )
+
+    def forward(self, x):
+        """FeedForward forward function.
+
+        Args:
+            x: torch.Tensor
+                input tensor.
+        """
+        out = self.net(self.layer_norm(x))
+
+        return out
+
+
+#### positional encoding starts here
+def _pre_hook(
+    state_dict,
+    prefix,
+    local_metadata,
+    strict,
+    missing_keys,
+    unexpected_keys,
+    error_msgs,
+):
+    """Perform pre-hook in load_state_dict for backward compatibility.
+
+    Note:
+        We saved self.pe until v.0.5.2 but we have omitted it later.
+        Therefore, we remove the item "pe" from `state_dict` for backward
+        compatibility.
+
+    """
+    k = prefix + "pe"
+    if k in state_dict:
+        state_dict.pop(k)
+
+
+class T5RelativeAttentionLogitBias(nn.Module):
+    """
+    This module implements the relative position bias described in Section
+    2.1 of the T5 paper: https://arxiv.org/pdf/1910.10683.pdf
+
+    The Huggingface implementation is used as a reference
+    https://github.com/huggingface/transformers/blob/v4.30.0/src/
+    transformers/models/t5/modeling_t5.py#L435
+
+    Modifies attention as Q*K^T + B, where B is a learned scalar bias based
+    on relative position of the query and key. It is HxNxN, where H is the
+    number of heads, N is the sequence length.
+
+    I've made these modifications to the original T5 bias:
+    - Skipping of the bucketing step. Original T5 bias converted rel
+      position distances into logarithmically increasing buckets. This is
+      supposed to help with length generalization.
+    - I just directly use rel position index as bias values, as we don't
+      need length generalization (40s max is good enough for ASR encoder),
+      and it keeps ONNX export simple.
+    - I've also extended it so that biases can be asymmetric, the default
+      implementation treats L->R and R->L the same. Asymmetric was found to
+      yield better results in my experiments.
+
+    Args:
+        num_heads: int
+            Number of attention heads
+        num_buckets: int
+            Number of buckets to use for relative attention bias. This is the
+            size of the learnable bias parameter. Bucketing is not yet
+            supported, so this defaults to -1 which means no bucketing is
+            used (max_distance determines size of bias param).
+        max_distance: int
+            Maximum distance to use for relative attention bias. With
+            num_buckets=-1, this directly controls the max size of the bias
+            parameter. When num_buckets > 0 is supported, this will control
+            the maximum distance for logarithmic bucketing after which all
+            positions are in the same bucket.
+        symmetric: bool
+            Whether to use symmetric or asymmetric biases. symmetric=False uses
+            2x number of bias params to distinguish L->R from R->L. This was
+            found to be better for the encoder.
+    """
+
+    def __init__(self, num_heads, num_buckets=-1, max_distance=1000, symmetric=False):
+        super().__init__()
+        self.num_heads = num_heads
+        self.num_buckets = num_buckets
+        self.max_distance = max_distance
+        self.symmetric = symmetric
+        self._skip_bucketing = self.num_buckets < 0
+        if self._skip_bucketing:
+            self.num_buckets = max_distance
+        else:
+            raise NotImplementedError(
+                "T5 attention bias with bucketed positions is not yet tested"
+            )
+        if not self.symmetric:
+            self.num_buckets *= 2
+        self.bias_values = nn.Embedding(self.num_buckets, self.num_heads)
+
+    def forward(self, x):
+        # instantiate bias compatible with shape of x
+        maxpos = x.size(1)
+        context_position = torch.arange(maxpos, device=x.device, dtype=torch.long)[
+            :, None
+        ]
+        memory_position = torch.arange(maxpos, device=x.device, dtype=torch.long)[
+            None, :
+        ]
+        relative_position = memory_position - context_position
+        # clipping to a maximum distance using ops that play well with ONNX
+        # export
+        relative_position = relative_position.masked_fill(
+            relative_position < -self.max_distance, -self.max_distance
+        )
+        relative_position = relative_position.masked_fill(
+            relative_position > self.max_distance - 1, self.max_distance - 1
+        )
+
+        # mapping from relative position to index in the bias parameter
+        if self._skip_bucketing:
+            bias_idx = relative_position
+        else:
+            bias_idx = self._bucket_relative_position(relative_position)
+        if self.symmetric:
+            bias_idx = bias_idx.abs()
+        else:
+            bias_idx += self.num_buckets // 2
+
+        t5_rel_att_bias = self.bias_values(bias_idx)  # [L, L, H]
+        t5_rel_att_bias = t5_rel_att_bias.permute(2, 0, 1).unsqueeze(0)  # [1, H, L, L]
+
+        return t5_rel_att_bias
+
+    def _bucket_relative_position(self, relative_position):
+        # this is a placeholder (isn't tested, likely buggy) using HuggingFace
+        # implem as a reference this also needs to be extended to support
+        # asymmetric +/- ve positions
+        relative_buckets = 0
+        if not self.causal:
+            self.num_buckets //= 2
+            relative_buckets += (relative_position > 0).to(
+                torch.long
+            ) * self.num_buckets
+            relative_position = torch.abs(relative_position)
+        else:
+            relative_position = -torch.min(
+                relative_position, torch.zeros_like(relative_position)
+            )
+        # now relative_position is in the range [0, inf)
+
+        # half of the buckets are for exact increments in positions
+        max_exact = self.num_buckets // 2
+        is_small = relative_position < max_exact
+
+        # The other half of the buckets are for logarithmically bigger bins in
+        # positions up to max_distance
+        relative_position_if_large = max_exact + (
+            torch.log(relative_position.float() / max_exact)
+            / math.log(self.max_distance / max_exact)
+            * (self.num_buckets - max_exact)
+        ).to(torch.long)
+        relative_position_if_large = torch.min(
+            relative_position_if_large,
+            torch.full_like(relative_position_if_large, self.num_buckets - 1),
+        )
+
+        relative_buckets += torch.where(
+            is_small, relative_position, relative_position_if_large
+        )
+        return relative_buckets
+
+
+class AbsolutePositionalEncoding(nn.Module):
+    """Absolute Positional encoding module.
+    This module implement Absolute sinusoidal positional encoding
+    from: https://arxiv.org/pdf/1706.03762.pdf
+
+    Args:
+        d_model: int
+            Input embedding size.
+        dropout_rate: float
+            dropout rate
+        max_len: int, optional
+            Maximum input length sequence, Default 5000
+
+    """
+
+    def __init__(self, d_model, dropout_rate, max_len=5000):
+        """Construct an PositionalEncoding object."""
+        super().__init__()
+        self.d_model = d_model
+        self.xscale = math.sqrt(self.d_model)
+        self.dropout = torch.nn.Dropout(p=dropout_rate)
+        self.pe = None
+        self.extend_pe(torch.tensor(0.0).expand(1, max_len))
+        self._register_load_state_dict_pre_hook(_pre_hook)
+
+    def extend_pe(self, x):
+        """Reset the positional encodings.
+
+        Args:
+            x: torch.Tensor
+        """
+        if self.pe is not None and self.pe.size(1) >= x.size(1):
+            if self.pe.dtype != x.dtype or self.pe.device != x.device:
+                self.pe = self.pe.to(dtype=x.dtype, device=x.device)
+            return
+        pe = torch.zeros(x.size(1), self.d_model)
+        position = torch.arange(0, x.size(1), dtype=torch.float32).unsqueeze(1)
+        div_term = torch.exp(
+            torch.arange(0, self.d_model, 2, dtype=torch.float32)
+            * -(math.log(10000.0) / self.d_model)
+        )
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0)
+        self.pe = pe.to(device=x.device, dtype=x.dtype)
+
+    def forward(self, x: torch.Tensor):
+        """Add positional encoding.
+
+        Args:
+            x: torch.Tensor
+                Input tensor. shape is (batch, time, ...)
+
+        Returns:
+            torch.Tensor: Encoded tensor. Its shape is (batch, time, ...)
+
+        """
+        self.extend_pe(x)
+        x = x * self.xscale + self.pe[:, : x.size(1)]
+        return self.dropout(x)
+
+
+#### forward embedding layers starts here
+class MeanVarianceNormLayer(nn.Module):
+    """Mean/variance normalization layer.
+
+    Will subtract mean and multiply input by inverted standard deviation.
+    Typically used as a very first layer in a model.
+
+    Args:
+        input_size: int
+            layer input size.
+    """
+
+    def __init__(self, input_size):
+        super().__init__()
+        self.input_size = input_size
+        self.global_mean = nn.Parameter(torch.zeros(input_size))
+        self.global_invstd = nn.Parameter(torch.ones(input_size))
+
+    def forward(self, input_: Tensor) -> Tensor:
+        """MeanVarianceNormLayer Forward
+
+        Args:
+            input_: torch.Tensor
+                input tensor.
+        """
+        return (input_ - self.global_mean) * self.global_invstd
+
+
+class CausalConv1D(nn.Conv1d):
+    """
+    A causal version of nn.Conv1d where each step would have limited access to
+    locations on its right or left
+    All arguments are the same as nn.Conv1d except padding.
+
+    If padding is set None, then paddings are set automatically to make it a
+    causal convolution where each location would not see any steps on its right.
+
+    If padding is set as a list (size of 2), then padding[0] would be used as
+    left padding and padding[1] as right padding.
+    It would make it possible to control the number of steps to be accessible
+    on the right and left.
+    This mode is not supported when stride > 1. padding[0]+padding[1] should
+    be equal to (kernel_size - 1).
+    """
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int = 1,
+        padding: Union[str, int] = 0,
+        dilation: int = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        device=None,
+        dtype=None,
+    ) -> None:
+        self.cache_drop_size = None
+        if padding is None:
+            self._left_padding = kernel_size - 1
+            self._right_padding = stride - 1
+        else:
+            if stride != 1 and padding != kernel_size - 1:
+                raise ValueError("No striding allowed for non-symmetric convolutions!")
+            if isinstance(padding, int):
+                self._left_padding = padding
+                self._right_padding = padding
+            elif (
+                isinstance(padding, list)
+                and len(padding) == 2
+                and padding[0] + padding[1] == kernel_size - 1
+            ):
+                self._left_padding = padding[0]
+                self._right_padding = padding[1]
+            else:
+                raise ValueError(f"Invalid padding param: {padding}!")
+
+        self._max_cache_len = self._left_padding
+
+        super().__init__(
+            in_channels=in_channels,
+            out_channels=out_channels,
+            kernel_size=kernel_size,
+            stride=stride,
+            padding=0,
+            dilation=dilation,
+            groups=groups,
+            bias=bias,
+            padding_mode=padding_mode,
+            device=device,
+            dtype=dtype,
+        )
+
+    def update_cache(self, x, cache=None):
+        if cache is None:
+            new_x = F.pad(x, pad=(self._left_padding, self._right_padding))
+            next_cache = cache
+        else:
+            new_x = F.pad(x, pad=(0, self._right_padding))
+            new_x = torch.cat([cache, new_x], dim=-1)
+            if self.cache_drop_size > 0:
+                next_cache = new_x[:, :, : -self.cache_drop_size]
+            else:
+                next_cache = new_x
+            next_cache = next_cache[:, :, -cache.size(-1) :]
+        return new_x, next_cache
+
+    def forward(self, x, cache=None):
+        x, cache = self.update_cache(x, cache=cache)
+        x = super().forward(x)
+        if cache is None:
+            return x
+        else:
+            return x, cache
+
+
+class CausalConv2D(nn.Conv2d):
+    """
+    A causal version of nn.Conv2d where each location in the 2D matrix would
+    have no access to locations on its right or down
+    All arguments are the same as nn.Conv2d except padding which should be
+    set as None
+    """
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int = 1,
+        padding: Union[str, int] = 0,
+        dilation: int = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        device=None,
+        dtype=None,
+    ) -> None:
+        if padding is not None:
+            raise ValueError("Argument padding should be set to None for CausalConv2D.")
+        self._left_padding = kernel_size - 1
+        self._right_padding = stride - 1
+
+        padding = 0
+        super().__init__(
+            in_channels,
+            out_channels,
+            kernel_size,
+            stride,
+            padding,
+            dilation,
+            groups,
+            bias,
+            padding_mode,
+            device,
+            dtype,
+        )
+
+    def forward(
+        self,
+        x,
+    ):
+        x = F.pad(
+            x,
+            pad=(self._left_padding, self._right_padding, 0, 0),
+        )
+        x = super().forward(x)
+        return x
+
+
+class NemoConvSubsampling(torch.nn.Module):
+    """Convlutional subsampling module, taken from NeMo ASR
+    (https://github.com/NVIDIA/NeMo/blob/b367413645d5c72db3c2c96e46e95a
+    34501479cf/nemo/collections/asr/parts/submodules/subsampling.py)
+
+    Striding Subsampling: "Speech-Transformer: A No-Recurrence
+    Sequence-to-Sequence Model for Speech Recognition" by Linhao Dong
+    et al. (https://ieeexplore.ieee.org/document/8462506)
+
+
+    Compared with the EncoderConv2D (`input_layer: custom`), this is a
+    much simplified approach, and uses no LayerNorm and far fewer Conv2Ds.
+    Moreover, depthwise convolutions are used to reduce FLOPs, but the first
+      layer is kept as a regular convolution so as not to degrade accuracy.
+
+    `Striding` and `dw_striding` are the same except that the latter uses
+    depthwise convolutions after the first layer, whereas the former does not.
+
+    Args:
+        subsampling_factor (int): Time reduction factor
+        feat_in (int): size of the input features
+        feat_out (int): size of the output features
+        subsampling (str): The subsampling technique, choose from
+            {"striding", "dw-striding", "striding_conv1d",
+            "dw_striding_conv1d"}
+        conv_channels (int): Number of channels for the convolution layers,
+                            default is 256.
+        subsampling_conv_chunking_factor (int): Input chunking factor which
+            can be -1 (no chunking) 1 (auto) or a power of 2. Default is 1
+        activation (Module): activation function, default is nn.ReLU()
+        is_causal (bool): whether to use causal Conv1/2D, where each step will
+            have limited access to locations on its right or left
+    """
+
+    def __init__(
+        self,
+        feat_in,
+        feat_out,
+        subsampling_factor=4,
+        subsampling="dw_striding",
+        conv_channels=256,
+        subsampling_conv_chunking_factor=1,
+        activation=nn.ReLU(),  # noqa: B008
+        is_causal=False,
+    ):
+        super().__init__()
+        self._subsampling = subsampling
+        self._conv_channels = conv_channels
+        self._feat_in = feat_in
+        self._feat_out = feat_out
+
+        if subsampling_factor % 2 != 0:
+            raise ValueError("Sampling factor should be a multiply of 2!")
+        self._sampling_num = int(math.log(subsampling_factor, 2))
+        self.subsampling_factor = subsampling_factor
+        self.is_causal = is_causal
+        self.subsampling_causal_cond = subsampling in (
+            "dw_striding",
+            "striding",
+            "striding_conv1d",
+        )
+
+        if (
+            subsampling_conv_chunking_factor != -1
+            and subsampling_conv_chunking_factor != 1
+            and subsampling_conv_chunking_factor % 2 != 0
+        ):
+            raise ValueError(
+                "subsampling_conv_chunking_factor should be -1, 1, or a " "power of 2"
+            )
+        self.subsampling_conv_chunking_factor = subsampling_conv_chunking_factor
+
+        in_channels = 1
+        layers = []
+
+        if subsampling == "dw_striding":
+            self._stride = 2
+            self._kernel_size = 3
+            self._ceil_mode = False
+
+            if self.is_causal:
+                self._left_padding = self._kernel_size - 1
+                self._right_padding = self._stride - 1
+                self._max_cache_len = subsampling_factor + 1
+            else:
+                self._left_padding = (self._kernel_size - 1) // 2
+                self._right_padding = (self._kernel_size - 1) // 2
+                self._max_cache_len = 0
+
+            # Layer 1
+            if self.is_causal:
+                layers.append(
+                    CausalConv2D(
+                        in_channels=in_channels,
+                        out_channels=conv_channels,
+                        kernel_size=self._kernel_size,
+                        stride=self._stride,
+                        padding=None,
+                    )
+                )
+            else:
+                layers.append(
+                    torch.nn.Conv2d(
+                        in_channels=in_channels,
+                        out_channels=conv_channels,
+                        kernel_size=self._kernel_size,
+                        stride=self._stride,
+                        padding=self._left_padding,
+                    )
+                )
+            in_channels = conv_channels
+            layers.append(activation)
+
+            for i in range(self._sampling_num - 1):
+                if self.is_causal:
+                    layers.append(
+                        CausalConv2D(
+                            in_channels=in_channels,
+                            out_channels=in_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=None,
+                            groups=in_channels,
+                        )
+                    )
+                else:
+                    layers.append(
+                        torch.nn.Conv2d(
+                            in_channels=in_channels,
+                            out_channels=in_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                            groups=in_channels,
+                        )
+                    )
+
+                layers.append(
+                    torch.nn.Conv2d(
+                        in_channels=in_channels,
+                        out_channels=conv_channels,
+                        kernel_size=1,
+                        stride=1,
+                        padding=0,
+                        groups=1,
+                    )
+                )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        elif subsampling == "striding":
+            self._stride = 2
+            self._kernel_size = 3
+            self._ceil_mode = False
+
+            if self.is_causal:
+                self._left_padding = self._kernel_size - 1
+                self._right_padding = self._stride - 1
+                self._max_cache_len = subsampling_factor + 1
+            else:
+                self._left_padding = (self._kernel_size - 1) // 2
+                self._right_padding = (self._kernel_size - 1) // 2
+                self._max_cache_len = 0
+
+            for i in range(self._sampling_num):
+                if self.is_causal:
+                    layers.append(
+                        CausalConv2D(
+                            in_channels=in_channels,
+                            out_channels=conv_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=None,
+                        )
+                    )
+                else:
+                    layers.append(
+                        torch.nn.Conv2d(
+                            in_channels=in_channels,
+                            out_channels=conv_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                        )
+                    )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        elif subsampling == "striding_conv1d":
+            in_channels = feat_in
+
+            self._stride = 2
+            self._kernel_size = 5
+            self._ceil_mode = False
+
+            if self.is_causal:
+                self._left_padding = self._kernel_size - 1
+                self._right_padding = self._stride - 1
+                self._max_cache_len = subsampling_factor + 1
+            else:
+                self._left_padding = (self._kernel_size - 1) // 2
+                self._right_padding = (self._kernel_size - 1) // 2
+                self._max_cache_len = 0
+
+            for i in range(self._sampling_num):
+                if self.is_causal:
+                    layers.append(
+                        CausalConv1D(
+                            in_channels=in_channels,
+                            out_channels=(
+                                feat_out
+                                if self._sampling_num == i + 1
+                                else conv_channels
+                            ),
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=None,
+                        )
+                    )
+                else:
+                    layers.append(
+                        torch.nn.Conv1d(
+                            in_channels=in_channels,
+                            out_channels=(
+                                feat_out
+                                if self._sampling_num == i + 1
+                                else conv_channels
+                            ),
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                        )
+                    )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        elif subsampling == "dw_striding_conv1d":
+            in_channels = feat_in
+
+            self._stride = 2
+            self._kernel_size = 5
+            self._ceil_mode = False
+
+            self._left_padding = (self._kernel_size - 1) // 2
+            self._right_padding = (self._kernel_size - 1) // 2
+
+            # Layer 1
+            layers.extend(
+                [
+                    torch.nn.Conv1d(
+                        in_channels=in_channels,
+                        out_channels=in_channels,
+                        kernel_size=self._kernel_size,
+                        stride=self._stride,
+                        padding=self._left_padding,
+                        groups=in_channels,
+                    ),
+                    torch.nn.Conv1d(
+                        in_channels=in_channels,
+                        out_channels=(
+                            feat_out if self._sampling_num == 1 else conv_channels
+                        ),
+                        kernel_size=1,
+                        stride=1,
+                        padding=0,
+                        groups=1,
+                    ),
+                ]
+            )
+            in_channels = conv_channels
+            layers.append(activation)
+
+            for i in range(self._sampling_num - 1):
+                layers.extend(
+                    [
+                        torch.nn.Conv1d(
+                            in_channels=in_channels,
+                            out_channels=in_channels,
+                            kernel_size=self._kernel_size,
+                            stride=self._stride,
+                            padding=self._left_padding,
+                            groups=in_channels,
+                        ),
+                        torch.nn.Conv1d(
+                            in_channels=in_channels,
+                            out_channels=(
+                                feat_out
+                                if self._sampling_num == i + 2
+                                else conv_channels
+                            ),
+                            kernel_size=1,
+                            stride=1,
+                            padding=0,
+                            groups=1,
+                        ),
+                    ]
+                )
+                layers.append(activation)
+                in_channels = conv_channels
+
+        else:
+            raise ValueError(f"Not valid sub-sampling: {subsampling}!")
+
+        if subsampling in ["dw_striding", "striding"]:
+            in_length = torch.tensor(feat_in, dtype=torch.float)
+            out_length = calc_length(
+                lengths=in_length,
+                all_paddings=self._left_padding + self._right_padding,
+                kernel_size=self._kernel_size,
+                stride=self._stride,
+                ceil_mode=self._ceil_mode,
+                repeat_num=self._sampling_num,
+            )
+            self.out = torch.nn.Linear(conv_channels * int(out_length), feat_out)
+            self.conv2d_subsampling = True
+        elif subsampling in ["striding_conv1d", "dw_striding_conv1d"]:
+            self.out = None
+            self.conv2d_subsampling = False
+        else:
+            raise ValueError(f"Not valid sub-sampling: {subsampling}!")
+
+        self.conv = torch.nn.Sequential(*layers)
+
+    def get_sampling_frames(self):
+        return [1, self.subsampling_factor]
+
+    def get_streaming_cache_size(self):
+        return [0, self.subsampling_factor + 1]
+
+    def forward(self, x, mask):
+        """
+        Forward method for NeMo subsampling.
+
+        Args:
+            x[Batch, Time, Filters]: torch.Tensor
+                input tensor
+            x_mask: torch.Tensor
+                input mask
+
+        Returns:
+            x: torch.Tensor
+                Resulting tensor from subsampling (B, T //
+                time_reduction_factor, feat_out)
+            pad_mask: torch.Tensor
+                tensor of padded hidden state sequences (B, 1, T //
+                time_reduction_factor)
+        """
+        x = x.unsqueeze(1) if self.conv2d_subsampling else x.transpose(1, 2)
+
+        # split inputs if chunking_factor is set
+        if self.subsampling_conv_chunking_factor != -1 and self.conv2d_subsampling:
+            if self.subsampling_conv_chunking_factor == 1:
+                # if subsampling_conv_chunking_factor is 1, we split only
+                # if needed.
+                # avoiding a bug / feature limiting indexing of tensors
+                # to 2**31.
+                # see https://github.com/pytorch/pytorch/issues/80020
+                x_ceil = 2**31 / self._conv_channels * self._stride * self._stride
+                need_to_split = torch.numel(x) > x_ceil
+            else:
+                # if subsampling_conv_chunking_factor > 1 we always split
+                need_to_split = True
+
+            if need_to_split:
+                x, success = self.conv_split_by_batch(x)
+                if not success:  # if unable to split by batch, try by channel
+                    if self._subsampling == "dw_striding":
+                        x = self.conv_split_by_channel(x)
+                    else:
+                        x = self.conv(x)  # try anyway
+            else:
+                x = self.conv(x)
+        else:
+            x = self.conv(x)
+
+        # Flatten Channel and Frequency Axes
+        if self.conv2d_subsampling:
+            b, c, t, f = x.size()
+            x = self.out(x.transpose(1, 2).reshape(b, t, -1))
+        # Transpose to Channel Last mode
+        else:
+            x = x.transpose(1, 2)
+
+        if mask is None:
+            return x, None
+
+        max_audio_length = x.shape[1]
+        feature_lens = mask.sum(1)
+        padding_length = torch.ceil(feature_lens / self.subsampling_factor)
+        if self.is_causal and self.subsampling_causal_cond:
+            feature_lens_remainder = feature_lens % self.subsampling_factor
+            padding_length[feature_lens_remainder != 1] += 1
+        pad_mask = torch.arange(0, max_audio_length, device=x.device).expand(
+            padding_length.size(0), -1
+        ) < padding_length.unsqueeze(1)
+        return x, pad_mask.unsqueeze(1)
+
+    def reset_parameters(self):
+        # initialize weights
+        if self._subsampling == "dw_striding":
+            with torch.no_grad():
+                # init conv
+                scale = 1.0 / self._kernel_size
+                dw_max = (self._kernel_size**2) ** -0.5
+                pw_max = self._conv_channels**-0.5
+
+                torch.nn.init.uniform_(self.conv[0].weight, -scale, scale)
+                torch.nn.init.uniform_(self.conv[0].bias, -scale, scale)
+
+                for idx in range(2, len(self.conv), 3):
+                    torch.nn.init.uniform_(self.conv[idx].weight, -dw_max, dw_max)
+                    torch.nn.init.uniform_(self.conv[idx].bias, -dw_max, dw_max)
+                    torch.nn.init.uniform_(self.conv[idx + 1].weight, -pw_max, pw_max)
+                    torch.nn.init.uniform_(self.conv[idx + 1].bias, -pw_max, pw_max)
+
+                # init fc (80 * 64 = 5120 from https://github.com/kssteven418/
+                # Squeezeformer/blob/13c97d6cf92f2844d2cb3142b4c5bfa9ad1a8951/
+                # src/models/conformer_encoder.py#L487
+                fc_scale = (self._feat_out * self._feat_in / self._sampling_num) ** -0.5
+                torch.nn.init.uniform_(self.out.weight, -fc_scale, fc_scale)
+                torch.nn.init.uniform_(self.out.bias, -fc_scale, fc_scale)
+
+    def conv_split_by_batch(self, x):
+        """Tries to split input by batch, run conv and concat results"""
+        b, _, _, _ = x.size()
+        if b == 1:  # can't split if batch size is 1
+            return x, False
+
+        if self.subsampling_conv_chunking_factor > 1:
+            cf = self.subsampling_conv_chunking_factor
+        else:
+            # avoiding a bug / feature limiting indexing of tensors to 2**31
+            # see https://github.com/pytorch/pytorch/issues/80020
+            x_ceil = 2**31 / self._conv_channels * self._stride * self._stride
+            p = math.ceil(math.log(torch.numel(x) / x_ceil, 2))
+            cf = 2**p
+
+        new_batch_size = b // cf
+        if new_batch_size == 0:  # input is too big
+            return x, False
+
+        return (
+            torch.cat(
+                [self.conv(chunk) for chunk in torch.split(x, new_batch_size, 0)]
+            ),
+            True,
+        )
+
+    def conv_split_by_channel(self, x):
+        """For dw convs, tries to split input by time, run conv and concat
+        results"""
+        x = self.conv[0](x)  # full conv2D
+        x = self.conv[1](x)  # activation
+
+        for i in range(self._sampling_num - 1):
+            _, c, t, _ = x.size()
+
+            if self.subsampling_conv_chunking_factor > 1:
+                cf = self.subsampling_conv_chunking_factor
+            else:
+                # avoiding a bug / feature limiting indexing of tensors
+                # to 2**31
+                # see https://github.com/pytorch/pytorch/issues/80020
+                p = math.ceil(math.log(torch.numel(x) / 2**31, 2))
+                cf = 2**p
+
+            new_c = int(c // cf)
+            if new_c == 0:
+                new_c = 1
+
+            new_t = int(t // cf)
+            if new_t == 0:
+                new_t = 1
+
+            x = self.channel_chunked_conv(
+                self.conv[i * 3 + 2], new_c, x
+            )  # conv2D, depthwise
+
+            # splitting pointwise convs by time
+            x = torch.cat(
+                [self.conv[i * 3 + 3](chunk) for chunk in torch.split(x, new_t, 2)],
+                2,
+            )  # conv2D, pointwise
+            x = self.conv[i * 3 + 4](x)  # activation
+        return x
+
+    def channel_chunked_conv(self, conv, chunk_size, x):
+        """Performs channel chunked convolution"""
+
+        ind = 0
+        out_chunks = []
+        for chunk in torch.split(x, chunk_size, 1):
+            step = chunk.size()[1]
+
+            if self.is_causal:
+                chunk = nn.functional.pad(
+                    chunk,
+                    pad=(
+                        self._kernel_size - 1,
+                        self._stride - 1,
+                        self._kernel_size - 1,
+                        self._stride - 1,
+                    ),
+                )
+                ch_out = nn.functional.conv2d(
+                    chunk,
+                    conv.weight[ind : ind + step, :, :, :],
+                    bias=conv.bias[ind : ind + step],
+                    stride=self._stride,
+                    padding=0,
+                    groups=step,
+                )
+            else:
+                ch_out = nn.functional.conv2d(
+                    chunk,
+                    conv.weight[ind : ind + step, :, :, :],
+                    bias=conv.bias[ind : ind + step],
+                    stride=self._stride,
+                    padding=self._left_padding,
+                    groups=step,
+                )
+            out_chunks.append(ch_out)
+            ind += step
+
+        return torch.cat(out_chunks, 1)
+
+    def change_subsampling_conv_chunking_factor(
+        self, subsampling_conv_chunking_factor: int
+    ):
+        if (
+            subsampling_conv_chunking_factor != -1
+            and subsampling_conv_chunking_factor != 1
+            and subsampling_conv_chunking_factor % 2 != 0
+        ):
+            raise ValueError(
+                "subsampling_conv_chunking_factor should be -1, 1, or a " "power of 2"
+            )
+        self.subsampling_conv_chunking_factor = subsampling_conv_chunking_factor
+
+
+def calc_length(lengths, all_paddings, kernel_size, stride, ceil_mode, repeat_num=1):
+    """Calculates the output length of a Tensor passed through a convolution or
+    max pooling layer"""
+    add_pad: float = all_paddings - kernel_size
+    one: float = 1.0
+    for i in range(repeat_num):
+        lengths = torch.div(lengths.to(dtype=torch.float) + add_pad, stride) + one
+        lengths = torch.ceil(lengths) if ceil_mode else torch.floor(lengths)
+    return lengths.to(dtype=torch.int)
+
+
+####  multihead attention starts here
+class AttModule(nn.Module):
+    """Attention abstraction module"""
+
+    def __init__(self):
+        super().__init__()
+        self.export_mode = False
+
+    def set_export(self, mode=True):
+        """set the export mode"""
+        self.export_mode = mode
+
+    def forward(
+        self,
+        x: Tensor,
+        memory: Optional[Tensor] = None,
+        pos_emb: Optional[Tensor] = None,
+        att_mask: Optional[Tensor] = None,
+    ) -> tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:
+        """AttModule forward
+
+        Args:
+            x: torch.Tensor
+                input tensor.
+            memory: torch.Tensor, optional
+                memory tensor.
+            pos_emb: torch.Tensor, optional
+                positional encoder embedding.
+            att_mask: torch.Tensor, optional
+                attention mask tensor.
+        """
+        return x, memory, pos_emb, att_mask
+
+
+class AttBlock(BlockBase, AttModule):
+    """Attention Block module to support both Attention and Block module."""
+
+    def memory_dims(self, max_len=False):
+        """memory dimensions"""
+        return (1, self.input_size)
+
+
+def masked_softmax(
+    scores,
+    mask: Optional[Tensor],
+):
+    if mask is not None:
+        mask = mask.unsqueeze(1).eq(0)  # (batch, 1, time1, time2)
+        scores = scores.masked_fill(mask, -torch.inf)
+        attn = torch.softmax(scores, dim=-1).masked_fill(
+            mask, 0.0
+        )  # (batch, head, time1, time2)
+    else:
+        attn = torch.softmax(scores, dim=-1)  # (batch, head, time1, time2)
+    return attn
+
+
+class MultiHeadedAttention(nn.Module):
+    """Multi-Head Attention layer with optional relative position embedding
+    and GLU.
+
+    Args:
+        n_head: int
+            the number of heads.
+        n_feat: int
+            input size features.
+        dropout_rate: float
+            dropout rate.
+        use_LN: bool
+            apply layer norm or not
+        dropout_at_output: bool
+            whether to apply dropout at output
+        attention_inner_dim: int, optional
+            the attention dimension used in the class,
+            it can be different from the input dimension n_feat.
+            default: -1 (equal to n_feat).
+        use_pt_scaled_dot_product_attention: bool, optional
+            if set True, use pytorch scaled dot product attention in training.
+            NOTE: this will NOT be used in ONNX decoding due to a lack of
+            support.  In that case, we use the original attention
+            implementation, which shows no regression.
+            default: False.
+        n_value: int, optional
+            if set to values other than -1, use a different dimension for
+            value. With the default value (i.e. -1), it is backward compatible.
+        group_size: int, optional. must divide `n_head`
+            if group_size > 1:       GQA
+            if group_size = 1:       MHA
+            if group_size = n_head:  MQA
+    """
+
+    inv_sqrt_d_k: torch.jit.Final[float]
+    h: torch.jit.Final[int]
+    h_k: torch.jit.Final[int]
+    g: torch.jit.Final[int]
+
+    def __init__(
+        self,
+        n_head,
+        n_feat,
+        dropout_rate,
+        attention_inner_dim=-1,
+        glu_type="swish",
+        bias_in_glu=True,
+        use_pt_scaled_dot_product_attention=False,
+        n_value=-1,
+        group_size: int = 1,
+    ):
+        super().__init__()
+        if n_value == -1:
+            n_value = n_feat
+        if attention_inner_dim == -1:
+            attention_inner_dim = n_feat
+        assert attention_inner_dim % n_head == 0
+
+        # We assume d_v always equals d_k
+        self.d_k = attention_inner_dim // n_head
+        self.inv_sqrt_d_k = 1.0 / math.sqrt(self.d_k)
+        self.h = n_head
+        assert n_head % group_size == 0, "group_size must divide n_head"
+        self.g = group_size
+        self.h_k = n_head // group_size
+
+        self.linear_q = nn.Linear(n_feat, attention_inner_dim)
+        self.linear_k = nn.Linear(n_feat, attention_inner_dim // group_size)
+        self.linear_v = nn.Linear(n_value, attention_inner_dim // group_size)
+        self.linear_out = nn.Linear(attention_inner_dim // group_size, n_value)
+
+        self.attn = torch.jit.Attribute(None, Optional[Tensor])
+        self.dropout = nn.Dropout(p=dropout_rate)
+        self.dropout_rate = dropout_rate
+        self.use_pt_scaled_dot_product_attention = use_pt_scaled_dot_product_attention
+
+        if use_pt_scaled_dot_product_attention and group_size > 1:
+            raise ValueError("Cannot use PT Scaled Attention with GQA")
+
+        # Torchscript eager quantization.  Note that these functions below are
+        # NOOPs and have very little impact on performance unless quantization
+        # is enabled.
+        self.quant_q = torch.ao.quantization.QuantStub()
+        self.quant_x = torch.ao.quantization.QuantStub()
+        self.dequant = torch.ao.quantization.DeQuantStub()
+        self.ffunc = torch.ao.nn.quantized.FloatFunctional()
+
+    def forward(
+        self,
+        query: Tensor,
+        key: Tensor,
+        value: Tensor,
+        pos_k: Tensor,
+        pos_v: Tensor,
+        mask: Optional[Tensor],
+        relative_attention_bias: Optional[Tensor] = None,
+    ):
+        """Compute 'Scaled Dot Product Attention'.
+
+        Args:
+            query: torch.Tensor
+                query tensor (batch, time1, size)
+            key: torch.Tensor
+                key tensor (batch, time2, size)
+            value: torch.Tensor
+                value tensor (batch, time1, size)
+            pos_k: torch.Tensor
+                key tensor used for relative positional embedding.
+            pos_v: torch.Tensor
+                value tensor used for relative positional embedding.
+            mask: torch.Tensor
+                mask tensor (batch, time1, time2)
+            relative_attention_bias: torch.Tensor
+                bias added to attention logits w.r.t. relative positions
+                (1, n_head, time1, time2)
+        """
+        n_batch = query.size(0)
+
+        q = self.linear_q(query).view(n_batch, -1, self.h, self.d_k)  # (b, t, d)
+        k = self.linear_k(key).view(n_batch, -1, self.h_k, self.d_k)  # (b, t, d)
+        v = self.linear_v(value).view(n_batch, -1, self.h_k, self.d_k)
+        q = (
+            q.transpose(1, 2)
+            if self.use_pt_scaled_dot_product_attention and not torch.jit.is_scripting()
+            else q.transpose(1, 2) * self.inv_sqrt_d_k
+        )
+        k = k.transpose(1, 2)  # (batch, head_k, time2, d_k)
+        v = v.transpose(1, 2)  # (batch, head_k, time2, d_k)
+
+        if self.use_pt_scaled_dot_product_attention and not torch.jit.is_scripting():
+            attn_mask = None
+            if mask is not None:
+                mask = mask.unsqueeze(1)
+                if relative_attention_bias is not None:
+                    attn_mask = mask + relative_attention_bias
+                else:
+                    attn_mask = mask
+                if mask.dtype != q.dtype:
+                    attn_mask = attn_mask.to(q.dtype)
+
+            with torch.nn.attention.sdpa_kernel(
+                [
+                    torch.nn.attention.SDPBackend.FLASH_ATTENTION,
+                    torch.nn.attention.SDPBackend.EFFICIENT_ATTENTION,
+                    torch.nn.attention.SDPBackend.MATH,
+                    torch.nn.attention.SDPBackend.CUDNN_ATTENTION,
+                ]
+            ):
+                x = torch.nn.functional.scaled_dot_product_attention(
+                    q,
+                    k,
+                    v,
+                    attn_mask=attn_mask,
+                    dropout_p=self.dropout_rate,
+                )
+        else:
+            if self.h != self.h_k:
+                q = q.reshape(n_batch, self.g, self.h_k, -1, self.d_k)
+                A = torch.einsum("b g h t d, b h s d -> b h t s", q, k)
+            else:
+                A = torch.matmul(q, k.transpose(-2, -1))
+            if pos_k is not None:
+                if self.h != self.h_k:
+                    B = torch.einsum("b g h t d, t s d -> b h t s", q, pos_k)
+                else:
+                    reshape_q = (
+                        q.contiguous()
+                        .view(n_batch * self.h, -1, self.d_k)
+                        .transpose(0, 1)
+                    )  # (t1,nh,dk)
+                    B = torch.matmul(
+                        reshape_q, pos_k.transpose(-2, -1)
+                    )  # pos_k: (t1,dk,t2)
+                    B = B.transpose(0, 1).view(
+                        n_batch, self.h, pos_k.size(0), pos_k.size(1)
+                    )
+                scores = A + B
+            else:
+                scores = A
+
+            if relative_attention_bias is not None:
+                scores = scores + relative_attention_bias
+
+            attn = masked_softmax(scores, mask)  # (batch, head, time1, time2)
+
+            self.attn = attn
+
+            p_attn = self.dropout(attn)
+            x = torch.matmul(p_attn.to(v.dtype), v)  # (batch, head, time1, d_k)
+            if pos_v is not None:
+                reshape_attn = (
+                    p_attn.contiguous()
+                    .view(n_batch * self.h, pos_v.size(0), pos_v.size(1))
+                    .transpose(0, 1)
+                )  # (t1, bh, t2)
+
+                attn_v = (
+                    torch.matmul(reshape_attn, pos_v)
+                    .transpose(0, 1)
+                    .contiguous()
+                    .view(n_batch, self.h, pos_v.size(0), self.d_k)
+                )
+                x = x + attn_v
+        x = (
+            x.transpose(1, 2).contiguous().view(n_batch, -1, self.h_k * self.d_k)
+        )  # (batch, time1, d_model)
+
+        return self.linear_out(x)  # (batch, time1, d_model)
+
+
+class MultiSequential(torch.nn.Sequential):
+    """Multi-input multi-output torch.nn.Sequential"""
+
+    @torch.jit.ignore
+    def forward(self, *args):
+        """Forward method implementation."""
+        for m in self:
+            args = m(*args)
+        return args
+
+
+def get_offset(input_layer: str, time_reduction: int):
+    """Get an offset. We will use the offset for determining #frames of a
+    subsampled feature.
+
+    Args:
+        input_layer (str): Type of an input layer
+        time_reduction (int): time reduction factor for downsampling a feature
+    Returns:
+        int: offset
+    """
+    if input_layer in ("conv2d", "nemo_conv") and time_reduction == 4:
+        return 3
+    if input_layer in ("conv2d",) and time_reduction == 6:
+        return 1
+    if input_layer in ("conv2d", "nemo_conv") and time_reduction == 8:
+        return 7
+    return 0
+
+
+def unfold_tensor(xs_pad, max_seq_len):
+    """
+    For a given tensor with shape of (N, T, D), if sequence length T is
+    longer than max_seq_len, this function unfold it to a
+    (NT', max_seq_len, D) where T' is T // max_seq_len.
+    Args:
+        xs_pad: N, T, D
+    """
+    _, _, D = xs_pad.shape
+    xs_pad = xs_pad.transpose(-1, -2)  # convert to N, D, T
+    # N x D x 1 x T => N x (D x max_seq_len) x T'
+    xs_pad = F.unfold(
+        xs_pad[..., None, :],
+        kernel_size=(1, max_seq_len),
+        stride=(1, max_seq_len),
+    )
+    new_bsz, _, slen = xs_pad.shape
+    # N x D x max_seq_len x T'
+    xs_pad = xs_pad.view(new_bsz, -1, max_seq_len, slen)
+    # N x T' x max_seq_len x D
+    xs_pad = xs_pad.permute(0, 3, 2, 1).contiguous()
+    # NT' x max_seq_len x D
+    xs_pad = xs_pad.view(-1, max_seq_len, D)
+    return xs_pad
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 5c44c4d49953..6c6495c5f8f0 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -158,6 +158,7 @@ def __init__(self, hf_config, server_args, _processor):
             "pixel_values_videos": Modality.VIDEO,
             "image_sizes": Modality.IMAGE,
             "image_grid_thw": Modality.IMAGE,
+            "image_attention_mask": Modality.IMAGE,
             "image_emb_mask": Modality.IMAGE,
             "image_spatial_crop": Modality.IMAGE,
             "tgt_size": Modality.IMAGE,
@@ -170,6 +171,7 @@ def __init__(self, hf_config, server_args, _processor):
             "audio_feature_lens": Modality.AUDIO,
             "input_features": Modality.AUDIO,
             "input_features_mask": Modality.AUDIO,
+            "audio_attention_mask": Modality.AUDIO,
             # Video-related attributes
             "video_grid_thw": Modality.VIDEO,
             # Generic attributes that could apply to multiple modalities
@@ -251,7 +253,11 @@ def get_estimated_frames_list(self, image_data):
 
     @staticmethod
     def _load_single_item(
-        data, modality: Modality, frame_count_limit=None, discard_alpha_channel=True
+        data,
+        modality: Modality,
+        frame_count_limit=None,
+        audio_sample_rate: Optional[int] = None,
+        discard_alpha_channel=True,
     ):
         """
         Load a single multimodal data.
@@ -268,7 +274,7 @@ def _load_single_item(
             elif modality == Modality.VIDEO:
                 return load_video(data, frame_count_limit)
             elif modality == Modality.AUDIO:
-                return load_audio(data)
+                return load_audio(data, audio_sample_rate)
 
         except Exception as e:
             raise RuntimeError(f"Error while loading data {data}: {e}")
@@ -282,6 +288,7 @@ def submit_data_loading_tasks(
         image_estimated_frames_iter: Optional[iter] = None,
         image_scaling_factor: float = 1.0,
         max_image_frames: int = 30,
+        audio_sample_rate: Optional[int] = None,
     ) -> Tuple[List, List]:
         """
         load multimodal data parallelly using iterators.
@@ -324,6 +331,7 @@ def submit_data_loading_tasks(
                         data,
                         modality,
                         frame_count_limit,
+                        audio_sample_rate,
                         discard_alpha_channel,
                     )
                 )
@@ -352,6 +360,7 @@ def load_mm_data(
         audio_data: Optional[list] = None,
         return_text: Optional[bool] = True,
         discard_alpha_channel: bool = True,
+        audio_sample_rate: Optional[int] = None,
     ) -> BaseMultiModalProcessorOutput:
         """
         Each frame of video/image will be replaced by a single image token
@@ -390,6 +399,7 @@ def load_mm_data(
             multimodal_tokens=multimodal_tokens,
             data_iterators=data_iterators,
             discard_alpha_channel=discard_alpha_channel,
+            audio_sample_rate=audio_sample_rate,
         )
         task_info_iter = iter(task_info)
         futures_iter = iter(futures)
diff --git a/python/sglang/srt/multimodal/processors/phi4mm.py b/python/sglang/srt/multimodal/processors/phi4mm.py
index aea06506d078..8772403dbdb7 100644
--- a/python/sglang/srt/multimodal/processors/phi4mm.py
+++ b/python/sglang/srt/multimodal/processors/phi4mm.py
@@ -1,6 +1,8 @@
 import logging
 from typing import List, Union
 
+from transformers.processing_utils import ProcessorMixin
+
 from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.phi4mm import Phi4MMForCausalLM
 from sglang.srt.multimodal.processors.base_processor import (
@@ -10,18 +12,58 @@
 
 logger = logging.getLogger(__name__)
 
-_IMAGE_SPECIAL_TOKEN = "<|endoftext10|>"
-_IMAGE_SPECIAL_TOKEN_ID = 200010
+
+# It is an adapter of hf phi4 mm processor to make it work for sglang
+# Ref: https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/processing_phi4mm.py#L693
+class Phi4MMProcessorAdapter(ProcessorMixin):
+    def __init__(self, _processor) -> None:
+        self._processor = _processor
+
+    def __call__(self, **kwargs):
+        result = self._processor(**kwargs)
+
+        # Map HuggingFace output keys to sglang standard keys
+        key_mapping = {
+            "input_image_embeds": "pixel_values",
+            "input_audio_embeds": "audio_features",
+            "audio_embed_sizes": "audio_feature_lens",
+        }
+        for hf_key, sglang_key in key_mapping.items():
+            if hf_key in result:
+                result[sglang_key] = result[hf_key]
+
+        # Filter out None or empty tensors from the result.
+        # This prevents the sglang function base_processor.collect_mm_items_from_processor_output()
+        # from misclassifying audio content as image content, and vice versa.
+        filtered_result = {
+            k: v
+            for k, v in result.items()
+            if v is not None and (not hasattr(v, "numel") or v.numel() > 0)
+        }
+        return filtered_result
 
 
-class Phi4MMImageProcessor(BaseMultimodalProcessor):
+class Phi4MMMultimodalProcessor(BaseMultimodalProcessor):
     models = [Phi4MMForCausalLM]
 
     def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+        self.processor = Phi4MMProcessorAdapter(_processor)
+        super().__init__(hf_config, server_args, self.processor)
+
+        # the following CONSTANTS come from hugging-face microsoft/Phi-4-multimodal-instruct's processing_phi4mm.py file
+        # ref: https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/processing_phi4mm.py
+        self.IMAGE_TOKEN = "<|endoftext10|>"
+        self.AUDIO_TOKEN = "<|endoftext11|>"
+        self.IM_TOKEN_ID = 200010
+        self.AUDIO_TOKEN_ID = 200011
+        self.AUDIO_SAMPLE_RATE = 16000
+
         self.multimodal_tokens = MultimodalSpecialTokens(
-            image_token=_IMAGE_SPECIAL_TOKEN,
-        ).build(_processor)
+            image_token=self.IMAGE_TOKEN,
+            image_token_id=self.IM_TOKEN_ID,
+            audio_token=self.AUDIO_TOKEN,
+            audio_token_id=self.AUDIO_TOKEN_ID,
+        ).build(self.processor)
 
     async def process_mm_data_async(
         self,
@@ -32,46 +74,29 @@ async def process_mm_data_async(
         max_req_input_len,
         **kwargs,
     ):
-        if audio_data:
-            logger.warning(
-                "Currently SGLang does not support audio data for Phi4MM. We are working on it. You can file an issue to help us prioritize."
-            )
-            audio_data = []
-
         base_output = self.load_mm_data(
             prompt=input_text,
             max_req_input_len=max_req_input_len,
             audio_data=audio_data,
             image_data=image_data,
             multimodal_tokens=self.multimodal_tokens,
+            audio_sample_rate=self.AUDIO_SAMPLE_RATE,
         )
-        if base_output is None:
-            return None
 
-        res = self.process_mm_data(
-            input_text=base_output.input_text,
-            images=base_output.images,
-            audios=base_output.audios,
-        )
+        if base_output.audios is not None:
+            # hugging-face microsoft/Phi-4-multimodal-instruct's processing_phi4mm.py file requires the audio input to be tuple of (audio, sample_rate)
+            # ref: https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/processing_phi4mm.py
+            base_output.audios = [
+                (audio, self.AUDIO_SAMPLE_RATE) for audio in base_output.audios
+            ]
 
-        input_ids = res["input_ids"].flatten()
-        image_offsets = self.get_mm_items_offset(
-            input_ids=input_ids,
-            mm_token_id=_IMAGE_SPECIAL_TOKEN_ID,
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.multimodal_tokens
         )
 
-        items = [
-            MultimodalDataItem(
-                feature=res["input_image_embeds"],
-                image_sizes=res["image_sizes"],
-                image_emb_mask=res["image_attention_mask"],
-                offsets=image_offsets,
-                modality=Modality.IMAGE,
-            )
-        ]
-
         return {
-            "mm_items": items,
             "input_ids": input_ids.tolist(),
-            "im_token_id": _IMAGE_SPECIAL_TOKEN_ID,
+            "mm_items": mm_items,
+            "im_token_id": self.IM_TOKEN_ID,
+            "audio_token_id": self.AUDIO_TOKEN_ID,
         }
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index ce159a4da77b..dc6e72d75dcd 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -691,12 +691,17 @@ def decode_video_base64(video_base64):
         )  # Return an empty array and size tuple if no frames were found
 
 
-def load_audio(audio_file: str, sr: int = 16000, mono: bool = True) -> np.ndarray:
+def load_audio(
+    audio_file: str, sr: Optional[int] = None, mono: bool = True
+) -> np.ndarray:
     # Use soundfile here, since librosa use it under the hood,
     # and librosa will not support audio loading in the future
     import soundfile as sf
     from scipy.signal import resample
 
+    if sr is None:
+        sr = 16000
+
     # Load audio data
     if isinstance(audio_file, bytes):
         audio, original_sr = sf.read(BytesIO(audio_file))
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index f6152ea76dfc..53498946144c 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -200,16 +200,17 @@ def setUpClass(cls):
                 "0.70",
                 "--disable-radix-cache",
                 "--max-loras-per-batch",
-                "1",
+                "2",
                 "--revision",
                 revision,
                 "--lora-paths",
                 f"vision={constants.HF_HUB_CACHE}/models--microsoft--Phi-4-multimodal-instruct/snapshots/{revision}/vision-lora",
+                f"speech={constants.HF_HUB_CACHE}/models--microsoft--Phi-4-multimodal-instruct/snapshots/{revision}/speech-lora",
             ],
         )
         cls.base_url += "/v1"
 
-    def get_request_kwargs(self):
+    def get_vision_request_kwargs(self):
         return {
             "extra_body": {
                 "lora_path": "vision",
@@ -218,8 +219,21 @@ def get_request_kwargs(self):
             }
         }
 
-    def test_video_chat_completion(self):
-        pass
+    def get_audio_request_kwargs(self):
+        return {
+            "extra_body": {
+                "lora_path": "speech",
+                "top_k": 1,
+                "top_p": 1.0,
+            }
+        }
+
+    def test_audio_chat_completion(self):
+        self._test_audio_speech_completion()
+        # TODO: currently phi4-mm cannot pass this test.
+        # We are investigating this issue.
+        # Response: La ciudad está situada en la costa este de la isla, en la desembocadura del río St. Lawrence.
+        # self._test_audio_ambient_completion()
 
 
 class TestVILAServer(TestOpenAIVisionServer):
diff --git a/test/srt/test_vision_openai_server_common.py b/test/srt/test_vision_openai_server_common.py
index 5d958fd5a26c..341db654e053 100644
--- a/test/srt/test_vision_openai_server_common.py
+++ b/test/srt/test_vision_openai_server_common.py
@@ -47,6 +47,12 @@ def setUpClass(cls):
     def tearDownClass(cls):
         kill_process_tree(cls.process.pid)
 
+    def get_audio_request_kwargs(self):
+        return self.get_request_kwargs()
+
+    def get_vision_request_kwargs(self):
+        return self.get_request_kwargs()
+
     def get_request_kwargs(self):
         return {}
 
@@ -71,7 +77,7 @@ def test_single_image_chat_completion(self):
                 },
             ],
             temperature=0,
-            **(self.get_request_kwargs()),
+            **(self.get_vision_request_kwargs()),
         )
 
         assert response.choices[0].message.role == "assistant"
@@ -134,7 +140,7 @@ def test_multi_turn_chat_completion(self):
                 },
             ],
             temperature=0,
-            **(self.get_request_kwargs()),
+            **(self.get_vision_request_kwargs()),
         )
 
         assert response.choices[0].message.role == "assistant"
@@ -177,7 +183,7 @@ def test_multi_images_chat_completion(self):
                 },
             ],
             temperature=0,
-            **(self.get_request_kwargs()),
+            **(self.get_vision_request_kwargs()),
         )
 
         assert response.choices[0].message.role == "assistant"
@@ -333,7 +339,7 @@ def _test_video_chat_completion(self):
             temperature=0,
             max_tokens=1024,
             stream=False,
-            **(self.get_request_kwargs()),
+            **(self.get_vision_request_kwargs()),
         )
 
         video_response = response.choices[0].message.content
@@ -376,7 +382,7 @@ def test_regex(self):
             + r"""\}"""
         )
 
-        extra_kwargs = self.get_request_kwargs()
+        extra_kwargs = self.get_vision_request_kwargs()
         extra_kwargs.setdefault("extra_body", {})["regex"] = regex
 
         response = client.chat.completions.create(
@@ -443,7 +449,7 @@ def run_decode_with_image(self, image_id):
                 {"role": "user", "content": content},
             ],
             temperature=0,
-            **(self.get_request_kwargs()),
+            **(self.get_vision_request_kwargs()),
         )
 
         assert response.choices[0].message.role == "assistant"
@@ -486,7 +492,7 @@ def get_audio_response(self, url: str, prompt, category):
             temperature=0,
             max_tokens=128,
             stream=False,
-            **(self.get_request_kwargs()),
+            **(self.get_audio_request_kwargs()),
         )
 
         audio_response = response.choices[0].message.content
@@ -500,7 +506,7 @@ def get_audio_response(self, url: str, prompt, category):
         self.assertIsNotNone(audio_response)
         self.assertGreater(len(audio_response), 0)
 
-        return audio_response
+        return audio_response.lower()
 
     def _test_audio_speech_completion(self):
         # a fragment of Trump's speech

From 1403ea56949e4e388853f835288c83a86ec96027 Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Sat, 19 Jul 2025 13:00:49 +0800
Subject: [PATCH 042/396] [PD] Support non-MLA models PD different TP with DP
 attention (#7931)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 .../srt/disaggregation/mooncake/conn.py       | 94 ++++++++-----------
 1 file changed, 41 insertions(+), 53 deletions(-)

diff --git a/python/sglang/srt/disaggregation/mooncake/conn.py b/python/sglang/srt/disaggregation/mooncake/conn.py
index a9e9bf2c5938..e345d9519eac 100644
--- a/python/sglang/srt/disaggregation/mooncake/conn.py
+++ b/python/sglang/srt/disaggregation/mooncake/conn.py
@@ -321,67 +321,60 @@ def send_kvcache_slice(
         This may introduce performance overhead (increased TTFT) for long sequences.
         """
         # Extract configuration
-        local_tp_rank = self.kv_args.engine_rank
         local_tp_size = self.tp_size // self.dp_size
+        local_tp_rank_in_group = self.kv_args.engine_rank % local_tp_size
+        src_kv_item_len = self.kv_args.kv_item_lens[0]
+        dst_tp_rank_in_group = dst_tp_rank % dst_tp_size
         num_kv_heads = self.kv_args.kv_head_num
         num_layers = len(self.kv_args.kv_data_ptrs)
         page_size = self.kv_args.page_size
 
         # Calculate head distribution
-        heads_per_decode_rank = num_kv_heads * local_tp_size // dst_tp_size
-        heads_per_prefill_rank = num_kv_heads
-        decode_global_head_start = dst_tp_rank * heads_per_decode_rank
-        prefill_global_head_start = local_tp_rank * heads_per_prefill_rank
-        bytes_per_head = dst_kv_item_len // heads_per_decode_rank // page_size
-
-        decode_rank_item_lens = [dst_kv_item_len for _ in range(num_layers)]
+        src_heads_per_rank = num_kv_heads
+        dst_heads_per_rank = num_kv_heads * local_tp_size // dst_tp_size
+        bytes_per_head_slice_to_send = (
+            dst_kv_item_len // page_size // dst_heads_per_rank
+        )
 
         # Determine slicing parameters based on TP configuration
         if local_tp_size > dst_tp_size:
-            src_head_offset = 0
-            num_heads_to_send = heads_per_prefill_rank
-            dst_head_offset = prefill_global_head_start - decode_global_head_start
+            # Send KVCache from multiple prefill instances to 1 decode instance
+            src_head_start_offset = 0
+            num_heads_to_send = src_heads_per_rank
+            dst_head_start_offset = local_tp_rank_in_group * src_heads_per_rank
         else:
-            src_head_offset = decode_global_head_start - prefill_global_head_start
-            num_heads_to_send = heads_per_decode_rank
-            dst_head_offset = 0
+            # Send KVCache from 1 prefill instance to multiple decode instances
+            src_head_start_offset = dst_tp_rank_in_group * dst_heads_per_rank
+            num_heads_to_send = dst_heads_per_rank
+            dst_head_start_offset = 0
 
-        layer_transfer_params = []
+        layers_params = []
         for layer_id in range(num_layers):
-            item_len_of_prefill_rank_page = self.kv_args.kv_item_lens[layer_id]
-
-            # Page stride on the target dst decode rank for its slice pages
-            item_len_of_decode_rank_page = decode_rank_item_lens[layer_id]
-
-            if item_len_of_prefill_rank_page == 0 or num_kv_heads == 0:
-                logger.error(
-                    f"Invalid item_len_of_prefill_rank_page or num_kv_heads for layer {layer_id}"
-                )
-                return -1
-
-            # Calculate precise byte offset and length for the sub-slice within the prefill page data
-            src_slice_offset = src_head_offset * bytes_per_head
-            dst_slice_offset = dst_head_offset * bytes_per_head
-            slice_lens_per_page = num_heads_to_send * bytes_per_head
+            # Calculate precise byte offset and length for the sub-slice within the token
+            src_head_slice_offset = src_head_start_offset * bytes_per_head_slice_to_send
+            dst_head_slice_offset = dst_head_start_offset * bytes_per_head_slice_to_send
+            heads_bytes_per_token_to_send = (
+                num_heads_to_send * bytes_per_head_slice_to_send
+            )
 
-            # Sanity check: The data sub-slice to be sent should fit into the decode instance's page.
-            # This means slice_lens_per_page <= item_len_of_decode_rank_page
-            if slice_lens_per_page > item_len_of_decode_rank_page:
+            # Sanity check: The data sub-slice to be sent should fit into the dst buffer.
+            # This means heads_bytes_per_token_to_send <= (dst_kv_item_len // page_size)
+            if heads_bytes_per_token_to_send > (dst_kv_item_len // page_size):
                 logger.error(
                     f"[{mooncake_session_id}] Layer {layer_id}: "
-                    f"slice size ({slice_lens_per_page}) exceeds "
-                    f"target page size ({item_len_of_decode_rank_page})"
+                    f"slice size ({heads_bytes_per_token_to_send}) exceeds "
+                    f"target token slot size ({dst_kv_item_len // page_size})"
                 )
                 return -1
-            layer_transfer_params.append(
+            layers_params.append(
                 (
                     self.kv_args.kv_data_ptrs[layer_id],
                     dst_kv_ptrs[layer_id],
-                    item_len_of_prefill_rank_page,
-                    item_len_of_decode_rank_page,
-                    src_slice_offset,
-                    dst_slice_offset,
-                    slice_lens_per_page,
+                    src_kv_item_len,
+                    dst_kv_item_len,
+                    src_head_slice_offset,
+                    dst_head_slice_offset,
+                    heads_bytes_per_token_to_send,
                 )
             )
 
@@ -391,9 +384,9 @@ def process_layer_tp_aware(layer_params):
                 dst_ptr,
                 src_item_len,
                 dst_item_len,
-                src_offset,
-                dst_offset,
-                slice_lens_per_page,
+                src_head_slice_offset,
+                dst_head_slice_offset,
+                heads_bytes_per_token_to_send,
             ) = layer_params
             src_addr_list = []
             dst_addr_list = []
@@ -424,17 +417,12 @@ def process_layer_tp_aware(layer_params):
                     )
 
                     # Calculate final src and dst addresses by applying head-slice offsets
-                    src_slice_addr = src_token_slot_start_addr + src_offset
-                    dst_slice_addr = dst_token_slot_start_addr + dst_offset
+                    src_slice_addr = src_token_slot_start_addr + src_head_slice_offset
+                    dst_slice_addr = dst_token_slot_start_addr + dst_head_slice_offset
 
                     src_addr_list.append(src_slice_addr)
                     dst_addr_list.append(dst_slice_addr)
-                    length_list.append(slice_lens_per_page)
-
-                    logger.debug(
-                        f"SYNC: sid={mooncake_session_id}, "
-                        f"src={src_slice_addr}, dst={dst_slice_addr}, len={slice_lens_per_page}"
-                    )
+                    length_list.append(heads_bytes_per_token_to_send)
 
             return self.engine.batch_transfer_sync(
                 mooncake_session_id, src_addr_list, dst_addr_list, length_list
@@ -445,7 +433,7 @@ def process_layer_tp_aware(layer_params):
                 process_layer_tp_aware,
                 layer_params,
             )
-            for layer_params in layer_transfer_params
+            for layer_params in layers_params
         ]
 
         for future in concurrent.futures.as_completed(futures):

From 610381b75e6317cf60870ed443f02967892cd729 Mon Sep 17 00:00:00 2001
From: Yingchun Lai <laiyingchun@apache.org>
Date: Sat, 19 Jul 2025 13:08:46 +0800
Subject: [PATCH 043/396] [health_generate] fix: fix the /health_generate
 always success bug (#8028)

---
 python/sglang/srt/managers/tokenizer_manager.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 38a8fa53af7a..7ba07f675120 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -1359,7 +1359,7 @@ async def handle_loop(self):
         while True:
             recv_obj = await self.recv_from_detokenizer.recv_pyobj()
             self._result_dispatcher(recv_obj)
-            self.last_receive_tstamp = time.time()
+            self.last_receive_tstamp = time.perf_counter()
 
     def _handle_batch_output(
         self,

From 8fcc55cfa1c365a3ab92ed097eb10b6658fe1e74 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Fri, 18 Jul 2025 22:09:17 -0700
Subject: [PATCH 044/396] [router] router metrics cleanup (#8158)

---
 sgl-router/src/lib.rs                   |   4 +-
 sgl-router/src/metrics.rs               | 324 ++++++++++++++++++++++++
 sgl-router/src/policies/cache_aware.rs  |  16 +-
 sgl-router/src/policies/power_of_two.rs |   5 +-
 sgl-router/src/prometheus.rs            |  40 ---
 sgl-router/src/routers/pd_router.rs     |  40 +--
 sgl-router/src/routers/pd_types.rs      |  14 -
 sgl-router/src/routers/router.rs        |  46 ++--
 sgl-router/src/server.rs                |   4 +-
 9 files changed, 378 insertions(+), 115 deletions(-)
 create mode 100644 sgl-router/src/metrics.rs
 delete mode 100644 sgl-router/src/prometheus.rs

diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index 49e8cc573059..a37a4b474728 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -3,14 +3,14 @@ pub mod config;
 pub mod logging;
 use std::collections::HashMap;
 pub mod core;
+pub mod metrics;
 pub mod openai_api_types;
 pub mod policies;
-pub mod prometheus;
 pub mod routers;
 pub mod server;
 pub mod service_discovery;
 pub mod tree;
-use crate::prometheus::PrometheusConfig;
+use crate::metrics::PrometheusConfig;
 
 #[pyclass(eq)]
 #[derive(Clone, PartialEq, Debug)]
diff --git a/sgl-router/src/metrics.rs b/sgl-router/src/metrics.rs
new file mode 100644
index 000000000000..0ff2055c540c
--- /dev/null
+++ b/sgl-router/src/metrics.rs
@@ -0,0 +1,324 @@
+use metrics::{counter, describe_counter, describe_gauge, describe_histogram, gauge, histogram};
+use metrics_exporter_prometheus::{Matcher, PrometheusBuilder};
+use std::net::{IpAddr, Ipv4Addr, SocketAddr};
+use std::time::Duration;
+
+#[derive(Debug, Clone)]
+pub struct PrometheusConfig {
+    pub port: u16,
+    pub host: String,
+}
+
+impl Default for PrometheusConfig {
+    fn default() -> Self {
+        Self {
+            port: 29000,
+            host: "0.0.0.0".to_string(),
+        }
+    }
+}
+
+pub fn init_metrics() {
+    // Request metrics
+    describe_counter!(
+        "sgl_router_requests_total",
+        "Total number of requests by route and method"
+    );
+    describe_histogram!(
+        "sgl_router_request_duration_seconds",
+        "Request duration in seconds by route"
+    );
+    describe_counter!(
+        "sgl_router_request_errors_total",
+        "Total number of request errors by route and error type"
+    );
+    describe_counter!(
+        "sgl_router_retries_total",
+        "Total number of request retries by route"
+    );
+
+    // Worker metrics
+    describe_gauge!(
+        "sgl_router_active_workers",
+        "Number of currently active workers"
+    );
+    describe_gauge!(
+        "sgl_router_worker_health",
+        "Worker health status (1=healthy, 0=unhealthy)"
+    );
+    describe_gauge!("sgl_router_worker_load", "Current load on each worker");
+    describe_counter!(
+        "sgl_router_processed_requests_total",
+        "Total requests processed by each worker"
+    );
+
+    // Policy metrics
+    describe_counter!(
+        "sgl_router_policy_decisions_total",
+        "Total routing policy decisions by policy and worker"
+    );
+    describe_counter!("sgl_router_cache_hits_total", "Total cache hits");
+    describe_counter!("sgl_router_cache_misses_total", "Total cache misses");
+    describe_gauge!(
+        "sgl_router_tree_size",
+        "Current tree size for cache-aware routing"
+    );
+    describe_counter!(
+        "sgl_router_load_balancing_events_total",
+        "Total load balancing trigger events"
+    );
+    describe_gauge!("sgl_router_max_load", "Maximum worker load");
+    describe_gauge!("sgl_router_min_load", "Minimum worker load");
+
+    // PD-specific metrics
+    describe_counter!("sgl_router_pd_requests_total", "Total PD requests by route");
+    describe_counter!(
+        "sgl_router_pd_prefill_requests_total",
+        "Total prefill requests per worker"
+    );
+    describe_counter!(
+        "sgl_router_pd_decode_requests_total",
+        "Total decode requests per worker"
+    );
+    describe_counter!(
+        "sgl_router_pd_errors_total",
+        "Total PD errors by error type"
+    );
+    describe_counter!(
+        "sgl_router_pd_prefill_errors_total",
+        "Total prefill server errors"
+    );
+    describe_counter!(
+        "sgl_router_pd_decode_errors_total",
+        "Total decode server errors"
+    );
+    describe_counter!(
+        "sgl_router_pd_stream_errors_total",
+        "Total streaming errors per worker"
+    );
+    describe_histogram!(
+        "sgl_router_pd_request_duration_seconds",
+        "PD request duration by route"
+    );
+
+    // Service discovery metrics
+    describe_counter!(
+        "sgl_router_discovery_updates_total",
+        "Total service discovery update events"
+    );
+    describe_gauge!(
+        "sgl_router_discovery_workers_added",
+        "Number of workers added in last discovery update"
+    );
+    describe_gauge!(
+        "sgl_router_discovery_workers_removed",
+        "Number of workers removed in last discovery update"
+    );
+
+    // Generate request specific metrics
+    describe_histogram!(
+        "sgl_router_generate_duration_seconds",
+        "Generate request duration"
+    );
+
+    // Running requests gauge for cache-aware policy
+    describe_gauge!(
+        "sgl_router_running_requests",
+        "Number of running requests per worker"
+    );
+}
+
+pub fn start_prometheus(config: PrometheusConfig) {
+    // Initialize metric descriptions
+    init_metrics();
+
+    let duration_matcher = Matcher::Suffix(String::from("duration"));
+    let duration_bucket = [
+        0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0, 15.0, 30.0, 45.0,
+        60.0, 90.0, 120.0, 180.0, 240.0,
+    ];
+
+    let ip_addr: IpAddr = config
+        .host
+        .parse()
+        .unwrap_or(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)));
+    let socket_addr = SocketAddr::new(ip_addr, config.port);
+
+    PrometheusBuilder::new()
+        .with_http_listener(socket_addr)
+        .upkeep_timeout(Duration::from_secs(5 * 60))
+        .set_buckets_for_metric(duration_matcher, &duration_bucket)
+        .expect("failed to set duration bucket")
+        .install()
+        .expect("failed to install Prometheus metrics exporter");
+}
+
+pub struct RouterMetrics;
+
+impl RouterMetrics {
+    // Request metrics
+    pub fn record_request(route: &str) {
+        counter!("sgl_router_requests_total",
+            "route" => route.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_request_duration(route: &str, duration: Duration) {
+        histogram!("sgl_router_request_duration_seconds",
+            "route" => route.to_string()
+        )
+        .record(duration.as_secs_f64());
+    }
+
+    pub fn record_request_error(route: &str, error_type: &str) {
+        counter!("sgl_router_request_errors_total",
+            "route" => route.to_string(),
+            "error_type" => error_type.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_retry(route: &str) {
+        counter!("sgl_router_retries_total",
+            "route" => route.to_string()
+        )
+        .increment(1);
+    }
+
+    // Worker metrics
+    pub fn set_active_workers(count: usize) {
+        gauge!("sgl_router_active_workers").set(count as f64);
+    }
+
+    pub fn set_worker_health(worker_url: &str, healthy: bool) {
+        gauge!("sgl_router_worker_health",
+            "worker" => worker_url.to_string()
+        )
+        .set(if healthy { 1.0 } else { 0.0 });
+    }
+
+    pub fn set_worker_load(worker_url: &str, load: usize) {
+        gauge!("sgl_router_worker_load",
+            "worker" => worker_url.to_string()
+        )
+        .set(load as f64);
+    }
+
+    pub fn record_processed_request(worker_url: &str) {
+        counter!("sgl_router_processed_requests_total",
+            "worker" => worker_url.to_string()
+        )
+        .increment(1);
+    }
+
+    // Policy metrics
+    pub fn record_policy_decision(policy: &str, worker: &str) {
+        counter!("sgl_router_policy_decisions_total",
+            "policy" => policy.to_string(),
+            "worker" => worker.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_cache_hit() {
+        counter!("sgl_router_cache_hits_total").increment(1);
+    }
+
+    pub fn record_cache_miss() {
+        counter!("sgl_router_cache_misses_total").increment(1);
+    }
+
+    pub fn set_tree_size(worker: &str, size: usize) {
+        gauge!("sgl_router_tree_size",
+            "worker" => worker.to_string()
+        )
+        .set(size as f64);
+    }
+
+    pub fn record_load_balancing_event() {
+        counter!("sgl_router_load_balancing_events_total").increment(1);
+    }
+
+    pub fn set_load_range(max_load: usize, min_load: usize) {
+        gauge!("sgl_router_max_load").set(max_load as f64);
+        gauge!("sgl_router_min_load").set(min_load as f64);
+    }
+
+    // PD-specific metrics
+    pub fn record_pd_request(route: &str) {
+        counter!("sgl_router_pd_requests_total",
+            "route" => route.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_pd_request_duration(route: &str, duration: Duration) {
+        histogram!("sgl_router_pd_request_duration_seconds",
+            "route" => route.to_string()
+        )
+        .record(duration.as_secs_f64());
+    }
+
+    pub fn record_pd_prefill_request(worker: &str) {
+        counter!("sgl_router_pd_prefill_requests_total",
+            "worker" => worker.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_pd_decode_request(worker: &str) {
+        counter!("sgl_router_pd_decode_requests_total",
+            "worker" => worker.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_pd_error(error_type: &str) {
+        counter!("sgl_router_pd_errors_total",
+            "error_type" => error_type.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_pd_prefill_error(worker: &str) {
+        counter!("sgl_router_pd_prefill_errors_total",
+            "worker" => worker.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_pd_decode_error(worker: &str) {
+        counter!("sgl_router_pd_decode_errors_total",
+            "worker" => worker.to_string()
+        )
+        .increment(1);
+    }
+
+    pub fn record_pd_stream_error(worker: &str) {
+        counter!("sgl_router_pd_stream_errors_total",
+            "worker" => worker.to_string()
+        )
+        .increment(1);
+    }
+
+    // Service discovery metrics
+    pub fn record_discovery_update(added: usize, removed: usize) {
+        counter!("sgl_router_discovery_updates_total").increment(1);
+        gauge!("sgl_router_discovery_workers_added").set(added as f64);
+        gauge!("sgl_router_discovery_workers_removed").set(removed as f64);
+    }
+
+    // Generate request metrics
+    pub fn record_generate_duration(duration: Duration) {
+        histogram!("sgl_router_generate_duration_seconds").record(duration.as_secs_f64());
+    }
+
+    // Running requests for cache-aware policy
+    pub fn set_running_requests(worker: &str, count: usize) {
+        gauge!("sgl_router_running_requests",
+            "worker" => worker.to_string()
+        )
+        .set(count as f64);
+    }
+}
diff --git a/sgl-router/src/policies/cache_aware.rs b/sgl-router/src/policies/cache_aware.rs
index db5972ba68a1..9e30c0d01f70 100644
--- a/sgl-router/src/policies/cache_aware.rs
+++ b/sgl-router/src/policies/cache_aware.rs
@@ -61,8 +61,8 @@
 
 use super::{get_healthy_worker_indices, CacheAwareConfig, LoadBalancingPolicy};
 use crate::core::Worker;
+use crate::metrics::RouterMetrics;
 use crate::tree::Tree;
-use metrics::{counter, gauge};
 use std::sync::{Arc, Mutex};
 use std::thread;
 use std::time::Duration;
@@ -171,9 +171,8 @@ impl LoadBalancingPolicy for CacheAwarePolicy {
                 max_load, min_load, worker_loads
             );
 
-            counter!("sgl_router_load_balancing_events_total").increment(1);
-            gauge!("sgl_router_max_load").set(max_load as f64);
-            gauge!("sgl_router_min_load").set(min_load as f64);
+            RouterMetrics::record_load_balancing_event();
+            RouterMetrics::set_load_range(max_load, min_load);
 
             // Use shortest queue when imbalanced
             let min_load_idx = healthy_indices
@@ -183,8 +182,7 @@ impl LoadBalancingPolicy for CacheAwarePolicy {
 
             // Increment processed counter
             workers[min_load_idx].increment_processed();
-            counter!("sgl_router_processed_requests_total", "worker" => workers[min_load_idx].url().to_string())
-                .increment(1);
+            RouterMetrics::record_processed_request(workers[min_load_idx].url());
 
             return Some(min_load_idx);
         }
@@ -201,10 +199,10 @@ impl LoadBalancingPolicy for CacheAwarePolicy {
             };
 
             let selected_url = if match_rate > self.config.cache_threshold {
-                counter!("sgl_router_cache_hits_total").increment(1);
+                RouterMetrics::record_cache_hit();
                 matched_worker.to_string()
             } else {
-                counter!("sgl_router_cache_misses_total").increment(1);
+                RouterMetrics::record_cache_miss();
                 tree.get_smallest_tenant()
             };
 
@@ -221,7 +219,7 @@ impl LoadBalancingPolicy for CacheAwarePolicy {
 
             // Increment processed counter
             workers[selected_idx].increment_processed();
-            counter!("sgl_router_processed_requests_total", "worker" => selected_url).increment(1);
+            RouterMetrics::record_processed_request(&selected_url);
 
             return Some(selected_idx);
         }
diff --git a/sgl-router/src/policies/power_of_two.rs b/sgl-router/src/policies/power_of_two.rs
index 53c8461965ff..2167273aef35 100644
--- a/sgl-router/src/policies/power_of_two.rs
+++ b/sgl-router/src/policies/power_of_two.rs
@@ -2,7 +2,7 @@
 
 use super::{get_healthy_worker_indices, LoadBalancingPolicy};
 use crate::core::Worker;
-use metrics::counter;
+use crate::metrics::RouterMetrics;
 use rand::Rng;
 use std::collections::HashMap;
 use std::sync::RwLock;
@@ -89,8 +89,7 @@ impl LoadBalancingPolicy for PowerOfTwoPolicy {
 
         // Increment processed counter
         workers[selected_idx].increment_processed();
-        counter!("sgl_router_processed_requests_total", "worker" => workers[selected_idx].url().to_string())
-            .increment(1);
+        RouterMetrics::record_processed_request(workers[selected_idx].url());
 
         Some(selected_idx)
     }
diff --git a/sgl-router/src/prometheus.rs b/sgl-router/src/prometheus.rs
deleted file mode 100644
index ff5a221bd6e8..000000000000
--- a/sgl-router/src/prometheus.rs
+++ /dev/null
@@ -1,40 +0,0 @@
-use metrics_exporter_prometheus::{Matcher, PrometheusBuilder};
-use std::net::{IpAddr, Ipv4Addr, SocketAddr};
-use std::time::Duration;
-
-#[derive(Debug, Clone)]
-pub struct PrometheusConfig {
-    pub port: u16,
-    pub host: String,
-}
-
-impl Default for PrometheusConfig {
-    fn default() -> Self {
-        Self {
-            port: 29000,
-            host: "0.0.0.0".to_string(),
-        }
-    }
-}
-
-pub fn start_prometheus(config: PrometheusConfig) {
-    let duration_matcher = Matcher::Suffix(String::from("duration"));
-    let duration_bucket = [
-        0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0, 15.0, 30.0, 45.0,
-        60.0, 90.0, 120.0, 180.0, 240.0,
-    ];
-
-    let ip_addr: IpAddr = config
-        .host
-        .parse()
-        .unwrap_or(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)));
-    let socket_addr = SocketAddr::new(ip_addr, config.port);
-
-    PrometheusBuilder::new()
-        .with_http_listener(socket_addr)
-        .upkeep_timeout(Duration::from_secs(5 * 60))
-        .set_buckets_for_metric(duration_matcher, &duration_bucket)
-        .expect("failed to set duration bucket")
-        .install()
-        .expect("failed to install Prometheus metrics exporter");
-}
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index 2ac8f9027762..d156c9f341d6 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -4,13 +4,13 @@
 use super::pd_types::{api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRouterError};
 use super::request_adapter::ToPdRequest;
 use crate::core::{HealthChecker, Worker, WorkerFactory, WorkerLoadGuard};
+use crate::metrics::RouterMetrics;
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::policies::LoadBalancingPolicy;
 use crate::tree::Tree;
 use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
 use actix_web::{HttpRequest, HttpResponse};
 use futures_util::{StreamExt, TryStreamExt};
-use metrics::{counter, histogram};
 use serde_json::Value;
 use std::collections::HashMap;
 use std::sync::{Arc, Mutex, RwLock};
@@ -296,7 +296,7 @@ impl PDRouter {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair: {}", e);
-                counter!("sgl_router_pd_errors_total", "error" => "server_selection").increment(1);
+                RouterMetrics::record_pd_error("server_selection");
                 return HttpResponse::ServiceUnavailable()
                     .body(format!("No available servers: {}", e));
             }
@@ -313,7 +313,7 @@ impl PDRouter {
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
             error!("Failed to add bootstrap info: {}", e);
-            counter!("sgl_router_pd_errors_total", "error" => "bootstrap_injection").increment(1);
+            RouterMetrics::record_pd_error("bootstrap_injection");
             return HttpResponse::InternalServerError()
                 .body(format!("Bootstrap injection failed: {}", e));
         }
@@ -374,7 +374,7 @@ impl PDRouter {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair: {}", e);
-                counter!("sgl_router_pd_errors_total", "error" => "server_selection").increment(1);
+                RouterMetrics::record_pd_error("server_selection");
                 return HttpResponse::ServiceUnavailable()
                     .body(format!("No available servers: {}", e));
             }
@@ -391,7 +391,7 @@ impl PDRouter {
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
             error!("Failed to add bootstrap info: {}", e);
-            counter!("sgl_router_pd_errors_total", "error" => "bootstrap_injection").increment(1);
+            RouterMetrics::record_pd_error("bootstrap_injection");
             return HttpResponse::InternalServerError()
                 .body(format!("Bootstrap injection failed: {}", e));
         }
@@ -460,13 +460,10 @@ impl PDRouter {
 
         // Update metrics
         let duration = start_time.elapsed();
-        histogram!("sgl_router_pd_request_duration_seconds", "route" => route.to_string())
-            .record(duration.as_secs_f64());
-        counter!("sgl_router_pd_requests_total", "route" => route.to_string()).increment(1);
-        counter!("sgl_router_pd_prefill_requests_total", "worker" => prefill.url().to_string())
-            .increment(1);
-        counter!("sgl_router_pd_decode_requests_total", "worker" => decode.url().to_string())
-            .increment(1);
+        RouterMetrics::record_pd_request_duration(route, duration);
+        RouterMetrics::record_pd_request(route);
+        RouterMetrics::record_pd_prefill_request(prefill.url());
+        RouterMetrics::record_pd_decode_request(decode.url());
 
         // Process decode response
         match decode_result {
@@ -475,7 +472,7 @@ impl PDRouter {
                     .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
 
                 if !status.is_success() {
-                    counter!("sgl_router_pd_decode_errors_total", "worker" => decode.url().to_string()).increment(1);
+                    RouterMetrics::record_pd_decode_error(decode.url());
                     error!(
                         "Decode server {} returned error status: {}",
                         decode.url(),
@@ -501,7 +498,7 @@ impl PDRouter {
                         prefill.url(),
                         e
                     );
-                    counter!("sgl_router_pd_prefill_errors_total", "worker" => prefill.url().to_string()).increment(1);
+                    RouterMetrics::record_pd_prefill_error(prefill.url());
                 }
 
                 if is_stream {
@@ -548,13 +545,19 @@ impl PDRouter {
                     } else {
                         // No logprob merging needed
                         HttpResponse::build(status)
-                            .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
+                            .insert_header((
+                                CONTENT_TYPE,
+                                HeaderValue::from_static("text/event-stream"),
+                            ))
                             .streaming({
                                 let decode_url = decode.url().to_string();
                                 res.bytes_stream().map_err(move |e| {
                                     error!("Stream error from decode server {}: {}", decode_url, e);
-                                    counter!("sgl_router_pd_stream_errors_total", "worker" => decode_url.to_string()).increment(1);
-                                    actix_web::error::ErrorInternalServerError(format!("Stream error: {}", e))
+                                    RouterMetrics::record_pd_stream_error(&decode_url);
+                                    actix_web::error::ErrorInternalServerError(format!(
+                                        "Stream error: {}",
+                                        e
+                                    ))
                                 })
                             })
                     }
@@ -578,8 +581,7 @@ impl PDRouter {
             }
             Err(e) => {
                 error!("Decode request failed: {}", e);
-                counter!("sgl_router_pd_decode_errors_total", "worker" => decode.url().to_string())
-                    .increment(1);
+                RouterMetrics::record_pd_decode_error(decode.url());
                 HttpResponse::BadGateway().body(format!("Decode server error: {}", e))
             }
         }
diff --git a/sgl-router/src/routers/pd_types.rs b/sgl-router/src/routers/pd_types.rs
index 75473b0e33a8..155274b06f16 100644
--- a/sgl-router/src/routers/pd_types.rs
+++ b/sgl-router/src/routers/pd_types.rs
@@ -151,13 +151,6 @@ impl GenerateReqInput {
             if texts.is_empty() {
                 return Err("Batch text array is empty".to_string());
             }
-            if texts.len() > 10000 {
-                // Reasonable limit for production
-                return Err(format!(
-                    "Batch size {} exceeds maximum allowed (10000)",
-                    texts.len()
-                ));
-            }
             return Ok(Some(texts.len()));
         }
 
@@ -166,13 +159,6 @@ impl GenerateReqInput {
             if ids.is_empty() {
                 return Err("Batch input_ids array is empty".to_string());
             }
-            if ids.len() > 10000 {
-                // Reasonable limit for production
-                return Err(format!(
-                    "Batch size {} exceeds maximum allowed (10000)",
-                    ids.len()
-                ));
-            }
             // Validate each sequence is not empty
             for (i, seq) in ids.iter().enumerate() {
                 if seq.is_empty() {
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index ef44348eca20..c198b0c1dba5 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -1,6 +1,6 @@
 use crate::core::{HealthChecker, Worker, WorkerFactory};
+use crate::metrics::RouterMetrics;
 use crate::policies::LoadBalancingPolicy;
-use ::metrics::{counter, gauge, histogram};
 use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
 use actix_web::{HttpRequest, HttpResponse};
 use futures_util::{StreamExt, TryStreamExt};
@@ -43,7 +43,7 @@ impl Router {
         interval_secs: u64,
     ) -> Result<Self, String> {
         // Update active workers gauge
-        gauge!("sgl_router_active_workers").set(worker_urls.len() as f64);
+        RouterMetrics::set_active_workers(worker_urls.len());
 
         // Wait for workers to be healthy (skip if empty - for service discovery mode)
         if !worker_urls.is_empty() {
@@ -215,13 +215,11 @@ impl Router {
         // Record request metrics
         if route != "/health" {
             let duration = start.elapsed();
-            counter!("sgl_router_requests_total", "route" => route.to_string()).increment(1);
-            histogram!("sgl_router_request_duration_seconds", "route" => route.to_string())
-                .record(duration.as_secs_f64());
+            RouterMetrics::record_request(route);
+            RouterMetrics::record_request_duration(route, duration);
 
             if !response.status().is_success() {
-                counter!("sgl_router_request_errors_total", "route" => route.to_string())
-                    .increment(1);
+                RouterMetrics::record_request_error(route, "request_failed");
             }
         }
         response
@@ -390,7 +388,7 @@ impl Router {
             while request_retries < MAX_REQUEST_RETRIES {
                 if total_retries >= 1 {
                     info!("Retrying request after {} failed attempts", total_retries);
-                    counter!("sgl_router_retries_total", "route" => route.to_string()).increment(1);
+                    RouterMetrics::record_retry(route);
                 }
 
                 // Increment load before request if using RAII load tracking
@@ -398,8 +396,7 @@ impl Router {
                     let workers_guard = self.workers.read().unwrap();
                     if let Some(worker) = workers_guard.iter().find(|w| w.url() == &worker_url) {
                         worker.increment_load();
-                        gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                            .set(worker.load() as f64);
+                        RouterMetrics::set_running_requests(&worker_url, worker.load());
                         true
                     } else {
                         false
@@ -423,16 +420,14 @@ impl Router {
 
                 if response.status().is_success() {
                     let duration = start.elapsed();
-                    histogram!("sgl_router_generate_duration_seconds", "route" => route.to_string())
-                        .record(duration.as_secs_f64());
+                    RouterMetrics::record_generate_duration(duration);
                     return response;
                 } else {
                     // if the worker is healthy, it means the request is bad, so return the error response
                     let health_response =
                         self.send_request(client, &worker_url, "/health", req).await;
                     if health_response.status().is_success() {
-                        counter!("sgl_router_request_errors_total", "route" => route.to_string())
-                            .increment(1);
+                        RouterMetrics::record_request_error(route, "request_failed");
                         return response;
                     }
                 }
@@ -455,7 +450,7 @@ impl Router {
             }
         }
 
-        counter!("sgl_router_request_errors_total", "route" => route.to_string()).increment(1);
+        RouterMetrics::record_request_error(route, "request_failed");
         HttpResponse::InternalServerError().body("All retry attempts failed")
     }
 
@@ -512,8 +507,7 @@ impl Router {
                     if let Ok(workers_guard) = self.workers.read() {
                         if let Some(worker) = workers_guard.iter().find(|w| w.url() == worker_url) {
                             worker.decrement_load();
-                            gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                                .set(worker.load() as f64);
+                            RouterMetrics::set_running_requests(&worker_url, worker.load());
                         }
                     }
                 }
@@ -540,17 +534,15 @@ impl Router {
                 if let Ok(workers_guard) = self.workers.read() {
                     if let Some(worker) = workers_guard.iter().find(|w| w.url() == worker_url) {
                         worker.decrement_load();
-                        gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                            .set(worker.load() as f64);
+                        RouterMetrics::set_running_requests(&worker_url, worker.load());
                     }
                 }
             }
 
             // Record metrics
             let duration = start.elapsed();
-            histogram!("sgl_router_generate_duration_seconds", "route" => route.to_string())
-                .record(duration.as_secs_f64());
-            counter!("sgl_router_requests_total", "route" => route.to_string()).increment(1);
+            RouterMetrics::record_generate_duration(duration);
+            RouterMetrics::record_request(route);
 
             response
         } else if load_incremented {
@@ -577,8 +569,10 @@ impl Router {
                                             workers_guard.iter().find(|w| w.url() == &worker_url)
                                         {
                                             worker.decrement_load();
-                                            gauge!("sgl_router_running_requests", "worker" => worker_url.to_string())
-                                                .set(worker.load() as f64);
+                                            RouterMetrics::set_running_requests(
+                                                &worker_url,
+                                                worker.load(),
+                                            );
                                             debug!("Streaming is done!!")
                                         }
                                     }
@@ -626,7 +620,7 @@ impl Router {
                         info!("Added worker: {}", worker_url);
                         let new_worker = WorkerFactory::create_regular(worker_url.to_string());
                         workers_guard.push(new_worker);
-                        gauge!("sgl_router_active_workers").set(workers_guard.len() as f64);
+                        RouterMetrics::set_active_workers(workers_guard.len());
 
                         // If cache aware policy, initialize the worker in the tree
                         if let Some(cache_aware) =
@@ -680,7 +674,7 @@ impl Router {
         if let Some(index) = workers_guard.iter().position(|w| w.url() == worker_url) {
             workers_guard.remove(index);
             info!("Removed worker: {}", worker_url);
-            gauge!("sgl_router_active_workers").set(workers_guard.len() as f64);
+            RouterMetrics::set_active_workers(workers_guard.len());
         } else {
             warn!("Worker {} not found, skipping removal", worker_url);
             return;
diff --git a/sgl-router/src/server.rs b/sgl-router/src/server.rs
index 69340eefe52b..83774f172a35 100644
--- a/sgl-router/src/server.rs
+++ b/sgl-router/src/server.rs
@@ -1,7 +1,7 @@
 use crate::config::RouterConfig;
 use crate::logging::{self, LoggingConfig};
+use crate::metrics::{self, PrometheusConfig};
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
-use crate::prometheus::{self, PrometheusConfig};
 use crate::routers::{RouterFactory, RouterTrait};
 use crate::service_discovery::{start_service_discovery, ServiceDiscoveryConfig};
 use actix_web::{
@@ -237,7 +237,7 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
             "🚧 Initializing Prometheus metrics on {}:{}",
             prometheus_config.host, prometheus_config.port
         );
-        prometheus::start_prometheus(prometheus_config);
+        metrics::start_prometheus(prometheus_config);
     } else {
         info!("🚧 Prometheus metrics disabled");
     }

From b763cf7e8e2519f9b03ae29922ecbeba1db8e314 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Fri, 18 Jul 2025 22:09:54 -0700
Subject: [PATCH 045/396] [router] allow router to have empty workers (#8160)

---
 .../py_src/sglang_router/launch_router.py     |  3 ++-
 sgl-router/py_test/test_launch_router.py      | 23 ++++++++++++++++++-
 2 files changed, 24 insertions(+), 2 deletions(-)

diff --git a/sgl-router/py_src/sglang_router/launch_router.py b/sgl-router/py_src/sglang_router/launch_router.py
index 092946a2719b..f7aaf6dee628 100644
--- a/sgl-router/py_src/sglang_router/launch_router.py
+++ b/sgl-router/py_src/sglang_router/launch_router.py
@@ -97,7 +97,8 @@ def add_cli_args(
         parser.add_argument(
             "--worker-urls",
             type=str,
-            nargs="+",
+            nargs="*",
+            default=[],
             help="List of worker URLs (e.g., http://worker1:8000 http://worker2:8000)",
         )
 
diff --git a/sgl-router/py_test/test_launch_router.py b/sgl-router/py_test/test_launch_router.py
index 14a0fa12d4a9..90d8aa664395 100644
--- a/sgl-router/py_test/test_launch_router.py
+++ b/sgl-router/py_test/test_launch_router.py
@@ -90,7 +90,9 @@ def test_launch_router_common(self):
 
     def test_launch_router_with_empty_worker_urls(self):
         args = self.create_router_args(worker_urls=[])
-        self.run_router_process(args)  # Expected error
+        self.run_router_process(
+            args
+        )  # Should start successfully with empty worker list
 
     def test_launch_router_with_service_discovery(self):
         # Test router startup with service discovery enabled but no selectors
@@ -279,6 +281,25 @@ def test_regular_service_discovery_args_parsing(self):
         self.assertEqual(router_args.prefill_selector, {})
         self.assertEqual(router_args.decode_selector, {})
 
+    def test_empty_worker_urls_args_parsing(self):
+        """Test that router accepts no worker URLs and defaults to empty list."""
+        import argparse
+
+        from sglang_router.launch_router import RouterArgs
+
+        parser = argparse.ArgumentParser()
+        RouterArgs.add_cli_args(parser)
+
+        # Test with no --worker-urls argument at all
+        args = parser.parse_args(["--policy", "random", "--port", "30000"])
+        router_args = RouterArgs.from_cli_args(args)
+        self.assertEqual(router_args.worker_urls, [])
+
+        # Test with explicit empty --worker-urls
+        args = parser.parse_args(["--worker-urls", "--policy", "random"])
+        router_args = RouterArgs.from_cli_args(args)
+        self.assertEqual(router_args.worker_urls, [])
+
 
 if __name__ == "__main__":
     unittest.main()

From cfab0ff6e291851ffb5c96bf25f5ae07c5af3614 Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Fri, 18 Jul 2025 22:34:29 -0700
Subject: [PATCH 046/396] Add GB200 wide-EP docker (#8157)

---
 docker/Dockerfile.gb200 | 357 ++++++++++++++++++++++++++++++++++++++++
 1 file changed, 357 insertions(+)
 create mode 100644 docker/Dockerfile.gb200

diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
new file mode 100644
index 000000000000..05b0f42043bc
--- /dev/null
+++ b/docker/Dockerfile.gb200
@@ -0,0 +1,357 @@
+ARG CUDA_VERSION=12.8.1
+FROM nvidia/cuda:${CUDA_VERSION}-cudnn-devel-ubuntu22.04
+
+ARG BUILD_TYPE=blackwell
+ENV DEBIAN_FRONTEND=noninteractive \
+    CUDA_HOME=/usr/local/cuda \
+    GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/ \
+    NVSHMEM_DIR=/sgl-workspace/nvshmem/install \
+    BUILD_TYPE=${BUILD_TYPE} \
+    TORCH_CUDA_ARCH_LIST="10.0 12.0"
+
+# Set timezone and install all packages
+RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
+ && echo 'tzdata tzdata/Zones/America select Los_Angeles' | debconf-set-selections \
+ && apt-get update && apt-get install -y --no-install-recommends \
+    tzdata \
+    software-properties-common netcat-openbsd kmod unzip openssh-server \
+    curl wget lsof zsh ccache tmux htop git-lfs tree \
+    python3 python3-pip python3-dev libpython3-dev \
+    build-essential cmake \
+    libopenmpi-dev libnuma1 libnuma-dev \
+    libibverbs-dev libibverbs1 libibumad3 \
+    librdmacm1 libnl-3-200 libnl-route-3-200 libnl-route-3-dev libnl-3-dev \
+    ibverbs-providers infiniband-diags perftest \
+    libgoogle-glog-dev libgtest-dev libjsoncpp-dev libunwind-dev \
+    libboost-all-dev libssl-dev \
+    libgrpc-dev libgrpc++-dev libprotobuf-dev protobuf-compiler-grpc \
+    pybind11-dev \
+    libhiredis-dev libcurl4-openssl-dev \
+    libczmq4 libczmq-dev \
+    libfabric-dev \
+    patchelf \
+    nvidia-dkms-550 \
+    devscripts debhelper fakeroot dkms check libsubunit0 libsubunit-dev \
+ && ln -sf /usr/bin/python3 /usr/bin/python \
+ && rm -rf /var/lib/apt/lists/* \
+ && apt-get clean
+
+
+# --- Install SGLang missing package
+RUN pip install netifaces
+
+# --- Install nightly PyTorch ---
+RUN pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128 --force-reinstall
+
+
+# GDRCopy installation
+RUN mkdir -p /tmp/gdrcopy && cd /tmp \
+ && git clone https://github.com/NVIDIA/gdrcopy.git -b v2.4.4 \
+ && cd gdrcopy/packages \
+ && CUDA=/usr/local/cuda ./build-deb-packages.sh \
+ && dpkg -i gdrdrv-dkms_*.deb libgdrapi_*.deb gdrcopy-tests_*.deb gdrcopy_*.deb \
+ && cd / && rm -rf /tmp/gdrcopy
+
+# Fix DeepEP IBGDA symlink
+RUN ln -sf /usr/lib/$(uname -m)-linux-gnu/libmlx5.so.1 /usr/lib/$(uname -m)-linux-gnu/libmlx5.so
+
+# Clone and install SGLang
+# FIXME: Forcing SGLang to 2a2d3478afe8cdb336888f2e6faa3775ac40254e because sgl-kernel v0.2.5 is missing aarch64 package
+WORKDIR /sgl-workspace
+RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5lib six \
+ && git clone https://github.com/sgl-project/sglang.git \
+ && cd sglang \
+ && git checkout 2a2d3478afe8cdb336888f2e6faa3775ac40254e \
+ && case "$CUDA_VERSION" in \
+      12.6.1) CUINDEX=126 ;; \
+      12.8.1) CUINDEX=128 ;; \
+      *) echo "Unsupported CUDA version: $CUDA_VERSION" && exit 1 ;; \
+    esac \
+ && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
+ && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
+      python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.5 --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.4/sgl_kernel-0.2.4+cu128-cp39-abi3-manylinux2014_$(uname -m).whl --force-reinstall --no-deps ; \
+    fi
+
+
+# Build NVSHMEM
+# Build and install NVSHMEM + DeepEP
+RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.2.5/source/nvshmem_src_3.2.5-1.txz \
+ && git clone https://github.com/fzyzcjy/DeepEP.git \
+ && cd DeepEP \
+ && git checkout 1b14ad661c7640137fcfe93cccb2694ede1220b0 \
+ && cd .. \
+ && tar -xf nvshmem_src_3.2.5-1.txz && mv nvshmem_src nvshmem \
+ && cd nvshmem \
+ && git apply /sgl-workspace/DeepEP/third-party/nvshmem.patch \
+ && sed -i '1i#include <unistd.h>' examples/moe_shuffle.cu \
+ && rm -f /sgl-workspace/nvshmem_src_3.2.5-1.txz \
+ && NVSHMEM_SHMEM_SUPPORT=0 \
+    NVSHMEM_UCX_SUPPORT=0 \
+    NVSHMEM_USE_NCCL=0 \
+    NVSHMEM_MPI_SUPPORT=0 \
+    NVSHMEM_IBGDA_SUPPORT=1 \
+    NVSHMEM_PMIX_SUPPORT=0 \
+    NVSHMEM_TIMEOUT_DEVICE_POLLING=0 \
+    NVSHMEM_USE_GDRCOPY=1 \
+    cmake -S . -B build/ -DCMAKE_INSTALL_PREFIX=${NVSHMEM_DIR} -DCMAKE_CUDA_ARCHITECTURES="100;120" \
+ && cmake --build build --target install -j \
+ && cd /sgl-workspace/DeepEP \
+ && NVSHMEM_DIR=${NVSHMEM_DIR} pip install .
+
+# Python tools
+RUN python3 -m pip install --no-cache-dir \
+    datamodel_code_generator \
+    pre-commit \
+    pytest \
+    black \
+    isort \
+    icdiff \
+    uv \
+    wheel \
+    scikit-build-core
+
+# Install development tools and utilities
+RUN apt-get update && apt-get install -y \
+    gdb \
+    ninja-build \
+    vim \
+    tmux \
+    htop \
+    wget \
+    curl \
+    locales \
+    lsof \
+    git \
+    git-lfs \
+    zsh \
+    tree \
+    silversearcher-ag \
+    cloc \
+    unzip \
+    pkg-config \
+    libssl-dev \
+    bear \
+    ccache \
+    less \
+    && apt install -y rdma-core infiniband-diags openssh-server perftest ibverbs-providers libibumad3 libibverbs1 libnl-3-200 libnl-route-3-200 librdmacm1 \
+    && rm -rf /var/lib/apt/lists/* \
+    && apt-get clean
+
+RUN apt update -y \
+    && apt install -y --no-install-recommends gnupg \
+    && echo "deb http://developer.download.nvidia.com/devtools/repos/ubuntu2204/$(if [ "$(uname -m)" = "aarch64" ]; then echo "arm64"; else echo "amd64"; fi) /" | tee /etc/apt/sources.list.d/nvidia-devtools.list \
+    && apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/$(if [ "$(uname -m)" = "aarch64" ]; then echo "sbsa"; else echo "x86_64"; fi)/3bf863cc.pub \
+    && apt update -y \
+    && apt install nsight-systems-cli -y
+
+RUN git clone https://github.com/kvcache-ai/Mooncake.git \
+    && cd Mooncake \
+    && bash dependencies.sh -y \
+    && mkdir build \
+    && cd build \
+    && cmake .. -DUSE_MNNVL=ON \
+    && make -j \
+    && make install
+
+# Set up locale
+RUN locale-gen en_US.UTF-8
+ENV LANG en_US.UTF-8
+ENV LANGUAGE en_US:en
+ENV LC_ALL en_US.UTF-8
+
+# Install minimal Python packages
+RUN python3 -m pip install --no-cache-dir --break-system-packages \
+    pytest \
+    black \
+    isort \
+    icdiff \
+    scikit_build_core \
+    uv \
+    pre-commit \
+    pandas \
+    matplotlib \
+    tabulate
+
+# Install diff-so-fancy
+RUN curl -LSso /usr/local/bin/diff-so-fancy https://github.com/so-fancy/diff-so-fancy/releases/download/v1.4.4/diff-so-fancy \
+    && chmod +x /usr/local/bin/diff-so-fancy
+
+# Install clang-format
+RUN curl -LSso /usr/local/bin/clang-format https://github.com/muttleyxd/clang-tools-static-binaries/releases/download/master-32d3ac78/clang-format-16_linux-amd64 \
+    && chmod +x /usr/local/bin/clang-format
+
+# Install clangd
+RUN curl -L https://github.com/clangd/clangd/releases/download/18.1.3/clangd-linux-18.1.3.zip -o clangd.zip \
+    && unzip clangd.zip \
+    && cp -r clangd_18.1.3/bin/* /usr/local/bin/ \
+    && cp -r clangd_18.1.3/lib/* /usr/local/lib/ \
+    && rm -rf clangd_18.1.3 clangd.zip
+
+# Install CMake
+RUN CMAKE_VERSION=3.31.1 \
+    && ARCH=$(uname -m) \
+    && CMAKE_INSTALLER="cmake-${CMAKE_VERSION}-linux-${ARCH}" \
+    && wget "https://github.com/Kitware/CMake/releases/download/v${CMAKE_VERSION}/${CMAKE_INSTALLER}.tar.gz" \
+    && tar -xzf "${CMAKE_INSTALLER}.tar.gz" \
+    && cp -r "${CMAKE_INSTALLER}/bin/"* /usr/local/bin/ \
+    && cp -r "${CMAKE_INSTALLER}/share/"* /usr/local/share/ \
+    && rm -rf "${CMAKE_INSTALLER}" "${CMAKE_INSTALLER}.tar.gz"
+
+# Add yank script
+COPY --chown=root:root <<-"EOF" /usr/local/bin/yank
+#!/bin/bash
+put() {
+  esc=$1
+  test -n "$TMUX" -o -z "${TERM##screen*}" && esc="\033Ptmux;\033$esc\033\\"
+  printf "$esc"
+}
+put "\033]52;c;!\a"
+buf=$( cat "$@" )
+len=$( printf %s "$buf" | wc -c ) max=74994
+test $len -gt $max && echo "$0: input is $(( len - max )) bytes too long" >&2
+put "\033]52;c;$( printf %s "$buf" | head -c $max | base64 | tr -d '\r\n' )\a"
+test -n "$TMUX" && tmux set-buffer "$buf" ||:
+EOF
+
+RUN chmod +x /usr/local/bin/yank
+
+# Install oh-my-zsh and plugins
+RUN sh -c "$(curl -fsSL https://raw.githubusercontent.com/ohmyzsh/ohmyzsh/master/tools/install.sh)" "" --unattended \
+    && git clone https://github.com/zsh-users/zsh-autosuggestions ${ZSH_CUSTOM:-~/.oh-my-zsh/custom}/plugins/zsh-autosuggestions \
+    && git clone https://github.com/zsh-users/zsh-syntax-highlighting.git ${ZSH_CUSTOM:-~/.oh-my-zsh/custom}/plugins/zsh-syntax-highlighting
+
+# Configure Vim
+COPY --chown=root:root <<-"EOF" /root/.vimrc
+function! Yank(text) abort
+  let escape = system('yank', a:text)
+  if v:shell_error
+    echoerr escape
+  else
+    call writefile([escape], '/dev/tty', 'b')
+  endif
+endfunction
+
+noremap <silent> <Leader>y y:<C-U>call Yank(@0)<CR>
+
+" automatically run yank(1) whenever yanking in Vim
+function! CopyYank() abort
+  call Yank(join(v:event.regcontents, "\n"))
+endfunction
+
+autocmd TextYankPost * call CopyYank()
+
+" Basic settings
+set number
+syntax on
+set mouse=a
+filetype indent on
+
+" Indentation
+set autoindent nosmartindent
+set smarttab
+set expandtab
+set shiftwidth=4
+set softtabstop=4
+
+" Visual guides
+set colorcolumn=120
+highlight ColorColumn ctermbg=5
+
+" Status line
+set laststatus=2
+set statusline=%<%f\ %h%m%r%=%{\"[\".(&fenc==\"\"?&enc:&fenc).((exists(\"+bomb\")\ &&\ &bomb)?\",B\":\"\").\"]\ \"}%k\ %-14.(%l,%c%V%)\ %P
+
+" Backspace behavior
+set backspace=2
+
+" Encoding
+set encoding=utf-8
+set fileencoding=utf-8
+EOF
+
+# Configure tmux
+COPY --chown=root:root <<-"EOF" /root/.tmux.conf
+# Pane border styling
+set -g pane-border-style fg='#742727',bg=black
+set -g pane-active-border-style fg=red,bg=black
+
+# Status bar styling
+set -g status-style bg='#0C8A92',fg=black
+
+# Change prefix key to backtick
+set-option -g prefix `
+unbind C-b
+bind-key ` send-prefix
+
+# Split panes using - and = with current path
+unbind '"'
+bind - splitw -v -c '#{pane_current_path}'
+unbind '%'
+bind = splitw -h -c '#{pane_current_path}'
+
+# Vi mode settings
+bind-key -T copy-mode-vi Y send-keys -X copy-pipe 'yank > #{pane_tty}'
+set-window-option -g mode-keys vi
+
+# Other settings
+set-option -g escape-time 0
+set-option -g base-index 1
+set-window-option -g mouse on
+EOF
+
+# Configure Git
+RUN git config --global core.editor "vim" \
+    && git config --global core.whitespace "fix,-indent-with-non-tab,trailing-space,cr-at-eol" \
+    && git config --global core.pager "diff-so-fancy | less --tabs=4 -RFX" \
+    && git config --global color.ui true \
+    && git config --global color."diff-highlight".oldNormal "red bold" \
+    && git config --global color."diff-highlight".oldHighlight "red bold 52" \
+    && git config --global color."diff-highlight".newNormal "green bold" \
+    && git config --global color."diff-highlight".newHighlight "green bold 22" \
+    && git config --global color.diff.meta "11" \
+    && git config --global color.diff.frag "magenta bold" \
+    && git config --global color.diff.commit "yellow bold" \
+    && git config --global color.diff.old "red bold" \
+    && git config --global color.diff.new "green bold" \
+    && git config --global color.diff.whitespace "red reverse" \
+    && git config --global alias.lg "log --color --graph --pretty=format:'%Cred%h%Creset - %s %Cgreen(%cr) %C(bold blue)<%an>%Creset%C(auto)%d%Creset' --abbrev-commit --" \
+    && git config --global http.sslVerify false \
+    && git config --global pull.rebase true
+
+# Configure zsh
+COPY --chown=root:root <<-"EOF" /root/.zshrc
+export ZSH="/root/.oh-my-zsh"
+
+# Theme
+ZSH_THEME="robbyrussell"
+
+# Plugins
+plugins=(
+    git
+    z
+    zsh-autosuggestions
+    zsh-syntax-highlighting
+)
+
+source $ZSH/oh-my-zsh.sh
+
+# Aliases
+alias ll='ls -alF'
+alias la='ls -A'
+alias l='ls -CF'
+alias vi='vim'
+
+# Enhanced history
+HISTSIZE=10000
+SAVEHIST=10000
+setopt HIST_IGNORE_ALL_DUPS
+setopt HIST_FIND_NO_DUPS
+setopt INC_APPEND_HISTORY
+EOF
+
+RUN set -euxo ; \
+    curl --proto '=https' --tlsv1.2 -sSf https://just.systems/install.sh | bash -s -- --to /usr/local/bin
+
+# Set workspace directory
+WORKDIR /sgl-workspace/sglang

From 15ad6c908670492243cfcb820ca24c40cc9b840d Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sat, 19 Jul 2025 00:51:15 -0700
Subject: [PATCH 047/396] [1/N] MoE Refactor: refactor `select_experts` (#7966)

---
 python/sglang/srt/custom_op.py                |   7 +-
 python/sglang/srt/layers/linear.py            |   2 +-
 python/sglang/srt/layers/moe/ep_moe/layer.py  |  87 ++------
 .../sglang/srt/layers/moe/fused_moe_native.py |  54 +----
 .../layers/moe/fused_moe_triton/fused_moe.py  |  45 +---
 .../srt/layers/moe/fused_moe_triton/layer.py  |  35 +--
 python/sglang/srt/layers/moe/topk.py          | 176 ++++++++++++++-
 .../srt/layers/quantization/__init__.py       |  32 +--
 python/sglang/srt/layers/quantization/awq.py  |  39 +---
 .../srt/layers/quantization/base_config.py    |  21 +-
 .../srt/layers/quantization/blockwise_int8.py |  35 +--
 .../compressed_tensors_moe.py                 |  92 ++------
 python/sglang/srt/layers/quantization/fp8.py  |  52 +----
 python/sglang/srt/layers/quantization/gptq.py |  35 +--
 .../srt/layers/quantization/modelopt_quant.py |  63 +-----
 .../srt/layers/quantization/moe_wna16.py      |  34 +--
 .../sglang/srt/layers/quantization/unquant.py | 207 +++++-------------
 .../srt/layers/quantization/w8a8_fp8.py       |  37 +---
 .../srt/layers/quantization/w8a8_int8.py      |  89 ++------
 python/sglang/srt/models/deepseek.py          |  15 +-
 python/sglang/srt/models/deepseek_v2.py       |  52 ++---
 python/sglang/srt/models/granitemoe.py        |  10 +-
 python/sglang/srt/models/grok.py              |  12 +-
 python/sglang/srt/models/hunyuan.py           |  13 +-
 python/sglang/srt/models/llama4.py            |  22 +-
 python/sglang/srt/models/mixtral.py           |  11 +-
 python/sglang/srt/models/olmoe.py             |  13 +-
 python/sglang/srt/models/phimoe.py            |  12 +-
 python/sglang/srt/models/qwen2_moe.py         |  14 +-
 python/sglang/srt/models/qwen3_moe.py         |  31 ++-
 python/sglang/test/test_block_fp8.py          |  11 +-
 python/sglang/test/test_block_fp8_ep.py       |   2 +-
 python/sglang/test/test_cutlass_w4a8_moe.py   |   4 +-
 python/sglang/test/test_fp4_moe.py            |   4 +-
 test/srt/test_block_int8.py                   |  11 +-
 test/srt/test_fused_moe.py                    |  19 +-
 test/srt/test_int8_kernel.py                  |  10 +-
 .../srt/test_triton_moe_channel_fp8_kernel.py |  10 +-
 test/srt/test_triton_moe_wna16.py             |  11 +-
 39 files changed, 557 insertions(+), 872 deletions(-)

diff --git a/python/sglang/srt/custom_op.py b/python/sglang/srt/custom_op.py
index 5b502a153326..8c662b5ccb57 100644
--- a/python/sglang/srt/custom_op.py
+++ b/python/sglang/srt/custom_op.py
@@ -29,15 +29,18 @@ def enter_torch_compile(self, num_tokens: int):
 
         self._original_forward_method = self._forward_method
         # NOTE: Temporarily workaround MoE
+        # The performance of torch.compile on this layer is not always good when bs > 1,
+        # so we decide to only use torch.compile when bs=1
         if "FusedMoE" in self.__class__.__name__:
             if num_tokens == 1:
                 from sglang.srt.layers.moe.fused_moe_native import (
                     fused_moe_forward_native,
                 )
 
-                # The performance of torch.compile on this layer is not always good when bs > 1,
-                # so we decide to only use torch.compile when bs =1
                 self._forward_method = fused_moe_forward_native
+        elif "TopK" in self.__class__.__name__:
+            if num_tokens == 1:
+                self._forward_method = self.forward_native
         else:
             self._forward_method = self.forward_native
         self.is_torch_compile = True
diff --git a/python/sglang/srt/layers/linear.py b/python/sglang/srt/layers/linear.py
index 07be9a3c6b14..9d8ab8632752 100644
--- a/python/sglang/srt/layers/linear.py
+++ b/python/sglang/srt/layers/linear.py
@@ -756,7 +756,7 @@ def __init__(
         bias: bool = True,
         skip_bias_add: bool = False,
         params_dtype: Optional[torch.dtype] = None,
-        quant_config: Optional["QuantizationConfig"] = None,
+        quant_config: Optional[QuantizationConfig] = None,
         prefix: str = "",
         tp_rank: Optional[int] = None,
         tp_size: Optional[int] = None,
diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index a839b47febed..77d849f3f67b 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1,17 +1,13 @@
 import logging
-from typing import Callable, List, Optional, Tuple
+from typing import List, Optional, Tuple
 
-import einops
 import torch
-from torch.nn import Module
 
-from sglang.srt.custom_op import CustomOp
 from sglang.srt.distributed import (
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
 )
 from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
-from sglang.srt.eplb.expert_location_dispatch import ExpertLocationDispatchInfo
 from sglang.srt.layers.moe.ep_moe.kernels import (
     ep_gather,
     ep_scatter,
@@ -28,7 +24,7 @@
     tma_align_input_scale,
 )
 from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE
-from sglang.srt.layers.moe.topk import select_experts
+from sglang.srt.layers.moe.topk import TopKOutput
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
@@ -162,16 +158,9 @@ def __init__(
         intermediate_size: int,
         layer_id: int,
         params_dtype: Optional[torch.dtype] = None,
-        renormalize: bool = True,
-        use_grouped_topk: bool = False,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        topk_group: Optional[int] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
         prefix: str = "",
-        correction_bias: Optional[torch.Tensor] = None,
-        custom_routing_function: Optional[Callable] = None,
         activation: str = "silu",
         routed_scaling_factor: Optional[float] = None,
         use_per_token_if_dynamic: bool = True,
@@ -189,24 +178,12 @@ def __init__(
         self.layer_id = layer_id
         self.num_experts = num_experts
         assert self.num_experts % self.tp_size == 0
-        assert (
-            num_fused_shared_experts == 0
-        ), "num_fused_shared_experts is not supported in EP"
-        self.num_fused_shared_experts = num_fused_shared_experts
         self.num_experts_per_partition, self.expert_map = self.determine_expert_map()
         self.start_expert_id = self.tp_rank * self.num_experts_per_partition
         self.end_expert_id = self.start_expert_id + self.num_experts_per_partition - 1
 
         self.top_k = top_k
         self.intermediate_size = intermediate_size
-        self.renormalize = renormalize
-        self.use_grouped_topk = use_grouped_topk
-        if self.use_grouped_topk:
-            assert num_expert_group is not None and topk_group is not None
-        self.num_expert_group = num_expert_group
-        self.topk_group = topk_group
-        self.correction_bias = correction_bias
-        self.custom_routing_function = custom_routing_function
         self.activation = activation
         self.routed_scaling_factor = routed_scaling_factor
         self.use_per_token_if_dynamic = use_per_token_if_dynamic
@@ -311,33 +288,24 @@ def determine_expert_map(self) -> Tuple[int, Optional[torch.Tensor]]:
             )
         return (local_num_experts, expert_map)
 
-    def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
+    def forward(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
         if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM and self.use_fp8_w8a8:
-            return self.forward_deepgemm(hidden_states, router_logits)
+            return self.forward_deepgemm(hidden_states, topk_output)
         else:
-            return self.forward_normal(hidden_states, router_logits)
+            return self.forward_normal(hidden_states, topk_output)
 
     def forward_deepgemm(
-        self, hidden_states: torch.Tensor, router_logits: torch.Tensor
+        self,
+        hidden_states: torch.Tensor,
+        topk_output: TopKOutput,
     ):
         assert self.quant_method is not None
         assert self.activation == "silu"
         hidden_states_shape = hidden_states.shape
         hidden_states_dtype = hidden_states.dtype
         hidden_states_device = hidden_states.device
-        topk_weights, topk_ids = select_experts(
-            hidden_states=hidden_states,
-            router_logits=router_logits,
-            top_k=self.top_k,
-            use_grouped_topk=self.use_grouped_topk,
-            renormalize=self.renormalize,
-            topk_group=self.topk_group,
-            num_expert_group=self.num_expert_group,
-            num_fused_shared_experts=self.num_fused_shared_experts,
-            correction_bias=self.correction_bias,
-            custom_routing_function=self.custom_routing_function,
-            routed_scaling_factor=self.routed_scaling_factor,
-        )
+
+        topk_weights, topk_ids, _ = topk_output
 
         if not self.use_block_quant:
             # Convert per-tensor quant to per-block quant by repeating scales for forward_deepgemm
@@ -469,8 +437,10 @@ def forward_deepgemm(
         )
         return output
 
-    def forward_normal(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
+    def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
         assert self.quant_method is not None
+        topk_weights, topk_ids, _ = topk_output
+
         hidden_states_shape = hidden_states.shape
         hidden_states_dtype = hidden_states.dtype
         hidden_states_device = hidden_states.device
@@ -481,23 +451,6 @@ def forward_normal(self, hidden_states: torch.Tensor, router_logits: torch.Tenso
                 use_per_token_if_dynamic=self.use_per_token_if_dynamic,
             )
 
-        topk_weights, topk_ids = select_experts(
-            hidden_states=hidden_states,
-            router_logits=router_logits,
-            top_k=self.top_k,
-            use_grouped_topk=self.use_grouped_topk,
-            renormalize=self.renormalize,
-            topk_group=self.topk_group,
-            num_expert_group=self.num_expert_group,
-            num_fused_shared_experts=self.num_fused_shared_experts,
-            correction_bias=self.correction_bias,
-            custom_routing_function=self.custom_routing_function,
-            routed_scaling_factor=self.routed_scaling_factor,
-            expert_location_dispatch_info=ExpertLocationDispatchInfo.init_new(
-                layer_id=self.layer_id,
-            ),
-        )
-
         if self.use_w4afp8:
             local_topk_ids = topk_ids
             if self.expert_map is not None:
@@ -916,16 +869,9 @@ def __init__(
         intermediate_size: int,
         layer_id: int,
         params_dtype: Optional[torch.dtype] = None,
-        renormalize: bool = True,
-        use_grouped_topk: bool = False,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        topk_group: Optional[int] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
         prefix: str = "",
-        correction_bias: Optional[torch.Tensor] = None,
-        custom_routing_function: Optional[Callable] = None,
         activation: str = "silu",
         routed_scaling_factor: Optional[float] = None,
         deepep_mode: DeepEPMode = DeepEPMode.auto,
@@ -937,16 +883,9 @@ def __init__(
             intermediate_size=intermediate_size,
             layer_id=layer_id,
             params_dtype=params_dtype,
-            renormalize=renormalize,
-            use_grouped_topk=use_grouped_topk,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            topk_group=topk_group,
             quant_config=quant_config,
             tp_size=tp_size,
             prefix=prefix,
-            correction_bias=correction_bias,
-            custom_routing_function=custom_routing_function,
             activation=activation,
             routed_scaling_factor=routed_scaling_factor,
         )
diff --git a/python/sglang/srt/layers/moe/fused_moe_native.py b/python/sglang/srt/layers/moe/fused_moe_native.py
index 25645ad00e91..61eacd78c02c 100644
--- a/python/sglang/srt/layers/moe/fused_moe_native.py
+++ b/python/sglang/srt/layers/moe/fused_moe_native.py
@@ -9,21 +9,14 @@
 from torch.nn import functional as F
 
 from sglang.srt.layers.activation import GeluAndMul, SiluAndMul
-from sglang.srt.layers.moe.topk import select_experts
+from sglang.srt.layers.moe.topk import TopKOutput
 
 
 def fused_moe_forward_native(
     layer: torch.nn.Module,
     x: torch.Tensor,
-    use_grouped_topk: bool,
-    top_k: int,
-    router_logits: torch.Tensor,
-    renormalize: bool,
-    topk_group: Optional[int] = None,
-    num_expert_group: Optional[int] = None,
-    num_fused_shared_experts: int = 0,
-    custom_routing_function: Optional[Callable] = None,
-    correction_bias: Optional[torch.Tensor] = None,
+    topk_output: TopKOutput,
+    *,
     activation: str = "silu",
     apply_router_weight_on_input: bool = False,
     inplace: bool = True,
@@ -34,20 +27,7 @@ def fused_moe_forward_native(
     if apply_router_weight_on_input:
         raise NotImplementedError()
 
-    topk_weights, topk_ids = select_experts(
-        hidden_states=x,
-        router_logits=router_logits,
-        use_grouped_topk=use_grouped_topk,
-        top_k=top_k,
-        renormalize=renormalize,
-        topk_group=topk_group,
-        num_expert_group=num_expert_group,
-        num_fused_shared_experts=num_fused_shared_experts,
-        custom_routing_function=custom_routing_function,
-        correction_bias=correction_bias,
-        routed_scaling_factor=routed_scaling_factor,
-        torch_native=True,
-    )
+    topk_weights, topk_ids, _ = topk_output
 
     w13_weights = layer.w13_weight[topk_ids]
     w1_weights, w3_weights = torch.chunk(w13_weights, 2, dim=2)
@@ -67,15 +47,8 @@ def fused_moe_forward_native(
 def moe_forward_native(
     layer: torch.nn.Module,
     x: torch.Tensor,
-    use_grouped_topk: bool,
-    top_k: int,
-    router_logits: torch.Tensor,
-    renormalize: bool,
-    topk_group: Optional[int] = None,
-    num_expert_group: Optional[int] = None,
-    num_fused_shared_experts: int = 0,
-    custom_routing_function: Optional[Callable] = None,
-    correction_bias: Optional[torch.Tensor] = None,
+    topk_output: TopKOutput,
+    *,
     activation: str = "silu",
     apply_router_weight_on_input: bool = False,
     inplace: bool = True,
@@ -86,20 +59,7 @@ def moe_forward_native(
     if apply_router_weight_on_input:
         raise NotImplementedError()
 
-    topk_weights, topk_ids = select_experts(
-        hidden_states=x,
-        router_logits=router_logits,
-        use_grouped_topk=use_grouped_topk,
-        top_k=top_k,
-        renormalize=renormalize,
-        topk_group=topk_group,
-        num_expert_group=num_expert_group,
-        num_fused_shared_experts=num_fused_shared_experts,
-        custom_routing_function=custom_routing_function,
-        correction_bias=correction_bias,
-        torch_native=True,
-        routed_scaling_factor=routed_scaling_factor,
-    )
+    topk_weights, topk_ids, _ = topk_output
 
     # Ref code from https://huggingface.co/deepseek-ai/DeepSeek-V2/blob/e0828e3cc0a03408724b80c3cc92c8e072db8d01/modeling_deepseek.py#L589
     len_experts = layer.num_experts
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
index baf8f5c87e5b..a39d6d5d3da4 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -6,13 +6,13 @@
 import json
 import logging
 import os
-from typing import Any, Callable, Dict, List, Optional, Tuple
+from typing import Any, Dict, List, Optional, Tuple
 
 import torch
 import triton
 import triton.language as tl
 
-from sglang.srt.layers.moe.topk import select_experts
+from sglang.srt.layers.moe.topk import TopKOutput
 from sglang.srt.layers.quantization.fp8_kernel import (
     per_token_group_quant_fp8,
     scaled_fp8_quant,
@@ -1328,8 +1328,7 @@ def fused_experts(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
     w2: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
+    topk_output: TopKOutput,
     inplace: bool = False,
     activation: str = "silu",
     apply_router_weight_on_input: bool = False,
@@ -1348,7 +1347,7 @@ def fused_experts(
     no_combine: bool = False,
     routed_scaling_factor: Optional[float] = None,
 ):
-
+    topk_weights, topk_ids, _ = topk_output
     if inplace:
         assert not no_combine, "no combine + inplace makes no sense"
         torch.ops.sglang.inplace_fused_experts(
@@ -1732,17 +1731,10 @@ def fused_moe(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
     w2: torch.Tensor,
-    gating_output: torch.Tensor,
-    topk: int,
-    renormalize: bool,
+    topk_output: TopKOutput,
     inplace: bool = False,
     activation: str = "silu",
     apply_router_weight_on_input: bool = False,
-    use_grouped_topk: bool = False,
-    num_expert_group: Optional[int] = None,
-    num_fused_shared_experts: int = 0,
-    topk_group: Optional[int] = None,
-    custom_routing_function: Optional[Callable] = None,
     use_fp8_w8a8: bool = False,
     use_int8_w8a8: bool = False,
     use_int8_w8a16: bool = False,
@@ -1766,16 +1758,9 @@ def fused_moe(
     - hidden_states (torch.Tensor): The input tensor to the MoE layer.
     - w1 (torch.Tensor): The first set of expert weights.
     - w2 (torch.Tensor): The second set of expert weights.
-    - gating_output (torch.Tensor): The output of the gating operation
-        (before softmax).
-    - topk (int): The number of top-k experts to select.
-    - renormalize (bool): If True, renormalize the top-k weights to sum to 1.
+    - topk_output (TopKOutput): The top-k output of the experts.
     - inplace (bool): If True, perform the operation in-place.
         Defaults to False.
-    - num_expert_group: Optional[int]: additional parameter for grouped_topk
-    - topk_group: Optional[int]: additional parameter for grouped_topk
-    - use_grouped_topk: If True, use grouped_topk instead of fused_topk
-        note: Deepseek V2/V3/R1 series models use grouped_topk
     - use_fp8_w8a8 (bool): If True, use fp8 arithmetic to compute the inner
         products for w1 and w2. Defaults to False.
     - use_int8_w8a8 (bool): If True, use int8 arithmetic to compute the inner
@@ -1799,28 +1784,12 @@ def fused_moe(
     Returns:
     - torch.Tensor: The output tensor after applying the MoE layer.
     """
-    # Check constraints.
-    assert gating_output.shape[1] == w1.shape[0], "Number of experts mismatch"
-
-    topk_weights, topk_ids = select_experts(
-        hidden_states=hidden_states,
-        router_logits=gating_output,
-        use_grouped_topk=use_grouped_topk,
-        top_k=topk,
-        renormalize=renormalize,
-        topk_group=topk_group,
-        num_expert_group=num_expert_group,
-        num_fused_shared_experts=num_fused_shared_experts,
-        custom_routing_function=custom_routing_function,
-        routed_scaling_factor=routed_scaling_factor,
-    )
 
     return fused_experts(
         hidden_states,
         w1,
         w2,
-        topk_weights,
-        topk_ids,
+        topk_output,
         inplace=inplace,
         activation=activation,
         apply_router_weight_on_input=apply_router_weight_on_input,
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 41ae6274b087..0c3cb0422f55 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -2,7 +2,7 @@
 
 import logging
 from enum import Enum
-from typing import Callable, List, Optional, Tuple
+from typing import List, Optional, Tuple
 
 import torch
 
@@ -11,6 +11,7 @@
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
 )
+from sglang.srt.layers.moe.topk import TopKOutput
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
@@ -59,22 +60,15 @@ class FusedMoE(torch.nn.Module):
     def __init__(
         self,
         num_experts: int,
-        top_k: int,
         hidden_size: int,
         intermediate_size: int,
+        top_k: Optional[int] = None,
         layer_id: Optional[int] = None,
         params_dtype: Optional[torch.dtype] = None,
         reduce_results: bool = False,
-        renormalize: bool = True,
-        use_grouped_topk: bool = False,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        topk_group: Optional[int] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
         prefix: str = "",
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         use_presharded_weights: bool = False,
@@ -89,6 +83,7 @@ def __init__(
         if params_dtype is None:
             params_dtype = torch.get_default_dtype()
 
+        self.top_k = top_k
         self.hidden_size = hidden_size
         self.tp_size = (
             tp_size if tp_size is not None else get_tensor_model_parallel_world_size()
@@ -126,19 +121,9 @@ def __init__(
             self.ep_rank = 0
             self.local_num_experts = num_experts
         self.routed_scaling_factor = routed_scaling_factor
-        self.top_k = top_k
         assert intermediate_size % self.tp_size == 0
         self.intermediate_size_per_partition = intermediate_size // self.tp_size
         self.reduce_results = reduce_results
-        self.renormalize = renormalize
-        self.use_grouped_topk = use_grouped_topk
-        if self.use_grouped_topk:
-            assert num_expert_group is not None and topk_group is not None
-        self.num_expert_group = num_expert_group
-        self.num_fused_shared_experts = num_fused_shared_experts
-        self.topk_group = topk_group
-        self.custom_routing_function = custom_routing_function
-        self.correction_bias = correction_bias
         self.activation = activation
         self.apply_router_weight_on_input = apply_router_weight_on_input
         self.use_presharded_weights = use_presharded_weights
@@ -562,22 +547,14 @@ def weight_loader(
             )
             return
 
-    def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
+    def forward(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
         assert self.quant_method is not None
 
         # Matrix multiply.
         final_hidden_states = self.quant_method.apply(
             layer=self,
             x=hidden_states,
-            router_logits=router_logits,
-            top_k=self.top_k,
-            renormalize=self.renormalize,
-            use_grouped_topk=self.use_grouped_topk,
-            topk_group=self.topk_group,
-            num_expert_group=self.num_expert_group,
-            num_fused_shared_experts=self.num_fused_shared_experts,
-            custom_routing_function=self.custom_routing_function,
-            correction_bias=self.correction_bias,
+            topk_output=topk_output,
             activation=self.activation,
             apply_router_weight_on_input=self.apply_router_weight_on_input,
             routed_scaling_factor=self.routed_scaling_factor,
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index 40fc0b61f650..bb3cf651542a 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -12,12 +12,15 @@
 # limitations under the License.
 # ==============================================================================
 
+from __future__ import annotations
+
 import math
-from typing import Callable, Optional
+from typing import TYPE_CHECKING, Callable, NamedTuple, Optional
 
 import torch
 import torch.nn.functional as F
 
+from sglang.srt.custom_op import CustomOp
 from sglang.srt.eplb import expert_location_dispatch
 from sglang.srt.eplb.expert_distribution import get_global_expert_distribution_recorder
 from sglang.srt.eplb.expert_location_dispatch import (
@@ -52,6 +55,168 @@
     except ImportError:
         raise ImportError("aiter is required when SGLANG_USE_AITER is set to True")
 
+if _is_npu:
+    import torch_npu
+
+
+class TopKOutput(NamedTuple):
+    topk_weights: torch.Tensor
+    topk_ids: torch.Tensor
+    router_logits: torch.Tensor
+
+
+class TopK(CustomOp):
+
+    # TODO(ch-wan): support triton_kernels
+
+    def __init__(
+        self,
+        top_k: int,
+        *,
+        use_grouped_topk: bool = False,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        renormalize: bool = True,
+        num_fused_shared_experts: int = 0,
+        custom_routing_function: Optional[Callable] = None,
+        scoring_func: str = "softmax",
+        correction_bias: Optional[torch.Tensor] = None,
+        routed_scaling_factor: Optional[float] = None,
+    ):
+        # NOTE: scoring_func is not used for now, but we keep it for future use
+        # see https://github.com/sgl-project/sglang/pull/4505 for more details
+        super().__init__()
+        if use_grouped_topk:
+            assert num_expert_group is not None and topk_group is not None
+        self.top_k = top_k
+        self.use_grouped_topk = use_grouped_topk
+        self.renormalize = renormalize
+        self.topk_group = topk_group
+        self.num_expert_group = num_expert_group
+        self.num_fused_shared_experts = num_fused_shared_experts
+        self.custom_routing_function = custom_routing_function
+        self.correction_bias = correction_bias
+        self.routed_scaling_factor = routed_scaling_factor
+
+    def forward_native(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        *,
+        num_token_non_padded: Optional[torch.Tensor] = None,
+        expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
+    ) -> TopKOutput:
+        torch_native = True
+        return select_experts(
+            hidden_states=hidden_states,
+            router_logits=router_logits,
+            top_k=self.top_k,
+            use_grouped_topk=self.use_grouped_topk,
+            renormalize=self.renormalize,
+            topk_group=self.topk_group,
+            num_expert_group=self.num_expert_group,
+            num_fused_shared_experts=self.num_fused_shared_experts,
+            custom_routing_function=self.custom_routing_function,
+            correction_bias=self.correction_bias,
+            torch_native=torch_native,
+            routed_scaling_factor=self.routed_scaling_factor,
+            num_token_non_padded=num_token_non_padded,
+            expert_location_dispatch_info=expert_location_dispatch_info,
+        )
+
+    def forward_cuda(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        *,
+        num_token_non_padded: Optional[torch.Tensor] = None,
+        expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
+    ) -> TopKOutput:
+        torch_native = False
+        return select_experts(
+            hidden_states=hidden_states,
+            router_logits=router_logits,
+            top_k=self.top_k,
+            use_grouped_topk=self.use_grouped_topk,
+            renormalize=self.renormalize,
+            topk_group=self.topk_group,
+            num_expert_group=self.num_expert_group,
+            num_fused_shared_experts=self.num_fused_shared_experts,
+            custom_routing_function=self.custom_routing_function,
+            correction_bias=self.correction_bias,
+            torch_native=torch_native,
+            routed_scaling_factor=self.routed_scaling_factor,
+            num_token_non_padded=num_token_non_padded,
+            expert_location_dispatch_info=expert_location_dispatch_info,
+        )
+
+    def forward_cpu(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        *,
+        num_token_non_padded: Optional[torch.Tensor] = None,
+        expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
+    ) -> TopKOutput:
+        return select_experts(
+            hidden_states=hidden_states,
+            router_logits=router_logits,
+            top_k=self.top_k,
+            use_grouped_topk=self.use_grouped_topk,
+            renormalize=self.renormalize,
+            topk_group=self.topk_group,
+            num_expert_group=self.num_expert_group,
+            num_fused_shared_experts=self.num_fused_shared_experts,
+            custom_routing_function=self.custom_routing_function,
+            correction_bias=self.correction_bias,
+            routed_scaling_factor=self.routed_scaling_factor,
+            num_token_non_padded=num_token_non_padded,
+            expert_location_dispatch_info=expert_location_dispatch_info,
+        )
+
+    def forward_npu(
+        self,
+        hidden_states: torch.Tensor,
+        router_logits: torch.Tensor,
+        *,
+        num_token_non_padded: Optional[torch.Tensor] = None,
+        expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
+    ) -> TopKOutput:
+        global_num_experts = router_logits.shape[-1]
+
+        # NOTE: now npu_moe_gating_top_k can only support `group_count=256` pattern
+        if global_num_experts == 256:
+            return torch_npu.npu_moe_gating_top_k(
+                router_logits,
+                k=self.top_k,
+                bias=self.correction_bias,
+                k_group=self.topk_group,
+                group_count=self.num_expert_group,
+                group_select_mode=1,
+                renorm=0,
+                norm_type=1,
+                routed_scaling_factor=1,
+                eps=float(1e-20),
+            )
+        else:
+            torch_native = True
+            return select_experts(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+                top_k=self.top_k,
+                use_grouped_topk=self.use_grouped_topk,
+                renormalize=self.renormalize,
+                topk_group=self.topk_group,
+                num_expert_group=self.num_expert_group,
+                num_fused_shared_experts=self.num_fused_shared_experts,
+                custom_routing_function=self.custom_routing_function,
+                correction_bias=self.correction_bias,
+                torch_native=torch_native,
+                routed_scaling_factor=self.routed_scaling_factor,
+                num_token_non_padded=num_token_non_padded,
+                expert_location_dispatch_info=expert_location_dispatch_info,
+            )
+
 
 def fused_topk_torch_native(
     hidden_states: torch.Tensor,
@@ -436,8 +601,9 @@ def select_experts(
     hidden_states: torch.Tensor,
     router_logits: torch.Tensor,
     top_k: int,
-    use_grouped_topk: bool,
-    renormalize: bool,
+    *,
+    use_grouped_topk: bool = False,
+    renormalize: bool = False,
     topk_group: Optional[int] = None,
     num_expert_group: Optional[int] = None,
     num_fused_shared_experts: int = 0,
@@ -447,7 +613,7 @@ def select_experts(
     routed_scaling_factor: Optional[float] = None,
     num_token_non_padded: Optional[torch.Tensor] = None,
     expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
-):
+) -> TopKOutput:
     router_logits, correction_bias = (
         expert_location_dispatch.transform_select_experts_inputs(
             router_logits=router_logits,
@@ -522,4 +688,4 @@ def select_experts(
 
     get_global_expert_distribution_recorder().on_select_experts(topk_ids=topk_ids)
 
-    return topk_weights, topk_ids
+    return TopKOutput(topk_weights, topk_ids, router_logits)
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index d51186465a0f..496cbc8f5392 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -1,7 +1,9 @@
 # Adapted from https://raw.githubusercontent.com/vllm-project/vllm/v0.5.5/vllm/model_executor/layers/quantization/__init__.py
+from __future__ import annotations
+
 import builtins
 import inspect
-from typing import Callable, Dict, Optional, Type, Union
+from typing import TYPE_CHECKING, Callable, Dict, Optional, Type, Union
 
 import torch
 
@@ -65,6 +67,9 @@ def override_quantization_method(self, *args, **kwargs):
 from sglang.srt.layers.quantization.w8a8_fp8 import W8A8Fp8Config
 from sglang.srt.layers.quantization.w8a8_int8 import W8A8Int8Config
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 # Base quantization methods that don't depend on vllm
 BASE_QUANTIZATION_METHODS: Dict[str, Type[QuantizationConfig]] = {
     "fp8": Fp8Config,
@@ -186,15 +191,8 @@ def new_apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -208,20 +206,8 @@ def new_apply(
             "self": self,
             "layer": layer,
             "x": x,
-            "router_logits": router_logits,
-            "top_k": top_k,
-            "renormalize": renormalize,
-            "use_grouped_topk": use_grouped_topk,
-            "topk_group": topk_group,
-            "num_expert_group": num_expert_group,
-            "custom_routing_function": custom_routing_function,
+            "topk_output": topk_output,
         }
-        if correction_bias is not None:
-            if not has_correction_bias:
-                raise ValueError(
-                    "Please increase the version of your vllm. Try `pip install vllm==0.9.0.1`"
-                )
-            kwargs["e_score_correction_bias"] = correction_bias
         return original_apply(**kwargs)
 
     setattr(class_obj, "apply", new_apply)
diff --git a/python/sglang/srt/layers/quantization/awq.py b/python/sglang/srt/layers/quantization/awq.py
index c20beb2ff0b9..0f66b954ca72 100644
--- a/python/sglang/srt/layers/quantization/awq.py
+++ b/python/sglang/srt/layers/quantization/awq.py
@@ -3,7 +3,7 @@
 
 import logging
 import warnings
-from typing import Any, Callable, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional
 
 import torch
 
@@ -33,6 +33,9 @@
 from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
 from sglang.srt.layers.quantization.utils import replace_parameter
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 try:
     from vllm import _custom_ops as ops
 
@@ -737,45 +740,19 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        scoring_func: str = "softmax",
-        correction_bias: Optional[torch.Tensor] = None,
-        apply_router_weight_on_input: bool = False,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
-        routed_scaling_factor: Optional[float] = None,
+        **kwargs,
     ) -> torch.Tensor:
-        # Delay the import to avoid circular dependency
-        from sglang.srt.layers.moe.topk import select_experts
 
         assert activation == "silu", "Only SiLU activation is supported."
-        assert (
-            scoring_func == "softmax"
-        ), "Only softmax score func is supported for now."
 
         # The input must currently be float16
         orig_dtype = x.dtype
         x = x.half()
 
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            top_k=top_k,
-            use_grouped_topk=use_grouped_topk,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
+        topk_weights, topk_ids, router_logits = topk_output
 
         return fused_marlin_moe(
             x,
diff --git a/python/sglang/srt/layers/quantization/base_config.py b/python/sglang/srt/layers/quantization/base_config.py
index 607151671bff..bf24c3701076 100644
--- a/python/sglang/srt/layers/quantization/base_config.py
+++ b/python/sglang/srt/layers/quantization/base_config.py
@@ -1,12 +1,16 @@
 # Adapted from https://raw.githubusercontent.com/vllm-project/vllm/v0.5.5/vllm/model_executor/layers/quantization/base_config.py
+from __future__ import annotations
 
 import inspect
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Optional, Type
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Type
 
 import torch
 from torch import nn
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 
 class QuantizeMethodBase(ABC):
     """Base class for different quantized methods."""
@@ -88,19 +92,22 @@ def create_weights(
         params_dtype: torch.dtype,
         **extra_weight_attrs,
     ):
-        raise NotImplementedError()
+        raise NotImplementedError
 
     @abstractmethod
     def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
+        topk_output: TopKOutput,
+        *,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
-        raise NotImplementedError()
+        raise NotImplementedError
 
 
 class QuantizationConfig(ABC):
diff --git a/python/sglang/srt/layers/quantization/blockwise_int8.py b/python/sglang/srt/layers/quantization/blockwise_int8.py
index a1da999b3af1..62dc45ad9ca9 100644
--- a/python/sglang/srt/layers/quantization/blockwise_int8.py
+++ b/python/sglang/srt/layers/quantization/blockwise_int8.py
@@ -3,7 +3,7 @@
 from __future__ import annotations
 
 import logging
-from typing import Any, Callable, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional
 
 import torch
 from torch.nn import Module
@@ -21,6 +21,9 @@
 from sglang.srt.layers.quantization.utils import is_layer_skipped
 from sglang.srt.utils import set_weight_attrs
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 ACTIVATION_SCHEMES = ["static", "dynamic"]
 
 logger = logging.getLogger(__name__)
@@ -344,15 +347,8 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -360,30 +356,13 @@ def apply(
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
-
-        # Expert selection
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         # Expert fusion with INT8 quantization
         return fused_experts(
             x,
             layer.w13_weight,
             layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace,
             activation=activation,
             apply_router_weight_on_input=apply_router_weight_on_input,
diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index b471184d2260..39e5f9e252da 100644
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -1,15 +1,17 @@
 # Adapted from https://github.com/vllm-project/vllm/tree/v0.8.2/vllm/model_executor/layers/quantization/compressed_tensors
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 
 import enum
 import logging
 from enum import Enum
-from typing import Callable, List, Optional
+from typing import TYPE_CHECKING, List, Optional
 
 import torch
 from compressed_tensors import CompressionFormat
 from compressed_tensors.quantization import QuantizationStrategy
 
+from sglang.srt.layers.quantization.base_config import FusedMoEMethodBase
 from sglang.srt.layers.quantization.fp8_kernel import is_fp8_fnuz, scaled_fp8_quant
 from sglang.srt.layers.quantization.fp8_utils import normalize_e4m3fn_to_e4m3fnuz
 from sglang.srt.layers.quantization.utils import (
@@ -20,6 +22,12 @@
 )
 from sglang.srt.utils import is_cpu, is_cuda, is_npu, set_weight_attrs
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+    from sglang.srt.layers.quantization.compressed_tensors.compressed_tensors import (
+        CompressedTensorsConfig,
+    )
+
 _is_cuda = is_cuda()
 _is_npu = is_npu()
 _is_cpu_amx_available = cpu_has_amx_support()
@@ -51,7 +59,7 @@ class GPTQMarlinState(Enum):
 ]
 
 
-class CompressedTensorsMoEMethod:
+class CompressedTensorsMoEMethod(FusedMoEMethodBase):
     def __new__(cls, *args, **kwargs):
         if cls is CompressedTensorsMoEMethod:
             return super().__new__(cls)
@@ -59,7 +67,7 @@ def __new__(cls, *args, **kwargs):
 
     @staticmethod
     def get_moe_method(
-        quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501
+        quant_config: CompressedTensorsConfig,
     ) -> "CompressedTensorsMoEMethod":
         # TODO: @dsikka: refactor this to use schemes as other kernels
         # are supported + check if the layer is being ignored.
@@ -82,9 +90,7 @@ def get_moe_method(
 
 class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
 
-    def __init__(
-        self, quant_config: "CompressedTensorsConfig"  # type: ignore # noqa E501
-    ):
+    def __init__(self, quant_config: CompressedTensorsConfig):
         self.quant_config = quant_config
         self.weight_quant = self.quant_config.target_scheme_map["Linear"].get("weights")
         self.input_quant = self.quant_config.target_scheme_map["Linear"].get(
@@ -270,47 +276,21 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        global_num_experts: int = -1,
-        expert_map: Optional[torch.Tensor] = None,
-        custom_routing_function: Optional[Callable] = None,
-        scoring_func: str = "softmax",
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
         inplace: bool = True,
         no_combine: bool = False,
-        apply_router_weight_on_input: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
         from sglang.srt.layers.moe.fused_moe_triton import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
-
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         return fused_experts(
             x,
             layer.w13_weight,
             layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace,
             activation=activation,
             use_fp8_w8a8=True,
@@ -327,9 +307,7 @@ def apply(
 
 class CompressedTensorsWNA16MoEMethod(CompressedTensorsMoEMethod):
 
-    def __init__(
-        self, quant_config: "CompressedTensorsConfig"  # type: ignore # noqa E501
-    ):
+    def __init__(self, quant_config: CompressedTensorsConfig):
         self.quant_config = quant_config
         # TODO: @dsikka: refactor this to use schemes as other kernels
         # are supported + check if the layer is being ignored.
@@ -628,43 +606,15 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        global_num_experts: int = -1,
-        expert_map: Optional[torch.Tensor] = None,
-        custom_routing_function: Optional[Callable] = None,
-        scoring_func: str = "softmax",
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
-        routed_scaling_factor: Optional[float] = None,
+        **kwargs,
     ) -> torch.Tensor:
-        from sglang.srt.layers.moe.topk import select_experts
 
         assert activation == "silu", "Only SiLU activation is supported."
-        if expert_map is not None:
-            raise NotImplementedError(
-                "Expert Parallelism is not supported for " "fused Marlin MoE method."
-            )
 
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            scoring_func=scoring_func,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
+        topk_weights, topk_ids, router_logits = topk_output
 
         return torch.ops.vllm.fused_marlin_moe(
             x,
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 7275ea430132..23daa5d26fb8 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -3,7 +3,7 @@
 from __future__ import annotations
 
 import logging
-from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -78,6 +78,7 @@ def dummy_func(*args, **kwargs):
 )
 
 if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
     from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config
 
 _is_hip = is_hip()
@@ -971,15 +972,8 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -987,26 +981,11 @@ def apply(
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
-
-        # Expert selection
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         if use_intel_amx_backend(layer):
             from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
 
+            topk_weights, topk_ids, _ = topk_output
             x, topk_weights = apply_topk_weights_cpu(
                 apply_router_weight_on_input, topk_weights, x
             )
@@ -1032,8 +1011,7 @@ def apply(
             ret = self.maybe_apply_hip_fused_experts(
                 layer,
                 x,
-                topk_weights,
-                topk_ids,
+                topk_output,
                 activation,
                 no_combine,
             )
@@ -1048,6 +1026,7 @@ def apply(
         ):
             from sglang.srt.layers.moe.cutlass_moe import cutlass_fused_experts_fp8
 
+            topk_weights, topk_ids, _ = topk_output
             return cutlass_fused_experts_fp8(
                 x,
                 layer.w13_weight.transpose(1, 2),
@@ -1076,8 +1055,7 @@ def apply(
             x,
             layer.w13_weight,
             layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace and not no_combine,
             activation=activation,
             apply_router_weight_on_input=apply_router_weight_on_input,
@@ -1101,11 +1079,11 @@ def maybe_apply_hip_fused_experts(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        topk_weights: torch.Tensor,
-        topk_ids: torch.Tensor,
+        topk_output: TopKOutput,
         activation: str = "silu",
         no_combine: bool = False,
     ) -> Optional[torch.Tensor]:
+        topk_weights, topk_ids, _ = topk_output
         if _use_hip_int4:
             # TODO: add triton kernel and add check _use_aiter
             assert not no_combine, f"{no_combine=} is not supported."
@@ -1397,14 +1375,8 @@ def process_weights_after_loading(self, layer: Module) -> None:
     def apply(
         self,
         layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        custom_routing_function: Optional[Callable] = None,
+        hidden_states: torch.Tensor,
+        topk_output: TopKOutput,
     ) -> torch.Tensor:
         raise NotImplementedError
 
diff --git a/python/sglang/srt/layers/quantization/gptq.py b/python/sglang/srt/layers/quantization/gptq.py
index af56c3be719a..4f2eba4e3f48 100644
--- a/python/sglang/srt/layers/quantization/gptq.py
+++ b/python/sglang/srt/layers/quantization/gptq.py
@@ -3,7 +3,7 @@
 import logging
 from dataclasses import dataclass
 from fractions import Fraction
-from typing import Any, Callable, Dict, List, Optional, Union
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union
 
 import torch
 
@@ -43,6 +43,9 @@
     unpack_cols,
 )
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 try:
     from vllm import _custom_ops as ops
 except ImportError:
@@ -1057,42 +1060,20 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        global_num_experts: int = -1,
-        expert_map: Optional[torch.Tensor] = None,
-        custom_routing_function: Optional[Callable] = None,
-        scoring_func: str = "softmax",
-        e_score_correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
+        **kwargs,
     ) -> torch.Tensor:
         # Delay the import to avoid circular dependency
-        from sglang.srt.layers.moe.topk import select_experts
 
         assert activation == "silu", "Only SiLU activation is supported."
-        assert (
-            scoring_func == "softmax"
-        ), "Only softmax score func is supported for now."
 
         # The input must currently be float16
         orig_dtype = x.dtype
         x = x.half()
 
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            custom_routing_function=custom_routing_function,
-            correction_bias=e_score_correction_bias,
-        )
+        topk_weights, topk_ids, router_logits = topk_output
 
         return fused_marlin_moe(
             x,
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 5263f3b920b1..73de5b0d1594 100644
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -2,7 +2,7 @@
 from __future__ import annotations
 
 import logging
-from typing import Any, Callable, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -31,6 +31,9 @@
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.utils import is_cuda, next_power_of_2
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 if is_cuda():
     from sgl_kernel import cutlass_scaled_fp4_mm, scaled_fp4_quant
 
@@ -402,15 +405,8 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: Optional[int] = None,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -418,29 +414,12 @@ def apply(
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
-
-        # Expert selection
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         return fused_experts(
             x,
             layer.w13_weight,
             layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace,
             activation=activation,
             use_fp8_w8a8=True,
@@ -961,15 +940,8 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: Optional[int] = None,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -982,21 +954,6 @@ def apply(
     ) -> torch.Tensor:
 
         assert activation == "silu", "Only SiLU activation is supported."
-        from sglang.srt.layers.moe.topk import select_experts
-
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         if self.enable_flashinfer_moe:
             assert (
@@ -1004,6 +961,7 @@ def apply(
             ), "apply_router_weight_on_input is not supported for Flashinfer"
             # TRTLLM Cutlass moe takes in activations in BF16/Half/nvfp4 precision
             # and fp4 quantized weights loaded from the checkpoint
+            topk_weights, topk_ids, _ = topk_output
             output = flashinfer_cutlass_fused_moe(
                 x,
                 topk_ids.to(torch.int),
@@ -1029,6 +987,7 @@ def apply(
 
         from sglang.srt.layers.moe.cutlass_moe import cutlass_moe_fp4
 
+        topk_weights, topk_ids, _ = topk_output
         return cutlass_moe_fp4(
             a=x,
             a1_gscale=layer.w13_input_scale_quant,
diff --git a/python/sglang/srt/layers/quantization/moe_wna16.py b/python/sglang/srt/layers/quantization/moe_wna16.py
index f83b9bb1f71d..fbbf1106616d 100644
--- a/python/sglang/srt/layers/quantization/moe_wna16.py
+++ b/python/sglang/srt/layers/quantization/moe_wna16.py
@@ -2,8 +2,9 @@
 from __future__ import annotations
 
 import logging
-from typing import Any, Callable, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Dict, List, Optional
 
+import numpy as np
 import torch
 
 from sglang.srt.distributed import get_tensor_model_parallel_rank
@@ -20,6 +21,9 @@
 
 logger = logging.getLogger(__name__)
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 
 def get_weight_perm(num_bits: int):
     perm_list: List[int] = []
@@ -348,15 +352,8 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -365,22 +362,8 @@ def apply(
     ) -> torch.Tensor:
         # avoid circular import
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
 
         assert activation == "silu", "Only SiLU activation is supported."
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            top_k=top_k,
-            use_grouped_topk=use_grouped_topk,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         weight_bits = self.quant_config.weight_bits
         has_zp = self.quant_config.has_zp
@@ -389,8 +372,7 @@ def apply(
             x,
             layer.w13_qweight,
             layer.w2_qweight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace,
             apply_router_weight_on_input=apply_router_weight_on_input,
             use_int4_w4a16=weight_bits == 4,
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index 06afcb70be91..fa4cbf582027 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -1,5 +1,7 @@
+from __future__ import annotations
+
 import importlib
-from typing import Callable, List, Optional
+from typing import TYPE_CHECKING, Callable, List, Optional
 
 import torch
 import torch.nn.functional as F
@@ -21,6 +23,9 @@
     use_intel_amx_backend,
 )
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 has_triton_kernels = importlib.util.find_spec("triton_kernels") is not None
 
 
@@ -125,25 +130,6 @@ def __init__(self, use_triton_kernels: bool = False):
         super().__init__()
         self.use_triton_kernels = use_triton_kernels
 
-        from sglang.srt.layers.moe.fused_moe_native import moe_forward_native
-
-        if torch.cuda.is_available():
-            from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-
-            if has_triton_kernels:
-                from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
-                    triton_kernel_moe_forward,
-                )
-            else:
-                triton_kernel_moe_forward = None
-        else:
-            fused_experts = None  # type: ignore
-            triton_kernel_moe_forward = None
-
-        self.moe_forward_native = moe_forward_native
-        self.fused_experts = fused_experts
-        self.triton_kernel_moe_forward = triton_kernel_moe_forward
-
     def create_weights(
         self,
         layer: torch.nn.Module,
@@ -201,34 +187,18 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
-
         return self.forward(
             x=x,
             layer=layer,
-            router_logits=router_logits,
-            top_k=top_k,
-            renormalize=renormalize,
-            use_grouped_topk=use_grouped_topk,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
+            topk_output=topk_output,
             activation=activation,
             apply_router_weight_on_input=apply_router_weight_on_input,
             inplace=inplace,
@@ -240,15 +210,8 @@ def forward_cuda(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -257,33 +220,20 @@ def forward_cuda(
     ) -> torch.Tensor:
 
         if self.use_triton_kernels:
-            return self.triton_kernel_moe_forward(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                gating_output=router_logits,
-                topk=top_k,
-                renormalize=renormalize,
-            )
+            # TODO(ch-wan): re-enable the Triton kernel
+            raise NotImplementedError("The Triton kernel is temporarily disabled.")
+            # return triton_kernel_moe_forward(
+            #     hidden_states=x,
+            #     w1=layer.w13_weight,
+            #     w2=layer.w2_weight,
+            #     gating_output=router_logits,
+            #     topk=top_k,
+            #     renormalize=renormalize,
+            # )
         else:
-            from sglang.srt.layers.moe.topk import select_experts
-
-            topk_weights, topk_ids = select_experts(
-                hidden_states=x,
-                router_logits=router_logits,
-                use_grouped_topk=use_grouped_topk,
-                top_k=top_k,
-                renormalize=renormalize,
-                topk_group=topk_group,
-                num_expert_group=num_expert_group,
-                num_fused_shared_experts=num_fused_shared_experts,
-                custom_routing_function=custom_routing_function,
-                correction_bias=correction_bias,
-                routed_scaling_factor=routed_scaling_factor,
-            )
-
             if _use_aiter:
                 assert not no_combine, "unsupported"
+                topk_weights, topk_ids, _ = topk_output
                 if apply_router_weight_on_input:
                     assert (
                         topk_weights.dim() == 2
@@ -296,7 +246,6 @@ def forward_cuda(
                     topk_weights = torch.ones_like(
                         topk_weights, dtype=torch.float32
                     )  # topk_weights must be FP32 (float32)
-
                 return fused_moe(
                     x,
                     layer.w13_weight,
@@ -310,12 +259,15 @@ def forward_cuda(
                     ),
                 )
             else:
-                return self.fused_experts(
+                from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
+                    fused_experts,
+                )
+
+                return fused_experts(
                     hidden_states=x,
                     w1=layer.w13_weight,
                     w2=layer.w2_weight,
-                    topk_weights=topk_weights,
-                    topk_ids=topk_ids,
+                    topk_output=topk_output,
                     inplace=inplace and not no_combine,
                     activation=activation,
                     apply_router_weight_on_input=apply_router_weight_on_input,
@@ -327,15 +279,8 @@ def forward_cpu(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -344,30 +289,13 @@ def forward_cpu(
     ) -> torch.Tensor:
         assert activation == "silu", f"activation = {activation} is not supported."
 
-        if use_intel_amx_backend(layer):
+        if use_intel_amx_backend(layer) and not apply_router_weight_on_input:
+            from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
 
-            from sglang.srt.layers.moe.topk import (
-                apply_topk_weights_cpu,
-                select_experts,
-            )
-
-            topk_weights, topk_ids = select_experts(
-                hidden_states=x,
-                router_logits=router_logits,
-                use_grouped_topk=use_grouped_topk,
-                top_k=top_k,
-                renormalize=renormalize,
-                topk_group=topk_group,
-                num_expert_group=num_expert_group,
-                num_fused_shared_experts=num_fused_shared_experts,
-                custom_routing_function=custom_routing_function,
-                correction_bias=correction_bias,
-                routed_scaling_factor=routed_scaling_factor,
-            )
+            topk_weights, topk_ids, _ = topk_output
             x, topk_weights = apply_topk_weights_cpu(
                 apply_router_weight_on_input, topk_weights, x
             )
-
             return torch.ops.sgl_kernel.fused_experts_cpu(
                 x,
                 layer.w13_weight,
@@ -385,61 +313,42 @@ def forward_cpu(
                 True,  # is_vnni
             )
         else:
-            return self.moe_forward_native(
+            from sglang.srt.layers.moe.fused_moe_native import moe_forward_native
+
+            return moe_forward_native(
                 layer,
                 x,
-                use_grouped_topk,
-                top_k,
-                router_logits,
-                renormalize,
-                topk_group,
-                num_expert_group,
-                num_fused_shared_experts,
-                custom_routing_function,
-                correction_bias,
-                activation,
-                apply_router_weight_on_input,
-                inplace,
-                no_combine,
-                routed_scaling_factor,
+                topk_output,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                inplace=inplace,
+                no_combine=no_combine,
+                routed_scaling_factor=routed_scaling_factor,
             )
 
     def forward_npu(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
-        return self.moe_forward_native(
+        from sglang.srt.layers.moe.fused_moe_native import moe_forward_native
+
+        return moe_forward_native(
             layer,
             x,
-            use_grouped_topk,
-            top_k,
-            router_logits,
-            renormalize,
-            topk_group,
-            num_expert_group,
-            num_fused_shared_experts,
-            custom_routing_function,
-            correction_bias,
-            activation,
-            apply_router_weight_on_input,
-            inplace,
-            no_combine,
-            routed_scaling_factor,
+            topk_output,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            inplace=inplace,
+            no_combine=no_combine,
+            routed_scaling_factor=routed_scaling_factor,
         )
 
     def forward_tpu(self, *args, **kwargs) -> torch.Tensor:
@@ -508,13 +417,7 @@ def create_weights(
     def apply(
         self,
         layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        custom_routing_function: Optional[Callable] = None,
+        hidden_states: torch.Tensor,
+        topk_output: TopKOutput,
     ) -> torch.Tensor:
         raise NotImplementedError
diff --git a/python/sglang/srt/layers/quantization/w8a8_fp8.py b/python/sglang/srt/layers/quantization/w8a8_fp8.py
index 871a4534ca3e..e486fef0b3a8 100644
--- a/python/sglang/srt/layers/quantization/w8a8_fp8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_fp8.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 
-from typing import Any, Callable, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Dict, List, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -25,6 +25,9 @@
 )
 from sglang.srt.utils import set_weight_attrs
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 _is_fp8_fnuz = is_fp8_fnuz()
 
 
@@ -266,45 +269,23 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
         inplace: bool = True,
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
-
-        # Expert selection
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         return fused_experts(
             x,
             layer.w13_weight,
             layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace,
+            apply_router_weight_on_input=apply_router_weight_on_input,
             activation=activation,
             use_fp8_w8a8=True,
             per_channel_quant=True,
diff --git a/python/sglang/srt/layers/quantization/w8a8_int8.py b/python/sglang/srt/layers/quantization/w8a8_int8.py
index 19cf49c9bc86..22e8b108f7f8 100644
--- a/python/sglang/srt/layers/quantization/w8a8_int8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_int8.py
@@ -3,7 +3,7 @@
 import importlib
 import sys
 from types import MappingProxyType
-from typing import Any, Callable, Dict, List, Mapping, Optional, Tuple, Union, cast
+from typing import TYPE_CHECKING, Any, Dict, List, Mapping, Optional, Tuple, Union, cast
 
 import torch
 from torch.nn.parameter import Parameter
@@ -37,6 +37,9 @@
     use_intel_amx_backend,
 )
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 _is_cuda = is_cuda()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
@@ -239,7 +242,7 @@ def get_quant_method(
         layer: torch.nn.Module,
         prefix: str,
     ) -> Optional[QuantizeMethodBase]:
-        from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
+        from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if _is_npu:
@@ -469,15 +472,8 @@ def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool,
-        topk_group: Optional[int] = None,
-        num_expert_group: Optional[int] = None,
-        num_fused_shared_experts: int = 0,
-        custom_routing_function: Optional[Callable] = None,
-        correction_bias: Optional[torch.Tensor] = None,
+        topk_output: TopKOutput,
+        *,
         activation: str = "silu",
         apply_router_weight_on_input: bool = False,
         inplace: bool = True,
@@ -485,26 +481,11 @@ def apply(
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-        from sglang.srt.layers.moe.topk import select_experts
-
-        # Expert selection
-        topk_weights, topk_ids = select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            num_fused_shared_experts=num_fused_shared_experts,
-            custom_routing_function=custom_routing_function,
-            correction_bias=correction_bias,
-            routed_scaling_factor=routed_scaling_factor,
-        )
 
         if use_intel_amx_backend(layer):
             from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
 
+            topk_weights, topk_ids, _ = topk_output
             x, topk_weights = apply_topk_weights_cpu(
                 apply_router_weight_on_input, topk_weights, x
             )
@@ -529,8 +510,7 @@ def apply(
             x,
             layer.w13_weight,
             layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
+            topk_output=topk_output,
             inplace=inplace,
             activation=activation,
             apply_router_weight_on_input=apply_router_weight_on_input,
@@ -907,7 +887,7 @@ def create_weights(
         layer: torch.nn.Module,
         num_experts: int,
         hidden_size: int,
-        intermediate_size: List[int],
+        intermediate_size: int,
         params_dtype: torch.dtype,
         **extra_weight_attrs,
     ) -> None:
@@ -984,52 +964,11 @@ def apply(
         self,
         layer,
         x,
-        router_logits,
-        top_k,
-        renormalize,
-        use_grouped_topk,
-        topk_group,
-        num_expert_group,
-        num_fused_shared_experts,
-        custom_routing_function,
-        correction_bias,
-        activation,
-        apply_router_weight_on_input,
-        routed_scaling_factor,
+        topk_output: TopKOutput,
         **kwargs,
     ) -> torch.Tensor:
-        from sglang.srt.layers.moe.topk import select_experts
-
-        global_num_experts = router_logits.shape[-1]
-        # NOTE: now npu_moe_gating_top_k can only support `group_count=256` pattern
-        if global_num_experts == 256:
-            topk_weights, topk_ids, _ = torch_npu.npu_moe_gating_top_k(
-                router_logits,
-                k=top_k,
-                bias=correction_bias,
-                k_group=topk_group,
-                group_count=num_expert_group,
-                group_select_mode=1,
-                renorm=0,
-                norm_type=1,
-                routed_scaling_factor=1,
-                eps=float(1e-20),
-            )
-        else:
-            topk_weights, topk_ids = select_experts(
-                hidden_states=x,
-                router_logits=router_logits,
-                use_grouped_topk=use_grouped_topk,
-                top_k=top_k,
-                renormalize=renormalize,
-                topk_group=topk_group,
-                num_expert_group=num_expert_group,
-                num_fused_shared_experts=num_fused_shared_experts,
-                custom_routing_function=custom_routing_function,
-                correction_bias=correction_bias,
-                torch_native=True,
-                routed_scaling_factor=routed_scaling_factor,
-            )
+
+        topk_weights, topk_ids, _ = topk_output
         topk_ids = topk_ids.to(torch.int32)
         topk_weights = topk_weights.to(x.dtype)
         return npu_fused_experts(
@@ -1040,5 +979,5 @@ def apply(
             w2_scale=layer.w2_weight_scale,
             topk_weights=topk_weights,
             topk_ids=topk_ids,
-            top_k=top_k,
+            top_k=topk_ids.shape[1],
         )
diff --git a/python/sglang/srt/models/deepseek.py b/python/sglang/srt/models/deepseek.py
index 95bfe001a2da..f2f0d0344ad2 100644
--- a/python/sglang/srt/models/deepseek.py
+++ b/python/sglang/srt/models/deepseek.py
@@ -37,6 +37,7 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.fused_moe_triton import fused_moe
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -109,7 +110,10 @@ def __init__(
                 f"Tensor parallel size {self.tp_size} is greater than "
                 f"the number of experts {self.n_routed_experts}."
             )
-
+        self.topk = TopK(
+            top_k=self.top_k,
+            renormalize=config.norm_topk_prob,
+        )
         self.experts = nn.ModuleList(
             [
                 DeepseekMLP(
@@ -170,13 +174,12 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
             shared_output = self.shared_experts(hidden_states)
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
+        topk_output = self.topk(hidden_states, router_logits)
         final_hidden_states = fused_moe.fused_moe(
             hidden_states,
-            self.w1,
-            self.w2,
-            router_logits,
-            self.top_k,
-            renormalize=self.config.norm_topk_prob,
+            w1=self.w1,
+            w2=self.w2,
+            topk_output=topk_output,
             inplace=True,
         )
 
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 0da956b0158f..9ec5db9260d3 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -58,7 +58,7 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.ep_moe.layer import DeepEPMoE, get_moe_impl_class
 from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
-from sglang.srt.layers.moe.topk import select_experts
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.fp8_kernel import (
@@ -303,6 +303,17 @@ def __init__(
             config=config, prefix=add_prefix("gate", prefix), is_nextn=is_nextn
         )
 
+        self.topk = TopK(
+            top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
+            renormalize=config.norm_topk_prob,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            num_fused_shared_experts=self.num_fused_shared_experts,
+            topk_group=config.topk_group,
+            correction_bias=self.gate.e_score_correction_bias,
+            routed_scaling_factor=self.routed_scaling_factor,
+        )
+
         self.experts = get_moe_impl_class()(
             num_experts=config.n_routed_experts
             + self.num_fused_shared_experts
@@ -311,13 +322,7 @@ def __init__(
             hidden_size=config.hidden_size,
             intermediate_size=config.moe_intermediate_size,
             layer_id=self.layer_id,
-            renormalize=config.norm_topk_prob,
             quant_config=quant_config,
-            use_grouped_topk=True,
-            num_expert_group=config.n_group,
-            num_fused_shared_experts=self.num_fused_shared_experts,
-            topk_group=config.topk_group,
-            correction_bias=self.gate.e_score_correction_bias,
             routed_scaling_factor=self.routed_scaling_factor,
             prefix=add_prefix("experts", prefix),
             **(
@@ -451,8 +456,9 @@ def forward_normal_dual_stream(
         with torch.cuda.stream(self.alt_stream):
             # router_logits: (num_tokens, n_experts)
             router_logits = self.gate(hidden_states)
+            topk_output = self.topk(hidden_states, router_logits)
             final_hidden_states = self.experts(
-                hidden_states=hidden_states, router_logits=router_logits
+                hidden_states=hidden_states, topk_output=topk_output
             )
             if not _is_cuda:
                 final_hidden_states *= self.routed_scaling_factor
@@ -473,8 +479,9 @@ def forward_normal(
         shared_output = self._forward_shared_experts(hidden_states)
         # router_logits: (num_tokens, n_experts)
         router_logits = self.gate(hidden_states)
+        topk_output = self.topk(hidden_states, router_logits)
         final_hidden_states = self.experts(
-            hidden_states=hidden_states, router_logits=router_logits
+            hidden_states=hidden_states, topk_output=topk_output
         )
         if not _is_cuda and not _use_aiter:
             # fused in biased_grouped_topk so we can skip here
@@ -490,8 +497,9 @@ def forward_cpu(
     ) -> torch.Tensor:
         # router_logits: (num_tokens, n_experts)
         router_logits = self.gate(hidden_states)
+        topk_output = self.topk(hidden_states, router_logits)
         fused_experts_out = self.experts(
-            hidden_states=hidden_states, router_logits=router_logits
+            hidden_states=hidden_states, topk_output=topk_output
         )
 
         assert use_intel_amx_backend(
@@ -549,17 +557,9 @@ def forward_deepep(
             # router_logits: (num_tokens, n_experts)
             router_logits = self.gate(hidden_states)
             shared_output = self._forward_shared_experts(hidden_states)
-            topk_weights, topk_idx = select_experts(
-                hidden_states=hidden_states,
-                router_logits=router_logits,
-                top_k=self.top_k,
-                use_grouped_topk=True,
-                renormalize=self.renormalize,
-                topk_group=self.topk_group,
-                num_expert_group=self.num_expert_group,
-                num_fused_shared_experts=self.num_fused_shared_experts,
-                correction_bias=self.correction_bias,
-                routed_scaling_factor=self.routed_scaling_factor,
+            topk_weights, topk_idx, _ = self.topk(
+                hidden_states,
+                router_logits,
                 num_token_non_padded=forward_batch.num_token_non_padded,
                 expert_location_dispatch_info=ExpertLocationDispatchInfo.init_new(
                     layer_id=self.layer_id,
@@ -649,17 +649,9 @@ def op_select_experts(self, state):
             with get_global_expert_distribution_recorder().with_current_layer(
                 self.layer_id
             ):
-                state.topk_weights_local, state.topk_idx_local = select_experts(
+                state.topk_weights_local, state.topk_idx_local, _ = self.topk(
                     hidden_states=hidden_states,
                     router_logits=router_logits,
-                    top_k=self.top_k,
-                    use_grouped_topk=True,
-                    renormalize=self.renormalize,
-                    topk_group=self.topk_group,
-                    num_expert_group=self.num_expert_group,
-                    num_fused_shared_experts=self.num_fused_shared_experts,
-                    correction_bias=self.correction_bias,
-                    routed_scaling_factor=self.routed_scaling_factor,
                     num_token_non_padded=state.forward_batch.num_token_non_padded,
                     expert_location_dispatch_info=ExpertLocationDispatchInfo.init_new(
                         layer_id=self.layer_id,
diff --git a/python/sglang/srt/models/granitemoe.py b/python/sglang/srt/models/granitemoe.py
index b4a9c17af56f..1e61092090ac 100644
--- a/python/sglang/srt/models/granitemoe.py
+++ b/python/sglang/srt/models/granitemoe.py
@@ -15,6 +15,7 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.pooler import Pooler, PoolingType
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
@@ -60,6 +61,11 @@ def __init__(
             prefix=f"{prefix}.gate",
         )
 
+        self.topk = TopK(
+            top_k=top_k,
+            renormalize=True,
+        )
+
         self.experts = FusedMoE(
             num_experts=num_experts,
             top_k=top_k,
@@ -67,7 +73,6 @@ def __init__(
             intermediate_size=intermediate_size,
             params_dtype=params_dtype,
             reduce_results=True,
-            renormalize=True,
             quant_config=quant_config,
             tp_size=tp_size,
             prefix=f"{prefix}.experts",
@@ -78,7 +83,8 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         orig_shape = hidden_states.shape
         hidden_states = hidden_states.view(-1, self.hidden_size)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(hidden_states, router_logits)
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         return final_hidden_states.view(orig_shape)
 
 
diff --git a/python/sglang/srt/models/grok.py b/python/sglang/srt/models/grok.py
index a8cde8e09c02..4a46bf1973d8 100644
--- a/python/sglang/srt/models/grok.py
+++ b/python/sglang/srt/models/grok.py
@@ -45,6 +45,7 @@
 from sglang.srt.layers.moe.ep_moe.layer import EPMoE
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 from sglang.srt.layers.moe.router import fused_moe_router_shim
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -108,6 +109,12 @@ def __init__(
             fused_moe_router_shim, self.router_logit_softcapping
         )
 
+        self.topk = TopK(
+            top_k=top_k,
+            renormalize=False,
+            custom_routing_function=custom_routing_function,
+        )
+
         kwargs = {}
         if global_server_args_dict["enable_ep_moe"]:
             MoEImpl = EPMoE
@@ -124,17 +131,16 @@ def __init__(
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             params_dtype=params_dtype,
-            renormalize=False,
             quant_config=quant_config,
             tp_size=tp_size,
-            custom_routing_function=custom_routing_function,
             activation="gelu",
             **kwargs,
         )
 
     def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         # need to assert self.gate.quant_method is unquantized
-        return self.experts(hidden_states, self.gate.weight)
+        topk_output = self.topk(hidden_states, self.gate.weight)
+        return self.experts(hidden_states, topk_output)
 
 
 class Grok1Attention(nn.Module):
diff --git a/python/sglang/srt/models/hunyuan.py b/python/sglang/srt/models/hunyuan.py
index f23ccc0a8d94..58e95bbb1cd8 100644
--- a/python/sglang/srt/models/hunyuan.py
+++ b/python/sglang/srt/models/hunyuan.py
@@ -40,6 +40,7 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -152,13 +153,16 @@ def __init__(
                 else config.moe_intermediate_size[layer_id]
             )
 
+        self.topk = TopK(
+            top_k=top_k,
+            renormalize=True if top_k > 1 else False,
+        )
+
         self.experts = FusedMoE(
             num_experts=config.num_experts,
-            top_k=top_k,
             hidden_size=config.hidden_size,
             intermediate_size=intermediate_size,
             reduce_results=False,
-            renormalize=True if top_k > 1 else False,
             quant_config=quant_config,
         )
 
@@ -195,9 +199,8 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
 
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(
-            hidden_states=hidden_states, router_logits=router_logits
-        )
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         if shared_output is not None:
             final_hidden_states = final_hidden_states + shared_output
         if self.tp_size > 1:
diff --git a/python/sglang/srt/models/llama4.py b/python/sglang/srt/models/llama4.py
index 1bb6fcc12193..cf0b20800410 100644
--- a/python/sglang/srt/models/llama4.py
+++ b/python/sglang/srt/models/llama4.py
@@ -40,6 +40,7 @@
     RowParallelLinear,
 )
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -103,14 +104,17 @@ def __init__(
             prefix=add_prefix("router", prefix),
         )
 
+        self.topk = TopK(
+            top_k=self.top_k,
+            renormalize=False,
+            custom_routing_function=Llama4MoE.custom_routing_function,
+        )
+
         self.experts = FusedMoE(
             num_experts=config.num_local_experts,
-            top_k=config.num_experts_per_tok,
             hidden_size=config.hidden_size,
-            custom_routing_function=Llama4MoE.custom_routing_function,
             intermediate_size=intermediate_size_moe,
             reduce_results=False,
-            renormalize=False,
             quant_config=quant_config,
             apply_router_weight_on_input=True,
             prefix=add_prefix("experts", prefix),
@@ -147,10 +151,8 @@ def _forward_core_normal(self, hidden_states):
         # router_scores: [num_tokens, num_experts]
         router_logits, _ = self.router(hidden_states)
         shared_out = self.shared_expert(hidden_states)
-        routed_out = self.experts(
-            hidden_states=hidden_states,
-            router_logits=router_logits,
-        )
+        topk_output = self.topk(hidden_states, router_logits)
+        routed_out = self.experts(hidden_states, topk_output)
         return shared_out, routed_out
 
     def _forward_core_shared_routed_overlap(self, hidden_states):
@@ -163,10 +165,8 @@ def _forward_core_shared_routed_overlap(self, hidden_states):
         with self.device_module.stream(alt_stream):
             # router_scores: [num_tokens, num_experts]
             router_logits, _ = self.router(hidden_states)
-            routed_out = self.experts(
-                hidden_states=hidden_states,
-                router_logits=router_logits,
-            )
+            topk_output = self.topk(hidden_states, router_logits)
+            routed_out = self.experts(hidden_states, topk_output)
         self.device_module.current_stream().wait_stream(alt_stream)
 
         return shared_out, routed_out
diff --git a/python/sglang/srt/models/mixtral.py b/python/sglang/srt/models/mixtral.py
index 90a12f12f1dd..b09fc2f24827 100644
--- a/python/sglang/srt/models/mixtral.py
+++ b/python/sglang/srt/models/mixtral.py
@@ -37,6 +37,7 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.ep_moe.layer import EPMoE
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -86,6 +87,12 @@ def __init__(
             quant_config=None,
             prefix=add_prefix("gate", prefix),
         )
+
+        self.topk = TopK(
+            top_k=top_k,
+            renormalize=True,
+        )
+
         MoEImpl = EPMoE if global_server_args_dict["enable_ep_moe"] else FusedMoE
         self.experts = MoEImpl(
             num_experts=num_experts,
@@ -93,7 +100,6 @@ def __init__(
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             params_dtype=params_dtype,
-            renormalize=True,
             quant_config=quant_config,
             tp_size=tp_size,
             prefix=add_prefix("experts", prefix),
@@ -105,7 +111,8 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         hidden_states = hidden_states.view(-1, self.hidden_size)
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(hidden_states, router_logits)
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         if self.tp_size > 1:
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
         return final_hidden_states.view(orig_shape)
diff --git a/python/sglang/srt/models/olmoe.py b/python/sglang/srt/models/olmoe.py
index 612120fe939b..ce53f2b0148a 100644
--- a/python/sglang/srt/models/olmoe.py
+++ b/python/sglang/srt/models/olmoe.py
@@ -32,6 +32,7 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -76,13 +77,16 @@ def __init__(
             prefix=add_prefix("gate", prefix),
         )
 
+        self.topk = TopK(
+            top_k=top_k,
+            renormalize=False,
+        )
+
         self.experts = FusedMoE(
             num_experts=num_experts,
-            top_k=top_k,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             reduce_results=True,
-            renormalize=False,
             quant_config=quant_config,
             tp_size=tp_size,
             prefix=add_prefix("experts", prefix),
@@ -94,9 +98,8 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         hidden_states = hidden_states.view(-1, self.hidden_size)
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(
-            hidden_states=hidden_states, router_logits=router_logits
-        )
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         return final_hidden_states.view(orig_shape)
 
 
diff --git a/python/sglang/srt/models/phimoe.py b/python/sglang/srt/models/phimoe.py
index 22ee023c83c4..865b94f51665 100644
--- a/python/sglang/srt/models/phimoe.py
+++ b/python/sglang/srt/models/phimoe.py
@@ -13,6 +13,7 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.pooler import Pooler, PoolingType
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
@@ -200,15 +201,19 @@ def __init__(
             quant_config=None,
         )
 
+        self.topk = TopK(
+            top_k=top_k,
+            renormalize=False,
+            custom_routing_function=phimoe_routing_function,
+        )
+
         self.experts = FusedMoE(
             num_experts=num_experts,
             top_k=top_k,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             reduce_results=True,
-            renormalize=False,
             quant_config=quant_config,
-            custom_routing_function=phimoe_routing_function,
             prefix=add_prefix("experts", prefix),
         )
 
@@ -219,7 +224,8 @@ def forward(
         orig_shape = hidden_states.shape
         hidden_states = hidden_states.view(-1, self.hidden_size)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(hidden_states, router_logits)
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         return final_hidden_states.view(orig_shape)
 
 
diff --git a/python/sglang/srt/models/qwen2_moe.py b/python/sglang/srt/models/qwen2_moe.py
index fe2636ab74e8..e033424cf023 100644
--- a/python/sglang/srt/models/qwen2_moe.py
+++ b/python/sglang/srt/models/qwen2_moe.py
@@ -61,6 +61,7 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.moe.ep_moe.layer import EPMoE, get_moe_impl_class
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -134,13 +135,17 @@ def __init__(
                 f"the number of experts {config.num_experts}."
             )
 
+        self.topk = TopK(
+            top_k=config.num_experts_per_tok,
+            renormalize=config.norm_topk_prob,
+        )
+
         self.experts = get_moe_impl_class()(
             layer_id=self.layer_id,
-            num_experts=config.num_experts,
             top_k=config.num_experts_per_tok,
+            num_experts=config.num_experts,
             hidden_size=config.hidden_size,
             intermediate_size=config.moe_intermediate_size,
-            renormalize=config.norm_topk_prob,
             quant_config=quant_config,
             prefix=add_prefix("experts", prefix),
             # Additional args for FusedMoE
@@ -189,9 +194,8 @@ def forward(
 
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(
-            hidden_states=hidden_states, router_logits=router_logits
-        )
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         if shared_output is not None:
             final_hidden_states = final_hidden_states + shared_output
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index 75d3b475cb0e..c75a384990e8 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -56,8 +56,7 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
 from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
-from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
-from sglang.srt.layers.moe.topk import select_experts
+from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.rotary_embedding import get_rope
@@ -102,6 +101,12 @@ def __init__(
                 f"the number of experts {config.num_experts}."
             )
 
+        self.topk = TopK(
+            top_k=config.num_experts_per_tok,
+            renormalize=config.norm_topk_prob,
+            use_grouped_topk=False,
+        )
+
         self.experts = get_moe_impl_class()(
             num_experts=config.num_experts
             + global_server_args_dict["ep_num_redundant_experts"],
@@ -109,7 +114,6 @@ def __init__(
             layer_id=layer_id,
             hidden_size=config.hidden_size,
             intermediate_size=config.moe_intermediate_size,
-            renormalize=config.norm_topk_prob,
             quant_config=quant_config,
             prefix=add_prefix("experts", prefix),
             **(
@@ -143,7 +147,6 @@ def __init__(
                 config.num_experts + global_server_args_dict["ep_num_redundant_experts"]
             )
             self.top_k = config.num_experts_per_tok
-            self.renormalize = config.norm_topk_prob
 
             self.deepep_dispatcher = MaybeTboDeepEPDispatcher(
                 group=parallel_state.get_tp_group().device_group,
@@ -180,9 +183,8 @@ def forward_normal(self, hidden_states: torch.Tensor) -> torch.Tensor:
 
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
-        final_hidden_states = self.experts(
-            hidden_states=hidden_states, router_logits=router_logits
-        )
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(hidden_states, topk_output)
         if self.tp_size > 1:
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
 
@@ -195,13 +197,9 @@ def forward_deepep(
         if is_non_idle_and_non_empty(forward_mode, hidden_states):
             # router_logits: (num_tokens, n_experts)
             router_logits, _ = self.gate(hidden_states)
-
-            topk_weights, topk_idx = select_experts(
-                hidden_states=hidden_states,
-                router_logits=router_logits,
-                top_k=self.top_k,
-                use_grouped_topk=False,
-                renormalize=self.renormalize,
+            topk_weights, topk_idx, _ = self.topk(
+                hidden_states,
+                router_logits,
                 num_token_non_padded=forward_batch.num_token_non_padded,
                 expert_location_dispatch_info=ExpertLocationDispatchInfo.init_new(
                     layer_id=self.layer_id,
@@ -267,12 +265,9 @@ def op_select_experts(self, state):
             with get_global_expert_distribution_recorder().with_current_layer(
                 self.layer_id
             ):
-                state.topk_weights_local, state.topk_idx_local = select_experts(
+                state.topk_weights_local, state.topk_idx_local, _ = self.topk(
                     hidden_states=hidden_states,
                     router_logits=router_logits,
-                    top_k=self.top_k,
-                    use_grouped_topk=False,
-                    renormalize=self.renormalize,
                     num_token_non_padded=state.forward_batch.num_token_non_padded,
                     expert_location_dispatch_info=ExpertLocationDispatchInfo.init_new(
                         layer_id=self.layer_id,
diff --git a/python/sglang/test/test_block_fp8.py b/python/sglang/test/test_block_fp8.py
index a5a338632f58..fd2c95608a17 100644
--- a/python/sglang/test/test_block_fp8.py
+++ b/python/sglang/test/test_block_fp8.py
@@ -6,6 +6,7 @@
 
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
+from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.layers.quantization.fp8_kernel import (
     per_tensor_quant_mla_fp8,
     per_token_group_quant_fp8,
@@ -497,13 +498,17 @@ def _w8a8_block_fp8_fused_moe(self, M, N, K, E, topk, block_size, dtype, seed):
         score = torch.randn((M, E), dtype=dtype)
 
         with torch.inference_mode():
+            topk_output = select_experts(
+                hidden_states=a,
+                router_logits=score,
+                top_k=topk,
+                renormalize=False,
+            )
             out = fused_moe(
                 a,
                 w1,
                 w2,
-                score,
-                topk,
-                renormalize=False,
+                topk_output,
                 use_fp8_w8a8=True,
                 w1_scale=w1_s,
                 w2_scale=w2_s,
diff --git a/python/sglang/test/test_block_fp8_ep.py b/python/sglang/test/test_block_fp8_ep.py
index bd735edbdc50..2f92c5435b8f 100644
--- a/python/sglang/test/test_block_fp8_ep.py
+++ b/python/sglang/test/test_block_fp8_ep.py
@@ -40,7 +40,7 @@ def ep_moe(
     block_shape: Optional[List[int]] = None,
 ):
     use_blockwise_fp8 = block_shape is not None
-    topk_weights, topk_ids = select_experts(
+    topk_weights, topk_ids, _ = select_experts(
         hidden_states=hidden_states,
         router_logits=router_logits,
         top_k=top_k,
diff --git a/python/sglang/test/test_cutlass_w4a8_moe.py b/python/sglang/test/test_cutlass_w4a8_moe.py
index acf8a27b918f..c823bf1f7e48 100644
--- a/python/sglang/test/test_cutlass_w4a8_moe.py
+++ b/python/sglang/test/test_cutlass_w4a8_moe.py
@@ -100,12 +100,10 @@ def test_cutlass_w4a8_moe(M, N, K, E, ep_size, topk, group_size, dtype):
     s_strides2 = c_strides2
 
     score = torch.randn((M, E), dtype=dtype, device=device)
-    topk_weights, topk_ids = select_experts(
+    topk_weights, topk_ids, _ = select_experts(
         hidden_states=a,
         router_logits=score,
         top_k=topk,
-        use_grouped_topk=False,
-        renormalize=False,
     )
     expert_map = torch.arange(E, dtype=torch.int32, device=device)
     expert_map[local_e:] = E
diff --git a/python/sglang/test/test_fp4_moe.py b/python/sglang/test/test_fp4_moe.py
index 7e3de278cbe9..30b1fe9db5a4 100644
--- a/python/sglang/test/test_fp4_moe.py
+++ b/python/sglang/test/test_fp4_moe.py
@@ -159,12 +159,10 @@ def test_cutlass_fp4_moe_no_graph(
 
     score = torch.randn((m, e), device="cuda", dtype=dtype)
 
-    topk_weights, topk_ids = select_experts(
+    topk_weights, topk_ids, _ = select_experts(
         hidden_states=a,
         router_logits=score,
         top_k=topk,
-        use_grouped_topk=False,
-        renormalize=False,
     )
 
     a1_gs = torch.ones((e,), device="cuda", dtype=torch.float32)
diff --git a/test/srt/test_block_int8.py b/test/srt/test_block_int8.py
index 2b8b841f02f4..58bd7c1e1998 100644
--- a/test/srt/test_block_int8.py
+++ b/test/srt/test_block_int8.py
@@ -5,6 +5,7 @@
 
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
+from sglang.srt.layers.moe.topk import select_experts
 from sglang.test.test_utils import CustomTestCase
 
 
@@ -171,14 +172,18 @@ def _w8a8_block_int8_fused_moe(self, M, N, K, E, topk, block_size, dtype, seed):
 
         score = torch.randn((M, E), dtype=dtype)
 
+        topk_output = select_experts(
+            hidden_states=a,
+            router_logits=score,
+            top_k=topk,
+        )
+
         with torch.inference_mode():
             out = fused_moe(
                 a,
                 w1,
                 w2,
-                score,
-                topk,
-                renormalize=False,
+                topk_output,
                 use_int8_w8a8=True,
                 w1_scale=w1_s,
                 w2_scale=w2_s,
diff --git a/test/srt/test_fused_moe.py b/test/srt/test_fused_moe.py
index d1c2735d13c2..1a0452c41196 100644
--- a/test/srt/test_fused_moe.py
+++ b/test/srt/test_fused_moe.py
@@ -6,6 +6,7 @@
 
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
+from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.layers.quantization.fp8_kernel import is_fp8_fnuz
 from sglang.srt.layers.quantization.fp8_utils import normalize_e4m3fn_to_e4m3fnuz
 from sglang.srt.utils import is_hip
@@ -132,13 +133,17 @@ def _test_case(self, m, n, k, e, topk, dtype, use_fp8_w8a8=False):
                     input_scale=a2_scale,
                 )
 
+            topk_output = select_experts(
+                hidden_states=a,
+                router_logits=score,
+                top_k=topk,
+            )
+
             sglang_output = fused_moe(
                 a,
                 w1,
                 w2,
-                score,
-                topk,
-                renormalize=False,
+                topk_output,
                 use_fp8_w8a8=True,
                 w1_scale=w1_scale,
                 w2_scale=w2_scale,
@@ -166,7 +171,13 @@ def _test_case(self, m, n, k, e, topk, dtype, use_fp8_w8a8=False):
             w2 = self.create_random_cuda_tensor((e, k, n), dtype)
             score = self.create_random_cuda_tensor((m, e), dtype)
 
-            triton_output = fused_moe(a, w1, w2, score, topk, renormalize=False)
+            topk_output = select_experts(
+                hidden_states=a,
+                router_logits=score,
+                top_k=topk,
+            )
+
+            triton_output = fused_moe(a, w1, w2, topk_output)
             torch_output = self.torch_naive_moe(a, w1, w2, score, topk)
             torch.testing.assert_close(
                 triton_output, torch_output, rtol=rtol, atol=atol
diff --git a/test/srt/test_int8_kernel.py b/test/srt/test_int8_kernel.py
index 3e9f7a7dd98b..bbadce230304 100644
--- a/test/srt/test_int8_kernel.py
+++ b/test/srt/test_int8_kernel.py
@@ -5,6 +5,7 @@
 
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
+from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.layers.quantization.int8_kernel import per_token_quant_int8
 from sglang.test.test_utils import CustomTestCase
 
@@ -114,13 +115,16 @@ def _w8a8_int8_fused_moe(self, M, N, K, E, topk, block_size, dtype, seed):
 
         with torch.inference_mode():
             ref_out = torch_w8a8_per_column_moe(a, w1, w2, w1_s, w2_s, score, topk)
+            topk_output = select_experts(
+                hidden_states=a,
+                router_logits=score,
+                top_k=topk,
+            )
             out = fused_moe(
                 a,
                 w1,
                 w2,
-                score,
-                topk,
-                renormalize=False,
+                topk_output,
                 use_fp8_w8a8=False,  # Not using fp8
                 use_int8_w8a16=False,  # Not using int8-w8a16
                 use_int8_w8a8=True,  # Using int8-w8a8
diff --git a/test/srt/test_triton_moe_channel_fp8_kernel.py b/test/srt/test_triton_moe_channel_fp8_kernel.py
index 89b5af650df4..577570757d35 100644
--- a/test/srt/test_triton_moe_channel_fp8_kernel.py
+++ b/test/srt/test_triton_moe_channel_fp8_kernel.py
@@ -5,6 +5,7 @@
 
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
+from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.layers.quantization.fp8_kernel import scaled_fp8_quant
 from sglang.test.test_utils import CustomTestCase
 
@@ -126,13 +127,16 @@ def _w8a8_fp8_fused_moe(self, M, N, K, E, topk, block_size, dtype, seed):
 
         with torch.inference_mode():
             ref_out = torch_w8a8_per_column_moe(a, w1, w2, w1_s, w2_s, score, topk)
+            topk_output = select_experts(
+                hidden_states=a,
+                router_logits=score,
+                top_k=topk,
+            )
             out = fused_moe(
                 a,
                 w1,
                 w2,
-                score,
-                topk,
-                renormalize=False,
+                topk_output,
                 use_fp8_w8a8=True,  # using fp8
                 use_int8_w8a16=False,
                 use_int8_w8a8=False,
diff --git a/test/srt/test_triton_moe_wna16.py b/test/srt/test_triton_moe_wna16.py
index 2613586a8466..51583c2f200f 100644
--- a/test/srt/test_triton_moe_wna16.py
+++ b/test/srt/test_triton_moe_wna16.py
@@ -5,6 +5,7 @@
 
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
+from sglang.srt.layers.moe.topk import select_experts
 
 NUM_EXPERTS = [8, 64]
 TOP_KS = [2, 6]
@@ -219,13 +220,17 @@ def test_fused_moe_wn16(
         if has_zp:
             w_qzeros[expert_id] = qzeros
 
+    topk_output = select_experts(
+        hidden_states=a,
+        router_logits=score,
+        top_k=topk,
+    )
+
     triton_output = fused_moe(
         a,
         w1_qweight,
         w2_qweight,
-        score,
-        topk,
-        renormalize=False,
+        topk_output,
         use_int4_w4a16=weight_bits == 4,
         use_int8_w8a16=weight_bits == 8,
         w1_scale=w1_scales,

From f98e88b9fbbb59ad700892da765bc49bda34c59b Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sat, 19 Jul 2025 00:56:18 -0700
Subject: [PATCH 048/396] chore: bump sgl-kernel v0.2.6 (#8165)

---
 docker/Dockerfile                       | 2 +-
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 5 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index eac2c8a4c446..bc0eb095e917 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -60,7 +60,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
       python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.5 --force-reinstall --no-deps ; \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.5/sgl_kernel-0.2.5+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.6/sgl_kernel-0.2.6+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
 # Build and install NVSHMEM + DeepEP
diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index bb460f05986f..4d8ff394df4d 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.5"
+version = "0.2.6"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index b88b38b4a497..c243596515bd 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.5"
+version = "0.2.6"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index de2e9bcf384f..6ab48599c5cf 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.5"
+version = "0.2.6"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index fe404ae570d5..01ef12070dc3 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.2.5"
+__version__ = "0.2.6"

From 561dd7b2ce2b1a4ef9bbffa840eb5b60f520f839 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sat, 19 Jul 2025 03:17:08 -0700
Subject: [PATCH 049/396] chore: upgrade sgl-kernel 0.2.6 (#8166)

---
 python/pyproject.toml                   | 2 +-
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 5b6501afd192..5949a100a96e 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -54,7 +54,7 @@ runtime_common = [
 
 srt = [
     "sglang[runtime_common]",
-    "sgl-kernel==0.2.5",
+    "sgl-kernel==0.2.6",
     "torch==2.7.1",
     "torchaudio==2.7.1",
     "torchvision==0.22.1",
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index e130dc227d21..990fac9a12a7 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -654,7 +654,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if _is_cuda:
         assert_pkg_version(
             "sgl-kernel",
-            "0.2.5",
+            "0.2.6",
             "Please reinstall the latest version with `pip install sgl-kernel --force-reinstall`",
         )
 

From f3d97361564331d591af6038cccad1099025cfe3 Mon Sep 17 00:00:00 2001
From: Charles Chen <chenliqian@chenliqian.cn>
Date: Sun, 20 Jul 2025 01:11:24 +0800
Subject: [PATCH 050/396] Fix suffix mismatch for the metrics. (#8168)

Signed-off-by: Charles Chen <chenliqian@chenliqian.cn>
---
 sgl-router/src/metrics.rs | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/sgl-router/src/metrics.rs b/sgl-router/src/metrics.rs
index 0ff2055c540c..76e952a03736 100644
--- a/sgl-router/src/metrics.rs
+++ b/sgl-router/src/metrics.rs
@@ -132,7 +132,7 @@ pub fn start_prometheus(config: PrometheusConfig) {
     // Initialize metric descriptions
     init_metrics();
 
-    let duration_matcher = Matcher::Suffix(String::from("duration"));
+    let duration_matcher = Matcher::Suffix(String::from("duration_seconds"));
     let duration_bucket = [
         0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0, 15.0, 30.0, 45.0,
         60.0, 90.0, 120.0, 180.0, 240.0,

From 1b427dae0269024ec7c7330bc7b5e181b557d342 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Sat, 19 Jul 2025 11:04:19 -0700
Subject: [PATCH 051/396] Update README.md (#8171)

---
 README.md | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/README.md b/README.md
index a1f9f904677f..b19a9cdabfc0 100644
--- a/README.md
+++ b/README.md
@@ -25,14 +25,14 @@
 - [2025/05] 🔥 Deploying DeepSeek with PD Disaggregation and Large-scale Expert Parallelism on 96 H100 GPUs ([blog](https://lmsys.org/blog/2025-05-05-large-scale-ep/)).
 - [2025/03] Supercharge DeepSeek-R1 Inference on AMD Instinct MI300X ([AMD blog](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html))
 - [2025/03] SGLang Joins PyTorch Ecosystem: Efficient LLM Serving Engine ([PyTorch blog](https://pytorch.org/blog/sglang-joins-pytorch/))
-- [2025/01] 🔥 SGLang provides day one support for DeepSeek V3/R1 models on NVIDIA and AMD GPUs with DeepSeek-specific optimizations. ([instructions](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3), [AMD blog](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html), [10+ other companies](https://x.com/lmsysorg/status/1887262321636221412))
-- [2024/12] 🔥 v0.4 Release: Zero-Overhead Batch Scheduler, Cache-Aware Load Balancer, Faster Structured Outputs ([blog](https://lmsys.org/blog/2024-12-04-sglang-v0-4/)).
+- [2024/12] v0.4 Release: Zero-Overhead Batch Scheduler, Cache-Aware Load Balancer, Faster Structured Outputs ([blog](https://lmsys.org/blog/2024-12-04-sglang-v0-4/)).
 - [2024/07] v0.2 Release: Faster Llama3 Serving with SGLang Runtime (vs. TensorRT-LLM, vLLM) ([blog](https://lmsys.org/blog/2024-07-25-sglang-llama3/)).
 
 <details>
 <summary>More</summary>
 
 - [2025/02] Unlock DeepSeek-R1 Inference Performance on AMD Instinct™ MI300X GPU ([AMD blog](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html))
+- [2025/01] SGLang provides day one support for DeepSeek V3/R1 models on NVIDIA and AMD GPUs with DeepSeek-specific optimizations. ([instructions](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3), [AMD blog](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html), [10+ other companies](https://x.com/lmsysorg/status/1887262321636221412))
 - [2024/10] The First SGLang Online Meetup ([slides](https://github.com/sgl-project/sgl-learning-materials?tab=readme-ov-file#the-first-sglang-online-meetup)).
 - [2024/09] v0.3 Release: 7x Faster DeepSeek MLA, 1.5x Faster torch.compile, Multi-Image/Video LLaVA-OneVision ([blog](https://lmsys.org/blog/2024-09-04-sglang-v0-3/)).
 - [2024/02] SGLang enables **3x faster JSON decoding** with compressed finite state machine ([blog](https://lmsys.org/blog/2024-02-05-compressed-fsm/)).
@@ -59,7 +59,7 @@ The core features include:
 - [Contribution Guide](https://docs.sglang.ai/references/contribution_guide.html)
 
 ## Benchmark and Performance
-Learn more in the release blogs: [v0.2 blog](https://lmsys.org/blog/2024-07-25-sglang-llama3/), [v0.3 blog](https://lmsys.org/blog/2024-09-04-sglang-v0-3/), [v0.4 blog](https://lmsys.org/blog/2024-12-04-sglang-v0-4/).
+Learn more in the release blogs: [v0.2 blog](https://lmsys.org/blog/2024-07-25-sglang-llama3/), [v0.3 blog](https://lmsys.org/blog/2024-09-04-sglang-v0-3/), [v0.4 blog](https://lmsys.org/blog/2024-12-04-sglang-v0-4/), [Large-scale expert parallelism](https://lmsys.org/blog/2025-05-05-large-scale-ep/).
 
 ## Roadmap
 [Development Roadmap (2025 H1)](https://github.com/sgl-project/sglang/issues/4042)

From bb0e8a32b579b57ecc18863620dd5c7366f15af5 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Sat, 19 Jul 2025 11:32:52 -0700
Subject: [PATCH 052/396] Clean up server args (#8161)

---
 .github/CODEOWNERS                          |  19 +-
 docs/backend/server_arguments.md            | 128 +++--
 python/sglang/srt/configs/model_config.py   |   8 +-
 python/sglang/srt/managers/scheduler.py     |   3 -
 python/sglang/srt/model_loader/utils.py     |   8 +-
 python/sglang/srt/server_args.py            | 556 ++++++++++----------
 python/sglang/test/runners.py               |   4 +-
 test/srt/models/test_transformers_models.py |   6 +-
 8 files changed, 389 insertions(+), 343 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 7369e035cede..9d640b90b60f 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -1,23 +1,24 @@
 /3rdparty/amd @HaiShaw
 /docker @zhyncs @HaiShaw @ByronHsu
 /docs @zhaochenyang20
-/python/sglang/lang @merrymercy @Ying1123 @hnyls2002 @ByronHsu
+/python/sglang/lang @merrymercy @Ying1123 @hnyls2002
 /python/sglang/srt @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock @ByronHsu
 /python/sglang/srt/constrained @hnyls2002
-/python/sglang/srt/disaggregation @hnyls2002 @ByronHsu
+/python/sglang/srt/disaggregation @ByronHsu @hnyls2002
 /python/sglang/srt/distributed @yizhang2077
-/python/sglang/srt/entrypoints @zhaochenyang20
-/python/sglang/srt/entrypoints/openai @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock @ByronHsu @CatherineSue
+/python/sglang/srt/entrypoints @zhaochenyang20 @CatherineSue
+/python/sglang/srt/eplb @fzyzcjy
+/python/sglang/srt/function_call @CatherineSue
 /python/sglang/srt/layers @merrymercy @Ying1123 @zhyncs @ispobock @HaiShaw @ch-wan @BBuf
 /python/sglang/srt/lora @Ying1123 @Fridge003
 /python/sglang/srt/managers @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/mem_cache @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/model_executor @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock
-/python/sglang/srt/models @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock @ByronHsu @zhaochenyang20
-/python/sglang/srt/sampling @merrymercy @hnyls2002
-/python/sglang/srt/speculative @Ying1123 @merrymercy @rkooo567 @kssteven418
+/python/sglang/srt/models @zhyncs @ispobock @ByronHsu @zhaochenyang20
 /python/sglang/srt/multimodal @mickqian @JustinTong0323
-/test/lang @merrymercy @Ying1123 @ByronHsu
+/python/sglang/srt/sampling @hnyls2002
+/python/sglang/srt/speculative @Ying1123 @merrymercy @rkooo567 @kssteven418
+/test/lang @merrymercy @Ying1123
 /test/srt @merrymercy @Ying1123 @zhyncs
-/sgl-router @ByronHsu @Ying1123 @slin1237
+/sgl-router @ByronHsu @slin1237
 /sgl-kernel @zhyncs @ispobock @HandH1998 @BBuf @yizhang2077 @merrymercy @yinfan98 @HaiShaw
diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index ad9c136c8b78..6320a6e61aac 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -51,7 +51,7 @@ You can find all arguments by `python3 -m sglang.launch_server --help`
 
 Please consult the documentation below and [server_args.py](https://github.com/sgl-project/sglang/blob/main/python/sglang/srt/server_args.py) to learn more about the arguments you may provide when launching a server.
 
-## Model, processor and tokenizer
+## Model and tokenizer
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
@@ -61,20 +61,30 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--skip-tokenizer-init` | If set, skip init tokenizer and pass input_ids in generate request. | False |
 | `--load-format` | The format of the model weights to load. 'auto' will try to load the weights in the safetensors format and fall back to the pytorch bin format if safetensors format is not available. 'pt' will load the weights in the pytorch bin format. 'safetensors' will load the weights in the safetensors format. 'npcache' will load the weights in pytorch format and store a numpy cache to speed up the loading. 'dummy' will initialize the weights with random values, which is mainly for profiling. 'gguf' will load the weights in the gguf format. 'bitsandbytes' will load the weights using bitsandbytes quantization. 'layered' loads weights layer by layer so that one can quantize a layer before loading another to make the peak memory envelope smaller. | auto |
 | `--trust-remote-code` | Whether or not to allow for custom models defined on the Hub in their own modeling files. | False |
-| `--dtype` | Data type for model weights and activations. 'auto' will use FP16 precision for FP32 and FP16 models, and BF16 precision for BF16 models. 'half' for FP16. Recommended for AWQ quantization. 'float16' is the same as 'half'. 'bfloat16' for a balance between precision and range. 'float' is shorthand for FP32 precision. 'float32' for FP32 precision. | auto |
-| `--kv-cache-dtype` | Data type for kv cache storage. 'auto' will use model data type. 'fp8_e5m2' and 'fp8_e4m3' is supported for CUDA 11.8+. | auto |
-| `--quantization` | The quantization method. | None |
-| `--quantization-param-path` | Path to the JSON file containing the KV cache scaling factors. This should generally be supplied, when KV cache dtype is FP8. Otherwise, KV cache scaling factors default to 1.0, which may cause accuracy issues. | None |
 | `--context-length` | The model's maximum context length. Defaults to None (will use the value from the model's config.json instead). | None |
-| `--device` | The device to use ('cuda', 'xpu', 'hpu', 'npu', 'cpu'). Defaults to auto-detection if not specified. | None |
-| `--served-model-name` | Override the model name returned by the v1/models endpoint in OpenAI API server. | None |
-| `--chat-template` | The buliltin chat template name or the path of the chat template file. This is only used for OpenAI-compatible API server. | None |
-| `--completion-template` | The buliltin completion template name or the path of the completion template file. This is only used for OpenAI-compatible API server. only for code completion currently. | None |
 | `--is-embedding` | Whether to use a CausalLM as an embedding model. | False |
 | `--enable-multimodal` | Enable the multimodal functionality for the served model. If the model being served is not multimodal, nothing will happen. | None |
 | `--revision` | The specific model version to use. It can be a branch name, a tag name, or a commit id. If unspecified, will use the default version. | None |
-| `--impl` | Which implementation of the model to use. 'auto' will try to use the SGLang implementation if it exists and fall back to the Transformers implementation if no SGLang implementation is available. 'sglang' will use the SGLang model implementation. 'transformers' will use the Transformers model implementation. | auto |
+| `--model-impl` | Which implementation of the model to use. 'auto' will try to use the SGLang implementation if it exists and fall back to the Transformers implementation if no SGLang implementation is available. 'sglang' will use the SGLang model implementation. 'transformers' will use the Transformers model implementation. | auto |
+
+## HTTP server
+
+| Arguments | Description | Defaults |
+|-----------|-------------|----------|
+| `--host` | The host address for the server. | 127.0.0.1 |
+| `--port` | The port number for the server. | 30000 |
+| `--skip-server-warmup` | If set, skip the server warmup process. | False |
+| `--warmups` | Warmup configurations. | None |
+| `--nccl-port` | The port for NCCL initialization. | None |
 
+## Quantization and data type
+
+| Arguments | Description | Defaults |
+|-----------|-------------|----------|
+| `--dtype` | Data type for model weights and activations. 'auto' will use FP16 precision for FP32 and FP16 models, and BF16 precision for BF16 models. 'half' for FP16. Recommended for AWQ quantization. 'float16' is the same as 'half'. 'bfloat16' for a balance between precision and range. 'float' is shorthand for FP32 precision. 'float32' for FP32 precision. | auto |
+| `--quantization` | The quantization method. | None |
+| `--quantization-param-path` | Path to the JSON file containing the KV cache scaling factors. This should generally be supplied, when KV cache dtype is FP8. Otherwise, KV cache scaling factors default to 1.0, which may cause accuracy issues. | None |
+| `--kv-cache-dtype` | Data type for kv cache storage. 'auto' will use model data type. 'fp8_e5m2' and 'fp8_e4m3' is supported for CUDA 11.8+. | auto |
 
 ## Memory and scheduling
 
@@ -90,13 +100,13 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--cpu-offload-gb` | How many GBs of RAM to reserve for CPU offloading. | 0 |
 | `--page-size` | The number of tokens in a page. | 1 |
 
-
-## Other runtime options
+## Runtime options
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
-| `--tensor-parallel-size` or `--tp-size` | The tensor parallelism size. | 1 |
-| `--pipeline-parallel-size` or `--pp-size` | The pipeline parallelism size. | 1 |
+| `--device` | The device to use ('cuda', 'xpu', 'hpu', 'npu', 'cpu'). Defaults to auto-detection if not specified. | None |
+| `--tp-size` | The tensor parallelism size. | 1 |
+| `--pp-size` | The pipeline parallelism size. | 1 |
 | `--max-micro-batch-size` | The maximum micro batch size in pipeline parallelism. | None |
 | `--stream-interval` | The interval (or buffer size) for streaming in terms of the token length. A smaller value makes streaming smoother, while a larger value makes the throughput higher. | 1 |
 | `--stream-output` | Whether to output as a sequence of disjoint segments. | False |
@@ -132,20 +142,22 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
 | `--api-key` | Set API key of the server. It is also used in the OpenAI API compatible server. | None |
+| `--served-model-name` | Override the model name returned by the v1/models endpoint in OpenAI API server. | None |
+| `--chat-template` | The buliltin chat template name or the path of the chat template file. This is only used for OpenAI-compatible API server. | None |
+| `--completion-template` | The buliltin completion template name or the path of the completion template file. This is only used for OpenAI-compatible API server. only for code completion currently. | None |
 | `--file-storage-path` | The path of the file storage in backend. | sglang_storage |
 | `--enable-cache-report` | Return number of cached tokens in usage.prompt_tokens_details for each openai request. | False |
 | `--reasoning-parser` | Specify the parser for reasoning models, supported parsers are: {list(ReasoningParser.DetectorMap.keys())}. | None |
 | `--tool-call-parser` | Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', and 'kimi_k2'. | None |
 
-##  Data parallelism
+## Data parallelism
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
-| `--data-parallel-size` or `--dp-size` | The data parallelism size. | 1 |
+| `--dp-size` | The data parallelism size. | 1 |
 | `--load-balance-method` | The load balancing strategy for data parallelism. | round_robin |
 
-
-##  Multi-node distributed serving
+## Multi-node distributed serving
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
@@ -153,7 +165,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--nnodes` | The number of nodes. | 1 |
 | `--node-rank` | The node rank. | 0 |
 
-##  Model override args
+## Model override args in JSON
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
@@ -164,11 +176,11 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
+| `--max-lora-rank` | The maximum LoRA rank that should be supported. If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of larger LoRA rank after server startup. | None |
+| `--lora-target-modules` | The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup. | None |
 | `--lora-paths` | The list of LoRA adapters. You can provide a list of either path in str or renamed path in the format {name}={path}. | None |
 | `--max-loras-per-batch` | Maximum number of adapters for a running batch, include base-only request. | 8 |
 | `--lora-backend` | Choose the kernel backend for multi-LoRA serving. | triton |
-| `--max-lora-rank` | The maximum LoRA rank that should be supported. If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of larger LoRA rank after server startup. | None |
-| `--lora-target-modules` | The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup. | None |
 
 ## Kernel backend
 
@@ -179,7 +191,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--grammar-backend` | Choose the backend for grammar-guided decoding. | None |
 | `--mm-attention-backend` | Set multimodal attention backend. | None |
 
-##  Speculative decoding
+## Speculative decoding
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
@@ -192,13 +204,14 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--speculative-accept-threshold-acc` | The accept probability of a draft token is raised from its target probability p to min(1, p / threshold_acc). | 1.0 |
 | `--speculative-token-map` | The path of the draft model's small vocab table. | None |
 
-##  Expert parallelism
+## Expert parallelism
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
-| `--expert-parallel-size` or `--ep-size` | The expert parallelism size. | 1 |
+| `--ep-size` | The expert parallelism size. | 1 |
 | `--enable-ep-moe` | Enabling expert parallelism for moe. The ep size is equal to the tp size. | False |
 | `--enable-deepep-moe` | Enabling DeepEP MoE implementation for EP MoE. | False |
+| `--enable-flashinfer-moe` | Enabling Flashinfer MoE implementation. | False |
 | `--deepep-mode` | Select the mode when enable DeepEP MoE, could be `normal`, `low_latency` or `auto`. Default is `auto`, which means `low_latency` for decode batch and `normal` for prefill batch. | auto |
 | `--ep-num-redundant-experts` | Allocate this number of redundant experts in expert parallel. | 0 |
 | `--ep-dispatch-algorithm` | The algorithm to choose ranks for redundant experts in expert parallel. | None |
@@ -213,7 +226,18 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--deepep-config` | Tuned DeepEP config suitable for your own cluster. It can be either a string with JSON content or a file path. | None |
 | `--moe-dense-tp-size` | TP size for MoE dense MLP layers. This flag is useful when, with large TP size, there are errors caused by weights in MLP layers having dimension smaller than the min dimension GEMM supports. | None |
 
-##  Optimization/debug options
+## Hierarchical cache
+
+| Arguments | Description | Defaults |
+|-----------|-------------|----------|
+| `--enable-hierarchical-cache` | Enable hierarchical cache. | False |
+| `--hicache-ratio` | The ratio of the size of host KV cache memory pool to the size of device pool. | 2.0 |
+| `--hicache-size` | The size of the hierarchical cache. | 0 |
+| `--hicache-write-policy` | The write policy for hierarchical cache. | write_through_selective |
+| `--hicache-io-backend` | The IO backend for hierarchical cache. |  |
+| `--hicache-storage-backend` | The storage backend for hierarchical cache. | None |
+
+## Optimization/debug options
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
@@ -229,7 +253,6 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--disable-custom-all-reduce` | Disable the custom all-reduce kernel and fall back to NCCL. | False |
 | `--enable-mscclpp` | Enable using mscclpp for small messages for all-reduce kernel and fall back to NCCL. | False |
 | `--disable-overlap-schedule` | Disable the overlap scheduler, which overlaps the CPU scheduler with GPU model worker. | False |
-| `--disable-overlap-cg-plan` | Disable the overlap optimization for cudagraph preparation in eagle verify. | False |
 | `--enable-mixed-chunk` | Enabling mixing prefill and decode in a batch when using chunked prefill. | False |
 | `--enable-dp-attention` | Enabling data parallelism for attention and tensor parallelism for FFN. The dp size should be equal to the tp size. Currently DeepSeek-V2 and Qwen 2/3 MoE models are supported. | False |
 | `--enable-dp-lm-head` | Enable vocabulary parallel across the attention TP group to avoid all-gather across DP groups, optimizing performance under DP attention. | False |
@@ -246,24 +269,43 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--enable-memory-saver` | Allow saving memory using release_memory_occupation and resume_memory_occupation. | False |
 | `--allow-auto-truncate` | Allow automatically truncating requests that exceed the maximum input length instead of returning an error. | False |
 | `--enable-custom-logit-processor` | Enable users to pass custom logit processors to the server (disabled by default for security). | False |
-| `--enable-hierarchical-cache` | Enable hierarchical cache. | False |
-| `--hicache-ratio` | The ratio of the size of host KV cache memory pool to the size of device pool. | 2.0 |
-| `--hicache-size` | The size of host KV cache memory pool in gigabytes, which will override the hicache_ratio if set. | 0 |
-| `--hicache-write-policy` | The write policy of hierarchical cache. | write_through_selective |
-| `--flashinfer-mla-disable-ragged` | Not using ragged prefill wrapper when running flashinfer mla. | False |
-| `--disable-shared-experts-fusion` | Disable shared experts fusion optimization for deepseek v3/r1. | False |
-| `--disable-chunked-prefix-cache` | Disable chunked prefix cache feature for deepseek, which should save overhead for short sequences. | False |
-| `--disable-fast-image-processor` | Adopt base image processor instead of fast image processor. | False |
-| `--enable-return-hidden-states` | Enable returning hidden states with responses. | False |
-| `--warmups` | Specify custom warmup functions (csv) to run before server starts eg. --warmups=warmup_name1,warmup_name2 will run the functions `warmup_name1` and `warmup_name2` specified in warmup.py before the server starts listening for requests. | None |
+| `--flashinfer-mla-disable-ragged` | Disable ragged processing in Flashinfer MLA. | False |
+| `--disable-shared-experts-fusion` | Disable shared experts fusion. | False |
+| `--disable-chunked-prefix-cache` | Disable chunked prefix cache. | False |
+| `--disable-fast-image-processor` | Disable fast image processor. | False |
+| `--enable-return-hidden-states` | Enable returning hidden states. | False |
+| `--enable-triton-kernel-moe` | Enable Triton kernel for MoE. | False |
+
+## Debug tensor dumps
+
+| Arguments | Description | Defaults |
+|-----------|-------------|----------|
+| `--debug-tensor-dump-output-folder` | The output folder for debug tensor dumps. | None |
+| `--debug-tensor-dump-input-file` | The input file for debug tensor dumps. | None |
+| `--debug-tensor-dump-inject` | Enable injection of debug tensor dumps. | False |
+| `--debug-tensor-dump-prefill-only` | Enable prefill-only mode for debug tensor dumps. | False |
+
+## PD disaggregation
+
+| Arguments | Description | Defaults |
+|-----------|-------------|----------|
+| `--disaggregation-mode` | PD disaggregation mode: "null" (not disaggregated), "prefill" (prefill-only), or "decode" (decode-only). | null |
+| `--disaggregation-transfer-backend` | The transfer backend for PD disaggregation. | mooncake |
+| `--disaggregation-bootstrap-port` | The bootstrap port for PD disaggregation. | 8998 |
+| `--disaggregation-decode-tp` | The decode TP for PD disaggregation. | None |
+| `--disaggregation-decode-dp` | The decode DP for PD disaggregation. | None |
+| `--disaggregation-prefill-pp` | The prefill PP for PD disaggregation. | 1 |
+
+## Model weight update
+
+| Arguments | Description | Defaults |
+|-----------|-------------|----------|
+| `--custom-weight-loader` | Custom weight loader paths. | None |
+| `--weight-loader-disable-mmap` | Disable mmap for weight loader. | False |
 
-## Prefill decode disaggregation
+## PD-Multiplexing
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
-| `--disaggregation-mode` | Only used for PD disaggregation. "prefill" for prefill-only server, and "decode" for decode-only server. If not specified, it is not PD disaggregated. | null |
-| `--disaggregation-transfer-backend` | The backend for disaggregation transfer. Default is mooncake. | mooncake |
-| `--disaggregation-bootstrap-port` | Bootstrap server port on the prefill server. Default is 8998. | 8998 |
-| `--disaggregation-ib-device` | The InfiniBand devices for disaggregation transfer, accepts single device (e.g., --disaggregation-ib-device mlx5_0) or multiple comma-separated devices (e.g., --disaggregation-ib-device mlx5_0,mlx5_1). Default is None, which triggers automatic device detection when mooncake backend is enabled. | None |
-| `--num-reserved-decode-tokens` | Number of decode tokens that will have memory reserved when adding new request to the running batch. | 512 |
-| `--pdlb-url` | The URL of the PD disaggregation load balancer. If set, the prefill/decode server will register with the load balancer. | None |
+| `--enable-pdmux` | Enable PD-Multiplexing. | False |
+| `--sm-group-num` | Number of SM groups for PD-Multiplexing. | 3 |
diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index 7d7f2eb95b22..84c96d91df0b 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -53,7 +53,7 @@ def __init__(
         trust_remote_code: bool = True,
         revision: Optional[str] = None,
         context_length: Optional[int] = None,
-        model_override_args: Optional[str] = None,
+        model_override_args: str = "{}",
         is_embedding: Optional[bool] = None,
         enable_multimodal: Optional[bool] = None,
         dtype: str = "auto",
@@ -61,13 +61,13 @@ def __init__(
         override_config_file: Optional[str] = None,
         is_draft_model: bool = False,
         hybrid_kvcache_ratio: Optional[float] = None,
-        impl: Union[str, ModelImpl] = ModelImpl.AUTO,
+        model_impl: Union[str, ModelImpl] = ModelImpl.AUTO,
     ) -> None:
 
         self.model_path = model_path
         self.revision = revision
         self.quantization = quantization
-        self.impl = impl
+        self.model_impl = model_impl
 
         # Parse args
         self.maybe_pull_model_tokenizer_from_remote()
@@ -286,7 +286,7 @@ def from_server_args(server_args: ServerArgs, model_path: str = None, **kwargs):
             dtype=server_args.dtype,
             quantization=server_args.quantization,
             hybrid_kvcache_ratio=server_args.hybrid_kvcache_ratio,
-            impl=server_args.impl,
+            model_impl=server_args.model_impl,
             **kwargs,
         )
 
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 748cb7322ade..e6dd80d717ad 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1389,8 +1389,6 @@ def log_prefill_stats(
             f += f"#running-req: {running_bs}, "
             f += f"#queue-req: {len(self.waiting_queue)}, "
 
-        f += f"timestamp: {datetime.datetime.now().isoformat()}"
-
         logger.info(f)
 
         if self.enable_metrics:
@@ -1471,7 +1469,6 @@ def log_decode_stats(
             f"cuda graph: {can_run_cuda_graph}, "
             f"gen throughput (token/s): {self.last_gen_throughput:.2f}, "
             f"#queue-req: {len(self.waiting_queue)}, "
-            f"timestamp: {datetime.datetime.now().isoformat()}"
         )
 
         logger.info(msg)
diff --git a/python/sglang/srt/model_loader/utils.py b/python/sglang/srt/model_loader/utils.py
index 4f65ad5fecd1..dfbbd154d627 100644
--- a/python/sglang/srt/model_loader/utils.py
+++ b/python/sglang/srt/model_loader/utils.py
@@ -56,14 +56,14 @@ def resolve_transformers_arch(model_config: ModelConfig, architectures: list[str
                     "if the model is custom)."
                 )
             model_module = auto_modules["AutoModel"]
-        if model_config.impl == ModelImpl.TRANSFORMERS:
+        if model_config.model_impl == ModelImpl.TRANSFORMERS:
             if not model_module.is_backend_compatible():
                 raise ValueError(
                     f"The Transformers implementation of {arch} is not "
-                    "compatible with vLLM."
+                    "compatible with SGLang."
                 )
             architectures[i] = "TransformersForCausalLM"
-        if model_config.impl == ModelImpl.AUTO:
+        if model_config.model_impl == ModelImpl.AUTO:
             if not model_module.is_backend_compatible():
                 raise ValueError(
                     f"{arch} has no SGlang implementation and the Transformers "
@@ -97,7 +97,7 @@ def get_model_architecture(model_config: ModelConfig) -> Tuple[Type[nn.Module],
     supported_archs = ModelRegistry.get_supported_archs()
     is_native_supported = any(arch in supported_archs for arch in architectures)
 
-    if not is_native_supported or model_config.impl == ModelImpl.TRANSFORMERS:
+    if not is_native_supported or model_config.model_impl == ModelImpl.TRANSFORMERS:
         architectures = resolve_transformers_arch(model_config, architectures)
 
     return ModelRegistry.resolve_model_cls(architectures)
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 4f9e17e05dda..24292bcd79b8 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -20,6 +20,7 @@
 import os
 import random
 import tempfile
+from token import OP
 from typing import List, Literal, Optional, Union
 
 from sglang.srt.hf_transformers_utils import check_gguf_file, get_config
@@ -46,31 +47,28 @@ class ServerArgs:
     tokenizer_path: Optional[str] = None
     tokenizer_mode: str = "auto"
     skip_tokenizer_init: bool = False
-    skip_server_warmup: bool = False
     load_format: str = "auto"
     model_loader_extra_config: str = "{}"
     trust_remote_code: bool = False
-    dtype: str = "auto"
-    kv_cache_dtype: str = "auto"
-    quantization: Optional[str] = None
-    quantization_param_path: Optional[str] = None
     context_length: Optional[int] = None
-    device: Optional[str] = None
-    served_model_name: Optional[str] = None
-    chat_template: Optional[str] = None
-    completion_template: Optional[str] = None
     is_embedding: bool = False
     enable_multimodal: Optional[bool] = None
     revision: Optional[str] = None
-    hybrid_kvcache_ratio: Optional[float] = None
-    swa_full_tokens_ratio: float = 0.8
-    impl: str = "auto"
+    model_impl: str = "auto"
 
-    # Port for the HTTP server
+    # HTTP server
     host: str = "127.0.0.1"
     port: int = 30000
+    skip_server_warmup: bool = False
+    warmups: Optional[str] = None
     nccl_port: Optional[int] = None
 
+    # Quantization and data type
+    dtype: str = "auto"
+    quantization: Optional[str] = None
+    quantization_param_path: Optional[str] = None
+    kv_cache_dtype: str = "auto"
+
     # Memory and scheduling
     mem_fraction_static: Optional[float] = None
     max_running_requests: Optional[int] = None
@@ -81,8 +79,12 @@ class ServerArgs:
     schedule_conservativeness: float = 1.0
     cpu_offload_gb: int = 0
     page_size: int = 1
+    hybrid_kvcache_ratio: Optional[float] = None
+    swa_full_tokens_ratio: float = 0.8
+    disable_hybrid_swa_memory: bool = False
 
-    # Other runtime options
+    # Runtime options
+    device: Optional[str] = None
     tp_size: int = 1
     pp_size: int = 1
     max_micro_batch_size: Optional[int] = None
@@ -107,8 +109,8 @@ class ServerArgs:
     enable_metrics: bool = False
     enable_metrics_for_all_schedulers: bool = False
     bucket_time_to_first_token: Optional[List[float]] = None
-    bucket_e2e_request_latency: Optional[List[float]] = None
     bucket_inter_token_latency: Optional[List[float]] = None
+    bucket_e2e_request_latency: Optional[List[float]] = None
     collect_tokens_histogram: bool = False
     decode_log_interval: int = 40
     enable_request_time_stats_logging: bool = False
@@ -116,6 +118,9 @@ class ServerArgs:
 
     # API related
     api_key: Optional[str] = None
+    served_model_name: Optional[str] = None
+    chat_template: Optional[str] = None
+    completion_template: Optional[str] = None
     file_storage_path: str = "sglang_storage"
     enable_cache_report: bool = False
     reasoning_parser: Optional[str] = None
@@ -179,6 +184,14 @@ class ServerArgs:
     deepep_config: Optional[str] = None
     moe_dense_tp_size: Optional[int] = None
 
+    # Hierarchical cache
+    enable_hierarchical_cache: bool = False
+    hicache_ratio: float = 2.0
+    hicache_size: int = 0
+    hicache_write_policy: str = "write_through_selective"
+    hicache_io_backend: str = ""
+    hicache_storage_backend: Optional[str] = None
+
     # Double Sparsity
     enable_double_sparsity: bool = False
     ds_channel_config_path: Optional[str] = None
@@ -200,7 +213,6 @@ class ServerArgs:
     disable_custom_all_reduce: bool = False
     enable_mscclpp: bool = False
     disable_overlap_schedule: bool = False
-    disable_overlap_cg_plan: bool = False
     enable_mixed_chunk: bool = False
     enable_dp_attention: bool = False
     enable_dp_lm_head: bool = False
@@ -217,20 +229,12 @@ class ServerArgs:
     enable_memory_saver: bool = False
     allow_auto_truncate: bool = False
     enable_custom_logit_processor: bool = False
-    enable_hierarchical_cache: bool = False
-    hicache_ratio: float = 2.0
-    hicache_size: int = 0
-    hicache_write_policy: str = "write_through_selective"
-    hicache_io_backend: str = ""
-    hicache_storage_backend: Optional[str] = None
     flashinfer_mla_disable_ragged: bool = False
     disable_shared_experts_fusion: bool = False
     disable_chunked_prefix_cache: bool = False
     disable_fast_image_processor: bool = False
     enable_return_hidden_states: bool = False
     enable_triton_kernel_moe: bool = False
-    warmups: Optional[str] = None
-    disable_hybrid_swa_memory: bool = False
 
     # Debug tensor dumps
     debug_tensor_dump_output_folder: Optional[str] = None
@@ -238,7 +242,7 @@ class ServerArgs:
     debug_tensor_dump_inject: bool = False
     debug_tensor_dump_prefill_only: bool = False
 
-    # For PD disaggregation: can be "null" (not disaggregated), "prefill" (prefill-only), or "decode" (decode-only)
+    # PD disaggregation: can be "null" (not disaggregated), "prefill" (prefill-only), or "decode" (decode-only)
     disaggregation_mode: str = "null"
     disaggregation_transfer_backend: str = "mooncake"
     disaggregation_bootstrap_port: int = 8998
@@ -273,6 +277,7 @@ def __post_init__(self):
             logger.warning(
                 f"Flashinfer MoE is enabled. Shared expert fusion is disabled."
             )
+
         # Set missing default values
         if self.tokenizer_path is None:
             self.tokenizer_path = self.model_path
@@ -333,56 +338,12 @@ def __post_init__(self):
                 self.mem_fraction_static = 0.88
 
             # Lazy init to avoid circular import
+            # Multimodal models need more memory for the image processor
             from sglang.srt.configs.model_config import ModelConfig
 
-            # Multimodal models need more memory for the image processor
             model_config = ModelConfig.from_server_args(self)
-
-            vision_config = getattr(model_config.hf_config, "vision_config", None)
-
-            if model_config.is_multimodal and vision_config:
-                # roughly reduce the mem_fraction_static base on params of Vit
-                original_server_arg_mem_fraction = self.mem_fraction_static
-                # a base mem_fraction_static factor for regular Vit
-                base_mem_fraction_reduction_ratio = 0.95
-
-                vit_num_layers = getattr(vision_config, "num_hidden_layers", 24)
-                vit_hidden_size = getattr(vision_config, "hidden_size", 1024)
-
-                # baseline ViT params (ViT-L/14)
-                baseline_vit_layers = 24
-                baseline_vit_hidden_size = 1024
-
-                # weight params count
-                current_complexity_score = vit_num_layers * (vit_hidden_size**2)
-                baseline_complexity_score = baseline_vit_layers * (
-                    baseline_vit_hidden_size**2
-                )
-                complexity_ratio = (
-                    current_complexity_score / baseline_complexity_score
-                    if baseline_complexity_score > 0
-                    else 1.0
-                )
-
-                # every time the complexity grows 100%, adjust final factor for 10%
-                sensitivity_scale = 0.1
-                dynamic_adjustment_factor = 1.0 - sensitivity_scale * (
-                    complexity_ratio - 1.0
-                )
-                dynamic_adjustment_factor = max(
-                    0.8, min(1.05, dynamic_adjustment_factor)
-                )
-
-                final_overall_factor = (
-                    base_mem_fraction_reduction_ratio * dynamic_adjustment_factor
-                )
-                self.mem_fraction_static = (
-                    original_server_arg_mem_fraction * final_overall_factor
-                )
-                logger.warning(
-                    f"Multimodal model: Dynamically adjusted --mem-fraction-static "
-                    f"from: {original_server_arg_mem_fraction:.3f} to: {self.mem_fraction_static:.3f}."
-                )
+            if model_config.is_multimodal:
+                self.adjust_mem_fraction_for_vlm(model_config)
 
         # Set chunked prefill size, which depends on the gpu memory capacity
         if self.chunked_prefill_size is None:
@@ -406,23 +367,6 @@ def __post_init__(self):
                 else:
                     self.cuda_graph_max_bs = 80
 
-        assert self.moe_dense_tp_size in {
-            1,
-            None,
-        }, "moe_dense_tp_size only support 1 and None currently"
-
-        if self.attention_backend == "flashmla":
-            logger.warning(
-                "FlashMLA only supports a page_size of 64, change page_size to 64."
-            )
-            self.page_size = 64
-
-        if self.attention_backend == "cutlass_mla":
-            logger.warning(
-                "Cutlass MLA only supports a page_size of 128, change page_size to 128."
-            )
-            self.page_size = 128
-
         # Set kernel backends for hpu device
         if self.device == "hpu":
             self.attention_backend = "torch_native"
@@ -451,6 +395,18 @@ def __post_init__(self):
             )
             self.page_size = 128
 
+        if self.attention_backend == "flashmla":
+            logger.warning(
+                "FlashMLA only supports a page_size of 64, change page_size to 64."
+            )
+            self.page_size = 64
+
+        if self.attention_backend == "cutlass_mla":
+            logger.warning(
+                "Cutlass MLA only supports a page_size of 128, change page_size to 128."
+            )
+            self.page_size = 128
+
         # Choose grammar backend
         if self.grammar_backend is None:
             self.grammar_backend = "xgrammar"
@@ -482,12 +438,6 @@ def __post_init__(self):
                 f"DeepEP MoE is enabled. The expert parallel size is adjusted to be the same as the tensor parallel size[{self.tp_size}]."
             )
 
-        if self.pp_size > 1:
-            self.disable_overlap_schedule = True
-            logger.warning(
-                "Pipeline parallelism is incompatible with overlap schedule."
-            )
-
         if self.enable_eplb and (self.expert_distribution_recorder_mode is None):
             self.expert_distribution_recorder_mode = "stat"
             logger.info(
@@ -513,6 +463,13 @@ def __post_init__(self):
             elif self.expert_distribution_recorder_mode is not None:
                 self.expert_distribution_recorder_buffer_size = 1000
 
+        # Pipeline parallelism
+        if self.pp_size > 1:
+            self.disable_overlap_schedule = True
+            logger.warning(
+                "Pipeline parallelism is incompatible with overlap schedule."
+            )
+
         # Speculative Decoding
         if self.speculative_algorithm == "NEXTN":
             # NEXTN shares the same implementation of EAGLE
@@ -533,8 +490,7 @@ def __post_init__(self):
                     "eagle speculative decoding."
                 )
 
-            model_arch = get_model_arch(self)
-
+            model_arch = self.get_hf_config().architectures[0]
             if model_arch == "DeepseekV3ForCausalLM":
                 # Auto set draft_model_path DeepSeek-V3/R1
                 if self.speculative_draft_model_path is None:
@@ -624,17 +580,9 @@ def __post_init__(self):
         if self.custom_weight_loader is None:
             self.custom_weight_loader = []
 
-    def validate_disagg_tp_size(self, prefill_tp: int, decode_tp: int):
-        larger_tp = max(decode_tp, prefill_tp)
-        smaller_tp = min(decode_tp, prefill_tp)
-        assert larger_tp % smaller_tp == 0, (
-            "Different tp size is supported only when one tp is multiple of the other. "
-            f"decode_tp={decode_tp}, prefill_tp={prefill_tp}"
-        )
-
     @staticmethod
     def add_cli_args(parser: argparse.ArgumentParser):
-        # Model and port args
+        # Model and tokenizer
         parser.add_argument(
             "--model-path",
             "--model",
@@ -648,24 +596,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.tokenizer_path,
             help="The path of the tokenizer.",
         )
-        parser.add_argument(
-            "--host",
-            type=str,
-            default=ServerArgs.host,
-            help="The host of the HTTP server.",
-        )
-        parser.add_argument(
-            "--port",
-            type=int,
-            default=ServerArgs.port,
-            help="The port of the HTTP server.",
-        )
-        parser.add_argument(
-            "--nccl-port",
-            type=int,
-            default=ServerArgs.nccl_port,
-            help="The port for NCCL distributed environment setup. Defaults to a random port.",
-        )
         parser.add_argument(
             "--tokenizer-mode",
             type=str,
@@ -680,11 +610,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="If set, skip init tokenizer and pass input_ids in generate request.",
         )
-        parser.add_argument(
-            "--skip-server-warmup",
-            action="store_true",
-            help="If set, skip warmup.",
-        )
         parser.add_argument(
             "--load-format",
             type=str,
@@ -730,6 +655,77 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Whether or not to allow for custom models defined on the Hub in their own modeling files.",
         )
+        parser.add_argument(
+            "--context-length",
+            type=int,
+            default=ServerArgs.context_length,
+            help="The model's maximum context length. Defaults to None (will use the value from the model's config.json instead).",
+        )
+        parser.add_argument(
+            "--is-embedding",
+            action="store_true",
+            help="Whether to use a CausalLM as an embedding model.",
+        )
+        parser.add_argument(
+            "--enable-multimodal",
+            default=ServerArgs.enable_multimodal,
+            action="store_true",
+            help="Enable the multimodal functionality for the served model. If the model being served is not multimodal, nothing will happen",
+        )
+        parser.add_argument(
+            "--revision",
+            type=str,
+            default=None,
+            help="The specific model version to use. It can be a branch "
+            "name, a tag name, or a commit id. If unspecified, will use "
+            "the default version.",
+        )
+        parser.add_argument(
+            "--model-impl",
+            type=str,
+            default=ServerArgs.model_impl,
+            help="Which implementation of the model to use.\n\n"
+            '* "auto" will try to use the SGLang implementation if it exists '
+            "and fall back to the Transformers implementation if no SGLang "
+            "implementation is available.\n"
+            '* "sglang" will use the SGLang model implementation.\n'
+            '* "transformers" will use the Transformers model '
+            "implementation.\n",
+        )
+
+        # HTTP server
+        parser.add_argument(
+            "--host",
+            type=str,
+            default=ServerArgs.host,
+            help="The host of the HTTP server.",
+        )
+        parser.add_argument(
+            "--port",
+            type=int,
+            default=ServerArgs.port,
+            help="The port of the HTTP server.",
+        )
+        parser.add_argument(
+            "--skip-server-warmup",
+            action="store_true",
+            help="If set, skip warmup.",
+        )
+        parser.add_argument(
+            "--warmups",
+            type=str,
+            required=False,
+            help="Specify custom warmup functions (csv) to run before server starts eg. --warmups=warmup_name1,warmup_name2 "
+            "will run the functions `warmup_name1` and `warmup_name2` specified in warmup.py before the server starts listening for requests",
+        )
+        parser.add_argument(
+            "--nccl-port",
+            type=int,
+            default=ServerArgs.nccl_port,
+            help="The port for NCCL distributed environment setup. Defaults to a random port.",
+        )
+
+        # Quantization and data type
         parser.add_argument(
             "--dtype",
             type=str,
@@ -744,13 +740,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             '* "float" is shorthand for FP32 precision.\n'
             '* "float32" for FP32 precision.',
         )
-        parser.add_argument(
-            "--kv-cache-dtype",
-            type=str,
-            default=ServerArgs.kv_cache_dtype,
-            choices=["auto", "fp8_e5m2", "fp8_e4m3"],
-            help='Data type for kv cache storage. "auto" will use model data type. "fp8_e5m2" and "fp8_e4m3" is supported for CUDA 11.8+.',
-        )
         parser.add_argument(
             "--quantization",
             type=str,
@@ -785,65 +774,11 @@ def add_cli_args(parser: argparse.ArgumentParser):
             "default to 1.0, which may cause accuracy issues. ",
         )
         parser.add_argument(
-            "--context-length",
-            type=int,
-            default=ServerArgs.context_length,
-            help="The model's maximum context length. Defaults to None (will use the value from the model's config.json instead).",
-        )
-        parser.add_argument(
-            "--device",
-            type=str,
-            default=ServerArgs.device,
-            help="The device to use ('cuda', 'xpu', 'hpu', 'npu', 'cpu'). Defaults to auto-detection if not specified.",
-        )
-        parser.add_argument(
-            "--served-model-name",
-            type=str,
-            default=ServerArgs.served_model_name,
-            help="Override the model name returned by the v1/models endpoint in OpenAI API server.",
-        )
-        parser.add_argument(
-            "--chat-template",
-            type=str,
-            default=ServerArgs.chat_template,
-            help="The buliltin chat template name or the path of the chat template file. This is only used for OpenAI-compatible API server.",
-        )
-        parser.add_argument(
-            "--completion-template",
-            type=str,
-            default=ServerArgs.completion_template,
-            help="The buliltin completion template name or the path of the completion template file. This is only used for OpenAI-compatible API server. only for code completion currently.",
-        )
-        parser.add_argument(
-            "--is-embedding",
-            action="store_true",
-            help="Whether to use a CausalLM as an embedding model.",
-        )
-        parser.add_argument(
-            "--enable-multimodal",
-            default=ServerArgs.enable_multimodal,
-            action="store_true",
-            help="Enable the multimodal functionality for the served model. If the model being served is not multimodal, nothing will happen",
-        )
-        parser.add_argument(
-            "--revision",
-            type=str,
-            default=None,
-            help="The specific model version to use. It can be a branch "
-            "name, a tag name, or a commit id. If unspecified, will use "
-            "the default version.",
-        )
-        parser.add_argument(
-            "--impl",
+            "--kv-cache-dtype",
             type=str,
-            default=ServerArgs.impl,
-            help="Which implementation of the model to use.\n\n"
-            '* "auto" will try to use the SGLang implementation if it exists '
-            "and fall back to the Transformers implementation if no SGLang "
-            "implementation is available.\n"
-            '* "sglang" will use the SGLang model implementation.\n'
-            '* "transformers" will use the Transformers model '
-            "implementation.\n",
+            default=ServerArgs.kv_cache_dtype,
+            choices=["auto", "fp8_e5m2", "fp8_e4m3"],
+            help='Data type for kv cache storage. "auto" will use model data type. "fp8_e5m2" and "fp8_e4m3" is supported for CUDA 11.8+.',
         )
 
         # Memory and scheduling
@@ -928,7 +863,13 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="Disable the hybrid SWA memory.",
         )
 
-        # Other runtime options
+        # Runtime options
+        parser.add_argument(
+            "--device",
+            type=str,
+            default=ServerArgs.device,
+            help="The device to use ('cuda', 'xpu', 'hpu', 'npu', 'cpu'). Defaults to auto-detection if not specified.",
+        )
         parser.add_argument(
             "--tensor-parallel-size",
             "--tp-size",
@@ -970,7 +911,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
             "--constrained-json-whitespace-pattern",
             type=str,
             default=ServerArgs.constrained_json_whitespace_pattern,
-            help=r"Regex pattern for syntactic whitespaces allowed in JSON constrained output. For example, to allow the model generate consecutive whitespaces, set the pattern to [\n\t ]*",
+            help="(outlines backend only) Regex pattern for syntactic whitespaces allowed in JSON constrained output. For example, to allow the model generate consecutive whitespaces, set the pattern to [\n\t ]*",
         )
         parser.add_argument(
             "--watchdog-timeout",
@@ -1083,12 +1024,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.collect_tokens_histogram,
             help="Collect prompt/generation tokens histogram.",
         )
-        parser.add_argument(
-            "--kv-events-config",
-            type=str,
-            default=None,
-            help="Config in json format for NVIDIA dynamo KV event publishing. Publishing will be enabled if this flag is used.",
-        )
         parser.add_argument(
             "--decode-log-interval",
             type=int,
@@ -1101,6 +1036,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.enable_request_time_stats_logging,
             help="Enable per request time stats logging",
         )
+        parser.add_argument(
+            "--kv-events-config",
+            type=str,
+            default=None,
+            help="Config in json format for NVIDIA dynamo KV event publishing. Publishing will be enabled if this flag is used.",
+        )
 
         # API related
         parser.add_argument(
@@ -1109,6 +1050,24 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.api_key,
             help="Set API key of the server. It is also used in the OpenAI API compatible server.",
         )
+        parser.add_argument(
+            "--served-model-name",
+            type=str,
+            default=ServerArgs.served_model_name,
+            help="Override the model name returned by the v1/models endpoint in OpenAI API server.",
+        )
+        parser.add_argument(
+            "--chat-template",
+            type=str,
+            default=ServerArgs.chat_template,
+            help="The buliltin chat template name or the path of the chat template file. This is only used for OpenAI-compatible API server.",
+        )
+        parser.add_argument(
+            "--completion-template",
+            type=str,
+            default=ServerArgs.completion_template,
+            help="The buliltin completion template name or the path of the completion template file. This is only used for OpenAI-compatible API server. only for code completion currently.",
+        )
         parser.add_argument(
             "--file-storage-path",
             type=str,
@@ -1427,6 +1386,46 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="TP size for MoE dense MLP layers. This flag is useful when, with large TP size, there are errors caused by weights in MLP layers having dimension smaller than the min dimension GEMM supports.",
         )
 
+        # Hierarchical cache
+        parser.add_argument(
+            "--enable-hierarchical-cache",
+            action="store_true",
+            help="Enable hierarchical cache",
+        )
+        parser.add_argument(
+            "--hicache-ratio",
+            type=float,
+            default=ServerArgs.hicache_ratio,
+            help="The ratio of the size of host KV cache memory pool to the size of device pool.",
+        )
+        parser.add_argument(
+            "--hicache-size",
+            type=int,
+            default=ServerArgs.hicache_size,
+            help="The size of host KV cache memory pool in gigabytes, which will override the hicache_ratio if set.",
+        )
+        parser.add_argument(
+            "--hicache-write-policy",
+            type=str,
+            choices=["write_back", "write_through", "write_through_selective"],
+            default=ServerArgs.hicache_write_policy,
+            help="The write policy of hierarchical cache.",
+        )
+        parser.add_argument(
+            "--hicache-io-backend",
+            type=str,
+            choices=["direct", "kernel"],
+            default=ServerArgs.hicache_io_backend,
+            help="The IO backend for KV cache transfer between CPU and GPU",
+        )
+        parser.add_argument(
+            "--hicache-storage-backend",
+            type=str,
+            choices=["file"],  # todo, mooncake
+            default=ServerArgs.hicache_storage_backend,
+            help="The storage backend for hierarchical KV cache.",
+        )
+
         # Double Sparsity
         parser.add_argument(
             "--enable-double-sparsity",
@@ -1619,44 +1618,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Enable users to pass custom logit processors to the server (disabled by default for security)",
         )
-        parser.add_argument(
-            "--enable-hierarchical-cache",
-            action="store_true",
-            help="Enable hierarchical cache",
-        )
-        parser.add_argument(
-            "--hicache-ratio",
-            type=float,
-            default=ServerArgs.hicache_ratio,
-            help="The ratio of the size of host KV cache memory pool to the size of device pool.",
-        )
-        parser.add_argument(
-            "--hicache-size",
-            type=int,
-            default=ServerArgs.hicache_size,
-            help="The size of host KV cache memory pool in gigabytes, which will override the hicache_ratio if set.",
-        )
-        parser.add_argument(
-            "--hicache-write-policy",
-            type=str,
-            choices=["write_back", "write_through", "write_through_selective"],
-            default=ServerArgs.hicache_write_policy,
-            help="The write policy of hierarchical cache.",
-        )
-        parser.add_argument(
-            "--hicache-io-backend",
-            type=str,
-            choices=["direct", "kernel"],
-            default=ServerArgs.hicache_io_backend,
-            help="The IO backend for KV cache transfer between CPU and GPU",
-        )
-        parser.add_argument(
-            "--hicache-storage-backend",
-            type=str,
-            choices=["file"],  # todo, mooncacke
-            default=ServerArgs.hicache_storage_backend,
-            help="The storage backend for hierarchical KV cache.",
-        )
         parser.add_argument(
             "--flashinfer-mla-disable-ragged",
             action="store_true",
@@ -1687,13 +1648,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Use triton moe grouped gemm kernel.",
         )
-        parser.add_argument(
-            "--warmups",
-            type=str,
-            required=False,
-            help="Specify custom warmup functions (csv) to run before server starts eg. --warmups=warmup_name1,warmup_name2 "
-            "will run the functions `warmup_name1` and `warmup_name2` specified in warmup.py before the server starts listening for requests",
-        )
 
         # Debug tensor dumps
         parser.add_argument(
@@ -1720,7 +1674,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="Only dump the tensors for prefill requests (i.e. batch size > 1).",
         )
 
-        # Disaggregation
+        # PD disaggregation
         parser.add_argument(
             "--disaggregation-mode",
             type=str,
@@ -1779,6 +1733,8 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=None,
             help="The URL of the PD disaggregation load balancer. If set, the prefill/decode server will register with the load balancer.",
         )
+
+        # Custom weight loader
         parser.add_argument(
             "--custom-weight-loader",
             type=str,
@@ -1791,6 +1747,8 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Enable PD-Multiplexing, PD running on greenctx stream.",
         )
+
+        # For PD-Multiplexing
         parser.add_argument(
             "--sm-group-num",
             type=int,
@@ -1818,6 +1776,17 @@ def url(self):
         else:
             return f"http://{self.host}:{self.port}"
 
+    def get_hf_config(self):
+        kwargs = {}
+        hf_config = get_config(
+            self.model_path,
+            trust_remote_code=self.trust_remote_code,
+            revision=self.revision,
+            model_override_args=json.loads(self.json_model_override_args),
+            **kwargs,
+        )
+        return hf_config
+
     def check_server_args(self):
         assert (
             self.tp_size * self.pp_size
@@ -1842,6 +1811,11 @@ def check_server_args(self):
         assert self.base_gpu_id >= 0, "base_gpu_id must be non-negative"
         assert self.gpu_id_step >= 1, "gpu_id_step must be positive"
 
+        assert self.moe_dense_tp_size in {
+            1,
+            None,
+        }, "moe_dense_tp_size only support 1 and None currently"
+
         if isinstance(self.lora_paths, list):
             lora_paths = self.lora_paths
             self.lora_paths = {}
@@ -1852,6 +1826,56 @@ def check_server_args(self):
                 else:
                     self.lora_paths[lora_path] = lora_path
 
+    def validate_disagg_tp_size(self, prefill_tp: int, decode_tp: int):
+        larger_tp = max(decode_tp, prefill_tp)
+        smaller_tp = min(decode_tp, prefill_tp)
+        assert larger_tp % smaller_tp == 0, (
+            "Different tp size is supported only when one tp is multiple of the other. "
+            f"decode_tp={decode_tp}, prefill_tp={prefill_tp}"
+        )
+
+    def adjust_mem_fraction_for_vlm(self, model_config):
+        vision_config = getattr(model_config.hf_config, "vision_config", None)
+        if vision_config is None:
+            return
+
+        # roughly reduce the mem_fraction_static base on params of Vit
+        original_server_arg_mem_fraction = self.mem_fraction_static
+        # a base mem_fraction_static factor for regular Vit
+        base_mem_fraction_reduction_ratio = 0.95
+
+        vit_num_layers = getattr(vision_config, "num_hidden_layers", 24)
+        vit_hidden_size = getattr(vision_config, "hidden_size", 1024)
+
+        # baseline ViT params (ViT-L/14)
+        baseline_vit_layers = 24
+        baseline_vit_hidden_size = 1024
+
+        # weight params count
+        current_complexity_score = vit_num_layers * (vit_hidden_size**2)
+        baseline_complexity_score = baseline_vit_layers * (baseline_vit_hidden_size**2)
+        complexity_ratio = (
+            current_complexity_score / baseline_complexity_score
+            if baseline_complexity_score > 0
+            else 1.0
+        )
+
+        # every time the complexity grows 100%, adjust final factor for 10%
+        sensitivity_scale = 0.1
+        dynamic_adjustment_factor = 1.0 - sensitivity_scale * (complexity_ratio - 1.0)
+        dynamic_adjustment_factor = max(0.8, min(1.05, dynamic_adjustment_factor))
+
+        final_overall_factor = (
+            base_mem_fraction_reduction_ratio * dynamic_adjustment_factor
+        )
+        self.mem_fraction_static = (
+            original_server_arg_mem_fraction * final_overall_factor
+        )
+        logger.warning(
+            f"Multimodal model: Dynamically adjusted --mem-fraction-static "
+            f"from: {original_server_arg_mem_fraction:.3f} to: {self.mem_fraction_static:.3f}."
+        )
+
 
 def prepare_server_args(argv: List[str]) -> ServerArgs:
     """
@@ -1895,16 +1919,16 @@ class PortArgs:
     @staticmethod
     def init_new(server_args, dp_rank: Optional[int] = None) -> "PortArgs":
         if server_args.nccl_port is None:
-            port = server_args.port + random.randint(100, 1000)
+            nccl_port = server_args.port + random.randint(100, 1000)
             while True:
-                if is_port_available(port):
+                if is_port_available(nccl_port):
                     break
-                if port < 60000:
-                    port += 42
+                if nccl_port < 60000:
+                    nccl_port += 42
                 else:
-                    port -= 43
+                    nccl_port -= 43
         else:
-            port = server_args.nccl_port
+            nccl_port = server_args.nccl_port
 
         if not server_args.enable_dp_attention:
             # Normal case, use IPC within a single node
@@ -1912,7 +1936,7 @@ def init_new(server_args, dp_rank: Optional[int] = None) -> "PortArgs":
                 tokenizer_ipc_name=f"ipc://{tempfile.NamedTemporaryFile(delete=False).name}",
                 scheduler_input_ipc_name=f"ipc://{tempfile.NamedTemporaryFile(delete=False).name}",
                 detokenizer_ipc_name=f"ipc://{tempfile.NamedTemporaryFile(delete=False).name}",
-                nccl_port=port,
+                nccl_port=nccl_port,
                 rpc_ipc_name=f"ipc://{tempfile.NamedTemporaryFile(delete=False).name}",
                 metrics_ipc_name=f"ipc://{tempfile.NamedTemporaryFile(delete=False).name}",
             )
@@ -1942,7 +1966,7 @@ def init_new(server_args, dp_rank: Optional[int] = None) -> "PortArgs":
                 tokenizer_ipc_name=f"tcp://{dist_init_host}:{port_base}",
                 scheduler_input_ipc_name=f"tcp://{dist_init_host}:{scheduler_input_port}",
                 detokenizer_ipc_name=f"tcp://{dist_init_host}:{port_base + 1}",
-                nccl_port=port,
+                nccl_port=nccl_port,
                 rpc_ipc_name=f"tcp://{dist_init_host}:{port_base + 2}",
                 metrics_ipc_name=f"tcp://{dist_init_host}:{port_base + 3}",
             )
@@ -1969,31 +1993,13 @@ def __call__(self, parser, namespace, values, option_string=None):
         raise ValueError(self.help)
 
 
-def get_model_arch(args: ServerArgs):
-    hf_config = get_config(
-        args.model_path,
-        trust_remote_code=args.trust_remote_code,
-        revision=args.revision,
-        model_override_args=json.loads(args.json_model_override_args),
-    )
-    return hf_config.architectures[0]
-
-
 def auto_choose_speculative_params(self: ServerArgs):
     """
     Automatically choose the parameters for speculative decoding.
 
     You can tune them on your own models and prompts with scripts/playground/bench_speculative.py
     """
-    kwargs = {}
-
-    hf_config = get_config(
-        self.model_path,
-        trust_remote_code=self.trust_remote_code,
-        revision=self.revision,
-        model_override_args=json.loads(self.json_model_override_args),
-        **kwargs,
-    )
+    hf_config = self.get_hf_config()
     arch = hf_config.architectures[0]
 
     if arch in ["LlamaForCausalLM"]:
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index 64a1b34c20a6..941940fe0fd8 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -481,7 +481,7 @@ def __init__(
         torch_dtype: torch.dtype,
         model_type: str,
         tp_size: int = 1,
-        impl: str = "auto",
+        model_impl: str = "auto",
         port: int = DEFAULT_PORT_FOR_SRT_TEST_RUNNER,
         lora_paths: List[str] = None,
         max_loras_per_batch: int = 4,
@@ -525,7 +525,7 @@ def __init__(
             tp_size=tp_size,
             dtype=get_dtype_str(torch_dtype),
             port=port,
-            impl=impl,
+            model_impl=model_impl,
             torchao_config=torchao_config,
             mem_fraction_static=mem_fraction_static,
             trust_remote_code=trust_remote_code,
diff --git a/test/srt/models/test_transformers_models.py b/test/srt/models/test_transformers_models.py
index 7e92b49d1637..95592453fb10 100644
--- a/test/srt/models/test_transformers_models.py
+++ b/test/srt/models/test_transformers_models.py
@@ -27,7 +27,7 @@ def setUpClass(cls):
             cls.model,
             cls.base_url,
             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            other_args=["--impl", "transformers"],
+            other_args=["--model-impl", "transformers"],
         )
         cls.mmlu_lower_bound = 0.65
         cls.gsm8k_lower_bound = 0.65
@@ -76,7 +76,7 @@ def setUpClass(cls):
             cls.base_url,
             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
             other_args=[
-                "--impl",
+                "--model-impl",
                 "transformers",
                 "--torchao-config",
                 "int4wo-128",
@@ -127,7 +127,7 @@ def assert_close_logits_and_output_strs(
             tp_size=model_case.tp_size,
             torch_dtype=model_case.torch_dtype,
             model_type="generation",
-            impl="transformers",
+            model_impl="transformers",
             trust_remote_code=model_case.trust_remote_code,
             torchao_config=model_case.torchao_config,
         ) as srt_runner:

From 3de617a75bc9682763ba4f5f402a679e0df5dd22 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sat, 19 Jul 2025 13:14:08 -0700
Subject: [PATCH 053/396] Fix LoRA buffer contamination during adapter eviction
 (#8103)

---
 python/sglang/srt/lora/mem_pool.py         |  51 +++++++---
 test/srt/models/lora/test_lora_eviction.py | 111 +++++++++++++++++++++
 test/srt/run_suite.py                      |   1 +
 3 files changed, 148 insertions(+), 15 deletions(-)
 create mode 100644 test/srt/models/lora/test_lora_eviction.py

diff --git a/python/sglang/srt/lora/mem_pool.py b/python/sglang/srt/lora/mem_pool.py
index 713b03650cf1..1b36cac5e1a7 100644
--- a/python/sglang/srt/lora/mem_pool.py
+++ b/python/sglang/srt/lora/mem_pool.py
@@ -188,10 +188,18 @@ def load_lora_weight_to_buffer(
         lora_adapter: LoRAAdapter,
         lora_modules: Dict[int, Dict[str, BaseLayerWithLoRA]],
     ):
-        def check_lora_weight_shape(buffer_view: torch.Tensor, weight: torch.Tensor):
-            assert (
-                buffer_view.shape == weight.shape
-            ), f"LoRA buffer shape {buffer_view.shape} does not match weight shape {weight.shape}."
+        def load_lora_weight_tensor(
+            buffer_view: torch.Tensor, weight: Optional[torch.Tensor]
+        ):
+            if weight is None:
+                # If the particular weight is not present in the adapter, we initialize the buffer to zero
+                # to avoid contamination from the residual weight of the evicted adapters.
+                buffer_view.zero_()
+            else:
+                assert (
+                    buffer_view.shape == weight.shape
+                ), f"LoRA buffer shape {buffer_view.shape} does not match weight shape {weight.shape}."
+                buffer_view.copy_(weight)
 
         if uid is None:
             for i in range(self.num_layer):
@@ -203,8 +211,12 @@ def check_lora_weight_shape(buffer_view: torch.Tensor, weight: torch.Tensor):
         lora_rank = lora_adapter.config.hf_config["r"]
         for layer_id in range(self.num_layer):
             layer_weights = lora_adapter.layers[layer_id].weights
-            temp_A_buffer: Dict[str, torch.Tensor] = {}
-            temp_B_buffer: Dict[str, torch.Tensor] = {}
+            temp_A_buffer: Dict[str, Optional[torch.Tensor]] = {
+                weight_name: None for weight_name in self.A_buffer
+            }
+            temp_B_buffer: Dict[str, Optional[torch.Tensor]] = {
+                weight_name: None for weight_name in self.B_buffer
+            }
             for name, weights in layer_weights.items():
                 if "lora_A" in name:
                     lora_weight_name = get_weight_name(
@@ -220,6 +232,14 @@ def check_lora_weight_shape(buffer_view: torch.Tensor, weight: torch.Tensor):
             if self.tp_size > 1:
                 cur_layer_modules = lora_modules[layer_id]
                 for module_name, module in cur_layer_modules.items():
+                    weight_name = get_weight_name(
+                        module_name, self.lora_weight_names, LoRAType.LORA_A
+                    )
+
+                    if temp_A_buffer[weight_name] is None:
+                        # Skip weight slicing if the weight is not present in the adapter
+                        continue
+
                     if "qkv_proj" in module_name:
                         temp_A_buffer["qkv_proj"] = module.slice_lora_a_weights(
                             temp_A_buffer["qkv_proj"], self.tp_rank
@@ -231,9 +251,10 @@ def check_lora_weight_shape(buffer_view: torch.Tensor, weight: torch.Tensor):
                             )
                         )
                     else:
-                        weight_name = get_weight_name(
-                            module_name, self.lora_weight_names, LoRAType.LORA_A
-                        )
+                        # TODO (lifuhuang): Ideally, we should call `get_weight_name` separately for both A and B.
+                        # Currently, we're reusing A's weight name as a workaround, relying on the fact that A and
+                        # B share the same name except for `qkv_proj`. We should clean this up once we deprecate the
+                        # FlashInfer LoRA backend.
                         temp_A_buffer[weight_name] = module.slice_lora_a_weights(
                             temp_A_buffer[weight_name], self.tp_rank
                         )
@@ -246,8 +267,7 @@ def check_lora_weight_shape(buffer_view: torch.Tensor, weight: torch.Tensor):
                 buffer_view = self.A_buffer[name][layer_id][buffer_id][
                     : lora_rank * c, :
                 ]
-                check_lora_weight_shape(buffer_view, weights)
-                buffer_view.copy_(weights)
+                load_lora_weight_tensor(buffer_view, weights)
 
             for name, weights in temp_B_buffer.items():
                 c = get_stacked_multiply(name)
@@ -256,14 +276,15 @@ def check_lora_weight_shape(buffer_view: torch.Tensor, weight: torch.Tensor):
                         buffer_view = self.B_buffer[name][layer_id][stacked_id][
                             buffer_id
                         ][:, :lora_rank]
-                        check_lora_weight_shape(buffer_view, weights[stacked_id])
-                        buffer_view.copy_(weights[stacked_id])
+                        weight_slice = (
+                            weights[stacked_id] if weights is not None else None
+                        )
+                        load_lora_weight_tensor(buffer_view, weight_slice)
                 else:
                     buffer_view = self.B_buffer[name][layer_id][0][buffer_id][
                         :, :lora_rank
                     ]
-                    check_lora_weight_shape(buffer_view, weights)
-                    buffer_view.copy_(weights)
+                    load_lora_weight_tensor(buffer_view, weights)
 
     def get_tensor(
         self, weight_name: str, layer_id: int, lora_type: LoRAType
diff --git a/test/srt/models/lora/test_lora_eviction.py b/test/srt/models/lora/test_lora_eviction.py
new file mode 100644
index 000000000000..e74af0a0e61d
--- /dev/null
+++ b/test/srt/models/lora/test_lora_eviction.py
@@ -0,0 +1,111 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+import multiprocessing as mp
+import unittest
+from typing import Dict, List, Tuple
+
+import torch
+
+from sglang.test.runners import SRTRunner
+from sglang.test.test_utils import CustomTestCase
+
+PROMPTS = [
+    "AI is a field of computer science focused on",
+    """
+    ### Instruction:
+    Compose a SQL query that uses the following table: users, and returns the user_id and name of all users whose name that does not have a duplicate in the table.
+    ### Response:
+    SELECT user_id, name FROM users WHERE name LIKE 'A%';
+    """,
+]
+
+ADAPTERS = [
+    "faridlazuarda/valadapt-llama-3.1-8B-it-chinese",  # target_modules = q, v
+    "philschmid/code-llama-3-1-8b-text-to-sql-lora",  # target_modules = q, k, v, o, gate, up, down
+]
+
+BASE_MODEL = "meta-llama/Meta-Llama-3.1-8B-Instruct"
+
+
+class TestLoRAEviction(CustomTestCase):
+    def test_lora_eviction_with_different_target_modules(self):
+        """
+        Test LoRA eviction with different target modules.
+
+        This test runs inference against two LoRA adapters in different orders to force eviction behavior, and ensures
+        that the outputs of the same (adapter, prompt) pair are consistent across runs.
+        """
+        output_history = {}
+        self._run_test(ADAPTERS, output_history, reverse=False)
+        self._run_test(ADAPTERS, output_history, reverse=True)
+
+    def _run_test(
+        self,
+        lora_paths: List[str],
+        output_history: Dict[Tuple[str, str], str],
+        reverse: bool,
+        repeat: int = 2,
+    ):
+        max_new_tokens = 256
+        backend = "triton"
+        torch_dtype = torch.float16
+        base_path = BASE_MODEL
+        assert len(lora_paths) >= 2
+
+        # Initialize runners
+        with SRTRunner(
+            base_path,
+            torch_dtype=torch_dtype,
+            model_type="generation",
+            lora_paths=lora_paths,
+            max_loras_per_batch=1,
+            lora_backend=backend,
+            disable_radix_cache=True,
+        ) as srt_runner:
+            adapter_sequence = lora_paths if not reverse else lora_paths[::-1]
+
+            for i in range(repeat):
+                for j, adapter in enumerate(adapter_sequence):
+                    print(
+                        f"\n========== Testing LoRA eviction with adapter '{adapter}' (#{j+1}/{len(adapter_sequence)}), reversed: {reverse}, repeat: {i+1}/{repeat} ---"
+                    )
+                    for prompt in PROMPTS:
+                        print("\nprompt:\n", prompt)
+                        srt_outputs = srt_runner.forward(
+                            [prompt],
+                            max_new_tokens=max_new_tokens,
+                            lora_paths=[adapter],
+                        )
+                        output = srt_outputs.output_strs[0].strip()
+                        print("\noutput:\n", output)
+
+                        prev_output = output_history.get((adapter, prompt))
+                        if prev_output is not None:
+                            self.assertEqual(
+                                prev_output,
+                                output,
+                                f"Output mismatch for adapter {adapter} and prompt '{prompt}' on repeat {j + 1}, previous: '{prev_output}', current: '{output}'.",
+                            )
+                        else:
+                            output_history[(adapter, prompt)] = output
+
+
+if __name__ == "__main__":
+    try:
+        mp.set_start_method("spawn")
+    except RuntimeError:
+        pass
+
+    unittest.main(warnings="ignore")
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index e67362cf8258..f59aed623e0f 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -14,6 +14,7 @@ class TestFile:
 suites = {
     "per-commit": [
         TestFile("models/lora/test_lora.py", 200),
+        TestFile("models/lora/test_lora_eviction.py", 120),
         TestFile("models/lora/test_lora_backend.py", 99),
         TestFile("models/lora/test_multi_lora_backend.py", 60),
         TestFile("models/lora/test_lora_cuda_graph.py", 250),

From bfdd226f355721fd93d35f48c3132130fc3ff70e Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Sat, 19 Jul 2025 14:37:53 -0700
Subject: [PATCH 054/396] Fix Dockerfile.gb200 (#8169)

---
 docker/Dockerfile.gb200 | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
index 05b0f42043bc..1e0e665234f1 100644
--- a/docker/Dockerfile.gb200
+++ b/docker/Dockerfile.gb200
@@ -140,8 +140,8 @@ RUN apt-get update && apt-get install -y \
 
 RUN apt update -y \
     && apt install -y --no-install-recommends gnupg \
-    && echo "deb http://developer.download.nvidia.com/devtools/repos/ubuntu2204/$(if [ "$(uname -m)" = "aarch64" ]; then echo "arm64"; else echo "amd64"; fi) /" | tee /etc/apt/sources.list.d/nvidia-devtools.list \
-    && apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/$(if [ "$(uname -m)" = "aarch64" ]; then echo "sbsa"; else echo "x86_64"; fi)/3bf863cc.pub \
+    && echo "deb http://developer.download.nvidia.com/devtools/repos/ubuntu2004/$(if [ "$(uname -m)" = "aarch64" ]; then echo "arm64"; else echo "amd64"; fi) /" | tee /etc/apt/sources.list.d/nvidia-devtools.list \
+    && apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/$(if [ "$(uname -m)" = "aarch64" ]; then echo "arm64"; else echo "x86_64"; fi)/7fa2af80.pub \
     && apt update -y \
     && apt install nsight-systems-cli -y
 

From 41d33e4736707cea54aa731055cf88f367befefc Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sat, 19 Jul 2025 14:38:33 -0700
Subject: [PATCH 055/396] [router] add ut for worker and errors (#8170)

---
 sgl-router/src/core/error.rs  | 179 ++++++++++
 sgl-router/src/core/worker.rs | 610 ++++++++++++++++++++++++++++++++++
 2 files changed, 789 insertions(+)

diff --git a/sgl-router/src/core/error.rs b/sgl-router/src/core/error.rs
index 02a87dbbc630..4d50ccee0df5 100644
--- a/sgl-router/src/core/error.rs
+++ b/sgl-router/src/core/error.rs
@@ -55,3 +55,182 @@ impl From<reqwest::Error> for WorkerError {
         }
     }
 }
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use std::error::Error;
+
+    #[test]
+    fn test_health_check_failed_display() {
+        let error = WorkerError::HealthCheckFailed {
+            url: "http://worker1:8080".to_string(),
+            reason: "Connection refused".to_string(),
+        };
+        assert_eq!(
+            error.to_string(),
+            "Health check failed for worker http://worker1:8080: Connection refused"
+        );
+    }
+
+    #[test]
+    fn test_worker_not_found_display() {
+        let error = WorkerError::WorkerNotFound {
+            url: "http://worker2:8080".to_string(),
+        };
+        assert_eq!(error.to_string(), "Worker not found: http://worker2:8080");
+    }
+
+    #[test]
+    fn test_invalid_configuration_display() {
+        let error = WorkerError::InvalidConfiguration {
+            message: "Missing port number".to_string(),
+        };
+        assert_eq!(
+            error.to_string(),
+            "Invalid worker configuration: Missing port number"
+        );
+    }
+
+    #[test]
+    fn test_network_error_display() {
+        let error = WorkerError::NetworkError {
+            url: "http://worker3:8080".to_string(),
+            error: "Timeout after 30s".to_string(),
+        };
+        assert_eq!(
+            error.to_string(),
+            "Network error for worker http://worker3:8080: Timeout after 30s"
+        );
+    }
+
+    #[test]
+    fn test_worker_at_capacity_display() {
+        let error = WorkerError::WorkerAtCapacity {
+            url: "http://worker4:8080".to_string(),
+        };
+        assert_eq!(error.to_string(), "Worker at capacity: http://worker4:8080");
+    }
+
+    #[test]
+    fn test_worker_error_implements_std_error() {
+        let error = WorkerError::WorkerNotFound {
+            url: "http://test".to_string(),
+        };
+        // Verify it implements Error trait
+        let _: &dyn Error = &error;
+        assert!(error.source().is_none());
+    }
+
+    #[test]
+    fn test_error_send_sync() {
+        fn assert_send_sync<T: Send + Sync>() {}
+        assert_send_sync::<WorkerError>();
+    }
+
+    #[test]
+    fn test_worker_result_type_alias() {
+        // Test Ok variant
+        let result: WorkerResult<i32> = Ok(42);
+        assert!(result.is_ok());
+        assert_eq!(result.unwrap(), 42);
+
+        // Test Err variant
+        let error = WorkerError::WorkerNotFound {
+            url: "test".to_string(),
+        };
+        let result: WorkerResult<i32> = Err(error);
+        assert!(result.is_err());
+    }
+
+    #[test]
+    fn test_empty_url_handling() {
+        // Test empty URLs in error variants
+        let error1 = WorkerError::HealthCheckFailed {
+            url: "".to_string(),
+            reason: "No connection".to_string(),
+        };
+        assert_eq!(
+            error1.to_string(),
+            "Health check failed for worker : No connection"
+        );
+
+        let error2 = WorkerError::NetworkError {
+            url: "".to_string(),
+            error: "DNS failure".to_string(),
+        };
+        assert_eq!(error2.to_string(), "Network error for worker : DNS failure");
+
+        let error3 = WorkerError::WorkerNotFound {
+            url: "".to_string(),
+        };
+        assert_eq!(error3.to_string(), "Worker not found: ");
+    }
+
+    #[test]
+    fn test_special_characters_in_messages() {
+        // Test with special characters
+        let error = WorkerError::InvalidConfiguration {
+            message: "Invalid JSON: {\"error\": \"test\"}".to_string(),
+        };
+        assert_eq!(
+            error.to_string(),
+            "Invalid worker configuration: Invalid JSON: {\"error\": \"test\"}"
+        );
+
+        // Test with unicode
+        let error2 = WorkerError::HealthCheckFailed {
+            url: "http://测试:8080".to_string(),
+            reason: "连接被拒绝".to_string(),
+        };
+        assert_eq!(
+            error2.to_string(),
+            "Health check failed for worker http://测试:8080: 连接被拒绝"
+        );
+    }
+
+    #[test]
+    fn test_very_long_error_messages() {
+        let long_message = "A".repeat(10000);
+        let error = WorkerError::InvalidConfiguration {
+            message: long_message.clone(),
+        };
+        let display = error.to_string();
+        assert!(display.contains(&long_message));
+        assert_eq!(
+            display.len(),
+            "Invalid worker configuration: ".len() + long_message.len()
+        );
+    }
+
+    // Mock reqwest error for testing conversion
+    #[test]
+    fn test_reqwest_error_conversion() {
+        // Test that NetworkError is the correct variant
+        let network_error = WorkerError::NetworkError {
+            url: "http://example.com".to_string(),
+            error: "connection timeout".to_string(),
+        };
+
+        match network_error {
+            WorkerError::NetworkError { url, error } => {
+                assert_eq!(url, "http://example.com");
+                assert_eq!(error, "connection timeout");
+            }
+            _ => panic!("Expected NetworkError variant"),
+        }
+    }
+
+    #[test]
+    fn test_error_equality() {
+        // WorkerError doesn't implement PartialEq, but we can test that
+        // the same error construction produces the same display output
+        let error1 = WorkerError::WorkerNotFound {
+            url: "http://test".to_string(),
+        };
+        let error2 = WorkerError::WorkerNotFound {
+            url: "http://test".to_string(),
+        };
+        assert_eq!(error1.to_string(), error2.to_string());
+    }
+}
diff --git a/sgl-router/src/core/worker.rs b/sgl-router/src/core/worker.rs
index ae88bdd1cc99..1aa6766c1886 100644
--- a/sgl-router/src/core/worker.rs
+++ b/sgl-router/src/core/worker.rs
@@ -452,3 +452,613 @@ pub fn start_health_checker(
 
     HealthChecker { handle, shutdown }
 }
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use std::sync::RwLock;
+    use std::time::Duration;
+    use tokio::time::timeout;
+
+    // Test WorkerType
+    #[test]
+    fn test_worker_type_display() {
+        assert_eq!(WorkerType::Regular.to_string(), "Regular");
+        assert_eq!(
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080)
+            }
+            .to_string(),
+            "Prefill(bootstrap:8080)"
+        );
+        assert_eq!(
+            WorkerType::Prefill {
+                bootstrap_port: None
+            }
+            .to_string(),
+            "Prefill"
+        );
+        assert_eq!(WorkerType::Decode.to_string(), "Decode");
+    }
+
+    #[test]
+    fn test_worker_type_equality() {
+        assert_eq!(WorkerType::Regular, WorkerType::Regular);
+        assert_ne!(WorkerType::Regular, WorkerType::Decode);
+        assert_eq!(
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080)
+            },
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080)
+            }
+        );
+        assert_ne!(
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080)
+            },
+            WorkerType::Prefill {
+                bootstrap_port: Some(8081)
+            }
+        );
+    }
+
+    #[test]
+    fn test_worker_type_clone() {
+        let original = WorkerType::Prefill {
+            bootstrap_port: Some(8080),
+        };
+        let cloned = original.clone();
+        assert_eq!(original, cloned);
+    }
+
+    // Test HealthConfig
+    #[test]
+    fn test_health_config_default() {
+        let config = HealthConfig::default();
+        assert_eq!(config.timeout_secs, 5);
+        assert_eq!(config.check_interval_secs, 30);
+        assert_eq!(config.endpoint, "/health");
+    }
+
+    #[test]
+    fn test_health_config_custom() {
+        let config = HealthConfig {
+            timeout_secs: 10,
+            check_interval_secs: 60,
+            endpoint: "/healthz".to_string(),
+        };
+        assert_eq!(config.timeout_secs, 10);
+        assert_eq!(config.check_interval_secs, 60);
+        assert_eq!(config.endpoint, "/healthz");
+    }
+
+    // Test BasicWorker
+    #[test]
+    fn test_basic_worker_creation() {
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+        assert_eq!(worker.url(), "http://test:8080");
+        assert_eq!(worker.worker_type(), WorkerType::Regular);
+        assert!(worker.is_healthy());
+        assert_eq!(worker.load(), 0);
+        assert_eq!(worker.processed_requests(), 0);
+    }
+
+    #[test]
+    fn test_worker_with_labels() {
+        let mut labels = std::collections::HashMap::new();
+        labels.insert("env".to_string(), "prod".to_string());
+        labels.insert("zone".to_string(), "us-west".to_string());
+
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular)
+            .with_labels(labels.clone());
+
+        assert_eq!(worker.metadata().labels, labels);
+    }
+
+    #[test]
+    fn test_worker_with_health_config() {
+        let custom_config = HealthConfig {
+            timeout_secs: 15,
+            check_interval_secs: 45,
+            endpoint: "/custom-health".to_string(),
+        };
+
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular)
+            .with_health_config(custom_config.clone());
+
+        assert_eq!(worker.metadata().health_config.timeout_secs, 15);
+        assert_eq!(worker.metadata().health_config.check_interval_secs, 45);
+        assert_eq!(worker.metadata().health_config.endpoint, "/custom-health");
+    }
+
+    // Test Worker trait implementation
+    #[test]
+    fn test_worker_url() {
+        let worker = BasicWorker::new("http://worker1:8080".to_string(), WorkerType::Regular);
+        assert_eq!(worker.url(), "http://worker1:8080");
+    }
+
+    #[test]
+    fn test_worker_type_getter() {
+        let regular = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+        assert_eq!(regular.worker_type(), WorkerType::Regular);
+
+        let prefill = BasicWorker::new(
+            "http://test:8080".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(9090),
+            },
+        );
+        assert_eq!(
+            prefill.worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(9090)
+            }
+        );
+
+        let decode = BasicWorker::new("http://test:8080".to_string(), WorkerType::Decode);
+        assert_eq!(decode.worker_type(), WorkerType::Decode);
+    }
+
+    #[test]
+    fn test_health_status() {
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+
+        // Initial state is healthy
+        assert!(worker.is_healthy());
+
+        // Set unhealthy
+        worker.set_healthy(false);
+        assert!(!worker.is_healthy());
+
+        // Set healthy again
+        worker.set_healthy(true);
+        assert!(worker.is_healthy());
+    }
+
+    #[test]
+    fn test_load_counter_operations() {
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+
+        // Initial load is 0
+        assert_eq!(worker.load(), 0);
+
+        // Increment once
+        worker.increment_load();
+        assert_eq!(worker.load(), 1);
+
+        // Increment twice more
+        worker.increment_load();
+        worker.increment_load();
+        assert_eq!(worker.load(), 3);
+
+        // Decrement once
+        worker.decrement_load();
+        assert_eq!(worker.load(), 2);
+
+        // Decrement to 0
+        worker.decrement_load();
+        worker.decrement_load();
+        assert_eq!(worker.load(), 0);
+
+        // Decrement below 0 should stay at 0
+        worker.decrement_load();
+        assert_eq!(worker.load(), 0);
+    }
+
+    #[test]
+    fn test_processed_counter() {
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+
+        // Initial count is 0
+        assert_eq!(worker.processed_requests(), 0);
+
+        // Increment multiple times
+        for i in 1..=100 {
+            worker.increment_processed();
+            assert_eq!(worker.processed_requests(), i);
+        }
+    }
+
+    #[test]
+    fn test_clone_worker() {
+        let original = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+        original.increment_load();
+        original.increment_processed();
+        original.set_healthy(false);
+
+        let cloned = original.clone_worker();
+
+        // Verify cloned worker has same URL and type
+        assert_eq!(cloned.url(), original.url());
+        assert_eq!(cloned.worker_type(), original.worker_type());
+
+        // Load counters should be independent (cloned shares the Arc)
+        assert_eq!(cloned.load(), original.load());
+
+        // Modify original and verify clone is affected (shared state)
+        original.increment_load();
+        assert_eq!(cloned.load(), original.load());
+    }
+
+    // Test concurrent operations
+    #[tokio::test]
+    async fn test_concurrent_load_increments() {
+        let worker = Arc::new(BasicWorker::new(
+            "http://test:8080".to_string(),
+            WorkerType::Regular,
+        ));
+
+        let mut handles = vec![];
+
+        // Spawn 100 tasks incrementing load
+        for _ in 0..100 {
+            let worker_clone = Arc::clone(&worker);
+            let handle = tokio::spawn(async move {
+                worker_clone.increment_load();
+            });
+            handles.push(handle);
+        }
+
+        // Wait for all tasks
+        for handle in handles {
+            handle.await.unwrap();
+        }
+
+        // Final count should be 100
+        assert_eq!(worker.load(), 100);
+    }
+
+    #[tokio::test]
+    async fn test_concurrent_load_decrements() {
+        let worker = Arc::new(BasicWorker::new(
+            "http://test:8080".to_string(),
+            WorkerType::Regular,
+        ));
+
+        // Set initial load to 100
+        for _ in 0..100 {
+            worker.increment_load();
+        }
+        assert_eq!(worker.load(), 100);
+
+        let mut handles = vec![];
+
+        // Spawn 100 tasks decrementing load
+        for _ in 0..100 {
+            let worker_clone = Arc::clone(&worker);
+            let handle = tokio::spawn(async move {
+                worker_clone.decrement_load();
+            });
+            handles.push(handle);
+        }
+
+        // Wait for all tasks
+        for handle in handles {
+            handle.await.unwrap();
+        }
+
+        // Final count should be 0
+        assert_eq!(worker.load(), 0);
+    }
+
+    #[tokio::test]
+    async fn test_concurrent_health_updates() {
+        let worker = Arc::new(BasicWorker::new(
+            "http://test:8080".to_string(),
+            WorkerType::Regular,
+        ));
+
+        let mut handles = vec![];
+
+        // Spawn threads randomly setting health status
+        for i in 0..100 {
+            let worker_clone = Arc::clone(&worker);
+            let handle = tokio::spawn(async move {
+                worker_clone.set_healthy(i % 2 == 0);
+                tokio::time::sleep(Duration::from_micros(10)).await;
+            });
+            handles.push(handle);
+        }
+
+        // Wait for all tasks
+        for handle in handles {
+            handle.await.unwrap();
+        }
+
+        // Final state should be deterministic (last write wins)
+        // We can't predict the exact final state due to scheduling,
+        // but we can verify no data corruption occurred
+        let final_health = worker.is_healthy();
+        assert!(final_health == true || final_health == false);
+    }
+
+    // Test WorkerFactory
+    #[test]
+    fn test_create_regular_worker() {
+        let worker = WorkerFactory::create_regular("http://regular:8080".to_string());
+        assert_eq!(worker.url(), "http://regular:8080");
+        assert_eq!(worker.worker_type(), WorkerType::Regular);
+    }
+
+    #[test]
+    fn test_create_prefill_worker() {
+        // With bootstrap port
+        let worker1 = WorkerFactory::create_prefill("http://prefill:8080".to_string(), Some(9090));
+        assert_eq!(worker1.url(), "http://prefill:8080");
+        assert_eq!(
+            worker1.worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(9090)
+            }
+        );
+
+        // Without bootstrap port
+        let worker2 = WorkerFactory::create_prefill("http://prefill:8080".to_string(), None);
+        assert_eq!(
+            worker2.worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: None
+            }
+        );
+    }
+
+    #[test]
+    fn test_create_decode_worker() {
+        let worker = WorkerFactory::create_decode("http://decode:8080".to_string());
+        assert_eq!(worker.url(), "http://decode:8080");
+        assert_eq!(worker.worker_type(), WorkerType::Decode);
+    }
+
+    #[test]
+    fn test_create_from_urls() {
+        let regular_urls = vec![
+            "http://regular1:8080".to_string(),
+            "http://regular2:8080".to_string(),
+        ];
+        let prefill_urls = vec![
+            ("http://prefill1:8080".to_string(), Some(9090)),
+            ("http://prefill2:8080".to_string(), None),
+        ];
+        let decode_urls = vec![
+            "http://decode1:8080".to_string(),
+            "http://decode2:8080".to_string(),
+        ];
+
+        let (regular, prefill, decode) =
+            WorkerFactory::create_from_urls(regular_urls, prefill_urls, decode_urls);
+
+        assert_eq!(regular.len(), 2);
+        assert_eq!(prefill.len(), 2);
+        assert_eq!(decode.len(), 2);
+
+        assert_eq!(regular[0].url(), "http://regular1:8080");
+        assert_eq!(prefill[0].url(), "http://prefill1:8080");
+        assert_eq!(decode[0].url(), "http://decode1:8080");
+    }
+
+    // Test WorkerCollection trait
+    #[test]
+    fn test_healthy_workers_filter() {
+        let workers: Vec<Box<dyn Worker>> = vec![
+            WorkerFactory::create_regular("http://w1:8080".to_string()),
+            WorkerFactory::create_regular("http://w2:8080".to_string()),
+            WorkerFactory::create_regular("http://w3:8080".to_string()),
+        ];
+
+        // Set some workers unhealthy
+        workers[0].set_healthy(false);
+        workers[2].set_healthy(false);
+
+        let healthy = workers.healthy_workers();
+        assert_eq!(healthy.len(), 1);
+        assert_eq!(healthy[0].url(), "http://w2:8080");
+    }
+
+    #[test]
+    fn test_total_load_calculation() {
+        let workers: Vec<Box<dyn Worker>> = vec![
+            WorkerFactory::create_regular("http://w1:8080".to_string()),
+            WorkerFactory::create_regular("http://w2:8080".to_string()),
+            WorkerFactory::create_regular("http://w3:8080".to_string()),
+        ];
+
+        // Set different loads
+        workers[0].increment_load();
+        workers[0].increment_load(); // load = 2
+
+        workers[1].increment_load();
+        workers[1].increment_load();
+        workers[1].increment_load(); // load = 3
+
+        workers[2].increment_load(); // load = 1
+
+        assert_eq!(workers.total_load(), 6);
+    }
+
+    #[test]
+    fn test_find_worker() {
+        let workers: Vec<Box<dyn Worker>> = vec![
+            WorkerFactory::create_regular("http://w1:8080".to_string()),
+            WorkerFactory::create_regular("http://w2:8080".to_string()),
+            WorkerFactory::create_regular("http://w3:8080".to_string()),
+        ];
+
+        // Found case
+        let found = workers.find_worker("http://w2:8080");
+        assert!(found.is_some());
+        assert_eq!(found.unwrap().url(), "http://w2:8080");
+
+        // Not found case
+        let not_found = workers.find_worker("http://w4:8080");
+        assert!(not_found.is_none());
+    }
+
+    #[test]
+    fn test_find_worker_mut() {
+        let mut workers: Vec<Box<dyn Worker>> = vec![
+            WorkerFactory::create_regular("http://w1:8080".to_string()),
+            WorkerFactory::create_regular("http://w2:8080".to_string()),
+        ];
+
+        // Find and modify
+        if let Some(worker) = workers.find_worker_mut("http://w1:8080") {
+            worker.set_healthy(false);
+        }
+
+        // Verify modification
+        assert!(!workers[0].is_healthy());
+        assert!(workers[1].is_healthy());
+    }
+
+    // Test WorkerLoadGuard
+    #[test]
+    fn test_load_guard_single_worker() {
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+        assert_eq!(worker.load(), 0);
+
+        {
+            let _guard = WorkerLoadGuard::new(&worker);
+            assert_eq!(worker.load(), 1);
+        }
+
+        // Guard dropped, load decremented
+        assert_eq!(worker.load(), 0);
+    }
+
+    #[test]
+    fn test_load_guard_multiple_workers() {
+        let workers: Vec<Box<dyn Worker>> = vec![
+            WorkerFactory::create_regular("http://w1:8080".to_string()),
+            WorkerFactory::create_regular("http://w2:8080".to_string()),
+            WorkerFactory::create_regular("http://w3:8080".to_string()),
+        ];
+
+        let worker_refs: Vec<&dyn Worker> = workers.iter().map(|w| w.as_ref()).collect();
+
+        {
+            let _guard = WorkerLoadGuard::new_multi(worker_refs);
+            // All loads incremented
+            assert_eq!(workers[0].load(), 1);
+            assert_eq!(workers[1].load(), 1);
+            assert_eq!(workers[2].load(), 1);
+        }
+
+        // All loads decremented
+        assert_eq!(workers[0].load(), 0);
+        assert_eq!(workers[1].load(), 0);
+        assert_eq!(workers[2].load(), 0);
+    }
+
+    #[test]
+    fn test_load_guard_panic_safety() {
+        let worker = Arc::new(BasicWorker::new(
+            "http://test:8080".to_string(),
+            WorkerType::Regular,
+        ));
+        assert_eq!(worker.load(), 0);
+
+        // Clone for use inside catch_unwind
+        let worker_clone = Arc::clone(&worker);
+
+        // This will panic, but the guard should still clean up
+        let result = std::panic::catch_unwind(|| {
+            let _guard = WorkerLoadGuard::new(worker_clone.as_ref());
+            assert_eq!(worker_clone.load(), 1);
+            panic!("Test panic");
+        });
+
+        // Verify panic occurred
+        assert!(result.is_err());
+
+        // Load should be decremented even after panic
+        assert_eq!(worker.load(), 0);
+    }
+
+    // Test helper functions
+    #[test]
+    fn test_urls_to_workers() {
+        let urls = vec!["http://w1:8080".to_string(), "http://w2:8080".to_string()];
+
+        let workers = urls_to_workers(urls);
+        assert_eq!(workers.len(), 2);
+        assert_eq!(workers[0].url(), "http://w1:8080");
+        assert_eq!(workers[1].url(), "http://w2:8080");
+        assert_eq!(workers[0].worker_type(), WorkerType::Regular);
+    }
+
+    #[test]
+    fn test_workers_to_urls() {
+        let workers: Vec<Box<dyn Worker>> = vec![
+            WorkerFactory::create_regular("http://w1:8080".to_string()),
+            WorkerFactory::create_regular("http://w2:8080".to_string()),
+        ];
+
+        let urls = workers_to_urls(&workers);
+        assert_eq!(urls, vec!["http://w1:8080", "http://w2:8080"]);
+    }
+
+    // Test synchronous health check wrapper
+    #[test]
+    fn test_check_health_sync_wrapper() {
+        // We can't easily test the actual HTTP call without mocking,
+        // but we can verify the sync wrapper works
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+
+        // This will fail because there's no server at this URL,
+        // but it tests that the sync wrapper doesn't panic
+        let result = worker.check_health();
+        assert!(result.is_err());
+    }
+
+    // Test HealthChecker background task
+    #[tokio::test]
+    async fn test_health_checker_startup() {
+        let workers = Arc::new(RwLock::new(vec![WorkerFactory::create_regular(
+            "http://w1:8080".to_string(),
+        )]));
+
+        let checker = start_health_checker(workers.clone(), 60);
+
+        // Verify it starts without panic
+        tokio::time::sleep(Duration::from_millis(100)).await;
+
+        // Shutdown
+        checker.shutdown().await;
+    }
+
+    #[tokio::test]
+    async fn test_health_checker_shutdown() {
+        let workers = Arc::new(RwLock::new(vec![WorkerFactory::create_regular(
+            "http://w1:8080".to_string(),
+        )]));
+
+        let checker = start_health_checker(workers.clone(), 60);
+
+        // Shutdown should complete quickly
+        let shutdown_result = timeout(Duration::from_secs(1), checker.shutdown()).await;
+        assert!(shutdown_result.is_ok());
+    }
+
+    // Performance test for load counter
+    #[test]
+    fn test_load_counter_performance() {
+        use std::time::Instant;
+
+        let worker = BasicWorker::new("http://test:8080".to_string(), WorkerType::Regular);
+        let iterations = 1_000_000;
+
+        let start = Instant::now();
+        for _ in 0..iterations {
+            worker.increment_load();
+        }
+        let duration = start.elapsed();
+
+        let ops_per_sec = iterations as f64 / duration.as_secs_f64();
+        println!("Load counter operations per second: {:.0}", ops_per_sec);
+
+        // Should be well over 1M ops/sec
+        assert!(ops_per_sec > 1_000_000.0);
+    }
+}

From 60468da4e2d7bda65ee3ad04857d7e29db9396af Mon Sep 17 00:00:00 2001
From: Garry Fang <garrybest@foxmail.com>
Date: Sun, 20 Jul 2025 05:41:27 +0800
Subject: [PATCH 056/396] bugfix: fix sglang crash in NVIDIA MIG container
 (#8167)

Signed-off-by: Garrybest <garrybest@foxmail.com>
---
 python/sglang/srt/utils.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index dc6e72d75dcd..7123722eb80a 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -1422,6 +1422,13 @@ def get_nvgpu_memory_capacity():
         ]
 
         if not memory_values:
+            # Fallback to torch.cuda.mem_get_info() when failed to get memory capacity from nvidia-smi,
+            # typically in NVIDIA MIG mode.
+            if torch.cuda.is_available():
+                logger.warning(
+                    "Failed to get GPU memory capacity from nvidia-smi, falling back to torch.cuda.mem_get_info()."
+                )
+                return torch.cuda.mem_get_info()[1] // 1024 // 1024  # unit: MB
             raise ValueError("No GPU memory values found.")
 
         # Return the minimum memory value

From 4e3defe5a77e14d70ad4ebfb3115ce507789f6e9 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sat, 19 Jul 2025 15:38:09 -0700
Subject: [PATCH 057/396] Support start up LoRA server without initial adapters
 (#8019)

---
 docs/backend/lora.ipynb                       | 161 ++++++++----------
 docs/backend/server_arguments.md              |   3 +-
 python/sglang/srt/lora/lora_manager.py        |   6 +-
 .../sglang/srt/managers/tokenizer_manager.py  |  10 +-
 .../srt/model_executor/cuda_graph_runner.py   |  11 +-
 .../srt/model_executor/forward_batch_info.py  |   2 +-
 .../sglang/srt/model_executor/model_runner.py |   8 +-
 python/sglang/srt/server_args.py              |  74 +++++---
 python/sglang/srt/utils.py                    |  14 ++
 python/sglang/test/runners.py                 |   2 +
 test/srt/models/lora/test_lora_update.py      |  82 ++++++++-
 test/srt/run_suite.py                         |   2 +-
 12 files changed, 235 insertions(+), 140 deletions(-)

diff --git a/docs/backend/lora.ipynb b/docs/backend/lora.ipynb
index 6c089b654fd5..8626d3e71a68 100644
--- a/docs/backend/lora.ipynb
+++ b/docs/backend/lora.ipynb
@@ -27,6 +27,8 @@
    "source": [
     "The following server arguments are relevant for multi-LoRA serving:\n",
     "\n",
+    "* `enable_lora`: Enable LoRA support for the model. This argument is automatically set to True if `--lora-paths` is provided for backward compatibility.\n",
+    "\n",
     "* `lora_paths`: A mapping from each adaptor's name to its path, in the form of `{name}={path} {name}={path}`.\n",
     "\n",
     "* `max_loras_per_batch`: Maximum number of adaptors used by each batch. This argument can affect the amount of GPU memory reserved for multi-LoRA serving, so it should be set to a smaller value when memory is scarce. Defaults to be 8.\n",
@@ -35,7 +37,7 @@
     "\n",
     "* `max_lora_rank`: The maximum LoRA rank that should be supported. If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of larger LoRA rank after server startup.\n",
     "\n",
-    "* `lora_target_modules`: The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup.\n",
+    "* `lora_target_modules`: The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup. You can also set it to `all` to enable LoRA for all supported modules. However, enabling LoRA on additional modules introduces a minor performance overhead. If your application is performance-sensitive, we recommend only specifying the modules for which you plan to load adapters.\n",
     "\n",
     "* `tp_size`: LoRA serving along with Tensor Parallelism is supported by SGLang. `tp_size` controls the number of GPUs for tensor parallelism. More details on the tensor sharding strategy can be found in [S-Lora](https://arxiv.org/pdf/2311.03285) paper.\n",
     "\n",
@@ -79,6 +81,7 @@
     "server_process, port = launch_server_cmd(\n",
     "    \"\"\"\n",
     "python3 -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \\\n",
+    "    --enable-lora \\\n",
     "    --lora-paths lora0=algoprog/fact-generation-llama-3.1-8b-instruct-lora \\\n",
     "    --max-loras-per-batch 1 --lora-backend triton \\\n",
     "    --disable-radix-cache\n",
@@ -98,7 +101,7 @@
     "json_data = {\n",
     "    \"text\": [\n",
     "        \"List 3 countries and their capitals.\",\n",
-    "        \"AI is a field of computer science focused on\",\n",
+    "        \"List 3 countries and their capitals.\",\n",
     "    ],\n",
     "    \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
     "    # The first input uses lora0, and the second input uses the base model\n",
@@ -137,6 +140,7 @@
     "server_process, port = launch_server_cmd(\n",
     "    \"\"\"\n",
     "python3 -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \\\n",
+    "    --enable-lora \\\n",
     "    --lora-paths lora0=algoprog/fact-generation-llama-3.1-8b-instruct-lora \\\n",
     "    lora1=Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16 \\\n",
     "    --max-loras-per-batch 2 --lora-backend triton \\\n",
@@ -157,7 +161,7 @@
     "json_data = {\n",
     "    \"text\": [\n",
     "        \"List 3 countries and their capitals.\",\n",
-    "        \"AI is a field of computer science focused on\",\n",
+    "        \"List 3 countries and their capitals.\",\n",
     "    ],\n",
     "    \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
     "    # The first input uses lora0, and the second input uses lora1\n",
@@ -191,11 +195,9 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Basic Usage\n",
-    "\n",
     "Instead of specifying all adapters during server startup via `--lora-paths`. You can also load & unload LoRA adapters dynamically via the `/load_lora_adapter` and `/unload_lora_adapter` API.\n",
     "\n",
-    "(Please note that, currently we still require you to specify at least one adapter in `--lora-paths` to enable the LoRA feature, this limitation will be lifted soon.)"
+    "When using dynamic LoRA loading, it's recommended to explicitly specify both `--max-lora-rank` and `--lora-target-modules` at startup. For backward compatibility, SGLang will infer these values from `--lora-paths` if they are not explicitly provided. However, in that case, you would have to ensure that all dynamically loaded adapters share the same shape (rank and target modules) as those in the initial `--lora-paths` or are strictly \"smaller\"."
    ]
   },
   {
@@ -204,13 +206,22 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "lora0 = \"Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16\"  # rank - 4, target modules - q_proj, k_proj, v_proj, o_proj, gate_proj\n",
+    "lora1 = \"algoprog/fact-generation-llama-3.1-8b-instruct-lora\"  # rank - 64, target modules - q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj\n",
+    "lora0_new = \"philschmid/code-llama-3-1-8b-text-to-sql-lora\"  # rank - 256, target modules - q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj\n",
+    "\n",
+    "\n",
+    "# The `--target-lora-modules` param below is technically not needed, as the server will infer it from lora0 which already has all the target modules specified.\n",
+    "# We are adding it here just to demonstrate usage.\n",
     "server_process, port = launch_server_cmd(\n",
     "    \"\"\"\n",
     "    python3 -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \\\n",
-    "    --lora-paths lora0=philschmid/code-llama-3-1-8b-text-to-sql-lora \\\n",
+    "    --enable-lora \\\n",
     "    --cuda-graph-max-bs 2 \\\n",
     "    --max-loras-per-batch 2 --lora-backend triton \\\n",
     "    --disable-radix-cache\n",
+    "    --max-lora-rank 256\n",
+    "    --lora-target-modules all\n",
     "    \"\"\"\n",
     ")\n",
     "\n",
@@ -218,6 +229,13 @@
     "wait_for_server(url)"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Load adapter lora0"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -227,8 +245,8 @@
     "response = requests.post(\n",
     "    url + \"/load_lora_adapter\",\n",
     "    json={\n",
-    "        \"lora_name\": \"lora1\",\n",
-    "        \"lora_path\": \"Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16\",\n",
+    "        \"lora_name\": \"lora0\",\n",
+    "        \"lora_path\": lora0,\n",
     "    },\n",
     ")\n",
     "\n",
@@ -239,38 +257,10 @@
    ]
   },
   {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "response = requests.post(\n",
-    "    url + \"/generate\",\n",
-    "    json={\n",
-    "        \"text\": [\n",
-    "            \"List 3 countries and their capitals.\",\n",
-    "            \"List 3 countries and their capitals.\",\n",
-    "        ],\n",
-    "        \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
-    "        \"lora_path\": [\"lora0\", \"lora1\"],\n",
-    "    },\n",
-    ")\n",
-    "print(f\"Output from lora0: {response.json()[0]['text']}\")\n",
-    "print(f\"Output from lora1: {response.json()[1]['text']}\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
+   "cell_type": "markdown",
    "metadata": {},
-   "outputs": [],
    "source": [
-    "response = requests.post(\n",
-    "    url + \"/unload_lora_adapter\",\n",
-    "    json={\n",
-    "        \"lora_name\": \"lora0\",\n",
-    "    },\n",
-    ")"
+    "Load adapter lora1:"
    ]
   },
   {
@@ -282,8 +272,8 @@
     "response = requests.post(\n",
     "    url + \"/load_lora_adapter\",\n",
     "    json={\n",
-    "        \"lora_name\": \"lora2\",\n",
-    "        \"lora_path\": \"pbevan11/llama-3.1-8b-ocr-correction\",\n",
+    "        \"lora_name\": \"lora1\",\n",
+    "        \"lora_path\": lora1,\n",
     "    },\n",
     ")\n",
     "\n",
@@ -294,24 +284,10 @@
    ]
   },
   {
-   "cell_type": "code",
-   "execution_count": null,
+   "cell_type": "markdown",
    "metadata": {},
-   "outputs": [],
    "source": [
-    "response = requests.post(\n",
-    "    url + \"/generate\",\n",
-    "    json={\n",
-    "        \"text\": [\n",
-    "            \"List 3 countries and their capitals.\",\n",
-    "            \"List 3 countries and their capitals.\",\n",
-    "        ],\n",
-    "        \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
-    "        \"lora_path\": [\"lora1\", \"lora2\"],\n",
-    "    },\n",
-    ")\n",
-    "print(f\"Output from lora1: {response.json()[0]['text']}\")\n",
-    "print(f\"Output from lora2: {response.json()[1]['text']}\")"
+    "Check inference output:"
    ]
   },
   {
@@ -320,18 +296,29 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "terminate_process(server_process)"
+    "url = f\"http://127.0.0.1:{port}\"\n",
+    "json_data = {\n",
+    "    \"text\": [\n",
+    "        \"List 3 countries and their capitals.\",\n",
+    "        \"List 3 countries and their capitals.\",\n",
+    "    ],\n",
+    "    \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
+    "    # The first input uses lora0, and the second input uses lora1\n",
+    "    \"lora_path\": [\"lora0\", \"lora1\"],\n",
+    "}\n",
+    "response = requests.post(\n",
+    "    url + \"/generate\",\n",
+    "    json=json_data,\n",
+    ")\n",
+    "print(f\"Output from lora0: \\n{response.json()[0]['text']}\\n\")\n",
+    "print(f\"Output from lora1 (updated): \\n{response.json()[1]['text']}\\n\")"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Advanced: hosting adapters of different shapes\n",
-    "\n",
-    "In some cases, you may want to load LoRA adapters with different ranks or target modules (e.g., `q_proj`, `k_proj`) simultaneously. To ensure the server can accommodate all expected LoRA shapes, it's recommended to explicitly specify `--max-lora-rank` and/or `--lora-target-modules` at startup.\n",
-    "\n",
-    "For backward compatibility, SGLang will infer these values from `--lora-paths` if they are not explicitly provided. This means it's safe to omit them **only if** all dynamically loaded adapters share the same shape (rank and target modules) as those in the initial `--lora-paths` or are strictly \"smaller\"."
+    "Unload lora0 and replace it with a different adapter:"
    ]
   },
   {
@@ -340,39 +327,18 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "lora0 = \"Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16\"  # rank - 4, target modules - q_proj, k_proj, v_proj, o_proj, gate_proj\n",
-    "lora1 = \"algoprog/fact-generation-llama-3.1-8b-instruct-lora\"  # rank - 64, target modules - q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj\n",
-    "\n",
-    "\n",
-    "# The `--target-lora-modules` param below is technically not needed, as the server will infer it from lora0 which already has all the target modules specified.\n",
-    "# We are adding it here just to demonstrate usage.\n",
-    "server_process, port = launch_server_cmd(\n",
-    "    f\"\"\"\n",
-    "    python3 -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct \\\n",
-    "    --lora-paths lora0={lora0} \\\n",
-    "    --cuda-graph-max-bs 2 \\\n",
-    "    --max-loras-per-batch 2 --lora-backend triton \\\n",
-    "    --disable-radix-cache\n",
-    "    --max-lora-rank 64\n",
-    "    --lora-target-modules q_proj k_proj v_proj o_proj down_proj up_proj gate_proj\n",
-    "    \"\"\"\n",
+    "response = requests.post(\n",
+    "    url + \"/unload_lora_adapter\",\n",
+    "    json={\n",
+    "        \"lora_name\": \"lora0\",\n",
+    "    },\n",
     ")\n",
     "\n",
-    "url = f\"http://127.0.0.1:{port}\"\n",
-    "wait_for_server(url)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
     "response = requests.post(\n",
     "    url + \"/load_lora_adapter\",\n",
     "    json={\n",
-    "        \"lora_name\": \"lora1\",\n",
-    "        \"lora_path\": lora1,\n",
+    "        \"lora_name\": \"lora0\",\n",
+    "        \"lora_path\": lora0_new,\n",
     "    },\n",
     ")\n",
     "\n",
@@ -382,6 +348,13 @@
     "    print(\"Failed to load LoRA adapter.\", response.json())"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Check output again:"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -392,7 +365,7 @@
     "json_data = {\n",
     "    \"text\": [\n",
     "        \"List 3 countries and their capitals.\",\n",
-    "        \"AI is a field of computer science focused on\",\n",
+    "        \"List 3 countries and their capitals.\",\n",
     "    ],\n",
     "    \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
     "    # The first input uses lora0, and the second input uses lora1\n",
@@ -402,8 +375,8 @@
     "    url + \"/generate\",\n",
     "    json=json_data,\n",
     ")\n",
-    "print(f\"Output from lora0: {response.json()[0]['text']}\")\n",
-    "print(f\"Output from lora1: {response.json()[1]['text']}\")"
+    "print(f\"Output from lora0: \\n{response.json()[0]['text']}\\n\")\n",
+    "print(f\"Output from lora1 (updated): \\n{response.json()[1]['text']}\\n\")"
    ]
   },
   {
diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index 6320a6e61aac..d7c5ff520dc9 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -176,8 +176,9 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
+| `--enable-lora` | Enable LoRA support for the model. This argument is automatically set to True if `--lora-paths` is provided for backward compatibility. | False |
 | `--max-lora-rank` | The maximum LoRA rank that should be supported. If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of larger LoRA rank after server startup. | None |
-| `--lora-target-modules` | The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup. | None |
+| `--lora-target-modules` | The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup. You can also set it to `all` to enable LoRA for all supported modules. However, enabling LoRA on additional modules introduces a minor performance overhead. If your application is performance-sensitive, we recommend only specifying the modules for which you plan to load adapters. | None |
 | `--lora-paths` | The list of LoRA adapters. You can provide a list of either path in str or renamed path in the format {name}={path}. | None |
 | `--max-loras-per-batch` | Maximum number of adapters for a running batch, include base-only request. | 8 |
 | `--lora-backend` | Choose the kernel backend for multi-LoRA serving. | triton |
diff --git a/python/sglang/srt/lora/lora_manager.py b/python/sglang/srt/lora/lora_manager.py
index 96102d1efd5c..85fd246163c1 100644
--- a/python/sglang/srt/lora/lora_manager.py
+++ b/python/sglang/srt/lora/lora_manager.py
@@ -186,9 +186,9 @@ def validate_new_adapter(self, lora_name: str, lora_config: LoRAConfig):
         )
         if incompatible:
             raise ValueError(
-                f"LoRA adapter {lora_name} with rank {lora_config.r} is incompatible with the current LoRA memory pool configuration."
-                "We are still working on supporting dynamically updating LoRA shapes. If you expect to use adapters of different shapes, "
-                "You can specify expected configs via --max_lora_rank and --enable_lora_modules."
+                f"LoRA adapter {lora_name} with rank {lora_config.r} is incompatible with the current LoRA memory pool configuration. "
+                "Please ensure that the LoRA adapter's rank is within the configured `--max_lora_rank` and that the target modules are "
+                "included in `--enable_lora_modules`."
             )
 
     def unload_lora_adapter(self, lora_name: str) -> LoRAUpdateResult:
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 7ba07f675120..631d23f17335 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -574,7 +574,7 @@ def _validate_one_request(
                     "The server is not configured to enable custom logit processor. "
                     "Please set `--enable-custom-logits-processor` to enable this feature."
                 )
-            if self.server_args.lora_paths and obj.lora_path:
+            if self.server_args.enable_lora and obj.lora_path:
                 self._validate_lora_adapters(obj)
 
     def _validate_input_ids_in_vocab(
@@ -1037,6 +1037,10 @@ async def load_lora_adapter(
         _: Optional[fastapi.Request] = None,
     ) -> LoadLoRAAdapterReqOutput:
         self.auto_create_handle_loop()
+        if not self.server_args.enable_lora:
+            raise ValueError(
+                "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
+            )
 
         # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
         # with dp_size > 1.
@@ -1060,6 +1064,10 @@ async def unload_lora_adapter(
         _: Optional[fastapi.Request] = None,
     ) -> UnloadLoRAAdapterReqOutput:
         self.auto_create_handle_loop()
+        if not self.server_args.enable_lora:
+            raise ValueError(
+                "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
+            )
 
         # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
         # with dp_size > 1.
diff --git a/python/sglang/srt/model_executor/cuda_graph_runner.py b/python/sglang/srt/model_executor/cuda_graph_runner.py
index 1f654ca7ecff..520a631c5ecf 100644
--- a/python/sglang/srt/model_executor/cuda_graph_runner.py
+++ b/python/sglang/srt/model_executor/cuda_graph_runner.py
@@ -264,7 +264,7 @@ def __init__(self, model_runner: ModelRunner):
         if self.enable_torch_compile:
             set_torch_compile_config()
 
-        if self.model_runner.server_args.lora_paths is not None:
+        if self.model_runner.server_args.enable_lora:
             self.model_runner.lora_manager.init_cuda_graph_batch_info(self.max_bs)
 
         # Graph inputs
@@ -510,11 +510,10 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
                 spec_info.capture_hidden_mode if spec_info else CaptureHiddenMode.NULL
             )
 
-        if self.model_runner.server_args.lora_paths is not None:
-            # Currently, if the lora_path in `lora_paths` is None, the lora backend will use a
-            # different logic to handle lora, so we need to set `lora_paths` to a list of non-None
-            # values if lora is enabled.
-            lora_paths = [next(iter(self.model_runner.server_args.lora_paths))] * bs
+        if self.model_runner.server_args.enable_lora:
+            # It is safe to capture CUDA graph using empty LoRA path, as the LoRA kernels will always be launched whenever
+            # `--enable-lora` is set to True (and return immediately if the LoRA path is empty for perf optimization).
+            lora_paths = [None] * bs
         else:
             lora_paths = None
 
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index fde60e0e5012..6f3ea547477f 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -418,7 +418,7 @@ def init_new(
             ret._compute_mrope_positions(model_runner, batch)
 
         # Init lora information
-        if model_runner.server_args.lora_paths is not None:
+        if model_runner.server_args.enable_lora:
             model_runner.lora_manager.prepare_lora_batch(ret)
 
         TboForwardBatchPreparer.prepare(
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index bbd5b000067f..4f0b1d64ce8a 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -304,11 +304,7 @@ def initialize(self, min_per_gpu_memory: float):
             self.apply_torch_tp()
 
         # Init lora
-        # TODO (lifuhuang): when we support dynamic LoRA loading / unloading, we should add
-        # a new server arg `enable_lora` to control whether to init LoRA manager to be more
-        # explicit, as it is perfectly valid to start a server with an empty lora_paths and
-        # load LoRA adapters dynamically later.
-        if server_args.lora_paths is not None:
+        if server_args.enable_lora:
             self.init_lora_manager()
 
         # Init memory pool and attention backends
@@ -895,7 +891,7 @@ def init_lora_manager(self):
             max_lora_rank=self.server_args.max_lora_rank,
             target_modules=self.server_args.lora_target_modules,
         )
-        result = self.lora_manager.load_lora_adapters(self.server_args.lora_paths)
+        result = self.lora_manager.load_lora_adapters(self.server_args.lora_paths or {})
         if result.success:
             logger.info(
                 f"LoRA manager ready. Loaded LoRA adapters: {', '.join(result.loaded_adapters)}"
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 24292bcd79b8..6464f9f40a39 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -26,6 +26,8 @@
 from sglang.srt.hf_transformers_utils import check_gguf_file, get_config
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.utils import (
+    LORA_TARGET_ALL_MODULES,
+    SUPPORTED_LORA_TARGET_MODULES,
     configure_ipv6,
     get_device,
     get_device_memory_capacity,
@@ -140,8 +142,9 @@ class ServerArgs:
     preferred_sampling_params: Optional[str] = None
 
     # LoRA
+    enable_lora: Optional[bool] = None
     max_lora_rank: Optional[int] = None
-    lora_target_modules: Optional[List[str]] = None
+    lora_target_modules: Optional[Union[set[str], List[str]]] = None
     lora_paths: Optional[Union[dict[str, str], List[str]]] = None
     max_loras_per_batch: int = 8
     lora_backend: str = "triton"
@@ -1148,6 +1151,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
         )
 
         # LoRA
+        parser.add_argument(
+            "--enable-lora",
+            default=ServerArgs.enable_lora,
+            action="store_true",
+            help="Enable LoRA support for the model. This argument is automatically set to True if `--lora-paths` is provided for backward compatibility.",
+        )
         parser.add_argument(
             "--max-lora-rank",
             default=ServerArgs.max_lora_rank,
@@ -1157,18 +1166,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
         parser.add_argument(
             "--lora-target-modules",
             type=str,
-            choices=[
-                "q_proj",
-                "k_proj",
-                "v_proj",
-                "o_proj",
-                "gate_proj",
-                "up_proj",
-                "down_proj",
-            ],
+            choices=SUPPORTED_LORA_TARGET_MODULES + [LORA_TARGET_ALL_MODULES],
             nargs="*",
             default=None,
-            help="The union set of all target modules where LoRA should be applied. If not specified, it will be automatically inferred from the adapters provided in --lora-paths.",
+            help="The union set of all target modules where LoRA should be applied. If not specified, "
+            "it will be automatically inferred from the adapters provided in --lora-paths. If 'all' is specified, "
+            "all supported modules will be targeted.",
         )
         parser.add_argument(
             "--lora-paths",
@@ -1816,15 +1819,46 @@ def check_server_args(self):
             None,
         }, "moe_dense_tp_size only support 1 and None currently"
 
-        if isinstance(self.lora_paths, list):
-            lora_paths = self.lora_paths
-            self.lora_paths = {}
-            for lora_path in lora_paths:
-                if "=" in lora_path:
-                    name, path = lora_path.split("=", 1)
-                    self.lora_paths[name] = path
-                else:
-                    self.lora_paths[lora_path] = lora_path
+        self.check_lora_server_args()
+
+    def check_lora_server_args(self):
+        # Enable LoRA if any LoRA paths are provided for backward compatibility.
+        if self.lora_paths:
+            if self.enable_lora is None:
+                self.enable_lora = True
+                logger.info(
+                    "--enable-lora is set to True because --lora-paths is provided."
+                )
+            elif self.enable_lora is False:
+                logger.warning(
+                    "--enable-lora is set to False, any provided lora_paths will be ignored."
+                )
+
+        if self.enable_lora:
+            # Normalize lora_paths to a dictionary if it is a list.
+            if isinstance(self.lora_paths, list):
+                lora_paths = self.lora_paths
+                self.lora_paths = {}
+                for lora_path in lora_paths:
+                    if "=" in lora_path:
+                        name, path = lora_path.split("=", 1)
+                        self.lora_paths[name] = path
+                    else:
+                        self.lora_paths[lora_path] = lora_path
+
+            # Expand target modules
+            if self.lora_target_modules:
+                self.lora_target_modules = set(self.lora_target_modules)
+                if "all" in self.lora_target_modules:
+                    assert (
+                        len(self.lora_target_modules) == 1
+                    ), "If 'all' is specified in --lora-target-modules, it should be the only module specified."
+                    self.lora_target_modules = set(SUPPORTED_LORA_TARGET_MODULES)
+
+            # Ensure sufficient information is provided for LoRA initialization.
+            assert self.lora_paths or (
+                self.max_lora_rank and self.lora_target_modules
+            ), "When no initial --lora-paths is provided, you need to specify both --max-lora-rank and --lora-target-modules for LoRA initialization."
 
     def validate_disagg_tp_size(self, prefill_tp: int, decode_tp: int):
         larger_tp = max(decode_tp, prefill_tp)
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 7123722eb80a..23960a8c1123 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2892,3 +2892,17 @@ def placeholder(*args, **kwargs):
         return final_module, getattr(final_module, function_name)
 
     return final_module, None
+
+
+# LoRA-related constants and utilities
+SUPPORTED_LORA_TARGET_MODULES = [
+    "q_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj",
+]
+
+LORA_TARGET_ALL_MODULES = "all"
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index 941940fe0fd8..9ec71c29bac8 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -507,6 +507,7 @@ def __init__(
         sleep_on_idle=False,
         max_lora_rank: Optional[int] = None,
         lora_target_modules: Optional[List[str]] = None,
+        enable_lora: Optional[bool] = None,
     ):
         self.model_type = model_type
         self.is_generation = model_type == "generation"
@@ -547,6 +548,7 @@ def __init__(
             sleep_on_idle=sleep_on_idle,
             max_lora_rank=max_lora_rank,
             lora_target_modules=lora_target_modules,
+            enable_lora=enable_lora,
             **spec_kwargs,
         )
 
diff --git a/test/srt/models/lora/test_lora_update.py b/test/srt/models/lora/test_lora_update.py
index 785b44e953fd..83392b9247be 100644
--- a/test/srt/models/lora/test_lora_update.py
+++ b/test/srt/models/lora/test_lora_update.py
@@ -64,8 +64,9 @@ class TestCase:
     base: str
     max_loras_per_batch: int
     all_adapters: List[str]
-    initial_adapters: List[str]
     op_sequence: List[Operation]
+    initial_adapters: Optional[List[str]] = None
+    enable_lora: Optional[bool] = None
     max_lora_rank: Optional[int] = None
     lora_target_modules: Optional[List] = None
     max_new_tokens: int = 32
@@ -171,6 +172,64 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
             ),
         ],
     ),
+    TestCase(
+        description="dynamic lora update without initial lora_paths",
+        base="meta-llama/Llama-3.1-8B-Instruct",
+        enable_lora=True,
+        max_lora_rank=256,
+        lora_target_modules=["all"],
+        max_loras_per_batch=4,
+        all_adapters=[
+            "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+            "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+            "pbevan11/llama-3.1-8b-ocr-correction",
+        ],
+        op_sequence=[
+            Operation(
+                type=OperationType.LOAD,
+                data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data="pbevan11/llama-3.1-8b-ocr-correction",
+            ),
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data(
+                    [
+                        "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+                        "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+                        "pbevan11/llama-3.1-8b-ocr-correction",
+                        None,
+                    ]
+                ),
+            ),
+            Operation(
+                type=OperationType.UNLOAD,
+                data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
+            ),
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
+                expected_error="not loaded",
+            ),
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data(
+                    [
+                        None,
+                        "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+                        "pbevan11/llama-3.1-8b-ocr-correction",
+                        None,
+                    ]
+                ),
+            ),
+        ],
+    ),
     TestCase(
         description="dynamic lora update with evictions",
         base="meta-llama/Llama-3.1-8B-Instruct",
@@ -371,7 +430,7 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
             Operation(
                 type=OperationType.LOAD,
                 data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
-                expected_error="updating LoRA shapes",
+                expected_error="incompatible",
             ),
             Operation(
                 type=OperationType.FORWARD,
@@ -431,7 +490,7 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
             Operation(
                 type=OperationType.LOAD,
                 data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
-                expected_error="updating LoRA shapes",
+                expected_error="incompatible",
             ),
             Operation(
                 type=OperationType.FORWARD,
@@ -470,7 +529,7 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
             Operation(
                 type=OperationType.LOAD,
                 data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
-                expected_error="updating LoRA shapes",
+                expected_error="incompatible",
             ),
             Operation(
                 type=OperationType.FORWARD,
@@ -521,6 +580,7 @@ def __init__(
         lora_paths: list[str],
         max_loras_per_batch: int,
         max_lora_rank: Optional[int],
+        enable_lora: Optional[bool] = None,
         lora_target_modules: Optional[List[str]] = None,
         lora_backend: str = "triton",
         disable_cuda_graph: bool = False,
@@ -535,8 +595,9 @@ def __init__(
         self.lora_backend = lora_backend
         self.disable_cuda_graph = disable_cuda_graph
         self.cuda_graph_max_bs = cuda_graph_max_bs
+        self.enable_lora = enable_lora
 
-        self.expected_adapters = set(lora_paths)
+        self.expected_adapters = set(lora_paths or [])
         self.handle = None  # Will be set in __enter__
 
     def __enter__(self):
@@ -596,6 +657,7 @@ def __enter__(self):
             disable_cuda_graph=self.disable_cuda_graph,
             cuda_graph_max_bs=self.cuda_graph_max_bs,
             disable_radix_cache=True,
+            enable_lora=self.enable_lora,
         )
         self.handle.__enter__()
         return self
@@ -690,8 +752,6 @@ def __enter__(self):
         other_args = [
             "--cuda-graph-max-bs",
             str(self.cuda_graph_max_bs),
-            "--lora-paths",
-            *self.lora_paths,
             "--max-loras-per-batch",
             str(self.max_loras_per_batch),
             "--lora-backend",
@@ -704,6 +764,10 @@ def __enter__(self):
             "--mem-fraction-static",
             str(MEM_FRACTION_STATIC),
         ]
+        if self.enable_lora:
+            other_args.append("--enable-lora")
+        if self.lora_paths:
+            other_args.extend(["--lora-paths"] + self.lora_paths)
         if self.disable_cuda_graph:
             other_args.append("--disable-cuda-graph")
         if self.max_lora_rank is not None:
@@ -836,6 +900,7 @@ def _run_operation_sequence(
         initial_adapters: List[str],
         max_loras_per_batch: int,
         op_sequence: List[Operation],
+        enable_lora: Optional[bool] = None,
         max_lora_rank: Optional[int] = None,
         lora_target_modules: Optional[List[str]] = None,
         max_new_tokens: int = 32,
@@ -854,6 +919,7 @@ def _run_operation_sequence(
             max_loras_per_batch=max_loras_per_batch,
             max_lora_rank=max_lora_rank,
             lora_target_modules=lora_target_modules,
+            enable_lora=enable_lora,
         ) as session:
             for op in op_sequence:
                 op_type = op.type
@@ -903,6 +969,7 @@ def _run_dynamic_adapter_updates(
             dynamic_output = self._run_operation_sequence(
                 mode=mode,
                 initial_adapters=test_case.initial_adapters,
+                enable_lora=test_case.enable_lora,
                 base=test_case.base,
                 max_loras_per_batch=test_case.max_loras_per_batch,
                 op_sequence=test_case.op_sequence,
@@ -923,6 +990,7 @@ def _run_dynamic_adapter_updates(
             static_output = self._run_operation_sequence(
                 mode=mode,
                 initial_adapters=test_case.all_adapters,
+                enable_lora=test_case.enable_lora,
                 base=test_case.base,
                 max_loras_per_batch=test_case.max_loras_per_batch,
                 op_sequence=forward_ops,
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index f59aed623e0f..d7b4739e38cb 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -18,7 +18,7 @@ class TestFile:
         TestFile("models/lora/test_lora_backend.py", 99),
         TestFile("models/lora/test_multi_lora_backend.py", 60),
         TestFile("models/lora/test_lora_cuda_graph.py", 250),
-        TestFile("models/lora/test_lora_update.py", 700),
+        TestFile("models/lora/test_lora_update.py", 800),
         TestFile("models/test_embedding_models.py", 73),
         # TestFile("models/test_clip_models.py", 52),
         TestFile("models/test_encoder_embedding_models.py", 100),

From 8cddfa56a14e9ac03677bfc9e8df2f59b5bce382 Mon Sep 17 00:00:00 2001
From: Baizhou Zhang <sobereddiezhang@gmail.com>
Date: Sat, 19 Jul 2025 15:56:50 -0700
Subject: [PATCH 058/396] Clean warning logs for gate_proj loading in Lora
 (#8172)

---
 python/sglang/srt/lora/lora.py | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/python/sglang/srt/lora/lora.py b/python/sglang/srt/lora/lora.py
index 2a3d2acfdff5..7bc6af532e8c 100644
--- a/python/sglang/srt/lora/lora.py
+++ b/python/sglang/srt/lora/lora.py
@@ -186,10 +186,6 @@ def normalize_gate_up_proj(
                 up_name = weight_name.replace("gate_proj", "up_proj")
                 gate_up_name = weight_name.replace("gate_proj", "gate_up_proj")
                 if up_name not in weights:
-                    logger.warning(
-                        f"Gate projection {weight_name} does not have a corresponding up projection {up_name}. "
-                        f"Initializing up projection to zero."
-                    )
                     weights[up_name] = torch.zeros_like(weights[weight_name])
                     # FIXME: Add gate-only support for flashinfer in future implementations
                     assert self.lora_backend.name == "triton", (

From abda2542d5cd465bbbfa5971139090df2dc02646 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sat, 19 Jul 2025 17:33:50 -0700
Subject: [PATCH 059/396] Fix tuning_fused_moe_triton.py (#8175)

---
 .../fused_moe_triton/tuning_fused_moe_triton.py    | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py b/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
index 5af1b32be8f9..69b0563e9cbf 100644
--- a/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
+++ b/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
@@ -18,6 +18,7 @@
     get_default_config,
     get_moe_configs,
 )
+from sglang.srt.layers.moe.topk import select_experts
 from sglang.srt.utils import is_hip
 
 _is_hip = is_hip()
@@ -115,10 +116,15 @@ def benchmark_config(
         w1 = w1.to(torch.float8_e4m3fnuz if _is_hip else torch.float8_e4m3fn)
         w2 = w2.to(torch.float8_e4m3fnuz if _is_hip else torch.float8_e4m3fn)
 
-    input_gating = torch.empty(num_tokens, num_experts, dtype=torch.float32)
+    input_gating = torch.randn(num_tokens, num_experts, dtype=torch.float32)
+    topk_output = select_experts(x, input_gating, topk, renormalize=True)
 
     def prepare(i: int):
-        input_gating.copy_(gating_output[i])
+        input_gating = gating_output[i]
+        new_topk_output = select_experts(x, input_gating, topk, renormalize=True)
+        topk_output.topk_weights.copy_(new_topk_output.topk_weights)
+        topk_output.topk_ids.copy_(new_topk_output.topk_ids)
+        topk_output.router_logits.copy_(new_topk_output.router_logits)
 
     def run():
         from sglang.srt.layers.moe.fused_moe_triton import override_config
@@ -128,9 +134,7 @@ def run():
                 x,
                 w1,
                 w2,
-                input_gating,
-                topk,
-                renormalize=True,
+                topk_output,
                 inplace=True,
                 use_fp8_w8a8=use_fp8_w8a8,
                 use_int8_w8a8=use_int8_w8a8,

From 4540a4666a112a82dcf21505b781f3e31e50d178 Mon Sep 17 00:00:00 2001
From: ybyang <10629930+whybeyoung@users.noreply.github.com>
Date: Sun, 20 Jul 2025 09:10:00 +0800
Subject: [PATCH 060/396] [Feature] Simple Improve Health Check Mechanism for
 Production-Grade Stability (#8115)

Signed-off-by: ybyang <ybyang7@iflytek.com>
---
 python/sglang/srt/entrypoints/engine.py       |  4 ++
 python/sglang/srt/entrypoints/http_server.py  | 57 ++++++++++++++++---
 python/sglang/srt/managers/io_struct.py       |  6 ++
 python/sglang/srt/managers/scheduler.py       |  3 +
 .../sglang/srt/managers/tokenizer_manager.py  |  7 ++-
 python/sglang/srt/utils.py                    | 16 ++++++
 6 files changed, 82 insertions(+), 11 deletions(-)

diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 990fac9a12a7..957d85aa5998 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -65,6 +65,7 @@
 from sglang.srt.torch_memory_saver_adapter import TorchMemorySaverAdapter
 from sglang.srt.utils import (
     MultiprocessingSerializer,
+    ServerStatus,
     assert_pkg_version,
     configure_logger,
     get_zmq_socket,
@@ -73,6 +74,7 @@
     launch_dummy_health_check_server,
     maybe_set_triton_cache_manager,
     prepare_model_and_tokenizer,
+    report_health,
     set_prometheus_multiproc_dir,
     set_ulimit,
 )
@@ -661,6 +663,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     def sigchld_handler(signum, frame):
         pid, exitcode = os.waitpid(0, os.WNOHANG)
         if exitcode != 0:
+            report_health(ServerStatus.Crashed, server_args.host, server_args.port)
             logger.warning(
                 f"Child process unexpectedly failed with {exitcode=}. {pid=}"
             )
@@ -674,6 +677,7 @@ def sigquit_handler(signum, frame):
         logger.error(
             "Received sigquit from a child process. It usually means the child failed."
         )
+        report_health(ServerStatus.Crashed, server_args.host, server_args.port)
         kill_process_tree(os.getpid())
 
     signal.signal(signal.SIGQUIT, sigquit_handler)
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index 43819e1a65e4..f880c4aa5cd4 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -77,6 +77,7 @@
     ParseFunctionCallReq,
     ProfileReqInput,
     ReleaseMemoryOccupationReqInput,
+    ReportHealthInput,
     ResumeMemoryOccupationReqInput,
     SeparateReasoningReqInput,
     SetInternalStateReq,
@@ -93,6 +94,7 @@
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.server_args import ServerArgs
 from sglang.srt.utils import (
+    ServerStatus,
     add_api_key_middleware,
     add_prometheus_middleware,
     delete_directory,
@@ -220,8 +222,31 @@ async def validate_json_request(raw_request: Request):
 
 @app.get("/health")
 async def health() -> Response:
-    """Check the health of the http server."""
-    return Response(status_code=200)
+    """Check the status of the http server."""
+    code = HTTPStatus.SERVICE_UNAVAILABLE.value
+    if _global_state.tokenizer_manager.server_status == ServerStatus.Up:
+        code = HTTPStatus.OK.value
+    return Response(
+        status_code=code,
+        content=json.dumps(
+            {"status": _global_state.tokenizer_manager.server_status.value}
+        ),
+    )
+
+
+@app.post("/health")
+async def health_update(obj: ReportHealthInput, request: Request) -> Response:
+    """Update the Status of the http server."""
+    try:
+        server_status = ServerStatus(obj.status)
+        _global_state.tokenizer_manager.server_status = server_status
+        if server_status != ServerStatus.Up:
+            return Response(
+                status_code=HTTPStatus.SERVICE_UNAVAILABLE.value, content=obj.msg
+            )
+    except Exception as e:
+        logger.error(e)
+        return Response(status_code=HTTPStatus.SERVICE_UNAVAILABLE.value)
 
 
 @app.get("/health_generate")
@@ -256,7 +281,7 @@ async def gen():
         if _global_state.tokenizer_manager.last_receive_tstamp > tic:
             task.cancel()
             _global_state.tokenizer_manager.rid_to_state.pop(rid, None)
-            _global_state.tokenizer_manager.health_check_failed = False
+            _global_state.tokenizer_manager.server_status = ServerStatus.Up
             return Response(status_code=200)
 
     task.cancel()
@@ -270,7 +295,7 @@ async def gen():
         f"last_heartbeat time: {last_receive_time}"
     )
     _global_state.tokenizer_manager.rid_to_state.pop(rid, None)
-    _global_state.tokenizer_manager.health_check_failed = True
+    _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
     return Response(status_code=503)
 
 
@@ -1022,9 +1047,13 @@ def _execute_server_warmup(
                 headers=headers,
                 timeout=600,
             )
-            assert res.status_code == 200, f"{res}"
+            if res.status_code == 200:
+                _global_state.tokenizer_manager.server_status = ServerStatus.Up
+            else:
+                _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
+            logger.info(f"{res}")
         else:
-            logger.info(f"Start of prefill warmup ...")
+            logger.info(f"Start of prefill/decode warmup ...")
             json_data = {
                 "sampling_params": {
                     "temperature": 0.0,
@@ -1046,15 +1075,25 @@ def _execute_server_warmup(
                 headers=headers,
                 timeout=1800,  # because of deep gemm precache is very long if not precache.
             )
-            logger.info(
-                f"End of prefill warmup with status {res.status_code}, resp: {res.json()}"
-            )
+            if res.status_code == 200:
+                logger.info(
+                    f"End of prefill disaggregation mode warmup with status {res.status_code}, resp: {res.json()}"
+                )
+                _global_state.tokenizer_manager.server_status = ServerStatus.Up
+            else:
+                logger.info(
+                    "Prefill disaggregation mode warm Up Failed, status code: {}".format(
+                        res.status_code
+                    )
+                )
+                _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
 
     except Exception:
         last_traceback = get_exception_traceback()
         if pipe_finish_writer is not None:
             pipe_finish_writer.send(last_traceback)
         logger.error(f"Initialization failed. warmup error: {last_traceback}")
+        _global_state.tokenizer_manager.server_status = ServerStatus.Crashed
         kill_process_tree(os.getpid())
         return False
 
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 8e1d1075aab6..b8332fdf656c 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -1083,3 +1083,9 @@ class LoRAUpdateResult:
 
 
 LoadLoRAAdapterReqOutput = UnloadLoRAAdapterReqOutput = LoRAUpdateResult
+
+
+@dataclass
+class ReportHealthInput:
+    status: str
+    msg: Optional[str] = ""
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index e6dd80d717ad..aee1596dbe9c 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -143,6 +143,7 @@
 from sglang.srt.utils import (
     DeepEPMode,
     DynamicGradMode,
+    ServerStatus,
     broadcast_pyobj,
     configure_gc_logger,
     configure_logger,
@@ -154,6 +155,7 @@
     kill_itself_when_parent_died,
     point_to_point_pyobj,
     pyspy_dump_schedulers,
+    report_health,
     require_mlp_sync,
     require_mlp_tp_gather,
     set_gpu_proc_affinity,
@@ -2964,4 +2966,5 @@ def run_scheduler_process(
     except Exception:
         traceback = get_exception_traceback()
         logger.error(f"Scheduler hit an exception: {traceback}")
+        report_health(ServerStatus.Crashed, server_args.host, ServerArgs.port)
         parent_process.send_signal(signal.SIGQUIT)
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 631d23f17335..a0f66419e768 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -116,6 +116,7 @@
 from sglang.srt.sampling.sampling_params import SamplingParams
 from sglang.srt.server_args import PortArgs, ServerArgs
 from sglang.srt.utils import (
+    ServerStatus,
     dataclass_to_string_truncated,
     get_bool_env_var,
     get_zmq_socket,
@@ -173,6 +174,9 @@ def __init__(
         server_args: ServerArgs,
         port_args: PortArgs,
     ):
+        # Server Status
+        self.server_status = ServerStatus.Starting
+
         # Parse args
         self.server_args = server_args
         self.enable_metrics = server_args.enable_metrics
@@ -251,7 +255,6 @@ def __init__(
         # Store states
         self.no_create_loop = False
         self.rid_to_state: Dict[str, ReqState] = {}
-        self.health_check_failed = False
         self.gracefully_exit = False
         self.last_receive_tstamp = 0
         self.dump_requests_folder = ""  # By default do not dump
@@ -1332,7 +1335,7 @@ async def sigterm_watchdog(self):
         while True:
             remain_num_req = len(self.rid_to_state)
 
-            if self.health_check_failed:
+            if not self.server_status.is_healthy():
                 # if health check failed, we should exit immediately
                 logger.error(
                     "Signal SIGTERM received while health check failed. Exiting... remaining number of requests: %d",
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 23960a8c1123..03565a018c34 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -93,6 +93,22 @@
 HIP_FP8_E4M3_FNUZ_MAX = 224.0
 
 
+class ServerStatus(Enum):
+    Up = "Up"
+    Starting = "Starting"
+    UnHealthy = "UnHealthy"
+    Crashed = "Crashed"
+
+    def is_healthy(self) -> bool:
+        return self == ServerStatus.Up
+
+
+def report_health(status: ServerStatus, host: str, http_port: int, msg: str = ""):
+    requests.post(
+        f"http://{host}:{http_port}/health", json={"status": status.value, "msg": msg}
+    )
+
+
 # https://pytorch.org/docs/stable/notes/hip.html#checking-for-hip
 def is_hip() -> bool:
     return torch.version.hip is not None

From 282eb59ff352e616eb311e6ac036f28d4a87ea13 Mon Sep 17 00:00:00 2001
From: Baizhou Zhang <sobereddiezhang@gmail.com>
Date: Sat, 19 Jul 2025 18:49:37 -0700
Subject: [PATCH 061/396] Add bf16 output option for dsv3_router_gemm kernel
 (#7999)

---
 sgl-kernel/CMakeLists.txt                     |   4 +-
 .../benchmark/bench_dsv3_router_gemm.py       |  53 +++-
 .../csrc/gemm/dsv3_router_gemm_bf16_out.cu    | 234 ++++++++++++++++++
 .../csrc/gemm/dsv3_router_gemm_entry.cu       | 127 ++++++++++
 ..._gemm.cu => dsv3_router_gemm_float_out.cu} | 131 +++-------
 sgl-kernel/python/sgl_kernel/gemm.py          |   3 +-
 sgl-kernel/tests/test_dsv3_router_gemm.py     |  17 +-
 7 files changed, 465 insertions(+), 104 deletions(-)
 create mode 100644 sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu
 create mode 100644 sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu
 rename sgl-kernel/csrc/gemm/{dsv3_router_gemm.cu => dsv3_router_gemm_float_out.cu} (54%)

diff --git a/sgl-kernel/CMakeLists.txt b/sgl-kernel/CMakeLists.txt
index 89a298c3469f..e8f9a0839658 100644
--- a/sgl-kernel/CMakeLists.txt
+++ b/sgl-kernel/CMakeLists.txt
@@ -222,7 +222,9 @@ set(SOURCES
     "csrc/gemm/awq_kernel.cu"
     "csrc/gemm/bmm_fp8.cu"
     "csrc/gemm/dsv3_fused_a_gemm.cu"
-    "csrc/gemm/dsv3_router_gemm.cu"
+    "csrc/gemm/dsv3_router_gemm_bf16_out.cu"
+    "csrc/gemm/dsv3_router_gemm_entry.cu"
+    "csrc/gemm/dsv3_router_gemm_float_out.cu"
     "csrc/gemm/fp8_blockwise_gemm_kernel.cu"
     "csrc/gemm/fp8_gemm_kernel.cu"
     "csrc/gemm/int8_gemm_kernel.cu"
diff --git a/sgl-kernel/benchmark/bench_dsv3_router_gemm.py b/sgl-kernel/benchmark/bench_dsv3_router_gemm.py
index 16b3143f0623..4502746f9b39 100644
--- a/sgl-kernel/benchmark/bench_dsv3_router_gemm.py
+++ b/sgl-kernel/benchmark/bench_dsv3_router_gemm.py
@@ -7,6 +7,48 @@
 from sgl_kernel import dsv3_router_gemm
 
 
+@triton.testing.perf_report(
+    triton.testing.Benchmark(
+        x_names=["num_tokens"],
+        x_vals=[i + 1 for i in range(16)],
+        x_log=False,
+        line_arg="impl",
+        line_vals=["torch", "sgl-kernel"],
+        line_names=["torch", "dsv3_router_gemm"],
+        styles=[("blue", "-"), ("orange", "-")],
+        ylabel="TFLOPs",
+        plot_name="input-bf16-output-bf16 dsv3 router gemm throughput",
+        args={},
+    )
+)
+def benchmark_bf16_output(num_tokens, impl):
+    # M: num_tokens, K: hidden_dim, N: num_experts
+    M, K, N = num_tokens, 7168, 256
+
+    mat_a = torch.randn((M, K), dtype=torch.bfloat16, device="cuda").contiguous()
+    mat_b = torch.randn((N, K), dtype=torch.bfloat16, device="cuda").contiguous()
+
+    quantiles = [0.5, 0.2, 0.8]
+
+    if impl == "torch":
+
+        def runner():
+            F.linear(mat_a, mat_b)
+
+    elif impl == "sgl-kernel":
+
+        def runner():
+            dsv3_router_gemm(mat_a, mat_b, out_dtype=torch.bfloat16)
+
+    ms, min_ms, max_ms = triton.testing.do_bench(runner, quantiles=quantiles)
+
+    def tflops(t_ms):
+        flops = 2 * M * K * N
+        return flops / (t_ms * 1e-3) / 1e12
+
+    return tflops(ms), tflops(max_ms), tflops(min_ms)
+
+
 @triton.testing.perf_report(
     triton.testing.Benchmark(
         x_names=["num_tokens"],
@@ -21,7 +63,7 @@
         args={},
     )
 )
-def benchmark(num_tokens, impl):
+def benchmark_float_output(num_tokens, impl):
     # M: num_tokens, K: hidden_dim, N: num_experts
     M, K, N = num_tokens, 7168, 256
 
@@ -38,7 +80,7 @@ def runner():
     elif impl == "sgl-kernel":
 
         def runner():
-            dsv3_router_gemm(mat_a, mat_b)
+            dsv3_router_gemm(mat_a, mat_b, out_dtype=torch.float32)
 
     ms, min_ms, max_ms = triton.testing.do_bench(runner, quantiles=quantiles)
 
@@ -53,4 +95,9 @@ def tflops(t_ms):
     parser = argparse.ArgumentParser()
     args = parser.parse_args()
 
-    benchmark.run(print_data=True, show_plots=True, save_path="bench_dsv3_router_gemm")
+    benchmark_bf16_output.run(
+        print_data=True, show_plots=True, save_path="bench_dsv3_router_gemm"
+    )
+    benchmark_float_output.run(
+        print_data=True, show_plots=True, save_path="bench_dsv3_router_gemm"
+    )
diff --git a/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu b/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu
new file mode 100644
index 000000000000..ef011dfb0b54
--- /dev/null
+++ b/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu
@@ -0,0 +1,234 @@
+/*
+ * Adapted from
+ * https://github.com/NVIDIA/TensorRT-LLM/blob/main/cpp/tensorrt_llm/kernels/dsv3MinLatencyKernels/dsv3RouterGemm.cu
+ * https://github.com/NVIDIA/TensorRT-LLM/blob/main/cpp/tensorrt_llm/thop/dsv3RouterGemmOp.cpp
+ *
+ * Copyright (c) 2019-2023, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+#include <ATen/ATen.h>
+#include <ATen/cuda/CUDAContext.h>
+
+#include "cuda_bf16.h"
+#include "cuda_runtime.h"
+#include "utils.h"
+
+// Custom FMA implementation using PTX assembly instructions
+__device__ __forceinline__ void fma(float2& d, float2 const& a, float2 const& b, float2 const& c) {
+  asm volatile("fma.rn.f32x2 %0, %1, %2, %3;\n"
+               : "=l"(reinterpret_cast<uint64_t&>(d))
+               : "l"(reinterpret_cast<uint64_t const&>(a)),
+                 "l"(reinterpret_cast<uint64_t const&>(b)),
+                 "l"(reinterpret_cast<uint64_t const&>(c)));
+}
+
+// Convert 8 bfloat16 values from a uint4 to float array - optimized conversion
+template <int VPT>
+__device__ __forceinline__ void bf16_uint4_to_float8(uint4 const& vec, float* dst) {
+  __nv_bfloat16* bf16_ptr = reinterpret_cast<__nv_bfloat16*>(const_cast<uint4*>(&vec));
+
+#pragma unroll
+  for (int i = 0; i < VPT; i++) {
+    dst[i] = __bfloat162float(bf16_ptr[i]);
+  }
+}
+
+template <typename T, int kBlockSize, int VPT, int kNumTokens, int kNumExperts, int kHiddenDim>
+__global__
+__launch_bounds__(128, 1) void router_gemm_kernel_bf16_output(__nv_bfloat16* out, T const* mat_a, T const* mat_b) {
+  // Each block handles one expert column
+  int const n_idx = blockIdx.x;
+  int const tid = threadIdx.x;
+  constexpr int kWarpSize = 32;
+  constexpr int kNumWarps = kBlockSize / kWarpSize;
+  // Constants for this kernel
+  constexpr int k_elems_per_k_iteration = VPT * kBlockSize;
+  constexpr int k_iterations = kHiddenDim / k_elems_per_k_iteration;  // Total K iterations
+
+  // Initialize accumulators for all M rows
+  float acc[kNumTokens] = {};
+
+  // Shared memory for warp-level reduction
+  __shared__ float sm_reduction[kNumTokens][kNumWarps];  // kNumWarps
+
+  // B matrix is in column-major order, so we can directly load a column for the n_idx expert
+  T const* b_col = mat_b + n_idx * kHiddenDim;
+
+  // Pre-compute k_base values for each iteration to help compiler optimize
+  // int k_bases[k_iterations];
+  int k_bases[k_iterations];
+#pragma unroll
+  for (int ki = 0; ki < k_iterations; ki++) {
+    k_bases[ki] = ki * k_elems_per_k_iteration + tid * VPT;
+  }
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+  asm volatile("griddepcontrol.wait;");
+#endif
+
+  // Process the GEMM in chunks
+  for (int ki = 0; ki < k_iterations; ki++) {
+    int const k_base = k_bases[ki];
+
+    // Load B matrix values using vector load (8 bf16 values)
+    uint4 b_vec = *reinterpret_cast<uint4 const*>(b_col + k_base);
+
+    // Convert B values to float
+    float b_float[VPT];
+    bf16_uint4_to_float8<VPT>(b_vec, b_float);
+
+// Process each token
+#pragma unroll
+    for (int m_idx = 0; m_idx < kNumTokens; m_idx++) {
+      // Load both rows of A matrix using vector loads
+      uint4 a_vec = *reinterpret_cast<uint4 const*>(mat_a + (m_idx * kHiddenDim) + k_base);
+
+      // Convert A values to float
+      float a_float[VPT];
+      bf16_uint4_to_float8<VPT>(a_vec, a_float);
+
+// Process elements in this chunk
+#pragma unroll
+      for (int k = 0; k < VPT; k++) {
+        float a = a_float[k];
+        float b = b_float[k];
+        acc[m_idx] += a * b;
+      }
+    }
+  }
+
+  // Perform warp-level reduction
+  int const warpSize = 32;
+  int const warpId = tid / warpSize;
+  int const laneId = tid % warpSize;
+
+  // Register for warp-level reduction results
+  float warp_result[kNumTokens];
+
+#pragma unroll
+  for (int m_idx = 0; m_idx < kNumTokens; m_idx++) {
+    warp_result[m_idx] = acc[m_idx];
+  }
+
+// Perform warp-level reduction using optimized butterfly pattern
+#pragma unroll
+  for (int m = 0; m < kNumTokens; m++) {
+    float sum = warp_result[m];
+
+    // Butterfly reduction pattern
+    sum += __shfl_xor_sync(0xffffffff, sum, 16);
+    sum += __shfl_xor_sync(0xffffffff, sum, 8);
+    sum += __shfl_xor_sync(0xffffffff, sum, 4);
+    sum += __shfl_xor_sync(0xffffffff, sum, 2);
+    sum += __shfl_xor_sync(0xffffffff, sum, 1);
+
+    // Only the first thread in each warp stores to shared memory
+    if (laneId == 0) {
+      sm_reduction[m][warpId] = sum;
+    }
+  }
+
+  __syncthreads();
+
+  // Final reduction across warps (only first thread)
+  if (tid == 0) {
+#pragma unroll
+    for (int m = 0; m < kNumTokens; m++) {
+      float final_sum = 0.0f;
+
+// Sum across the kNumWarps
+#pragma unroll
+      for (int w = 0; w < kNumWarps; w++) {
+        final_sum += sm_reduction[m][w];
+      }
+
+      // Write final result
+      out[m * kNumExperts + n_idx] = __float2bfloat16(final_sum);
+    }
+  }
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+  asm volatile("griddepcontrol.launch_dependents;");
+#endif
+}
+
+template <typename T, int kNumTokens, int kNumExperts, int kHiddenDim>
+void invokeRouterGemmBf16Output(__nv_bfloat16* output, T const* mat_a, T const* mat_b, cudaStream_t stream) {
+  constexpr int VPT = 16 / sizeof(T);
+  constexpr int kBlockSize = 128;
+  cudaLaunchConfig_t config;
+  config.gridDim = kNumExperts;
+  config.blockDim = kBlockSize;
+  config.dynamicSmemBytes = 0;
+  config.stream = stream;
+  cudaLaunchAttribute attrs[1];
+  attrs[0].id = cudaLaunchAttributeProgrammaticStreamSerialization;
+  attrs[0].val.programmaticStreamSerializationAllowed = getEnvEnablePDL();
+  config.numAttrs = 1;
+  config.attrs = attrs;
+  cudaLaunchKernelEx(
+      &config,
+      router_gemm_kernel_bf16_output<T, kBlockSize, VPT, kNumTokens, kNumExperts, kHiddenDim>,
+      output,
+      mat_a,
+      mat_b);
+}
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 1, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 2, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 3, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 4, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 5, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 6, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 7, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 8, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 9, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 10, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 11, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 12, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 13, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 14, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 15, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 16, 256, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
diff --git a/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu b/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu
new file mode 100644
index 000000000000..c316a8193ea4
--- /dev/null
+++ b/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu
@@ -0,0 +1,127 @@
+/*
+ * Adapted from
+ * https://github.com/NVIDIA/TensorRT-LLM/blob/main/cpp/tensorrt_llm/kernels/dsv3MinLatencyKernels/dsv3RouterGemm.cu
+ * https://github.com/NVIDIA/TensorRT-LLM/blob/main/cpp/tensorrt_llm/thop/dsv3RouterGemmOp.cpp
+ *
+ * Copyright (c) 2019-2023, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+#include <ATen/ATen.h>
+#include <ATen/cuda/CUDAContext.h>
+
+#include "cuda_bf16.h"
+#include "cuda_runtime.h"
+#include "utils.h"
+
+template <typename T, int kNumTokens, int kNumExperts, int kHiddenDim>
+void invokeRouterGemmFloatOutput(float* output, T const* mat_a, T const* mat_b, cudaStream_t stream);
+
+template <typename T, int kNumTokens, int kNumExperts, int kHiddenDim>
+void invokeRouterGemmBf16Output(__nv_bfloat16* output, T const* mat_a, T const* mat_b, cudaStream_t stream);
+
+template <int kBegin, int kEnd, int kNumExperts, int kHiddenDim>
+struct LoopUnroller {
+  static void unroll_float_output(
+      int num_tokens, float* output, __nv_bfloat16 const* input, __nv_bfloat16 const* weights, cudaStream_t stream) {
+    if (num_tokens == kBegin) {
+      invokeRouterGemmFloatOutput<__nv_bfloat16, kBegin, kNumExperts, kHiddenDim>(output, input, weights, stream);
+    } else {
+      LoopUnroller<kBegin + 1, kEnd, kNumExperts, kHiddenDim>::unroll_float_output(
+          num_tokens, output, input, weights, stream);
+    }
+  }
+
+  static void unroll_bf16_output(
+      int num_tokens,
+      __nv_bfloat16* output,
+      __nv_bfloat16 const* input,
+      __nv_bfloat16 const* weights,
+      cudaStream_t stream) {
+    if (num_tokens == kBegin) {
+      invokeRouterGemmBf16Output<__nv_bfloat16, kBegin, kNumExperts, kHiddenDim>(output, input, weights, stream);
+    } else {
+      LoopUnroller<kBegin + 1, kEnd, kNumExperts, kHiddenDim>::unroll_bf16_output(
+          num_tokens, output, input, weights, stream);
+    }
+  }
+};
+
+template <int kEnd, int kNumExperts, int kHiddenDim>
+struct LoopUnroller<kEnd, kEnd, kNumExperts, kHiddenDim> {
+  static void unroll_float_output(
+      int num_tokens, float* output, __nv_bfloat16 const* input, __nv_bfloat16 const* weights, cudaStream_t stream) {
+    if (num_tokens == kEnd) {
+      invokeRouterGemmFloatOutput<__nv_bfloat16, kEnd, kNumExperts, kHiddenDim>(output, input, weights, stream);
+    } else {
+      throw std::invalid_argument("Invalid num_tokens, only supports 1 to 16");
+    }
+  }
+
+  static void unroll_bf16_output(
+      int num_tokens,
+      __nv_bfloat16* output,
+      __nv_bfloat16 const* input,
+      __nv_bfloat16 const* weights,
+      cudaStream_t stream) {
+    if (num_tokens == kEnd) {
+      invokeRouterGemmBf16Output<__nv_bfloat16, kEnd, kNumExperts, kHiddenDim>(output, input, weights, stream);
+    } else {
+      throw std::invalid_argument("Invalid num_tokens, only supports 1 to 16");
+    }
+  }
+};
+
+void dsv3_router_gemm(
+    torch::Tensor& output,       // [num_tokens, num_experts]
+    const torch::Tensor& mat_a,  // [num_tokens, hidden_dim]
+    const torch::Tensor& mat_b   // [num_experts, hidden_dim]
+) {
+  TORCH_CHECK(output.dim() == 2 && mat_a.dim() == 2 && mat_b.dim() == 2);
+
+  const int num_tokens = mat_a.size(0);
+  constexpr int num_experts = 256;
+  constexpr int hidden_dim = 7168;
+
+  TORCH_CHECK(mat_a.size(1) == mat_b.size(1), "mat_a and mat_b must have the same hidden_dim");
+  TORCH_CHECK(mat_a.size(1) == hidden_dim, "currently hidden_dim only supports 7168");
+  TORCH_CHECK(mat_b.size(0) == num_experts, "currently num_experts only supports 256");
+  TORCH_CHECK(
+      num_tokens >= 1 && num_tokens <= 16, "currently num_tokens must be less than or equal to 16 for router_gemm");
+  TORCH_CHECK(mat_a.dtype() == torch::kBFloat16, "mat_a must be bf16");
+  TORCH_CHECK(mat_b.dtype() == torch::kBFloat16, "mat_b must be bf16");
+  TORCH_CHECK(
+      output.dtype() == torch::kFloat32 || output.dtype() == torch::kBFloat16, "output must be float32 or bf16");
+
+  auto const sm = getSMVersion();
+  TORCH_CHECK(sm >= 90, "required CUDA ARCH >= SM_90");
+
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+
+  if (output.dtype() == torch::kFloat32) {
+    LoopUnroller<1, 16, num_experts, hidden_dim>::unroll_float_output(
+        num_tokens,
+        reinterpret_cast<float*>(output.mutable_data_ptr()),
+        reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
+        reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
+        stream);
+  } else if (output.dtype() == torch::kBFloat16) {
+    LoopUnroller<1, 16, num_experts, hidden_dim>::unroll_bf16_output(
+        num_tokens,
+        reinterpret_cast<__nv_bfloat16*>(output.mutable_data_ptr()),
+        reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
+        reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
+        stream);
+  }
+}
diff --git a/sgl-kernel/csrc/gemm/dsv3_router_gemm.cu b/sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu
similarity index 54%
rename from sgl-kernel/csrc/gemm/dsv3_router_gemm.cu
rename to sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu
index 410bbcefd3a6..e7577c55bc44 100644
--- a/sgl-kernel/csrc/gemm/dsv3_router_gemm.cu
+++ b/sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu
@@ -46,7 +46,7 @@ __device__ __forceinline__ void bf16_uint4_to_float8(uint4 const& vec, float* ds
 }
 
 template <typename T, int kBlockSize, int VPT, int kNumTokens, int kNumExperts, int kHiddenDim>
-__global__ __launch_bounds__(128, 1) void router_gemm_kernel(float* out, T const* mat_a, T const* mat_b) {
+__global__ __launch_bounds__(128, 1) void router_gemm_kernel_float_output(float* out, T const* mat_a, T const* mat_b) {
   // Each block handles one expert column
   int const n_idx = blockIdx.x;
   int const tid = threadIdx.x;
@@ -163,7 +163,7 @@ __global__ __launch_bounds__(128, 1) void router_gemm_kernel(float* out, T const
 }
 
 template <typename T, int kNumTokens, int kNumExperts, int kHiddenDim>
-void invokeRouterGemm(float* output, T const* mat_a, T const* mat_b, cudaStream_t stream) {
+void invokeRouterGemmFloatOutput(float* output, T const* mat_a, T const* mat_b, cudaStream_t stream) {
   constexpr int VPT = 16 / sizeof(T);
   constexpr int kBlockSize = 128;
   cudaLaunchConfig_t config;
@@ -177,110 +177,57 @@ void invokeRouterGemm(float* output, T const* mat_a, T const* mat_b, cudaStream_
   config.numAttrs = 1;
   config.attrs = attrs;
   cudaLaunchKernelEx(
-      &config, router_gemm_kernel<T, kBlockSize, VPT, kNumTokens, kNumExperts, kHiddenDim>, output, mat_a, mat_b);
+      &config,
+      router_gemm_kernel_float_output<T, kBlockSize, VPT, kNumTokens, kNumExperts, kHiddenDim>,
+      output,
+      mat_a,
+      mat_b);
 }
 
-template void
-invokeRouterGemm<__nv_bfloat16, 1, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 1, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 2, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 2, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 3, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 3, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 4, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 4, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 5, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 5, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 6, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 6, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 7, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 7, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 8, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 8, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 9, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 9, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 10, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 10, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 11, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 11, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 12, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 12, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 13, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 13, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 14, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 14, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 15, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 15, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
-template void
-invokeRouterGemm<__nv_bfloat16, 16, 256, 7168>(float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
-
-template <int kBegin, int kEnd, int kNumExperts, int kHiddenDim>
-struct LoopUnroller {
-  static void
-  unroll(int num_tokens, float* output, __nv_bfloat16 const* input, __nv_bfloat16 const* weights, cudaStream_t stream) {
-    if (num_tokens == kBegin) {
-      invokeRouterGemm<__nv_bfloat16, kBegin, kNumExperts, kHiddenDim>(output, input, weights, stream);
-    } else {
-      LoopUnroller<kBegin + 1, kEnd, kNumExperts, kHiddenDim>::unroll(num_tokens, output, input, weights, stream);
-    }
-  }
-};
-
-template <int kEnd, int kNumExperts, int kHiddenDim>
-struct LoopUnroller<kEnd, kEnd, kNumExperts, kHiddenDim> {
-  static void
-  unroll(int num_tokens, float* output, __nv_bfloat16 const* input, __nv_bfloat16 const* weights, cudaStream_t stream) {
-    if (num_tokens == kEnd) {
-      invokeRouterGemm<__nv_bfloat16, kEnd, kNumExperts, kHiddenDim>(output, input, weights, stream);
-    } else {
-      throw std::invalid_argument("Invalid num_tokens, only supports 1 to 16");
-    }
-  }
-};
-
-void dsv3_router_gemm(
-    torch::Tensor& output,       // [num_tokens, num_experts]
-    const torch::Tensor& mat_a,  // [num_tokens, hidden_dim]
-    const torch::Tensor& mat_b   // [num_experts, hidden_dim]
-) {
-  TORCH_CHECK(output.dim() == 2 && mat_a.dim() == 2 && mat_b.dim() == 2);
-
-  const int num_tokens = mat_a.size(0);
-  constexpr int num_experts = 256;
-  constexpr int hidden_dim = 7168;
-
-  TORCH_CHECK(mat_a.size(1) == mat_b.size(1), "mat_a and mat_b must have the same hidden_dim");
-  TORCH_CHECK(mat_a.size(1) == hidden_dim, "currently hidden_dim only supports 7168");
-  TORCH_CHECK(mat_b.size(0) == num_experts, "currently num_experts only supports 256");
-  TORCH_CHECK(
-      num_tokens >= 1 && num_tokens <= 16, "currently num_tokens must be less than or equal to 16 for router_gemm");
-  TORCH_CHECK(mat_a.dtype() == torch::kBFloat16, "mat_a must be bf16");
-  TORCH_CHECK(mat_b.dtype() == torch::kBFloat16, "mat_b must be bf16");
-  TORCH_CHECK(output.dtype() == torch::kFloat32, "output must be float32");
-
-  auto const sm = getSMVersion();
-  TORCH_CHECK(sm >= 90, "required CUDA ARCH >= SM_90");
-
-  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-
-  LoopUnroller<1, 16, num_experts, hidden_dim>::unroll(
-      num_tokens,
-      reinterpret_cast<float*>(output.mutable_data_ptr()),
-      reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
-      reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
-      stream);
-}
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 16, 256, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
diff --git a/sgl-kernel/python/sgl_kernel/gemm.py b/sgl-kernel/python/sgl_kernel/gemm.py
index 6ec4ce78ab32..7435cfdda1e4 100644
--- a/sgl-kernel/python/sgl_kernel/gemm.py
+++ b/sgl-kernel/python/sgl_kernel/gemm.py
@@ -262,12 +262,13 @@ def qserve_w4a8_per_group_gemm(
 def dsv3_router_gemm(
     hidden_states: torch.Tensor,
     router_weights: torch.Tensor,
+    out_dtype: torch.dtype = torch.bfloat16,
 ) -> torch.Tensor:
     output = torch.empty(
         hidden_states.shape[0],
         router_weights.shape[0],
         device=hidden_states.device,
-        dtype=torch.float32,
+        dtype=out_dtype,
     )
     torch.ops.sgl_kernel.dsv3_router_gemm(
         output,
diff --git a/sgl-kernel/tests/test_dsv3_router_gemm.py b/sgl-kernel/tests/test_dsv3_router_gemm.py
index 1b60bcf920d5..169c996719d5 100644
--- a/sgl-kernel/tests/test_dsv3_router_gemm.py
+++ b/sgl-kernel/tests/test_dsv3_router_gemm.py
@@ -15,17 +15,20 @@ def test_dsv3_router_gemm(num_tokens):
     mat_b = torch.randn(
         (num_experts, hidden_dim), dtype=torch.bfloat16, device="cuda"
     ).contiguous()
-    output = torch.empty(
-        (num_tokens, num_experts), dtype=torch.float32, device="cuda"
-    ).contiguous()
 
-    ref = F.linear(mat_a, mat_b).to(torch.float32)
+    bf16_ref = F.linear(mat_a, mat_b)
+    float_ref = bf16_ref.to(torch.float32)
+
+    bf16_output = dsv3_router_gemm(mat_a, mat_b, out_dtype=torch.bfloat16)
+    float_output = dsv3_router_gemm(mat_a, mat_b, out_dtype=torch.float32)
 
-    output = dsv3_router_gemm(mat_a, mat_b)
+    assert torch.allclose(
+        bf16_output, bf16_ref, rtol=1e-2, atol=1e-3
+    ), "Router GEMM output in bf16 dtype mismatch with torch.nn.functional.linear reference"
 
     assert torch.allclose(
-        output, ref, rtol=1e-2, atol=1e-3
-    ), "Router GEMM output mismatch with torch.nn.functional.linear reference"
+        float_output, float_ref, rtol=1e-2, atol=1e-3
+    ), "Router GEMM output in float32 dtype mismatch with torch.nn.functional.linear reference"
 
 
 if __name__ == "__main__":

From cbdfb77123e020aa6d45e423b283f9a3d96e4f96 Mon Sep 17 00:00:00 2001
From: Clay <ccs96307@gmail.com>
Date: Sun, 20 Jul 2025 10:30:16 +0800
Subject: [PATCH 062/396] Enable FlashInfer support encoder models and add
 head_dim padding workaround (#6230)

---
 .../srt/layers/attention/flashinfer_backend.py  | 11 ++++++++++-
 .../srt/models/test_encoder_embedding_models.py | 17 +++++++++++++++--
 2 files changed, 25 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/attention/flashinfer_backend.py b/python/sglang/srt/layers/attention/flashinfer_backend.py
index f65e533d92fb..c7da38ac51cc 100644
--- a/python/sglang/srt/layers/attention/flashinfer_backend.py
+++ b/python/sglang/srt/layers/attention/flashinfer_backend.py
@@ -25,6 +25,7 @@
 from sglang.srt.layers.attention.base_attn_backend import AttentionBackend
 from sglang.srt.layers.attention.utils import create_flashinfer_kv_indices_triton
 from sglang.srt.layers.dp_attention import get_attention_tp_size
+from sglang.srt.layers.radix_attention import AttentionType
 from sglang.srt.layers.utils import is_sm100_supported
 from sglang.srt.mem_cache.allocator import SWATokenToKVPoolAllocator
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
@@ -486,12 +487,20 @@ def forward_extend(
                 v_scale=layer.v_scale,
             )
         else:
+            causal = True
+            if layer.attn_type == AttentionType.ENCODER_ONLY:
+                save_kv_cache = False
+                causal = False
+
             if self.forward_metadata.extend_no_prefix:
+                # NOTE: FlashInfer currently has limitations with head_dim = 32 or other dimensions
+                # The FlashInfer head_dim limitation itself is tracked here:
+                # https://github.com/flashinfer-ai/flashinfer/issues/1048
                 o = self.prefill_wrapper_ragged.forward(
                     q.view(-1, layer.tp_q_head_num, layer.head_dim),
                     k.view(-1, layer.tp_k_head_num, layer.head_dim),
                     v.view(-1, layer.tp_v_head_num, layer.head_dim),
-                    causal=True,
+                    causal=causal,
                     sm_scale=layer.scaling,
                     logits_soft_cap=logits_soft_cap,
                 )
diff --git a/test/srt/models/test_encoder_embedding_models.py b/test/srt/models/test_encoder_embedding_models.py
index bea5d4affe47..dafaa72db595 100644
--- a/test/srt/models/test_encoder_embedding_models.py
+++ b/test/srt/models/test_encoder_embedding_models.py
@@ -27,9 +27,9 @@
 
 MODELS = [("BAAI/bge-small-en", 1, 1e-5), ("BAAI/bge-m3", 1, 1e-5)]
 
-ATTENTION_BACKEND = ["torch_native", "triton"]
+ATTENTION_BACKEND = ["torch_native", "triton", "flashinfer"]
 BATCH_SIZE = [1, 2]
-TORCH_DTYPES = [torch.float32]
+TORCH_DTYPES = [torch.float32, torch.float16]
 sgl_to_st_ratio = []
 
 
@@ -126,6 +126,19 @@ def test_prefill_logits(self):
             for attention_backend in ATTENTION_BACKEND:
                 for batch_size in BATCH_SIZE:
                     for torch_dtype in TORCH_DTYPES:
+                        # NOTE: FlashInfer currently has limitations with head_dim = 32 or
+                        # other dimensions.
+                        # The FlashInfer head_dim limitation itself is tracked here:
+                        # https://github.com/flashinfer-ai/flashinfer/issues/1048
+                        #
+                        # Flashinfer does not support torch.float32 for dtype_q, so skip it
+                        if attention_backend == "flashinfer":
+                            if (
+                                model == "BAAI/bge-small-en"
+                                or torch_dtype == torch.float32
+                            ):
+                                continue
+
                         self.assert_close_prefill_logits(
                             DEFAULT_PROMPTS,
                             model,

From 877e35d7754cd1fa60b3f1226929dbc84146ea70 Mon Sep 17 00:00:00 2001
From: Pavel Logachev <logachevpa@gmail.com>
Date: Sun, 20 Jul 2025 05:31:16 +0300
Subject: [PATCH 063/396] Add get_hidden_dim to qwen3.py for correct lora
 (#7312)

---
 python/sglang/srt/models/qwen3.py       |  24 +++
 python/sglang/test/runners.py           |   7 +-
 test/srt/models/lora/test_lora.py       |   1 -
 test/srt/models/lora/test_lora_qwen3.py | 209 ++++++++++++++++++++++++
 test/srt/run_suite.py                   |   1 +
 5 files changed, 240 insertions(+), 2 deletions(-)
 create mode 100644 test/srt/models/lora/test_lora_qwen3.py

diff --git a/python/sglang/srt/models/qwen3.py b/python/sglang/srt/models/qwen3.py
index 6289e61e7a72..7d7c3bf7b19f 100644
--- a/python/sglang/srt/models/qwen3.py
+++ b/python/sglang/srt/models/qwen3.py
@@ -330,6 +330,30 @@ def __init__(
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
 
+    def get_hidden_dim(self, module_name: str) -> Tuple[int]:
+        # return input_dim, output_dim
+        if module_name in ["q_proj", "qkv_proj"]:
+            return (
+                self.config.hidden_size,
+                self.config.head_dim * self.config.num_attention_heads,
+            )
+        elif module_name in ["o_proj"]:
+            return (
+                self.config.head_dim * self.config.num_attention_heads,
+                self.config.hidden_size,
+            )
+        elif module_name in ["kv_proj"]:
+            return (
+                self.config.hidden_size,
+                self.config.head_dim * self.config.num_key_value_heads,
+            )
+        elif module_name == "gate_up_proj":
+            return self.config.hidden_size, self.config.intermediate_size
+        elif module_name == "down_proj":
+            return self.config.intermediate_size, self.config.hidden_size
+        else:
+            raise NotImplementedError()
+
     @torch.no_grad()
     def forward(
         self,
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index 9ec71c29bac8..ed30b3687922 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -134,10 +134,12 @@ def __init__(
         model_type: str = "generation",
         output_str_only: bool = False,
         trust_remote_code: bool = False,
+        patch_model_do_sample_false: bool = False,
     ):
         self.model_type = model_type
         self.output_str_only = output_str_only
         self.trust_remote_code = trust_remote_code
+        self.patch_model_do_sample_false = patch_model_do_sample_false
 
         self.in_queue = mp.Queue()
         self.out_queue = mp.Queue()
@@ -292,6 +294,7 @@ def start_model_process(self, in_queue, out_queue, model_path, torch_dtype):
                             torch_dtype=torch_dtype,
                             output_str_only=self.output_str_only,
                             token_ids_logprob=token_ids_logprob,
+                            patch_model_do_sample_false=self.patch_model_do_sample_false,
                         )
                     )
                 elif self.model_type == "embedding":
@@ -380,6 +383,7 @@ def forward_generation_raw(
         lora_paths: Optional[List[str]] = None,
         output_str_only: bool = False,
         token_ids_logprob: Optional[int] = None,
+        patch_model_do_sample_false: Optional[bool] = False,
     ) -> ModelOutput:
         output_strs = []
         top_input_logprobs = []
@@ -407,7 +411,8 @@ def forward_generation_raw(
                 )
             else:
                 model = base_model
-
+            if patch_model_do_sample_false:
+                model.generation_config.do_sample = False
             outputs = model.generate(
                 input_ids=input_ids,
                 generation_config=GenerationConfig(
diff --git a/test/srt/models/lora/test_lora.py b/test/srt/models/lora/test_lora.py
index bfa727234072..17aa6f3b8c00 100644
--- a/test/srt/models/lora/test_lora.py
+++ b/test/srt/models/lora/test_lora.py
@@ -84,7 +84,6 @@ def ensure_reproducibility(self):
         torch.use_deterministic_algorithms(True)
 
     def _run_lora_multiple_batch_on_model_cases(self, model_cases: List[LoRAModelCase]):
-
         for model_case in model_cases:
             for torch_dtype in TORCH_DTYPES:
                 max_new_tokens = 32
diff --git a/test/srt/models/lora/test_lora_qwen3.py b/test/srt/models/lora/test_lora_qwen3.py
new file mode 100644
index 000000000000..4519c3c1f8d8
--- /dev/null
+++ b/test/srt/models/lora/test_lora_qwen3.py
@@ -0,0 +1,209 @@
+# Copyright 2023-2025 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+import multiprocessing as mp
+import os
+import random
+import unittest
+from typing import List
+
+from utils import TORCH_DTYPES, LoRAAdaptor, LoRAModelCase
+
+from sglang.test.runners import HFRunner, SRTRunner
+from sglang.test.test_utils import CustomTestCase, calculate_rouge_l, is_in_ci
+
+LORA_MODELS_QWEN3 = [
+    LoRAModelCase(
+        base="Qwen/Qwen3-4B",
+        adaptors=[
+            LoRAAdaptor(
+                name="nissenj/Qwen3-4B-lora-v2",
+                prefill_tolerance=3e-1,
+            ),
+            LoRAAdaptor(
+                name="y9760210/Qwen3-4B-lora_model",
+                prefill_tolerance=3e-1,
+            ),
+        ],
+        max_loras_per_batch=2,
+    ),
+]
+
+
+TEST_MULTIPLE_BATCH_PROMPTS = [
+    """
+    ### Instruction:
+    Tell me about llamas and alpacas
+    ### Response:
+    Llamas are large, long-necked animals with a woolly coat. They have two toes on each foot instead of three like other camelids (camels, dromedaries). Llamas live in the Andean mountains of South America where they graze on grasses and shrubs. Alpaca is another name for domesticated llama. The word "alpaca" comes from an Incan language meaning "golden fleece." Alpacas look very similar to llamas but are smaller than their wild relatives. Both species were used by ancient people as pack animals and for meat. Today both llamas and alpacas are raised primarily for their fiber which can be spun into yarn or knitted into clothing.
+    ### Question 2:
+    What do you know about llamas?
+    ### Answer:
+    """,
+    """
+    ### Instruction:
+    Write a poem about the transformers Python library.
+    Mention the word "large language models" in that poem.
+    ### Response:
+    The Transformers are large language models,
+    They're used to make predictions on text.
+    """,
+    # "AI is a field of computer science focused on", TODO: Add it back after fixing its bug
+    "Computer science is the study of",
+    "Write a short story.",
+    "What are the main components of a computer?",
+]
+
+
+class TestLoRA(CustomTestCase):
+
+    def _run_lora_multiple_batch_on_model_cases(self, model_cases: List[LoRAModelCase]):
+        for model_case in model_cases:
+            for torch_dtype in TORCH_DTYPES:
+                max_new_tokens = 10
+                backend = "triton"
+                base_path = model_case.base
+                lora_adapter_paths = [a.name for a in model_case.adaptors]
+                assert len(lora_adapter_paths) >= 2
+
+                batches = [
+                    (
+                        [
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                        ],
+                        [
+                            None,
+                            lora_adapter_paths[0],
+                            lora_adapter_paths[1],
+                        ],
+                    ),
+                    (
+                        [
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                        ],
+                        [
+                            lora_adapter_paths[0],
+                            None,
+                            lora_adapter_paths[1],
+                        ],
+                    ),
+                    (
+                        [
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                        ],
+                        [lora_adapter_paths[0], lora_adapter_paths[1], None],
+                    ),
+                    (
+                        [
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                        ],
+                        [None, lora_adapter_paths[1], None],
+                    ),
+                    (
+                        [
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                            random.choice(TEST_MULTIPLE_BATCH_PROMPTS),
+                        ],
+                        [None, None, None],
+                    ),
+                ]
+
+                print(
+                    f"\n========== Testing multiple batches on base '{base_path}' with backend={backend}, dtype={torch_dtype} ---"
+                )
+
+                # Initialize runners
+                srt_runner = SRTRunner(
+                    base_path,
+                    torch_dtype=torch_dtype,
+                    model_type="generation",
+                    lora_paths=[lora_adapter_paths[0], lora_adapter_paths[1]],
+                    max_loras_per_batch=len(lora_adapter_paths) + 1,
+                    lora_backend=backend,
+                    disable_radix_cache=True,
+                )
+                hf_runner = HFRunner(
+                    base_path,
+                    torch_dtype=torch_dtype,
+                    model_type="generation",
+                    patch_model_do_sample_false=True,
+                )
+
+                with srt_runner, hf_runner:
+                    for i, (prompts, lora_paths) in enumerate(batches):
+                        print(
+                            f"\n--- Running Batch {i+1} --- prompts: {prompts}, lora_paths: {lora_paths}"
+                        )
+
+                        srt_outputs = srt_runner.batch_forward(
+                            prompts,
+                            max_new_tokens=max_new_tokens,
+                            lora_paths=lora_paths,
+                        )
+
+                        hf_outputs = hf_runner.forward(
+                            prompts,
+                            max_new_tokens=max_new_tokens,
+                            lora_paths=lora_paths,
+                        )
+
+                        print("SRT outputs:", [s for s in srt_outputs.output_strs])
+                        print("HF outputs:", [s for s in hf_outputs.output_strs])
+
+                        for srt_out, hf_out in zip(
+                            srt_outputs.output_strs, hf_outputs.output_strs
+                        ):
+                            srt_str = srt_out.strip()
+                            hf_str = hf_out.strip()
+                            rouge_tol = model_case.rouge_l_tolerance
+                            rouge_score = calculate_rouge_l([srt_str], [hf_str])[0]
+                            if rouge_score < rouge_tol:
+                                raise AssertionError(
+                                    f"ROUGE-L score {rouge_score} below tolerance {rouge_tol} "
+                                    f"for base '{base_path}', adaptor '{lora_paths}', backend '{backend}', prompt: '{prompts}...'"
+                                )
+
+                        print(f"--- Batch {i+1} Comparison Passed --- ")
+
+    def test_ci_lora_models(self):
+        self._run_lora_multiple_batch_on_model_cases(LORA_MODELS_QWEN3)
+
+    def test_all_lora_models(self):
+        if is_in_ci():
+            return
+        qwen_filtered_models = []
+        for model_case in LORA_MODELS_QWEN3:
+            if "ONLY_RUN" in os.environ and os.environ["ONLY_RUN"] != model_case.base:
+                continue
+            qwen_filtered_models.append(model_case)
+
+        self._run_lora_multiple_batch_on_model_cases(qwen_filtered_models)
+
+
+if __name__ == "__main__":
+    try:
+        mp.set_start_method("spawn")
+    except RuntimeError:
+        pass
+
+    unittest.main(warnings="ignore")
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index d7b4739e38cb..0e62760ab72f 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -19,6 +19,7 @@ class TestFile:
         TestFile("models/lora/test_multi_lora_backend.py", 60),
         TestFile("models/lora/test_lora_cuda_graph.py", 250),
         TestFile("models/lora/test_lora_update.py", 800),
+        TestFile("models/lora/test_lora_qwen3.py", 97),
         TestFile("models/test_embedding_models.py", 73),
         # TestFile("models/test_clip_models.py", 52),
         TestFile("models/test_encoder_embedding_models.py", 100),

From 0f9b11e3101b691fa89df8db212a01b13344431d Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sat, 19 Jul 2025 20:04:02 -0700
Subject: [PATCH 064/396] feat: add h200 tp 16 kimi k2 moe config (#8176)

---
 ...dtype=fp8_w8a8,block_shape=[128, 128].json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json
new file mode 100644
index 000000000000..b5c45dd7231e
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json	
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}

From f62d75b6a17d836aac6d1d81c1b124d0708e9ca0 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sat, 19 Jul 2025 20:04:12 -0700
Subject: [PATCH 065/396] feat: add b200 tp 16 kimi k2 moe config (#8178)

---
 ...dtype=fp8_w8a8,block_shape=[128, 128].json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128, 128].json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128, 128].json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128, 128].json
new file mode 100644
index 000000000000..faf1aa4d4ce0
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=385,N=128,device_name=NVIDIA_B200,dtype=fp8_w8a8,block_shape=[128, 128].json	
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}

From a589a0716774196d437bdbfe282283e593f0882a Mon Sep 17 00:00:00 2001
From: Atream <80757050+Atream@users.noreply.github.com>
Date: Sun, 20 Jul 2025 13:13:46 +0800
Subject: [PATCH 066/396] fix moe gate dtype, fix tbo, fix fake dispatch
 (#7825)

---
 python/sglang/srt/eplb/expert_location_dispatch.py | 2 +-
 python/sglang/srt/layers/moe/topk.py               | 2 +-
 python/sglang/srt/models/deepseek_v2.py            | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/eplb/expert_location_dispatch.py b/python/sglang/srt/eplb/expert_location_dispatch.py
index 36224eee7f8a..8d2160b6ed73 100644
--- a/python/sglang/srt/eplb/expert_location_dispatch.py
+++ b/python/sglang/srt/eplb/expert_location_dispatch.py
@@ -66,7 +66,7 @@ def transform_select_experts_inputs(
     info: Optional[ExpertLocationDispatchInfo],
 ):
     if (info is not None) and (info.ep_dispatch_algorithm == "fake"):
-        router_logits = torch.randn_like(router_logits)
+        router_logits.uniform_(5, 10)
         if correction_bias is not None:
             correction_bias = torch.zeros_like(correction_bias)
     return router_logits, correction_bias
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index bb3cf651542a..c3ae9af25d0d 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -499,7 +499,7 @@ def biased_grouped_topk_gpu(
         and is_power_of_two(correction_bias.shape[0])
     ):
         topk_weights, topk_ids = moe_fused_gate(
-            gating_output,
+            gating_output.to(dtype=torch.float32),
             correction_bias,
             num_expert_group,
             topk_group,
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 9ec5db9260d3..a65337945f6b 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -229,7 +229,7 @@ def __init__(
         )
         if config.topk_method == "noaux_tc":
             self.e_score_correction_bias = nn.Parameter(
-                torch.empty((config.n_routed_experts))
+                torch.empty((config.n_routed_experts), dtype=torch.float32)
             )
         else:
             self.e_score_correction_bias = None

From 55381a46ac6bf7d9b0e39d0673f8318feea2ff7e Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Sat, 19 Jul 2025 22:41:30 -0700
Subject: [PATCH 067/396] Revert "[Feature] Simple Improve Health Check
 Mechanism for Production-Grade Stability" (#8181)

---
 python/sglang/srt/entrypoints/engine.py       |  4 --
 python/sglang/srt/entrypoints/http_server.py  | 57 +++----------------
 python/sglang/srt/managers/io_struct.py       |  6 --
 python/sglang/srt/managers/scheduler.py       |  3 -
 .../sglang/srt/managers/tokenizer_manager.py  |  7 +--
 python/sglang/srt/utils.py                    | 16 ------
 6 files changed, 11 insertions(+), 82 deletions(-)

diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 957d85aa5998..990fac9a12a7 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -65,7 +65,6 @@
 from sglang.srt.torch_memory_saver_adapter import TorchMemorySaverAdapter
 from sglang.srt.utils import (
     MultiprocessingSerializer,
-    ServerStatus,
     assert_pkg_version,
     configure_logger,
     get_zmq_socket,
@@ -74,7 +73,6 @@
     launch_dummy_health_check_server,
     maybe_set_triton_cache_manager,
     prepare_model_and_tokenizer,
-    report_health,
     set_prometheus_multiproc_dir,
     set_ulimit,
 )
@@ -663,7 +661,6 @@ def _set_envs_and_config(server_args: ServerArgs):
     def sigchld_handler(signum, frame):
         pid, exitcode = os.waitpid(0, os.WNOHANG)
         if exitcode != 0:
-            report_health(ServerStatus.Crashed, server_args.host, server_args.port)
             logger.warning(
                 f"Child process unexpectedly failed with {exitcode=}. {pid=}"
             )
@@ -677,7 +674,6 @@ def sigquit_handler(signum, frame):
         logger.error(
             "Received sigquit from a child process. It usually means the child failed."
         )
-        report_health(ServerStatus.Crashed, server_args.host, server_args.port)
         kill_process_tree(os.getpid())
 
     signal.signal(signal.SIGQUIT, sigquit_handler)
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index f880c4aa5cd4..43819e1a65e4 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -77,7 +77,6 @@
     ParseFunctionCallReq,
     ProfileReqInput,
     ReleaseMemoryOccupationReqInput,
-    ReportHealthInput,
     ResumeMemoryOccupationReqInput,
     SeparateReasoningReqInput,
     SetInternalStateReq,
@@ -94,7 +93,6 @@
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.server_args import ServerArgs
 from sglang.srt.utils import (
-    ServerStatus,
     add_api_key_middleware,
     add_prometheus_middleware,
     delete_directory,
@@ -222,31 +220,8 @@ async def validate_json_request(raw_request: Request):
 
 @app.get("/health")
 async def health() -> Response:
-    """Check the status of the http server."""
-    code = HTTPStatus.SERVICE_UNAVAILABLE.value
-    if _global_state.tokenizer_manager.server_status == ServerStatus.Up:
-        code = HTTPStatus.OK.value
-    return Response(
-        status_code=code,
-        content=json.dumps(
-            {"status": _global_state.tokenizer_manager.server_status.value}
-        ),
-    )
-
-
-@app.post("/health")
-async def health_update(obj: ReportHealthInput, request: Request) -> Response:
-    """Update the Status of the http server."""
-    try:
-        server_status = ServerStatus(obj.status)
-        _global_state.tokenizer_manager.server_status = server_status
-        if server_status != ServerStatus.Up:
-            return Response(
-                status_code=HTTPStatus.SERVICE_UNAVAILABLE.value, content=obj.msg
-            )
-    except Exception as e:
-        logger.error(e)
-        return Response(status_code=HTTPStatus.SERVICE_UNAVAILABLE.value)
+    """Check the health of the http server."""
+    return Response(status_code=200)
 
 
 @app.get("/health_generate")
@@ -281,7 +256,7 @@ async def gen():
         if _global_state.tokenizer_manager.last_receive_tstamp > tic:
             task.cancel()
             _global_state.tokenizer_manager.rid_to_state.pop(rid, None)
-            _global_state.tokenizer_manager.server_status = ServerStatus.Up
+            _global_state.tokenizer_manager.health_check_failed = False
             return Response(status_code=200)
 
     task.cancel()
@@ -295,7 +270,7 @@ async def gen():
         f"last_heartbeat time: {last_receive_time}"
     )
     _global_state.tokenizer_manager.rid_to_state.pop(rid, None)
-    _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
+    _global_state.tokenizer_manager.health_check_failed = True
     return Response(status_code=503)
 
 
@@ -1047,13 +1022,9 @@ def _execute_server_warmup(
                 headers=headers,
                 timeout=600,
             )
-            if res.status_code == 200:
-                _global_state.tokenizer_manager.server_status = ServerStatus.Up
-            else:
-                _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
-            logger.info(f"{res}")
+            assert res.status_code == 200, f"{res}"
         else:
-            logger.info(f"Start of prefill/decode warmup ...")
+            logger.info(f"Start of prefill warmup ...")
             json_data = {
                 "sampling_params": {
                     "temperature": 0.0,
@@ -1075,25 +1046,15 @@ def _execute_server_warmup(
                 headers=headers,
                 timeout=1800,  # because of deep gemm precache is very long if not precache.
             )
-            if res.status_code == 200:
-                logger.info(
-                    f"End of prefill disaggregation mode warmup with status {res.status_code}, resp: {res.json()}"
-                )
-                _global_state.tokenizer_manager.server_status = ServerStatus.Up
-            else:
-                logger.info(
-                    "Prefill disaggregation mode warm Up Failed, status code: {}".format(
-                        res.status_code
-                    )
-                )
-                _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
+            logger.info(
+                f"End of prefill warmup with status {res.status_code}, resp: {res.json()}"
+            )
 
     except Exception:
         last_traceback = get_exception_traceback()
         if pipe_finish_writer is not None:
             pipe_finish_writer.send(last_traceback)
         logger.error(f"Initialization failed. warmup error: {last_traceback}")
-        _global_state.tokenizer_manager.server_status = ServerStatus.Crashed
         kill_process_tree(os.getpid())
         return False
 
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index b8332fdf656c..8e1d1075aab6 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -1083,9 +1083,3 @@ class LoRAUpdateResult:
 
 
 LoadLoRAAdapterReqOutput = UnloadLoRAAdapterReqOutput = LoRAUpdateResult
-
-
-@dataclass
-class ReportHealthInput:
-    status: str
-    msg: Optional[str] = ""
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index aee1596dbe9c..e6dd80d717ad 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -143,7 +143,6 @@
 from sglang.srt.utils import (
     DeepEPMode,
     DynamicGradMode,
-    ServerStatus,
     broadcast_pyobj,
     configure_gc_logger,
     configure_logger,
@@ -155,7 +154,6 @@
     kill_itself_when_parent_died,
     point_to_point_pyobj,
     pyspy_dump_schedulers,
-    report_health,
     require_mlp_sync,
     require_mlp_tp_gather,
     set_gpu_proc_affinity,
@@ -2966,5 +2964,4 @@ def run_scheduler_process(
     except Exception:
         traceback = get_exception_traceback()
         logger.error(f"Scheduler hit an exception: {traceback}")
-        report_health(ServerStatus.Crashed, server_args.host, ServerArgs.port)
         parent_process.send_signal(signal.SIGQUIT)
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index a0f66419e768..631d23f17335 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -116,7 +116,6 @@
 from sglang.srt.sampling.sampling_params import SamplingParams
 from sglang.srt.server_args import PortArgs, ServerArgs
 from sglang.srt.utils import (
-    ServerStatus,
     dataclass_to_string_truncated,
     get_bool_env_var,
     get_zmq_socket,
@@ -174,9 +173,6 @@ def __init__(
         server_args: ServerArgs,
         port_args: PortArgs,
     ):
-        # Server Status
-        self.server_status = ServerStatus.Starting
-
         # Parse args
         self.server_args = server_args
         self.enable_metrics = server_args.enable_metrics
@@ -255,6 +251,7 @@ def __init__(
         # Store states
         self.no_create_loop = False
         self.rid_to_state: Dict[str, ReqState] = {}
+        self.health_check_failed = False
         self.gracefully_exit = False
         self.last_receive_tstamp = 0
         self.dump_requests_folder = ""  # By default do not dump
@@ -1335,7 +1332,7 @@ async def sigterm_watchdog(self):
         while True:
             remain_num_req = len(self.rid_to_state)
 
-            if not self.server_status.is_healthy():
+            if self.health_check_failed:
                 # if health check failed, we should exit immediately
                 logger.error(
                     "Signal SIGTERM received while health check failed. Exiting... remaining number of requests: %d",
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 03565a018c34..23960a8c1123 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -93,22 +93,6 @@
 HIP_FP8_E4M3_FNUZ_MAX = 224.0
 
 
-class ServerStatus(Enum):
-    Up = "Up"
-    Starting = "Starting"
-    UnHealthy = "UnHealthy"
-    Crashed = "Crashed"
-
-    def is_healthy(self) -> bool:
-        return self == ServerStatus.Up
-
-
-def report_health(status: ServerStatus, host: str, http_port: int, msg: str = ""):
-    requests.post(
-        f"http://{host}:{http_port}/health", json={"status": status.value, "msg": msg}
-    )
-
-
 # https://pytorch.org/docs/stable/notes/hip.html#checking-for-hip
 def is_hip() -> bool:
     return torch.version.hip is not None

From 2db6719cc5bb1de607c07bcefe06d915fd0ca45d Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sat, 19 Jul 2025 22:55:45 -0700
Subject: [PATCH 068/396] feat: update nccl 2.27.6 (#8182)

---
 docker/Dockerfile       | 2 +-
 docker/Dockerfile.gb200 | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index bc0eb095e917..97be3625af7c 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -59,7 +59,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
     esac \
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
-      python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.5 --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps ; \
       python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.6/sgl_kernel-0.2.6+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
index 1e0e665234f1..b4da2c5ddb84 100644
--- a/docker/Dockerfile.gb200
+++ b/docker/Dockerfile.gb200
@@ -69,7 +69,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
     esac \
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
-      python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.5 --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps ; \
       python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.4/sgl_kernel-0.2.4+cu128-cp39-abi3-manylinux2014_$(uname -m).whl --force-reinstall --no-deps ; \
     fi
 

From 83c104b18823ea52dba4e90e6a3ca6c54ca037a4 Mon Sep 17 00:00:00 2001
From: Praneth Paruchuri <34855725+ppraneth@users.noreply.github.com>
Date: Sun, 20 Jul 2025 11:37:47 +0530
Subject: [PATCH 069/396] Feat: Support for Persimmon Model (#7983)

---
 docs/supported_models/generative_models.md |   1 +
 python/sglang/srt/layers/activation.py     |  12 +
 python/sglang/srt/models/persimmon.py      | 330 +++++++++++++++++++++
 test/srt/models/test_generation_models.py  |   1 +
 4 files changed, 344 insertions(+)
 create mode 100644 python/sglang/srt/models/persimmon.py

diff --git a/docs/supported_models/generative_models.md b/docs/supported_models/generative_models.md
index 0096d6e0932d..8aeac1ae4dbc 100644
--- a/docs/supported_models/generative_models.md
+++ b/docs/supported_models/generative_models.md
@@ -45,5 +45,6 @@ in the GitHub search bar.
 | **SmolLM** (135M–1.7B)            | `HuggingFaceTB/SmolLM-1.7B`                      | Hugging Face’s ultra-small LLM series (135M–1.7B params) offering surprisingly strong results, enabling advanced AI on mobile/edge devices. |
 | **GLM-4** (Multilingual 9B)        | `ZhipuAI/glm-4-9b-chat`                          | Zhipu’s GLM-4 series (up to 9B parameters) – open multilingual models with support for 1M-token context and even a 5.6B multimodal variant (Phi-4V). |
 | **MiMo** (7B series)               | `XiaomiMiMo/MiMo-7B-RL`                         | Xiaomi's reasoning-optimized model series, leverages Multiple-Token Prediction for faster inference. |
+| **Persimmon** (8B)               | `adept/persimmon-8b-chat`                         | Adept’s open 8B model with a 16K context window and fast inference; trained for broad usability and licensed under Apache 2.0. |
 | **Granite 3.0, 3.1** (IBM)               | `ibm-granite/granite-3.1-8b-instruct`                          | IBM's open dense foundation models optimized for reasoning, code, and business AI use cases. Integrated with Red Hat and watsonx systems. |
 | **Granite 3.0 MoE** (IBM)               | `ibm-granite/granite-3.0-3b-a800m-instruct`                          | IBM’s Mixture-of-Experts models offering strong performance with cost-efficiency. MoE expert routing designed for enterprise deployment at scale. |
diff --git a/python/sglang/srt/layers/activation.py b/python/sglang/srt/layers/activation.py
index 056c5693e466..63e9fcdd3cc9 100644
--- a/python/sglang/srt/layers/activation.py
+++ b/python/sglang/srt/layers/activation.py
@@ -110,6 +110,17 @@ def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
         return self.forward_native(x)
 
 
+class ReLU2(nn.Module):
+    """
+    Applies the squared Rectified Linear Unit function.
+    y = max(0, x)^2
+    """
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = F.relu(x)
+        return x * x
+
+
 class QuickGELU(CustomOp):
     def forward_native(self, x: torch.Tensor) -> torch.Tensor:
         return x * torch.sigmoid(1.702 * x)
@@ -165,6 +176,7 @@ def weight_loader(self, param: nn.Parameter, loaded_weight: torch.Tensor):
     "gelu": nn.GELU(),
     "gelu_pytorch_tanh": nn.GELU(approximate="tanh"),
     "gelu_new": NewGELU(),
+    "relu2": ReLU2(),
 }
 
 
diff --git a/python/sglang/srt/models/persimmon.py b/python/sglang/srt/models/persimmon.py
new file mode 100644
index 000000000000..5f8885e716e5
--- /dev/null
+++ b/python/sglang/srt/models/persimmon.py
@@ -0,0 +1,330 @@
+from collections.abc import Iterable
+from typing import Optional
+
+import torch
+from torch import nn
+from transformers import PersimmonConfig
+
+from sglang.srt.distributed import get_pp_group, get_tensor_model_parallel_world_size
+from sglang.srt.layers.activation import get_act_fn
+from sglang.srt.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
+from sglang.srt.layers.quantization import QuantizationConfig
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.utils import PPMissingLayer
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.model_loader.weight_utils import default_weight_loader
+from sglang.srt.utils import add_prefix, make_layers
+
+
+class PersimmonMLP(nn.Module):
+
+    def __init__(
+        self, config: PersimmonConfig, quant_config: Optional[QuantizationConfig] = None
+    ):
+        super().__init__()
+        self.dense_h_to_4h = ColumnParallelLinear(
+            config.hidden_size, config.intermediate_size, quant_config=quant_config
+        )
+        self.dense_4h_to_h = RowParallelLinear(
+            config.intermediate_size, config.hidden_size, quant_config=quant_config
+        )
+        self.act = get_act_fn(config.hidden_act)
+
+    def forward(self, hidden_states) -> torch.Tensor:
+        hidden_states, _ = self.dense_h_to_4h(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.dense_4h_to_h(hidden_states)
+        return hidden_states
+
+
+class PersimmonAttention(nn.Module):
+
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        layer_id: int = 0,
+    ):
+        super().__init__()
+        self.config = config
+        tensor_parallel_world_size = get_tensor_model_parallel_world_size()
+
+        self.hidden_size = config.hidden_size
+        self.total_num_heads = config.num_attention_heads
+        self.num_heads = self.total_num_heads // tensor_parallel_world_size
+        self.head_dim = self.hidden_size // self.total_num_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.partial_rotary_factor = config.partial_rotary_factor
+        self.is_causal = True
+
+        assert (self.head_dim * self.total_num_heads) == self.hidden_size
+        assert self.total_num_heads % tensor_parallel_world_size == 0
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            bias=True,
+            quant_config=quant_config,
+        )
+        self.dense = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=True,
+            quant_config=quant_config,
+        )
+        self.is_qk_layernorm = config.qk_layernorm
+
+        if self.is_qk_layernorm:
+            self.q_layernorm = nn.LayerNorm(self.head_dim)
+            self.k_layernorm = nn.LayerNorm(self.head_dim)
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            partial_rotary_factor=self.partial_rotary_factor,
+        )
+        self.scaling = self.head_dim**-0.5
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_heads,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=add_prefix("attn", prefix),
+        )
+
+    def _split_heads(self, x: torch.Tensor) -> torch.Tensor:
+        seq_length = x.shape[0]
+        return x.view(seq_length, self.num_heads, self.head_dim)
+
+    def _merge_heads(self, x: torch.Tensor) -> torch.Tensor:
+        seq_length = x.shape[0]
+        return x.view(seq_length, self.num_heads * self.head_dim)
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        forward_batch: ForwardBatch,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.chunk(chunks=3, dim=-1)
+
+        if self.is_qk_layernorm:
+            q = self._split_heads(q)
+            k = self._split_heads(k)
+
+            q = self.q_layernorm(q)
+            k = self.k_layernorm(k)
+
+            q = self._merge_heads(q)
+            k = self._merge_heads(k)
+
+        q, k = self.rotary_emb(position_ids, q, k)
+        attn_output = self.attn(q, k, v, forward_batch=forward_batch)
+        output, _ = self.dense(attn_output)
+        return output
+
+
+class PersimmonDecoderLayer(nn.Module):
+
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        idx: int = 0,
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = PersimmonAttention(
+            config=config,
+            quant_config=quant_config,
+            prefix=add_prefix("self_attn", prefix),
+            layer_id=idx,
+        )
+        self.mlp = PersimmonMLP(config, quant_config=quant_config)
+        self.input_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+        self.post_attention_layernorm = nn.LayerNorm(
+            config.hidden_size, eps=config.layer_norm_eps
+        )
+
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        forward_batch: ForwardBatch,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        hidden_states = self.self_attn(
+            position_ids=position_ids,
+            hidden_states=hidden_states,
+            forward_batch=forward_batch,
+        )
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+
+        hidden_states = hidden_states + residual
+
+        outputs = hidden_states
+        return outputs
+
+
+class PersimmonModel(nn.Module):
+
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.pp_group = get_pp_group()
+
+        if self.pp_group.is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size, config.hidden_size
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.layers, self.start_layer, self.end_layer = make_layers(
+            config.num_hidden_layers,
+            lambda idx, prefix: PersimmonDecoderLayer(
+                config, quant_config=quant_config, prefix=prefix, idx=idx
+            ),
+            prefix="model.layers",
+            pp_rank=self.pp_group.rank_in_group,
+            pp_size=self.pp_group.world_size,
+        )
+
+        if self.pp_group.is_last_rank:
+            self.final_layernorm = nn.LayerNorm(
+                config.hidden_size, eps=config.layer_norm_eps
+            )
+        else:
+            self.final_layernorm = PPMissingLayer()
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        forward_batch: ForwardBatch,
+        positions: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        if self.pp_group.is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.get_input_embeddings(input_ids)
+        else:
+            hidden_states = forward_batch.pp_input_hidden
+        for i in range(self.start_layer, self.end_layer):
+            layer = self.layers[i]
+            hidden_states = layer(
+                position_ids=positions,
+                forward_batch=forward_batch,
+                hidden_states=hidden_states,
+            )
+        return self.final_layernorm(hidden_states)
+
+
+class PersimmonForCausalLM(nn.Module):
+
+    def __init__(
+        self,
+        config: PersimmonConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.quant_config = quant_config
+        self.model = PersimmonModel(
+            config=config, quant_config=quant_config, prefix=add_prefix("model", prefix)
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+        self.logits_processor = LogitsProcessor(config)
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> LogitsProcessorOutput:
+        hidden_states = self.model(
+            input_ids=input_ids,
+            forward_batch=forward_batch,
+            positions=positions,
+            inputs_embeds=inputs_embeds,
+        )
+
+        return self.logits_processor(
+            input_ids, hidden_states, self.lm_head, forward_batch
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        params_dict = dict(self.named_parameters())
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if name not in params_dict:
+                if name == "lm_head.weight":
+                    continue
+                print(f"Warning: weight {name} not found in model.")
+                continue
+            param = params_dict[name]
+            if "query_key_value" in name:
+                output_dim = getattr(param, "output_dim", None)
+                if output_dim is not None:
+                    loaded_weight_shape = loaded_weight.shape
+                    num_heads = self.config.num_attention_heads
+                    loaded_weight = loaded_weight.view(
+                        loaded_weight_shape[:output_dim]
+                        + (num_heads, 3, -1)
+                        + loaded_weight_shape[output_dim + 1 :]
+                    )
+                    loaded_weight = loaded_weight.transpose(output_dim, output_dim + 1)
+                    loaded_weight = loaded_weight.reshape(loaded_weight_shape)
+            weight_loader = getattr(param, "weight_loader", default_weight_loader)
+            weight_loader(param, loaded_weight)
+
+
+EntryClass = PersimmonForCausalLM
diff --git a/test/srt/models/test_generation_models.py b/test/srt/models/test_generation_models.py
index bfeb00c8d809..daa99001d7b7 100644
--- a/test/srt/models/test_generation_models.py
+++ b/test/srt/models/test_generation_models.py
@@ -66,6 +66,7 @@ class ModelCase:
     ),
     ModelCase("openai-community/gpt2"),
     ModelCase("microsoft/phi-1_5", trust_remote_code=True),
+    ModelCase("adept/persimmon-8b-chat"),
     ModelCase("microsoft/Phi-3-small-8k-instruct", trust_remote_code=True),
     ModelCase("allenai/OLMo-2-1124-7B-Instruct", skip_long_prompt=True),
     ModelCase("ibm-granite/granite-3.0-2b-instruct", skip_long_prompt=True),

From bbcfbc1a024980e76926c114ca2daf8cec9098a2 Mon Sep 17 00:00:00 2001
From: Qiaolin Yu <liin1211@outlook.com>
Date: Sun, 20 Jul 2025 02:30:08 -0400
Subject: [PATCH 070/396] feat: add h200 tp 16 kimi k2 moe config (#8183)

---
 ...dtype=fp8_w8a8,block_shape=[128, 128].json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json
new file mode 100644
index 000000000000..358873315860
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=384,N=128,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128, 128].json	
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}

From 99aefa037edf44b855a22bf350adac7c559cded8 Mon Sep 17 00:00:00 2001
From: Jay Zhou <50169346+Ja1Zhou@users.noreply.github.com>
Date: Sun, 20 Jul 2025 00:28:06 -0700
Subject: [PATCH 071/396] Fix eagle3 cuda graph (#8163)

---
 .../eagle_draft_extend_cuda_graph_runner.py            | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py b/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
index b4ffde60ef62..7057c502da0e 100644
--- a/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
+++ b/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
@@ -84,7 +84,15 @@ def __init__(self, eagle_worker: EAGLEWorker):
                 self.hidden_states = torch.zeros(
                     (
                         self.max_num_token,
-                        self.model_runner.model_config.hidden_size * 3,
+                        (
+                            self.model_runner.model_config.hf_config.target_hidden_size
+                            * 3
+                            if hasattr(
+                                self.model_runner.model_config.hf_config,
+                                "target_hidden_size",
+                            )
+                            else self.model_runner.model_config.hidden_size * 3
+                        ),
                     ),
                     dtype=self.model_runner.dtype,
                 )

From 750838adc4f9f7c8f4c9464ca92043a06197540a Mon Sep 17 00:00:00 2001
From: GuoYipin <64318822+coco-alen@users.noreply.github.com>
Date: Sun, 20 Jul 2025 22:22:54 +0800
Subject: [PATCH 072/396] fix: fix the bug of loading Internvl3 (#8067)

Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 python/sglang/srt/configs/internvl.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/python/sglang/srt/configs/internvl.py b/python/sglang/srt/configs/internvl.py
index 14b6482524db..b4ddda22773d 100644
--- a/python/sglang/srt/configs/internvl.py
+++ b/python/sglang/srt/configs/internvl.py
@@ -9,6 +9,7 @@
     LlamaConfig,
     PretrainedConfig,
     PreTrainedTokenizer,
+    Qwen2Config,
 )
 
 from sglang.utils import logger
@@ -311,6 +312,8 @@ def __init__(
             self.llm_config = LlamaConfig(**llm_config)
         elif llm_config.get("architectures")[0] == "InternLM2ForCausalLM":
             self.llm_config = InternLM2Config(**llm_config)
+        elif llm_config.get("architectures")[0] == "Qwen2ForCausalLM":
+            self.llm_config = Qwen2Config(**llm_config)
         else:
             raise ValueError(
                 "Unsupported architecture: {}".format(

From 465968b2e328623758e69801386c51d6384ac944 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Mon, 21 Jul 2025 00:27:55 +0800
Subject: [PATCH 073/396] Fix dtype error in CI (#8197)

---
 python/sglang/srt/layers/moe/topk.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index c3ae9af25d0d..a806a40520be 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -524,7 +524,7 @@ def biased_grouped_topk_gpu(
         topk_weights = torch.empty((token, topk), dtype=torch.float32, device=device)
         topk_ids = torch.empty((token, topk), dtype=torch.int32, device=device)
         aiter_biased_grouped_topk(
-            gating_output,
+            gating_output.to(dtype=torch.float32),
             correction_bias,
             topk_weights,
             topk_ids,

From 1fc455e8b65f0fcbe5d1c41ac5868667650317c9 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sun, 20 Jul 2025 10:53:42 -0700
Subject: [PATCH 074/396] [router] add ut for pd request, metrics and config
 (#8184)

---
 sgl-router/src/config/types.rs            |  649 +++++++++++--
 sgl-router/src/metrics.rs                 |  411 +++++++++
 sgl-router/src/routers/pd_types.rs        |    2 +-
 sgl-router/src/routers/request_adapter.rs | 1013 +++++++++++++++++++++
 4 files changed, 2003 insertions(+), 72 deletions(-)

diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index 6b24a5fd1f4a..5e25b2c3b218 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -214,83 +214,590 @@ impl RouterConfig {
     pub fn has_metrics(&self) -> bool {
         self.metrics.is_some()
     }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+
+    // ============= RouterConfig Tests =============
 
-    /* Commented out - no longer needed without compatibility layer
-    /// Convert to routing PolicyConfig for internal use
-    pub fn to_routing_policy_config(&self) -> ConfigResult<crate::router::PolicyConfig> {
-        match (&self.mode, &self.policy) {
-            (
-                RoutingMode::PrefillDecode {
-                    prefill_urls,
-                    decode_urls,
-                },
-                policy,
-            ) => {
-                // Map policy to PDSelectionPolicy
-                let selection_policy = match policy {
-                    PolicyConfig::Random => crate::pd_types::PDSelectionPolicy::Random,
-                    PolicyConfig::PowerOfTwo { .. } => {
-                        crate::pd_types::PDSelectionPolicy::PowerOfTwo
-                    }
-                    PolicyConfig::CacheAware { .. } => {
-                        return Err(ConfigError::IncompatibleConfig {
-                            reason: "CacheAware policy is not supported in PD disaggregated mode"
-                                .to_string(),
-                        });
-                    }
-                    PolicyConfig::RoundRobin => {
-                        return Err(ConfigError::IncompatibleConfig {
-                            reason: "RoundRobin policy is not supported in PD disaggregated mode"
-                                .to_string(),
-                        });
-                    }
-                };
-
-                Ok(crate::router::PolicyConfig::PrefillDecodeConfig {
-                    selection_policy,
-                    prefill_urls: prefill_urls.clone(),
-                    decode_urls: decode_urls.clone(),
-                    timeout_secs: self.worker_startup_timeout_secs,
-                    interval_secs: self.worker_startup_check_interval_secs,
-                })
+    #[test]
+    fn test_router_config_default() {
+        let config = RouterConfig::default();
+
+        assert!(
+            matches!(config.mode, RoutingMode::Regular { worker_urls } if worker_urls.is_empty())
+        );
+        assert!(matches!(config.policy, PolicyConfig::Random));
+        assert_eq!(config.host, "127.0.0.1");
+        assert_eq!(config.port, 3001);
+        assert_eq!(config.max_payload_size, 268_435_456);
+        assert_eq!(config.request_timeout_secs, 600);
+        assert_eq!(config.worker_startup_timeout_secs, 300);
+        assert_eq!(config.worker_startup_check_interval_secs, 10);
+        assert!(config.discovery.is_none());
+        assert!(config.metrics.is_none());
+        assert!(config.log_dir.is_none());
+        assert!(config.log_level.is_none());
+    }
+
+    #[test]
+    fn test_router_config_new() {
+        let mode = RoutingMode::Regular {
+            worker_urls: vec!["http://worker1".to_string(), "http://worker2".to_string()],
+        };
+        let policy = PolicyConfig::RoundRobin;
+
+        let config = RouterConfig::new(mode, policy);
+
+        match config.mode {
+            RoutingMode::Regular { worker_urls } => {
+                assert_eq!(worker_urls.len(), 2);
+                assert_eq!(worker_urls[0], "http://worker1");
+                assert_eq!(worker_urls[1], "http://worker2");
             }
-            (RoutingMode::Regular { .. }, PolicyConfig::Random) => {
-                Ok(crate::router::PolicyConfig::RandomConfig {
-                    timeout_secs: self.worker_startup_timeout_secs,
-                    interval_secs: self.worker_startup_check_interval_secs,
-                })
+            _ => panic!("Expected Regular mode"),
+        }
+
+        assert!(matches!(config.policy, PolicyConfig::RoundRobin));
+        // Other fields should be default
+        assert_eq!(config.host, "127.0.0.1");
+        assert_eq!(config.port, 3001);
+    }
+
+    #[test]
+    fn test_router_config_serialization() {
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec!["http://worker1".to_string()],
+            },
+            policy: PolicyConfig::Random,
+            host: "0.0.0.0".to_string(),
+            port: 8080,
+            max_payload_size: 1024,
+            request_timeout_secs: 30,
+            worker_startup_timeout_secs: 60,
+            worker_startup_check_interval_secs: 5,
+            discovery: Some(DiscoveryConfig::default()),
+            metrics: Some(MetricsConfig::default()),
+            log_dir: Some("/var/log".to_string()),
+            log_level: Some("debug".to_string()),
+        };
+
+        let json = serde_json::to_string(&config).unwrap();
+        let deserialized: RouterConfig = serde_json::from_str(&json).unwrap();
+
+        assert_eq!(config.host, deserialized.host);
+        assert_eq!(config.port, deserialized.port);
+        assert_eq!(config.max_payload_size, deserialized.max_payload_size);
+        assert!(deserialized.discovery.is_some());
+        assert!(deserialized.metrics.is_some());
+    }
+
+    // ============= RoutingMode Tests =============
+
+    #[test]
+    fn test_routing_mode_is_pd_mode() {
+        let regular = RoutingMode::Regular {
+            worker_urls: vec!["http://worker1".to_string()],
+        };
+        assert!(!regular.is_pd_mode());
+
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![("http://prefill1".to_string(), Some(8001))],
+            decode_urls: vec!["http://decode1".to_string()],
+        };
+        assert!(pd.is_pd_mode());
+    }
+
+    #[test]
+    fn test_routing_mode_worker_count() {
+        let regular = RoutingMode::Regular {
+            worker_urls: vec![
+                "http://worker1".to_string(),
+                "http://worker2".to_string(),
+                "http://worker3".to_string(),
+            ],
+        };
+        assert_eq!(regular.worker_count(), 3);
+
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![
+                ("http://prefill1".to_string(), Some(8001)),
+                ("http://prefill2".to_string(), None),
+            ],
+            decode_urls: vec![
+                "http://decode1".to_string(),
+                "http://decode2".to_string(),
+                "http://decode3".to_string(),
+            ],
+        };
+        assert_eq!(pd.worker_count(), 5);
+
+        let empty_regular = RoutingMode::Regular {
+            worker_urls: vec![],
+        };
+        assert_eq!(empty_regular.worker_count(), 0);
+    }
+
+    #[test]
+    fn test_routing_mode_serialization() {
+        // Test Regular mode
+        let regular = RoutingMode::Regular {
+            worker_urls: vec!["http://worker1".to_string()],
+        };
+        let json = serde_json::to_string(&regular).unwrap();
+        assert!(json.contains("\"type\":\"regular\""));
+        assert!(json.contains("\"worker_urls\""));
+
+        // Test PrefillDecode mode
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![("http://prefill1".to_string(), Some(8001))],
+            decode_urls: vec!["http://decode1".to_string()],
+        };
+        let json = serde_json::to_string(&pd).unwrap();
+        assert!(json.contains("\"type\":\"prefill_decode\""));
+        assert!(json.contains("\"prefill_urls\""));
+        assert!(json.contains("\"decode_urls\""));
+    }
+
+    // ============= PolicyConfig Tests =============
+
+    #[test]
+    fn test_policy_config_name() {
+        assert_eq!(PolicyConfig::Random.name(), "random");
+        assert_eq!(PolicyConfig::RoundRobin.name(), "round_robin");
+
+        let cache_aware = PolicyConfig::CacheAware {
+            cache_threshold: 0.8,
+            balance_abs_threshold: 10,
+            balance_rel_threshold: 1.5,
+            eviction_interval_secs: 300,
+            max_tree_size: 1000,
+        };
+        assert_eq!(cache_aware.name(), "cache_aware");
+
+        let power_of_two = PolicyConfig::PowerOfTwo {
+            load_check_interval_secs: 60,
+        };
+        assert_eq!(power_of_two.name(), "power_of_two");
+    }
+
+    #[test]
+    fn test_policy_config_serialization() {
+        // Test Random
+        let random = PolicyConfig::Random;
+        let json = serde_json::to_string(&random).unwrap();
+        assert_eq!(json, r#"{"type":"random"}"#);
+
+        // Test CacheAware with all parameters
+        let cache_aware = PolicyConfig::CacheAware {
+            cache_threshold: 0.8,
+            balance_abs_threshold: 10,
+            balance_rel_threshold: 1.5,
+            eviction_interval_secs: 300,
+            max_tree_size: 1000,
+        };
+        let json = serde_json::to_string(&cache_aware).unwrap();
+        assert!(json.contains("\"type\":\"cache_aware\""));
+        assert!(json.contains("\"cache_threshold\":0.8"));
+        assert!(json.contains("\"balance_abs_threshold\":10"));
+
+        // Test PowerOfTwo
+        let power_of_two = PolicyConfig::PowerOfTwo {
+            load_check_interval_secs: 60,
+        };
+        let json = serde_json::to_string(&power_of_two).unwrap();
+        assert!(json.contains("\"type\":\"power_of_two\""));
+        assert!(json.contains("\"load_check_interval_secs\":60"));
+    }
+
+    #[test]
+    fn test_cache_aware_parameters() {
+        let cache_aware = PolicyConfig::CacheAware {
+            cache_threshold: 0.75,
+            balance_abs_threshold: 20,
+            balance_rel_threshold: 2.0,
+            eviction_interval_secs: 600,
+            max_tree_size: 5000,
+        };
+
+        match cache_aware {
+            PolicyConfig::CacheAware {
+                cache_threshold,
+                balance_abs_threshold,
+                balance_rel_threshold,
+                eviction_interval_secs,
+                max_tree_size,
+            } => {
+                assert!((cache_threshold - 0.75).abs() < 0.0001);
+                assert_eq!(balance_abs_threshold, 20);
+                assert!((balance_rel_threshold - 2.0).abs() < 0.0001);
+                assert_eq!(eviction_interval_secs, 600);
+                assert_eq!(max_tree_size, 5000);
             }
-            (RoutingMode::Regular { .. }, PolicyConfig::RoundRobin) => {
-                Ok(crate::router::PolicyConfig::RoundRobinConfig {
-                    timeout_secs: self.worker_startup_timeout_secs,
-                    interval_secs: self.worker_startup_check_interval_secs,
-                })
+            _ => panic!("Expected CacheAware"),
+        }
+    }
+
+    #[test]
+    fn test_power_of_two_parameters() {
+        let power_of_two = PolicyConfig::PowerOfTwo {
+            load_check_interval_secs: 120,
+        };
+
+        match power_of_two {
+            PolicyConfig::PowerOfTwo {
+                load_check_interval_secs,
+            } => {
+                assert_eq!(load_check_interval_secs, 120);
             }
-            (
-                RoutingMode::Regular { .. },
-                PolicyConfig::CacheAware {
-                    cache_threshold,
-                    balance_abs_threshold,
-                    balance_rel_threshold,
-                    eviction_interval_secs,
-                    max_tree_size,
-                },
-            ) => Ok(crate::router::PolicyConfig::CacheAwareConfig {
-                cache_threshold: *cache_threshold,
-                balance_abs_threshold: *balance_abs_threshold,
-                balance_rel_threshold: *balance_rel_threshold,
-                eviction_interval_secs: *eviction_interval_secs,
-                max_tree_size: *max_tree_size,
-                timeout_secs: self.worker_startup_timeout_secs,
-                interval_secs: self.worker_startup_check_interval_secs,
+            _ => panic!("Expected PowerOfTwo"),
+        }
+    }
+
+    // ============= DiscoveryConfig Tests =============
+
+    #[test]
+    fn test_discovery_config_default() {
+        let config = DiscoveryConfig::default();
+
+        assert!(!config.enabled);
+        assert!(config.namespace.is_none());
+        assert_eq!(config.port, 8000);
+        assert_eq!(config.check_interval_secs, 60);
+        assert!(config.selector.is_empty());
+        assert!(config.prefill_selector.is_empty());
+        assert!(config.decode_selector.is_empty());
+        assert_eq!(config.bootstrap_port_annotation, "sglang.ai/bootstrap-port");
+    }
+
+    #[test]
+    fn test_discovery_config_with_selectors() {
+        let mut selector = HashMap::new();
+        selector.insert("app".to_string(), "sglang".to_string());
+        selector.insert("role".to_string(), "worker".to_string());
+
+        let config = DiscoveryConfig {
+            enabled: true,
+            namespace: Some("default".to_string()),
+            port: 9000,
+            check_interval_secs: 30,
+            selector: selector.clone(),
+            prefill_selector: selector.clone(),
+            decode_selector: selector.clone(),
+            bootstrap_port_annotation: "custom.io/port".to_string(),
+        };
+
+        assert!(config.enabled);
+        assert_eq!(config.namespace, Some("default".to_string()));
+        assert_eq!(config.port, 9000);
+        assert_eq!(config.selector.len(), 2);
+        assert_eq!(config.selector.get("app"), Some(&"sglang".to_string()));
+    }
+
+    #[test]
+    fn test_discovery_config_namespace() {
+        // Test None namespace (all namespaces)
+        let config = DiscoveryConfig {
+            namespace: None,
+            ..Default::default()
+        };
+        assert!(config.namespace.is_none());
+
+        // Test specific namespace
+        let config = DiscoveryConfig {
+            namespace: Some("production".to_string()),
+            ..Default::default()
+        };
+        assert_eq!(config.namespace, Some("production".to_string()));
+    }
+
+    // ============= MetricsConfig Tests =============
+
+    #[test]
+    fn test_metrics_config_default() {
+        let config = MetricsConfig::default();
+
+        assert_eq!(config.port, 29000);
+        assert_eq!(config.host, "127.0.0.1");
+    }
+
+    #[test]
+    fn test_metrics_config_custom() {
+        let config = MetricsConfig {
+            port: 9090,
+            host: "0.0.0.0".to_string(),
+        };
+
+        assert_eq!(config.port, 9090);
+        assert_eq!(config.host, "0.0.0.0");
+    }
+
+    // ============= RouterConfig Utility Methods Tests =============
+
+    #[test]
+    fn test_mode_type() {
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![],
+            },
+            ..Default::default()
+        };
+        assert_eq!(config.mode_type(), "regular");
+
+        let config = RouterConfig {
+            mode: RoutingMode::PrefillDecode {
+                prefill_urls: vec![],
+                decode_urls: vec![],
+            },
+            ..Default::default()
+        };
+        assert_eq!(config.mode_type(), "prefill_decode");
+    }
+
+    #[test]
+    fn test_has_service_discovery() {
+        let config = RouterConfig::default();
+        assert!(!config.has_service_discovery());
+
+        let config = RouterConfig {
+            discovery: Some(DiscoveryConfig {
+                enabled: false,
+                ..Default::default()
             }),
-            (RoutingMode::Regular { .. }, PolicyConfig::PowerOfTwo { .. }) => {
-                Err(ConfigError::IncompatibleConfig {
-                    reason: "PowerOfTwo policy is only supported in PD disaggregated mode"
-                        .to_string(),
-                })
+            ..Default::default()
+        };
+        assert!(!config.has_service_discovery());
+
+        let config = RouterConfig {
+            discovery: Some(DiscoveryConfig {
+                enabled: true,
+                ..Default::default()
+            }),
+            ..Default::default()
+        };
+        assert!(config.has_service_discovery());
+    }
+
+    #[test]
+    fn test_has_metrics() {
+        let config = RouterConfig::default();
+        assert!(!config.has_metrics());
+
+        let config = RouterConfig {
+            metrics: Some(MetricsConfig::default()),
+            ..Default::default()
+        };
+        assert!(config.has_metrics());
+    }
+
+    // ============= Edge Cases =============
+
+    #[test]
+    fn test_large_worker_lists() {
+        let large_urls: Vec<String> = (0..1000).map(|i| format!("http://worker{}", i)).collect();
+
+        let mode = RoutingMode::Regular {
+            worker_urls: large_urls.clone(),
+        };
+
+        assert_eq!(mode.worker_count(), 1000);
+
+        // Test serialization with large list
+        let config = RouterConfig {
+            mode,
+            ..Default::default()
+        };
+
+        let json = serde_json::to_string(&config).unwrap();
+        let deserialized: RouterConfig = serde_json::from_str(&json).unwrap();
+
+        match deserialized.mode {
+            RoutingMode::Regular { worker_urls } => {
+                assert_eq!(worker_urls.len(), 1000);
             }
+            _ => panic!("Expected Regular mode"),
         }
     }
-    */
+
+    #[test]
+    fn test_unicode_in_config() {
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec!["http://работник1".to_string(), "http://工作者2".to_string()],
+            },
+            log_dir: Some("/日志/目录".to_string()),
+            ..Default::default()
+        };
+
+        let json = serde_json::to_string(&config).unwrap();
+        let deserialized: RouterConfig = serde_json::from_str(&json).unwrap();
+
+        match deserialized.mode {
+            RoutingMode::Regular { worker_urls } => {
+                assert_eq!(worker_urls[0], "http://работник1");
+                assert_eq!(worker_urls[1], "http://工作者2");
+            }
+            _ => panic!("Expected Regular mode"),
+        }
+
+        assert_eq!(deserialized.log_dir, Some("/日志/目录".to_string()));
+    }
+
+    #[test]
+    fn test_empty_string_fields() {
+        let config = RouterConfig {
+            host: "".to_string(),
+            log_dir: Some("".to_string()),
+            log_level: Some("".to_string()),
+            ..Default::default()
+        };
+
+        assert_eq!(config.host, "");
+        assert_eq!(config.log_dir, Some("".to_string()));
+        assert_eq!(config.log_level, Some("".to_string()));
+    }
+
+    // ============= Complex Configuration Tests =============
+
+    #[test]
+    fn test_full_pd_mode_config() {
+        let config = RouterConfig {
+            mode: RoutingMode::PrefillDecode {
+                prefill_urls: vec![
+                    ("http://prefill1:8000".to_string(), Some(8001)),
+                    ("http://prefill2:8000".to_string(), None),
+                ],
+                decode_urls: vec![
+                    "http://decode1:8000".to_string(),
+                    "http://decode2:8000".to_string(),
+                ],
+            },
+            policy: PolicyConfig::PowerOfTwo {
+                load_check_interval_secs: 30,
+            },
+            host: "0.0.0.0".to_string(),
+            port: 3000,
+            max_payload_size: 1048576,
+            request_timeout_secs: 120,
+            worker_startup_timeout_secs: 60,
+            worker_startup_check_interval_secs: 5,
+            discovery: Some(DiscoveryConfig {
+                enabled: true,
+                namespace: Some("sglang".to_string()),
+                ..Default::default()
+            }),
+            metrics: Some(MetricsConfig {
+                port: 9090,
+                host: "0.0.0.0".to_string(),
+            }),
+            log_dir: Some("/var/log/sglang".to_string()),
+            log_level: Some("info".to_string()),
+        };
+
+        assert!(config.mode.is_pd_mode());
+        assert_eq!(config.mode.worker_count(), 4);
+        assert_eq!(config.policy.name(), "power_of_two");
+        assert!(config.has_service_discovery());
+        assert!(config.has_metrics());
+    }
+
+    #[test]
+    fn test_full_regular_mode_config() {
+        let mut selector = HashMap::new();
+        selector.insert("app".to_string(), "sglang".to_string());
+
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![
+                    "http://worker1:8000".to_string(),
+                    "http://worker2:8000".to_string(),
+                    "http://worker3:8000".to_string(),
+                ],
+            },
+            policy: PolicyConfig::CacheAware {
+                cache_threshold: 0.9,
+                balance_abs_threshold: 5,
+                balance_rel_threshold: 1.2,
+                eviction_interval_secs: 600,
+                max_tree_size: 10000,
+            },
+            host: "0.0.0.0".to_string(),
+            port: 3001,
+            max_payload_size: 536870912,
+            request_timeout_secs: 300,
+            worker_startup_timeout_secs: 180,
+            worker_startup_check_interval_secs: 15,
+            discovery: Some(DiscoveryConfig {
+                enabled: true,
+                namespace: None,
+                port: 8080,
+                check_interval_secs: 45,
+                selector,
+                ..Default::default()
+            }),
+            metrics: Some(MetricsConfig::default()),
+            log_dir: None,
+            log_level: Some("debug".to_string()),
+        };
+
+        assert!(!config.mode.is_pd_mode());
+        assert_eq!(config.mode.worker_count(), 3);
+        assert_eq!(config.policy.name(), "cache_aware");
+        assert!(config.has_service_discovery());
+        assert!(config.has_metrics());
+    }
+
+    #[test]
+    fn test_config_with_all_options() {
+        let mut selectors = HashMap::new();
+        selectors.insert("env".to_string(), "prod".to_string());
+        selectors.insert("version".to_string(), "v1".to_string());
+
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec!["http://worker1".to_string()],
+            },
+            policy: PolicyConfig::RoundRobin,
+            host: "::1".to_string(), // IPv6
+            port: 8888,
+            max_payload_size: 1024 * 1024 * 512, // 512MB
+            request_timeout_secs: 900,
+            worker_startup_timeout_secs: 600,
+            worker_startup_check_interval_secs: 20,
+            discovery: Some(DiscoveryConfig {
+                enabled: true,
+                namespace: Some("production".to_string()),
+                port: 8443,
+                check_interval_secs: 120,
+                selector: selectors.clone(),
+                prefill_selector: selectors.clone(),
+                decode_selector: selectors,
+                bootstrap_port_annotation: "mycompany.io/bootstrap".to_string(),
+            }),
+            metrics: Some(MetricsConfig {
+                port: 9999,
+                host: "::".to_string(), // IPv6 any
+            }),
+            log_dir: Some("/opt/logs/sglang".to_string()),
+            log_level: Some("trace".to_string()),
+        };
+
+        assert!(config.has_service_discovery());
+        assert!(config.has_metrics());
+        assert_eq!(config.mode_type(), "regular");
+
+        // Test round-trip serialization
+        let json = serde_json::to_string_pretty(&config).unwrap();
+        let deserialized: RouterConfig = serde_json::from_str(&json).unwrap();
+
+        assert_eq!(deserialized.host, "::1");
+        assert_eq!(deserialized.port, 8888);
+        assert_eq!(
+            deserialized.discovery.unwrap().namespace,
+            Some("production".to_string())
+        );
+    }
 }
diff --git a/sgl-router/src/metrics.rs b/sgl-router/src/metrics.rs
index 76e952a03736..78a06de44e45 100644
--- a/sgl-router/src/metrics.rs
+++ b/sgl-router/src/metrics.rs
@@ -322,3 +322,414 @@ impl RouterMetrics {
         .set(count as f64);
     }
 }
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use std::net::TcpListener;
+
+    // ============= PrometheusConfig Tests =============
+
+    #[test]
+    fn test_prometheus_config_default() {
+        let config = PrometheusConfig::default();
+        assert_eq!(config.port, 29000);
+        assert_eq!(config.host, "0.0.0.0");
+    }
+
+    #[test]
+    fn test_prometheus_config_custom() {
+        let config = PrometheusConfig {
+            port: 8080,
+            host: "127.0.0.1".to_string(),
+        };
+        assert_eq!(config.port, 8080);
+        assert_eq!(config.host, "127.0.0.1");
+    }
+
+    #[test]
+    fn test_prometheus_config_clone() {
+        let config = PrometheusConfig {
+            port: 9090,
+            host: "192.168.1.1".to_string(),
+        };
+        let cloned = config.clone();
+        assert_eq!(cloned.port, config.port);
+        assert_eq!(cloned.host, config.host);
+    }
+
+    // ============= IP Address Parsing Tests =============
+
+    #[test]
+    fn test_valid_ipv4_parsing() {
+        let test_cases = vec!["127.0.0.1", "192.168.1.1", "0.0.0.0"];
+
+        for ip_str in test_cases {
+            let config = PrometheusConfig {
+                port: 29000,
+                host: ip_str.to_string(),
+            };
+
+            let ip_addr: IpAddr = config.host.parse().unwrap();
+            assert!(matches!(ip_addr, IpAddr::V4(_)));
+        }
+    }
+
+    #[test]
+    fn test_valid_ipv6_parsing() {
+        let test_cases = vec!["::1", "2001:db8::1", "::"];
+
+        for ip_str in test_cases {
+            let config = PrometheusConfig {
+                port: 29000,
+                host: ip_str.to_string(),
+            };
+
+            let ip_addr: IpAddr = config.host.parse().unwrap();
+            assert!(matches!(ip_addr, IpAddr::V6(_)));
+        }
+    }
+
+    #[test]
+    fn test_invalid_ip_parsing() {
+        let test_cases = vec!["invalid", "256.256.256.256", "hostname"];
+
+        for ip_str in test_cases {
+            let config = PrometheusConfig {
+                port: 29000,
+                host: ip_str.to_string(),
+            };
+
+            let ip_addr: IpAddr = config
+                .host
+                .parse()
+                .unwrap_or(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)));
+
+            // Should fall back to 0.0.0.0
+            assert_eq!(ip_addr, IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)));
+        }
+    }
+
+    // ============= Socket Address Creation Tests =============
+
+    #[test]
+    fn test_socket_addr_creation() {
+        let test_cases = vec![("127.0.0.1", 8080), ("0.0.0.0", 29000), ("::1", 9090)];
+
+        for (host, port) in test_cases {
+            let config = PrometheusConfig {
+                port,
+                host: host.to_string(),
+            };
+
+            let ip_addr: IpAddr = config.host.parse().unwrap();
+            let socket_addr = SocketAddr::new(ip_addr, config.port);
+
+            assert_eq!(socket_addr.port(), port);
+            assert_eq!(socket_addr.ip().to_string(), host);
+        }
+    }
+
+    #[test]
+    fn test_socket_addr_with_different_ports() {
+        let ports = vec![0, 80, 8080, 65535];
+
+        for port in ports {
+            let config = PrometheusConfig {
+                port,
+                host: "127.0.0.1".to_string(),
+            };
+
+            let ip_addr: IpAddr = config.host.parse().unwrap();
+            let socket_addr = SocketAddr::new(ip_addr, config.port);
+
+            assert_eq!(socket_addr.port(), port);
+        }
+    }
+
+    // ============= Duration Bucket Tests =============
+
+    #[test]
+    fn test_duration_bucket_values() {
+        let expected_buckets = vec![
+            0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0, 15.0, 30.0, 45.0,
+            60.0, 90.0, 120.0, 180.0, 240.0,
+        ];
+
+        // The buckets are defined in start_prometheus function
+        assert_eq!(expected_buckets.len(), 20);
+
+        // Verify proper ordering
+        for i in 1..expected_buckets.len() {
+            assert!(expected_buckets[i] > expected_buckets[i - 1]);
+        }
+    }
+
+    #[test]
+    fn test_duration_bucket_coverage() {
+        let test_cases = vec![
+            (0.0005, "sub-millisecond"),
+            (0.005, "5ms"),
+            (0.05, "50ms"),
+            (1.0, "1s"),
+            (10.0, "10s"),
+            (60.0, "1m"),
+            (240.0, "4m"),
+        ];
+
+        let buckets = vec![
+            0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0, 15.0, 30.0, 45.0,
+            60.0, 90.0, 120.0, 180.0, 240.0,
+        ];
+
+        for (duration, label) in test_cases {
+            let bucket_found = buckets
+                .iter()
+                .any(|&b| ((b - duration) as f64).abs() < 0.0001 || b > duration);
+            assert!(bucket_found, "No bucket found for {} ({})", duration, label);
+        }
+    }
+
+    // ============= Matcher Configuration Tests =============
+
+    #[test]
+    fn test_duration_suffix_matcher() {
+        let matcher = Matcher::Suffix(String::from("duration_seconds"));
+
+        // Test matching behavior
+        let _matching_metrics = vec![
+            "request_duration_seconds",
+            "response_duration_seconds",
+            "sgl_router_request_duration_seconds",
+        ];
+
+        let _non_matching_metrics =
+            vec!["duration_total", "duration_seconds_total", "other_metric"];
+
+        // Note: We can't directly test Matcher matching without the internals,
+        // but we can verify the matcher is created correctly
+        match matcher {
+            Matcher::Suffix(suffix) => assert_eq!(suffix, "duration_seconds"),
+            _ => panic!("Expected Suffix matcher"),
+        }
+    }
+
+    // ============= Builder Configuration Tests =============
+
+    #[test]
+    fn test_prometheus_builder_configuration() {
+        // This test verifies the builder configuration without actually starting Prometheus
+        let _config = PrometheusConfig::default();
+
+        let duration_matcher = Matcher::Suffix(String::from("duration_seconds"));
+        let duration_bucket = [
+            0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0, 15.0, 30.0, 45.0,
+            60.0, 90.0, 120.0, 180.0, 240.0,
+        ];
+
+        // Verify bucket configuration
+        assert_eq!(duration_bucket.len(), 20);
+
+        // Verify matcher is suffix type
+        match duration_matcher {
+            Matcher::Suffix(s) => assert_eq!(s, "duration_seconds"),
+            _ => panic!("Expected Suffix matcher"),
+        }
+    }
+
+    // ============= Upkeep Timeout Tests =============
+
+    #[test]
+    fn test_upkeep_timeout_duration() {
+        let timeout = Duration::from_secs(5 * 60);
+        assert_eq!(timeout.as_secs(), 300);
+    }
+
+    // ============= Custom Bucket Tests =============
+
+    #[test]
+    fn test_custom_buckets_for_different_metrics() {
+        // Test that we can create different bucket configurations
+        let request_buckets = vec![0.001, 0.01, 0.1, 1.0, 10.0];
+        let generate_buckets = vec![0.1, 0.5, 1.0, 5.0, 30.0, 60.0];
+
+        assert_eq!(request_buckets.len(), 5);
+        assert_eq!(generate_buckets.len(), 6);
+
+        // Verify each set is sorted
+        for i in 1..request_buckets.len() {
+            assert!(request_buckets[i] > request_buckets[i - 1]);
+        }
+
+        for i in 1..generate_buckets.len() {
+            assert!(generate_buckets[i] > generate_buckets[i - 1]);
+        }
+    }
+
+    // ============= RouterMetrics Tests =============
+
+    #[test]
+    fn test_metrics_static_methods() {
+        // Test that all static methods can be called without panic
+        RouterMetrics::record_request("/generate");
+        RouterMetrics::record_request_duration("/generate", Duration::from_millis(100));
+        RouterMetrics::record_request_error("/generate", "timeout");
+        RouterMetrics::record_retry("/generate");
+
+        RouterMetrics::set_active_workers(5);
+        RouterMetrics::set_worker_health("http://worker1", true);
+        RouterMetrics::set_worker_load("http://worker1", 10);
+        RouterMetrics::record_processed_request("http://worker1");
+
+        RouterMetrics::record_policy_decision("random", "http://worker1");
+        RouterMetrics::record_cache_hit();
+        RouterMetrics::record_cache_miss();
+        RouterMetrics::set_tree_size("http://worker1", 1000);
+        RouterMetrics::record_load_balancing_event();
+        RouterMetrics::set_load_range(20, 5);
+
+        RouterMetrics::record_pd_request("/v1/chat/completions");
+        RouterMetrics::record_pd_request_duration("/v1/chat/completions", Duration::from_secs(1));
+        RouterMetrics::record_pd_prefill_request("http://prefill1");
+        RouterMetrics::record_pd_decode_request("http://decode1");
+        RouterMetrics::record_pd_error("invalid_request");
+        RouterMetrics::record_pd_prefill_error("http://prefill1");
+        RouterMetrics::record_pd_decode_error("http://decode1");
+        RouterMetrics::record_pd_stream_error("http://decode1");
+
+        RouterMetrics::record_discovery_update(3, 1);
+        RouterMetrics::record_generate_duration(Duration::from_secs(2));
+        RouterMetrics::set_running_requests("http://worker1", 15);
+    }
+
+    // ============= Port Availability Tests =============
+
+    #[test]
+    fn test_port_already_in_use() {
+        // Skip this test if we can't bind to the port
+        let port = 29123; // Use a different port to avoid conflicts
+
+        if let Ok(_listener) = TcpListener::bind(("127.0.0.1", port)) {
+            // Port is available, we can test
+            let config = PrometheusConfig {
+                port,
+                host: "127.0.0.1".to_string(),
+            };
+
+            // Just verify config is created correctly
+            assert_eq!(config.port, port);
+        }
+    }
+
+    // ============= Integration Test Helpers =============
+
+    #[test]
+    fn test_metrics_endpoint_accessibility() {
+        // This would be an integration test in practice
+        // Here we just verify the configuration
+        let config = PrometheusConfig {
+            port: 29000,
+            host: "127.0.0.1".to_string(),
+        };
+
+        let ip_addr: IpAddr = config.host.parse().unwrap();
+        let socket_addr = SocketAddr::new(ip_addr, config.port);
+
+        assert_eq!(socket_addr.to_string(), "127.0.0.1:29000");
+    }
+
+    #[test]
+    fn test_concurrent_metric_updates() {
+        // Test that metric updates can be called concurrently
+        use std::sync::atomic::{AtomicBool, Ordering};
+        use std::sync::Arc;
+        use std::thread;
+
+        let done = Arc::new(AtomicBool::new(false));
+        let mut handles = vec![];
+
+        for i in 0..3 {
+            let done_clone = done.clone();
+            let handle = thread::spawn(move || {
+                let worker = format!("http://worker{}", i);
+                while !done_clone.load(Ordering::Relaxed) {
+                    RouterMetrics::set_worker_load(&worker, i * 10);
+                    RouterMetrics::record_processed_request(&worker);
+                    thread::sleep(Duration::from_millis(1));
+                }
+            });
+            handles.push(handle);
+        }
+
+        // Let threads run briefly
+        thread::sleep(Duration::from_millis(10));
+        done.store(true, Ordering::Relaxed);
+
+        // Wait for all threads
+        for handle in handles {
+            handle.join().unwrap();
+        }
+
+        // If we get here without panic, concurrent access works
+        assert!(true);
+    }
+
+    // ============= Edge Cases Tests =============
+
+    #[test]
+    fn test_empty_string_metrics() {
+        // Test that empty strings don't cause issues
+        RouterMetrics::record_request("");
+        RouterMetrics::set_worker_health("", true);
+        RouterMetrics::record_policy_decision("", "");
+
+        // If we get here without panic, empty strings are handled
+        assert!(true);
+    }
+
+    #[test]
+    fn test_very_long_metric_labels() {
+        let long_label = "a".repeat(1000);
+
+        RouterMetrics::record_request(&long_label);
+        RouterMetrics::set_worker_health(&long_label, false);
+
+        // If we get here without panic, long labels are handled
+        assert!(true);
+    }
+
+    #[test]
+    fn test_special_characters_in_labels() {
+        let special_labels = vec![
+            "test/with/slashes",
+            "test-with-dashes",
+            "test_with_underscores",
+            "test.with.dots",
+            "test:with:colons",
+        ];
+
+        for label in special_labels {
+            RouterMetrics::record_request(label);
+            RouterMetrics::set_worker_health(label, true);
+        }
+
+        // If we get here without panic, special characters are handled
+        assert!(true);
+    }
+
+    #[test]
+    fn test_extreme_metric_values() {
+        // Test extreme values
+        RouterMetrics::set_active_workers(0);
+        RouterMetrics::set_active_workers(usize::MAX);
+
+        RouterMetrics::set_worker_load("worker", 0);
+        RouterMetrics::set_worker_load("worker", usize::MAX);
+
+        RouterMetrics::record_request_duration("route", Duration::from_nanos(1));
+        RouterMetrics::record_request_duration("route", Duration::from_secs(86400)); // 24 hours
+
+        // If we get here without panic, extreme values are handled
+        assert!(true);
+    }
+}
diff --git a/sgl-router/src/routers/pd_types.rs b/sgl-router/src/routers/pd_types.rs
index 155274b06f16..e83ab5b60f5b 100644
--- a/sgl-router/src/routers/pd_types.rs
+++ b/sgl-router/src/routers/pd_types.rs
@@ -58,7 +58,7 @@ pub enum PDSelectionPolicy {
     },
 }
 // Bootstrap types from PDLB
-#[derive(Debug, Deserialize, Serialize)]
+#[derive(Debug, Deserialize, Serialize, PartialEq)]
 #[serde(untagged)]
 pub enum SingleOrBatch<T> {
     Single(T),
diff --git a/sgl-router/src/routers/request_adapter.rs b/sgl-router/src/routers/request_adapter.rs
index f5611bbe492b..201c61aa55c8 100644
--- a/sgl-router/src/routers/request_adapter.rs
+++ b/sgl-router/src/routers/request_adapter.rs
@@ -211,6 +211,7 @@ impl ToPdRequest for ChatCompletionRequest {
             self.temperature => "temperature",
             self.top_p => "top_p",
             self.n => "n",
+            self.stream_options => "stream_options",
             self.stop => "stop",
             self.max_tokens => "max_tokens",
             self.max_completion_tokens => "max_completion_tokens",
@@ -262,3 +263,1015 @@ pub trait RouteableRequest: GenerationRequest + serde::Serialize + Clone {
 impl RouteableRequest for GenerateRequest {}
 impl RouteableRequest for CompletionRequest {}
 impl RouteableRequest for ChatCompletionRequest {}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::openai_api_types::*;
+    use serde_json::json;
+    use std::collections::HashMap;
+
+    // ============= GenerateRequest to_pd_request Tests =============
+
+    #[test]
+    fn test_generate_to_pd_request_with_text_only() {
+        let req = GenerateRequest {
+            text: Some("Hello world".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        // Check text field conversion
+        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Hello world"));
+        assert!(pd_req.input_ids.is_none());
+
+        // Check bootstrap fields are None
+        assert!(pd_req.bootstrap_host.is_none());
+        assert!(pd_req.bootstrap_port.is_none());
+        assert!(pd_req.bootstrap_room.is_none());
+
+        // Check stream flag
+        assert_eq!(pd_req.stream, false);
+
+        // Check other fields
+        let other = pd_req.other.as_object().unwrap();
+        assert_eq!(other.get("stream"), Some(&json!(false)));
+        assert_eq!(other.get("return_logprob"), Some(&json!(false)));
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_with_prompt_string() {
+        let req = GenerateRequest {
+            text: None,
+            prompt: Some(StringOrArray::String("Test prompt".to_string())),
+            input_ids: None,
+            stream: true,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: true,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Test prompt"));
+        assert!(pd_req.input_ids.is_none());
+        assert_eq!(pd_req.stream, true);
+
+        let other = pd_req.other.as_object().unwrap();
+        assert_eq!(other.get("stream"), Some(&json!(true)));
+        assert_eq!(other.get("return_logprob"), Some(&json!(true)));
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_with_prompt_array() {
+        let req = GenerateRequest {
+            text: None,
+            prompt: Some(StringOrArray::Array(vec![
+                "Prompt 1".to_string(),
+                "Prompt 2".to_string(),
+                "Prompt 3".to_string(),
+            ])),
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        match pd_req.text {
+            Some(SingleOrBatch::Batch(ref batch)) => {
+                assert_eq!(batch.len(), 3);
+                assert_eq!(batch[0], "Prompt 1");
+                assert_eq!(batch[1], "Prompt 2");
+                assert_eq!(batch[2], "Prompt 3");
+            }
+            _ => panic!("Expected batch text"),
+        }
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_with_single_input_ids() {
+        let req = GenerateRequest {
+            text: None,
+            prompt: None,
+            input_ids: Some(InputIds::Single(vec![100, 200, 300, 400])),
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        assert!(pd_req.text.is_none());
+        assert!(matches!(
+            pd_req.input_ids,
+            Some(SingleOrBatch::Single(ref ids)) if ids == &vec![100, 200, 300, 400]
+        ));
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_with_batch_input_ids() {
+        let req = GenerateRequest {
+            text: None,
+            prompt: None,
+            input_ids: Some(InputIds::Batch(vec![
+                vec![1, 2, 3],
+                vec![4, 5, 6, 7],
+                vec![8, 9],
+            ])),
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        match pd_req.input_ids {
+            Some(SingleOrBatch::Batch(ref batch)) => {
+                assert_eq!(batch.len(), 3);
+                assert_eq!(batch[0], vec![1, 2, 3]);
+                assert_eq!(batch[1], vec![4, 5, 6, 7]);
+                assert_eq!(batch[2], vec![8, 9]);
+            }
+            _ => panic!("Expected batch input_ids"),
+        }
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_priority_text_over_prompt() {
+        let req = GenerateRequest {
+            text: Some("SGLang text".to_string()),
+            prompt: Some(StringOrArray::String("OpenAI prompt".to_string())),
+            input_ids: Some(InputIds::Single(vec![1, 2, 3])),
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        // text should take priority
+        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "SGLang text"));
+        assert!(pd_req.input_ids.is_none());
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_priority_prompt_over_input_ids() {
+        let req = GenerateRequest {
+            text: None,
+            prompt: Some(StringOrArray::String("OpenAI prompt".to_string())),
+            input_ids: Some(InputIds::Single(vec![1, 2, 3])),
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        // prompt should take priority over input_ids
+        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "OpenAI prompt"));
+        assert!(pd_req.input_ids.is_none());
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_with_parameters() {
+        let params = GenerateParameters {
+            max_new_tokens: Some(100),
+            temperature: Some(0.8),
+            top_p: Some(0.95),
+            seed: Some(12345),
+            stop: Some(vec!["END".to_string(), "STOP".to_string()]),
+            repetition_penalty: Some(1.1),
+            ..Default::default()
+        };
+
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: Some(params),
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Check that max_new_tokens and temperature were extracted to top level
+        assert_eq!(other.get("max_new_tokens"), Some(&json!(100)));
+        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.8 < 0.0001);
+
+        // Check that other parameters remain under "parameters"
+        let params = other.get("parameters").unwrap().as_object().unwrap();
+        assert!(params.get("top_p").unwrap().as_f64().unwrap() - 0.95 < 0.0001);
+        assert_eq!(params.get("seed"), Some(&json!(12345)));
+        assert_eq!(params.get("stop"), Some(&json!(vec!["END", "STOP"])));
+        assert!(params.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.1 < 0.0001);
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_with_sampling_params() {
+        let sampling = SamplingParams {
+            max_new_tokens: Some(200),
+            temperature: Some(0.7),
+            top_p: Some(0.9),
+            top_k: Some(50),
+            frequency_penalty: Some(0.1),
+            presence_penalty: Some(0.2),
+            repetition_penalty: Some(1.05),
+            ..Default::default()
+        };
+
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: Some(sampling),
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Check extracted top-level fields
+        assert_eq!(other.get("max_new_tokens"), Some(&json!(200)));
+        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.7 < 0.0001);
+
+        // Check full sampling_params is preserved
+        let sampling = other.get("sampling_params").unwrap().as_object().unwrap();
+        assert_eq!(sampling.get("max_new_tokens"), Some(&json!(200)));
+        assert!(sampling.get("temperature").unwrap().as_f64().unwrap() - 0.7 < 0.0001);
+        assert!(sampling.get("top_p").unwrap().as_f64().unwrap() - 0.9 < 0.0001);
+        assert_eq!(sampling.get("top_k"), Some(&json!(50)));
+        assert!(sampling.get("frequency_penalty").unwrap().as_f64().unwrap() - 0.1 < 0.0001);
+        assert!(sampling.get("presence_penalty").unwrap().as_f64().unwrap() - 0.2 < 0.0001);
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_sampling_params_override_parameters() {
+        // When both parameters and sampling_params have max_new_tokens/temperature,
+        // sampling_params should take precedence (processed last)
+        let params = GenerateParameters {
+            max_new_tokens: Some(100),
+            temperature: Some(0.5),
+            ..Default::default()
+        };
+
+        let sampling = SamplingParams {
+            max_new_tokens: Some(200),
+            temperature: Some(0.9),
+            ..Default::default()
+        };
+
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: Some(params),
+            sampling_params: Some(sampling),
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Should use values from sampling_params since they're processed last
+        assert_eq!(other.get("max_new_tokens"), Some(&json!(200)));
+        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.9 < 0.0001);
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_empty_parameters() {
+        let params = GenerateParameters::default();
+
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: Some(params),
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Should not have parameters field if all values are None/default
+        assert!(!other.contains_key("parameters"));
+        assert!(!other.contains_key("max_new_tokens"));
+        assert!(!other.contains_key("temperature"));
+    }
+
+    #[test]
+    fn test_generate_to_pd_request_all_fields() {
+        let params = GenerateParameters {
+            max_new_tokens: Some(150),
+            temperature: Some(0.6),
+            top_k: Some(40),
+            ..Default::default()
+        };
+
+        let sampling = SamplingParams {
+            max_new_tokens: Some(250), // Will override parameters
+            temperature: Some(0.8),    // Will override parameters
+            presence_penalty: Some(0.1),
+            ..Default::default()
+        };
+
+        let req = GenerateRequest {
+            text: Some("Complex test".to_string()),
+            prompt: Some(StringOrArray::String("Ignored prompt".to_string())),
+            input_ids: None,
+            stream: true,
+            parameters: Some(params),
+            sampling_params: Some(sampling),
+            return_logprob: true,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        // Verify all fields
+        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Complex test"));
+        assert!(pd_req.input_ids.is_none());
+        assert_eq!(pd_req.stream, true);
+        assert!(pd_req.bootstrap_host.is_none());
+        assert!(pd_req.bootstrap_port.is_none());
+        assert!(pd_req.bootstrap_room.is_none());
+
+        let other = pd_req.other.as_object().unwrap();
+        assert_eq!(other.get("stream"), Some(&json!(true)));
+        assert_eq!(other.get("return_logprob"), Some(&json!(true)));
+        // Sampling params override parameters
+        assert_eq!(other.get("max_new_tokens"), Some(&json!(250)));
+        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.8 < 0.0001);
+        assert!(other.contains_key("parameters"));
+        assert!(other.contains_key("sampling_params"));
+    }
+
+    // ============= CompletionRequest to_pd_request Tests =============
+
+    #[test]
+    fn test_completion_to_pd_request_basic() {
+        let req = CompletionRequest {
+            model: "gpt-3.5-turbo".to_string(),
+            prompt: StringOrArray::String("Complete this sentence".to_string()),
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            suffix: None,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        assert!(
+            matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Complete this sentence")
+        );
+        assert!(pd_req.input_ids.is_none());
+        assert_eq!(pd_req.stream, false);
+
+        let other = pd_req.other.as_object().unwrap();
+        assert_eq!(other.get("model"), Some(&json!("gpt-3.5-turbo")));
+        assert_eq!(other.get("stream"), Some(&json!(false)));
+    }
+
+    #[test]
+    fn test_completion_to_pd_request_array_prompt() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::Array(vec![
+                "First prompt".to_string(),
+                "Second prompt".to_string(),
+            ]),
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            suffix: None,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        match pd_req.text {
+            Some(SingleOrBatch::Batch(ref batch)) => {
+                assert_eq!(batch.len(), 2);
+                assert_eq!(batch[0], "First prompt");
+                assert_eq!(batch[1], "Second prompt");
+            }
+            _ => panic!("Expected batch text"),
+        }
+    }
+
+    #[test]
+    fn test_completion_to_pd_request_parameter_mapping() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::String("test".to_string()),
+            max_tokens: Some(150), // -> max_new_tokens
+            temperature: Some(0.75),
+            top_p: Some(0.92),
+            n: Some(3), // -> best_of
+            stream: true,
+            stream_options: None,
+            logprobs: Some(10), // -> top_n_tokens
+            echo: true,         // -> return_full_text
+            stop: Some(StringOrArray::Array(vec![
+                "\\n".to_string(),
+                "END".to_string(),
+            ])),
+            presence_penalty: Some(0.5), // -> repetition_penalty = 1.5
+            frequency_penalty: Some(0.2),
+            best_of: Some(5),
+            logit_bias: None,
+            user: Some("user123".to_string()),
+            seed: Some(42),
+            suffix: Some("...".to_string()),
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+        let params = other.get("parameters").unwrap().as_object().unwrap();
+
+        // Check parameter mappings
+        assert_eq!(params.get("max_new_tokens"), Some(&json!(150)));
+        assert!(params.get("temperature").unwrap().as_f64().unwrap() - 0.75 < 0.0001);
+        assert!(params.get("top_p").unwrap().as_f64().unwrap() - 0.92 < 0.0001);
+        assert_eq!(params.get("best_of"), Some(&json!(3)));
+        assert_eq!(params.get("top_n_tokens"), Some(&json!(10)));
+        assert_eq!(params.get("return_full_text"), Some(&json!(true)));
+        assert_eq!(params.get("stop"), Some(&json!(vec!["\\n", "END"])));
+        assert!(params.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.5 < 0.0001);
+        assert_eq!(params.get("seed"), Some(&json!(42)));
+
+        // Check other fields
+        assert_eq!(other.get("model"), Some(&json!("test")));
+        assert_eq!(other.get("stream"), Some(&json!(true)));
+    }
+
+    #[test]
+    fn test_completion_to_pd_request_stop_string() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::String("test".to_string()),
+            stop: Some(StringOrArray::String("STOP".to_string())),
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            suffix: None,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+        let params = other.get("parameters").unwrap().as_object().unwrap();
+
+        // Single string stop should be converted to array
+        assert_eq!(params.get("stop"), Some(&json!(vec!["STOP"])));
+    }
+
+    #[test]
+    fn test_completion_to_pd_request_no_presence_penalty() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::String("test".to_string()),
+            presence_penalty: None,
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            suffix: None,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+        let params = other.get("parameters").unwrap().as_object().unwrap();
+
+        // Should not have repetition_penalty if presence_penalty is None
+        assert!(!params.contains_key("repetition_penalty"));
+    }
+
+    // ============= ChatCompletionRequest to_pd_request Tests =============
+
+    #[test]
+    fn test_chat_to_pd_request_basic() {
+        let messages = vec![
+            ChatMessage::System {
+                role: "system".to_string(),
+                content: "You are a helpful assistant".to_string(),
+                name: None,
+            },
+            ChatMessage::User {
+                role: "user".to_string(),
+                content: UserMessageContent::Text("Hello!".to_string()),
+                name: None,
+            },
+        ];
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "gpt-4".to_string(),
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            stop: None,
+            max_tokens: None,
+            max_completion_tokens: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            logit_bias: None,
+            logprobs: false,
+            top_logprobs: None,
+            user: None,
+            seed: None,
+            response_format: None,
+            tools: None,
+            tool_choice: None,
+            parallel_tool_calls: None,
+            functions: None,
+            function_call: None,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        assert_eq!(pd_req.stream, false);
+        assert!(pd_req.bootstrap_host.is_none());
+        assert!(pd_req.bootstrap_port.is_none());
+        assert!(pd_req.bootstrap_room.is_none());
+
+        let other = pd_req.other.as_object().unwrap();
+        assert!(other.contains_key("messages"));
+        assert_eq!(other.get("model"), Some(&json!("gpt-4")));
+        assert_eq!(other.get("stream"), Some(&json!(false)));
+
+        // Check messages are preserved
+        let messages = other.get("messages").unwrap().as_array().unwrap();
+        assert_eq!(messages.len(), 2);
+    }
+
+    #[test]
+    fn test_chat_to_pd_request_with_all_optional_fields() {
+        let messages = vec![ChatMessage::User {
+            role: "user".to_string(),
+            content: UserMessageContent::Text("Test".to_string()),
+            name: Some("test_user".to_string()),
+        }];
+
+        let mut logit_bias = HashMap::new();
+        logit_bias.insert("50256".to_string(), -100);
+
+        let tool = Tool {
+            tool_type: "function".to_string(),
+            function: Function {
+                name: "get_weather".to_string(),
+                description: Some("Get weather info".to_string()),
+                parameters: json!({"type": "object"}),
+            },
+        };
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "gpt-4".to_string(),
+            temperature: Some(0.8),
+            top_p: Some(0.95),
+            n: Some(2),
+            stream: true,
+            stream_options: Some(StreamOptions {
+                include_usage: Some(true),
+            }),
+            stop: Some(StringOrArray::String("\\n\\n".to_string())),
+            max_tokens: Some(200),
+            max_completion_tokens: Some(150),
+            presence_penalty: Some(0.1),
+            frequency_penalty: Some(0.2),
+            logit_bias: Some(logit_bias),
+            logprobs: true,
+            top_logprobs: Some(5),
+            user: Some("user456".to_string()),
+            seed: Some(12345),
+            response_format: Some(ResponseFormat::JsonObject),
+            tools: Some(vec![tool]),
+            tool_choice: Some(ToolChoice::Auto),
+            parallel_tool_calls: Some(false),
+            functions: None,
+            function_call: None,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Check all fields are preserved
+        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.8 < 0.0001);
+        assert!(other.get("top_p").unwrap().as_f64().unwrap() - 0.95 < 0.0001);
+        assert_eq!(other.get("n"), Some(&json!(2)));
+        assert_eq!(other.get("stream"), Some(&json!(true)));
+        assert!(other.contains_key("stream_options"));
+        assert!(other.contains_key("stop"));
+        assert_eq!(other.get("max_tokens"), Some(&json!(200)));
+        assert_eq!(other.get("max_completion_tokens"), Some(&json!(150)));
+        assert!(other.get("presence_penalty").unwrap().as_f64().unwrap() - 0.1 < 0.0001);
+        assert!(other.get("frequency_penalty").unwrap().as_f64().unwrap() - 0.2 < 0.0001);
+        assert!(other.contains_key("logit_bias"));
+        assert_eq!(other.get("logprobs"), Some(&json!(true)));
+        assert_eq!(other.get("top_logprobs"), Some(&json!(5)));
+        assert_eq!(other.get("user"), Some(&json!("user456")));
+        assert_eq!(other.get("seed"), Some(&json!(12345)));
+        assert!(other.contains_key("response_format"));
+        assert!(other.contains_key("tools"));
+        assert!(other.contains_key("tool_choice"));
+        assert_eq!(other.get("parallel_tool_calls"), Some(&json!(false)));
+    }
+
+    #[test]
+    fn test_chat_to_pd_request_multimodal_content() {
+        let messages = vec![ChatMessage::User {
+            role: "user".to_string(),
+            content: UserMessageContent::Parts(vec![
+                ContentPart::Text {
+                    text: "What's in this image?".to_string(),
+                },
+                ContentPart::ImageUrl {
+                    image_url: ImageUrl {
+                        url: "https://example.com/image.jpg".to_string(),
+                        detail: Some("high".to_string()),
+                    },
+                },
+            ]),
+            name: None,
+        }];
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "gpt-4-vision".to_string(),
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            stop: None,
+            max_tokens: None,
+            max_completion_tokens: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            logit_bias: None,
+            logprobs: false,
+            top_logprobs: None,
+            user: None,
+            seed: None,
+            response_format: None,
+            tools: None,
+            tool_choice: None,
+            parallel_tool_calls: None,
+            functions: None,
+            function_call: None,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Messages with multimodal content should be preserved
+        assert!(other.contains_key("messages"));
+        let messages = other.get("messages").unwrap().as_array().unwrap();
+        assert_eq!(messages.len(), 1);
+
+        // Verify the message structure is preserved
+        let msg = &messages[0];
+        assert_eq!(msg["role"], "user");
+        assert!(msg["content"].is_array());
+    }
+
+    #[test]
+    fn test_chat_to_pd_request_logprobs_boolean() {
+        let messages = vec![ChatMessage::User {
+            role: "user".to_string(),
+            content: UserMessageContent::Text("Test".to_string()),
+            name: None,
+        }];
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "test".to_string(),
+            logprobs: true, // Boolean logprobs flag
+            top_logprobs: Some(3),
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            stop: None,
+            max_tokens: None,
+            max_completion_tokens: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            response_format: None,
+            tools: None,
+            tool_choice: None,
+            parallel_tool_calls: None,
+            functions: None,
+            function_call: None,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        assert_eq!(other.get("logprobs"), Some(&json!(true)));
+        assert_eq!(other.get("top_logprobs"), Some(&json!(3)));
+    }
+
+    #[test]
+    fn test_chat_to_pd_request_minimal_fields() {
+        let messages = vec![ChatMessage::Assistant {
+            role: "assistant".to_string(),
+            content: Some("I can help with that.".to_string()),
+            name: None,
+            tool_calls: None,
+            function_call: None,
+        }];
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "gpt-3.5-turbo".to_string(),
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            stop: None,
+            max_tokens: None,
+            max_completion_tokens: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            logit_bias: None,
+            logprobs: false,
+            top_logprobs: None,
+            user: None,
+            seed: None,
+            response_format: None,
+            tools: None,
+            tool_choice: None,
+            parallel_tool_calls: None,
+            functions: None,
+            function_call: None,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Should only have required fields
+        assert!(other.contains_key("messages"));
+        assert!(other.contains_key("model"));
+        assert!(other.contains_key("stream"));
+
+        // Optional fields should not be present
+        assert!(!other.contains_key("temperature"));
+        assert!(!other.contains_key("top_p"));
+        assert!(!other.contains_key("max_tokens"));
+        assert!(!other.contains_key("stop"));
+    }
+
+    #[test]
+    fn test_routeable_request_to_json() {
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let json = req.to_json().unwrap();
+        assert_eq!(json["text"], "test");
+        assert_eq!(json["stream"], false);
+    }
+
+    // ============= Macro Tests =============
+
+    #[test]
+    fn test_insert_if_some_macro() {
+        let mut map = serde_json::Map::new();
+
+        let some_value: Option<i32> = Some(42);
+        let none_value: Option<i32> = None;
+
+        insert_if_some!(map,
+            some_value => "present",
+            none_value => "absent"
+        );
+
+        assert_eq!(map.get("present"), Some(&json!(42)));
+        assert!(!map.contains_key("absent"));
+    }
+
+    #[test]
+    fn test_insert_value_macro() {
+        let mut map = serde_json::Map::new();
+
+        let value1 = "test";
+        let value2 = 42;
+
+        insert_value!(map,
+            value1 => "string_field",
+            value2 => "int_field"
+        );
+
+        assert_eq!(map.get("string_field"), Some(&json!("test")));
+        assert_eq!(map.get("int_field"), Some(&json!(42)));
+    }
+
+    // ============= Edge Cases and Error Handling =============
+
+    #[test]
+    fn test_null_value_handling() {
+        let params = GenerateParameters {
+            max_new_tokens: None,
+            temperature: None,
+            ..Default::default()
+        };
+
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: Some(params),
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Should not have parameters field if all fields are None
+        assert!(!other.contains_key("parameters"));
+    }
+
+    #[test]
+    fn test_large_batch_conversion() {
+        let large_batch: Vec<String> = (0..1000).map(|i| format!("item_{}", i)).collect();
+
+        let req = GenerateRequest {
+            text: None,
+            prompt: Some(StringOrArray::Array(large_batch.clone())),
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        if let Some(SingleOrBatch::Batch(batch)) = pd_req.text {
+            assert_eq!(batch.len(), 1000);
+            assert_eq!(batch[0], "item_0");
+            assert_eq!(batch[999], "item_999");
+        } else {
+            panic!("Expected batch text");
+        }
+    }
+
+    #[test]
+    fn test_unicode_string_handling() {
+        let unicode_text = "Hello 世界 🌍 नमस्ते мир".to_string();
+
+        let req = GenerateRequest {
+            text: Some(unicode_text.clone()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        if let Some(SingleOrBatch::Single(text)) = pd_req.text {
+            assert_eq!(text, unicode_text);
+        } else {
+            panic!("Expected single text");
+        }
+    }
+
+    #[test]
+    fn test_deeply_nested_parameters() {
+        let mut nested_params = serde_json::Map::new();
+        nested_params.insert(
+            "nested".to_string(),
+            json!({
+                "level1": {
+                    "level2": {
+                        "level3": "value"
+                    }
+                }
+            }),
+        );
+
+        let params = GenerateParameters {
+            max_new_tokens: Some(100),
+            ..Default::default()
+        };
+
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: Some(params),
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Parameters should be preserved even with nested structures
+        assert!(other.contains_key("max_new_tokens"));
+    }
+
+    // ============= Bootstrap Field Tests =============
+
+    #[test]
+    fn test_bootstrap_fields_none() {
+        let req = GenerateRequest {
+            text: Some("test".to_string()),
+            prompt: None,
+            input_ids: None,
+            stream: false,
+            parameters: None,
+            sampling_params: None,
+            return_logprob: false,
+        };
+
+        let pd_req = req.to_pd_request();
+
+        assert_eq!(pd_req.bootstrap_host, None);
+        assert_eq!(pd_req.bootstrap_port, None);
+        assert_eq!(pd_req.bootstrap_room, None);
+    }
+}

From 93d124ef5a4b71a11b409150c85e70d4a0256bab Mon Sep 17 00:00:00 2001
From: ronnie_zheng <zl19940307@163.com>
Date: Sun, 20 Jul 2025 23:12:42 +0300
Subject: [PATCH 075/396] [feature] enable NPU CI (#7935)

Co-authored-by: Even Zhou <14368888+iforgetmyname@users.noreply.github.com>
---
 .github/workflows/pr-test-npu.yml         | 64 +++++++++++++++++++++++
 .pre-commit-config.yaml                   |  2 +-
 scripts/npu_ci_install_dependency.sh      | 46 ++++++++++++++++
 test/srt/test_ascend_attention_backend.py | 16 +-----
 4 files changed, 113 insertions(+), 15 deletions(-)
 create mode 100644 .github/workflows/pr-test-npu.yml
 create mode 100755 scripts/npu_ci_install_dependency.sh

diff --git a/.github/workflows/pr-test-npu.yml b/.github/workflows/pr-test-npu.yml
new file mode 100644
index 000000000000..be924d7bbc09
--- /dev/null
+++ b/.github/workflows/pr-test-npu.yml
@@ -0,0 +1,64 @@
+name: PR Test (Ascend NPU)
+
+on:
+  push:
+    branches: [ main ]
+    paths:
+      - "python/**"
+      - "scripts/**"
+      - "test/**"
+      - ".github/workflows/pr-test-npu.yml"
+  pull_request:
+    branches: [ main ]
+    paths:
+      - "python/**"
+      - "scripts/**"
+      - "test/**"
+      - ".github/workflows/pr-test-npu.yml"
+  workflow_dispatch:
+
+concurrency:
+  group: pr-test-npu-${{ github.ref }}
+  cancel-in-progress: true
+
+jobs:
+  unit-test-basic:
+    if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
+        github.event.pull_request.draft == false
+    runs-on: linux-arm64-npu-1
+    container:
+      image: swr.cn-southwest-2.myhuaweicloud.com/base_image/ascend-ci/cann:8.2.rc1.alpha003-910b-ubuntu22.04-py3.11
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Install dependencies
+        run: |
+          bash scripts/npu_ci_install_dependency.sh
+          # copy required dataset file from our daily cache
+          cp ~/.cache/modelscope/hub/datasets/otavia/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json /tmp
+
+      - name: Run test
+        timeout-minutes: 30
+        env:
+          SGLANG_USE_MODELSCOPE: true
+          HF_ENDPOINT: https://hf-mirror.com
+        run: |
+          cd test/srt
+          python3 run_suite.py --suite per-commit-npu
+  finish:
+    if: always()
+    needs: [ unit-test-basic ]
+    runs-on: ubuntu-latest
+    steps:
+      - name: Check all dependent job statuses
+        run: |
+          results=(${{ join(needs.*.result, ' ') }})
+          for result in "${results[@]}"; do
+            if [ "$result" = "failure" ] || [ "$result" = "cancelled" ]; then
+              echo "Job failed with result: $result"
+              exit 1
+            fi
+          done
+          echo "All jobs completed successfully"
+          exit 0
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 89d4664c5715..e9e9af1d0a02 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -38,7 +38,7 @@ repos:
     hooks:
       - id: codespell
         additional_dependencies: ['tomli']
-        args: ['--toml', 'python/pyproject.toml']
+        args: ['--toml', 'python/pyproject.toml', '-L', 'cann']
         exclude: test/srt/test_reasoning_parser.py # Exclude the test file that is expected to fail
   - repo: https://github.com/pre-commit/mirrors-clang-format
     rev: v18.1.8
diff --git a/scripts/npu_ci_install_dependency.sh b/scripts/npu_ci_install_dependency.sh
new file mode 100755
index 000000000000..ec3a162d52a4
--- /dev/null
+++ b/scripts/npu_ci_install_dependency.sh
@@ -0,0 +1,46 @@
+#!/bin/bash
+set -euo pipefail
+
+# Install the required dependencies in CI.
+sed -i 's|ports.ubuntu.com|mirrors.tuna.tsinghua.edu.cn|g' /etc/apt/sources.list
+apt update -y
+apt install -y build-essential cmake python3-pip python3-dev wget net-tools zlib1g-dev lld clang software-properties-common
+
+
+pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple
+python3 -m pip install --upgrade pip
+pip uninstall sgl-kernel -y || true
+
+
+### Download MemFabricV2
+MF_WHL_NAME="mf_adapter-1.0.0-cp311-cp311-linux_aarch64.whl"
+MEMFABRIC_URL="https://sglang-ascend.obs.cn-east-3.myhuaweicloud.com:443/sglang/${MF_WHL_NAME}"
+wget "${MEMFABRIC_URL}" && pip install "./${MF_WHL_NAME}"
+
+
+### Install vLLM
+VLLM_TAG=v0.8.5
+git clone --depth 1 https://github.com/vllm-project/vllm.git --branch $VLLM_TAG
+(cd vllm && VLLM_TARGET_DEVICE="empty" pip install -v -e .)
+
+
+### Install PyTorch and PTA
+PYTORCH_VERSION=2.6.0
+TORCHVISION_VERSION=0.21.0
+PTA_VERSION=2.6.0rc1
+pip install torch==$PYTORCH_VERSION torchvision==$TORCHVISION_VERSION --index-url https://download.pytorch.org/whl/cpu
+pip install torch_npu==$PTA_VERSION
+
+
+### Install Triton-Ascend
+TRITON_ASCEND_VERSION=3.2.0rc2
+pip install attrs==24.2.0 numpy==1.26.4 scipy==1.13.1 decorator==5.1.1 psutil==6.0.0 pytest==8.3.2 pytest-xdist==3.6.1 pyyaml pybind11
+pip install triton-ascend==$TRITON_ASCEND_VERSION
+
+
+pip install -e "python[srt_npu]"
+
+
+### Modify PyTorch TODO: to be removed later
+TORCH_LOCATION=$(python3 -c 'import torch; print(torch.__path__[0])')
+sed -i 's/from triton.runtime.autotuner import OutOfResources/from triton.runtime.errors import OutOfResources/' "${TORCH_LOCATION}/_inductor/runtime/triton_heuristics.py"
diff --git a/test/srt/test_ascend_attention_backend.py b/test/srt/test_ascend_attention_backend.py
index 4ca6bba8f3dc..e406fee3c070 100644
--- a/test/srt/test_ascend_attention_backend.py
+++ b/test/srt/test_ascend_attention_backend.py
@@ -20,22 +20,10 @@
     run_bench_offline_throughput,
 )
 
+DEFAULT_MODEL_NAME_FOR_TEST = "Qwen/Qwen2.5-7B-Instruct"
 
-class TestAscendAttnBackend(CustomTestCase):
-    def test_latency(self):
-        output_throughput = run_bench_offline_throughput(
-            DEFAULT_MODEL_NAME_FOR_TEST,
-            [
-                "--attention-backend",
-                "ascend",
-            ],
-        )
-
-        print(f"{output_throughput=}")
-
-        if is_in_ci():
-            self.assertGreater(output_throughput, 18)
 
+class TestAscendAttnBackend(CustomTestCase):
     def test_gsm8k(self):
         model = DEFAULT_MODEL_NAME_FOR_TEST
         base_url = DEFAULT_URL_FOR_TEST

From 7eebd4404764dd778e18cc0fc4866d97504271f0 Mon Sep 17 00:00:00 2001
From: JieXin Liang <Alcanderian@users.noreply.github.com>
Date: Mon, 21 Jul 2025 08:39:57 +0800
Subject: [PATCH 076/396] [fix] fix modelopt fp4 on b200 (#8195)

---
 python/sglang/srt/layers/quantization/petit.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/petit.py b/python/sglang/srt/layers/quantization/petit.py
index e7ee3239f64c..2c608507c9c2 100644
--- a/python/sglang/srt/layers/quantization/petit.py
+++ b/python/sglang/srt/layers/quantization/petit.py
@@ -21,6 +21,9 @@
     verify_petit_nvfp4_supported,
 )
 from sglang.srt.layers.quantization.utils import is_layer_skipped
+from sglang.srt.utils import is_hip
+
+_is_hip = is_hip()
 
 # Initialize logger for the module
 logger = logging.getLogger(__name__)
@@ -104,7 +107,7 @@ def override_quantization_method(cls, hf_quant_cfg, user_quant) -> Optional[str]
     @classmethod
     def is_petit_nvfp4_compatible(cls, quant_config: Dict[str, Any]) -> bool:
         quant_method = quant_config.get("quant_method", "").lower()
-        return quant_method == "modelopt"
+        return _is_hip and quant_method == "modelopt"
 
     def is_layer_excluded(self, prefix: str, exclude_modules: list):
         for pattern in exclude_modules:

From 429bb0efa2032c6f2826b97477f44f5326ba0a22 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sun, 20 Jul 2025 19:50:28 -0700
Subject: [PATCH 077/396] chore: bump sgl-kernel v0.2.6.post1 (#8200)

---
 docker/Dockerfile                       | 2 +-
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 5 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 97be3625af7c..1e5f21c9d5f5 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -60,7 +60,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
       python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps ; \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.6/sgl_kernel-0.2.6+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.6.post1/sgl_kernel-0.2.6.post1+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
 # Build and install NVSHMEM + DeepEP
diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index 4d8ff394df4d..3b49eab5d9a8 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.6"
+version = "0.2.6.post1"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index c243596515bd..6746b212d364 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.6"
+version = "0.2.6.post1"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 6ab48599c5cf..0ba8b0399bff 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.6"
+version = "0.2.6.post1"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index 01ef12070dc3..e39bc3f224a0 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.2.6"
+__version__ = "0.2.6.post1"

From c9e8613c9708afb1138f3ecef30517fb606a07a7 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Mon, 21 Jul 2025 11:19:48 +0800
Subject: [PATCH 078/396] Apply fused sorted token ids padding (#8193)

---
 .../sglang/srt/layers/moe/fused_moe_triton/fused_moe.py  | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
index a39d6d5d3da4..2466067461cf 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -752,14 +752,13 @@ def moe_align_block_size(
     sorted_ids = torch.empty(
         (max_num_tokens_padded,), dtype=torch.int32, device=topk_ids.device
     )
-    sorted_ids.fill_(topk_ids.numel())
-
     max_num_m_blocks = triton.cdiv(max_num_tokens_padded, block_size)
     expert_ids = torch.empty(
         (max_num_m_blocks,), dtype=torch.int32, device=topk_ids.device
     )
     num_tokens_post_pad = torch.empty((1), dtype=torch.int32, device=topk_ids.device)
     if enable_moe_align_block_size_triton:
+        sorted_ids.fill_(topk_ids.numel())
         moe_align_block_size_triton(
             topk_ids,
             num_experts,
@@ -778,6 +777,11 @@ def moe_align_block_size(
             device=topk_ids.device,
         )
 
+        # Threshold based on benchmark results
+        fuse_sorted_ids_padding = sorted_ids.shape[0] <= 4096
+        if not fuse_sorted_ids_padding:
+            sorted_ids.fill_(topk_ids.numel())
+
         sgl_moe_align_block_size(
             topk_ids,
             num_experts,
@@ -787,6 +791,7 @@ def moe_align_block_size(
             num_tokens_post_pad,
             token_cnts_buffer,
             cumsum_buffer,
+            fuse_sorted_ids_padding,
         )
     return sorted_ids, expert_ids, num_tokens_post_pad
 

From 8430bfe3e9ae7591feeca6c102e3b21984934a61 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Sun, 20 Jul 2025 21:43:09 -0700
Subject: [PATCH 079/396] [Refactor] simplify multimodal data processing
 (#8107)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
---
 docs/backend/vlm_query.ipynb                  |  4 +-
 python/sglang/srt/configs/deepseekvl2.py      | 13 ++-
 python/sglang/srt/configs/janus_pro.py        |  3 +
 python/sglang/srt/managers/mm_utils.py        | 14 +--
 .../multimodal_processors/qwen_audio.py       | 94 -------------------
 python/sglang/srt/managers/schedule_batch.py  | 72 ++++++--------
 python/sglang/srt/models/deepseek_vl2.py      |  6 +-
 python/sglang/srt/models/mllama4.py           |  4 +-
 python/sglang/srt/models/phi4mm.py            |  9 +-
 .../multimodal/processors/base_processor.py   | 81 ++++------------
 .../sglang/srt/multimodal/processors/clip.py  | 40 ++++----
 .../multimodal/processors/deepseek_vl_v2.py   | 34 ++-----
 .../srt/multimodal/processors/gemma3.py       |  2 -
 .../srt/multimodal/processors/gemma3n.py      |  2 -
 .../srt/multimodal/processors/internvl.py     |  3 +-
 .../srt/multimodal/processors/janus_pro.py    | 39 +++-----
 .../srt/multimodal/processors/kimi_vl.py      |  2 -
 .../sglang/srt/multimodal/processors/llava.py |  4 +-
 .../srt/multimodal/processors/minicpm.py      | 61 ++++++------
 .../sglang/srt/multimodal/processors/mlama.py | 39 ++++----
 .../srt/multimodal/processors/mllama4.py      |  3 +-
 .../srt/multimodal/processors/phi4mm.py       | 13 ++-
 .../srt/multimodal/processors/pixtral.py      | 47 +++-------
 .../srt/multimodal/processors/qwen_audio.py   | 65 +++++++++++++
 .../srt/multimodal/processors/qwen_vl.py      |  2 -
 .../sglang/srt/multimodal/processors/vila.py  |  2 -
 test/srt/test_vision_openai_server_a.py       | 33 +++----
 test/srt/test_vision_openai_server_b.py       |  1 +
 test/srt/test_vision_openai_server_common.py  | 22 ++++-
 test/srt/test_vlm_input_format.py             | 10 +-
 30 files changed, 300 insertions(+), 424 deletions(-)
 delete mode 100644 python/sglang/srt/managers/multimodal_processors/qwen_audio.py
 create mode 100644 python/sglang/srt/multimodal/processors/qwen_audio.py

diff --git a/docs/backend/vlm_query.ipynb b/docs/backend/vlm_query.ipynb
index b47d55580bc3..3f03a5671626 100644
--- a/docs/backend/vlm_query.ipynb
+++ b/docs/backend/vlm_query.ipynb
@@ -126,14 +126,14 @@
     "    images=[image], text=conv.get_prompt(), return_tensors=\"pt\"\n",
     ")\n",
     "input_ids = processed_prompt[\"input_ids\"][0].detach().cpu().tolist()\n",
-    "precomputed_features = vision(\n",
+    "precomputed_embeddings = vision(\n",
     "    processed_prompt[\"pixel_values\"].cuda(), processed_prompt[\"image_grid_thw\"].cuda()\n",
     ")\n",
     "\n",
     "mm_item = dict(\n",
     "    modality=\"IMAGE\",\n",
     "    image_grid_thw=processed_prompt[\"image_grid_thw\"],\n",
-    "    precomputed_features=precomputed_features,\n",
+    "    precomputed_embeddings=precomputed_embeddings,\n",
     ")\n",
     "out = llm.generate(input_ids=input_ids, image_data=[mm_item])\n",
     "print(out[\"text\"])"
diff --git a/python/sglang/srt/configs/deepseekvl2.py b/python/sglang/srt/configs/deepseekvl2.py
index 29fc49696fbd..bcb0afe5ae74 100644
--- a/python/sglang/srt/configs/deepseekvl2.py
+++ b/python/sglang/srt/configs/deepseekvl2.py
@@ -42,6 +42,9 @@ def select_best_resolution(image_size, candidate_resolutions):
 
 
 class DictOutput(object):
+    def items(self):
+        return self.__dict__.items()
+
     def keys(self):
         return self.__dict__.keys()
 
@@ -59,7 +62,9 @@ def __setitem__(self, key, value):
 class VLChatProcessorOutput(DictOutput):
     input_ids: torch.LongTensor
     target_ids: torch.LongTensor
-    images: torch.Tensor
+    pixel_values: (
+        torch.Tensor
+    )  # rename from "images" to "pixel_values" for compatibility
     images_seq_mask: torch.BoolTensor
     images_spatial_crop: torch.LongTensor
 
@@ -312,10 +317,14 @@ def process_one(
             images = torch.stack(images_list, dim=0)
             images_spatial_crop = torch.tensor(images_spatial_crop, dtype=torch.long)
 
+        images_spatial_crop = torch.stack(
+            [images_spatial_crop], dim=0
+        )  # stack the tensor to make it a batch of 1
+
         prepare = VLChatProcessorOutput(
             input_ids=input_ids,
             target_ids=target_ids,
-            images=images,
+            pixel_values=images,
             images_seq_mask=images_seq_mask,
             images_spatial_crop=images_spatial_crop,
         )
diff --git a/python/sglang/srt/configs/janus_pro.py b/python/sglang/srt/configs/janus_pro.py
index 143ebf578836..d574953e95d9 100644
--- a/python/sglang/srt/configs/janus_pro.py
+++ b/python/sglang/srt/configs/janus_pro.py
@@ -284,6 +284,9 @@ def default_shape(self):
 
 
 class DictOutput(object):
+    def items(self):
+        return self.__dict__.items()
+
     def keys(self):
         return self.__dict__.keys()
 
diff --git a/python/sglang/srt/managers/mm_utils.py b/python/sglang/srt/managers/mm_utils.py
index d36d5d1d968c..f3faa75d9a07 100644
--- a/python/sglang/srt/managers/mm_utils.py
+++ b/python/sglang/srt/managers/mm_utils.py
@@ -221,17 +221,17 @@ def _get_precomputed_embedding(
     items: List[MultimodalDataItem],
 ) -> Optional[torch.Tensor]:
     """
-    If all items have precomputed_features, return their concatenation.
-    If some but not all have precomputed_features, raise NotImplementedError.
-    If none have precomputed_features, return None.
+    If all items have precomputed_embeddings, return their concatenation.
+    If some but not all have precomputed_embeddings, raise NotImplementedError.
+    If none have precomputed_embeddings, return None.
     """
-    precomputed_features = [item.precomputed_features for item in items]
-    if any(feature is not None for feature in precomputed_features):
-        if not all(feature is not None for feature in precomputed_features):
+    precomputed_embeddings = [item.precomputed_embeddings for item in items]
+    if any(feature is not None for feature in precomputed_embeddings):
+        if not all(feature is not None for feature in precomputed_embeddings):
             raise NotImplementedError(
                 "MM inputs where only some items are precomputed."
             )
-        result = torch.concat(precomputed_features)
+        result = torch.concat(precomputed_embeddings)
         # some models embedding is 3-dim, reshape it to 2-dim (similar to get_embedding_chunk)
         result = result.reshape(-1, result.shape[-1])
         return result
diff --git a/python/sglang/srt/managers/multimodal_processors/qwen_audio.py b/python/sglang/srt/managers/multimodal_processors/qwen_audio.py
deleted file mode 100644
index 23b7de5cfd96..000000000000
--- a/python/sglang/srt/managers/multimodal_processors/qwen_audio.py
+++ /dev/null
@@ -1,94 +0,0 @@
-import re
-from typing import List, Union
-
-import torch
-
-from sglang.srt.managers.multimodal_processors.base_processor import (
-    BaseMultimodalProcessor,
-    MultimodalSpecialTokens,
-)
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
-from sglang.srt.models.qwen2_audio import Qwen2AudioForConditionalGeneration
-
-
-class Qwen2AudioMultimodalProcessor(BaseMultimodalProcessor):
-    models = [Qwen2AudioForConditionalGeneration]
-
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
-        self.AUDIO_TOKEN = "<|audio_bos|><|AUDIO|><|audio_eos|>"
-        self.AUDIO_TOKEN_REGEX = re.compile(
-            r"<\|audio_bos\|>(?:<\|AUDIO\|>)+<\|audio_eos\|>"
-        )
-
-    async def process_mm_data_async(
-        self,
-        image_data: List[Union[str, bytes]],
-        input_text,
-        request_obj,
-        max_req_input_len,
-        **kwargs,
-    ):
-        audio_data = request_obj.audio_data
-        if not isinstance(audio_data, list):
-            audio_data = [audio_data]
-
-        base_output = self.load_mm_data(
-            prompt=input_text,
-            max_req_input_len=max_req_input_len,
-            audio_data=audio_data,
-            multimodal_tokens=MultimodalSpecialTokens(
-                audio_token=self.AUDIO_TOKEN,
-                audio_token_regex=self.AUDIO_TOKEN_REGEX,
-            ),
-        )
-        if base_output is None:
-            return None
-
-        res = self.process_mm_data(
-            input_text=base_output.input_text,
-            audio=base_output.audios,
-        )
-
-        # Collect special token ids
-        tokenizer = self._processor.tokenizer
-        audio_start_id = tokenizer.convert_tokens_to_ids("<|audio_bos|>")
-        audio_token_id = tokenizer.convert_tokens_to_ids("<|AUDIO|>")
-        audio_end_id = tokenizer.convert_tokens_to_ids("<|audio_eos|>")
-
-        items = []
-        input_ids = res["input_ids"].flatten()
-
-        if (
-            "input_features" in res
-            and res["input_features"] is not None
-            and len(res["input_features"]) != 0
-        ):
-            if audio_start_id is not None and audio_end_id is not None:
-                audio_offsets = self.get_mm_items_offset_by_pair(
-                    input_ids=input_ids,
-                    mm_start_id=audio_start_id,
-                    mm_end_id=audio_end_id,
-                )
-            else:
-                audio_offsets = None
-
-            input_lengths = res["feature_attention_mask"].sum(dim=-1)
-            input_lengths = (input_lengths - 1) // 2 + 1
-            output_lengths = (input_lengths - 2) // 2 + 1
-
-            item = MultimodalDataItem(
-                feature=res["input_features"],
-                audio_feature_lens=output_lengths,
-                audio_offsets=audio_offsets,
-                modality=Modality.AUDIO,
-            )
-            items += [item]
-
-        return {
-            "mm_items": items,
-            "input_ids": input_ids.tolist(),
-            "audio_start_id": audio_start_id,
-            "audio_token_id": audio_token_id,
-            "audio_end_id": audio_end_id,
-        }
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index a9ed66f9aa3d..536198cd27b4 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -201,7 +201,7 @@ class MultimodalDataItem:
     For example, if there are 3 images and 1 audio inputs, there will be 2 MultimodalDataItem.
     One for images and one for audio.
 
-    We put the common fields first and the model-specific fields last.
+    We put the common fields first and the model-specific fields in model_specific_data.
     """
 
     modality: Modality
@@ -211,37 +211,31 @@ class MultimodalDataItem:
     # the raw features returned by processor, e.g. pixel_values or audio_features
     feature: Union[torch.Tensor, np.ndarray] = None
 
-    image_sizes: Tuple[int, int] = None
+    # the precomputed embeddings for the modality, e.g. image_emb for image, audio_emb for audio
+    precomputed_embeddings: Optional[Union[torch.Tensor, np.ndarray]] = None
 
-    audio_feature_lens: Optional[List[torch.Tensor]] = None
-    audio_offsets: Optional[List[Tuple[int, int]]] = None
-    precomputed_features: Optional[Union[torch.Tensor, np.ndarray]] = None
+    # Model-specific data stored in a dictionary
+    model_specific_data: dict[str, Any] = dataclasses.field(default_factory=dict)
 
-    # For qwen-vl
-    image_grid_thw: Union[torch.Tensor, np.ndarray] = None
-    second_per_grid_ts: Optional[List[torch.Tensor]] = None
-
-    # For deepseek-vl
-    image_emb_mask: Optional[torch.Tensor] = None
-    image_spatial_crop: Optional[torch.Tensor] = None
-
-    # For minicpmv
-    # [num_images, (n, w, h)]
-    tgt_size: Tuple[int, int] = None
-
-    # For mllama
-    aspect_ratio_id: Optional[List[torch.Tensor]] = None
-    aspect_ratio_mask: Optional[List[torch.Tensor]] = None
-
-    # For kimi-vl
-    image_grid_hws: Optional[List[torch.Tensor]] = None
+    def __getattr__(self, name: str):
+        if (
+            "model_specific_data" in self.__dict__
+            and name in self.__dict__["model_specific_data"]
+        ):
+            return self.__dict__["model_specific_data"][name]
+        else:
+            raise AttributeError(
+                f"'{self.__class__.__name__}' object has no attribute '{name}'"
+            )
 
-    # For gemma3n
-    input_features_mask: Optional[torch.Tensor] = None
+    def __setitem__(self, key: str, value: Any):
+        if key in self.__dict__:
+            self.__dict__[key] = value
+        else:
+            self.model_specific_data[key] = value
 
-    # For phi4-mm
-    image_attention_mask: Optional[torch.Tensor] = None
-    audio_attention_mask: Optional[torch.Tensor] = None
+    def set(self, key: str, value: Any):
+        self.__setitem__(key, value)
 
     @staticmethod
     def is_empty_list(l):
@@ -259,7 +253,7 @@ def set_pad_value(self):
             if self.feature is not None:
                 hashed_feature = self.feature
             else:
-                hashed_feature = self.precomputed_features
+                hashed_feature = self.precomputed_embeddings
             self.hash = hash_feature(hashed_feature)
         assert self.hash is not None
         self.pad_value = self.hash % (1 << 30)
@@ -268,24 +262,13 @@ def is_modality(self, modality: Modality) -> bool:
         return self.modality == modality
 
     def is_audio(self):
-        return (self.modality == Modality.AUDIO) and (
-            self.precomputed_features is not None
-            or not MultimodalDataItem.is_empty_list(self.feature)
-        )
+        return self.modality == Modality.AUDIO
 
     def is_image(self):
-        return (
-            self.is_modality(Modality.IMAGE) or self.is_modality(Modality.MULTI_IMAGES)
-        ) and (
-            self.precomputed_features is not None
-            or not MultimodalDataItem.is_empty_list(self.feature)
-        )
+        return self.modality in [Modality.IMAGE, Modality.MULTI_IMAGES]
 
     def is_video(self):
-        return (self.modality == Modality.VIDEO) and (
-            self.precomputed_features is not None
-            or not MultimodalDataItem.is_empty_list(self.feature)
-        )
+        return self.modality == Modality.VIDEO
 
     def is_valid(self) -> bool:
         return self.is_image() or self.is_video() or self.is_audio()
@@ -306,8 +289,7 @@ def from_dict(obj: dict):
 
     def merge(self, other):
         self.feature += other.feature
-        self.image_sizes += other.image_sizes
-        self.image_offsets += other.image_offsets
+        self.offsets += other.offsets
         self.hash = hash((self.hash, other.hash))
         self.set_pad_value()
 
diff --git a/python/sglang/srt/models/deepseek_vl2.py b/python/sglang/srt/models/deepseek_vl2.py
index cf4988b5201b..3fba37008b64 100644
--- a/python/sglang/srt/models/deepseek_vl2.py
+++ b/python/sglang/srt/models/deepseek_vl2.py
@@ -260,7 +260,7 @@ def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
     def get_image_feature(self, items: List[MultimodalDataItem]):
 
         images_spatial_crop = torch.cat(
-            [item.image_spatial_crop for item in items], dim=0
+            [item.images_spatial_crop for item in items], dim=0
         )
 
         assert images_spatial_crop.dim() == 3
@@ -278,8 +278,8 @@ def get_image_feature(self, items: List[MultimodalDataItem]):
             _, hw, n_dim = images_embeds.shape
             h = w = int(hw**0.5)
             tile_index = 0
-            for jdx in range(item.image_spatial_crop.shape[1]):
-                num_width_tiles, num_height_tiles = item.image_spatial_crop[0, jdx]
+            for jdx in range(item.images_spatial_crop.shape[1]):
+                num_width_tiles, num_height_tiles = item.images_spatial_crop[0, jdx]
                 if num_width_tiles == 0 or num_height_tiles == 0:
                     break
                 num_tiles_in_image = num_width_tiles * num_height_tiles
diff --git a/python/sglang/srt/models/mllama4.py b/python/sglang/srt/models/mllama4.py
index 18b7e57e5872..8712191a98af 100644
--- a/python/sglang/srt/models/mllama4.py
+++ b/python/sglang/srt/models/mllama4.py
@@ -81,6 +81,7 @@ def __init__(
         self.logits_processor = LogitsProcessor(
             config.text_config if hasattr(config, "text_config") else config
         )
+        self.padding_pattern = MultiModalityDataPaddingPatternMultimodalTokens()
 
     def _has_vision_weights(self, config) -> bool:
         """Check if the model has vision components by examining the checkpoint."""
@@ -135,8 +136,7 @@ def _check_vision_weights_in_index(self, index_file: str) -> bool:
             return False
 
     def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
-        pattern = MultiModalityDataPaddingPatternMultimodalTokens()
-        return pattern.pad_input_tokens(input_ids, mm_inputs)
+        return self.padding_pattern.pad_input_tokens(input_ids, mm_inputs)
 
     def get_image_feature(
         self,
diff --git a/python/sglang/srt/models/phi4mm.py b/python/sglang/srt/models/phi4mm.py
index b7997fc0acae..e1c5fee7837e 100644
--- a/python/sglang/srt/models/phi4mm.py
+++ b/python/sglang/srt/models/phi4mm.py
@@ -435,7 +435,12 @@ def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
         dtype = next(self.vision_encoder.parameters()).dtype
         pixel_values = torch.cat([item.feature for item in items], dim=0).type(dtype)
         image_attention_mask = torch.cat(
-            [item.image_attention_mask for item in items], dim=0
+            [
+                item.image_attention_mask
+                for item in items
+                if hasattr(item, "image_attention_mask")
+            ],
+            dim=0,
         )
         image_sizes = torch.cat([item.image_sizes for item in items], dim=0)
         image_embeds = self.vision_encoder(
@@ -456,7 +461,7 @@ def get_audio_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
                 audio_features=item.feature.to(device).type(dtype),
                 audio_attention_mask=(
                     item.audio_attention_mask.to(device)
-                    if item.audio_attention_mask is not None
+                    if hasattr(item, "audio_attention_mask")
                     else None
                 ),
             )
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 6c6495c5f8f0..b79d90b987ea 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -5,7 +5,7 @@
 import os
 import re
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Optional, Tuple, Union
+from typing import Any, Dict, Iterator, List, Optional, Tuple, Union
 
 import numpy as np
 import torch
@@ -155,17 +155,15 @@ def __init__(self, hf_config, server_args, _processor):
         self.ATTR_NAME_TO_MODALITY = {
             # Image-related attributes
             "pixel_values": Modality.IMAGE,
-            "pixel_values_videos": Modality.VIDEO,
             "image_sizes": Modality.IMAGE,
             "image_grid_thw": Modality.IMAGE,
             "image_attention_mask": Modality.IMAGE,
             "image_emb_mask": Modality.IMAGE,
-            "image_spatial_crop": Modality.IMAGE,
+            "images_spatial_crop": Modality.IMAGE,
             "tgt_size": Modality.IMAGE,
             "image_grid_hws": Modality.IMAGE,
-            "aspect_ratio_id": Modality.IMAGE,
+            "aspect_ratio_ids": Modality.IMAGE,
             "aspect_ratio_mask": Modality.IMAGE,
-            "second_per_grid_ts": Modality.IMAGE,
             # Audio-related attributes
             "audio_features": Modality.AUDIO,
             "audio_feature_lens": Modality.AUDIO,
@@ -173,9 +171,11 @@ def __init__(self, hf_config, server_args, _processor):
             "input_features_mask": Modality.AUDIO,
             "audio_attention_mask": Modality.AUDIO,
             # Video-related attributes
+            "pixel_values_videos": Modality.VIDEO,
+            "second_per_grid_ts": Modality.VIDEO,
             "video_grid_thw": Modality.VIDEO,
             # Generic attributes that could apply to multiple modalities
-            # "precomputed_features" - handled specially as it can be any modality
+            # "precomputed_embeddings" - handled specially as it can be any modality
         }
 
         # name of the feature filed
@@ -222,7 +222,6 @@ async def process_mm_data_async(
         audio_data,
         input_text,
         request_obj,
-        max_req_input_len,
         **kwargs,
     ) -> Optional[Dict[str, Any]]:
         pass
@@ -283,7 +282,7 @@ def submit_data_loading_tasks(
         self,
         text_parts: List[str],
         multimodal_tokens: MultimodalSpecialTokens,
-        data_iterators: dict,
+        data_iterators: dict[Modality, Iterator[Any]],
         discard_alpha_channel: bool = True,
         image_estimated_frames_iter: Optional[iter] = None,
         image_scaling_factor: float = 1.0,
@@ -354,7 +353,6 @@ def load_mm_data(
         self,
         prompt: str,
         multimodal_tokens: MultimodalSpecialTokens,
-        max_req_input_len: int,
         image_data: Optional[list] = None,
         video_data: Optional[list] = None,
         audio_data: Optional[list] = None,
@@ -489,50 +487,11 @@ def get_mm_items_offset_by_pair(
 
         return list(zip(indices_start.tolist(), indices_end.tolist()))
 
-    @staticmethod
-    def _extract_processor_features(
-        items: List[dict], attr_name: str
-    ) -> Optional[torch.Tensor]:
-        """
-        Helper function to concat extracted attributes from processor output.
-        """
-        values = [value for item in items if (value := item.get(attr_name)) is not None]
-        return torch.cat(values) if values else None
-
-    # When we assume that all the items have the same attributes
-    def _extract_processor_features_from_all_attributes(
-        self, items: List[dict]
-    ) -> dict:
-        values = {}
-        # Verify all items have the same keys
-        first_keys = set(items[0].keys())
-        for item in items[1:]:
-            if set(item.keys()) != first_keys:
-                raise ValueError(
-                    f"All items must have the same attributes. "
-                    f"First item has {first_keys}, but found {set(item.keys())}"
-                )
-
-        # Process each attribute
-        for k, v in items[0].items():
-            if isinstance(v, list):
-                values[k] = self._extract_processor_features(items, k)
-            else:
-                # Verify all items have the same value for non-list attributes
-                for item in items[1:]:
-                    if item[k] != v:
-                        raise ValueError(
-                            f"All items must have the same value for attribute {k}. "
-                            f"First item has {v}, but found {item[k]}"
-                        )
-                values[k] = v
-        return values
-
     def collect_mm_items_from_processor_output(
         self, data_dict: dict
     ) -> List[MultimodalDataItem]:
         """Create mm_items directly from processor output."""
-        items = {}  # modality -> MultimodalDataItem
+        items: dict[Modality, MultimodalDataItem] = {}
 
         for attr_name, value in data_dict.items():
             if attr_name == "input_ids":
@@ -541,16 +500,15 @@ def collect_mm_items_from_processor_output(
             # Get modality for this attribute
             modality = self.ATTR_NAME_TO_MODALITY.get(attr_name)
 
-            if not modality and attr_name == "precomputed_features":
+            if attr_name == "precomputed_embeddings":
                 modality_str = data_dict.get("modality")
-                try:
-                    modality = (
-                        Modality.from_str(modality_str)
-                        if modality_str
-                        else Modality.IMAGE
-                    )
-                except ValueError:
-                    modality = Modality.IMAGE
+                modality = Modality.IMAGE
+                if modality_str:
+                    try:
+                        modality = Modality.from_str(modality_str)
+                    except ValueError:
+                        pass
+
             if modality:
                 # Create item if needed
                 if modality not in items:
@@ -559,8 +517,7 @@ def collect_mm_items_from_processor_output(
                 if attr_name in self.FEATURE_NAMES:
                     attr_name = "feature"
 
-                # Set attribute
-                setattr(items[modality], attr_name, value)
+                items[modality].set(attr_name, value)
 
         return list(items.values())
 
@@ -586,6 +543,7 @@ def process_and_combine_mm_data(
         self,
         base_output: BaseMultiModalProcessorOutput,
         mm_tokens: MultimodalSpecialTokens,
+        **kwargs,
     ) -> Tuple[List[MultimodalDataItem], torch.Tensor, dict]:
         """
         Process multimodal data and return the combined multimodal items and input_ids.
@@ -618,7 +576,7 @@ def process_and_combine_mm_data(
             else:
                 raise ValueError(f"Unknown multimodal item type: {type(item)}")
         # Process items and get input_ids
-        all_collected_items = []
+        all_collected_items: list[MultimodalDataItem] = []
         input_ids = None
 
         # Handle dict items (already processed)
@@ -634,6 +592,7 @@ def process_and_combine_mm_data(
                 images=raw_images,
                 audios=raw_audios,
                 videos=raw_videos,
+                **kwargs,
             )
             all_collected_items.extend(collected_items)
         else:
diff --git a/python/sglang/srt/multimodal/processors/clip.py b/python/sglang/srt/multimodal/processors/clip.py
index a36269819c42..0925212cb44c 100644
--- a/python/sglang/srt/multimodal/processors/clip.py
+++ b/python/sglang/srt/multimodal/processors/clip.py
@@ -1,9 +1,10 @@
 from typing import List, Union
 
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.clip import CLIPModel
-from sglang.srt.multimodal.processors.base_processor import BaseMultimodalProcessor
-from sglang.srt.utils import load_image
+from sglang.srt.multimodal.processors.base_processor import (
+    BaseMultimodalProcessor,
+    MultimodalSpecialTokens,
+)
 
 
 class ClipImageProcessor(BaseMultimodalProcessor):
@@ -11,23 +12,24 @@ class ClipImageProcessor(BaseMultimodalProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
+        self.mm_tokens = MultimodalSpecialTokens(image_token="<image>").build(
+            _processor
+        )
 
     async def process_mm_data_async(
         self, image_data: List[Union[str, bytes]], input_text, *args, **kwargs
     ):
-        if isinstance(input_text, list):
-            assert len(input_text) and isinstance(input_text[0], int)
-            input_text = self._processor.tokenizer.decode(input_text)
-
-        images = [load_image(image)[0] for image in image_data]
-
-        image_inputs = self.process_mm_data(input_text=input_text, images=images)
-        image_inputs["data_hashes"] = [hash(str(image_data))]
-        image_inputs["input_ids"] = image_inputs["input_ids"].tolist()[0]
-        image_inputs["mm_items"] = [
-            MultimodalDataItem(
-                feature=image_inputs["pixel_values"], modality=Modality.IMAGE
-            )
-        ]
-
-        return image_inputs
+        base_output = self.load_mm_data(
+            prompt=input_text,
+            multimodal_tokens=self.mm_tokens,
+            image_data=image_data,
+        )
+
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
+
+        return {
+            "input_ids": input_ids.tolist(),
+            "mm_items": mm_items,
+        }
diff --git a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
index c21dce176905..9847929f7b0f 100644
--- a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
+++ b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
@@ -33,9 +33,9 @@ class DeepseekVL2ImageProcessor(BaseMultimodalProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        self.mm_tokens = MultimodalSpecialTokens(image_token="<image>").build(
-            _processor
-        )
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="<image>", image_token_id=self._processor.image_token_id
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
@@ -50,36 +50,16 @@ async def process_mm_data_async(
             input_text,
             image_data=image_data,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
         )
-        res = self.process_mm_data(
-            input_text=base_output.input_text,
-            images=base_output.images,
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output,
+            self.mm_tokens,
             max_req_input_len=max_req_input_len,
             conversations=base_output.input_text,
         )
-        images_seq_mask = res["images_seq_mask"]
-        images_spatial_crop = res["images_spatial_crop"]
-        batched_images_spatial_crop = []
-        batched_images_spatial_crop.append(images_spatial_crop)
-        batched_images_spatial_crop = torch.stack(batched_images_spatial_crop, dim=0)
-
-        items = []
-        input_ids = res["input_ids"]
-        image_offsets = self.get_mm_items_offset(
-            input_ids=input_ids, mm_token_id=self._processor.image_token_id
-        )
-        item = MultimodalDataItem(
-            feature=res["images"],
-            offsets=image_offsets,
-            modality=Modality.IMAGE,
-            image_emb_mask=images_seq_mask,
-            image_spatial_crop=batched_images_spatial_crop,
-        )
-        items += [item]
 
         return {
-            "mm_items": items,
+            "mm_items": mm_items,
             "input_ids": input_ids.tolist(),
             "im_token_id": self._processor.image_token_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/gemma3.py b/python/sglang/srt/multimodal/processors/gemma3.py
index dac9bd5c8241..9abf172b2c09 100644
--- a/python/sglang/srt/multimodal/processors/gemma3.py
+++ b/python/sglang/srt/multimodal/processors/gemma3.py
@@ -33,7 +33,6 @@ async def process_mm_data_async(
         image_data: List[Union[str, bytes, Dict]],
         input_text,
         request_obj,
-        max_req_input_len,
         *args,
         **kwargs,
     ):
@@ -41,7 +40,6 @@ async def process_mm_data_async(
             prompt=input_text,
             image_data=image_data,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
             discard_alpha_channel=True,
         )
 
diff --git a/python/sglang/srt/multimodal/processors/gemma3n.py b/python/sglang/srt/multimodal/processors/gemma3n.py
index aafeab7c9383..938819d9143e 100644
--- a/python/sglang/srt/multimodal/processors/gemma3n.py
+++ b/python/sglang/srt/multimodal/processors/gemma3n.py
@@ -54,7 +54,6 @@ async def process_mm_data_async(
         audio_data: Optional[List[Union[str, bytes, Dict]]] = None,
         input_text: str = "",
         request_obj=None,
-        max_req_input_len: int = 0,
         *args,
         **kwargs,
     ):
@@ -63,7 +62,6 @@ async def process_mm_data_async(
             prompt=input_text,
             image_data=image_data,
             audio_data=audio_data,
-            max_req_input_len=max_req_input_len,
             multimodal_tokens=self.mm_tokens,
         )
 
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index d3413c457dde..12823077f0ad 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -170,13 +170,12 @@ def load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=3
         return pixel_values, num_patches_list
 
     async def process_mm_data_async(
-        self, image_data, input_text, request_obj, max_req_input_len, **kwargs
+        self, image_data, input_text, request_obj, **kwargs
     ):
         base_output = self.load_mm_data(
             prompt=input_text,
             image_data=image_data,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
             discard_alpha_channel=True,
         )
 
diff --git a/python/sglang/srt/multimodal/processors/janus_pro.py b/python/sglang/srt/multimodal/processors/janus_pro.py
index 28be34c57b01..4dd8c1a8476a 100644
--- a/python/sglang/srt/multimodal/processors/janus_pro.py
+++ b/python/sglang/srt/multimodal/processors/janus_pro.py
@@ -11,52 +11,35 @@
 class JanusProImageProcessor(BaseMultimodalProcessor):
     models = [MultiModalityCausalLM]
 
-    def __init__(self, hf_config, server_args, processor):
-        super().__init__(hf_config, server_args, processor)
+    def __init__(self, hf_config, server_args, _processor):
+        super().__init__(hf_config, server_args, _processor)
 
         self.mm_tokens = MultimodalSpecialTokens(
-            image_token=processor.image_token
-        ).build(processor)
+            image_token=_processor.image_token,
+            image_token_id=_processor.image_id,
+        ).build(_processor)
 
     async def process_mm_data_async(
         self,
         image_data: List[Union[str, bytes]],
         input_text,
         request_obj,
-        max_req_input_len,
         **kwargs,
     ):
-        processor = self._processor
-
         base_out = self.load_mm_data(
             prompt=input_text,
             image_data=image_data,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
         )
 
-        images = base_out.images
-        res = self.process_mm_data(
-            input_text=base_out.input_text,
-            prompt=base_out.input_text,
-            images=images,
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_out, self.mm_tokens, prompt=base_out.input_text
         )
 
-        input_ids = res["input_ids"].flatten()
-        image_offsets = self.get_mm_items_offset(
-            input_ids=input_ids, mm_token_id=processor.image_id
-        )
         return {
-            "mm_items": [
-                MultimodalDataItem(
-                    feature=res["pixel_values"],
-                    image_emb_mask=res["images_emb_mask"],
-                    offsets=image_offsets,
-                    modality=Modality.IMAGE,
-                )
-            ],
+            "mm_items": mm_items,
             "input_ids": input_ids.tolist(),
-            "im_start_id": processor.image_start_id,
-            "im_end_id": processor.image_end_id,
-            "im_token_id": processor.image_id,
+            "im_start_id": self._processor.image_start_id,
+            "im_end_id": self._processor.image_end_id,
+            "im_token_id": self.mm_tokens.image_token_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/kimi_vl.py b/python/sglang/srt/multimodal/processors/kimi_vl.py
index ef533c16d579..84c4a5133853 100644
--- a/python/sglang/srt/multimodal/processors/kimi_vl.py
+++ b/python/sglang/srt/multimodal/processors/kimi_vl.py
@@ -26,7 +26,6 @@ async def process_mm_data_async(
         image_data: List[Union[str, bytes, Dict]],
         input_text,
         request_obj,
-        max_req_input_len,
         *args,
         **kwargs,
     ):
@@ -34,7 +33,6 @@ async def process_mm_data_async(
             prompt=input_text,
             image_data=image_data,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
         )
 
         mm_items, input_ids, _ = self.process_and_combine_mm_data(
diff --git a/python/sglang/srt/multimodal/processors/llava.py b/python/sglang/srt/multimodal/processors/llava.py
index 03c4bf5ec634..f4504ecea2de 100644
--- a/python/sglang/srt/multimodal/processors/llava.py
+++ b/python/sglang/srt/multimodal/processors/llava.py
@@ -159,7 +159,9 @@ async def process_mm_data_async(
             "mm_items": [
                 MultimodalDataItem(
                     feature=pixel_values,
-                    image_sizes=image_sizes,
+                    model_specific_data={
+                        "image_sizes": image_sizes,
+                    },
                     modality=modality,
                 )
             ],
diff --git a/python/sglang/srt/multimodal/processors/minicpm.py b/python/sglang/srt/multimodal/processors/minicpm.py
index 3ba547b380e0..ed4f86511b1d 100644
--- a/python/sglang/srt/multimodal/processors/minicpm.py
+++ b/python/sglang/srt/multimodal/processors/minicpm.py
@@ -17,10 +17,21 @@ class MiniCPMMultimodalProcessor(BaseMultimodalProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
+        # Collect special token ids
+        tokenizer = self._processor.tokenizer
+        self.slice_start_id = getattr(tokenizer, "slice_start_id", None)
+        self.slice_end_id = getattr(tokenizer, "slice_end_id", None)
+        self.audio_start_id = getattr(tokenizer, "audio_start_id", None)
+        self.audio_end_id = getattr(tokenizer, "audio_end_id", None)
+        self.im_start_id = getattr(tokenizer, "im_start_id", None)
+        self.im_end_id = getattr(tokenizer, "im_end_id", None)
+        self.im_token_id = getattr(tokenizer, "unk_id", None)
+
         self.mm_tokens = MultimodalSpecialTokens(
             image_token="(<image>./</image>)",
             audio_token="(<audio>./</audio>)",
             video_token="(<video>./</video>)",
+            image_token_id=self.im_token_id,
         ).build(_processor)
 
     async def process_mm_data_async(
@@ -29,12 +40,10 @@ async def process_mm_data_async(
         audio_data: List[Union[str, bytes]],
         input_text,
         request_obj,
-        max_req_input_len,
         **kwargs,
     ):
         base_output = self.load_mm_data(
             prompt=input_text,
-            max_req_input_len=max_req_input_len,
             audio_data=audio_data,
             image_data=image_data,
             multimodal_tokens=self.mm_tokens,
@@ -48,24 +57,6 @@ async def process_mm_data_async(
             audios=base_output.audios,
         )
 
-        # Collect special token ids
-        tokenizer = self._processor.tokenizer
-        slice_start_id, slice_end_id, audio_start_id, audio_end_id = (
-            None,
-            None,
-            None,
-            None,
-        )
-        if tokenizer.slice_start_id:
-            slice_start_id = tokenizer.slice_start_id
-            slice_end_id = tokenizer.slice_end_id
-        if hasattr(tokenizer, "audio_start_id"):
-            audio_start_id = tokenizer.audio_start_id
-            audio_end_id = tokenizer.audio_end_id
-
-        im_start_id = tokenizer.im_start_id
-        im_end_id = tokenizer.im_end_id
-        im_token_id = tokenizer.unk_id
         pixel_values = res["pixel_values"]
         tgt_sizes = res["tgt_sizes"]
 
@@ -102,10 +93,12 @@ async def process_mm_data_async(
         items = []
         input_ids = res["input_ids"].flatten()
         image_offsets = self.get_mm_items_offset_by_pair(
-            input_ids=input_ids, mm_start_id=im_start_id, mm_end_id=im_end_id
+            input_ids=input_ids, mm_start_id=self.im_start_id, mm_end_id=self.im_end_id
         )
         slice_offsets = self.get_mm_items_offset_by_pair(
-            input_ids=input_ids, mm_start_id=slice_start_id, mm_end_id=slice_end_id
+            input_ids=input_ids,
+            mm_start_id=self.slice_start_id,
+            mm_end_id=self.slice_end_id,
         )
         image_offsets.extend(slice_offsets)
         image_offsets = sorted(image_offsets)
@@ -114,7 +107,7 @@ async def process_mm_data_async(
             item = MultimodalDataItem(
                 feature=pixel_values,
                 offsets=image_offsets,
-                tgt_size=tgt_sizes_flat,
+                model_specific_data={"tgt_size": tgt_sizes_flat},
                 modality=Modality.IMAGE,
             )
             items += [item]
@@ -124,17 +117,17 @@ async def process_mm_data_async(
             and res["audio_features"] is not None
             and len(res["audio_features"]) != 0
         ):
-            if audio_start_id is not None and audio_end_id is not None:
+            if self.audio_start_id is not None and self.audio_end_id is not None:
                 audio_offsets = self.get_mm_items_offset_by_pair(
                     input_ids=input_ids,
-                    mm_start_id=audio_start_id,
-                    mm_end_id=audio_end_id,
+                    mm_start_id=self.audio_start_id,
+                    mm_end_id=self.audio_end_id,
                 )
             else:
                 audio_offsets = None
             item = MultimodalDataItem(
                 feature=[res["audio_features"]],
-                audio_feature_lens=res["audio_feature_lens"],
+                model_specific_data={"audio_feature_lens": res["audio_feature_lens"]},
                 offsets=audio_offsets,
                 modality=Modality.AUDIO,
             )
@@ -142,11 +135,11 @@ async def process_mm_data_async(
         return {
             "mm_items": items,
             "input_ids": input_ids.tolist(),
-            "audio_start_id": audio_start_id,
-            "audio_end_id": audio_end_id,
-            "im_token_id": im_token_id,
-            "im_start_id": im_start_id,
-            "im_end_id": im_end_id,
-            "slice_start_id": slice_start_id,
-            "slice_end_id": slice_end_id,
+            "audio_start_id": self.audio_start_id,
+            "audio_end_id": self.audio_end_id,
+            "im_token_id": self.im_token_id,
+            "im_start_id": self.im_start_id,
+            "im_end_id": self.im_end_id,
+            "slice_start_id": self.slice_start_id,
+            "slice_end_id": self.slice_end_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/mlama.py b/python/sglang/srt/multimodal/processors/mlama.py
index 783145027b79..dd31844525b4 100644
--- a/python/sglang/srt/multimodal/processors/mlama.py
+++ b/python/sglang/srt/multimodal/processors/mlama.py
@@ -1,9 +1,10 @@
 from typing import List, Union
 
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.mllama import MllamaForConditionalGeneration
-from sglang.srt.multimodal.processors.base_processor import BaseMultimodalProcessor
-from sglang.srt.utils import load_image
+from sglang.srt.multimodal.processors.base_processor import (
+    BaseMultimodalProcessor,
+    MultimodalSpecialTokens,
+)
 
 
 class MllamaImageProcessor(BaseMultimodalProcessor):
@@ -11,24 +12,26 @@ class MllamaImageProcessor(BaseMultimodalProcessor):
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token=self._processor.image_token,
+            image_token_id=self._processor.image_token_id,
+        ).build(_processor)
 
     async def process_mm_data_async(
         self, image_data: List[Union[str, bytes]], input_text, *args, **kwargs
     ):
-        if isinstance(input_text, list):
-            assert len(input_text) and isinstance(input_text[0], int)
-            input_text = self._processor.tokenizer.decode(input_text)
+        base_out = self.load_mm_data(
+            prompt=input_text,
+            image_data=image_data,
+            multimodal_tokens=self.mm_tokens,
+        )
 
-        images = [load_image(image)[0] for image in image_data]
-        image_inputs = self.process_mm_data(input_text=input_text, images=images)
-        image_inputs["input_ids"] = image_inputs["input_ids"].tolist()[0]
-        image_inputs["mm_items"] = [
-            MultimodalDataItem(
-                feature=image_inputs["pixel_values"],
-                aspect_ratio_id=image_inputs["aspect_ratio_ids"],
-                aspect_ratio_mask=image_inputs["aspect_ratio_mask"],
-                modality=Modality.IMAGE,
-            )
-        ]
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_out, self.mm_tokens
+        )
 
-        return image_inputs
+        return {
+            "mm_items": mm_items,
+            "input_ids": input_ids.tolist(),
+            "im_token_id": self.mm_tokens.image_token_id,
+        }
diff --git a/python/sglang/srt/multimodal/processors/mllama4.py b/python/sglang/srt/multimodal/processors/mllama4.py
index 566eb3230c17..2d0eba2fd499 100644
--- a/python/sglang/srt/multimodal/processors/mllama4.py
+++ b/python/sglang/srt/multimodal/processors/mllama4.py
@@ -27,13 +27,13 @@ def __init__(self, hf_config, server_args, _processor):
         self.image_token_index = hf_config.image_token_index
         self.multimodal_tokens = MultimodalSpecialTokens(
             image_token=_processor.image_token,
+            image_token_id=self.image_token_index,
         ).build(_processor)
 
     async def process_mm_data_async(
         self,
         image_data: List[Union[str, bytes]],
         input_text,
-        max_req_input_len=None,
         *args,
         **kwargs,
     ):
@@ -45,7 +45,6 @@ async def process_mm_data_async(
         processed_data = self.load_mm_data(
             prompt=input_text,
             multimodal_tokens=self.multimodal_tokens,
-            max_req_input_len=max_req_input_len or 4096,
             image_data=image_data,
             return_text=True,
         )
diff --git a/python/sglang/srt/multimodal/processors/phi4mm.py b/python/sglang/srt/multimodal/processors/phi4mm.py
index 8772403dbdb7..720e3c1324e7 100644
--- a/python/sglang/srt/multimodal/processors/phi4mm.py
+++ b/python/sglang/srt/multimodal/processors/phi4mm.py
@@ -31,6 +31,7 @@ def __call__(self, **kwargs):
         for hf_key, sglang_key in key_mapping.items():
             if hf_key in result:
                 result[sglang_key] = result[hf_key]
+                del result[hf_key]
 
         # Filter out None or empty tensors from the result.
         # This prevents the sglang function base_processor.collect_mm_items_from_processor_output()
@@ -58,7 +59,7 @@ def __init__(self, hf_config, server_args, _processor):
         self.AUDIO_TOKEN_ID = 200011
         self.AUDIO_SAMPLE_RATE = 16000
 
-        self.multimodal_tokens = MultimodalSpecialTokens(
+        self.mm_tokens = MultimodalSpecialTokens(
             image_token=self.IMAGE_TOKEN,
             image_token_id=self.IM_TOKEN_ID,
             audio_token=self.AUDIO_TOKEN,
@@ -71,15 +72,13 @@ async def process_mm_data_async(
         audio_data,
         input_text,
         request_obj,
-        max_req_input_len,
         **kwargs,
     ):
         base_output = self.load_mm_data(
             prompt=input_text,
-            max_req_input_len=max_req_input_len,
             audio_data=audio_data,
             image_data=image_data,
-            multimodal_tokens=self.multimodal_tokens,
+            multimodal_tokens=self.mm_tokens,
             audio_sample_rate=self.AUDIO_SAMPLE_RATE,
         )
 
@@ -91,12 +90,12 @@ async def process_mm_data_async(
             ]
 
         mm_items, input_ids, _ = self.process_and_combine_mm_data(
-            base_output, self.multimodal_tokens
+            base_output, self.mm_tokens
         )
 
         return {
             "input_ids": input_ids.tolist(),
             "mm_items": mm_items,
-            "im_token_id": self.IM_TOKEN_ID,
-            "audio_token_id": self.AUDIO_TOKEN_ID,
+            "im_token_id": self.mm_tokens.image_token_id,
+            "audio_token_id": self.mm_tokens.audio_token_id,
         }
diff --git a/python/sglang/srt/multimodal/processors/pixtral.py b/python/sglang/srt/multimodal/processors/pixtral.py
index b18dfa1b023e..fdfd6bd627ee 100644
--- a/python/sglang/srt/multimodal/processors/pixtral.py
+++ b/python/sglang/srt/multimodal/processors/pixtral.py
@@ -6,7 +6,6 @@
     _num_image_tokens as _get_pixtral_hf_num_image_tokens,
 )
 
-from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.models.pixtral import PixtralVisionModel
 from sglang.srt.multimodal.processors.base_processor import (
     BaseMultimodalProcessor,
@@ -45,7 +44,7 @@ def get_patch_grid_size(
 
     def __init__(self, hf_config, server_args, _processor):
         super().__init__(hf_config, server_args, _processor)
-        self.image_token_id = getattr(
+        self.IM_TOKEN_ID = getattr(
             hf_config, "image_token_index", PixtralVisionModel.DEFAULT_IMAGE_TOKEN_ID
         )
         # Instantiate the patcher logic helper using the class defined above
@@ -53,8 +52,9 @@ def __init__(self, hf_config, server_args, _processor):
         self.vision_config = hf_config.vision_config
         self.image_size = self.vision_config.image_size
         self.patch_size = self.vision_config.patch_size
-        self.multimodal_tokens = MultimodalSpecialTokens(
-            image_token=_processor.image_token
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token=_processor.image_token,
+            image_token_id=self.IM_TOKEN_ID,
         ).build(_processor)
         _processor.tokenizer.add_special_tokens(
             {
@@ -80,42 +80,21 @@ async def process_mm_data_async(
     ):
         mm_data = self.load_mm_data(
             prompt=input_text,
-            multimodal_tokens=self.multimodal_tokens,
-            max_req_input_len=kwargs.get("max_req_input_len", 4096),
+            multimodal_tokens=self.mm_tokens,
             image_data=image_data,
             return_text=True,
         )
-
         if mm_data.images:
             resize_tasks = [self._resize(image) for image in mm_data.images]
             mm_data.images = await asyncio.gather(*resize_tasks)
 
-        processor_output = self.process_mm_data(
-            input_text=mm_data.input_text,
-            images=mm_data.images,
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            mm_data, self.mm_tokens
         )
 
-        if "pixel_values" in processor_output:
-            input_ids = processor_output["input_ids"].view(-1)
-            image_offsets = self.get_mm_items_offset(
-                input_ids=input_ids,
-                mm_token_id=self.image_token_id,
-            )
-            mm_items = [
-                MultimodalDataItem(
-                    feature=processor_output["pixel_values"],
-                    image_sizes=processor_output["image_sizes"],
-                    modality=Modality.IMAGE,
-                    offsets=image_offsets,
-                )
-            ]
-
-            input_ids = input_ids.tolist()
-            processor_output.update(
-                input_ids=input_ids,
-                mm_items=mm_items,
-                # there's no im_start_id for pixtral, only im_token and im_end_token
-                im_end_id=self.IMG_END_TOKEN_ID,
-                im_token_id=self.image_token_id,
-            )
-        return processor_output
+        return {
+            "mm_items": mm_items,
+            "input_ids": input_ids.tolist(),
+            "im_token_id": self.IM_TOKEN_ID,
+            "im_token": self._processor.image_token,
+        }
diff --git a/python/sglang/srt/multimodal/processors/qwen_audio.py b/python/sglang/srt/multimodal/processors/qwen_audio.py
new file mode 100644
index 000000000000..34d440375ae3
--- /dev/null
+++ b/python/sglang/srt/multimodal/processors/qwen_audio.py
@@ -0,0 +1,65 @@
+import re
+
+from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
+from sglang.srt.models.qwen2_audio import Qwen2AudioForConditionalGeneration
+from sglang.srt.multimodal.processors.base_processor import (
+    BaseMultimodalProcessor,
+    MultimodalSpecialTokens,
+)
+
+
+class Qwen2AudioMultimodalProcessor(BaseMultimodalProcessor):
+    models = [Qwen2AudioForConditionalGeneration]
+
+    def __init__(self, hf_config, server_args, _processor):
+        super().__init__(hf_config, server_args, _processor)
+        self.AUDIO_TOKEN = "<|audio_bos|><|AUDIO|><|audio_eos|>"
+        self.AUDIO_TOKEN_REGEX = re.compile(
+            r"<\|audio_bos\|>(?:<\|AUDIO\|>)+<\|audio_eos\|>"
+        )
+        # Collect special token ids
+        tokenizer = self._processor.tokenizer
+        self.audio_start_id = tokenizer.convert_tokens_to_ids("<|audio_bos|>")
+        self.audio_token_id = tokenizer.convert_tokens_to_ids("<|AUDIO|>")
+        self.audio_end_id = tokenizer.convert_tokens_to_ids("<|audio_eos|>")
+
+        self.mm_tokens = MultimodalSpecialTokens(
+            audio_token=self.AUDIO_TOKEN,
+            audio_token_regex=self.AUDIO_TOKEN_REGEX,
+            audio_token_id=self.audio_token_id,
+        ).build(_processor)
+
+    async def process_mm_data_async(
+        self,
+        audio_data,
+        input_text,
+        **kwargs,
+    ):
+        base_output = self.load_mm_data(
+            prompt=input_text,
+            audio_data=audio_data,
+            multimodal_tokens=self.mm_tokens,
+        )
+        if base_output is None:
+            return None
+
+        mm_items, input_ids, ret = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
+
+        assert (
+            "feature_attention_mask" in ret
+        ), "feature_attention_mask not found in processor output"
+        input_lengths = ret["feature_attention_mask"].sum(dim=-1)
+        input_lengths = (input_lengths - 1) // 2 + 1
+        output_lengths = (input_lengths - 2) // 2 + 1
+
+        mm_items[0].model_specific_data["audio_feature_lens"] = output_lengths
+
+        return {
+            "mm_items": mm_items,
+            "input_ids": input_ids.tolist(),
+            "audio_start_id": self.audio_start_id,
+            "audio_token_id": self.audio_token_id,
+            "audio_end_id": self.audio_end_id,
+        }
diff --git a/python/sglang/srt/multimodal/processors/qwen_vl.py b/python/sglang/srt/multimodal/processors/qwen_vl.py
index bdfaf140624f..1b1de43695bb 100644
--- a/python/sglang/srt/multimodal/processors/qwen_vl.py
+++ b/python/sglang/srt/multimodal/processors/qwen_vl.py
@@ -227,7 +227,6 @@ async def process_mm_data_async(
         image_data: List[Union[str, bytes]],
         input_text,
         request_obj,
-        max_req_input_len,
         *args,
         **kwargs,
     ):
@@ -237,7 +236,6 @@ async def process_mm_data_async(
             image_data=image_data,
             video_data=request_obj.video_data,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
         )
 
         # Qwen-specific: resize images if they are raw Image objects
diff --git a/python/sglang/srt/multimodal/processors/vila.py b/python/sglang/srt/multimodal/processors/vila.py
index 8e0f04acae89..7070dfe73dc9 100644
--- a/python/sglang/srt/multimodal/processors/vila.py
+++ b/python/sglang/srt/multimodal/processors/vila.py
@@ -47,13 +47,11 @@ async def process_mm_data_async(
         image_data: Optional[ImageDataInputItem | List[ImageDataInputItem]],
         input_text: str | List[int],
         request_obj: GenerateReqInput | EmbeddingReqInput,
-        max_req_input_len: int,
         **kwargs,
     ) -> Optional[Dict[str, Any]]:
         base_output = self.load_mm_data(
             prompt=input_text,
             multimodal_tokens=self.mm_tokens,
-            max_req_input_len=max_req_input_len,
             image_data=image_data,
         )
 
diff --git a/test/srt/test_vision_openai_server_a.py b/test/srt/test_vision_openai_server_a.py
index f252c4884eb0..4c41e2feca90 100644
--- a/test/srt/test_vision_openai_server_a.py
+++ b/test/srt/test_vision_openai_server_a.py
@@ -116,22 +116,23 @@ def test_single_image_chat_completion(self):
         )
 
 
-class TestMllamaServer(TestOpenAIVisionServer):
-    @classmethod
-    def setUpClass(cls):
-        cls.model = "meta-llama/Llama-3.2-11B-Vision-Instruct"
-        cls.base_url = DEFAULT_URL_FOR_TEST
-        cls.api_key = "sk-123456"
-        cls.process = popen_launch_server(
-            cls.model,
-            cls.base_url,
-            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            api_key=cls.api_key,
-        )
-        cls.base_url += "/v1"
-
-    def test_video_chat_completion(self):
-        pass
+# Note(Xinyuan): mllama is not stable for now, skip for CI
+# class TestMllamaServer(TestOpenAIVisionServer):
+#     @classmethod
+#     def setUpClass(cls):
+#         cls.model = "meta-llama/Llama-3.2-11B-Vision-Instruct"
+#         cls.base_url = DEFAULT_URL_FOR_TEST
+#         cls.api_key = "sk-123456"
+#         cls.process = popen_launch_server(
+#             cls.model,
+#             cls.base_url,
+#             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+#             api_key=cls.api_key,
+#         )
+#         cls.base_url += "/v1"
+
+#     def test_video_chat_completion(self):
+#         pass
 
 
 class TestMinicpmvServer(TestOpenAIVisionServer):
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index 53498946144c..dabf948b3567 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -67,6 +67,7 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--context-length",
                 "4096",
+                "--disable-cuda-graph",
             ],
         )
         cls.base_url += "/v1"
diff --git a/test/srt/test_vision_openai_server_common.py b/test/srt/test_vision_openai_server_common.py
index 341db654e053..2f7e404cb697 100644
--- a/test/srt/test_vision_openai_server_common.py
+++ b/test/srt/test_vision_openai_server_common.py
@@ -308,19 +308,35 @@ def test_video_images_chat_completion(self):
             "iPod" in video_response
             or "device" in video_response
             or "microphone" in video_response
-        ), video_response
+        ), f"""
+        ====================== video_response =====================
+        {video_response}
+        ===========================================================
+        should contain 'iPod' or 'device' or 'microphone'
+        """
         assert (
             "man" in video_response
             or "person" in video_response
             or "individual" in video_response
             or "speaker" in video_response
-        ), video_response
+            or "Steve" in video_response
+        ), f"""
+        ====================== video_response =====================
+        {video_response}
+        ===========================================================
+        should contain 'man' or 'person' or 'individual' or 'speaker'
+        """
         assert (
             "present" in video_response
             or "examine" in video_response
             or "display" in video_response
             or "hold" in video_response
-        )
+        ), f"""
+        ====================== video_response =====================
+        {video_response}
+        ===========================================================
+        should contain 'present' or 'examine' or 'display' or 'hold'
+        """
         assert "black" in video_response or "dark" in video_response
         self.assertIsNotNone(video_response)
         self.assertGreater(len(video_response), 0)
diff --git a/test/srt/test_vlm_input_format.py b/test/srt/test_vlm_input_format.py
index d2670ecac5f0..79625ee82cbb 100644
--- a/test/srt/test_vlm_input_format.py
+++ b/test/srt/test_vlm_input_format.py
@@ -104,15 +104,15 @@ async def test_understands_image(self):
         )
         self.verify_response(output)
 
-    async def test_understands_precomputed_features(self):
+    async def test_understands_precomputed_embeddings(self):
         req = self.get_completion_request()
         processor_output = self.get_processor_output(req=req)
         with torch.inference_mode():
-            precomputed_features = self.__class__.visual(processor_output)
+            precomputed_embeddings = self.__class__.visual(processor_output)
         output = await self.engine.async_generate(
             input_ids=processor_output["input_ids"][0].detach().cpu().tolist(),
             image_data=[
-                self._precomputed_image_data(processor_output, precomputed_features)
+                self._precomputed_image_data(processor_output, precomputed_embeddings)
             ],
             sampling_params=dict(temperature=0.0),
         )
@@ -128,11 +128,11 @@ async def test_understands_pixel_values(self):
         )
         self.verify_response(output)
 
-    def _precomputed_image_data(self, processor_output, precomputed_features):
+    def _precomputed_image_data(self, processor_output, precomputed_embeddings):
         """This should not be overridden."""
         return dict(
             modality="IMAGE",
-            precomputed_features=precomputed_features,
+            precomputed_embeddings=precomputed_embeddings,
         )
 
     def _pixel_values_image_data(self, processor_output):

From 5c8365a0516ae908c1733054afb6852f3bee91dd Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sun, 20 Jul 2025 23:12:52 -0700
Subject: [PATCH 080/396] [router] add ut for pd router (#8208)

---
 sgl-router/src/routers/pd_router.rs | 512 ++++++++++++++++++++++++++++
 sgl-router/tests/test_pd_routing.rs |  21 --
 2 files changed, 512 insertions(+), 21 deletions(-)

diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index d156c9f341d6..7c70a3873fc3 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -1393,3 +1393,515 @@ impl RouterTrait for PDRouter {
         }
     }
 }
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::{BasicWorker, WorkerType};
+    use crate::policies::{CacheAwarePolicy, RandomPolicy};
+    use crate::routers::pd_types::SingleOrBatch;
+    use actix_web::test::TestRequest;
+
+    fn create_test_pd_router() -> PDRouter {
+        let policy = Arc::new(RandomPolicy::new());
+
+        PDRouter {
+            prefill_workers: Arc::new(RwLock::new(vec![])),
+            decode_workers: Arc::new(RwLock::new(vec![])),
+            policy,
+            prefill_tree: None,
+            timeout_secs: 5,
+            interval_secs: 1,
+            worker_loads: Arc::new(tokio::sync::watch::channel(HashMap::new()).1),
+            load_monitor_handle: None,
+            http_client: reqwest::Client::new(),
+            _prefill_health_checker: None,
+            _decode_health_checker: None,
+        }
+    }
+
+    fn create_test_worker(url: String, worker_type: WorkerType, healthy: bool) -> Box<dyn Worker> {
+        let worker = BasicWorker::new(url, worker_type);
+        worker.set_healthy(healthy);
+        Box::new(worker)
+    }
+
+    // ============= Worker Management Tests =============
+
+    #[tokio::test]
+    async fn test_add_prefill_server_already_exists() {
+        let router = create_test_pd_router();
+
+        // Add a worker first
+        let worker = create_test_worker(
+            "http://localhost:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080),
+            },
+            true,
+        );
+        router.prefill_workers.write().unwrap().push(worker);
+
+        // Try to add the same URL again - this would fail during health check in real scenario
+        // For unit test, we test the duplicate check logic
+        let workers = router.prefill_workers.read().unwrap();
+        let exists = workers.iter().any(|w| w.url() == "http://localhost:8000");
+        assert!(exists);
+    }
+
+    #[tokio::test]
+    async fn test_remove_prefill_server_success() {
+        let router = create_test_pd_router();
+
+        // Add servers first
+        let worker1 = create_test_worker(
+            "http://worker1".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        let worker2 = create_test_worker(
+            "http://worker2".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080),
+            },
+            true,
+        );
+
+        router.prefill_workers.write().unwrap().push(worker1);
+        router.prefill_workers.write().unwrap().push(worker2);
+
+        // Remove one
+        let result = router.remove_prefill_server("http://worker1").await;
+
+        assert!(result.is_ok());
+        assert!(result.unwrap().contains("Successfully removed"));
+
+        let workers = router.prefill_workers.read().unwrap();
+        assert_eq!(workers.len(), 1);
+        assert_eq!(workers[0].url(), "http://worker2");
+    }
+
+    #[tokio::test]
+    async fn test_remove_prefill_server_not_found() {
+        let router = create_test_pd_router();
+
+        let result = router.remove_prefill_server("http://nonexistent").await;
+
+        assert!(result.is_err());
+        match result.unwrap_err() {
+            PDRouterError::WorkerNotFound { url } => {
+                assert_eq!(url, "http://nonexistent");
+            }
+            _ => panic!("Expected WorkerNotFound error"),
+        }
+    }
+
+    #[tokio::test]
+    async fn test_remove_decode_server_success() {
+        let router = create_test_pd_router();
+
+        // Add server first
+        let worker = create_test_worker("http://decode1".to_string(), WorkerType::Decode, true);
+        router.decode_workers.write().unwrap().push(worker);
+
+        let result = router.remove_decode_server("http://decode1").await;
+
+        assert!(result.is_ok());
+        assert!(result.unwrap().contains("Successfully removed"));
+
+        let workers = router.decode_workers.read().unwrap();
+        assert_eq!(workers.len(), 0);
+    }
+
+    // ============= Lock Error Handling Tests =============
+
+    #[test]
+    fn test_lock_operations() {
+        let router = create_test_pd_router();
+
+        // Test read/write locks work correctly
+        {
+            let read_guard = router.prefill_workers.read().unwrap();
+            assert_eq!(read_guard.len(), 0);
+        }
+
+        {
+            let mut write_guard = router.prefill_workers.write().unwrap();
+            write_guard.push(create_test_worker(
+                "http://test".to_string(),
+                WorkerType::Prefill {
+                    bootstrap_port: None,
+                },
+                true,
+            ));
+        }
+
+        {
+            let read_guard = router.prefill_workers.read().unwrap();
+            assert_eq!(read_guard.len(), 1);
+        }
+    }
+
+    // ============= Cache Tree Integration Tests =============
+
+    #[tokio::test]
+    async fn test_cache_tree_operations() {
+        let policy = Arc::new(CacheAwarePolicy::new());
+        let mut router = create_test_pd_router();
+        router.policy = policy;
+
+        // Initialize cache tree
+        let tree = Arc::new(Mutex::new(Tree::new()));
+        router.prefill_tree = Some(Arc::clone(&tree));
+
+        // Manually add worker and update tree
+        let worker = create_test_worker(
+            "http://worker1".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        router.prefill_workers.write().unwrap().push(worker);
+
+        // Update tree
+        tree.lock().unwrap().insert("", "http://worker1");
+
+        // Verify tree contains the worker
+        let tree_guard = tree.lock().unwrap();
+        let (_matched_text, tenant) = tree_guard.prefix_match("");
+        // Since we inserted with empty prefix, we should get a match
+        assert_eq!(tenant, "http://worker1");
+    }
+
+    #[tokio::test]
+    async fn test_cache_tree_rebuild_on_remove() {
+        let policy = Arc::new(CacheAwarePolicy::new());
+        let mut router = create_test_pd_router();
+        router.policy = policy;
+
+        // Initialize cache tree
+        let tree = Arc::new(Mutex::new(Tree::new()));
+        router.prefill_tree = Some(Arc::clone(&tree));
+
+        // Add multiple workers
+        let worker1 = create_test_worker(
+            "http://worker1".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        let worker2 = create_test_worker(
+            "http://worker2".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+
+        router.prefill_workers.write().unwrap().push(worker1);
+        router.prefill_workers.write().unwrap().push(worker2);
+
+        // Initialize tree with both workers
+        {
+            let tree_guard = tree.lock().unwrap();
+            tree_guard.insert("", "http://worker1");
+            tree_guard.insert("", "http://worker2");
+        }
+
+        // Remove one worker
+        let result = router.remove_prefill_server("http://worker1").await;
+        assert!(result.is_ok());
+
+        // Verify tree only contains remaining worker
+        let tree_guard = tree.lock().unwrap();
+        let (_matched_text, tenant) = tree_guard.prefix_match("");
+        // After rebuild, tree should only have worker2
+        assert_eq!(tenant, "http://worker2");
+    }
+
+    #[tokio::test]
+    async fn test_no_cache_tree_operations() {
+        let router = create_test_pd_router();
+        assert!(router.prefill_tree.is_none());
+
+        // Add a worker without cache tree
+        let worker = create_test_worker(
+            "http://worker1".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        router.prefill_workers.write().unwrap().push(worker);
+
+        // Remove should work without tree
+        let result = router.remove_prefill_server("http://worker1").await;
+        assert!(result.is_ok());
+    }
+
+    // ============= Bootstrap Injection Tests =============
+
+    #[test]
+    fn test_bootstrap_injection_with_existing_fields() {
+        let mut req = GenerateReqInput {
+            text: Some(SingleOrBatch::Single("Test".to_string())),
+            input_ids: None,
+            stream: false,
+            bootstrap_host: Some(SingleOrBatch::Single("existing-host".to_string())),
+            bootstrap_port: Some(SingleOrBatch::Single(Some(9999))),
+            bootstrap_room: Some(SingleOrBatch::Single(12345)),
+            other: Value::Object(serde_json::Map::new()),
+        };
+
+        let prefill_worker = create_test_worker(
+            "http://new-host:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080),
+            },
+            true,
+        );
+
+        // Bootstrap info is added regardless of existing fields
+        let result = req.add_bootstrap_info(prefill_worker.as_ref());
+        assert!(result.is_ok());
+
+        // Bootstrap info should be updated with new values
+        assert_eq!(
+            req.bootstrap_host,
+            Some(SingleOrBatch::Single("new-host".to_string()))
+        );
+        assert_eq!(req.bootstrap_port, Some(SingleOrBatch::Single(Some(8080))));
+        // Room should be regenerated (different from original)
+        if let Some(SingleOrBatch::Single(room)) = req.bootstrap_room {
+            assert_ne!(room, 12345);
+        } else {
+            panic!("Expected single room ID");
+        }
+    }
+
+    #[test]
+    fn test_bootstrap_room_generation() {
+        let mut req1 = GenerateReqInput {
+            text: Some(SingleOrBatch::Single("Test".to_string())),
+            input_ids: None,
+            stream: false,
+            bootstrap_host: None,
+            bootstrap_port: None,
+            bootstrap_room: None,
+            other: Value::Object(serde_json::Map::new()),
+        };
+
+        let mut req2 = GenerateReqInput {
+            text: Some(SingleOrBatch::Single("Test".to_string())),
+            input_ids: None,
+            stream: false,
+            bootstrap_host: None,
+            bootstrap_port: None,
+            bootstrap_room: None,
+            other: Value::Object(serde_json::Map::new()),
+        };
+
+        let prefill_worker = create_test_worker(
+            "http://host:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080),
+            },
+            true,
+        );
+
+        // Add bootstrap info to both requests
+        let _ = req1.add_bootstrap_info(prefill_worker.as_ref());
+        let _ = req2.add_bootstrap_info(prefill_worker.as_ref());
+
+        // Room IDs should be different
+        if let (Some(SingleOrBatch::Single(room1)), Some(SingleOrBatch::Single(room2))) =
+            (req1.bootstrap_room, req2.bootstrap_room)
+        {
+            assert_ne!(room1, room2, "Room IDs should be unique");
+        } else {
+            panic!("Expected single room IDs");
+        }
+    }
+
+    // ============= Worker Selection Tests =============
+
+    #[tokio::test]
+    async fn test_select_healthy_prefill_worker() {
+        let router = create_test_pd_router();
+
+        // Add mix of healthy and unhealthy workers
+        let healthy_worker = create_test_worker(
+            "http://healthy".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        let unhealthy_worker = create_test_worker(
+            "http://unhealthy".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            false,
+        );
+        let decode_worker =
+            create_test_worker("http://decode".to_string(), WorkerType::Decode, true);
+
+        router
+            .prefill_workers
+            .write()
+            .unwrap()
+            .push(unhealthy_worker);
+        router.prefill_workers.write().unwrap().push(healthy_worker);
+        router.decode_workers.write().unwrap().push(decode_worker);
+
+        let client = reqwest::Client::new();
+        let result = router.select_pd_pair(&client, None).await;
+
+        assert!(result.is_ok());
+        let (prefill, _decode) = result.unwrap();
+
+        // Should select the healthy worker
+        assert_eq!(prefill.url(), "http://healthy");
+        assert!(prefill.is_healthy());
+    }
+
+    #[tokio::test]
+    async fn test_empty_worker_lists() {
+        let router = create_test_pd_router();
+
+        let client = reqwest::Client::new();
+        let result = router.select_pd_pair(&client, None).await;
+
+        assert!(result.is_err());
+        assert!(result.unwrap_err().contains("No prefill workers available"));
+    }
+
+    // ============= Health Endpoints Tests =============
+
+    #[tokio::test]
+    async fn test_health_endpoints() {
+        let router = create_test_pd_router();
+
+        // Add healthy workers
+        let prefill_worker = create_test_worker(
+            "http://localhost:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        let decode_worker = create_test_worker(
+            "http://localhost:8001".to_string(),
+            WorkerType::Decode,
+            true,
+        );
+
+        router.prefill_workers.write().unwrap().push(prefill_worker);
+        router.decode_workers.write().unwrap().push(decode_worker);
+
+        // Test health endpoint
+        let client = reqwest::Client::new();
+        let http_req = TestRequest::default().to_http_request();
+        let response = router.health(&client, &http_req).await;
+
+        assert_eq!(response.status(), 200);
+
+        // Test readiness endpoint
+        let response = router.readiness();
+        assert_eq!(response.status(), 200);
+    }
+
+    // ============= Load Monitoring Tests =============
+
+    #[tokio::test]
+    async fn test_load_monitor_updates() {
+        let policy = Arc::new(crate::policies::PowerOfTwoPolicy::new());
+        let mut router = create_test_pd_router();
+        router.policy = policy;
+
+        // Create load channel
+        let (tx, rx) = tokio::sync::watch::channel(HashMap::new());
+        router.worker_loads = Arc::new(rx);
+
+        // Simulate load updates
+        let mut loads = HashMap::new();
+        loads.insert("http://worker1".to_string(), 10);
+        loads.insert("http://worker2".to_string(), 5);
+
+        let _ = tx.send(loads.clone());
+
+        // Router should receive updates
+        let received = router.worker_loads.borrow().clone();
+        assert_eq!(received.get("http://worker1"), Some(&10));
+        assert_eq!(received.get("http://worker2"), Some(&5));
+    }
+
+    // ============= Worker Load Tests =============
+
+    #[test]
+    fn test_worker_load_metrics() {
+        let prefill_worker = create_test_worker(
+            "http://prefill".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+            true,
+        );
+        let decode_worker =
+            create_test_worker("http://decode".to_string(), WorkerType::Decode, true);
+
+        // Create load guard for both workers
+        let _guard =
+            WorkerLoadGuard::new_multi(vec![prefill_worker.as_ref(), decode_worker.as_ref()]);
+
+        // Load should be incremented
+        assert_eq!(prefill_worker.load(), 1);
+        assert_eq!(decode_worker.load(), 1);
+
+        // Drop guard - load should decrement
+        drop(_guard);
+
+        assert_eq!(prefill_worker.load(), 0);
+        assert_eq!(decode_worker.load(), 0);
+    }
+
+    // ============= Concurrent Operations Tests =============
+
+    #[tokio::test]
+    async fn test_concurrent_worker_operations() {
+        let router = Arc::new(create_test_pd_router());
+
+        let mut handles = vec![];
+
+        // Spawn tasks to add workers
+        for i in 0..5 {
+            let router_clone = Arc::clone(&router);
+            let url = format!("http://worker{}", i);
+            let handle = tokio::spawn(async move {
+                let worker = create_test_worker(
+                    url,
+                    WorkerType::Prefill {
+                        bootstrap_port: None,
+                    },
+                    true,
+                );
+                router_clone.prefill_workers.write().unwrap().push(worker);
+            });
+            handles.push(handle);
+        }
+
+        // Wait for all tasks
+        for handle in handles {
+            let _ = handle.await;
+        }
+
+        // Check final state
+        let workers = router.prefill_workers.read().unwrap();
+        assert_eq!(workers.len(), 5);
+    }
+}
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index ceb5fe9e69d3..a2c0d7e3197d 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -1,16 +1,3 @@
-//! Comprehensive tests for PrefillDecode (PD) routing functionality
-//!
-//! This test suite covers:
-//! - Phase 1: Basic PD router creation and configuration
-//! - Phase 2: Bootstrap injection and request handling
-//! - Phase 3: Cache-aware selection (when implemented)
-//!
-//! Note: PD mode is enabled via the pd_disaggregation flag, not as a policy type.
-//! The policy type (Random, PowerOfTwo, CacheAware) determines the selection algorithm within PD mode.
-
-// TODO: This test file needs to be updated for the new configuration structure
-// where RoutingMode and PolicyConfig are separate
-
 #[cfg(test)]
 mod test_pd_routing {
     use rand::Rng;
@@ -921,14 +908,6 @@ mod test_pd_routing {
 
     #[test]
     fn test_policy_type_to_pd_selection_policy_mapping() {
-        // Document the mapping from PolicyType to PDSelectionPolicy
-        // This mapping happens in lib.rs when pd_disaggregation=true
-
-        // PolicyType::Random -> PDSelectionPolicy::Random
-        // PolicyType::PowerOfTwo -> PDSelectionPolicy::PowerOfTwo
-        // PolicyType::CacheAware -> PDSelectionPolicy::CacheAware { ... }
-        // PolicyType::RoundRobin -> ERROR (not supported in PD mode)
-
         // Test that PDSelectionPolicy doesn't include RoundRobin
         let pd_policy_count = 3; // Random, PowerOfTwo, CacheAware
         assert_eq!(

From 9b5de6cb069ba7af66de45762dab489941ad0947 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sun, 20 Jul 2025 23:13:20 -0700
Subject: [PATCH 081/396] [router] upgade router version to 0.1.6 (#8209)

---
 sgl-router/pyproject.toml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/sgl-router/pyproject.toml b/sgl-router/pyproject.toml
index 915a15de966d..7422aa6bb428 100644
--- a/sgl-router/pyproject.toml
+++ b/sgl-router/pyproject.toml
@@ -4,8 +4,8 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang-router"
-version = "0.1.5"
-description = "SGLang router is a standalone module implemented in Rust to achieve data parallelism across SGLang instances."
+version = "0.1.6"
+description = "High-performance Rust-based load balancer for SGLang with multiple routing algorithms and prefill-decode disaggregation support"
 authors = [{name = "Byron Hsu", email = "byronhsu1230@gmail.com"}]
 requires-python = ">=3.8"
 readme = "README.md"

From 6936be32210fdf16b0159b2de3f1b8a27e5a679d Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Mon, 21 Jul 2025 15:37:00 +0800
Subject: [PATCH 082/396] Remve router gemm output dtype conversion (#8204)

---
 python/sglang/srt/models/deepseek_v2.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index a65337945f6b..e02d30839007 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -254,9 +254,8 @@ def forward(self, hidden_states):
             and self.weight.shape[0] == 256
             and _device_sm >= 90
         ):
-            logits = dsv3_router_gemm(hidden_states, self.weight).to(
-                hidden_states.dtype
-            )
+            # router gemm output float32
+            logits = dsv3_router_gemm(hidden_states, self.weight)
         else:
             logits = F.linear(hidden_states, self.weight, None)
 

From 74f59ae55557b307484fedace0ee30a41b384ab2 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 21 Jul 2025 02:10:24 -0700
Subject: [PATCH 083/396] chore: upgrade sgl-kernel 0.2.6.post1 (#8202)

---
 python/pyproject.toml                   | 2 +-
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 5949a100a96e..5f53a5ca328f 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -54,7 +54,7 @@ runtime_common = [
 
 srt = [
     "sglang[runtime_common]",
-    "sgl-kernel==0.2.6",
+    "sgl-kernel==0.2.6.post1",
     "torch==2.7.1",
     "torchaudio==2.7.1",
     "torchvision==0.22.1",
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 990fac9a12a7..e2cb02cc3014 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -654,7 +654,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if _is_cuda:
         assert_pkg_version(
             "sgl-kernel",
-            "0.2.6",
+            "0.2.6.post1",
             "Please reinstall the latest version with `pip install sgl-kernel --force-reinstall`",
         )
 

From 7b68d271119655e993232b4785a9cec26e0180ec Mon Sep 17 00:00:00 2001
From: Xiaoze Fan <jason341132@qq.com>
Date: Mon, 21 Jul 2025 22:06:15 +0800
Subject: [PATCH 084/396] [Feature] Add a test for Layer-wise Prefill (#8231)

Signed-off-by: jason-fxz <jason341132@qq.com>
---
 test/srt/test_forward_split_prefill.py | 299 +++++++++++++++++++++++++
 1 file changed, 299 insertions(+)
 create mode 100644 test/srt/test_forward_split_prefill.py

diff --git a/test/srt/test_forward_split_prefill.py b/test/srt/test_forward_split_prefill.py
new file mode 100644
index 000000000000..bbd247583f84
--- /dev/null
+++ b/test/srt/test_forward_split_prefill.py
@@ -0,0 +1,299 @@
+"""
+Test forward_split_prefill functionality.
+
+Usage:
+python3 -m unittest test_forward_split_prefill.TestForwardSplitPrefill
+or
+python3 test_forward_split_prefill.py
+"""
+
+import time
+import unittest
+
+import numpy as np
+import torch
+
+from sglang.srt.configs.model_config import ModelConfig
+from sglang.srt.hf_transformers_utils import get_tokenizer
+from sglang.srt.managers.schedule_batch import Req, ScheduleBatch
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
+from sglang.srt.model_executor.model_runner import ModelRunner
+from sglang.srt.sampling.sampling_params import SamplingParams
+from sglang.srt.server_args import PortArgs, ServerArgs
+from sglang.srt.speculative.spec_info import SpeculativeAlgorithm
+from sglang.test.test_utils import DEFAULT_SMALL_MODEL_NAME_FOR_TEST, CustomTestCase
+
+
+class TestForwardSplitPrefill(CustomTestCase):
+    """Test cases for forward_split_prefill functionality."""
+
+    @classmethod
+    def setUpClass(cls):
+        """Set up the test environment once for all tests."""
+        cls.model_path = DEFAULT_SMALL_MODEL_NAME_FOR_TEST
+        cls.tp_size = 1
+        cls.device = "cuda"
+
+        # Initialize server args
+        cls.server_args = ServerArgs(
+            model_path=cls.model_path,
+            tokenizer_path=cls.model_path,
+            host="127.0.0.1",
+            disable_cuda_graph=True,  # Disable CUDA graph for testing split prefill
+            disable_hybrid_swa_memory=True,
+            port=30000,
+            tp_size=cls.tp_size,
+            mem_fraction_static=0.8,
+            trust_remote_code=True,
+        )
+
+        cls.port_args = PortArgs.init_new(cls.server_args)
+
+        # Load model and tokenizer
+        cls.model_config = ModelConfig.from_server_args(cls.server_args)
+        cls.model_runner = ModelRunner(
+            model_config=cls.model_config,
+            mem_fraction_static=cls.server_args.mem_fraction_static,
+            gpu_id=0,
+            tp_rank=0,
+            tp_size=cls.tp_size,
+            pp_rank=0,
+            pp_size=1,
+            nccl_port=cls.port_args.nccl_port,
+            server_args=cls.server_args,
+        )
+
+        cls.tokenizer = get_tokenizer(
+            cls.server_args.tokenizer_path,
+            tokenizer_mode=cls.server_args.tokenizer_mode,
+            trust_remote_code=cls.server_args.trust_remote_code,
+        )
+
+        print(
+            f"Test with model: {cls.model_path}, num_hidden_layers: {cls.model_config.num_hidden_layers}"
+        )
+
+    def prepare_test_batch(self, batch_size=2, input_len=128, is_split_prefill=True):
+        """Prepare a test batch for split prefill testing."""
+        # Create synthetic input
+        input_ids = np.random.randint(10, 1000, (batch_size, input_len), dtype=np.int32)
+
+        sampling_params = SamplingParams(
+            temperature=0.0,
+            max_new_tokens=8,
+        )
+
+        reqs = []
+        for i in range(batch_size):
+            req = Req(
+                rid=i,
+                origin_input_text="",
+                origin_input_ids=list(input_ids[i]),
+                sampling_params=sampling_params,
+            )
+            req.prefix_indices = []
+            req.fill_ids = req.origin_input_ids
+            req.extend_input_len = len(req.fill_ids) - len(req.prefix_indices)
+            req.logprob_start_len = len(req.origin_input_ids) - 1
+            reqs.append(req)
+
+        batch = ScheduleBatch.init_new(
+            reqs=reqs,
+            req_to_token_pool=self.model_runner.req_to_token_pool,
+            token_to_kv_pool_allocator=self.model_runner.token_to_kv_pool_allocator,
+            tree_cache=None,
+            model_config=self.model_config,
+            enable_overlap=False,
+            spec_algorithm=SpeculativeAlgorithm.NONE,
+            enable_custom_logit_processor=False,
+        )
+        if is_split_prefill:
+            batch.prepare_for_split_prefill()
+        else:
+            batch.prepare_for_extend()
+
+        # Create forward batch
+        model_worker_batch = batch.get_model_worker_batch()
+        forward_batch = ForwardBatch.init_new(model_worker_batch, self.model_runner)
+
+        return forward_batch
+
+    def test_split_prefill_functionality(self):
+        """Test that split prefill can complete successfully."""
+        print("\n=== Testing split prefill functionality ===")
+
+        forward_batch = self.prepare_test_batch(batch_size=2, input_len=64)
+
+        # Reset split index
+        forward_batch.split_index = 0
+
+        # Test split prefill in chunks
+        num_layers = self.model_config.num_hidden_layers
+        chunk_size = max(1, num_layers // 4)  # Split into 4 chunks
+
+        results = []
+        split_count = 0
+
+        while forward_batch.split_index < num_layers:
+            print(
+                f"Processing split {split_count}, split_index: {forward_batch.split_index}"
+            )
+
+            result = self.model_runner.forward_split_prefill(
+                forward_batch=forward_batch,
+                reinit_attn_backend=(split_count == 0),
+                forward_count=chunk_size,
+            )
+
+            results.append(result)
+            split_count += 1
+
+            # Verify split_index is updated correctly
+            expected_next_index = min(split_count * chunk_size, num_layers)
+            self.assertEqual(forward_batch.split_index, expected_next_index)
+
+        # The last result should contain logits
+        self.assertIsNotNone(results[-1], "Final split should return logits")
+        print(f"Split prefill completed in {split_count} splits")
+
+    def test_split_prefill_vs_normal_prefill(self):
+        """Test that split prefill produces the same results as normal prefill."""
+        print("\n=== Testing split prefill vs normal prefill consistency ===")
+
+        forward_batch_normal = self.prepare_test_batch(
+            batch_size=2, input_len=128, is_split_prefill=False
+        )
+        forward_batch_split = self.prepare_test_batch(
+            batch_size=2, input_len=128, is_split_prefill=True
+        )
+
+        # Ensure same input
+        forward_batch_split.input_ids = forward_batch_normal.input_ids.clone()
+        forward_batch_split.positions = forward_batch_normal.positions.clone()
+
+        # Method 1: Normal extend (prefill)
+        print("Running normal extend (prefill)...")
+        normal_result = self.model_runner.forward_extend(forward_batch_normal)
+
+        # Method 2: Split prefill
+        print("Running split prefill...")
+        num_layers = self.model_config.num_hidden_layers
+        chunk_size = max(1, num_layers // 3)  # Split into 3 chunks
+
+        split_result = None
+
+        while forward_batch_split.split_index < num_layers:
+            result = self.model_runner.forward_split_prefill(
+                forward_batch=forward_batch_split,
+                forward_count=chunk_size,
+            )
+            if result is not None:
+                split_result = result
+
+        # Compare results
+        self.assertIsNotNone(normal_result, "Normal prefill should return result")
+        self.assertIsNotNone(split_result, "Split prefill should return result")
+
+        # Compare logits shapes
+        self.assertEqual(
+            normal_result.next_token_logits.shape,
+            split_result.next_token_logits.shape,
+            "Logits shapes should match",
+        )
+
+        # Compare logits values (should be very close due to same computation)
+        # Use a larger tolerance for numerical differences in split computation
+        torch.testing.assert_close(
+            normal_result.next_token_logits,
+            split_result.next_token_logits,
+            rtol=1e-3,
+            atol=1e-3,
+            msg="Split prefill and normal prefill should produce similar logits",
+        )
+
+        print("✓ Split prefill and normal prefill produce consistent results")
+
+    def test_split_prefill_different_chunk_sizes(self):
+        """Test split prefill with different chunk sizes."""
+        print("\n=== Testing split prefill with different chunk sizes ===")
+
+        num_layers = self.model_config.num_hidden_layers
+        chunk_sizes = [1, 2, max(1, num_layers // 2), num_layers]
+
+        # Prepare identical batches for each test
+        base_batch = self.prepare_test_batch(batch_size=1, input_len=16)
+        base_input_ids = base_batch.input_ids.clone()
+        base_positions = base_batch.positions.clone()
+
+        results = []
+
+        for chunk_size in chunk_sizes:
+            if chunk_size > num_layers:
+                continue
+
+            print(f"Testing chunk size: {chunk_size}")
+
+            # Prepare fresh batch
+            forward_batch = self.prepare_test_batch(batch_size=1, input_len=16)
+            forward_batch.input_ids = base_input_ids.clone()
+            forward_batch.positions = base_positions.clone()
+            forward_batch.split_index = 0
+
+            # Run split prefill
+            split_result = None
+
+            while forward_batch.split_index < num_layers:
+                result = self.model_runner.forward_split_prefill(
+                    forward_batch=forward_batch,
+                    forward_count=chunk_size,
+                )
+                if result is not None:
+                    split_result = result
+
+            self.assertIsNotNone(
+                split_result,
+                f"Split prefill should succeed with chunk_size={chunk_size}",
+            )
+            results.append(split_result)
+
+        # Compare all results should be identical (same input, same computation)
+        if len(results) > 1:
+            for i, result in enumerate(results[1:], 1):
+                torch.testing.assert_close(
+                    results[0].next_token_logits,
+                    result.next_token_logits,
+                    rtol=1e-3,
+                    atol=1e-3,
+                    msg=f"Results with different chunk sizes should be identical (chunk_size {chunk_sizes[i]})",
+                )
+
+        print("✓ All chunk sizes produce consistent results")
+
+    def test_split_prefill_edge_cases(self):
+        """Test edge cases for split prefill."""
+        print("\n=== Testing split prefill edge cases ===")
+
+        # Test with single layer chunks
+        forward_batch = self.prepare_test_batch(batch_size=1, input_len=8)
+
+        # Process one layer at a time
+        num_layers = self.model_config.num_hidden_layers
+        for layer_idx in range(num_layers):
+            result = self.model_runner.forward_split_prefill(
+                forward_batch=forward_batch,
+                reinit_attn_backend=(layer_idx == 0),
+                forward_count=1,  # One layer at a time
+            )
+
+            if layer_idx == num_layers - 1:
+                # Last layer should return result
+                self.assertIsNotNone(result, "Last layer should return logits")
+            else:
+                # Intermediate layers should return None
+                self.assertIsNone(result, f"Layer {layer_idx} should return None")
+
+        print("✓ Single layer processing works correctly")
+
+
+if __name__ == "__main__":
+    unittest.main()

From 114837854fdc1c94d36ce0ffcde6cd0d16f87a97 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 21 Jul 2025 14:02:48 -0700
Subject: [PATCH 085/396] docs: update 2025 h2 roadmap (#8237)

---
 README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/README.md b/README.md
index b19a9cdabfc0..0a0a78577228 100644
--- a/README.md
+++ b/README.md
@@ -62,7 +62,7 @@ The core features include:
 Learn more in the release blogs: [v0.2 blog](https://lmsys.org/blog/2024-07-25-sglang-llama3/), [v0.3 blog](https://lmsys.org/blog/2024-09-04-sglang-v0-3/), [v0.4 blog](https://lmsys.org/blog/2024-12-04-sglang-v0-4/), [Large-scale expert parallelism](https://lmsys.org/blog/2025-05-05-large-scale-ep/).
 
 ## Roadmap
-[Development Roadmap (2025 H1)](https://github.com/sgl-project/sglang/issues/4042)
+[Development Roadmap (2025 H2)](https://github.com/sgl-project/sglang/issues/7736)
 
 ## Adoption and Sponsorship
 SGLang has been deployed at large scale, generating trillions of tokens in production each day. It is trusted and adopted by a wide range of leading enterprises and institutions, including xAI, AMD, NVIDIA, Intel, LinkedIn, Cursor, Oracle Cloud, Google Cloud, Microsoft Azure, AWS, Atlas Cloud, Voltage Park, Nebius, DataCrunch, Novita, InnoMatrix, MIT, UCLA, the University of Washington, Stanford, UC Berkeley, Tsinghua University, Jam & Tea Studios, Baseten, and other major technology organizations across North America and Asia. As an open-source LLM inference engine, SGLang has become the de facto industry standard, with deployments running on over 1,000,000 GPUs worldwide.

From 69adc4f81c56403803840e49e4fe5385667bb55f Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Mon, 21 Jul 2025 17:06:35 -0700
Subject: [PATCH 086/396] fix: retrieve mm token by modality, raise error if
 none (#8221)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 .../multimodal/processors/base_processor.py    | 18 ++++++++++++------
 1 file changed, 12 insertions(+), 6 deletions(-)

diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index b79d90b987ea..3d548a19ee9e 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -101,6 +101,14 @@ def get_modality_of_token(self, token: str) -> Optional[Modality]:
 
         return None
 
+    def get_token_id_by_modality(self, modality: Modality) -> Optional[int]:
+        return {
+            Modality.IMAGE: self.image_token_id,
+            Modality.MULTI_IMAGES: self.image_token_id,
+            Modality.VIDEO: self.video_token_id,
+            Modality.AUDIO: self.audio_token_id,
+        }.get(modality)
+
     def parse_regex(self):
         if self.image_token_regex is None and self.image_token is not None:
             self.image_token_regex = re.compile(re.escape(self.image_token))
@@ -608,14 +616,12 @@ def process_and_combine_mm_data(
 
         # Add offsets to all items
         for mm_item in all_collected_items:
+            mm_token_id = mm_tokens.get_token_id_by_modality(mm_item.modality)
+            if mm_token_id is None:
+                raise ValueError(f"No token id found for modality: {mm_item.modality}")
             mm_item.offsets = self.get_mm_items_offset(
                 input_ids=input_ids,
-                mm_token_id={
-                    Modality.IMAGE: mm_tokens.image_token_id,
-                    Modality.MULTI_IMAGES: mm_tokens.image_token_id,
-                    Modality.VIDEO: mm_tokens.video_token_id,
-                    Modality.AUDIO: mm_tokens.audio_token_id,
-                }.get(mm_item.modality, None),
+                mm_token_id=mm_token_id,
             )
 
         return all_collected_items, input_ids, ret

From e50109f2edfec7cc48a56c41b05fcaef3190087f Mon Sep 17 00:00:00 2001
From: Hubert Lu <55214931+hubertlu-tw@users.noreply.github.com>
Date: Mon, 21 Jul 2025 17:33:19 -0700
Subject: [PATCH 087/396] [AMD] Remove vllm's scaled_fp8_quant and moe_sum when
 SGLANG_USE_AITER=1 (#7484)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py  |   5 +-
 .../layers/moe/fused_moe_triton/fused_moe.py  |  26 ++-
 .../compressed_tensors_moe.py                 |   5 +-
 python/sglang/srt/layers/quantization/fp8.py  |   3 +-
 .../srt/layers/quantization/fp8_kernel.py     | 161 +++++++++++++-----
 .../sglang/srt/layers/quantization/unquant.py |   1 -
 .../sglang/srt/layers/quantization/utils.py   |   5 +-
 python/sglang/test/test_custom_ops.py         |  19 ++-
 8 files changed, 156 insertions(+), 69 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 77d849f3f67b..83f74fb27019 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -54,14 +54,11 @@
 _is_fp8_fnuz = is_fp8_fnuz()
 _use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
 
-if not _is_npu:
+if not (_is_npu or _is_hip):
     from sgl_kernel import silu_and_mul
 
     from sglang.srt.layers.moe.cutlass_w4a8_moe import cutlass_w4a8_moe
 
-if _is_hip:
-    from vllm._custom_ops import scaled_fp8_quant
-
 if _use_aiter:
     from aiter import ActivationType, QuantType
     from aiter.fused_moe import fused_moe
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
index 2466067461cf..9c13c7e9dcb5 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -39,11 +39,20 @@
 _is_cuda = is_cuda()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
+_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
 
 if _is_cuda:
     from sgl_kernel import gelu_and_mul, silu_and_mul
 elif _is_cpu and _is_cpu_amx_available:
     pass
+elif _is_hip:
+    from vllm import _custom_ops as vllm_ops  # gelu_and_mul, silu_and_mul
+
+    if _use_aiter:
+        try:
+            from aiter import moe_sum
+        except ImportError:
+            raise ImportError("aiter is required when SGLANG_USE_AITER is set to True")
 else:
     from vllm import _custom_ops as vllm_ops
     from vllm._custom_ops import scaled_fp8_quant
@@ -1521,11 +1530,7 @@ def fused_experts_impl(
     routed_scaling_factor: Optional[float] = None,
 ):
     padded_size = padding_size
-    if (
-        not (use_fp8_w8a8 or use_int8_w8a8)
-        or block_shape is not None
-        or (_is_hip and get_bool_env_var("SGLANG_USE_AITER"))
-    ):
+    if not (use_fp8_w8a8 or use_int8_w8a8) or block_shape is not None or _use_aiter:
         padded_size = 0
 
     # Check constraints.
@@ -1723,6 +1728,17 @@ def fused_experts_impl(
                         out_hidden_states[begin_chunk_idx:end_chunk_idx],
                         routed_scaling_factor,
                     )
+        elif _is_hip:
+            if _use_aiter:
+                moe_sum(
+                    intermediate_cache3.view(*intermediate_cache3.shape),
+                    out_hidden_states[begin_chunk_idx:end_chunk_idx],
+                )
+            else:
+                vllm_ops.moe_sum(
+                    intermediate_cache3.view(*intermediate_cache3.shape),
+                    out_hidden_states[begin_chunk_idx:end_chunk_idx],
+                )
         else:
             vllm_ops.moe_sum(
                 intermediate_cache3.view(*intermediate_cache3.shape),
diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 39e5f9e252da..af1f6cbf7cc2 100644
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -20,7 +20,7 @@
     per_tensor_dequantize,
     replace_parameter,
 )
-from sglang.srt.utils import is_cpu, is_cuda, is_npu, set_weight_attrs
+from sglang.srt.utils import is_cpu, is_cuda, is_hip, is_npu, set_weight_attrs
 
 if TYPE_CHECKING:
     from sglang.srt.layers.moe.topk import TopKOutput
@@ -32,8 +32,9 @@
 _is_npu = is_npu()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
+_is_hip = is_hip()
 
-if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available)):
+if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available) or _is_hip):
     from vllm import _custom_ops as vllm_ops
     from vllm._custom_ops import scaled_fp8_quant
 
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 23daa5d26fb8..6fa3ccc59ee5 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -95,10 +95,9 @@ def dummy_func(*args, **kwargs):
 if _is_hip and (_use_aiter or _use_hip_int4):
     from aiter import ActivationType, QuantType
     from aiter.fused_moe import fused_moe
-    from aiter.fused_moe_bf16_asm import asm_moe, ck_moe_2stages
     from aiter.ops.shuffle import shuffle_weight
 
-if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available)):
+if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available) or _is_hip):
     from vllm._custom_ops import scaled_fp8_quant
 
 
diff --git a/python/sglang/srt/layers/quantization/fp8_kernel.py b/python/sglang/srt/layers/quantization/fp8_kernel.py
index 79504265c299..b488a65c08d9 100644
--- a/python/sglang/srt/layers/quantization/fp8_kernel.py
+++ b/python/sglang/srt/layers/quantization/fp8_kernel.py
@@ -27,6 +27,7 @@
 from sglang.srt.utils import (
     align,
     direct_register_custom_op,
+    get_bool_env_var,
     get_device_core_count,
     get_device_name,
     is_cpu,
@@ -39,6 +40,7 @@
 _is_hip = is_hip()
 _is_cuda = is_cuda()
 _is_cpu = is_cpu()
+_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
 
 if _is_cuda:
     from sgl_kernel import (
@@ -47,6 +49,22 @@
         sgl_per_token_quant_fp8,
     )
 
+if _is_hip:
+    if _use_aiter:
+        try:
+            from aiter import (  # v0.1.3
+                dynamic_per_tensor_quant,
+                dynamic_per_token_scaled_quant,
+                static_per_tensor_quant,
+            )
+        except ImportError:
+            raise ImportError("aiter is required when SGLANG_USE_AITER is set to True")
+    else:
+        try:
+            import vllm._C
+        except ImportError:
+            raise ImportError("vllm is required when SGLANG_USE_AITER is set to False")
+
 logger = logging.getLogger(__name__)
 
 
@@ -1116,58 +1134,109 @@ def per_token_group_quant_mla_deep_gemm_masked_fp8(
     return x_q, x_s.transpose(1, 2), masked_m, m, aligned_m
 
 
-def scaled_fp8_quant(
-    input: torch.Tensor,
-    scale: Optional[torch.Tensor] = None,
-    num_token_padding: Optional[int] = None,
-    use_per_token_if_dynamic: bool = False,
-) -> tuple[torch.Tensor, torch.Tensor]:
-    """
-    Quantize input tensor to FP8 (8-bit floating point) format.
+"""
+Quantize input tensor to FP8 (8-bit floating point) format.
+
+Args:
+    input (torch.Tensor): Input tensor to be quantized
+    scale (Optional[torch.Tensor]): Pre-computed scaling factor for static quantization.
+        If None, scales will be computed dynamically.
+    num_token_padding (Optional[int]): If specified, pad the first dimension
+        of the output to at least this value.
+    use_per_token_if_dynamic (bool): When using dynamic scaling (scale=None),
+        determines the quantization granularity:
+        - True: compute scale per token
+        - False: compute single scale per tensor
+
+Returns:
+    Tuple[torch.Tensor, torch.Tensor]: A tuple containing:
+        - quantized_tensor: The FP8 quantized version of input
+        - scale_tensor: The scaling factors used for quantization
+
+Raises:
+    AssertionError: If input is not 2D or if static scale's numel != 1
+"""
+if _is_hip:
 
-    Args:
-        input (torch.Tensor): Input tensor to be quantized
-        scale (Optional[torch.Tensor]): Pre-computed scaling factor for static quantization.
-            If None, scales will be computed dynamically.
-        num_token_padding (Optional[int]): If specified, pad the first dimension
-            of the output to at least this value.
-        use_per_token_if_dynamic (bool): When using dynamic scaling (scale=None),
-            determines the quantization granularity:
-            - True: compute scale per token
-            - False: compute single scale per tensor
+    def scaled_fp8_quant(
+        input: torch.Tensor,
+        scale: Optional[torch.Tensor] = None,
+        num_token_padding: Optional[int] = None,
+        use_per_token_if_dynamic: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        assert input.ndim == 2, f"Expected 2D input tensor, got {input.ndim}D"
+        shape = input.shape
+        if num_token_padding:
+            shape = (max(num_token_padding, input.shape[0]), shape[1])
+        output = torch.empty(shape, device=input.device, dtype=fp8_dtype)
+
+        if scale is None:
+            # Dynamic scaling
+            if use_per_token_if_dynamic:
+                scale = torch.empty(
+                    (shape[0], 1), device=input.device, dtype=torch.float32
+                )
+                if _use_aiter:
+                    dynamic_per_token_scaled_quant(output, input, scale)
+                else:
+                    torch.ops._C.dynamic_per_token_scaled_fp8_quant(
+                        output, input.contiguous(), scale, None
+                    )
+            else:
+                scale = torch.zeros(1, device=input.device, dtype=torch.float32)
+                if _use_aiter:
+                    dynamic_per_tensor_quant(output, input, scale)
+                else:
+                    torch.ops._C.dynamic_scaled_fp8_quant(output, input, scale)
+        else:
+            # Static scaling
+            assert (
+                scale.numel() == 1
+            ), f"Expected scalar scale, got numel={scale.numel()}"
+            if _use_aiter:
+                static_per_tensor_quant(output, input, scale)
+            else:
+                torch.ops._C.static_scaled_fp8_quant(output, input, scale)
 
-    Returns:
-        Tuple[torch.Tensor, torch.Tensor]: A tuple containing:
-            - quantized_tensor: The FP8 quantized version of input
-            - scale_tensor: The scaling factors used for quantization
+        return output, scale
 
-    Raises:
-        AssertionError: If input is not 2D or if static scale's numel != 1
-    """
-    assert input.ndim == 2, f"Expected 2D input tensor, got {input.ndim}D"
-    shape = input.shape
-    if num_token_padding:
-        shape = (max(num_token_padding, input.shape[0]), shape[1])
-    output = torch.empty(shape, device=input.device, dtype=fp8_dtype)
-
-    if scale is None:
-        # Dynamic scaling
-        if use_per_token_if_dynamic:
-            scale = torch.empty((shape[0], 1), device=input.device, dtype=torch.float32)
-            sgl_per_token_quant_fp8(input, output, scale)
+else:
+
+    def scaled_fp8_quant(
+        input: torch.Tensor,
+        scale: Optional[torch.Tensor] = None,
+        num_token_padding: Optional[int] = None,
+        use_per_token_if_dynamic: bool = False,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+
+        assert input.ndim == 2, f"Expected 2D input tensor, got {input.ndim}D"
+        shape = input.shape
+        if num_token_padding:
+            shape = (max(num_token_padding, input.shape[0]), shape[1])
+        output = torch.empty(shape, device=input.device, dtype=fp8_dtype)
+
+        if scale is None:
+            # Dynamic scaling
+            if use_per_token_if_dynamic:
+                scale = torch.empty(
+                    (shape[0], 1), device=input.device, dtype=torch.float32
+                )
+                sgl_per_token_quant_fp8(input, output, scale)
+            else:
+                scale = torch.zeros(1, device=input.device, dtype=torch.float32)
+                sgl_per_tensor_quant_fp8(
+                    input, output, scale, is_static=False
+                )  # False for dynamic
         else:
-            scale = torch.zeros(1, device=input.device, dtype=torch.float32)
+            # Static scaling
+            assert (
+                scale.numel() == 1
+            ), f"Expected scalar scale, got numel={scale.numel()}"
             sgl_per_tensor_quant_fp8(
-                input, output, scale, is_static=False
-            )  # False for dynamic
-    else:
-        # Static scaling
-        assert scale.numel() == 1, f"Expected scalar scale, got numel={scale.numel()}"
-        sgl_per_tensor_quant_fp8(
-            input, output, scale, is_static=True
-        )  # True for static
+                input, output, scale, is_static=True
+            )  # True for static
 
-    return output, scale
+        return output, scale
 
 
 fp8_autotune = triton.autotune(
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index fa4cbf582027..ddafcc6f5d9f 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -37,7 +37,6 @@
 if _use_aiter:
     from aiter import ActivationType
     from aiter.fused_moe import fused_moe
-    from aiter.fused_moe_bf16_asm import ck_moe_2stages
     from aiter.ops.shuffle import shuffle_weight
 
 
diff --git a/python/sglang/srt/layers/quantization/utils.py b/python/sglang/srt/layers/quantization/utils.py
index 89e0eb84a2e6..8904247a6a8f 100644
--- a/python/sglang/srt/layers/quantization/utils.py
+++ b/python/sglang/srt/layers/quantization/utils.py
@@ -12,7 +12,7 @@
 
 from sglang.srt.layers.quantization.fp8_kernel import scaled_fp8_quant
 from sglang.srt.layers.quantization.scalar_type import ScalarType, scalar_types
-from sglang.srt.utils import cpu_has_amx_support, is_cpu, is_cuda, is_npu
+from sglang.srt.utils import cpu_has_amx_support, is_cpu, is_cuda, is_hip, is_npu
 
 if TYPE_CHECKING:
     from sglang.srt.layers.quantization.base_config import QuantizationConfig
@@ -21,8 +21,9 @@
 _is_npu = is_npu()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
+_is_hip = is_hip()
 
-if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available)):
+if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available) or _is_hip):
     from vllm._custom_ops import scaled_fp8_quant
 
 
diff --git a/python/sglang/test/test_custom_ops.py b/python/sglang/test/test_custom_ops.py
index 873f9960e0f9..c07c95db6998 100644
--- a/python/sglang/test/test_custom_ops.py
+++ b/python/sglang/test/test_custom_ops.py
@@ -3,8 +3,13 @@
 import pytest
 import torch
 
-from sglang.srt.layers.quantization.fp8_kernel import scaled_fp8_quant
-from sglang.srt.utils import is_cuda
+from sglang.srt.layers.quantization.fp8_kernel import is_fp8_fnuz, scaled_fp8_quant
+from sglang.srt.utils import is_cuda, is_hip
+
+_is_cuda = is_cuda()
+_is_hip = is_hip()
+_is_fp8_fnuz = is_fp8_fnuz()
+fp8_dtype = torch.float8_e4m3fnuz if _is_fp8_fnuz else torch.float8_e4m3fn
 
 
 @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
@@ -13,10 +18,10 @@ def test_scaled_fp8_quant_per_tensor(dtype) -> None:
     def quantize_ref_per_tensor(tensor, inv_scale):
         # The reference implementation that fully aligns to
         # the kernel being tested.
-        finfo = torch.finfo(torch.float8_e4m3fn)
+        finfo = torch.finfo(fp8_dtype)
         scale = inv_scale.reciprocal()
         qweight = (tensor.to(torch.float32) * scale).clamp(min=finfo.min, max=finfo.max)
-        qweight = qweight.to(torch.float8_e4m3fn)
+        qweight = qweight.to(fp8_dtype)
         return qweight
 
     def dequantize_per_tensor(tensor, inv_scale, dtype):
@@ -48,19 +53,19 @@ def dequantize_per_tensor(tensor, inv_scale, dtype):
     )
 
 
-if is_cuda:
+if _is_cuda or _is_hip:
 
     @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
     def test_scaled_fp8_quant_per_token_dynamic(dtype) -> None:
         def quantize_ref_per_token(tensor, inv_scale):
             # The reference implementation that fully aligns to
             # the kernel being tested.
-            finfo = torch.finfo(torch.float8_e4m3fn)
+            finfo = torch.finfo(fp8_dtype)
             scale = inv_scale.reciprocal()
             qweight = (tensor.to(torch.float32) * scale).clamp(
                 min=finfo.min, max=finfo.max
             )
-            qweight = qweight.to(torch.float8_e4m3fn)
+            qweight = qweight.to(fp8_dtype)
             return qweight
 
         def dequantize_per_token(tensor, inv_scale, dtype):

From c33499a67b3e7bf62facdb3f59b36822a4bea2fb Mon Sep 17 00:00:00 2001
From: Rui Chen <oldsharp@gmail.com>
Date: Tue, 22 Jul 2025 23:41:23 +0800
Subject: [PATCH 088/396] fix: sgl-router remove dead code (#8257)

---
 sgl-router/src/routers/router.rs | 76 --------------------------------
 1 file changed, 76 deletions(-)

diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index c198b0c1dba5..84bb28fb58e8 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -283,82 +283,6 @@ impl Router {
         HttpResponse::InternalServerError().body("All retry attempts failed")
     }
 
-    pub async fn route_to_all(
-        &self,
-        client: &reqwest::Client,
-        route: &str,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        // Get all worker URLs
-        let worker_urls = self.get_worker_urls();
-
-        // Send requests to all workers concurrently
-        let mut tasks = Vec::new();
-        for worker_url in &worker_urls {
-            let mut request_builder = client.post(format!("{}{}", worker_url, route));
-
-            // Copy headers from original request
-            for (name, value) in copy_request_headers(req) {
-                request_builder = request_builder.header(name, value);
-            }
-
-            tasks.push(request_builder.send());
-        }
-
-        // Wait for all responses
-        let results = futures_util::future::join_all(tasks).await;
-
-        // Check if all succeeded
-        let all_success = results.iter().all(|r| {
-            r.as_ref()
-                .map(|res| res.status().is_success())
-                .unwrap_or(false)
-        });
-
-        if all_success {
-            HttpResponse::Ok().body("Operation completed on all servers")
-        } else {
-            HttpResponse::InternalServerError().body("Operation failed on one or more servers")
-        }
-    }
-
-    pub async fn get_all_loads(
-        &self,
-        client: &reqwest::Client,
-        _req: &HttpRequest,
-    ) -> HttpResponse {
-        let urls = self.get_worker_urls();
-        let prefill_urls: Vec<String> = Vec::new();
-        let decode_urls = urls;
-
-        // Collect loads from all servers
-        let mut prefill_loads = Vec::new();
-        let mut decode_loads = Vec::new();
-
-        // Get prefill loads
-        for url in &prefill_urls {
-            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
-            prefill_loads.push(serde_json::json!({
-                "engine": format!("(Prefill@{})", url),
-                "load": load as i64
-            }));
-        }
-
-        // Get decode loads
-        for url in &decode_urls {
-            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
-            decode_loads.push(serde_json::json!({
-                "engine": format!("(Decode@{})", url),
-                "load": load as i64
-            }));
-        }
-
-        HttpResponse::Ok().json(serde_json::json!({
-            "prefill": prefill_loads,
-            "decode": decode_loads
-        }))
-    }
-
     // New method to route typed requests directly
     pub async fn route_typed_request<
         T: crate::openai_api_types::GenerationRequest + serde::Serialize + Clone,

From 0f8b5386145c3c326fcd37d725df56738f7a93e3 Mon Sep 17 00:00:00 2001
From: Peter Pan <peter.pan@daocloud.io>
Date: Tue, 22 Jul 2025 23:55:35 +0800
Subject: [PATCH 089/396] [fix] benchmark : routed_scaling_factor is None
 (#8059)

Co-authored-by: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
---
 sgl-kernel/benchmark/bench_moe_fused_gate.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/sgl-kernel/benchmark/bench_moe_fused_gate.py b/sgl-kernel/benchmark/bench_moe_fused_gate.py
index 2405c49b6c93..36cc9c4984fd 100644
--- a/sgl-kernel/benchmark/bench_moe_fused_gate.py
+++ b/sgl-kernel/benchmark/bench_moe_fused_gate.py
@@ -18,10 +18,13 @@ def biased_grouped_topk_org(scores, bias, num_expert_group, topk_group, topk):
         renormalize=True,
         num_expert_group=num_expert_group,
         topk_group=topk_group,
+        routed_scaling_factor=2.5,  # DeepSeek-R1 : 2.5, Kimi K2: 2.872
     )
 
 
-def biased_grouped_topk_org_kernel(scores, bias, num_expert_group, topk_group, topk):
+def biased_grouped_topk_org_fuse_kernel(
+    scores, bias, num_expert_group, topk_group, topk
+):
     return moe_fused_gate(scores, bias, num_expert_group, topk_group, topk)
 
 
@@ -61,7 +64,7 @@ def benchmark(seq_length, provider):
         )
     elif provider == "kernel":
         ms, min_ms, max_ms = triton.testing.do_bench(
-            lambda: biased_grouped_topk_org_kernel(
+            lambda: biased_grouped_topk_org_fuse_kernel(
                 scores.clone(), bias.clone(), num_expert_group, topk_group, topk
             ),
             quantiles=quantiles,

From ff45ab7a5fa726193d4d4a01fae4e85cf775ac41 Mon Sep 17 00:00:00 2001
From: zhongwei <974337380@qq.com>
Date: Wed, 23 Jul 2025 05:02:40 +0800
Subject: [PATCH 090/396] [Benchmark] add disable-auto-run param for
 hicache/bench_multiturn (#7822)

Co-authored-by: zhongwei.ren <zhongwei.ren@bytedance.com>
Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
---
 benchmark/hicache/bench_multiturn.py | 67 +++++++++++++++++++++++++---
 1 file changed, 62 insertions(+), 5 deletions(-)

diff --git a/benchmark/hicache/bench_multiturn.py b/benchmark/hicache/bench_multiturn.py
index 5b8d706a399c..5e954ecd6466 100644
--- a/benchmark/hicache/bench_multiturn.py
+++ b/benchmark/hicache/bench_multiturn.py
@@ -9,6 +9,7 @@
 from typing import Optional
 
 import aiohttp
+import numpy as np
 import requests
 from tqdm.asyncio import tqdm
 
@@ -97,6 +98,30 @@ def parse_args():
         default="performance_metrics.jsonl",
         help="File to log performance metrics",
     )
+    parser.add_argument(
+        "--disable-auto-run",
+        action="store_true",
+        help="If set, disable automatically testing with a range of request rates.",
+    )
+
+    parser.add_argument(
+        "--disable-random-sample",
+        action="store_true",
+        help="If set, disable random sampling of requests from the ShareGPT dataset.",
+    )
+    parser.add_argument(
+        "--sub-question-input-length",
+        type=int,
+        default=0,
+        help="Length of the sub question input for each request, if set 0 use request_length",
+    )
+    parser.add_argument(
+        "--ready-queue-policy",
+        type=str,
+        default="random",
+        help="Policy for popping requests from the ready queue (random or fifo)",
+    )
+    parser.add_argument("--seed", type=int, default=1, help="The random seed.")
     return parser.parse_args()
 
 
@@ -234,13 +259,29 @@ def __init__(self, args):
         self.candidate_inputs = sample_random_requests(
             input_len=args.request_length,
             output_len=args.output_length,
-            num_prompts=args.num_clients * args.num_rounds,
+            num_prompts=args.num_clients,
             range_ratio=1.0,
             tokenizer=self.tokenizer,
             dataset_path=args.dataset_path,
+            random_sample=not args.disable_random_sample,
         )
         self.candidate_inputs = [i.prompt for i in self.candidate_inputs]
 
+        if args.sub_question_input_length != 0:
+            sub_question_input_length = args.sub_question_input_length
+        else:
+            sub_question_input_length = args.request_length
+
+        self.sub_question_inputs = sample_random_requests(
+            input_len=sub_question_input_length,
+            output_len=args.output_length,
+            num_prompts=args.num_clients * max(args.num_rounds - 1, 1),
+            range_ratio=1.0,
+            tokenizer=self.tokenizer,
+            dataset_path=args.dataset_path,
+            random_sample=not args.disable_random_sample,
+        )
+
         init_requests = [
             (i, gen_payload(self.candidate_inputs[i], args.output_length))
             for i in range(args.num_clients)
@@ -249,7 +290,9 @@ def __init__(self, args):
             i: {"round": 0, "history": init_requests[i][1]["text"]}
             for i in range(args.num_clients)
         }
-        self.ready_queue = ReadyQueue(init_requests=init_requests)
+        self.ready_queue = ReadyQueue(
+            init_requests=init_requests, policy=args.ready_queue_policy
+        )
         self.candidate_inputs = self.candidate_inputs[args.num_clients :]
 
         self.response_queue = queue.Queue()
@@ -314,9 +357,10 @@ def response_handler(self):
                 self.completed_requests += 1
 
                 if self.client_records[client_id]["round"] < args.num_rounds:
+                    # append new request to client's history
                     self.client_records[client_id][
                         "history"
-                    ] += self.candidate_inputs.pop()
+                    ] += self.sub_question_inputs.pop()
                     self.ready_queue.append(
                         (
                             client_id,
@@ -329,6 +373,9 @@ def response_handler(self):
             except queue.Empty:
                 if self.pbar.n == self.pbar.total:
                     break
+            except ValueError as e:
+                print(f"Error processing response for client {client_id}: {e}")
+                continue
 
     def run(self):
         request_thread = threading.Thread(target=self.request_sender, daemon=True)
@@ -388,8 +435,18 @@ def run(self):
     args = parse_args()
     flush_cache_url = f"http://{args.host}:{args.port}/flush_cache"
 
-    for request_rate in [16, 14, 12, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1]:
-        args.request_rate = request_rate
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+
+    if args.disable_auto_run:
+        print("Running with specified request rate...")
+        request_rates = [args.request_rate]
+    else:
+        print("Auto-running with different request rates...")
+        request_rates = [16, 14, 12, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
+
+    for rate in request_rates:
+        args.request_rate = rate
         requests.post(flush_cache_url)
         time.sleep(1)
         WorkloadGenerator(args).run()

From 0dfe2491aceb6847bd1e8845b3443801164d4600 Mon Sep 17 00:00:00 2001
From: yhyang201 <47235274+yhyang201@users.noreply.github.com>
Date: Wed, 23 Jul 2025 06:49:38 +0800
Subject: [PATCH 091/396] Preliminary Support for Qwen3XMLDetector (#8260)

Co-authored-by: Chayenne <zhaochen20@outlook.com>
---
 .../srt/function_call/function_call_parser.py |   2 +
 .../srt/function_call/qwen3_detector.py       | 150 ++++++++++++++++++
 python/sglang/srt/server_args.py              |   1 +
 3 files changed, 153 insertions(+)
 create mode 100644 python/sglang/srt/function_call/qwen3_detector.py

diff --git a/python/sglang/srt/function_call/function_call_parser.py b/python/sglang/srt/function_call/function_call_parser.py
index a6708024f876..4c38d9d4fb04 100644
--- a/python/sglang/srt/function_call/function_call_parser.py
+++ b/python/sglang/srt/function_call/function_call_parser.py
@@ -14,6 +14,7 @@
 from sglang.srt.function_call.llama32_detector import Llama32Detector
 from sglang.srt.function_call.mistral_detector import MistralDetector
 from sglang.srt.function_call.pythonic_detector import PythonicDetector
+from sglang.srt.function_call.qwen3_detector import Qwen3XMLDetector
 from sglang.srt.function_call.qwen25_detector import Qwen25Detector
 
 logger = logging.getLogger(__name__)
@@ -35,6 +36,7 @@ class FunctionCallParser:
         "deepseekv3": DeepSeekV3Detector,
         "pythonic": PythonicDetector,
         "kimi_k2": KimiK2Detector,
+        "qwen3": Qwen3XMLDetector,
     }
 
     def __init__(self, tools: List[Tool], tool_call_parser: str):
diff --git a/python/sglang/srt/function_call/qwen3_detector.py b/python/sglang/srt/function_call/qwen3_detector.py
new file mode 100644
index 000000000000..5c6ac698e8ea
--- /dev/null
+++ b/python/sglang/srt/function_call/qwen3_detector.py
@@ -0,0 +1,150 @@
+import ast
+import html
+import json
+import logging
+import re
+from typing import Any, Dict, List, Tuple
+
+from sglang.srt.entrypoints.openai.protocol import Tool
+from sglang.srt.function_call.base_format_detector import BaseFormatDetector
+from sglang.srt.function_call.core_types import (
+    StreamingParseResult,
+    StructureInfo,
+    ToolCallItem,
+    _GetInfoFunc,
+)
+from sglang.srt.function_call.ebnf_composer import EBNFComposer
+
+logger = logging.getLogger(__name__)
+
+
+def _safe_val(raw: str) -> Any:
+    raw = html.unescape(raw.strip())
+    try:
+        return json.loads(raw)
+    except Exception:
+        try:
+            return ast.literal_eval(raw)
+        except Exception:
+            return raw
+
+
+class Qwen3XMLDetector(BaseFormatDetector):
+    """
+    Detector for Qwen 3 models.
+    Assumes function call format:
+        <tool_call>
+        <function=execute_bash>
+        <parameter=command>
+        pwd && ls
+        </parameter>
+        </function>
+        </tool_call>
+    """
+
+    def __init__(self):
+        super().__init__()
+        self.tool_call_start_token: str = "<tool_call>"
+        self.tool_call_end_token: str = "</tool_call>"
+        self.tool_call_prefix: str = "<function="
+        self.tool_call_regex = re.compile(
+            r"<tool_call>(.*?)</tool_call>|<tool_call>(.*?)$", re.DOTALL
+        )
+        self.tool_call_function_regex = re.compile(
+            r"<function=(.*?)</function>|<function=(.*)$", re.DOTALL
+        )
+        self.tool_call_parameter_regex = re.compile(
+            r"<parameter=(.*?)</parameter>|<parameter=(.*?)$", re.DOTALL
+        )
+        self._buf: str = ""
+
+    def has_tool_call(self, text: str) -> bool:
+        return self.tool_call_start_token in text
+
+    def detect_and_parse(self, text: str, tools: List[Tool]) -> StreamingParseResult:
+        normal, calls = self._extract(text, tools)
+        return StreamingParseResult(normal_text=normal, calls=calls)
+
+    def parse_streaming_increment(
+        self, new_text: str, tools: List[Tool]
+    ) -> StreamingParseResult:
+        self._buf += new_text
+        normal = ""
+        calls: List[ToolCallItem] = []
+        while True:
+            if self.tool_call_start_token not in self._buf:
+                normal += self._buf
+                self._buf = ""
+                break
+            s = self._buf.find(self.tool_call_start_token)
+            if s > 0:
+                normal += self._buf[:s]
+                self._buf = self._buf[s:]
+            e = self._buf.find(self.tool_call_end_token)
+            if e == -1:
+                break
+            block = self._buf[: e + len(self.tool_call_end_token)]
+            self._buf = self._buf[e + len(self.tool_call_end_token) :]
+            calls.extend(self._parse_block(block, tools))
+        return StreamingParseResult(normal_text=normal, calls=calls)
+
+    def _extract(self, text: str, tools: List[Tool]) -> Tuple[str, List[ToolCallItem]]:
+        normal_parts: List[str] = []
+        calls: List[ToolCallItem] = []
+        cursor = 0
+        while True:
+            s = text.find(self.tool_call_start_token, cursor)
+            if s == -1:
+                normal_parts.append(text[cursor:])
+                break
+            normal_parts.append(text[cursor:s])
+            e = text.find(self.tool_call_end_token, s)
+            if e == -1:
+                normal_parts.append(text[s:])
+                break
+            block = text[s : e + len(self.tool_call_end_token)]
+            cursor = e + len(self.tool_call_end_token)
+            calls.extend(self._parse_block(block, tools))
+        return "".join(normal_parts), calls
+
+    def _parse_block(self, block: str, tools: List[Tool]) -> List[ToolCallItem]:
+        res: List[ToolCallItem] = []
+        for m in self.tool_call_function_regex.findall(block):
+            txt = m[0] if m[0] else m[1]
+            if ">" not in txt:
+                continue
+            idx = txt.index(">")
+            fname = txt[:idx].strip()
+            body = txt[idx + 1 :]
+            params: Dict[str, Any] = {}
+            for pm in self.tool_call_parameter_regex.findall(body):
+                ptxt = pm[0] if pm[0] else pm[1]
+                if ">" not in ptxt:
+                    continue
+                pidx = ptxt.index(">")
+                pname = ptxt[:pidx].strip()
+                pval = ptxt[pidx + 1 :].lstrip("\n").rstrip("\n")
+                params[pname] = _safe_val(pval)
+            raw = {"name": fname, "arguments": params}
+            try:
+                res.extend(self.parse_base_json(raw, tools))
+            except Exception:
+                logger.warning("invalid tool call for %s dropped", fname)
+        return res
+
+    def structure_info(self) -> _GetInfoFunc:
+        return lambda n: StructureInfo(
+            begin=f"{self.tool_call_start_token}\n<function={n}>",
+            end=f"</function>\n{self.tool_call_end_token}",
+            trigger=self.tool_call_start_token,
+        )
+
+    # TODO: fake ebnf for xml + outlines backend
+    def build_ebnf(self, tools: List[Tool]):
+        return EBNFComposer.build_ebnf(
+            tools,
+            individual_call_start_token=self.tool_call_start_token.replace("\n", "\\n"),
+            individual_call_end_token=self.tool_call_end_token.replace("\n", "\\n"),
+            tool_call_separator="\\n",
+            function_format="json",
+        )
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 6464f9f40a39..400a1bf99e8e 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1099,6 +1099,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "deepseekv3",
                 "pythonic",
                 "kimi_k2",
+                "qwen3",
             ],
             default=ServerArgs.tool_call_parser,
             help="Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', and 'kimi_k2'.",

From 01c000043c96e50d3bd33416cf26d394834729cc Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 22 Jul 2025 15:55:48 -0700
Subject: [PATCH 092/396] chore: bump v0.4.9.post3 (#8265)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index 7fd380f91a62..bb202fcf4924 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.9.post2"
+pip install "sglang[all]>=0.4.9.post3"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index c99f903a454a..6b13b8150d11 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post2-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post3-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post2-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post3-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index 4ec191f71b46..cd2e731108c3 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.9.post2"
+uv pip install "sglang[all]>=0.4.9.post3"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.9.post2"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post2 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post3 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post2 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post3 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -71,7 +71,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.9.post2 -t v0.4.9.post2-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.9.post3 -t v0.4.9.post3-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -80,11 +80,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.9.post2-rocm630 \
+    v0.4.9.post3-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.9.post2-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.9.post3-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 ## Method 4: Using docker compose
diff --git a/python/pyproject.toml b/python/pyproject.toml
index 5f53a5ca328f..aa9fc460d977 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.9.post2"
+version = "0.4.9.post3"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index 2b4f02700a07..d07dcd150de0 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.9.post2"
+__version__ = "0.4.9.post3"

From e2d66f60c8f8c90ed9491e21061b73d959c2c4d7 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 23 Jul 2025 12:41:25 +0800
Subject: [PATCH 093/396] Skip llama4 vision module loading when multimodal
 disabled (#8272)

Co-authored-by: Mick <mickjagger19@icloud.com>
---
 python/sglang/srt/managers/schedule_batch.py |  1 +
 python/sglang/srt/models/mllama4.py          | 13 ++++++++++---
 2 files changed, 11 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 536198cd27b4..714af6fba588 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -106,6 +106,7 @@
     "num_reserved_decode_tokens",
     "weight_loader_disable_mmap",
     "enable_triton_kernel_moe",
+    "enable_multimodal",
 ]
 
 # Put some global args for easy access
diff --git a/python/sglang/srt/models/mllama4.py b/python/sglang/srt/models/mllama4.py
index 8712191a98af..4a2d5f7ded4b 100644
--- a/python/sglang/srt/models/mllama4.py
+++ b/python/sglang/srt/models/mllama4.py
@@ -23,6 +23,7 @@
     Modality,
     MultimodalDataItem,
     MultimodalInputs,
+    global_server_args_dict,
 )
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch
 from sglang.srt.model_loader.weight_utils import default_weight_loader
@@ -55,13 +56,17 @@ def __init__(
         self.quant_config = quant_config
 
         # Check if this is a text-only model (modelopt fp8 llama4 has no vision components)
-        self.has_vision = self._has_vision_weights(config)
-        if not self.has_vision:
+        self.has_vision_weights = self._has_vision_weights(config)
+        if not self.has_vision_weights:
             logger.warning(
                 "No vision weights found in checkpoint. Model will run in text-only mode. "
                 "Multimodal capabilities (image processing) will be unavailable."
             )
 
+        self.has_vision = (
+            self.has_vision_weights and global_server_args_dict["enable_multimodal"]
+        )
+
         if self.has_vision:
             self.vision_model = Llama4VisionModel(config.vision_config)
             self.multi_modal_projector = Llama4MultiModalProjector(config)
@@ -269,7 +274,9 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]) -> Set[str]:
 
     def _should_skip_weight(self, name: str) -> bool:
         """Check if we should skip loading this weight."""
-        return "vision" in name and not self.has_vision
+        return not self.has_vision and (
+            "vision" in name or "multi_modal_projector" in name
+        )
 
     def _transform_weight_name(self, name: str) -> str:
         """Transform weight name by adding language_model prefix if needed."""

From e885bfdc6a4da0766213e80162410abcfe34574b Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 23 Jul 2025 14:01:47 +0800
Subject: [PATCH 094/396] Fix sgl-kernel ci test (#8284)

---
 sgl-kernel/tests/test_moe_fused_gate.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/sgl-kernel/tests/test_moe_fused_gate.py b/sgl-kernel/tests/test_moe_fused_gate.py
index 1e1b108c7d3d..b08e0d97b23d 100644
--- a/sgl-kernel/tests/test_moe_fused_gate.py
+++ b/sgl-kernel/tests/test_moe_fused_gate.py
@@ -10,7 +10,6 @@
     list(range(1, 10))
     + [16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32768, 65536],
 )
-@pytest.mark.parametrize("dtype", [torch.float16, torch.float32, torch.bfloat16])
 @pytest.mark.parametrize(
     "params",
     [
@@ -20,13 +19,14 @@
     ],
 )
 @pytest.mark.parametrize("num_fused_shared_experts", [0, 1, 2])
-def test_moe_fused_gate_combined(seq_length, dtype, params, num_fused_shared_experts):
+def test_moe_fused_gate_combined(seq_length, params, num_fused_shared_experts):
     num_experts, num_expert_group, topk_group, topk = params
+    dtype = torch.float32
 
     torch.manual_seed(seq_length)
-    tensor = torch.rand((seq_length, num_experts)).to(dtype).cuda()
+    tensor = torch.rand((seq_length, num_experts), dtype=dtype, device="cuda")
     scores = tensor.clone()
-    bias = torch.rand(num_experts).to(dtype).cuda()
+    bias = torch.rand(num_experts, dtype=dtype, device="cuda")
     topk = topk + num_fused_shared_experts
 
     output, indices = moe_fused_gate(

From 8abd3e77feca9ed740356c1b879e524d09482fb2 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Wed, 23 Jul 2025 00:32:16 -0700
Subject: [PATCH 095/396] Introduce Stable LoRA ID System for Overlapped
 Updates and Prefix Caching (#8261)

---
 python/sglang/srt/lora/lora_manager.py        | 302 ++++++++----------
 python/sglang/srt/lora/lora_registry.py       | 124 +++++++
 python/sglang/srt/lora/mem_pool.py            |   4 +-
 python/sglang/srt/managers/io_struct.py       |  20 +-
 python/sglang/srt/managers/scheduler.py       |  20 +-
 .../sglang/srt/managers/tokenizer_manager.py  |  53 +--
 python/sglang/srt/managers/tp_worker.py       |   6 +-
 .../sglang/srt/model_executor/model_runner.py |  25 +-
 python/sglang/srt/server_args.py              |  23 +-
 test/srt/models/lora/test_lora_eviction.py    |  80 +++--
 test/srt/run_suite.py                         |   2 +-
 11 files changed, 399 insertions(+), 260 deletions(-)
 create mode 100644 python/sglang/srt/lora/lora_registry.py

diff --git a/python/sglang/srt/lora/lora_manager.py b/python/sglang/srt/lora/lora_manager.py
index 85fd246163c1..719c52ef8d7c 100644
--- a/python/sglang/srt/lora/lora_manager.py
+++ b/python/sglang/srt/lora/lora_manager.py
@@ -16,7 +16,7 @@
 # and "Punica: Multi-Tenant LoRA Serving"
 
 import logging
-from typing import Dict, Iterable, Optional, Set, Tuple
+from typing import Dict, Iterable, List, Optional, Set, Tuple
 
 import torch
 
@@ -26,6 +26,7 @@
 from sglang.srt.lora.layers import BaseLayerWithLoRA, get_lora_layer
 from sglang.srt.lora.lora import LoRAAdapter
 from sglang.srt.lora.lora_config import LoRAConfig
+from sglang.srt.lora.lora_registry import LoRARef
 from sglang.srt.lora.mem_pool import LoRAMemoryPool
 from sglang.srt.lora.utils import (
     LoRABatchInfo,
@@ -55,6 +56,7 @@ def __init__(
         tp_rank: int = 0,
         max_lora_rank: Optional[int] = None,
         target_modules: Optional[Iterable[str]] = None,
+        lora_paths: Optional[Dict[str, LoRARef]] = None,
     ):
         self.base_model: torch.nn.Module = base_model
         self.base_hf_config: AutoConfig = base_hf_config
@@ -64,10 +66,6 @@ def __init__(
         self.device: torch.device = next(self.base_model.parameters()).device
         self.tp_size: int = tp_size
         self.tp_rank: int = tp_rank
-        self.max_lora_rank: Optional[int] = max_lora_rank
-        self.target_modules: Optional[Set[str]] = (
-            set(target_modules) if target_modules else None
-        )
 
         # LoRA backend for running sgemm kernels
         logger.info(f"Using {lora_backend} as backend of LoRA kernels.")
@@ -75,7 +73,11 @@ def __init__(
         self.lora_backend: BaseLoRABackend = backend_type(lora_backend)
 
         # Initialize mutable internal state of the LoRAManager.
-        self.init_state()
+        self.init_state(
+            max_lora_rank=max_lora_rank,
+            target_modules=target_modules,
+            lora_paths=lora_paths,
+        )
 
     def init_cuda_graph_batch_info(self, max_bs_in_cuda_graph: int):
         self.max_bs_in_cuda_graph = max_bs_in_cuda_graph
@@ -112,108 +114,87 @@ def create_lora_update_result(
             success=success,
             error_message=error_message,
             loaded_adapters={
-                name: config.path for name, config in self.configs.items()
+                lora_ref.lora_name: lora_ref.lora_path
+                for lora_ref in self.lora_refs.values()
             },
         )
 
-    def load_lora_adapters(self, lora_paths: Dict[str, str]) -> LoRAUpdateResult:
-        """
-        Load LoRA adapters from the specified paths.
-
-        Args:
-            lora_paths (Dict[str, str]): A dictionary mapping LoRA adapter names to their file paths.
-            If a LoRA adapter is already loaded, it will be skipped with a warning.
-        """
-
-        results = []
-        for lora_name, lora_path in lora_paths.items():
-            result = self.load_lora_adapter(lora_name, lora_path, update_state=False)
-            results.append(result)
-
-        self.update_state_from_configs()
-
-        return self.create_lora_update_result(
-            success=all(result.success for result in results),
-            error_message="\n".join(
-                result.error_message for result in results if not result.success
-            ),
-        )
-
-    def load_lora_adapter(
-        self, lora_name: str, lora_path: str, update_state: bool = True
-    ) -> LoRAUpdateResult:
+    def load_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
         """
         Load a single LoRA adapter from the specified path.
 
         Args:
-            lora_name (str): The name of the LoRA adapter.
-            lora_path (str): The file path to the LoRA adapter.
-            update_state (bool): Whether to refresh the internal state after loading the adapter. This is useful for batch loading.
+            lora_ref (LoRARef): The LoRARef object containing the LoRA name, path, and ID.
         """
+        assert (
+            lora_ref.lora_name is not None and lora_ref.lora_path is not None
+        ), "LoRARef must have both lora_name and lora_path set for loading."
+        assert (
+            lora_ref.lora_id not in self.loras
+        ), f"LoRA adapter with ID {lora_ref.lora_id} is already loaded. This should have been verified before request is sent to the backend."
 
-        success = True
-        error_message = ""
+        try:
+            # load configs
+            new_adapter = LoRAConfig(lora_ref.lora_path)
+            self.validate_new_adapter(new_adapter, lora_ref)
+            self.configs[lora_ref.lora_id] = new_adapter
 
-        if lora_name in self.loras:
-            success = False
-            error_message = f"LoRA adapter {lora_name} is skipped as it is already loaded. If you want to reload it, please unload it first."
+            # load weights
+            self.load_lora_weights(lora_ref)
 
-        try:
-            new_adapter = LoRAConfig(lora_path)
-            self.validate_new_adapter(lora_name, new_adapter)
-            self.configs[lora_name] = new_adapter
+            # keep metadata for displayed messages
+            self.lora_refs[lora_ref.lora_id] = lora_ref
         except Exception as e:
-            success = False
-            error_message = (
-                f"Failed to load LoRA adapter {lora_name} from {lora_path}: {str(e)}"
+            return self.create_lora_update_result(
+                success=False,
+                error_message=str(e),
             )
 
-        if update_state:
-            self.update_state_from_configs()
+        return self.create_lora_update_result(success=True)
 
-        return self.create_lora_update_result(
-            success=success,
-            error_message=error_message,
-        )
-
-    def validate_new_adapter(self, lora_name: str, lora_config: LoRAConfig):
+    def validate_new_adapter(self, lora_config: LoRAConfig, lora_ref: LoRARef):
         """
         Validate if an adapter can be loaded into the current LoRA memory pool and generate error if it is incompatible.
         """
 
-        incompatible = self.memory_pool and not self.memory_pool.can_support(
-            lora_config
-        )
+        memory_pool = getattr(self, "memory_pool", None)
+        incompatible = memory_pool and not memory_pool.can_support(lora_config)
         if incompatible:
             raise ValueError(
-                f"LoRA adapter {lora_name} with rank {lora_config.r} is incompatible with the current LoRA memory pool configuration. "
+                f"LoRA adapter {lora_ref.lora_name} with rank {lora_config.r} is incompatible with the current LoRA memory pool configuration. "
                 "Please ensure that the LoRA adapter's rank is within the configured `--max_lora_rank` and that the target modules are "
                 "included in `--enable_lora_modules`."
             )
 
-    def unload_lora_adapter(self, lora_name: str) -> LoRAUpdateResult:
+    def unload_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
         """
         Unload LoRA adapters by their names. This will remove the adapters from the memory pool and
         delete the corresponding LoRA modules.
         """
 
-        success = True
-        error_message = ""
-        if lora_name in self.loras:
-            del self.configs[lora_name]
-        else:
-            error_message = f"LoRA adapter {lora_name} is not loaded."
-            success = False
+        adapter = self.configs.get(lora_ref.lora_id, None)
+        assert (
+            adapter is not None
+        ), f"LoRA adapter with ID {lora_ref.lora_id} is not loaded. This should have been verified before request is sent to the backend."
 
-        self.update_state_from_configs()
+        try:
+            del self.configs[lora_ref.lora_id]
+            del self.loras[lora_ref.lora_id]
+            del self.lora_refs[lora_ref.lora_id]
+        except Exception as e:
+            return self.create_lora_update_result(
+                success=False,
+                error_message=str(e),
+            )
 
-        return self.create_lora_update_result(
-            success=success,
-            error_message=error_message,
-        )
+        return self.create_lora_update_result(success=True)
 
     def prepare_lora_batch(self, forward_batch: ForwardBatch):
-        # load active loras into lora memory pool
+        # Load active loras into lora memory pool
+        # TODO (lifuhuang): The naming of `forward_batch.lora_paths` is confusing. It actually contains a set of unique
+        # LoRA IDs, not LoRA paths. While unfortunately we cannot change the name in API for backward compatibility, we
+        # should consider (1) renaming the incorrect usage within the system, and (2) deprecating the parameter name in
+        # the current API schema and introducing a better request schema in the future (e.g., use `model_name`).
         cur_uids = set(forward_batch.lora_paths)
         assert len(cur_uids) <= self.max_loras_per_batch
         self.memory_pool.prepare_lora_batch(cur_uids, self.loras, self.lora_modules)
@@ -233,10 +214,10 @@ def transfer_adapter_info(
             weight_indices = [0] * len(forward_batch.lora_paths)
             lora_ranks = [0] * self.max_loras_per_batch
             scalings = [0] * self.max_loras_per_batch
-            for i, lora_path in enumerate(forward_batch.lora_paths):
-                weight_indices[i] = self.memory_pool.get_buffer_id(lora_path)
-                if lora_path is not None:
-                    lora = self.loras[lora_path]
+            for i, uid in enumerate(forward_batch.lora_paths):
+                weight_indices[i] = self.memory_pool.get_buffer_id(uid)
+                if uid is not None:
+                    lora = self.loras[uid]
                     lora_ranks[weight_indices[i]] = lora.config.r
                     scalings[weight_indices[i]] = lora.scaling
 
@@ -326,7 +307,7 @@ def update_lora_info(self):
         """
         Update all LoRA modules to associate them with the latest memory buffer.
         """
-        for layer_id, layer_modules in self.lora_modules.items():
+        for layer_id, layer_modules in enumerate(self.lora_modules):
             for module_name, module in layer_modules.items():
                 if "qkv_proj" in module_name:
                     module.set_lora_info(
@@ -353,115 +334,94 @@ def update_lora_info(self):
                         ),
                     )
 
-    def init_state(self):
+    def init_state(
+        self,
+        max_lora_rank: Optional[int] = None,
+        target_modules: Optional[Iterable[str]] = None,
+        lora_paths: Optional[Dict[str, LoRARef]] = None,
+    ):
         """
         Initialize the internal (mutable) state of the LoRAManager.
 
-        These states are mutable via the `update_state_from_configs` as LoRA adapters are loaded and unloaded dynamically.
+        When `lora_paths` is provided and not empty, it might be used for inferring LoRA shape info such as
+        the target modules and max_lora_rank.
         """
 
-        # Configs of all active LoRA adapters.
-        self.configs: Dict[str, LoRAConfig] = {}
-
-        # LoRA adapter weights cached in CPU memory.
-        self.loras: Dict[str, LoRAAdapter] = {}
+        assert lora_paths or (
+            max_lora_rank is not None and target_modules is not None
+        ), "When no initial --lora-paths is provided, you need to specify both --max-lora-rank and --lora-target-modules for LoRA initialization."
 
-        # Supported weight names (e.g., qkv_proj) for LoRA A and B respectively.
-        self.lora_weight_names: Tuple[Set[str]] = (set(), set())
-
-        # Look-up table that essentially maps (layer_index, module_name) to the corresponding LoRA module.
-        self.lora_modules: Dict[int, Dict[str, BaseLayerWithLoRA]] = {
-            i: {} for i in range(self.base_hf_config.num_hidden_layers)
-        }
+        self.init_lora_adapters(lora_paths)
+        self.init_lora_shapes(
+            max_lora_rank=max_lora_rank,
+            target_modules=target_modules,
+        )
+        self.init_lora_weight_names()
+        self.init_lora_modules()
+        self.init_memory_pool()
 
-        # The LoRA memory pool that manages the GPU buffers for active LoRA weights.
-        # It is initialized lazily when the first LoRA adapter is loaded.
-        self.memory_pool: Optional[LoRAMemoryPool] = None
+    def init_lora_adapters(self, lora_paths: Optional[Dict[str, LoRARef]] = None):
+        # Configs of all active LoRA adapters, indexed by LoRA ID.
+        self.configs: Dict[str, LoRAConfig] = {}
 
-    def update_state_from_configs(self):
-        """
-        Update the internal state of the LoRAManager based on the current `self.configs`. This method
-        should be called whenever `self.configs` is modified (e.g., when new LoRA adapters are loaded).
-        """
+        # LoRA adapter weights cached in CPU memory, indexed by LoRA ID.
+        self.loras: Dict[str, LoRAAdapter] = {}
 
-        # Loads / unloads LoRA adapters based on the latest configs.
-        self.update_lora_adapters()
-        # Apply the latest LoRA configurations to the internal state for inferencing.
-        self.apply_lora_configs()
+        # Mapping from LoRA ID to LoRARef object.
+        self.lora_refs: Dict[str, LoRARef] = {}
 
-    def apply_lora_configs(self):
-        """
-        Apply the LoRA configurations to the base model and internal states of the LoRAManager for inferencing.
+        if lora_paths:
+            for lora_ref in lora_paths.values():
+                result = self.load_lora_adapter(lora_ref)
+                if not result.success:
+                    raise RuntimeError(
+                        f"Failed to load LoRA adapter {lora_ref.lora_name}: {result.error_message}"
+                    )
 
-        Notes:
-        - Currently, this method is effectively only invoked during the initialization phase of the LoRAManager as
-          we do not yet support dynamically updating adapter shape configs, which has a dependency on (1) FlashInfer
-          LoRA backend deprecation and (2) CUDA graph recapture support. We are targeting completing these work in
-          early CY25H2.
-        """
+    def init_lora_shapes(
+        self,
+        max_lora_rank: Optional[int] = None,
+        target_modules: Optional[Iterable[str]] = None,
+    ):
+        """Infer LoRA target modules and max_lora_rank from loaded adapters if not provided."""
 
-        if self.memory_pool is None:
-            # Infer max_lora_rank and target_modules if not explicitly specified in server args.
-            if self.target_modules is None:
-                self.target_modules = set()
-                for config in self.configs.values():
-                    self.target_modules.update(config.target_modules)
-
-            if self.max_lora_rank is None:
-                self.max_lora_rank = max(
-                    [x.hf_config["r"] for x in self.configs.values()],
-                    default=0,
-                )
+        if target_modules is not None:
+            self.target_modules = set(target_modules)
+        else:
+            self.target_modules = set()
+            for config in self.configs.values():
+                self.target_modules.update(config.target_modules)
 
-            self.update_lora_weight_names()
-            self.update_lora_modules()
-            self.update_memory_buffers()
+        if max_lora_rank is not None:
+            self.max_lora_rank = max_lora_rank
         else:
-            # No-op if the memory pool can support the current LoRA configurations.
-            # TODO (lifuhuang): support reinitializing the memory pool when the maximum LoRA rank or target
-            # module is changed once FlashInfer backend is deprecated.
-            assert self.memory_pool.can_support(self.configs.values()), (
-                "LoRA memory pool cannot support the current LoRA configuration. "
-                "This should never happen as we should have validated adapter compatibility. "
-                "Please create a Github issue to report.",
+            self.max_lora_rank = max(
+                [x.hf_config["r"] for x in self.configs.values()],
+                default=0,
             )
 
-    def update_lora_weight_names(self):
+    def init_lora_weight_names(self):
         """
         Add new LoRA weight names if needed based on the current `self.configs`.
         """
 
         # Target lora weight names for lora_a and lora_b modules respectively.
         lora_A, lora_B = get_normalized_lora_weight_names(self.target_modules)
-        self.lora_weight_names[0].update(lora_A)
-        self.lora_weight_names[1].update(lora_B)
+        self.lora_weight_names: Tuple[Set[str]] = (set(lora_A), set(lora_B))
 
-    def update_lora_adapters(self):
+    def load_lora_weights(self, lora_ref: LoRARef):
         """
-        Update the LoRA adapters in CPU memory based on the current `self.configs`.
-        It loads any new adapters that are not already loaded, and unloads any adapters
-        that are no longer in `self.configs` (e.g., unloaded).
+        Load the weights of a LoRA adapter to CPU memory and conducts post-loading validation.
         """
-
-        # Load new adapter weights to cpu
-        for name, config in self.configs.items():
-            if name not in self.loras:
-                logger.info(f"Loading weight of LoRA adapter {name} from {config.path}")
-                lora_adapter = LoRAAdapter(
-                    name,
-                    config,
-                    self.base_hf_config,
-                    self.load_config,
-                    self.lora_backend,
-                )
-                lora_adapter.initialize_weights()
-                self.loras[name] = lora_adapter
-
-        # Clean up unused LoRA adapters, copying the list to avoid modifying the dict during iteration.
-        for name in list(self.loras):
-            if name not in self.configs:
-                logger.info(f"Unloading LoRA adapter {name}")
-                del self.loras[name]
+        lora_adapter = LoRAAdapter(
+            lora_ref.lora_id,
+            self.configs[lora_ref.lora_id],
+            self.base_hf_config,
+            self.load_config,
+            self.lora_backend,
+        )
+        lora_adapter.initialize_weights()
+        self.loras[lora_ref.lora_id] = lora_adapter
 
         # Additional checks for flashinfer backend
         # FIXME remove the restrictions after supporting multi-rank for flashinfer backend
@@ -472,7 +432,7 @@ def update_lora_adapters(self):
                 len(lora_dims) == 1 and len(scalings) == 1
             ), "Flashinfer backend currently only supports single LoRA rank and scaling across all adapters. "
 
-    def update_memory_buffers(self):
+    def init_memory_pool(self):
         """(Re)initialize the LoRA memory pool based on the current configurations."""
         self.memory_pool = LoRAMemoryPool(
             base_hf_config=self.base_hf_config,
@@ -490,7 +450,12 @@ def set_lora_module(self, module_name, module):
         replace_submodule(self.base_model, module_name, lora_module)
         return lora_module
 
-    def update_lora_modules(self):
+    def init_lora_modules(self):
+        # Look-up table that essentially maps (layer_index, module_name) to the corresponding LoRA module.
+        self.lora_modules: List[Dict[str, BaseLayerWithLoRA]] = [
+            {} for _ in range(self.base_hf_config.num_hidden_layers)
+        ]
+
         # Target module names of customized layers defined in python/sglang/srt/layers
         # e.g., {"qkv_proj", "o_proj"}
         customized_target_names = get_customized_names_from_hf_names(
@@ -511,7 +476,6 @@ def update_lora_modules(self):
             # The module should be converted if it is included in target_names
             if module_name.split(".")[-1] in customized_target_names:
                 layer_id = get_layer_id(module_name)
-                if module_name not in self.lora_modules[layer_id]:
-                    self.lora_modules[layer_id][module_name] = self.set_lora_module(
-                        module_name, module
-                    )
+                self.lora_modules[layer_id][module_name] = self.set_lora_module(
+                    module_name, module
+                )
diff --git a/python/sglang/srt/lora/lora_registry.py b/python/sglang/srt/lora/lora_registry.py
new file mode 100644
index 000000000000..b596c7371f9c
--- /dev/null
+++ b/python/sglang/srt/lora/lora_registry.py
@@ -0,0 +1,124 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+
+import asyncio
+from dataclasses import dataclass, field, fields
+from typing import Dict, List, Optional, Union
+from uuid import uuid4
+
+
+@dataclass(frozen=True, slots=True)
+class LoRARef:
+    """
+    Reference record for a LoRA model.
+
+    This object guarantees a unique ``lora_id`` and may include ``lora_name`` and ``lora_path``. The ID
+    eliminates conflicts from reused LoRA names or paths and can be used to generate deterministic cache
+    keys (e.g., radix cache).
+    """
+
+    lora_id: str = field(default_factory=lambda: uuid4().hex)
+    lora_name: Optional[str] = None
+    lora_path: Optional[str] = None
+
+    def __post_init__(self):
+        if self.lora_id is None:
+            raise ValueError("lora_id cannot be None")
+
+    def __str__(self) -> str:
+        parts = [
+            f"{f.name}={value}"
+            for f in fields(self)
+            if (value := getattr(self, f.name)) is not None
+        ]
+        return f"{self.__class__.__name__}({', '.join(parts)})"
+
+
+class LoRARegistry:
+    """
+    The central registry to keep track of available LoRA adapters.
+
+    TODO (lifuhuang): This registry is intended as the foundation for overlapped lora update. We decided
+    to keep it in a separate PR to keep code review simple and to unblock the radix cache work.
+    """
+
+    def __init__(self, lora_paths: Optional[Dict[str, LoRARef]] = None):
+        assert lora_paths is None or all(
+            isinstance(lora, LoRARef) for lora in lora_paths.values()
+        ), (
+            "server_args.lora_paths should have been normalized to LoRARef objects during server initialization. "
+            "Please file an issue if you see this error."
+        )
+
+        # A dictionary to hold LoRARef objects, mapping from LoRA name to LoRARef.
+        self._registry: Dict[str, LoRARef] = dict(lora_paths or {})
+
+    async def register(self, lora_ref: LoRARef):
+        """
+        Register a new LoRARef object in the registry.
+
+        Args:
+            lora_ref (LoRARef): The LoRARef object to register.
+        """
+        if lora_ref.lora_name in self._registry:
+            raise ValueError(
+                f"LoRA with name {lora_ref.lora_name} already exists. Loaded LoRAs: {self._registry.keys()}"
+            )
+        self._registry[lora_ref.lora_name] = lora_ref
+
+    async def unregister(self, lora_name: str) -> str:
+        """
+        Unregister a LoRARef object from the registry and returns the removed LoRA ID.
+
+        Args:
+            lora_name (str): The name of the LoRA model to unregister.
+        """
+        lora_ref = self._registry.get(lora_name, None)
+        if lora_ref is None:
+            raise ValueError(
+                f"LoRA with name {lora_name} does not exist. Loaded LoRAs: {self._registry.keys()}"
+            )
+        del self._registry[lora_name]
+
+        return lora_ref.lora_id
+
+    async def acquire(self, lora_name: Union[str, List[str]]) -> Union[str, List[str]]:
+        """
+        Queries registry for LoRA IDs based on LoRA names and start tracking the usage of the corresponding LoRA adapters
+        by incrementing its counter.
+
+        TODO (lifuhuang): currently it only queries the registry and does not track the usage of LoRA adapters.
+        """
+
+        async def _acquire_single(name: str) -> str:
+            lora_ref = self._registry.get(name, None)
+            if lora_ref is None:
+                raise ValueError(
+                    f"The following requested LoRA adapters are not loaded: {name}\n"
+                    f"Loaded adapters: {self._registry.keys()}."
+                )
+            # await self._counters[lora_ref.lora_id].increment()
+            return lora_ref.lora_id
+
+        if isinstance(lora_name, str):
+            lora_id = await _acquire_single(lora_name)
+            return lora_id
+        elif isinstance(lora_name, list):
+            lora_ids = await asyncio.gather(
+                *[_acquire_single(name) for name in lora_name]
+            )
+            return lora_ids
+        else:
+            raise TypeError("lora_name must be either a string or a list of strings.")
diff --git a/python/sglang/srt/lora/mem_pool.py b/python/sglang/srt/lora/mem_pool.py
index 1b36cac5e1a7..ae856246dd92 100644
--- a/python/sglang/srt/lora/mem_pool.py
+++ b/python/sglang/srt/lora/mem_pool.py
@@ -153,7 +153,7 @@ def prepare_lora_batch(
         self,
         cur_uids: Set[Optional[str]],
         lora_adapters: Dict[str, LoRAAdapter],
-        lora_modules: Dict[int, Dict[str, BaseLayerWithLoRA]],
+        lora_modules: List[Dict[str, BaseLayerWithLoRA]],
     ):
         def get_available_buffer_slot():
             for buffer_id in range(self.max_loras_per_batch):
@@ -186,7 +186,7 @@ def load_lora_weight_to_buffer(
         uid: str,
         buffer_id: int,
         lora_adapter: LoRAAdapter,
-        lora_modules: Dict[int, Dict[str, BaseLayerWithLoRA]],
+        lora_modules: List[Dict[str, BaseLayerWithLoRA]],
     ):
         def load_lora_weight_tensor(
             buffer_view: torch.Tensor, weight: Optional[torch.Tensor]
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 8e1d1075aab6..3d18e1af450d 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -22,6 +22,7 @@
 from enum import Enum
 from typing import TYPE_CHECKING, Any, Dict, List, Optional, Union
 
+from sglang.srt.lora.lora_registry import LoRARef
 from sglang.srt.managers.schedule_batch import BaseFinishReason
 from sglang.srt.multimodal.mm_utils import has_valid_data
 from sglang.srt.sampling.sampling_params import SamplingParams
@@ -1067,19 +1068,36 @@ class LoadLoRAAdapterReqInput:
     lora_name: str
     # The path of loading.
     lora_path: str
+    # The unique identifier for the LoRA adapter, which automatically generated in the `TokenizerManager`.
+    lora_id: Optional[str] = None
+
+    def to_ref(self) -> LoRARef:
+        return LoRARef(
+            lora_id=self.lora_id,
+            lora_name=self.lora_name,
+            lora_path=self.lora_path,
+        )
 
 
 @dataclass
 class UnloadLoRAAdapterReqInput:
     # The name of lora module to unload.
     lora_name: str
+    # The unique identifier for the LoRA adapter, which automatically generated in the `TokenizerManager`.
+    lora_id: Optional[str] = None
+
+    def to_ref(self) -> LoRARef:
+        return LoRARef(
+            lora_id=self.lora_id,
+            lora_name=self.lora_name,
+        )
 
 
 @dataclass
 class LoRAUpdateResult:
     success: bool
     error_message: Optional[str] = None
-    loaded_adapters: Dict[str, str] = field(default_factory=dict)
+    loaded_adapters: Dict[str, LoRARef] = field(default_factory=dict)
 
 
 LoadLoRAAdapterReqOutput = UnloadLoRAAdapterReqOutput = LoRAUpdateResult
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index e6dd80d717ad..c3b5fc2e885f 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -247,7 +247,7 @@ def __init__(
         self.pp_size = server_args.pp_size
         self.dp_size = server_args.dp_size
         self.schedule_policy = server_args.schedule_policy
-        self.lora_paths = server_args.lora_paths
+        self.enable_lora = server_args.enable_lora
         self.max_loras_per_batch = server_args.max_loras_per_batch
         self.enable_overlap = not server_args.disable_overlap_schedule
         self.skip_tokenizer_init = server_args.skip_tokenizer_init
@@ -1706,13 +1706,13 @@ def get_new_batch_prefill(self) -> Optional[ScheduleBatch]:
             self.chunked_req.init_next_round_input()
             self.chunked_req = adder.add_chunked_req(self.chunked_req)
 
-        if self.lora_paths:
+        if self.enable_lora:
             lora_set = set([req.lora_path for req in self.running_batch.reqs])
 
         # Get requests from the waiting queue to a new prefill batch
         for req in self.waiting_queue:
             if (
-                self.lora_paths
+                self.enable_lora
                 and len(
                     lora_set
                     | set([req.lora_path for req in adder.can_run_list])
@@ -2466,12 +2466,6 @@ def load_lora_adapter(
         """In-place loading a new lora adapter from disk or huggingface."""
 
         result = self.tp_worker.load_lora_adapter(recv_req)
-
-        if result.success:
-            flush_cache_success = self.flush_cache()
-            assert flush_cache_success, "Cache flush failed after loading lora adapter."
-        else:
-            logger.error(result.error_message)
         return result
 
     def unload_lora_adapter(
@@ -2480,14 +2474,6 @@ def unload_lora_adapter(
         """Unload the lora adapter."""
 
         result = self.tp_worker.unload_lora_adapter(recv_req)
-
-        if result.success:
-            flush_cache_success = self.flush_cache()
-            assert (
-                flush_cache_success
-            ), "Cache flush failed after unloading LoRA weights"
-        else:
-            logger.error(result.error_message)
         return result
 
     def init_weights_update_group(self, recv_req: InitWeightsUpdateGroupReqInput):
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 631d23f17335..0f65fa9257e8 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -62,6 +62,7 @@
     get_tokenizer,
     get_tokenizer_from_processor,
 )
+from sglang.srt.lora.lora_registry import LoRARef, LoRARegistry
 from sglang.srt.managers.io_struct import (
     AbortReq,
     BatchEmbeddingOut,
@@ -242,11 +243,11 @@ def __init__(
                     revision=server_args.revision,
                 )
 
-        # Initialize loaded loRA adapters with the initial lora paths in the server_args.
-        # This list will be updated when new LoRA adapters are loaded or unloaded dynamically.
-        self.loaded_lora_adapters: Dict[str, str] = dict(
-            self.server_args.lora_paths or {}
-        )
+        # Initialize the `LoRARegistry` with initial LoRA adapter paths provided in `server_args`.
+        # The registry dynamically updates as adapters are loaded / unloaded during runtime. It
+        # serves as the source of truth for available adapters and maps user-friendly LoRA names
+        # to internally used unique LoRA IDs.
+        self.lora_registry = LoRARegistry(self.server_args.lora_paths or {})
 
         # Store states
         self.no_create_loop = False
@@ -523,6 +524,10 @@ async def _tokenize_one_request(
         else:
             mm_inputs = None
 
+        if self.server_args.enable_lora and obj.lora_path:
+            # Replace the user-friendly LoRA names in `lora_path` with their corresponding unique LoRA IDs.
+            obj.lora_path = await self.lora_registry.acquire(obj.lora_path)
+
         self._validate_one_request(obj, input_ids)
         return self._create_tokenized_object(
             obj, input_text, input_ids, input_embeds, mm_inputs, token_type_ids
@@ -574,8 +579,6 @@ def _validate_one_request(
                     "The server is not configured to enable custom logit processor. "
                     "Please set `--enable-custom-logits-processor` to enable this feature."
                 )
-            if self.server_args.enable_lora and obj.lora_path:
-                self._validate_lora_adapters(obj)
 
     def _validate_input_ids_in_vocab(
         self, input_ids: List[int], vocab_size: int
@@ -689,21 +692,6 @@ def _validate_batch_tokenization_constraints(
                     "Batch tokenization is not needed for input_embeds. Do not set `enable_tokenizer_batch_encode`."
                 )
 
-    def _validate_lora_adapters(self, obj: GenerateReqInput):
-        """Validate that the requested LoRA adapters are loaded."""
-        requested_adapters = (
-            set(obj.lora_path) if isinstance(obj.lora_path, list) else {obj.lora_path}
-        )
-        loaded_adapters = (
-            self.loaded_lora_adapters.keys() if self.loaded_lora_adapters else set()
-        )
-        unloaded_adapters = requested_adapters - loaded_adapters
-        if unloaded_adapters:
-            raise ValueError(
-                f"The following requested LoRA adapters are not loaded: {unloaded_adapters}\n"
-                f"Loaded adapters: {loaded_adapters}."
-            )
-
     def _send_one_request(
         self,
         obj: Union[GenerateReqInput, EmbeddingReqInput],
@@ -1054,8 +1042,18 @@ async def load_lora_adapter(
         )
 
         async with self.model_update_lock.writer_lock:
+            # Generate new uniquely identifiable LoRARef object.
+            new_adapter = LoRARef(
+                lora_name=obj.lora_name,
+                lora_path=obj.lora_path,
+            )
+
+            # Register the new adapter in the registry.
+            obj.lora_id = new_adapter.lora_id
             result = (await self.update_lora_adapter_communicator(obj))[0]
-            self.loaded_lora_adapters = result.loaded_adapters
+            if result.success:
+                await self.lora_registry.register(new_adapter)
+
             return result
 
     async def unload_lora_adapter(
@@ -1069,6 +1067,10 @@ async def unload_lora_adapter(
                 "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
             )
 
+        assert (
+            obj.lora_name is not None
+        ), "lora_name must be provided to unload LoRA adapter"
+
         # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
         # with dp_size > 1.
         assert (
@@ -1080,8 +1082,9 @@ async def unload_lora_adapter(
         )
 
         async with self.model_update_lock.writer_lock:
+            obj.lora_id = await self.lora_registry.unregister(obj.lora_name)
             result = (await self.update_lora_adapter_communicator(obj))[0]
-            self.loaded_lora_adapters = result.loaded_adapters
+
             return result
 
     async def get_weights_by_name(
@@ -1309,7 +1312,7 @@ def dump_requests_before_crash(self):
         filename = os.path.join(
             self.crash_dump_folder,
             os.getenv("HOSTNAME", None),
-            f'crash_dump_{datetime.now().strftime("%Y-%m-%d_%H-%M-%S")}.pkl',
+            f"crash_dump_{datetime.now().strftime('%Y-%m-%d_%H-%M-%S')}.pkl",
         )
 
         os.makedirs(os.path.dirname(filename), exist_ok=True)
diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index ff20ea01e4d3..d0939ffcaeaa 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -293,11 +293,9 @@ def get_weights_by_name(self, recv_req: GetWeightsByNameReqInput):
         return parameter
 
     def load_lora_adapter(self, recv_req: LoadLoRAAdapterReqInput):
-        result = self.model_runner.load_lora_adapter(
-            recv_req.lora_name, recv_req.lora_path
-        )
+        result = self.model_runner.load_lora_adapter(recv_req.to_ref())
         return result
 
     def unload_lora_adapter(self, recv_req: UnloadLoRAAdapterReqInput):
-        result = self.model_runner.unload_lora_adapter(recv_req.lora_name)
+        result = self.model_runner.unload_lora_adapter(recv_req.to_ref())
         return result
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 4f0b1d64ce8a..9e6d14aaca55 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -68,6 +68,7 @@
 from sglang.srt.layers.torchao_utils import apply_torchao_config_to_model
 from sglang.srt.layers.utils import is_sm100_supported
 from sglang.srt.lora.lora_manager import LoRAManager
+from sglang.srt.lora.lora_registry import LoRARef
 from sglang.srt.managers.schedule_batch import (
     GLOBAL_SERVER_ARGS_KEYS,
     global_server_args_dict,
@@ -890,44 +891,38 @@ def init_lora_manager(self):
             tp_rank=self.tp_rank,
             max_lora_rank=self.server_args.max_lora_rank,
             target_modules=self.server_args.lora_target_modules,
+            lora_paths=self.server_args.lora_paths,
         )
-        result = self.lora_manager.load_lora_adapters(self.server_args.lora_paths or {})
-        if result.success:
-            logger.info(
-                f"LoRA manager ready. Loaded LoRA adapters: {', '.join(result.loaded_adapters)}"
-            )
-        else:
-            raise RuntimeError(f"Failed to load LoRA adapters: {result.error_message}")
 
-    def load_lora_adapter(self, lora_name: str, lora_path: str):
+    def load_lora_adapter(self, lora_ref: LoRARef):
         """Load a new lora adapter from disk or huggingface."""
 
         logger.info(
-            f"LoRA adapter loading starts: name={lora_name}, path={lora_path}. "
+            f"LoRA adapter loading starts: {lora_ref}. "
             f"avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
         )
 
-        result = self.lora_manager.load_lora_adapter(lora_name, lora_path)
+        result = self.lora_manager.load_lora_adapter(lora_ref)
 
         logger.info(
-            f"LoRA adapter loading completes: name={lora_name}, path={lora_path}. "
+            f"LoRA adapter loading completes: {lora_ref}. "
             f"avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
         )
 
         return result
 
-    def unload_lora_adapter(self, lora_name: str):
+    def unload_lora_adapter(self, lora_ref: LoRARef):
         """Unload a lora adapter that was previously loaded during initialization or dynamic loading."""
 
         logger.info(
-            f"LoRA adapter unloading starts: name={lora_name}. "
+            f"LoRA adapter unloading starts: {lora_ref}. "
             f"avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
         )
 
-        result = self.lora_manager.unload_lora_adapter(lora_name)
+        result = self.lora_manager.unload_lora_adapter(lora_ref)
 
         logger.info(
-            f"LoRA adapter unloading completes: name={lora_name}. "
+            f"LoRA adapter unloading completes: {lora_ref}. "
             f"avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
         )
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 400a1bf99e8e..1625f2c3af21 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -20,10 +20,10 @@
 import os
 import random
 import tempfile
-from token import OP
 from typing import List, Literal, Optional, Union
 
 from sglang.srt.hf_transformers_utils import check_gguf_file, get_config
+from sglang.srt.lora.lora_registry import LoRARef
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.utils import (
     LORA_TARGET_ALL_MODULES,
@@ -145,7 +145,7 @@ class ServerArgs:
     enable_lora: Optional[bool] = None
     max_lora_rank: Optional[int] = None
     lora_target_modules: Optional[Union[set[str], List[str]]] = None
-    lora_paths: Optional[Union[dict[str, str], List[str]]] = None
+    lora_paths: Optional[Union[dict[str, str], dict[str, LoRARef], List[str]]] = None
     max_loras_per_batch: int = 8
     lora_backend: str = "triton"
 
@@ -1843,9 +1843,24 @@ def check_lora_server_args(self):
                 for lora_path in lora_paths:
                     if "=" in lora_path:
                         name, path = lora_path.split("=", 1)
-                        self.lora_paths[name] = path
+                        self.lora_paths[name] = LoRARef(lora_name=name, lora_path=path)
                     else:
-                        self.lora_paths[lora_path] = lora_path
+                        self.lora_paths[lora_path] = LoRARef(
+                            lora_name=lora_path,
+                            lora_path=lora_path,
+                        )
+            elif isinstance(self.lora_paths, dict):
+                self.lora_paths = {
+                    k: LoRARef(lora_name=k, lora_path=v)
+                    for k, v in self.lora_paths.items()
+                }
+            elif self.lora_paths is None:
+                self.lora_paths = {}
+            else:
+                raise ValueError(
+                    f"Invalid type for --lora-paths: {type(self.lora_paths)}. "
+                    "Expected a list or a dictionary."
+                )
 
             # Expand target modules
             if self.lora_target_modules:
diff --git a/test/srt/models/lora/test_lora_eviction.py b/test/srt/models/lora/test_lora_eviction.py
index e74af0a0e61d..b352da2d5d99 100644
--- a/test/srt/models/lora/test_lora_eviction.py
+++ b/test/srt/models/lora/test_lora_eviction.py
@@ -12,6 +12,7 @@
 # limitations under the License.
 # ==============================================================================
 
+import contextlib
 import multiprocessing as mp
 import unittest
 from typing import Dict, List, Tuple
@@ -39,6 +40,16 @@
 BASE_MODEL = "meta-llama/Meta-Llama-3.1-8B-Instruct"
 
 
+@contextlib.contextmanager
+def dynamically_loaded_adapter(runner, lora_path: str, lora_name: str):
+    """A context manager to load and automatically unload a LoRA adapter."""
+    try:
+        runner.load_lora_adapter(lora_name=lora_name, lora_path=lora_path)
+        yield
+    finally:
+        runner.unload_lora_adapter(lora_name=lora_name)
+
+
 class TestLoRAEviction(CustomTestCase):
     def test_lora_eviction_with_different_target_modules(self):
         """
@@ -51,55 +62,80 @@ def test_lora_eviction_with_different_target_modules(self):
         self._run_test(ADAPTERS, output_history, reverse=False)
         self._run_test(ADAPTERS, output_history, reverse=True)
 
+    def test_lora_eviction_with_reused_lora_name(self):
+        """
+        Test LoRA eviction with reused LoRA names.
+
+        This test runs inference against two LoRA adapters with the same name to ensure that the eviction behavior
+        works correctly when reusing LoRA names.
+        """
+        output_history = {}
+        self._run_test(ADAPTERS, output_history, reuse_lora_name=True, repeat=1)
+        self._run_test(ADAPTERS, output_history, reuse_lora_name=False, repeat=1)
+
     def _run_test(
         self,
         lora_paths: List[str],
         output_history: Dict[Tuple[str, str], str],
-        reverse: bool,
+        reverse: bool = False,
         repeat: int = 2,
+        reuse_lora_name: bool = False,
     ):
+        REUSED_LORA_NAME = "lora"
         max_new_tokens = 256
         backend = "triton"
         torch_dtype = torch.float16
         base_path = BASE_MODEL
         assert len(lora_paths) >= 2
 
+        initial_lora_paths = lora_paths if not reuse_lora_name else None
         # Initialize runners
         with SRTRunner(
             base_path,
             torch_dtype=torch_dtype,
             model_type="generation",
-            lora_paths=lora_paths,
+            lora_paths=initial_lora_paths,
             max_loras_per_batch=1,
             lora_backend=backend,
             disable_radix_cache=True,
+            enable_lora=True,
+            max_lora_rank=256,
+            lora_target_modules=["all"],
         ) as srt_runner:
             adapter_sequence = lora_paths if not reverse else lora_paths[::-1]
 
             for i in range(repeat):
-                for j, adapter in enumerate(adapter_sequence):
+                for j, lora_path in enumerate(adapter_sequence):
                     print(
-                        f"\n========== Testing LoRA eviction with adapter '{adapter}' (#{j+1}/{len(adapter_sequence)}), reversed: {reverse}, repeat: {i+1}/{repeat} ---"
+                        f"\n========== Testing LoRA eviction with adapter '{lora_path}' (#{j + 1}/{len(adapter_sequence)}), reuse_lora_name: {reuse_lora_name}, reversed: {reverse}, repeat: {i + 1}/{repeat} ---"
+                    )
+
+                    lora_name = REUSED_LORA_NAME if reuse_lora_name else lora_path
+                    context = (
+                        dynamically_loaded_adapter(srt_runner, lora_path, lora_name)
+                        if reuse_lora_name
+                        else contextlib.nullcontext()
                     )
-                    for prompt in PROMPTS:
-                        print("\nprompt:\n", prompt)
-                        srt_outputs = srt_runner.forward(
-                            [prompt],
-                            max_new_tokens=max_new_tokens,
-                            lora_paths=[adapter],
-                        )
-                        output = srt_outputs.output_strs[0].strip()
-                        print("\noutput:\n", output)
-
-                        prev_output = output_history.get((adapter, prompt))
-                        if prev_output is not None:
-                            self.assertEqual(
-                                prev_output,
-                                output,
-                                f"Output mismatch for adapter {adapter} and prompt '{prompt}' on repeat {j + 1}, previous: '{prev_output}', current: '{output}'.",
+                    with context:
+                        for prompt in PROMPTS:
+                            print("\nprompt:\n", prompt)
+                            srt_outputs = srt_runner.forward(
+                                [prompt],
+                                max_new_tokens=max_new_tokens,
+                                lora_paths=[lora_name],
                             )
-                        else:
-                            output_history[(adapter, prompt)] = output
+                            output = srt_outputs.output_strs[0].strip()
+                            print("\noutput:\n", output)
+
+                            prev_output = output_history.get((lora_path, prompt))
+                            if prev_output is not None:
+                                self.assertEqual(
+                                    prev_output,
+                                    output,
+                                    f"Output mismatch for adapter {lora_path} and prompt '{prompt}' on repeat {j + 1}, previous: '{prev_output}', current: '{output}'.",
+                                )
+                            else:
+                                output_history[(lora_path, prompt)] = output
 
 
 if __name__ == "__main__":
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 0e62760ab72f..6a96cf598648 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -14,7 +14,7 @@ class TestFile:
 suites = {
     "per-commit": [
         TestFile("models/lora/test_lora.py", 200),
-        TestFile("models/lora/test_lora_eviction.py", 120),
+        TestFile("models/lora/test_lora_eviction.py", 200),
         TestFile("models/lora/test_lora_backend.py", 99),
         TestFile("models/lora/test_multi_lora_backend.py", 60),
         TestFile("models/lora/test_lora_cuda_graph.py", 250),

From b43263307f40a206f1371e4064d410a136d4e004 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Wed, 23 Jul 2025 01:49:03 -0700
Subject: [PATCH 096/396] Hicache IO kernel refactoring (#8264)

---
 sgl-kernel/csrc/common_extension.cc       |  37 +-
 sgl-kernel/csrc/kvcacheio/transfer.cu     | 415 ++++++++++++++--------
 sgl-kernel/include/sgl_kernel_ops.h       |  61 ++--
 sgl-kernel/python/sgl_kernel/kvcacheio.py | 160 +++++++--
 sgl-kernel/tests/test_kvcacheio.py        | 110 +++---
 5 files changed, 524 insertions(+), 259 deletions(-)

diff --git a/sgl-kernel/csrc/common_extension.cc b/sgl-kernel/csrc/common_extension.cc
index 070fe4bd2f60..20b9a804872d 100644
--- a/sgl-kernel/csrc/common_extension.cc
+++ b/sgl-kernel/csrc/common_extension.cc
@@ -249,34 +249,39 @@ TORCH_LIBRARY_FRAGMENT(sgl_kernel, m) {
       "dst_indices, int item_size, int block_quota, int num_warps_per_block) -> ()");
   m.impl("transfer_kv_per_layer", torch::kCUDA, &transfer_kv_per_layer);
   m.def(
-      "transfer_kv_per_layer_direct(Tensor src_k, Tensor dst_k, Tensor src_v, Tensor dst_v, Tensor src_indices, Tensor "
-      "dst_indices, int page_size) -> ()");
-  m.impl("transfer_kv_per_layer_direct", torch::kCUDA, &transfer_kv_per_layer_direct);
+      "transfer_kv_per_layer_pf_lf(Tensor src_k, Tensor dst_k, Tensor src_v, Tensor dst_v, Tensor src_indices, Tensor "
+      "dst_indices, int item_size, int src_layout_dim, int block_quota, int num_warps_per_block) -> ()");
+  m.impl("transfer_kv_per_layer_pf_lf", torch::kCUDA, &transfer_kv_per_layer_pf_lf);
   m.def(
-      "transfer_kv_all_layer(Tensor src_k, Tensor dst_k, Tensor src_v, Tensor dst_v, Tensor src_indices, Tensor "
-      "dst_indices, int item_size, int num_layers, int src_layer_offset, int dst_layer_offset, int block_quota, int "
+      "transfer_kv_all_layer(Tensor src_k_layers, Tensor dst_k_layers, Tensor src_v_layers, Tensor dst_v_layers, "
+      "Tensor src_indices, Tensor dst_indices, int item_size, int num_layers, int block_quota, int "
       "num_warps_per_block) -> ()");
   m.impl("transfer_kv_all_layer", torch::kCUDA, &transfer_kv_all_layer);
   m.def(
-      "transfer_kv_all_layer_direct(Tensor src_k, Tensor dst_k, Tensor src_v, Tensor dst_v, Tensor src_indices, Tensor "
-      "dst_indices, int page_size, int num_layers) -> ()");
-  m.impl("transfer_kv_all_layer_direct", torch::kCUDA, &transfer_kv_all_layer_direct);
+      "transfer_kv_all_layer_lf_pf(Tensor src_k_layers, Tensor dst_k, Tensor src_v_layers, Tensor dst_v, "
+      "Tensor src_indices, Tensor dst_indices, int item_size, int dst_layout_dim, int num_layers, int block_quota, int "
+      "num_warps_per_block) -> ()");
+  m.impl("transfer_kv_all_layer_lf_pf", torch::kCUDA, &transfer_kv_all_layer_lf_pf);
   m.def(
       "transfer_kv_per_layer_mla(Tensor src, Tensor dst, Tensor src_indices, Tensor dst_indices, int item_size, int "
       "block_quota, int num_warps_per_block) -> ()");
   m.impl("transfer_kv_per_layer_mla", torch::kCUDA, &transfer_kv_per_layer_mla);
   m.def(
-      "transfer_kv_per_layer_mla_direct(Tensor src, Tensor dst, Tensor src_indices, Tensor dst_indices, int page_size) "
-      "-> ()");
-  m.impl("transfer_kv_per_layer_mla_direct", torch::kCUDA, &transfer_kv_per_layer_mla_direct);
+      "transfer_kv_per_layer_mla_pf_lf(Tensor src, Tensor dst, Tensor src_indices, Tensor dst_indices, int item_size, "
+      "int src_layout_dim, int block_quota, int num_warps_per_block) -> ()");
+  m.impl("transfer_kv_per_layer_mla_pf_lf", torch::kCUDA, &transfer_kv_per_layer_mla_pf_lf);
   m.def(
-      "transfer_kv_all_layer_mla(Tensor src, Tensor dst, Tensor src_indices, Tensor dst_indices, int item_size, int "
-      "num_layers, int src_layer_offset, int dst_layer_offset, int block_quota, int num_warps_per_block) -> ()");
+      "transfer_kv_all_layer_mla(Tensor src_layers, Tensor dst_layers, Tensor src_indices, Tensor dst_indices, int "
+      "item_size, int num_layers, int block_quota, int num_warps_per_block) -> ()");
   m.impl("transfer_kv_all_layer_mla", torch::kCUDA, &transfer_kv_all_layer_mla);
   m.def(
-      "transfer_kv_all_layer_mla_direct(Tensor src, Tensor dst, Tensor src_indices, Tensor dst_indices, int page_size, "
-      "int num_layers) -> ()");
-  m.impl("transfer_kv_all_layer_mla_direct", torch::kCUDA, &transfer_kv_all_layer_mla_direct);
+      "transfer_kv_all_layer_mla_lf_pf(Tensor src_layers, Tensor dst, Tensor src_indices, Tensor dst_indices, "
+      "int item_size, int dst_layout_dim, int num_layers, int block_quota, int num_warps_per_block) -> ()");
+  m.impl("transfer_kv_all_layer_mla_lf_pf", torch::kCUDA, &transfer_kv_all_layer_mla_lf_pf);
+  m.def(
+      "transfer_kv_direct(Tensor[] src_layers, Tensor[] dst_layers, Tensor src_indices, Tensor dst_indices, int "
+      "page_size) -> ()");
+  m.impl("transfer_kv_direct", torch::kCUDA, &transfer_kv_direct);
 
   /*
    * From csrc/moe/cutlass_moe/w4a8
diff --git a/sgl-kernel/csrc/kvcacheio/transfer.cu b/sgl-kernel/csrc/kvcacheio/transfer.cu
index 6c939dd55c4c..cc6942e67731 100644
--- a/sgl-kernel/csrc/kvcacheio/transfer.cu
+++ b/sgl-kernel/csrc/kvcacheio/transfer.cu
@@ -22,17 +22,40 @@ transfer_item_warp(int32_t lane_id, const void* src_addr, void* dst_addr, int64_
   }
 }
 
-// todo, structs for different memory layout
-__device__ __forceinline__ int64_t
-get_global_offset_lf(int64_t layer_id, int64_t layer_dim, int64_t page_id, int64_t item_size_bytes) {
+template <typename T>
+__device__ __forceinline__ T* get_global_offset_lf(
+    T* base,
+    const uintptr_t* __restrict__ /*unused*/,
+    int64_t layer_id,
+    int64_t layer_dim,
+    int64_t page_id,
+    int64_t item_size_bytes) {
   // layer first
-  return layer_id * layer_dim + page_id * item_size_bytes;
+  return base + layer_id * layer_dim + page_id * item_size_bytes;
 }
 
-__device__ __forceinline__ int64_t
-get_global_offset_pf(int64_t layer_id, int64_t page_dim, int64_t page_id, int64_t item_size_bytes) {
+template <typename T>
+__device__ __forceinline__ T* get_global_offset_pf(
+    T* base,
+    const uintptr_t* __restrict__ /*unused*/,
+    int64_t layer_id,
+    int64_t page_dim,
+    int64_t page_id,
+    int64_t item_size_bytes) {
   // page first
-  return page_id * page_dim + layer_id * item_size_bytes;
+  return base + page_id * page_dim + layer_id * item_size_bytes;
+}
+
+// get offset from layer base table when layers are not contiguous
+template <typename T>
+__device__ __forceinline__ T* get_global_offset_lf_tbl(
+    T* /*unused*/,
+    const uintptr_t* __restrict__ layer_base_tbl,
+    int64_t layer_id,
+    int64_t /*unused*/,
+    int64_t page_id,
+    int64_t item_size_bytes) {
+  return reinterpret_cast<T*>(layer_base_tbl[layer_id]) + page_id * item_size_bytes;
 }
 
 template <auto SrcOffsetFn, auto DstOffsetFn, bool IsMLA>
@@ -49,42 +72,37 @@ __global__ void transfer_kernel_impl(
     int64_t items_per_warp,
     int64_t item_size_bytes,
     int64_t src_layout_dim,
-    int64_t dst_layout_dim) {
+    int64_t dst_layout_dim,
+    const uintptr_t* __restrict__ src_k_layer_tbl,
+    const uintptr_t* __restrict__ dst_k_layer_tbl,
+    const uintptr_t* __restrict__ src_v_layer_tbl,
+    const uintptr_t* __restrict__ dst_v_layer_tbl) {
   int32_t tid = blockIdx.x * blockDim.x + threadIdx.x;
   int32_t lane_id = tid % 32;
   int32_t warp_id = tid / 32;
 
   for (int i = 0; i < items_per_warp; ++i) {
-    int32_t item_id = warp_id * items_per_warp + i;
+    int64_t item_id = warp_id * items_per_warp + i;
     if (item_id >= num_items) {
-      return;
+      break;
     }
     const int64_t src_page_id = src_indices[item_id];
     const int64_t dst_page_id = dst_indices[item_id];
 
     // Loop over layers if necessary
     for (int64_t layer_id = start_layer_id; layer_id < start_layer_id + num_layers_to_process; ++layer_id) {
-      // Calculate offsets using the provided function pointers
-      const int64_t src_offset = SrcOffsetFn(layer_id, src_layout_dim, src_page_id, item_size_bytes);
-      const int64_t dst_offset = DstOffsetFn(layer_id, dst_layout_dim, dst_page_id, item_size_bytes);
+      const char* src_ptr = SrcOffsetFn(
+          static_cast<const char*>(src_k), src_k_layer_tbl, layer_id, src_layout_dim, src_page_id, item_size_bytes);
+      char* dst_ptr = DstOffsetFn(
+          static_cast<char*>(dst_k), dst_k_layer_tbl, layer_id, dst_layout_dim, dst_page_id, item_size_bytes);
+      transfer_item_warp(lane_id, src_ptr, dst_ptr, item_size_bytes);
 
-      if constexpr (IsMLA) {
-        transfer_item_warp(
-            lane_id,
-            static_cast<const char*>(src_k) + src_offset,
-            static_cast<char*>(dst_k) + dst_offset,
-            item_size_bytes);
-      } else {
-        transfer_item_warp(
-            lane_id,
-            static_cast<const char*>(src_k) + src_offset,
-            static_cast<char*>(dst_k) + dst_offset,
-            item_size_bytes);
-        transfer_item_warp(
-            lane_id,
-            static_cast<const char*>(src_v) + src_offset,
-            static_cast<char*>(dst_v) + dst_offset,
-            item_size_bytes);
+      if constexpr (!IsMLA) {
+        const char* src_v_ptr = SrcOffsetFn(
+            static_cast<const char*>(src_v), src_v_layer_tbl, layer_id, src_layout_dim, src_page_id, item_size_bytes);
+        char* dst_v_ptr = DstOffsetFn(
+            static_cast<char*>(dst_v), dst_v_layer_tbl, layer_id, dst_layout_dim, dst_page_id, item_size_bytes);
+        transfer_item_warp(lane_id, src_v_ptr, dst_v_ptr, item_size_bytes);
       }
     }
   }
@@ -103,44 +121,54 @@ void transfer_kv_launcher(
     int64_t item_size,
     int64_t src_layout_dim,
     int64_t dst_layout_dim,
+    const at::Tensor& src_k_layers,
+    const at::Tensor& dst_k_layers,
+    const at::Tensor& src_v_layers,
+    const at::Tensor& dst_v_layers,
     int64_t block_quota,
     int64_t num_warps_per_block) {
-  TORCH_CHECK(src_k.scalar_type() == dst_k.scalar_type(), "Source and destination keys must have the same type");
   TORCH_CHECK(src_indices.is_cuda(), "Source indices must be a CUDA tensor");
   TORCH_CHECK(dst_indices.is_cuda(), "Destination indices must be a CUDA tensor");
   TORCH_CHECK(src_indices.scalar_type() == at::kLong, "Source indices must be of type long");
   TORCH_CHECK(dst_indices.scalar_type() == at::kLong, "Destination indices must be of type long");
   TORCH_CHECK(src_indices.numel() == dst_indices.numel(), "Source and destination indices must have the same length");
+  TORCH_CHECK(item_size % 8 == 0, "Item byte size must be divisible by 8");
 
-  if (!IsMLA) {
-    TORCH_CHECK(src_v.scalar_type() == dst_v.scalar_type(), "Source and destination values must have the same type");
-  }
-
-  int dtype_size = src_k.element_size();
-  TORCH_CHECK((item_size * dtype_size) % 8 == 0, "Item byte size must be divisible by 8");
-
-  auto div_up = [](int32_t x, int32_t y) { return (x + y - 1) / y; };
+  auto div_up = [](int64_t x, int64_t y) { return (x + y - 1) / y; };
   const int64_t num_items = src_indices.numel();
   const int64_t items_per_warp = div_up(num_items, block_quota * num_warps_per_block);
   const int32_t num_blocks = div_up(num_items, items_per_warp * num_warps_per_block);
   dim3 grid_dim(num_blocks, 1, 1);
   const int32_t threads_per_block = num_warps_per_block * 32;
 
+  const void* src_k_ptr = src_k.defined() ? src_k.data_ptr() : nullptr;
+  void* dst_k_ptr = dst_k.defined() ? dst_k.data_ptr() : nullptr;
+  const void* src_v_ptr = IsMLA || !src_v.defined() ? nullptr : src_v.data_ptr();
+  void* dst_v_ptr = IsMLA || !dst_v.defined() ? nullptr : dst_v.data_ptr();
+  const uintptr_t* src_k_tbl_ptr = src_k_layers.defined() ? src_k_layers.data_ptr<uintptr_t>() : nullptr;
+  const uintptr_t* dst_k_tbl_ptr = dst_k_layers.defined() ? dst_k_layers.data_ptr<uintptr_t>() : nullptr;
+  const uintptr_t* src_v_tbl_ptr = IsMLA || !src_v_layers.defined() ? nullptr : src_v_layers.data_ptr<uintptr_t>();
+  const uintptr_t* dst_v_tbl_ptr = IsMLA || !dst_v_layers.defined() ? nullptr : dst_v_layers.data_ptr<uintptr_t>();
+
   cudaStream_t torch_current_stream = at::cuda::getCurrentCUDAStream();
   transfer_kernel_impl<SrcOffsetFn, DstOffsetFn, IsMLA><<<grid_dim, threads_per_block, 0, torch_current_stream>>>(
-      src_k.data_ptr(),
-      dst_k.data_ptr(),
-      (IsMLA ? nullptr : src_v.data_ptr()),
-      (IsMLA ? nullptr : dst_v.data_ptr()),
+      src_k_ptr,
+      dst_k_ptr,
+      src_v_ptr,
+      dst_v_ptr,
       src_indices.data_ptr<int64_t>(),
       dst_indices.data_ptr<int64_t>(),
       start_layer_id,
       num_layers_to_process,
       num_items,
       items_per_warp,
-      item_size * dtype_size,
-      src_layout_dim * dtype_size,
-      dst_layout_dim * dtype_size);
+      item_size,
+      src_layout_dim,
+      dst_layout_dim,
+      src_k_tbl_ptr,
+      dst_k_tbl_ptr,
+      src_v_tbl_ptr,
+      dst_v_tbl_ptr);
   C10_CUDA_KERNEL_LAUNCH_CHECK();
 }
 
@@ -154,11 +182,28 @@ void transfer_kv_per_layer(
     int64_t item_size,
     int64_t block_quota,
     int64_t num_warps_per_block) {
-  transfer_kv_launcher<get_global_offset_lf, get_global_offset_lf, false>(
-      src_k, dst_k, src_v, dst_v, src_indices, dst_indices, 0, 1, item_size, 0, 0, block_quota, num_warps_per_block);
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_lf<const char>, get_global_offset_lf<char>, false>(
+      src_k,
+      dst_k,
+      src_v,
+      dst_v,
+      src_indices,
+      dst_indices,
+      0,
+      1,
+      item_size,
+      0,
+      0,
+      empty,
+      empty,
+      empty,
+      empty,
+      block_quota,
+      num_warps_per_block);
 }
 
-void transfer_kv_all_layer(
+void transfer_kv_per_layer_pf_lf(
     const at::Tensor src_k,
     at::Tensor dst_k,
     const at::Tensor src_v,
@@ -166,12 +211,11 @@ void transfer_kv_all_layer(
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
     int64_t item_size,
-    int64_t num_layers,
-    int64_t src_layer_offset,
-    int64_t dst_layer_offset,
+    int64_t src_layout_dim,
     int64_t block_quota,
     int64_t num_warps_per_block) {
-  transfer_kv_launcher<get_global_offset_lf, get_global_offset_lf, false>(
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_pf<const char>, get_global_offset_lf<char>, false>(
       src_k,
       dst_k,
       src_v,
@@ -179,10 +223,81 @@ void transfer_kv_all_layer(
       src_indices,
       dst_indices,
       0,
+      1,
+      item_size,
+      src_layout_dim,
+      0,
+      empty,
+      empty,
+      empty,
+      empty,
+      block_quota,
+      num_warps_per_block);
+}
+
+void transfer_kv_all_layer(
+    const at::Tensor src_k_layers,
+    const at::Tensor dst_k_layers,
+    const at::Tensor src_v_layers,
+    const at::Tensor dst_v_layers,
+    const at::Tensor src_indices,
+    const at::Tensor dst_indices,
+    int64_t item_size,
+    int64_t num_layers,
+    int64_t block_quota,
+    int64_t num_warps_per_block) {
+  TORCH_CHECK(num_layers == src_k_layers.size(0), "Number of layers in source k tensor does not match num_layers");
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_lf_tbl<const char>, get_global_offset_lf_tbl<char>, false>(
+      empty,
+      empty,
+      empty,
+      empty,
+      src_indices,
+      dst_indices,
+      0,
+      num_layers,
+      item_size,
+      0,
+      0,
+      src_k_layers,
+      dst_k_layers,
+      src_v_layers,
+      dst_v_layers,
+      block_quota,
+      num_warps_per_block);
+}
+
+void transfer_kv_all_layer_lf_pf(
+    const at::Tensor src_k_layers,
+    at::Tensor dst_k,
+    const at::Tensor src_v_layers,
+    at::Tensor dst_v,
+    const at::Tensor src_indices,
+    const at::Tensor dst_indices,
+    int64_t item_size,
+    int64_t dst_layout_dim,
+    int64_t num_layers,
+    int64_t block_quota,
+    int64_t num_warps_per_block) {
+  TORCH_CHECK(num_layers == src_k_layers.size(0), "Number of layers in source k tensor does not match num_layers");
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_lf_tbl<const char>, get_global_offset_pf<char>, false>(
+      empty,
+      dst_k,
+      empty,
+      dst_v,
+      src_indices,
+      dst_indices,
+      0,
       num_layers,
       item_size,
-      src_layer_offset,
-      dst_layer_offset,
+      0,
+      dst_layout_dim,
+      src_k_layers,
+      empty,
+      src_v_layers,
+      empty,
       block_quota,
       num_warps_per_block);
 }
@@ -195,12 +310,12 @@ void transfer_kv_per_layer_mla(
     int64_t item_size,
     int64_t block_quota,
     int64_t num_warps_per_block) {
-  at::Tensor empty_tensor = at::Tensor();
-  transfer_kv_launcher<get_global_offset_lf, get_global_offset_lf, true>(
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_lf<const char>, get_global_offset_lf<char>, true>(
       src,
       dst,
-      empty_tensor,
-      empty_tensor,
+      empty,
+      empty,
       src_indices,
       dst_indices,
       0,
@@ -208,41 +323,110 @@ void transfer_kv_per_layer_mla(
       item_size,
       0,
       0,
+      empty,
+      empty,
+      empty,
+      empty,
       block_quota,
       num_warps_per_block);
 }
 
-void transfer_kv_all_layer_mla(
+void transfer_kv_per_layer_mla_pf_lf(
     const at::Tensor src,
     at::Tensor dst,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
     int64_t item_size,
-    int64_t num_layers,
-    int64_t src_layer_offset,
-    int64_t dst_layer_offset,
+    int64_t src_layout_dim,
     int64_t block_quota,
     int64_t num_warps_per_block) {
-  at::Tensor empty_tensor = at::Tensor();
-  transfer_kv_launcher<get_global_offset_lf, get_global_offset_lf, true>(
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_pf<const char>, get_global_offset_lf<char>, true>(
       src,
       dst,
-      empty_tensor,
-      empty_tensor,
+      empty,
+      empty,
+      src_indices,
+      dst_indices,
+      0,
+      1,
+      item_size,
+      src_layout_dim,
+      0,
+      empty,
+      empty,
+      empty,
+      empty,
+      block_quota,
+      num_warps_per_block);
+}
+
+void transfer_kv_all_layer_mla(
+    const at::Tensor src_layers,
+    const at::Tensor dst_layers,
+    const at::Tensor src_indices,
+    const at::Tensor dst_indices,
+    int64_t item_size,
+    int64_t num_layers,
+    int64_t block_quota,
+    int64_t num_warps_per_block) {
+  TORCH_CHECK(num_layers == src_layers.size(0), "Number of layers in source tensor does not match num_layers");
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_lf_tbl<const char>, get_global_offset_lf_tbl<char>, true>(
+      empty,
+      empty,
+      empty,
+      empty,
+      src_indices,
+      dst_indices,
+      0,
+      num_layers,
+      item_size,
+      0,
+      0,
+      src_layers,
+      dst_layers,
+      empty,
+      empty,
+      block_quota,
+      num_warps_per_block);
+}
+
+void transfer_kv_all_layer_mla_lf_pf(
+    const at::Tensor src_layers,
+    at::Tensor dst,
+    const at::Tensor src_indices,
+    const at::Tensor dst_indices,
+    int64_t item_size,
+    int64_t dst_layout_dim,
+    int64_t num_layers,
+    int64_t block_quota,
+    int64_t num_warps_per_block) {
+  TORCH_CHECK(num_layers == src_layers.size(0), "Number of layers in source tensor does not match num_layers");
+  at::Tensor empty;
+  transfer_kv_launcher<get_global_offset_lf_tbl<const char>, get_global_offset_pf<char>, true>(
+      empty,
+      dst,
+      empty,
+      empty,
       src_indices,
       dst_indices,
       0,
       num_layers,
       item_size,
-      src_layer_offset,
-      dst_layer_offset,
+      0,
+      dst_layout_dim,
+      src_layers,
+      empty,
+      empty,
+      empty,
       block_quota,
       num_warps_per_block);
 }
 
 inline void transfer_page_direct(
-    const at::Tensor src_buffer,
-    at::Tensor dst_buffer,
+    const at::Tensor& src_buffer,
+    at::Tensor& dst_buffer,
     int64_t src_page_index,
     int64_t dst_page_index,
     int64_t page_size) {
@@ -252,16 +436,14 @@ inline void transfer_page_direct(
           /* non_blocking= */ true);
 }
 
-template <bool IsMLA, bool AllLayers>
-inline void transfer_kv_direct_impl(
-    const at::Tensor& src_k,
-    at::Tensor& dst_k,
-    const at::Tensor& src_v_opt,  // Only used when IsMLA is false (for src_v)
-    at::Tensor& dst_v_opt,        // Only used when IsMLA is false (for dst_v)
-    const at::Tensor& src_indices,
-    const at::Tensor& dst_indices,
-    int64_t page_size,
-    int64_t num_layers = 1) {
+void transfer_kv_direct(
+    const std::vector<at::Tensor>& src_layers,
+    std::vector<at::Tensor> dst_layers,
+    const at::Tensor src_indices,
+    const at::Tensor dst_indices,
+    int64_t page_size) {
+  TORCH_CHECK(
+      src_layers.size() == dst_layers.size(), "Source and destination layers must have the same number of layers");
   TORCH_CHECK(src_indices.numel() == dst_indices.numel(), "Source and destination indices must have the same length");
   TORCH_CHECK(page_size > 0, "Page size must be positive");
   TORCH_CHECK(src_indices.numel() % page_size == 0, "Source indices size must be divisible by page size");
@@ -270,73 +452,14 @@ inline void transfer_kv_direct_impl(
   auto dst_indices_cpu = dst_indices.cpu();
 
   const int64_t num_pages = src_indices_cpu.size(0) / page_size;
+  const int64_t num_layers = src_layers.size();
 
-  for (const auto i : c10::irange(num_pages)) {
-    auto s_index = src_indices_cpu[i * page_size].item<int64_t>();
-    auto d_index = dst_indices_cpu[i * page_size].item<int64_t>();
+  for (int64_t i = 0; i < num_pages; ++i) {
+    auto src_index = src_indices_cpu[i * page_size].item<int64_t>();
+    auto dst_index = dst_indices_cpu[i * page_size].item<int64_t>();
 
-    if constexpr (AllLayers) {
-      for (const auto j : c10::irange(num_layers)) {
-        if constexpr (IsMLA) {
-          transfer_page_direct(src_k.select(0, j), dst_k.select(0, j), s_index, d_index, page_size);
-        } else {
-          transfer_page_direct(src_k.select(0, j), dst_k.select(0, j), s_index, d_index, page_size);
-          transfer_page_direct(src_v_opt.select(0, j), dst_v_opt.select(0, j), s_index, d_index, page_size);
-        }
-      }
-    } else {  // Per-layer
-      if constexpr (IsMLA) {
-        transfer_page_direct(src_k, dst_k, s_index, d_index, page_size);
-      } else {
-        transfer_page_direct(src_k, dst_k, s_index, d_index, page_size);
-        transfer_page_direct(src_v_opt, dst_v_opt, s_index, d_index, page_size);
-      }
+    for (int64_t j = 0; j < num_layers; ++j) {
+      transfer_page_direct(src_layers[j], dst_layers[j], src_index, dst_index, page_size);
     }
   }
 }
-
-void transfer_kv_per_layer_direct(
-    const at::Tensor src_k,
-    at::Tensor dst_k,
-    const at::Tensor src_v,
-    at::Tensor dst_v,
-    const at::Tensor src_indices,
-    const at::Tensor dst_indices,
-    int64_t page_size) {
-  transfer_kv_direct_impl<false, false>(src_k, dst_k, src_v, dst_v, src_indices, dst_indices, page_size);
-}
-
-void transfer_kv_all_layer_direct(
-    const at::Tensor src_k,
-    at::Tensor dst_k,
-    const at::Tensor src_v,
-    at::Tensor dst_v,
-    const at::Tensor src_indices,
-    const at::Tensor dst_indices,
-    int64_t page_size,
-    int64_t num_layers) {
-  transfer_kv_direct_impl<false, true>(src_k, dst_k, src_v, dst_v, src_indices, dst_indices, page_size, num_layers);
-}
-
-void transfer_kv_per_layer_mla_direct(
-    const at::Tensor src,
-    at::Tensor dst,
-    const at::Tensor src_indices,
-    const at::Tensor dst_indices,
-    int64_t page_size) {
-  at::Tensor empty_tensor = at::Tensor();
-
-  transfer_kv_direct_impl<true, false>(src, dst, empty_tensor, empty_tensor, src_indices, dst_indices, page_size);
-}
-
-void transfer_kv_all_layer_mla_direct(
-    const at::Tensor src,
-    at::Tensor dst,
-    const at::Tensor src_indices,
-    const at::Tensor dst_indices,
-    int64_t page_size,
-    int64_t num_layers) {
-  at::Tensor empty_tensor = at::Tensor();
-  transfer_kv_direct_impl<true, true>(
-      src, dst, empty_tensor, empty_tensor, src_indices, dst_indices, page_size, num_layers);
-}
diff --git a/sgl-kernel/include/sgl_kernel_ops.h b/sgl-kernel/include/sgl_kernel_ops.h
index df06bd3cdcf3..6b589101feaa 100644
--- a/sgl-kernel/include/sgl_kernel_ops.h
+++ b/sgl-kernel/include/sgl_kernel_ops.h
@@ -399,38 +399,42 @@ void transfer_kv_per_layer(
     int64_t block_quota,
     int64_t num_warps_per_block);
 
-void transfer_kv_per_layer_direct(
+void transfer_kv_per_layer_pf_lf(
     const at::Tensor src_k,
     at::Tensor dst_k,
     const at::Tensor src_v,
     at::Tensor dst_v,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
-    int64_t page_size);
+    int64_t item_size,
+    int64_t src_layout_dim,
+    int64_t block_quota,
+    int64_t num_warps_per_block);
 
 void transfer_kv_all_layer(
-    const at::Tensor src_k,
-    at::Tensor dst_k,
-    const at::Tensor src_v,
-    at::Tensor dst_v,
+    const at::Tensor src_k_layers,
+    const at::Tensor dst_k_layers,
+    const at::Tensor src_v_layers,
+    const at::Tensor dst_v_layers,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
     int64_t item_size,
     int64_t num_layers,
-    int64_t src_layer_offset,
-    int64_t dst_layer_offset,
     int64_t block_quota,
     int64_t num_warps_per_block);
 
-void transfer_kv_all_layer_direct(
-    const at::Tensor src_k,
+void transfer_kv_all_layer_lf_pf(
+    const at::Tensor src_k_layers,
     at::Tensor dst_k,
-    const at::Tensor src_v,
+    const at::Tensor src_v_layers,
     at::Tensor dst_v,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
-    int64_t page_size,
-    int64_t num_layers);
+    int64_t item_size,
+    int64_t dst_layout_dim,
+    int64_t num_layers,
+    int64_t block_quota,
+    int64_t num_warps_per_block);
 
 void transfer_kv_per_layer_mla(
     const at::Tensor src,
@@ -441,32 +445,43 @@ void transfer_kv_per_layer_mla(
     int64_t block_quota,
     int64_t num_warps_per_block);
 
-void transfer_kv_per_layer_mla_direct(
+void transfer_kv_per_layer_mla_pf_lf(
     const at::Tensor src,
     at::Tensor dst,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
-    int64_t page_size);
+    int64_t item_size,
+    int64_t src_layout_dim,
+    int64_t block_quota,
+    int64_t num_warps_per_block);
 
 void transfer_kv_all_layer_mla(
-    const at::Tensor src,
-    at::Tensor dst,
+    const at::Tensor src_layers,
+    const at::Tensor dst_layers,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
     int64_t item_size,
     int64_t num_layers,
-    int64_t src_layer_offset,
-    int64_t dst_layer_offset,
     int64_t block_quota,
     int64_t num_warps_per_block);
 
-void transfer_kv_all_layer_mla_direct(
-    const at::Tensor src,
+void transfer_kv_all_layer_mla_lf_pf(
+    const at::Tensor src_layers,
     at::Tensor dst,
     const at::Tensor src_indices,
     const at::Tensor dst_indices,
-    int64_t page_size,
-    int64_t num_layers);
+    int64_t item_size,
+    int64_t dst_layout_dim,
+    int64_t num_layers,
+    int64_t block_quota,
+    int64_t num_warps_per_block);
+
+void transfer_kv_direct(
+    const std::vector<at::Tensor>& src_layers,
+    std::vector<at::Tensor> dst_layers,
+    const at::Tensor src_indices,
+    const at::Tensor dst_indices,
+    int64_t page_size);
 
 /*
  * From csrc/moe/cutlass_moe/w4a8
diff --git a/sgl-kernel/python/sgl_kernel/kvcacheio.py b/sgl-kernel/python/sgl_kernel/kvcacheio.py
index 5350e49ddbcf..1440c2ca35ec 100644
--- a/sgl-kernel/python/sgl_kernel/kvcacheio.py
+++ b/sgl-kernel/python/sgl_kernel/kvcacheio.py
@@ -1,3 +1,5 @@
+from typing import List
+
 import torch
 
 
@@ -22,57 +24,116 @@ def transfer_kv_per_layer(
             dst_v,
             src_indices,
             dst_indices,
-            item_size,
+            item_size * src_k.element_size(),  # todo, hot fix for compatibility
             block_quota,
             num_warps_per_block,
         )
     elif io_backend == "direct":
-        torch.ops.sgl_kernel.transfer_kv_per_layer_direct(
-            src_k, dst_k, src_v, dst_v, src_indices, dst_indices, page_size
+        torch.ops.sgl_kernel.transfer_kv_direct(
+            [src_k, src_v], [dst_k, dst_v], src_indices, dst_indices, page_size
         )
     else:
         raise ValueError(f"Unsupported io backend")
 
 
-def transfer_kv_all_layer(
+def transfer_kv_per_layer_pf_lf(
     src_k: torch.Tensor,
     dst_k: torch.Tensor,
     src_v: torch.Tensor,
     dst_v: torch.Tensor,
     src_indices: torch.Tensor,
     dst_indices: torch.Tensor,
+    item_size: int,
+    src_layout_dim: int,
+    block_quota: int = 2,
+    num_warps_per_block: int = 32,
+):
+    torch.ops.sgl_kernel.transfer_kv_per_layer_pf_lf(
+        src_k,
+        dst_k,
+        src_v,
+        dst_v,
+        src_indices,
+        dst_indices,
+        item_size,
+        src_layout_dim,
+        block_quota,
+        num_warps_per_block,
+    )
+
+
+def transfer_kv_all_layer(
+    src_k_layers: torch.Tensor,
+    dst_k_layers: torch.Tensor,
+    src_v_layers: torch.Tensor,
+    dst_v_layers: torch.Tensor,
+    src_indices: torch.Tensor,
+    dst_indices: torch.Tensor,
     io_backend: str,
-    page_size: int,
     item_size: int,
     num_layers: int,
-    src_layer_offset: int,
-    dst_layer_offset: int,
     block_quota: int = 2,
     num_warps_per_block: int = 32,
 ):
     if io_backend == "kernel":
         torch.ops.sgl_kernel.transfer_kv_all_layer(
-            src_k,
-            dst_k,
-            src_v,
-            dst_v,
+            src_k_layers,
+            dst_k_layers,
+            src_v_layers,
+            dst_v_layers,
             src_indices,
             dst_indices,
             item_size,
             num_layers,
-            src_layer_offset,
-            dst_layer_offset,
             block_quota,
             num_warps_per_block,
         )
     elif io_backend == "direct":
-        torch.ops.sgl_kernel.transfer_kv_all_layer_direct(
-            src_k, dst_k, src_v, dst_v, src_indices, dst_indices, page_size, num_layers
-        )
+        raise NotImplementedError("Deprecated interface")
     else:
         raise ValueError(f"Unsupported io backend")
 
 
+def transfer_kv_all_layer_lf_pf(
+    src_k_layers: torch.Tensor,
+    dst_k: torch.Tensor,
+    src_v_layers: torch.Tensor,
+    dst_v: torch.Tensor,
+    src_indices: torch.Tensor,
+    dst_indices: torch.Tensor,
+    item_size: int,
+    dst_layout_dim: int,
+    num_layers: int,
+    block_quota: int = 2,
+    num_warps_per_block: int = 32,
+):
+    torch.ops.sgl_kernel.transfer_kv_all_layer_lf_pf(
+        src_k_layers,
+        dst_k,
+        src_v_layers,
+        dst_v,
+        src_indices,
+        dst_indices,
+        item_size,
+        dst_layout_dim,
+        num_layers,
+        block_quota,
+        num_warps_per_block,
+    )
+
+
+def transfer_kv_direct(
+    src_layers: List[torch.Tensor],
+    dst_layers: List[torch.Tensor],
+    src_indices: torch.Tensor,
+    dst_indices: torch.Tensor,
+    page_size: int,
+):
+    torch.ops.sgl_kernel.transfer_kv_direct(
+        src_layers, dst_layers, src_indices, dst_indices, page_size
+    )
+
+
 def transfer_kv_per_layer_mla(
     src: torch.Tensor,
     dst: torch.Tensor,
@@ -90,48 +151,87 @@ def transfer_kv_per_layer_mla(
             dst,
             src_indices,
             dst_indices,
-            item_size,
+            item_size * src.element_size(),  # todo, hot fix for compatibility
             block_quota,
             num_warps_per_block,
         )
     elif io_backend == "direct":
-        torch.ops.sgl_kernel.transfer_kv_per_layer_mla_direct(
-            src, dst, src_indices, dst_indices, page_size
+        torch.ops.sgl_kernel.transfer_kv_direct(
+            [src], [dst], src_indices, dst_indices, page_size
         )
     else:
         raise ValueError(f"Unsupported io backend")
 
 
-def transfer_kv_all_layer_mla(
+def transfer_kv_per_layer_mla_pf_lf(
     src: torch.Tensor,
     dst: torch.Tensor,
     src_indices: torch.Tensor,
     dst_indices: torch.Tensor,
+    item_size: int,
+    src_layout_dim: int,
+    block_quota: int = 2,
+    num_warps_per_block: int = 32,
+):
+    torch.ops.sgl_kernel.transfer_kv_per_layer_mla_pf_lf(
+        src,
+        dst,
+        src_indices,
+        dst_indices,
+        item_size,
+        src_layout_dim,
+        block_quota,
+        num_warps_per_block,
+    )
+
+
+def transfer_kv_all_layer_mla(
+    src_layers: torch.Tensor,
+    dst_layers: torch.Tensor,
+    src_indices: torch.Tensor,
+    dst_indices: torch.Tensor,
     io_backend: str,
-    page_size: int,
     item_size: int,
     num_layers: int,
-    src_layer_offset: int,
-    dst_layer_offset: int,
     block_quota: int = 2,
     num_warps_per_block: int = 32,
 ):
     if io_backend == "kernel":
         torch.ops.sgl_kernel.transfer_kv_all_layer_mla(
-            src,
-            dst,
+            src_layers,
+            dst_layers,
             src_indices,
             dst_indices,
             item_size,
             num_layers,
-            src_layer_offset,
-            dst_layer_offset,
             block_quota,
             num_warps_per_block,
         )
     elif io_backend == "direct":
-        torch.ops.sgl_kernel.transfer_kv_all_layer_mla_direct(
-            src, dst, src_indices, dst_indices, page_size, num_layers
-        )
+        raise NotImplementedError("Deprecated interface")
     else:
         raise ValueError(f"Unsupported io backend")
+
+
+def transfer_kv_all_layer_mla_lf_pf(
+    src_layers: torch.Tensor,
+    dst: torch.Tensor,
+    src_indices: torch.Tensor,
+    dst_indices: torch.Tensor,
+    item_size: int,
+    dst_layout_dim: int,
+    num_layers: int,
+    block_quota: int = 2,
+    num_warps_per_block: int = 32,
+):
+    torch.ops.sgl_kernel.transfer_kv_all_layer_mla_lf_pf(
+        src_layers,
+        dst,
+        src_indices,
+        dst_indices,
+        item_size,
+        dst_layout_dim,
+        num_layers,
+        block_quota,
+        num_warps_per_block,
+    )
diff --git a/sgl-kernel/tests/test_kvcacheio.py b/sgl-kernel/tests/test_kvcacheio.py
index 635b5ba507ab..171fc4ca4793 100644
--- a/sgl-kernel/tests/test_kvcacheio.py
+++ b/sgl-kernel/tests/test_kvcacheio.py
@@ -3,6 +3,7 @@
 from sgl_kernel.kvcacheio import (
     transfer_kv_all_layer,
     transfer_kv_all_layer_mla,
+    transfer_kv_direct,
     transfer_kv_per_layer,
     transfer_kv_per_layer_mla,
 )
@@ -104,14 +105,12 @@ def test_transfer_kv(
                 page_size=page_size,
                 item_size=item_size,
             )
-            transfer_kv_per_layer_mla(
-                src_pool_host[layer_idx_to_test],
-                dst_pool_direct[layer_idx_to_test],
+            transfer_kv_direct(
+                [src_pool_host[layer_idx_to_test]],
+                [dst_pool_direct[layer_idx_to_test]],
                 src_indices_host,
                 dst_indices_device,
-                io_backend="direct",
                 page_size=page_size,
-                item_size=item_size,
             )
         else:
             for layer_id in range(num_layers):
@@ -121,29 +120,34 @@ def test_transfer_kv(
                     src_indices_host,
                     dst_indices_device,
                 )
+            src_layers_device = torch.tensor(
+                [src_pool_host[layer_id].data_ptr() for layer_id in range(num_layers)],
+                dtype=torch.uint64,
+                device=device,
+            )
+            dst_layers_device = torch.tensor(
+                [
+                    dst_pool_kernel[layer_id].data_ptr()
+                    for layer_id in range(num_layers)
+                ],
+                dtype=torch.uint64,
+                device=device,
+            )
             transfer_kv_all_layer_mla(
-                src_pool_host,
-                dst_pool_kernel,
+                src_layers_device,
+                dst_layers_device,
                 src_indices_device,
                 dst_indices_device,
                 io_backend="kernel",
-                page_size=page_size,
-                item_size=item_size,
+                item_size=item_size * dtype.itemsize,
                 num_layers=num_layers,
-                src_layer_offset=total_items_in_pool * item_size,
-                dst_layer_offset=total_items_in_pool * item_size,
             )
-            transfer_kv_all_layer_mla(
-                src_pool_host,
-                dst_pool_direct,
+            transfer_kv_direct(
+                [src_pool_host[layer_id] for layer_id in range(num_layers)],
+                [dst_pool_direct[layer_id] for layer_id in range(num_layers)],
                 src_indices_host,
                 dst_indices_device,
-                io_backend="direct",
                 page_size=page_size,
-                item_size=item_size,
-                num_layers=num_layers,
-                src_layer_offset=total_items_in_pool * item_size,
-                dst_layer_offset=total_items_in_pool * item_size,
             )
         torch.cuda.synchronize()
         torch.testing.assert_close(dst_pool_kernel, dst_pool_ref)
@@ -173,16 +177,15 @@ def test_transfer_kv(
                 page_size=page_size,
                 item_size=item_size,
             )
-            transfer_kv_per_layer(
-                src_k_pool[layer_idx_to_test],
-                dst_k_pool_direct[layer_idx_to_test],
-                src_v_pool[layer_idx_to_test],
-                dst_v_pool_direct[layer_idx_to_test],
+            transfer_kv_direct(
+                [src_k_pool[layer_idx_to_test], src_v_pool[layer_idx_to_test]],
+                [
+                    dst_k_pool_direct[layer_idx_to_test],
+                    dst_v_pool_direct[layer_idx_to_test],
+                ],
                 src_indices_host,
                 dst_indices_device,
-                io_backend="direct",
                 page_size=page_size,
-                item_size=item_size,
             )
         else:
             for layer_id in range(num_layers):
@@ -198,33 +201,52 @@ def test_transfer_kv(
                     src_indices_host,
                     dst_indices_device,
                 )
+
+            src_k_layers_device = torch.tensor(
+                [src_k_pool[layer_id].data_ptr() for layer_id in range(num_layers)],
+                dtype=torch.uint64,
+                device=device,
+            )
+            src_v_layers_device = torch.tensor(
+                [src_v_pool[layer_id].data_ptr() for layer_id in range(num_layers)],
+                dtype=torch.uint64,
+                device=device,
+            )
+            dst_k_layers_device = torch.tensor(
+                [
+                    dst_k_pool_kernel[layer_id].data_ptr()
+                    for layer_id in range(num_layers)
+                ],
+                dtype=torch.uint64,
+                device=device,
+            )
+            dst_v_layers_device = torch.tensor(
+                [
+                    dst_v_pool_kernel[layer_id].data_ptr()
+                    for layer_id in range(num_layers)
+                ],
+                dtype=torch.uint64,
+                device=device,
+            )
             transfer_kv_all_layer(
-                src_k_pool,
-                dst_k_pool_kernel,
-                src_v_pool,
-                dst_v_pool_kernel,
+                src_k_layers_device,
+                dst_k_layers_device,
+                src_v_layers_device,
+                dst_v_layers_device,
                 src_indices_device,
                 dst_indices_device,
                 io_backend="kernel",
-                page_size=page_size,
-                item_size=item_size,
+                item_size=item_size * dtype.itemsize,
                 num_layers=num_layers,
-                src_layer_offset=total_items_in_pool * item_size,
-                dst_layer_offset=total_items_in_pool * item_size,
             )
-            transfer_kv_all_layer(
-                src_k_pool,
-                dst_k_pool_direct,
-                src_v_pool,
-                dst_v_pool_direct,
+            transfer_kv_direct(
+                [src_k_pool[layer_id] for layer_id in range(num_layers)]
+                + [src_v_pool[layer_id] for layer_id in range(num_layers)],
+                [dst_k_pool_direct[layer_id] for layer_id in range(num_layers)]
+                + [dst_v_pool_direct[layer_id] for layer_id in range(num_layers)],
                 src_indices_host,
                 dst_indices_device,
-                io_backend="direct",
                 page_size=page_size,
-                item_size=item_size,
-                num_layers=num_layers,
-                src_layer_offset=total_items_in_pool * item_size,
-                dst_layer_offset=total_items_in_pool * item_size,
             )
         torch.cuda.synchronize()
         torch.testing.assert_close(dst_k_pool_kernel, dst_k_pool_ref)

From ce86e201df7f2c60677c975f107e080687c07996 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Wed, 23 Jul 2025 01:50:31 -0700
Subject: [PATCH 097/396] bug fix and tag (#8282)

---
 benchmark/hicache/bench_multiturn.py | 16 +++++++++++-----
 1 file changed, 11 insertions(+), 5 deletions(-)

diff --git a/benchmark/hicache/bench_multiturn.py b/benchmark/hicache/bench_multiturn.py
index 5e954ecd6466..311632525172 100644
--- a/benchmark/hicache/bench_multiturn.py
+++ b/benchmark/hicache/bench_multiturn.py
@@ -121,6 +121,12 @@ def parse_args():
         default="random",
         help="Policy for popping requests from the ready queue (random or fifo)",
     )
+    parser.add_argument(
+        "--tag",
+        type=str,
+        default="",
+        help="Tag of a certain run in the log file",
+    )
     parser.add_argument("--seed", type=int, default=1, help="The random seed.")
     return parser.parse_args()
 
@@ -202,9 +208,9 @@ def gen_payload(prompt, output_len):
     return payload
 
 
-def log_to_jsonl_file(data, file_path="performance_metrics.jsonl"):
-    """Append the data with a timestamp to the specified JSONL file."""
-    timestamped_data = {"timestamp": datetime.now().isoformat(), **data}
+def log_to_jsonl_file(data, file_path="performance_metrics.jsonl", tag=""):
+    """Append the data with a timestamp and tag to the specified JSONL file."""
+    timestamped_data = {"timestamp": datetime.now().isoformat(), "tag": tag, **data}
     try:
         with open(file_path, "a") as file:
             file.write(
@@ -360,7 +366,7 @@ def response_handler(self):
                     # append new request to client's history
                     self.client_records[client_id][
                         "history"
-                    ] += self.sub_question_inputs.pop()
+                    ] += self.sub_question_inputs.pop().prompt
                     self.ready_queue.append(
                         (
                             client_id,
@@ -428,7 +434,7 @@ def run(self):
         print(
             f"  Throughput: {performance_data['summary']['throughput']:.2f} requests per second"
         )
-        log_to_jsonl_file(performance_data, args.log_file)
+        log_to_jsonl_file(performance_data, args.log_file, tag=args.tag)
 
 
 if __name__ == "__main__":

From f39037fffbeb463595a1e31d72c85e53b6e7d355 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Wed, 23 Jul 2025 01:51:32 -0700
Subject: [PATCH 098/396] HiCache Fix (#8288)

Co-authored-by: pansicheng <sicheng.pan.chn@gmail.com>
---
 python/sglang/srt/managers/cache_controller.py   | 1 +
 python/sglang/srt/model_executor/model_runner.py | 5 ++++-
 2 files changed, 5 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index 5f43a5e9a033..a94fdec78c32 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -358,6 +358,7 @@ def write(
         if host_indices is None:
             return None
         self.mem_pool_host.protect_write(host_indices)
+        torch.cuda.current_stream().synchronize()
         self.write_queue.put(
             CacheOperation(host_indices, device_indices, node_id, priority)
         )
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 9e6d14aaca55..919622cc77d1 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -378,6 +378,7 @@ def model_specific_adjustment(self):
                     is_hopper_with_cuda_12_3()
                     and is_no_spec_infer_or_topk_one(server_args)
                     and is_fa3_default_architecture(self.model_config.hf_config)
+                    and (not server_args.enable_hierarchical_cache)
                 ):
                     server_args.attention_backend = "fa3"
                 elif _is_hip:
@@ -390,7 +391,9 @@ def model_specific_adjustment(self):
                     )
             else:
                 # MLA architecture
-                if is_hopper_with_cuda_12_3():
+                if is_hopper_with_cuda_12_3() and (
+                    not server_args.enable_hierarchical_cache
+                ):
                     server_args.attention_backend = "fa3"
                 elif is_sm100_supported():
                     server_args.attention_backend = "flashinfer"

From 0c8dab9e67b1fe0d274a27af03540b2ce5525a37 Mon Sep 17 00:00:00 2001
From: Yuan Luo <yuan.luo@hotmail.com>
Date: Wed, 23 Jul 2025 21:22:59 +0800
Subject: [PATCH 099/396] [sgl-kernel] Opt per_token_quant_fp8 with warp reduce
 (#8130)

Co-authored-by: luoyuan.luo <luoyuan.luo@antgroup.com>
---
 sgl-kernel/csrc/gemm/per_token_quant_fp8.cu | 122 +++++++++++++++++---
 1 file changed, 106 insertions(+), 16 deletions(-)

diff --git a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
index db09483ce9b0..9367f1584362 100644
--- a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
+++ b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
@@ -1,18 +1,95 @@
 #include <ATen/cuda/CUDAContext.h>
 
 #include <cmath>
-#include <cub/block/block_reduce.cuh>
 #include <flashinfer/vec_dtypes.cuh>
 
 #include "utils.h"
 
-template <typename T>
+static constexpr int kWarpSize = 32;
+
+// ---------------------------------------------------------------------------
+// 1. Warp‑local, no shared memory
+//    • One warp handles one token.
+//    • Eight tokens per 256‑thread CTA.
+// ---------------------------------------------------------------------------
+template <typename T, int kTokensPerCTA = 8, int kVecSize = 16>
 __global__ void per_token_quant_fp8_kernel(
     const T* __restrict__ input,
     FP8_TYPE* __restrict__ output_q,
     float* __restrict__ output_s,
     const int64_t hidden_dim,
     const int64_t num_tokens) {
+  const int warp_id = threadIdx.x / kWarpSize;        // 0‑7  (8 warps)
+  const int lane_id = threadIdx.x & (kWarpSize - 1);  // 0‑31
+  const int token_id = blockIdx.x * kTokensPerCTA + warp_id;
+  if (token_id >= num_tokens) return;
+
+  // Global tensors for this token
+  const T* token_input = input + token_id * hidden_dim;
+  FP8_TYPE* token_output = output_q + token_id * hidden_dim;
+  float* token_scale = output_s + token_id;
+
+  //
+  // Pass-1: Perform a warp reduce to find the max_value of a token's hidden_dim
+  //
+  float max_value = 0.f;
+  using vec_t = flashinfer::vec_t<T, kVecSize>;
+  const int32_t num_vec_elems = hidden_dim / kVecSize;
+
+  for (int32_t i = lane_id; i < num_vec_elems; i += kWarpSize) {
+    vec_t input_vec;
+    input_vec.cast_load(token_input + i * kVecSize);
+
+#pragma unroll
+    for (uint32_t j = 0; j < kVecSize; ++j) {
+      max_value = fmaxf(max_value, fabsf(static_cast<float>(input_vec[j])));
+    }
+  }
+
+  float warp_max = warpReduceMax(max_value);
+
+  __shared__ float scale;
+  scale = warp_max / FP8_E4M3_MAX;
+  // Broadcast scale
+  if (lane_id == 0) {
+    token_scale[0] = scale;
+  }
+  float scale_inv = (scale == 0.f) ? 0.f : 1.0f / scale;
+
+  //
+  // Pass-2: quantize and write back
+  //
+  for (int i = lane_id; i < num_vec_elems; i += kWarpSize) {
+    vec_t input_vec;
+    input_vec.cast_load(token_input + i * kVecSize);
+    FP8_TYPE output_arr[kVecSize];
+#pragma unroll
+    for (uint32_t j = 0; j < kVecSize; ++j) {
+      float val = static_cast<float>(input_vec[j]) * scale_inv;
+      val = fmaxf(fminf(val, FP8_E4M3_MAX), -FP8_E4M3_MAX);
+
+#ifndef USE_ROCM
+      output_arr[j] = static_cast<FP8_TYPE>(val);
+#else
+      output_arr[j] = c10::Float8_e4m3fnuz(
+          __hip_cvt_float_to_fp8(val, fp8::fp8_type::__default_saturation, fp8::fp8_type::__default_interpret),
+          c10::Float8_e4m3fnuz::from_bits());
+#endif
+    }
+    *(uint4*)(token_output + i * kVecSize) = *(uint4*)output_arr;
+  }
+}
+
+// ---------------------------------------------------------------------------
+// 2.  Baseline kernel (1 token / CTA, CUB block reduce)
+// ---------------------------------------------------------------------------
+template <typename T>
+__global__ void per_token_quant_fp8_small_batch_kernel(
+    const T* __restrict__ input,
+    FP8_TYPE* __restrict__ output_q,
+    float* __restrict__ output_s,
+    const int64_t hidden_dim,
+    const int64_t num_tokens) {
   const int token_idx = blockIdx.x;
   if (token_idx >= num_tokens) return;
 
@@ -79,28 +156,41 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
   CHECK_INPUT(input);
   CHECK_INPUT(output_q);
   CHECK_INPUT(output_s);
-
   const auto input_sizes = input.sizes();
   const int64_t num_tokens = input_sizes[0];
   const int64_t hidden_dim = input_sizes[1];
-
   TORCH_CHECK(hidden_dim % 16 == 0, "Hidden dimension must be divisible by 16, but got ", hidden_dim);
 
-  const int block_size = 256;
-  const int num_blocks = num_tokens;
-
-  dim3 grid(num_blocks);
-  dim3 block(block_size);
-
   cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  // Hard-code sm_count
+  int sm_count = 132;
+  constexpr int TOKENS_PER_CTA = 8;
+  const bool use_warp_kernel = (num_tokens >= sm_count * 2 * TOKENS_PER_CTA);
 
   DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(input.scalar_type(), scalar_t, [&] {
-    per_token_quant_fp8_kernel<scalar_t><<<grid, block, 0, stream>>>(
-        static_cast<scalar_t*>(input.data_ptr()),
-        static_cast<FP8_TYPE*>(output_q.data_ptr()),
-        static_cast<float*>(output_s.data_ptr()),
-        hidden_dim,
-        num_tokens);
+    if (use_warp_kernel) {
+      // -------- warp‑local ---------------------------------------------------
+      constexpr int THREADS = TOKENS_PER_CTA * kWarpSize;  // 256
+      dim3 grid((num_tokens + TOKENS_PER_CTA - 1) / TOKENS_PER_CTA);
+      dim3 block(THREADS);
+      per_token_quant_fp8_kernel<scalar_t, TOKENS_PER_CTA, 16><<<grid, block, 0, stream>>>(
+          static_cast<const scalar_t*>(input.data_ptr()),
+          static_cast<FP8_TYPE*>(output_q.data_ptr()),
+          static_cast<float*>(output_s.data_ptr()),
+          hidden_dim,
+          num_tokens);
+    } else {
+      // -------- baseline -----------------------------------------------------
+      constexpr int THREADS = 256;
+      dim3 grid(num_tokens);
+      dim3 block(THREADS);
+      per_token_quant_fp8_small_batch_kernel<scalar_t><<<grid, block, 0, stream>>>(
+          static_cast<const scalar_t*>(input.data_ptr()),
+          static_cast<FP8_TYPE*>(output_q.data_ptr()),
+          static_cast<float*>(output_s.data_ptr()),
+          hidden_dim,
+          num_tokens);
+    }
     return true;
   });
 }

From 6f8f4aeea458ae7ba5a54619b1f108aab6076726 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 23 Jul 2025 10:07:51 -0700
Subject: [PATCH 100/396] [router] add common ut infra to mock worker and app
 (#8295)

---
 sgl-router/Cargo.toml                  |   3 +
 sgl-router/tests/common/mock_worker.rs | 650 +++++++++++++++++++++++++
 sgl-router/tests/common/mod.rs         |  56 +++
 3 files changed, 709 insertions(+)
 create mode 100644 sgl-router/tests/common/mock_worker.rs
 create mode 100644 sgl-router/tests/common/mod.rs

diff --git a/sgl-router/Cargo.toml b/sgl-router/Cargo.toml
index b23b6d7ac3e4..74b1ed129026 100644
--- a/sgl-router/Cargo.toml
+++ b/sgl-router/Cargo.toml
@@ -42,6 +42,9 @@ url = "2.5.4"
 
 [dev-dependencies]
 criterion = { version = "0.5", features = ["html_reports"] }
+tokio-stream = "0.1"
+actix-http = "3.0"
+futures = "0.3"
 
 [[bench]]
 name = "request_processing"
diff --git a/sgl-router/tests/common/mock_worker.rs b/sgl-router/tests/common/mock_worker.rs
new file mode 100644
index 000000000000..c5129febc895
--- /dev/null
+++ b/sgl-router/tests/common/mock_worker.rs
@@ -0,0 +1,650 @@
+use actix_web::{middleware, web, App, HttpRequest, HttpResponse, HttpServer};
+use futures_util::StreamExt;
+use serde_json::json;
+use std::sync::Arc;
+use std::time::{SystemTime, UNIX_EPOCH};
+use tokio::sync::RwLock;
+use uuid;
+
+/// Configuration for mock worker behavior
+#[derive(Clone)]
+pub struct MockWorkerConfig {
+    pub port: u16,
+    pub worker_type: WorkerType,
+    pub health_status: HealthStatus,
+    pub response_delay_ms: u64,
+    pub fail_rate: f32,
+}
+
+#[derive(Clone, Debug)]
+pub enum WorkerType {
+    Regular,
+    Prefill,
+    Decode,
+}
+
+#[derive(Clone, Debug)]
+pub enum HealthStatus {
+    Healthy,
+    Unhealthy,
+    Degraded,
+}
+
+/// Mock worker server for testing
+pub struct MockWorker {
+    config: Arc<RwLock<MockWorkerConfig>>,
+    server_handle: Option<actix_web::dev::ServerHandle>,
+}
+
+impl MockWorker {
+    pub fn new(config: MockWorkerConfig) -> Self {
+        Self {
+            config: Arc::new(RwLock::new(config)),
+            server_handle: None,
+        }
+    }
+
+    /// Start the mock worker server
+    pub async fn start(&mut self) -> Result<String, Box<dyn std::error::Error>> {
+        let config = self.config.clone();
+        let port = config.read().await.port;
+
+        let server = HttpServer::new(move || {
+            App::new()
+                .app_data(web::Data::new(config.clone()))
+                .wrap(middleware::Logger::default())
+                .route("/health", web::get().to(health_handler))
+                .route("/health_generate", web::get().to(health_generate_handler))
+                .route("/get_server_info", web::get().to(server_info_handler))
+                .route("/get_model_info", web::get().to(model_info_handler))
+                .route("/generate", web::post().to(generate_handler))
+                .route(
+                    "/v1/chat/completions",
+                    web::post().to(chat_completions_handler),
+                )
+                .route("/v1/completions", web::post().to(completions_handler))
+                .route("/flush_cache", web::post().to(flush_cache_handler))
+                .route("/v1/models", web::get().to(v1_models_handler))
+        })
+        .bind(("127.0.0.1", port))?
+        .run();
+
+        let handle = server.handle();
+        self.server_handle = Some(handle);
+
+        tokio::spawn(server);
+
+        Ok(format!("http://127.0.0.1:{}", port))
+    }
+
+    /// Stop the mock worker server
+    pub async fn stop(&mut self) {
+        if let Some(handle) = self.server_handle.take() {
+            // First try graceful stop with short timeout
+            handle.stop(false);
+            // Give it a moment to stop gracefully
+            tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+        }
+    }
+
+    /// Update the mock worker configuration
+    pub async fn update_config<F>(&self, updater: F)
+    where
+        F: FnOnce(&mut MockWorkerConfig),
+    {
+        let mut config = self.config.write().await;
+        updater(&mut *config);
+    }
+}
+
+// Handler implementations
+
+async fn health_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    let config = config.read().await;
+
+    match config.health_status {
+        HealthStatus::Healthy => HttpResponse::Ok().json(json!({
+            "status": "healthy",
+            "timestamp": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
+            "worker_type": format!("{:?}", config.worker_type),
+        })),
+        HealthStatus::Unhealthy => HttpResponse::ServiceUnavailable().json(json!({
+            "status": "unhealthy",
+            "error": "Worker is not responding"
+        })),
+        HealthStatus::Degraded => HttpResponse::Ok().json(json!({
+            "status": "degraded",
+            "warning": "High load detected"
+        })),
+    }
+}
+
+async fn health_generate_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    let config = config.read().await;
+
+    if matches!(config.health_status, HealthStatus::Healthy) {
+        HttpResponse::Ok().json(json!({
+            "status": "ok",
+            "queue_length": 0,
+            "processing_time_ms": config.response_delay_ms
+        }))
+    } else {
+        HttpResponse::ServiceUnavailable().json(json!({
+            "error": "Generation service unavailable"
+        }))
+    }
+}
+
+async fn server_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    let config = config.read().await;
+
+    // Return response matching actual sglang server implementation
+    HttpResponse::Ok().json(json!({
+        // Server args fields
+        "model_path": "mock-model-path",
+        "tokenizer_path": "mock-tokenizer-path",
+        "port": config.port,
+        "host": "127.0.0.1",
+        "max_num_batched_tokens": 32768,
+        "max_prefill_tokens": 16384,
+        "mem_fraction_static": 0.88,
+        "tp_size": 1,
+        "dp_size": 1,
+        "stream_interval": 8,
+        "dtype": "float16",
+        "device": "cuda",
+        "enable_flashinfer": true,
+        "enable_p2p_check": true,
+        "context_length": 32768,
+        "chat_template": null,
+        "disable_radix_cache": false,
+        "enable_torch_compile": false,
+        "trust_remote_code": false,
+        "show_time_cost": false,
+
+        // Scheduler info fields
+        "waiting_queue_size": 0,
+        "running_queue_size": 0,
+        "req_to_token_ratio": 1.2,
+        "min_running_requests": 0,
+        "max_running_requests": 2048,
+        "max_req_num": 8192,
+        "max_batch_tokens": 32768,
+        "schedule_policy": "lpm",
+        "schedule_conservativeness": 1.0,
+
+        // Additional fields
+        "version": "0.3.0",
+        "internal_states": [{
+            "waiting_queue_size": 0,
+            "running_queue_size": 0
+        }]
+    }))
+}
+
+async fn model_info_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    // Return response matching actual sglang server implementation
+    HttpResponse::Ok().json(json!({
+        "model_path": "mock-model-path",
+        "tokenizer_path": "mock-tokenizer-path",
+        "is_generation": true,
+        "preferred_sampling_params": {
+            "temperature": 0.7,
+            "top_p": 0.9,
+            "top_k": 40,
+            "max_tokens": 2048
+        }
+    }))
+}
+
+async fn generate_handler(
+    config: web::Data<Arc<RwLock<MockWorkerConfig>>>,
+    _req: HttpRequest,
+    payload: web::Json<serde_json::Value>,
+) -> HttpResponse {
+    let config = config.read().await;
+
+    // Simulate failure based on fail_rate
+    if rand::random::<f32>() < config.fail_rate {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Random failure for testing"
+        }));
+    }
+
+    // Simulate processing delay
+    if config.response_delay_ms > 0 {
+        tokio::time::sleep(tokio::time::Duration::from_millis(config.response_delay_ms)).await;
+    }
+
+    let is_stream = payload
+        .get("stream")
+        .and_then(|v| v.as_bool())
+        .unwrap_or(false);
+
+    if is_stream {
+        // Return streaming response matching sglang format
+        let (tx, rx) = tokio::sync::mpsc::channel(10);
+        let stream_delay = config.response_delay_ms;
+        let request_id = format!("mock-req-{}", rand::random::<u32>());
+
+        tokio::spawn(async move {
+            let tokens = vec!["This ", "is ", "a ", "mock ", "response."];
+            let timestamp_start = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs_f64();
+
+            for (i, token) in tokens.iter().enumerate() {
+                let chunk = json!({
+                    "text": token,
+                    "meta_info": {
+                        "id": &request_id,
+                        "finish_reason": if i == tokens.len() - 1 {
+                            json!({"type": "stop", "matched_stop": null})
+                        } else {
+                            json!(null)
+                        },
+                        "prompt_tokens": 10,
+                        "completion_tokens": i + 1,
+                        "cached_tokens": 0,
+                        "e2e_latency": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs_f64() - timestamp_start
+                    }
+                });
+
+                if tx.send(format!("data: {}\n\n", serde_json::to_string(&chunk).unwrap())).await.is_err() {
+                    break;
+                }
+
+                if stream_delay > 0 {
+                    tokio::time::sleep(tokio::time::Duration::from_millis(stream_delay)).await;
+                }
+            }
+
+            let _ = tx.send("data: [DONE]\n\n".to_string()).await;
+        });
+
+        let stream = tokio_stream::wrappers::ReceiverStream::new(rx);
+
+        HttpResponse::Ok()
+            .content_type("text/event-stream")
+            .insert_header(("Cache-Control", "no-cache"))
+            .streaming(stream.map(|chunk| Ok::<_, actix_web::Error>(bytes::Bytes::from(chunk))))
+    } else {
+        // Return non-streaming response matching sglang format
+        let request_id = format!("mock-req-{}", rand::random::<u32>());
+        let timestamp_start = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs_f64();
+
+        HttpResponse::Ok().json(json!({
+            "text": "Mock generated response for the input",
+            "meta_info": {
+                "id": request_id,
+                "finish_reason": {
+                    "type": "stop",
+                    "matched_stop": null
+                },
+                "prompt_tokens": 10,
+                "completion_tokens": 7,
+                "cached_tokens": 0,
+                "e2e_latency": 0.042
+            }
+        }))
+    }
+}
+
+async fn chat_completions_handler(
+    config: web::Data<Arc<RwLock<MockWorkerConfig>>>,
+    payload: web::Json<serde_json::Value>,
+) -> HttpResponse {
+    let config = config.read().await;
+
+    // Simulate failure
+    if rand::random::<f32>() < config.fail_rate {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Chat completion failed"
+        }));
+    }
+
+    let is_stream = payload
+        .get("stream")
+        .and_then(|v| v.as_bool())
+        .unwrap_or(false);
+
+    if is_stream {
+        // Return proper streaming response for chat completions
+        let (tx, rx) = tokio::sync::mpsc::channel(10);
+        let stream_delay = config.response_delay_ms;
+        let model = payload
+            .get("model")
+            .and_then(|m| m.as_str())
+            .unwrap_or("mock-model")
+            .to_string();
+
+        tokio::spawn(async move {
+            let chat_id = format!("chatcmpl-mock{}", rand::random::<u32>());
+            let timestamp = SystemTime::now()
+                .duration_since(UNIX_EPOCH)
+                .unwrap()
+                .as_secs();
+
+            // Send initial chunk with role
+            let initial_chunk = json!({
+                "id": &chat_id,
+                "object": "chat.completion.chunk",
+                "created": timestamp,
+                "model": &model,
+                "choices": [{
+                    "index": 0,
+                    "delta": {
+                        "role": "assistant"
+                    },
+                    "finish_reason": null
+                }]
+            });
+
+            let _ = tx
+                .send(format!(
+                    "data: {}\n\n",
+                    serde_json::to_string(&initial_chunk).unwrap()
+                ))
+                .await;
+
+            // Send content chunks
+            let content_chunks = [
+                "This ",
+                "is ",
+                "a ",
+                "mock ",
+                "streaming ",
+                "chat ",
+                "response.",
+            ];
+            for chunk in content_chunks.iter() {
+                let data = json!({
+                    "id": &chat_id,
+                    "object": "chat.completion.chunk",
+                    "created": timestamp,
+                    "model": &model,
+                    "choices": [{
+                        "index": 0,
+                        "delta": {
+                            "content": chunk
+                        },
+                        "finish_reason": null
+                    }]
+                });
+
+                if tx
+                    .send(format!(
+                        "data: {}\n\n",
+                        serde_json::to_string(&data).unwrap()
+                    ))
+                    .await
+                    .is_err()
+                {
+                    break;
+                }
+
+                if stream_delay > 0 {
+                    tokio::time::sleep(tokio::time::Duration::from_millis(stream_delay)).await;
+                }
+            }
+
+            // Send final chunk with finish_reason
+            let final_chunk = json!({
+                "id": &chat_id,
+                "object": "chat.completion.chunk",
+                "created": timestamp,
+                "model": &model,
+                "choices": [{
+                    "index": 0,
+                    "delta": {},
+                    "finish_reason": "stop"
+                }]
+            });
+
+            let _ = tx
+                .send(format!(
+                    "data: {}\n\n",
+                    serde_json::to_string(&final_chunk).unwrap()
+                ))
+                .await;
+            let _ = tx.send("data: [DONE]\n\n".to_string()).await;
+        });
+
+        let stream = tokio_stream::wrappers::ReceiverStream::new(rx);
+
+        HttpResponse::Ok()
+            .content_type("text/event-stream")
+            .insert_header(("Cache-Control", "no-cache"))
+            .streaming(stream.map(|chunk| Ok::<_, actix_web::Error>(bytes::Bytes::from(chunk))))
+    } else {
+        // Non-streaming response matching OpenAI format
+        let model = payload
+            .get("model")
+            .and_then(|m| m.as_str())
+            .unwrap_or("mock-model")
+            .to_string();
+
+        HttpResponse::Ok().json(json!({
+            "id": format!("chatcmpl-{}", uuid::Uuid::new_v4()),
+            "object": "chat.completion",
+            "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
+            "model": model,
+            "choices": [{
+                "index": 0,
+                "message": {
+                    "role": "assistant",
+                    "content": "This is a mock chat completion response."
+                },
+                "logprobs": null,
+                "finish_reason": "stop",
+                "matched_stop": null
+            }],
+            "usage": {
+                "prompt_tokens": 10,
+                "completion_tokens": 8,
+                "total_tokens": 18,
+                "prompt_tokens_details": {
+                    "cached_tokens": 0
+                }
+            }
+        }))
+    }
+}
+
+async fn completions_handler(
+    config: web::Data<Arc<RwLock<MockWorkerConfig>>>,
+    payload: web::Json<serde_json::Value>,
+) -> HttpResponse {
+    let config = config.read().await;
+
+    if rand::random::<f32>() < config.fail_rate {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Completion failed"
+        }));
+    }
+
+    // Check if streaming is requested
+    let is_stream = payload
+        .get("stream")
+        .and_then(|v| v.as_bool())
+        .unwrap_or(false);
+
+    let prompts = payload
+        .get("prompt")
+        .map(|p| {
+            if p.is_array() {
+                p.as_array().unwrap().len()
+            } else {
+                1
+            }
+        })
+        .unwrap_or(1);
+
+    if is_stream {
+        // Return streaming response for completions
+        let (tx, rx) = tokio::sync::mpsc::channel(10);
+        let stream_delay = config.response_delay_ms;
+        let model = payload
+            .get("model")
+            .and_then(|m| m.as_str())
+            .unwrap_or("mock-model")
+            .to_string();
+
+        tokio::spawn(async move {
+            let completion_id = format!("cmpl-mock{}", rand::random::<u32>());
+            let timestamp = SystemTime::now()
+                .duration_since(UNIX_EPOCH)
+                .unwrap()
+                .as_secs();
+
+            // Stream completions for each prompt
+            for prompt_idx in 0..prompts {
+                let prompt_suffix = format!("{} ", prompt_idx);
+                let tokens = vec!["This ", "is ", "mock ", "completion ", &prompt_suffix];
+
+                for (token_idx, token) in tokens.iter().enumerate() {
+                    let data = json!({
+                        "id": &completion_id,
+                        "object": "text_completion",
+                        "created": timestamp,
+                        "model": &model,
+                        "choices": [{
+                            "text": token,
+                            "index": prompt_idx,
+                            "logprobs": null,
+                            "finish_reason": if token_idx == tokens.len() - 1 { Some("stop") } else { None }
+                        }]
+                    });
+
+                    if tx
+                        .send(format!(
+                            "data: {}\n\n",
+                            serde_json::to_string(&data).unwrap()
+                        ))
+                        .await
+                        .is_err()
+                    {
+                        return;
+                    }
+
+                    if stream_delay > 0 {
+                        tokio::time::sleep(tokio::time::Duration::from_millis(stream_delay)).await;
+                    }
+                }
+            }
+
+            let _ = tx.send("data: [DONE]\n\n".to_string()).await;
+        });
+
+        let stream = tokio_stream::wrappers::ReceiverStream::new(rx);
+
+        HttpResponse::Ok()
+            .content_type("text/event-stream")
+            .insert_header(("Cache-Control", "no-cache"))
+            .streaming(stream.map(|chunk| Ok::<_, actix_web::Error>(bytes::Bytes::from(chunk))))
+    } else {
+        // Return non-streaming response
+        let mut choices = vec![];
+        for i in 0..prompts {
+            choices.push(json!({
+                "text": format!("Mock completion {}", i),
+                "index": i,
+                "logprobs": null,
+                "finish_reason": "stop"
+            }));
+        }
+
+        HttpResponse::Ok().json(json!({
+            "id": format!("cmpl-mock{}", rand::random::<u32>()),
+            "object": "text_completion",
+            "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
+            "model": payload.get("model").and_then(|m| m.as_str()).unwrap_or("mock-model"),
+            "choices": choices,
+            "usage": {
+                "prompt_tokens": 5 * prompts,
+                "completion_tokens": 10 * prompts,
+                "total_tokens": 15 * prompts
+            }
+        }))
+    }
+}
+
+async fn flush_cache_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    HttpResponse::Ok().json(json!({
+        "status": "success",
+        "message": "Cache flushed",
+        "freed_entries": 42
+    }))
+}
+
+async fn v1_models_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    HttpResponse::Ok().json(json!({
+        "object": "list",
+        "data": [{
+            "id": "mock-model-v1",
+            "object": "model",
+            "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
+            "owned_by": "sglang",
+            "permission": [{
+                "id": "modelperm-mock",
+                "object": "model_permission",
+                "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
+                "allow_create_engine": false,
+                "allow_sampling": true,
+                "allow_logprobs": true,
+                "allow_search_indices": false,
+                "allow_view": true,
+                "allow_fine_tuning": false,
+                "organization": "*",
+                "group": null,
+                "is_blocking": false
+            }],
+            "root": "mock-model-v1",
+            "parent": null
+        }]
+    }))
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+
+    #[tokio::test]
+    async fn test_mock_worker_lifecycle() {
+        let config = MockWorkerConfig {
+            port: 18080,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        };
+
+        let mut worker = MockWorker::new(config);
+
+        // Start the worker
+        let url = worker.start().await.unwrap();
+        assert_eq!(url, "http://127.0.0.1:18080");
+
+        // Give server time to start
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+
+        // Test health endpoint
+        let client = reqwest::Client::new();
+        let resp = client.get(&format!("{}/health", url)).send().await.unwrap();
+
+        assert_eq!(resp.status(), 200);
+        let body: serde_json::Value = resp.json().await.unwrap();
+        assert_eq!(body["status"], "healthy");
+
+        // Update config to unhealthy
+        worker
+            .update_config(|c| c.health_status = HealthStatus::Unhealthy)
+            .await;
+
+        // Test health again
+        let resp = client.get(&format!("{}/health", url)).send().await.unwrap();
+
+        assert_eq!(resp.status(), 503);
+
+        // Stop the worker
+        worker.stop().await;
+    }
+}
diff --git a/sgl-router/tests/common/mod.rs b/sgl-router/tests/common/mod.rs
new file mode 100644
index 000000000000..34467cd0885a
--- /dev/null
+++ b/sgl-router/tests/common/mod.rs
@@ -0,0 +1,56 @@
+pub mod mock_worker;
+
+use actix_web::web;
+use reqwest::Client;
+use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::server::AppState;
+
+/// Helper function to create test router configuration
+pub fn create_test_config(worker_urls: Vec<String>) -> RouterConfig {
+    RouterConfig {
+        mode: RoutingMode::Regular { worker_urls },
+        policy: PolicyConfig::Random,
+        host: "127.0.0.1".to_string(),
+        port: 3001,
+        max_payload_size: 256 * 1024 * 1024, // 256MB
+        request_timeout_secs: 600,
+        worker_startup_timeout_secs: 300,
+        worker_startup_check_interval_secs: 10,
+        discovery: None,
+        metrics: None,
+        log_dir: None,
+        log_level: None,
+    }
+}
+
+/// Helper function to create test router configuration with no health check
+pub fn create_test_config_no_workers() -> RouterConfig {
+    RouterConfig {
+        mode: RoutingMode::Regular {
+            worker_urls: vec![],
+        }, // Empty to skip health check
+        policy: PolicyConfig::Random,
+        host: "127.0.0.1".to_string(),
+        port: 3001,
+        max_payload_size: 256 * 1024 * 1024, // 256MB
+        request_timeout_secs: 600,
+        worker_startup_timeout_secs: 0, // No wait
+        worker_startup_check_interval_secs: 10,
+        discovery: None,
+        metrics: None,
+        log_dir: None,
+        log_level: None,
+    }
+}
+
+/// Helper function to create test app state
+pub async fn create_test_app_state(config: RouterConfig) -> Result<web::Data<AppState>, String> {
+    // Create a non-blocking client
+    let client = Client::builder()
+        .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
+        .build()
+        .map_err(|e| e.to_string())?;
+
+    let app_state = AppState::new(config, client)?;
+    Ok(web::Data::new(app_state))
+}

From 4c605235aa832f259e148dfbdce08d9e471b5099 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Wed, 23 Jul 2025 12:01:51 -0700
Subject: [PATCH 101/396] fix: workaround for deepgemm warmup issue (#8302)

---
 docker/Dockerfile                       | 2 +-
 sgl-kernel/CMakeLists.txt               | 2 +-
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 6 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 1e5f21c9d5f5..5494762150d0 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -60,7 +60,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
       python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps ; \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.6.post1/sgl_kernel-0.2.6.post1+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.7/sgl_kernel-0.2.7+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
 # Build and install NVSHMEM + DeepEP
diff --git a/sgl-kernel/CMakeLists.txt b/sgl-kernel/CMakeLists.txt
index e8f9a0839658..739782372909 100644
--- a/sgl-kernel/CMakeLists.txt
+++ b/sgl-kernel/CMakeLists.txt
@@ -56,7 +56,7 @@ if("${CUDA_VERSION}" VERSION_EQUAL "12.8")
   set(DeepGEMM_TAG "blackwell")
 else()
   set(DeepGEMM_REPO "https://github.com/deepseek-ai/DeepGEMM")
-  set(DeepGEMM_TAG "8dfa3298274bfe6b242f6f8a3e6f3eff2707dd9f")
+  set(DeepGEMM_TAG "391755ada0ffefa9a6a52b6f14dcaf22d1a463e0")
 endif()
 
 FetchContent_Declare(
diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index 3b49eab5d9a8..59f69f628346 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.6.post1"
+version = "0.2.7"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index 6746b212d364..f9d5cb3975aa 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.6.post1"
+version = "0.2.7"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 0ba8b0399bff..6791bb47b2ce 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.6.post1"
+version = "0.2.7"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index e39bc3f224a0..6cd38b746590 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.2.6.post1"
+__version__ = "0.2.7"

From a99801e0750f41553fedd02e36f58d835c4d4bd6 Mon Sep 17 00:00:00 2001
From: YiXR <37775155+YiXR@users.noreply.github.com>
Date: Thu, 24 Jul 2025 04:28:12 +0800
Subject: [PATCH 102/396] [Performance][PD Disaggregation] optimize
 TokenToKVPoolAllocator by sorting free pages (#8133)

Signed-off-by: Xingrui Yi <yixingrui@linux.alibaba.com>
Co-authored-by: Xingrui Yi <yixingrui@linux.alibaba.com>
---
 python/sglang/srt/mem_cache/allocator.py | 74 +++++++++++++++++++++---
 1 file changed, 67 insertions(+), 7 deletions(-)

diff --git a/python/sglang/srt/mem_cache/allocator.py b/python/sglang/srt/mem_cache/allocator.py
index 7dd488e9cf18..58afbf312f02 100644
--- a/python/sglang/srt/mem_cache/allocator.py
+++ b/python/sglang/srt/mem_cache/allocator.py
@@ -51,6 +51,7 @@ def __init__(
         self._kvcache = kvcache
 
         self.free_pages = None
+        self.release_pages = None
         self.is_not_in_free_group = True
         self.free_group = []
 
@@ -58,16 +59,16 @@ def debug_print(self) -> str:
         return ""
 
     def available_size(self):
-        return len(self.free_pages) * self.page_size
+        return (len(self.free_pages) + len(self.release_pages)) * self.page_size
 
     def get_kvcache(self):
         return self._kvcache
 
-    def restore_state(self, free_pages):
-        self.free_pages = free_pages
+    def restore_state(self, state):
+        self.free_pages, self.release_pages = state
 
     def backup_state(self):
-        return self.free_pages
+        return (self.free_pages, self.release_pages)
 
     def free_group_begin(self):
         self.is_not_in_free_group = False
@@ -78,6 +79,14 @@ def free_group_end(self):
         if self.free_group:
             self.free(torch.cat(self.free_group))
 
+    def merge_and_sort_free(self):
+        if len(self.release_pages) > 0:
+            self.free_pages = torch.cat((self.free_pages, self.release_pages))
+            self.free_pages, _ = torch.sort(self.free_pages)
+            self.release_pages = torch.empty(
+                (0,), dtype=self.release_pages.dtype, device=self.device
+            )
+
     def get_cpu_copy(self, *args, **kwargs):
         # FIXME: reuse the get_cpu_copy after paged allocator is implemented
         raise NotImplementedError()
@@ -119,12 +128,15 @@ def clear(self):
         )
         self.is_not_in_free_group = True
         self.free_group = []
+        self.release_pages = torch.empty((0,), dtype=torch.int64, device=self.device)
 
     def available_size(self):
         # To avoid minor "len(free_pages) * 1" overhead
-        return len(self.free_pages)
+        return len(self.free_pages) + len(self.release_pages)
 
     def alloc(self, need_size: int):
+        if need_size > len(self.free_pages):
+            self.merge_and_sort_free()
         if need_size > len(self.free_pages):
             return None
 
@@ -137,7 +149,7 @@ def free(self, free_index: torch.Tensor):
             return
 
         if self.is_not_in_free_group:
-            self.free_pages = torch.cat((self.free_pages, free_index))
+            self.release_pages = torch.cat((self.release_pages, free_index))
         else:
             self.free_group.append(free_index)
 
@@ -421,6 +433,8 @@ def alloc(self, need_size: int):
             ), "The allocation size should be page-aligned"
 
         num_pages = need_size // self.page_size
+        if num_pages > len(self.free_pages):
+            self.merge_and_sort_free()
         if num_pages > len(self.free_pages):
             return None
 
@@ -446,6 +460,17 @@ def alloc_extend(
                 (last_loc + 1) % self.page_size == prefix_lens % self.page_size
             )
 
+        estimated_num_new_pages = (
+            (
+                (seq_lens + self.page_size - 1) // self.page_size
+                - (prefix_lens + self.page_size - 1) // self.page_size
+            )
+            .sum()
+            .item()
+        )
+        if estimated_num_new_pages > len(self.free_pages):
+            self.merge_and_sort_free()
+
         bs = len(prefix_lens)
         out_indices = torch.empty(
             (extend_num_tokens,), dtype=torch.int64, device=self.device
@@ -483,6 +508,17 @@ def alloc_decode(
                 (last_loc + 2) % self.page_size == seq_lens % self.page_size
             )
 
+        estimated_num_new_pages = (
+            (
+                (seq_lens + self.page_size - 1) // self.page_size
+                - (seq_lens - 1 + self.page_size - 1) // self.page_size
+            )
+            .sum()
+            .item()
+        )
+        if estimated_num_new_pages > len(self.free_pages):
+            self.merge_and_sort_free()
+
         bs = len(seq_lens)
         out_indices = torch.empty((bs,), dtype=torch.int64, device=self.device)
         alloc_decode_kernel[(bs,)](
@@ -511,7 +547,7 @@ def free(self, free_index: torch.Tensor):
 
         if self.is_not_in_free_group:
             free_page_indices = torch.unique(free_index // self.page_size)
-            self.free_pages = torch.cat((free_page_indices, self.free_pages))
+            self.release_pages = torch.cat((free_page_indices, self.release_pages))
         else:
             self.free_group.append(free_index)
 
@@ -525,6 +561,7 @@ def clear(self):
         )
         self.is_not_in_free_group = True
         self.free_group = []
+        self.release_pages = torch.empty((0,), dtype=torch.int64, device=self.device)
 
     def get_cpu_copy(self, indices):
         return self._kvcache.get_cpu_copy(indices)
@@ -633,6 +670,17 @@ def alloc_extend(
                 (last_loc + 1) % self.page_size == prefix_lens % self.page_size
             )
 
+        estimated_num_new_pages = (
+            (
+                (seq_lens + self.page_size - 1) // self.page_size
+                - (prefix_lens + self.page_size - 1) // self.page_size
+            )
+            .sum()
+            .item()
+        )
+        if estimated_num_new_pages > len(self.free_pages):
+            self.merge_and_sort_free()
+
         bs = len(prefix_lens)
         out_indices = torch.empty(
             (extend_num_tokens,), dtype=torch.int32, device=self.device
@@ -668,6 +716,17 @@ def alloc_decode(
                 (last_loc + 2) % self.page_size == seq_lens % self.page_size
             )
 
+        estimated_num_new_pages = (
+            (
+                (seq_lens + self.page_size - 1) // self.page_size
+                - (seq_lens - 1 + self.page_size - 1) // self.page_size
+            )
+            .sum()
+            .item()
+        )
+        if estimated_num_new_pages > len(self.free_pages):
+            self.merge_and_sort_free()
+
         bs = len(seq_lens)
         out_indices = torch.empty((bs,), dtype=torch.int32, device=self.device)
 
@@ -692,3 +751,4 @@ def alloc_decode(
     def clear(self):
         super().clear()
         self.free_pages = self.free_pages.to(torch.int32)
+        self.release_pages = self.release_pages.to(torch.int32)

From c87d4fec9998d278fb416f2523677e70908f5e11 Mon Sep 17 00:00:00 2001
From: xianzhiT <xianzhitang@tencent.com>
Date: Thu, 24 Jul 2025 04:28:53 +0800
Subject: [PATCH 103/396] Fix the issue of incorrect finish reason in final
 stream response chunk returned during tool call (#7708)

Co-authored-by: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
---
 .../srt/entrypoints/openai/serving_chat.py      | 17 +++++++++++++----
 .../test_openai_function_calling.py             |  7 +++++++
 2 files changed, 20 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index e69587432c12..9889cb2edd66 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -484,7 +484,10 @@ async def _generate_chat_stream(
 
                 # Handle tool calls
                 if request.tool_choice != "none" and request.tools:
-                    async for chunk in self._process_tool_call_stream(
+                    async for (
+                        chunk,
+                        tool_call_finish_reason_type,
+                    ) in self._process_tool_call_stream(
                         index,
                         delta,
                         parser_dict,
@@ -492,7 +495,10 @@ async def _generate_chat_stream(
                         request,
                         finish_reason_type,
                     ):
-                        yield chunk
+                        if chunk:
+                            yield chunk
+                        finish_reason_type = tool_call_finish_reason_type
+
                 else:
                     # Regular content
                     if delta or not (
@@ -865,7 +871,7 @@ async def _process_tool_call_stream(
                 choices=[choice_data],
                 model=request.model,
             )
-            yield f"data: {chunk.model_dump_json()}\n\n"
+            yield f"data: {chunk.model_dump_json()}\n\n", finish_reason_type
 
         # Yield tool calls
         for call_item in calls:
@@ -920,4 +926,7 @@ async def _process_tool_call_stream(
                 choices=[choice_data],
                 model=request.model,
             )
-            yield f"data: {chunk.model_dump_json()}\n\n"
+            yield f"data: {chunk.model_dump_json()}\n\n", finish_reason_type
+
+        if finish_reason_type == "stop":
+            yield None, "tool_calls"
diff --git a/test/srt/openai_server/function_call/test_openai_function_calling.py b/test/srt/openai_server/function_call/test_openai_function_calling.py
index 012fc15c5ff3..8b437a8ac910 100644
--- a/test/srt/openai_server/function_call/test_openai_function_calling.py
+++ b/test/srt/openai_server/function_call/test_openai_function_calling.py
@@ -159,6 +159,13 @@ def test_function_calling_streaming_simple(self):
             "Target function name 'get_current_weather' was not found in the streaming chunks",
         )
 
+        finish_reason = chunks[-1].choices[0].finish_reason
+        self.assertEqual(
+            finish_reason,
+            "tool_calls",
+            "Final response of function calling should have finish_reason 'tool_calls'",
+        )
+
     def test_function_calling_streaming_args_parsing(self):
         """
         Test: Whether the function call arguments returned in streaming mode can be correctly concatenated into valid JSON.

From 70251e935e9d466f36e75d74fffeea90af346418 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Wed, 23 Jul 2025 13:29:03 -0700
Subject: [PATCH 104/396] fix: match chat-template for internvl3 (#8262)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 python/sglang/srt/conversation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index cb4bdbc44a0c..80b706430bf7 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -984,7 +984,7 @@ def generate_chat_conv(
 
 @register_conv_template_matching_function
 def match_internvl(model_path: str):
-    if re.search(r"internvl2_5", model_path, re.IGNORECASE):
+    if re.search(r"internvl", model_path, re.IGNORECASE):
         return "internvl-2-5"
 
 

From 38000a5f44d16b216f5d1fb476fdad15c3fa4616 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Wed, 23 Jul 2025 13:29:18 -0700
Subject: [PATCH 105/396] Fix gemma3n with hybrid swa (#8240)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 .../sglang/srt/model_executor/model_runner.py |  8 +++++--
 test/srt/run_suite.py                         |  2 +-
 test/srt/test_vision_openai_server_b.py       | 21 +++++++++++++++++++
 3 files changed, 28 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 919622cc77d1..cbb35bf270d3 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -276,6 +276,7 @@ def initialize(self, min_per_gpu_memory: float):
         self.sampler = Sampler()
         self.load_model()
 
+        # Check if the model is using hybrid SWA
         if (
             not self.server_args.disable_hybrid_swa_memory
             and self.sliding_window_size is not None
@@ -1008,8 +1009,11 @@ def set_num_token_hybrid(self):
                 try:
                     layers = self.model.language_model.model.layers
                 except:
-                    self.is_hybrid = False
-                    return
+                    try:
+                        layers = self.model.language_model.layers
+                    except:
+                        self.is_hybrid = False
+                        return
 
             for layer in layers:
                 if (
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 6a96cf598648..18dcd004ff62 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -105,7 +105,7 @@ class TestFile:
         TestFile("test_vision_chunked_prefill.py", 175),
         TestFile("test_vlm_input_format.py", 300),
         TestFile("test_vision_openai_server_a.py", 584),
-        TestFile("test_vision_openai_server_b.py", 556),
+        TestFile("test_vision_openai_server_b.py", 620),
         TestFile("test_w8a8_quantization.py", 46),
         TestFile("test_reasoning_parser.py", 5),
     ],
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index dabf948b3567..f5b33a72e380 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -151,6 +151,27 @@ def test_video_chat_completion(self):
         pass
 
 
+class TestGemma3nServer(TestOpenAIVisionServer):
+    @classmethod
+    def setUpClass(cls):
+        cls.model = "google/gemma-3n-E2B-it"
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.api_key = "sk-123456"
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            other_args=[
+                "--trust-remote-code",
+                "--mem-fraction-static",
+                "0.70",
+                "--cuda-graph-max-bs",
+                "1",
+            ],
+        )
+        cls.base_url += "/v1"
+
+
 class TestKimiVLServer(TestOpenAIVisionServer):
     @classmethod
     def setUpClass(cls):

From 4953f4ca9a3a440168cb4a0e9d1e4ae883c97d52 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Wed, 23 Jul 2025 15:07:27 -0700
Subject: [PATCH 106/396] chore: upgrade sgl-kernel 0.2.7 (#8304)

---
 python/pyproject.toml                   | 2 +-
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index aa9fc460d977..64915df6b590 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -54,7 +54,7 @@ runtime_common = [
 
 srt = [
     "sglang[runtime_common]",
-    "sgl-kernel==0.2.6.post1",
+    "sgl-kernel==0.2.7",
     "torch==2.7.1",
     "torchaudio==2.7.1",
     "torchvision==0.22.1",
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index e2cb02cc3014..edf81a79a098 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -654,7 +654,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if _is_cuda:
         assert_pkg_version(
             "sgl-kernel",
-            "0.2.6.post1",
+            "0.2.7",
             "Please reinstall the latest version with `pip install sgl-kernel --force-reinstall`",
         )
 

From 0e7a5b26945c7a21dbaff10254477d2d3de779ff Mon Sep 17 00:00:00 2001
From: J <Jerrymeng100@gmail.com>
Date: Wed, 23 Jul 2025 15:30:55 -0700
Subject: [PATCH 107/396] fix: prevent crashes due to logit bias dimension
 mismatch (#7685)

---
 python/sglang/srt/sampling/sampling_batch_info.py | 11 ++++++-----
 python/sglang/srt/speculative/eagle_utils.py      |  6 ++++++
 2 files changed, 12 insertions(+), 5 deletions(-)

diff --git a/python/sglang/srt/sampling/sampling_batch_info.py b/python/sglang/srt/sampling/sampling_batch_info.py
index f88082e690b0..bcdadbe1120f 100644
--- a/python/sglang/srt/sampling/sampling_batch_info.py
+++ b/python/sglang/srt/sampling/sampling_batch_info.py
@@ -322,6 +322,12 @@ def merge_batch(self, other: "SamplingBatchInfo"):
             # Set the flag to True if any of the two has custom logit processor
             self.has_custom_logit_processor = True
 
+        # Merge logit bias - note this has to come before the temperatures tensor update! Otherwise will cause crashes.
+        # See note below on len(self) and len(other).
+        self.logit_bias = merge_bias_tensor(
+            self.logit_bias, other.logit_bias, len(self), len(other), self.device, 0.0
+        )
+
         # Note: because the __len()__ operator is defined on the temperatures tensor,
         # please make sure any merge operation with len(self) or len(other) is done before
         # the merge operation of the temperatures tensor below.
@@ -340,11 +346,6 @@ def merge_batch(self, other: "SamplingBatchInfo"):
         self.need_top_k_sampling |= other.need_top_k_sampling
         self.need_min_p_sampling |= other.need_min_p_sampling
 
-        # Merge logit bias
-        self.logit_bias = merge_bias_tensor(
-            self.logit_bias, other.logit_bias, len(self), len(other), self.device, 0.0
-        )
-
 
 def merge_bias_tensor(
     lhs: Optional[torch.Tensor],
diff --git a/python/sglang/srt/speculative/eagle_utils.py b/python/sglang/srt/speculative/eagle_utils.py
index 83724b3851ec..7f7e21e968c1 100644
--- a/python/sglang/srt/speculative/eagle_utils.py
+++ b/python/sglang/srt/speculative/eagle_utils.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+import copy
 import logging
 import os
 import time
@@ -362,6 +363,11 @@ def verify(
         )
         accept_length = torch.empty((bs,), dtype=torch.int32, device="cuda")
 
+        if bs != len(sampling_info):
+            sampling_info = copy.deepcopy(sampling_info)
+            # NOTE: retrive_index are the indices of the requests that are kept.
+            sampling_info.filter_batch(self.retrive_index.tolist(), self.retrive_index)
+
         # Apply the custom logit processors if registered in the sampling info.
         if sampling_info.has_custom_logit_processor:
             apply_custom_logit_processor(

From 01079e174ff8a7a052b4f8f74b4f8a59edd13f61 Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Wed, 23 Jul 2025 17:37:31 -0700
Subject: [PATCH 108/396] feat(function call): complete utility method for
 KimiK2Detector and enhance documentation (#8043)

---
 .../srt/function_call/base_format_detector.py | 82 ++++++++++++++++---
 .../srt/function_call/deepseekv3_detector.py  | 35 +++++---
 .../srt/function_call/kimik2_detector.py      | 57 +++++++++----
 .../srt/function_call/llama32_detector.py     |  9 +-
 .../srt/function_call/mistral_detector.py     | 14 +++-
 .../srt/function_call/pythonic_detector.py    | 21 +++--
 .../srt/function_call/qwen25_detector.py      | 15 +++-
 test/srt/test_function_call_parser.py         | 28 +++++++
 8 files changed, 205 insertions(+), 56 deletions(-)

diff --git a/python/sglang/srt/function_call/base_format_detector.py b/python/sglang/srt/function_call/base_format_detector.py
index 3989ec98d95c..d9ac71253e6d 100644
--- a/python/sglang/srt/function_call/base_format_detector.py
+++ b/python/sglang/srt/function_call/base_format_detector.py
@@ -25,23 +25,49 @@ class BaseFormatDetector(ABC):
     """Base class providing two sets of interfaces: one-time and streaming incremental."""
 
     def __init__(self):
-        # initialize properties used for state when parsing tool calls in
+        # Streaming state management
+        # Buffer for accumulating incomplete patterns that arrive across multiple streaming chunks
         self._buffer = ""
-        # streaming mode
+        # Stores complete tool call info (name and arguments) for each tool being parsed.
+        # Used by serving layer for completion handling when streaming ends.
+        # Format: [{"name": str, "arguments": dict}, ...]
         self.prev_tool_call_arr: List[Dict] = []
+        # Index of currently streaming tool call. Starts at -1 (no active tool),
+        # increments as each tool completes. Tracks which tool's arguments are streaming.
         self.current_tool_id: int = -1
+        # Flag for whether current tool's name has been sent to client.
+        # Tool names sent first with empty parameters, then arguments stream incrementally.
         self.current_tool_name_sent: bool = False
-        self.streamed_args_for_tool: List[str] = (
-            []
-        )  # map what has been streamed for each tool so far to a list
+        # Tracks raw JSON string content streamed to client for each tool's arguments.
+        # Critical for serving layer to calculate remaining content when streaming ends.
+        # Each index corresponds to a tool_id. Example: ['{"location": "San Francisco"', '{"temp": 72']
+        self.streamed_args_for_tool: List[str] = []
+
+        # Token configuration (override in subclasses)
         self.bot_token = ""
         self.eot_token = ""
         self.tool_call_separator = ", "
 
-    def parse_base_json(self, action: Any, tools: List[Tool]) -> List[ToolCallItem]:
-        tool_indices = {
+    def _get_tool_indices(self, tools: List[Tool]) -> Dict[str, int]:
+        """
+        Get a mapping of tool names to their indices in the tools list.
+
+        This utility method creates a dictionary mapping function names to their
+        indices in the tools list, which is commonly needed for tool validation
+        and ToolCallItem creation.
+
+        Args:
+            tools: List of available tools
+
+        Returns:
+            Dictionary mapping tool names to their indices
+        """
+        return {
             tool.function.name: i for i, tool in enumerate(tools) if tool.function.name
         }
+
+    def parse_base_json(self, action: Any, tools: List[Tool]) -> List[ToolCallItem]:
+        tool_indices = self._get_tool_indices(tools)
         if not isinstance(action, list):
             action = [action]
 
@@ -130,11 +156,7 @@ def parse_streaming_increment(
 
         # Build tool indices if not already built
         if not hasattr(self, "_tool_indices"):
-            self._tool_indices = {
-                tool.function.name: i
-                for i, tool in enumerate(tools)
-                if tool.function and tool.function.name
-            }
+            self._tool_indices = self._get_tool_indices(tools)
 
         flags = Allow.ALL if self.current_tool_name_sent else Allow.ALL & ~Allow.STR
 
@@ -294,12 +316,48 @@ def parse_streaming_increment(
 
     @abstractmethod
     def has_tool_call(self, text: str) -> bool:
+        """
+        Check if the given text contains function call markers specific to this format.
+        """
         raise NotImplementedError()
 
     @abstractmethod
     def structure_info(self) -> _GetInfoFunc:
+        """
+        Return a function that creates StructureInfo for constrained generation.
+
+        The returned function takes a tool name and returns a StructureInfo object
+        containing the begin/end patterns and trigger tokens needed for constrained
+        generation of function calls in this format.
+
+        Returns:
+            A function that takes a tool name (str) and returns StructureInfo
+        """
         raise NotImplementedError()
 
     @abstractmethod
     def build_ebnf(self, tools: List[Tool]) -> str:
+        """
+        Build an EBNF grammar for constrained generation of function calls.
+
+        This method generates an Extended Backus-Naur Form (EBNF) grammar that
+        constrains the model's output to valid function calls in this format.
+        The grammar should include all available tools and their parameter schemas.
+
+        Args:
+            tools: List of available tools/functions that can be called
+
+        Returns:
+            A string containing the EBNF grammar for this function call format
+
+        The EBNF grammar should:
+            - Define the overall structure of function calls in this format
+            - Include all tool names from the provided tools list
+            - Define valid JSON structures for function arguments
+            - Handle multiple function calls if the format supports them
+
+        Note:
+            Most implementations use EBNFComposer.build_ebnf() utility with
+            format-specific parameters rather than writing EBNF from scratch.
+        """
         raise NotImplementedError()
diff --git a/python/sglang/srt/function_call/deepseekv3_detector.py b/python/sglang/srt/function_call/deepseekv3_detector.py
index e3befca5bcf4..35e96c715295 100644
--- a/python/sglang/srt/function_call/deepseekv3_detector.py
+++ b/python/sglang/srt/function_call/deepseekv3_detector.py
@@ -19,9 +19,28 @@
 
 class DeepSeekV3Detector(BaseFormatDetector):
     """
-    Detector for DeepSeek models.
-    Assumes function call format:
-      '<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>function<｜tool▁sep｜>get_current_weather\n```json\n{"location": "Tokyo"}\n```<｜tool▁call▁end｜>\n<｜tool▁call▁begin｜>function<｜tool▁sep｜>get_current_weather\n```json\n{"location": "Paris"}\n```<｜tool▁call▁end｜><｜tool▁calls▁end｜><｜end▁of▁sentence｜>
+    Detector for DeepSeek V3 model function call format.
+
+    The DeepSeek V3 format uses special Unicode tokens to delimit function calls
+    with JSON code blocks for arguments.
+
+    Format Structure:
+    ```
+    <｜tool▁calls▁begin｜><｜tool▁call▁begin｜>function<｜tool▁sep｜>{function_name}\n```json\n{json_arguments}\n```<｜tool▁calls▁end｜><｜end▁of▁sentence｜>
+    ```
+    Examples:
+    ```
+    <｜tool▁calls▁begin｜><｜tool▁call▁begin｜>function<｜tool▁sep｜>get_current_weather\n```json\n{"location": "Tokyo"}\n```<｜tool▁call▁end｜>\n<｜tool▁call▁begin｜>function<｜tool▁sep｜>get_current_weather\n```json\n{"location": "Paris"}\n```<｜tool▁call▁end｜><｜tool▁calls▁end｜><｜end▁of▁sentence｜>
+    ```
+
+    Key Components:
+    - Tool Calls Section: Wrapped between `<｜tool▁calls▁begin｜>` and `<｜tool▁calls▁end｜>`
+    - Individual Tool Call: Wrapped between `<｜tool▁call▁begin｜>` and `<｜tool▁call▁end｜>`
+    - Function Declaration: `function<｜tool▁sep｜>{function_name}`
+    - Arguments: JSON code block between ````json` and ````
+    - Supports multiple tool calls
+
+    Reference: https://huggingface.co/deepseek-ai/DeepSeek-V3-0324?chat_template=default
     """
 
     def __init__(self):
@@ -89,11 +108,7 @@ def parse_streaming_increment(
             return StreamingParseResult(normal_text=new_text)
 
         if not hasattr(self, "_tool_indices"):
-            self._tool_indices = {
-                tool.function.name: i
-                for i, tool in enumerate(tools)
-                if tool.function and tool.function.name
-            }
+            self._tool_indices = self._get_tool_indices(tools)
 
         calls: list[ToolCallItem] = []
         try:
@@ -127,7 +142,7 @@ def parse_streaming_increment(
                         )
                     )
                     self.current_tool_name_sent = True
-                    # Store the tool call info for adapter.py
+                    # Store the tool call info for serving layer completions endpoint
                     self.prev_tool_call_arr[self.current_tool_id] = {
                         "name": func_name,
                         "arguments": {},
@@ -153,7 +168,7 @@ def parse_streaming_increment(
                         ] += argument_diff
 
                     if _is_complete_json(func_args_raw):
-                        # Update the stored arguments for adapter.py
+                        # Update the stored arguments
                         try:
                             parsed_args = json.loads(func_args_raw)
                             self.prev_tool_call_arr[self.current_tool_id][
diff --git a/python/sglang/srt/function_call/kimik2_detector.py b/python/sglang/srt/function_call/kimik2_detector.py
index 94457ccda15c..54ee777873f1 100644
--- a/python/sglang/srt/function_call/kimik2_detector.py
+++ b/python/sglang/srt/function_call/kimik2_detector.py
@@ -18,16 +18,21 @@
 
 
 class KimiK2Detector(BaseFormatDetector):
+    """
+    Detector for Kimi K2 model function call format.
+
+    Format Structure:
+    ```
+    <|tool_calls_section_begin|>
+    <|tool_call_begin|>functions.{func_name}:{index} <|tool_call_argument_begin|>{json_args}<|tool_call_end|>
+    <|tool_calls_section_end|>
+    ```
+
+    Reference: https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/docs/tool_call_guidance.md
+    """
 
     def __init__(self):
         super().__init__()
-        self._buffer = ""
-        self.current_tool_name_sent: bool = False
-        self.prev_tool_call_arr: list[dict] = []
-        self.current_tool_id: int = -1
-        self.streamed_args_for_tool: list[str] = (
-            []
-        )  # map what has been streamed for each tool so far to a list
 
         self.bot_token: str = "<|tool_calls_section_begin|>"
         self.eot_token: str = "<|tool_calls_section_end|>"
@@ -114,11 +119,7 @@ def parse_streaming_increment(
             return StreamingParseResult(normal_text=new_text)
 
         if not hasattr(self, "_tool_indices"):
-            self._tool_indices = {
-                tool.function.name: i
-                for i, tool in enumerate(tools)
-                if tool.function and tool.function.name
-            }
+            self._tool_indices = self._get_tool_indices(tools)
 
         calls: list[ToolCallItem] = []
         try:
@@ -150,7 +151,7 @@ def parse_streaming_increment(
                         )
                     )
                     self.current_tool_name_sent = True
-                    # Store the tool call info for adapter.py
+                    # Store the tool call info for serving layer completions endpoint
                     self.prev_tool_call_arr[self.current_tool_id] = {
                         "name": function_name,
                         "arguments": {},
@@ -214,7 +215,31 @@ def parse_streaming_increment(
             return StreamingParseResult(normal_text=current_text)
 
     def structure_info(self) -> _GetInfoFunc:
-        raise NotImplementedError()
+        """Return function that creates StructureInfo for guided generation."""
+
+        def get_info(name: str) -> StructureInfo:
+            return StructureInfo(
+                begin=f"<|tool_calls_section_begin|><|tool_call_begin|>functions.{name}:0 <|tool_call_argument_begin|>",
+                end="<|tool_call_end|><|tool_calls_section_end|>",
+                trigger="<|tool_calls_section_begin|>",
+            )
+
+        return get_info
 
-    def build_ebnf(self, tools: List[Tool]):
-        raise NotImplementedError()
+    def build_ebnf(self, tools: List[Tool]) -> str:
+        """
+        Build EBNF grammar for KimiK2 tool call format.
+
+        NOTE: The call_rule_fmt uses [0-9]+ for the function index to allow the grammar
+        to accept any numeric index (0, 1, 2, etc.) for proper sequential indexing in
+        multiple function call scenarios, while still maintaining the correct KimiK2
+        format structure for constrained generation.
+        """
+        return EBNFComposer.build_ebnf(
+            tools,
+            sequence_start_token=self.bot_token,
+            sequence_end_token=self.eot_token,
+            tool_call_separator="",
+            call_rule_fmt='"<|tool_call_begin|>functions.{name}:" [0-9]+ " <|tool_call_argument_begin|>" {arguments_rule} "<|tool_call_end|>"',
+            function_format="json",
+        )
diff --git a/python/sglang/srt/function_call/llama32_detector.py b/python/sglang/srt/function_call/llama32_detector.py
index e7afeddb031f..453bcbc9a75a 100644
--- a/python/sglang/srt/function_call/llama32_detector.py
+++ b/python/sglang/srt/function_call/llama32_detector.py
@@ -16,9 +16,12 @@
 
 class Llama32Detector(BaseFormatDetector):
     """
-    Detector for Llama 3.2 models.
-    Assumes function call format:
-      <|python_tag|>{"name":"xxx", "arguments":{...}}
+    Detector for Llama 3.2 models with json tool call format.
+
+    Format Structure:
+    ```
+    <python_tag>{"name":"xxx", "arguments":{...}}
+    ```
     """
 
     def __init__(self):
diff --git a/python/sglang/srt/function_call/mistral_detector.py b/python/sglang/srt/function_call/mistral_detector.py
index 031368006ed9..49767fd53ba0 100644
--- a/python/sglang/srt/function_call/mistral_detector.py
+++ b/python/sglang/srt/function_call/mistral_detector.py
@@ -17,9 +17,17 @@
 
 class MistralDetector(BaseFormatDetector):
     """
-    Detector for Mistral models.
-    Assumes function call format:
-      [TOOL_CALLS] [{"name":"func1", "arguments":{...}}, {"name":"func2", "arguments":{...}}]
+    Detector for Mistral model function call format.
+
+    The Mistral format uses a simple bracket-delimited structure with JSON arrays
+    containing function call objects.
+
+    Format Structure:
+    ```
+    [TOOL_CALLS] [{"name": "function_name", "arguments": {json_args}}, ...]
+    ```
+
+    Reference: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3?chat_template=default
     """
 
     def __init__(self):
diff --git a/python/sglang/srt/function_call/pythonic_detector.py b/python/sglang/srt/function_call/pythonic_detector.py
index d3096d9199ed..85c3cd1359ed 100644
--- a/python/sglang/srt/function_call/pythonic_detector.py
+++ b/python/sglang/srt/function_call/pythonic_detector.py
@@ -19,10 +19,17 @@
 
 class PythonicDetector(BaseFormatDetector):
     """
-    Detector for Llama-3.2 and Llama-4 models with pythonic tool call format.
-    Assumes function call format:
-      [tool1(arg1=val1, arg2=val2), tool2(arg1=val3)]
-    Arguments are Python literals (not JSON).
+    Detector for Llama-4 models with Pythonic tool call format.
+
+    The Pythonic format uses Python function call syntax within square brackets,
+    with arguments as Python literals rather than JSON.
+
+    Format Structure:
+    ```
+    [tool1(arg1=val1, arg2=val2), tool2(arg1=val3)]
+    ```
+
+    Reference: https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct?chat_template=default
     """
 
     def __init__(self):
@@ -75,11 +82,7 @@ def detect_and_parse(self, text: str, tools: List[Tool]) -> StreamingParseResult
                 return StreamingParseResult(normal_text=normal_text, calls=[])
 
             calls = []
-            tool_indices = {
-                tool.function.name: i
-                for i, tool in enumerate(tools)
-                if tool.function.name
-            }
+            tool_indices = self._get_tool_indices(tools)
             for call_index, call in enumerate(parsed.elts):
                 if not isinstance(call.func, ast.Name):
                     continue
diff --git a/python/sglang/srt/function_call/qwen25_detector.py b/python/sglang/srt/function_call/qwen25_detector.py
index cee3f18eae0a..40a65e5df742 100644
--- a/python/sglang/srt/function_call/qwen25_detector.py
+++ b/python/sglang/srt/function_call/qwen25_detector.py
@@ -17,9 +17,18 @@
 
 class Qwen25Detector(BaseFormatDetector):
     """
-    Detector for Qwen 2.5 models.
-    Assumes function call format:
-      <tool_call>\n{"name":"func1", "arguments":{...}}\n</tool_call>\n<tool_call>\n{"name":"func2", "arguments":{...}}\n</tool_call>
+    Detector for Qwen 2.5 and Qwen 3 model function call format.
+
+    Format Structure:
+    ```
+    <tool_call>\n{"name":"func1", "arguments":{...}}\n</tool_call>\n<tool_call>\n{"name":"func2", "arguments":{...}}\n</tool_call>
+    ```
+
+    Key Components:
+    - Tool Call Tags: `<tool_call>` and `</tool_call>` wrap each individual call
+    - Function Call Object: JSON object with "name" and "arguments" fields
+
+    Reference: https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct?chat_template=default
     """
 
     def __init__(self):
diff --git a/test/srt/test_function_call_parser.py b/test/srt/test_function_call_parser.py
index f9c36a9a2ed2..c2f63e7e4a0c 100644
--- a/test/srt/test_function_call_parser.py
+++ b/test/srt/test_function_call_parser.py
@@ -507,6 +507,7 @@ def setUp(self):
         self.llama32_detector = Llama32Detector()
         self.mistral_detector = MistralDetector()
         self.qwen25_detector = Qwen25Detector()
+        self.kimik2_detector = KimiK2Detector()
 
     def test_pythonic_detector_ebnf(self):
         """Test that the PythonicDetector generates valid EBNF."""
@@ -542,6 +543,33 @@ def test_deepseekv3_detector_ebnf(self):
         except RuntimeError as e:
             self.fail(f"Failed to compile EBNF: {e}")
 
+    def test_kimik2_detector_ebnf(self):
+        """Test that the KimiK2Detector generates valid EBNF."""
+        ebnf = self.kimik2_detector.build_ebnf(self.tools)
+        self.assertIsNotNone(ebnf)
+
+        # Check that the EBNF contains expected patterns for KimiK2 format
+        self.assertIn("<|tool_calls_section_begin|>", ebnf)
+        self.assertIn("<|tool_calls_section_end|>", ebnf)
+
+        # Check for KimiK2-specific function call structure
+        self.assertIn("<|tool_call_begin|>functions.get_weather:", ebnf)
+        self.assertIn("<|tool_call_begin|>functions.search:", ebnf)
+        self.assertIn("<|tool_call_argument_begin|>", ebnf)
+        self.assertIn("<|tool_call_end|>", ebnf)
+
+        # Check that it uses the correct namespace.function format with numeric index pattern
+        self.assertIn("functions.get_weather:", ebnf)
+        self.assertIn("functions.search:", ebnf)
+        self.assertIn("[0-9]+", ebnf)  # Numeric index pattern
+
+        # Validate that the EBNF can be compiled by GrammarCompiler
+        try:
+            ctx = self.grammar_compiler.compile_grammar(ebnf)
+            self.assertIsNotNone(ctx, "EBNF should be valid and compile successfully")
+        except RuntimeError as e:
+            self.fail(f"Failed to compile EBNF: {e}")
+
     def test_llama32_detector_ebnf(self):
         """Test that the Llama32Detector generates valid EBNF."""
         ebnf = self.llama32_detector.build_ebnf(self.tools)

From 624a3b8d1f105a1d9d730a709b73e23bd6f8b482 Mon Sep 17 00:00:00 2001
From: xianzhiT <xianzhitang@tencent.com>
Date: Thu, 24 Jul 2025 08:40:23 +0800
Subject: [PATCH 109/396] Fix incomplete tool call capture issue in streaming
 response of DeepSeek-V3 when enable MTP  (#7562)

---
 .../srt/function_call/deepseekv3_detector.py  |  2 +-
 test/srt/test_function_call_parser.py         | 89 +++++++++++++++++++
 2 files changed, 90 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/function_call/deepseekv3_detector.py b/python/sglang/srt/function_call/deepseekv3_detector.py
index 35e96c715295..afd0e3012703 100644
--- a/python/sglang/srt/function_call/deepseekv3_detector.py
+++ b/python/sglang/srt/function_call/deepseekv3_detector.py
@@ -113,7 +113,7 @@ def parse_streaming_increment(
         calls: list[ToolCallItem] = []
         try:
             partial_match = re.search(
-                pattern=r"<｜tool▁call▁begin｜>(.*)<｜tool▁sep｜>(.*)\n```json\n(.*)",
+                pattern=r"<｜tool▁call▁begin｜>(.*)<｜tool▁sep｜>(.*)\n```json\n(.*)\n```.*",
                 string=current_text,
                 flags=re.DOTALL,
             )
diff --git a/test/srt/test_function_call_parser.py b/test/srt/test_function_call_parser.py
index c2f63e7e4a0c..26dd24fbb71b 100644
--- a/test/srt/test_function_call_parser.py
+++ b/test/srt/test_function_call_parser.py
@@ -1375,5 +1375,94 @@ def test_partial_tool_call(self):
         self.assertEqual(tool_calls[0]["parameters"], '{"city": "Paris"')
 
 
+class TestDeepSeekV3Detector(unittest.TestCase):
+    def setUp(self):
+        """Set up test tools and detector for DeepSeekV3 format testing."""
+        self.tools = [
+            Tool(
+                type="function",
+                function=Function(
+                    name="get_weather",
+                    description="Get weather information",
+                    parameters={
+                        "type": "object",
+                        "properties": {
+                            "city": {
+                                "type": "string",
+                                "description": "City name",
+                            }
+                        },
+                        "required": ["city"],
+                    },
+                ),
+            ),
+            Tool(
+                type="function",
+                function=Function(
+                    name="get_tourist_attractions",
+                    description="Get tourist attractions",
+                    parameters={
+                        "type": "object",
+                        "properties": {
+                            "city": {
+                                "type": "string",
+                                "description": "City name",
+                            }
+                        },
+                        "required": ["city"],
+                    },
+                ),
+            ),
+        ]
+        self.detector = DeepSeekV3Detector()
+
+    def test_parse_streaming_multiple_tool_calls_with_multi_token_chunk(self):
+        """Test parsing multiple tool calls when streaming chunks contains multi-tokens (e.g. DeepSeekV3 enable MTP)"""
+        # Simulate streaming chunks with multi-tokens for two consecutive tool calls
+        chunks = [
+            "<｜tool▁calls▁begin｜>",
+            "<｜tool▁call▁begin｜>function",
+            "<｜tool▁sep｜>get",
+            "_weather\n",
+            "```json\n",
+            '{"city":',
+            '"Shanghai',
+            '"}\n```<｜tool▁call▁end｜>',
+            "\n<｜tool▁call▁begin｜>",
+            "function<｜tool▁sep｜>",
+            "get_tour",
+            "ist_att",
+            "ractions\n```" 'json\n{"',
+            'city": "',
+            'Beijing"}\n',
+            "```<｜tool▁call▁end｜>",
+            "<｜tool▁calls▁end｜>",
+        ]
+
+        tool_calls_seen = []
+        tool_calls_parameters = []
+
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, self.tools)
+            if result.calls:
+                for call in result.calls:
+                    if call.name:
+                        tool_calls_seen.append(call.name)
+                    if call.parameters:
+                        tool_calls_parameters.append(call.parameters)
+
+        # Should see both tool names
+        self.assertIn("get_weather", tool_calls_seen, "Should process first tool")
+        self.assertIn(
+            "get_tourist_attractions", tool_calls_seen, "Should process second tool"
+        )
+
+        # Verify that the parameters are valid JSON and contain the expected content
+        params1 = json.loads(tool_calls_parameters[0])
+        params2 = json.loads(tool_calls_parameters[1])
+        self.assertEqual(params1["city"], "Shanghai")
+        self.assertEqual(params2["city"], "Beijing")
+
+
 if __name__ == "__main__":
     unittest.main()

From 0e5fa67773535d8916cf436fc3d1f689d7195b2f Mon Sep 17 00:00:00 2001
From: michael-amd <Michael.Zhang@amd.com>
Date: Wed, 23 Jul 2025 17:56:14 -0700
Subject: [PATCH 110/396] [AMD] Pull latest image for AMD CI (#8070)

---
 scripts/amd_ci_start_container.sh | 112 +++++++++++++++++++++++++++++-
 1 file changed, 109 insertions(+), 3 deletions(-)

diff --git a/scripts/amd_ci_start_container.sh b/scripts/amd_ci_start_container.sh
index a6a527380d4f..239fd3770c26 100755
--- a/scripts/amd_ci_start_container.sh
+++ b/scripts/amd_ci_start_container.sh
@@ -1,6 +1,38 @@
 #!/bin/bash
 set -euo pipefail
 
+# Default base tags (can be overridden by command line arguments)
+DEFAULT_MI30X_BASE_TAG="v0.4.9.post2-rocm630-mi30x"
+DEFAULT_MI35X_BASE_TAG="v0.4.9.post2-rocm700-mi35x"
+
+# Parse command line arguments
+MI30X_BASE_TAG="$DEFAULT_MI30X_BASE_TAG"
+MI35X_BASE_TAG="$DEFAULT_MI35X_BASE_TAG"
+
+while [[ $# -gt 0 ]]; do
+  case $1 in
+    --mi30x-base-tag)
+      MI30X_BASE_TAG="$2"
+      shift 2
+      ;;
+    --mi35x-base-tag)
+      MI35X_BASE_TAG="$2"
+      shift 2
+      ;;
+    -h|--help)
+      echo "Usage: $0 [--mi30x-base-tag TAG] [--mi35x-base-tag TAG]"
+      echo "  --mi30x-base-tag TAG    Base tag for mi30x images (default: $DEFAULT_MI30X_BASE_TAG)"
+      echo "  --mi35x-base-tag TAG    Base tag for mi35x images (default: $DEFAULT_MI35X_BASE_TAG)"
+      exit 0
+      ;;
+    *)
+      echo "Unknown option $1"
+      echo "Use --help for usage information"
+      exit 1
+      ;;
+  esac
+done
+
 # Set up DEVICE_FLAG based on Kubernetes pod info
 if [ -f "/etc/podinfo/gha-render-devices" ]; then
   DEVICE_FLAG=$(cat /etc/podinfo/gha-render-devices)
@@ -8,9 +40,83 @@ else
   DEVICE_FLAG="--device /dev/dri"
 fi
 
-# Pull the image
-IMAGE="rocm/sgl-dev:v0.4.9.post2-rocm630-mi30x-20250715"
-echo "Pulling Docker image: $IMAGE"
+# Function to find latest available image for a given GPU architecture
+find_latest_image() {
+  local gpu_arch=$1
+  local base_tag
+
+  if [ "$gpu_arch" == "mi30x" ]; then
+    base_tag="$MI30X_BASE_TAG"
+  elif [ "$gpu_arch" == "mi35x" ]; then
+    base_tag="$MI35X_BASE_TAG"
+  else
+    echo "Error: Unsupported GPU architecture '$gpu_arch'" >&2
+    return 1
+  fi
+
+  local days_back=0
+
+  while [ $days_back -lt 30 ]; do
+    local check_date=$(date -d "$days_back days ago" +%Y%m%d)
+    local image_tag="${base_tag}-${check_date}"
+
+    echo "Checking for image: rocm/sgl-dev:${image_tag}" >&2
+
+    # Check if the image exists by trying to get its manifest
+    if docker manifest inspect "rocm/sgl-dev:${image_tag}" >/dev/null 2>&1; then
+      echo "Found available image: rocm/sgl-dev:${image_tag}" >&2
+      echo "rocm/sgl-dev:${image_tag}"
+      return 0
+    fi
+
+    days_back=$((days_back + 1))
+  done
+
+  echo "Error: No ${gpu_arch} image found in the last 30 days" >&2
+  return 1
+}
+
+# Determine image finder and fallback based on runner
+# In Kubernetes, the hostname contains the GPU type (e.g., linux-mi300-gpu-1-bgg8r-runner-vknlb)
+# Extract the GPU type from hostname
+HOSTNAME_VALUE=$(hostname)
+RUNNER_NAME="unknown"
+
+if [[ "${HOSTNAME_VALUE}" =~ ^(linux-mi[0-9]+-gpu-[0-9]+) ]]; then
+  RUNNER_NAME="${BASH_REMATCH[1]}"
+  echo "Extracted runner from hostname: ${RUNNER_NAME}"
+else
+  echo "Could not extract runner info from hostname: ${HOSTNAME_VALUE}"
+fi
+
+echo "The runner is: ${RUNNER_NAME}"
+GPU_ARCH="mi30x"
+FALLBACK_IMAGE="rocm/sgl-dev:${MI30X_BASE_TAG}-20250715"
+FALLBACK_MSG="No mi30x image found in last 30 days, using fallback image"
+
+# Check for mi350/mi355 runners
+if [[ "${RUNNER_NAME}" =~ ^linux-mi350-gpu-[0-9]+$ ]] || [[ "${RUNNER_NAME}" =~ ^linux-mi355-gpu-[0-9]+$ ]]; then
+  echo "Runner is ${RUNNER_NAME}, will find mi35x image."
+  GPU_ARCH="mi35x"
+  FALLBACK_IMAGE="rocm/sgl-dev:${MI35X_BASE_TAG}-20250715"
+  FALLBACK_MSG="No mi35x image found in last 30 days, using fallback image"
+# Check for mi300/mi325 runners
+elif [[ "${RUNNER_NAME}" =~ ^linux-mi300-gpu-[0-9]+$ ]] || [[ "${RUNNER_NAME}" =~ ^linux-mi325-gpu-[0-9]+$ ]]; then
+  echo "Runner is ${RUNNER_NAME}, will find mi30x image."
+else
+  echo "Runner type not recognized: '${RUNNER_NAME}'"
+  echo "Defaulting to find mi30x image"
+fi
+
+# Find and pull the latest image
+IMAGE=$(find_latest_image "${GPU_ARCH}")
+if [ $? -eq 0 ]; then
+  echo "Pulling Docker image: $IMAGE"
+else
+  echo "$FALLBACK_MSG" >&2
+  IMAGE="$FALLBACK_IMAGE"
+  echo "Pulling fallback Docker image: $IMAGE"
+fi
 docker pull "$IMAGE"
 
 # Run the container

From f7e102d56af50317b003fa3d3e86fcf4fe53d0d8 Mon Sep 17 00:00:00 2001
From: Haohui Mai <ricetons@gmail.com>
Date: Wed, 23 Jul 2025 17:57:20 -0700
Subject: [PATCH 111/396] Pin the version of petit kernel to fix the APIs
 (#8235)

---
 python/pyproject.toml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 64915df6b590..1cf32215d9ef 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -79,7 +79,7 @@ blackwell = [
 srt_hip = [
     "sglang[runtime_common]",
     "torch",
-    "petit_kernel",
+    "petit_kernel==0.0.2",
 ]
 
 # xpu is not enabled in public vllm and torch whl,

From 5dd0f870ab4f5b8d35efab7acca500c13c3b8419 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 23 Jul 2025 23:18:17 -0700
Subject: [PATCH 112/396] [bug] fix pd completion protocol for batching support
 (#8317)

---
 python/sglang/srt/entrypoints/openai/protocol.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/entrypoints/openai/protocol.py b/python/sglang/srt/entrypoints/openai/protocol.py
index 7d065b5aaa0d..9c73e5fad19d 100644
--- a/python/sglang/srt/entrypoints/openai/protocol.py
+++ b/python/sglang/srt/entrypoints/openai/protocol.py
@@ -192,9 +192,9 @@ class CompletionRequest(BaseModel):
     session_params: Optional[Dict] = None
 
     # For PD disaggregation
-    bootstrap_host: Optional[str] = None
-    bootstrap_port: Optional[int] = None
-    bootstrap_room: Optional[int] = None
+    bootstrap_host: Optional[Union[List[str], str]] = None
+    bootstrap_port: Optional[Union[List[Optional[int]], int]] = None
+    bootstrap_room: Optional[Union[List[int], int]] = None
 
     # For request id
     rid: Optional[Union[List[str], str]] = None

From f6e07f27969c6b55bd5b27316b0c9760ce221c6e Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 23 Jul 2025 23:18:29 -0700
Subject: [PATCH 113/396] [router] fix pd model completion request (#8303)

---
 sgl-router/benches/request_processing.rs  |   1 +
 sgl-router/src/openai_api_types.rs        |   4 +
 sgl-router/src/routers/pd_router.rs       |  90 +++++++--
 sgl-router/src/routers/pd_types.rs        | 233 ++++++++++++++++++++++
 sgl-router/src/routers/request_adapter.rs |   5 +
 sgl-router/tests/benchmark_integration.rs |   2 +
 6 files changed, 320 insertions(+), 15 deletions(-)

diff --git a/sgl-router/benches/request_processing.rs b/sgl-router/benches/request_processing.rs
index 576d07d2f79c..db5cdc901154 100644
--- a/sgl-router/benches/request_processing.rs
+++ b/sgl-router/benches/request_processing.rs
@@ -97,6 +97,7 @@ fn create_sample_completion_request() -> CompletionRequest {
         logit_bias: None,
         user: None,
         seed: None,
+        other: serde_json::Map::new(),
     }
 }
 
diff --git a/sgl-router/src/openai_api_types.rs b/sgl-router/src/openai_api_types.rs
index 9870fd06b8f0..d57e617675c9 100644
--- a/sgl-router/src/openai_api_types.rs
+++ b/sgl-router/src/openai_api_types.rs
@@ -91,6 +91,10 @@ pub struct CompletionRequest {
     /// If specified, our system will make a best effort to sample deterministically
     #[serde(skip_serializing_if = "Option::is_none")]
     pub seed: Option<i64>,
+
+    /// Additional fields including bootstrap info for PD routing
+    #[serde(flatten)]
+    pub other: serde_json::Map<String, serde_json::Value>,
 }
 
 impl GenerationRequest for CompletionRequest {
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index 7c70a3873fc3..ab9927d244d6 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -420,6 +420,77 @@ impl PDRouter {
         .await
     }
 
+    // Route a completion request while preserving OpenAI format
+    pub async fn route_completion(
+        &self,
+        client: &reqwest::Client,
+        req: &HttpRequest,
+        mut typed_req: CompletionRequest,
+        route: &str,
+    ) -> HttpResponse {
+        let start = Instant::now();
+
+        // Get stream flag and return_logprob flag before moving the request
+        let is_stream = typed_req.stream;
+        let return_logprob = typed_req.logprobs.is_some();
+
+        // Extract text for cache-aware routing from the typed request
+        let request_text = match &typed_req.prompt {
+            crate::openai_api_types::StringOrArray::String(s) => Some(s.as_str()),
+            crate::openai_api_types::StringOrArray::Array(arr) => arr.first().map(|s| s.as_str()),
+        };
+
+        // Select servers
+        let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
+            Ok(pair) => pair,
+            Err(e) => {
+                error!("Failed to select PD pair: {}", e);
+                RouterMetrics::record_pd_error("server_selection");
+                return HttpResponse::ServiceUnavailable()
+                    .body(format!("No available servers: {}", e));
+            }
+        };
+
+        // Log routing decision
+        info!(
+            "PD routing: {} -> prefill={}, decode={}",
+            route,
+            prefill.url(),
+            decode.url()
+        );
+
+        // Add bootstrap info using the trait method
+        if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
+            error!("Failed to add bootstrap info: {}", e);
+            RouterMetrics::record_pd_error("bootstrap_injection");
+            return HttpResponse::InternalServerError()
+                .body(format!("Bootstrap injection failed: {}", e));
+        }
+
+        // Convert to JSON after bootstrap injection
+        let json_with_bootstrap = match serde_json::to_value(&typed_req) {
+            Ok(json) => json,
+            Err(e) => {
+                error!("Failed to serialize request: {}", e);
+                return HttpResponse::InternalServerError().body("Failed to serialize request");
+            }
+        };
+
+        // Execute dual dispatch
+        self.execute_dual_dispatch(
+            client,
+            req,
+            json_with_bootstrap,
+            route,
+            prefill.as_ref(),
+            decode.as_ref(),
+            is_stream,
+            return_logprob,
+            start,
+        )
+        .await
+    }
+
     // Execute the dual dispatch to prefill and decode servers
     #[allow(clippy::too_many_arguments)]
     async fn execute_dual_dispatch(
@@ -1302,23 +1373,12 @@ impl RouterTrait for PDRouter {
         req: &HttpRequest,
         body: serde_json::Value,
     ) -> HttpResponse {
-        match serde_json::from_value::<CompletionRequest>(body.clone()) {
+        match serde_json::from_value::<CompletionRequest>(body) {
             Ok(openai_req) => {
-                // Convert OpenAI format to PD format (CompletionRequest -> GenerateReqInput)
-                let pd_req = openai_req.to_pd_request();
-                PDRouter::route_generate(self, client, req, pd_req, "/v1/completions").await
-            }
-            Err(_) => {
-                // If that fails, try to deserialize directly as PD format (for backwards compatibility)
-                match serde_json::from_value::<GenerateReqInput>(body) {
-                    Ok(pd_req) => {
-                        PDRouter::route_generate(self, client, req, pd_req, "/v1/completions").await
-                    }
-                    Err(e) => {
-                        HttpResponse::BadRequest().body(format!("Invalid request format: {}", e))
-                    }
-                }
+                // Use the new method that preserves OpenAI format
+                PDRouter::route_completion(self, client, req, openai_req, "/v1/completions").await
             }
+            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request format: {}", e)),
         }
     }
 
diff --git a/sgl-router/src/routers/pd_types.rs b/sgl-router/src/routers/pd_types.rs
index e83ab5b60f5b..993f2bf3d622 100644
--- a/sgl-router/src/routers/pd_types.rs
+++ b/sgl-router/src/routers/pd_types.rs
@@ -1,6 +1,7 @@
 // Essential PDLB types extracted for PD routing
 
 use crate::core::{Worker, WorkerType};
+use crate::openai_api_types::{CompletionRequest, StringOrArray};
 use serde::{Deserialize, Serialize};
 use serde_json::Value;
 
@@ -233,3 +234,235 @@ impl Bootstrap for ChatReqInput {
         self.bootstrap_room = Some(bootstrap_room);
     }
 }
+
+// Bootstrap implementation for CompletionRequest to preserve OpenAI format
+impl Bootstrap for CompletionRequest {
+    fn is_stream(&self) -> bool {
+        self.stream
+    }
+
+    fn get_batch_size(&self) -> Result<Option<usize>, String> {
+        if let StringOrArray::Array(prompts) = &self.prompt {
+            if prompts.is_empty() {
+                return Err("Batch prompt array is empty".to_string());
+            }
+            return Ok(Some(prompts.len()));
+        }
+
+        // Single string prompt
+        Ok(None)
+    }
+
+    fn set_bootstrap_info(
+        &mut self,
+        bootstrap_host: BootstrapHost,
+        bootstrap_port: BootstrapPort,
+        bootstrap_room: BootstrapRoom,
+    ) {
+        // Insert bootstrap_host - it serializes correctly whether Single or Batch
+        if let Ok(host_value) = serde_json::to_value(&bootstrap_host) {
+            self.other.insert("bootstrap_host".to_string(), host_value);
+        }
+
+        // Insert bootstrap_port - it serializes correctly whether Single or Batch
+        if let Ok(port_value) = serde_json::to_value(&bootstrap_port) {
+            self.other.insert("bootstrap_port".to_string(), port_value);
+        }
+
+        // Insert bootstrap_room - it serializes correctly whether Single or Batch
+        if let Ok(room_value) = serde_json::to_value(&bootstrap_room) {
+            self.other.insert("bootstrap_room".to_string(), room_value);
+        }
+    }
+}
+
+#[cfg(test)]
+mod bootstrap_tests {
+    use super::*;
+    use crate::openai_api_types::StringOrArray;
+
+    #[test]
+    fn test_completion_batch_size_with_array_prompt() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
+            n: None,
+            other: serde_json::Map::new(),
+            suffix: None,
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+        };
+
+        // Should return batch size for array prompt
+        assert_eq!(req.get_batch_size().unwrap(), Some(2));
+    }
+
+    #[test]
+    fn test_completion_batch_size_with_single_prompt() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::String("single prompt".to_string()),
+            n: None,
+            other: serde_json::Map::new(),
+            suffix: None,
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+        };
+
+        // Should return None for single prompt
+        assert_eq!(req.get_batch_size().unwrap(), None);
+    }
+
+    #[test]
+    fn test_completion_batch_size_with_n_parameter() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::String("single prompt".to_string()),
+            n: Some(3),
+            other: serde_json::Map::new(),
+            suffix: None,
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+        };
+
+        // Should return None for single string prompt, even with n > 1
+        // SGLang handles n parameter differently than batch requests
+        assert_eq!(req.get_batch_size().unwrap(), None);
+    }
+
+    #[test]
+    fn test_completion_bootstrap_single_values() {
+        let mut req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
+            n: None,
+            other: serde_json::Map::new(),
+            suffix: None,
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+        };
+
+        // Set bootstrap info - should always use single values
+        req.set_bootstrap_info(
+            BootstrapHost::Single("test-server".to_string()),
+            BootstrapPort::Single(Some(5678)),
+            BootstrapRoom::Single(12345),
+        );
+
+        // Verify single values were created
+        assert!(req.other.get("bootstrap_host").unwrap().is_string());
+        assert!(req.other.get("bootstrap_port").unwrap().is_number());
+        assert!(req.other.get("bootstrap_room").unwrap().is_number());
+
+        assert_eq!(
+            req.other.get("bootstrap_host").unwrap().as_str().unwrap(),
+            "test-server"
+        );
+        assert_eq!(
+            req.other.get("bootstrap_port").unwrap().as_u64().unwrap(),
+            5678
+        );
+        assert_eq!(
+            req.other.get("bootstrap_room").unwrap().as_u64().unwrap(),
+            12345
+        );
+    }
+
+    #[test]
+    fn test_completion_bootstrap_array_values() {
+        let mut req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
+            n: None,
+            other: serde_json::Map::new(),
+            suffix: None,
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+        };
+
+        // Set bootstrap info with arrays
+        req.set_bootstrap_info(
+            BootstrapHost::Batch(vec!["test-server".to_string(); 2]),
+            BootstrapPort::Batch(vec![Some(5678); 2]),
+            BootstrapRoom::Batch(vec![12345, 67890]),
+        );
+
+        // Verify arrays were created correctly
+        assert!(req.other.get("bootstrap_host").unwrap().is_array());
+        assert!(req.other.get("bootstrap_port").unwrap().is_array());
+        assert!(req.other.get("bootstrap_room").unwrap().is_array());
+
+        let hosts = req.other.get("bootstrap_host").unwrap().as_array().unwrap();
+        assert_eq!(hosts.len(), 2);
+        assert_eq!(hosts[0].as_str().unwrap(), "test-server");
+
+        let ports = req.other.get("bootstrap_port").unwrap().as_array().unwrap();
+        assert_eq!(ports.len(), 2);
+        assert_eq!(ports[0].as_u64().unwrap(), 5678);
+
+        let rooms = req.other.get("bootstrap_room").unwrap().as_array().unwrap();
+        assert_eq!(rooms.len(), 2);
+        assert_eq!(rooms[0].as_u64().unwrap(), 12345);
+        assert_eq!(rooms[1].as_u64().unwrap(), 67890);
+    }
+}
diff --git a/sgl-router/src/routers/request_adapter.rs b/sgl-router/src/routers/request_adapter.rs
index 201c61aa55c8..f29bcecc9ea6 100644
--- a/sgl-router/src/routers/request_adapter.rs
+++ b/sgl-router/src/routers/request_adapter.rs
@@ -648,6 +648,7 @@ mod tests {
             user: None,
             seed: None,
             suffix: None,
+            other: serde_json::Map::new(),
         };
 
         let pd_req = req.to_pd_request();
@@ -687,6 +688,7 @@ mod tests {
             user: None,
             seed: None,
             suffix: None,
+            other: serde_json::Map::new(),
         };
 
         let pd_req = req.to_pd_request();
@@ -725,6 +727,7 @@ mod tests {
             user: Some("user123".to_string()),
             seed: Some(42),
             suffix: Some("...".to_string()),
+            other: serde_json::Map::new(),
         };
 
         let pd_req = req.to_pd_request();
@@ -768,6 +771,7 @@ mod tests {
             user: None,
             seed: None,
             suffix: None,
+            other: serde_json::Map::new(),
         };
 
         let pd_req = req.to_pd_request();
@@ -799,6 +803,7 @@ mod tests {
             user: None,
             seed: None,
             suffix: None,
+            other: serde_json::Map::new(),
         };
 
         let pd_req = req.to_pd_request();
diff --git a/sgl-router/tests/benchmark_integration.rs b/sgl-router/tests/benchmark_integration.rs
index 31785900011f..b7876e22398b 100644
--- a/sgl-router/tests/benchmark_integration.rs
+++ b/sgl-router/tests/benchmark_integration.rs
@@ -86,6 +86,7 @@ fn test_benchmark_request_creation() {
         logit_bias: None,
         user: None,
         seed: None,
+        other: serde_json::Map::new(),
     };
 
     // Test serialization works
@@ -181,6 +182,7 @@ fn test_benchmark_request_adaptation() {
         logit_bias: None,
         user: None,
         seed: None,
+        other: serde_json::Map::new(),
     };
 
     // Test PD adaptation (should not panic)

From bfb118c01e38fb7865742dcd9cf9075270283e9e Mon Sep 17 00:00:00 2001
From: Minho Ryu <ryumin93@gmail.com>
Date: Thu, 24 Jul 2025 15:18:47 +0900
Subject: [PATCH 114/396] fix bug when eos_ids==0 (#8315)

---
 python/sglang/srt/configs/model_config.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index 84c96d91df0b..cea455a24ed4 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -475,7 +475,7 @@ def _verify_quantization(self) -> None:
 
     def get_hf_eos_token_id(self) -> Optional[Set[int]]:
         eos_ids = getattr(self.hf_config, "eos_token_id", None)
-        if eos_ids:
+        if eos_ids is not None:
             # it can be either int or list of int
             eos_ids = {eos_ids} if isinstance(eos_ids, int) else set(eos_ids)
         if eos_ids is None:

From 2f86f3ad62c175ff3f41e87fef6431cfb97a8083 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 23 Jul 2025 23:26:44 -0700
Subject: [PATCH 115/396] [router] add endpoint unit test (#8298)

---
 sgl-router/tests/api_endpoints_test.rs | 1309 ++++++++++++++++++++++++
 sgl-router/tests/common/mock_worker.rs |   72 +-
 2 files changed, 1374 insertions(+), 7 deletions(-)
 create mode 100644 sgl-router/tests/api_endpoints_test.rs

diff --git a/sgl-router/tests/api_endpoints_test.rs b/sgl-router/tests/api_endpoints_test.rs
new file mode 100644
index 000000000000..12e8dd2d2b88
--- /dev/null
+++ b/sgl-router/tests/api_endpoints_test.rs
@@ -0,0 +1,1309 @@
+mod common;
+
+use actix_web::{http::StatusCode, rt::System, test as actix_test, web, App};
+use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
+use reqwest::Client;
+use serde_json::json;
+use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::server::{
+    add_worker, flush_cache, generate, get_loads, get_model_info, get_server_info, health,
+    health_generate, list_workers, liveness, readiness, remove_worker, v1_chat_completions,
+    v1_completions, v1_models, AppState,
+};
+
+/// Test context that manages mock workers
+struct TestContext {
+    workers: Vec<MockWorker>,
+    app_state: web::Data<AppState>,
+}
+
+impl TestContext {
+    async fn new(worker_configs: Vec<MockWorkerConfig>) -> Self {
+        // Create default router config
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![],
+            },
+            policy: PolicyConfig::Random,
+            host: "127.0.0.1".to_string(),
+            port: 3002,
+            max_payload_size: 256 * 1024 * 1024,
+            request_timeout_secs: 600,
+            worker_startup_timeout_secs: 1,
+            worker_startup_check_interval_secs: 1,
+            discovery: None,
+            metrics: None,
+            log_dir: None,
+            log_level: None,
+        };
+
+        Self::new_with_config(config, worker_configs).await
+    }
+
+    async fn new_with_config(config: RouterConfig, worker_configs: Vec<MockWorkerConfig>) -> Self {
+        let mut workers = Vec::new();
+        let mut worker_urls = Vec::new();
+
+        // Start mock workers if any
+        for worker_config in worker_configs {
+            let mut worker = MockWorker::new(worker_config);
+            let url = worker.start().await.unwrap();
+            worker_urls.push(url);
+            workers.push(worker);
+        }
+
+        if !workers.is_empty() {
+            tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
+        }
+
+        let client = Client::builder()
+            .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
+            .build()
+            .unwrap();
+
+        let app_state = AppState::new(config, client).unwrap();
+        let app_state = web::Data::new(app_state);
+
+        // Add workers if any
+        if !worker_urls.is_empty() {
+            let app = actix_test::init_service(
+                App::new().app_data(app_state.clone()).service(add_worker),
+            )
+            .await;
+
+            for url in &worker_urls {
+                let req = actix_test::TestRequest::post()
+                    .uri(&format!("/add_worker?url={}", url))
+                    .to_request();
+                let resp = actix_test::call_service(&app, req).await;
+                assert!(resp.status().is_success());
+            }
+
+            tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
+        }
+
+        Self { workers, app_state }
+    }
+
+    async fn create_app(
+        &self,
+    ) -> impl actix_web::dev::Service<
+        actix_http::Request,
+        Response = actix_web::dev::ServiceResponse,
+        Error = actix_web::Error,
+    > {
+        actix_test::init_service(
+            App::new()
+                .app_data(self.app_state.clone())
+                .service(liveness)
+                .service(readiness)
+                .service(health)
+                .service(health_generate)
+                .service(get_server_info)
+                .service(get_model_info)
+                .service(v1_models)
+                .service(generate)
+                .service(v1_chat_completions)
+                .service(v1_completions)
+                .service(add_worker)
+                .service(list_workers)
+                .service(remove_worker)
+                .service(flush_cache)
+                .service(get_loads),
+        )
+        .await
+    }
+
+    async fn shutdown(mut self) {
+        for worker in &mut self.workers {
+            worker.stop().await;
+        }
+    }
+}
+
+#[cfg(test)]
+mod health_tests {
+    use super::*;
+
+    #[test]
+    fn test_liveness_endpoint() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![]).await;
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get().uri("/liveness").to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_readiness_with_healthy_workers() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18001,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/readiness")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_readiness_with_unhealthy_workers() {
+        System::new().block_on(async {
+            // Create an empty context (no workers)
+            let ctx = TestContext::new(vec![]).await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/readiness")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // With no workers, readiness should return SERVICE_UNAVAILABLE
+            assert_eq!(resp.status(), StatusCode::SERVICE_UNAVAILABLE);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_health_endpoint_details() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![
+                MockWorkerConfig {
+                    port: 18003,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+                MockWorkerConfig {
+                    port: 18004,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+            ])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get().uri("/health").to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // The health endpoint returns plain text, not JSON
+            let body = actix_test::read_body(resp).await;
+            let body_str = String::from_utf8_lossy(&body);
+            assert!(body_str.contains("All servers healthy"));
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_health_generate_endpoint() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18005,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/health_generate")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.is_object());
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod generation_tests {
+    use super::*;
+
+    #[test]
+    fn test_generate_success() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18101,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Hello, world!",
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.get("text").is_some());
+            assert!(body.get("meta_info").is_some());
+            let meta_info = &body["meta_info"];
+            assert!(meta_info.get("finish_reason").is_some());
+            assert_eq!(meta_info["finish_reason"]["type"], "stop");
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_generate_streaming() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18102,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Stream test",
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // Check that it's a streaming response
+            let content_type = resp.headers().get("content-type");
+            assert!(content_type.is_some());
+            assert_eq!(content_type.unwrap(), "text/event-stream");
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_generate_with_worker_failure() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18103,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 1.0, // Always fail
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "This should fail",
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::INTERNAL_SERVER_ERROR);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_v1_chat_completions_success() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18104,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "messages": [
+                    {"role": "user", "content": "Hello!"}
+                ],
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/chat/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.get("choices").is_some());
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod model_info_tests {
+    use super::*;
+
+    #[test]
+    fn test_get_server_info() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18201,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/get_server_info")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.is_object());
+            // Check for actual sglang server fields
+            assert!(body.get("version").is_some());
+            assert!(body.get("model_path").is_some());
+            assert!(body.get("tokenizer_path").is_some());
+            assert!(body.get("port").is_some());
+            assert!(body.get("max_num_batched_tokens").is_some());
+            assert!(body.get("schedule_policy").is_some());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_get_model_info() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18202,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/get_model_info")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.is_object());
+            // Check for actual sglang model info fields
+            assert_eq!(
+                body.get("model_path").and_then(|v| v.as_str()),
+                Some("mock-model-path")
+            );
+            assert_eq!(
+                body.get("tokenizer_path").and_then(|v| v.as_str()),
+                Some("mock-tokenizer-path")
+            );
+            assert_eq!(
+                body.get("is_generation").and_then(|v| v.as_bool()),
+                Some(true)
+            );
+            assert!(body.get("preferred_sampling_params").is_some());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_v1_models() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18203,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/v1/models")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.get("object").is_some());
+            assert_eq!(body.get("object").and_then(|v| v.as_str()), Some("list"));
+
+            let data = body.get("data").and_then(|v| v.as_array());
+            assert!(data.is_some());
+
+            let models = data.unwrap();
+            assert!(!models.is_empty());
+
+            let first_model = &models[0];
+            assert_eq!(
+                first_model.get("id").and_then(|v| v.as_str()),
+                Some("mock-model-v1")
+            );
+            assert_eq!(
+                first_model.get("object").and_then(|v| v.as_str()),
+                Some("model")
+            );
+            assert!(first_model.get("created").is_some());
+            assert_eq!(
+                first_model.get("owned_by").and_then(|v| v.as_str()),
+                Some("sglang")
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_model_info_with_no_workers() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![]).await;
+            let app = ctx.create_app().await;
+
+            // Test server info with no workers
+            let req = actix_test::TestRequest::get()
+                .uri("/get_server_info")
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            // Router may return various error codes when no workers
+            assert!(
+                resp.status() == StatusCode::OK
+                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+                    || resp.status() == StatusCode::NOT_FOUND
+                    || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
+                "Unexpected status code: {:?}",
+                resp.status()
+            );
+
+            // Test model info with no workers
+            let req = actix_test::TestRequest::get()
+                .uri("/get_model_info")
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            // Router may return various error codes when no workers
+            assert!(
+                resp.status() == StatusCode::OK
+                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+                    || resp.status() == StatusCode::NOT_FOUND
+                    || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
+                "Unexpected status code: {:?}",
+                resp.status()
+            );
+
+            // Test v1/models with no workers
+            let req = actix_test::TestRequest::get()
+                .uri("/v1/models")
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            // Router may return various error codes when no workers
+            assert!(
+                resp.status() == StatusCode::OK
+                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+                    || resp.status() == StatusCode::NOT_FOUND
+                    || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
+                "Unexpected status code: {:?}",
+                resp.status()
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_model_info_with_multiple_workers() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![
+                MockWorkerConfig {
+                    port: 18204,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+                MockWorkerConfig {
+                    port: 18205,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+            ])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Test that model info is consistent across workers
+            for _ in 0..5 {
+                let req = actix_test::TestRequest::get()
+                    .uri("/get_model_info")
+                    .to_request();
+
+                let resp = actix_test::call_service(&app, req).await;
+                assert_eq!(resp.status(), StatusCode::OK);
+
+                let body: serde_json::Value = actix_test::read_body_json(resp).await;
+                assert_eq!(
+                    body.get("model_path").and_then(|v| v.as_str()),
+                    Some("mock-model-path")
+                );
+            }
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_model_info_with_unhealthy_worker() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18206,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 1.0, // Always fail
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/get_model_info")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Worker with fail_rate: 1.0 should always return an error status
+            assert!(
+                resp.status() == StatusCode::INTERNAL_SERVER_ERROR
+                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE,
+                "Expected error status for always-failing worker, got: {:?}",
+                resp.status()
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod worker_management_tests {
+    use super::*;
+
+    #[test]
+    fn test_add_new_worker() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![]).await;
+            let app = ctx.create_app().await;
+
+            // Start a mock worker
+            let mut worker = MockWorker::new(MockWorkerConfig {
+                port: 18301,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            });
+            let url = worker.start().await.unwrap();
+
+            // Add the worker
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/add_worker?url={}", url))
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // List workers to verify
+            let req = actix_test::TestRequest::get()
+                .uri("/list_workers")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            let workers = body["urls"].as_array().unwrap();
+            assert!(workers.iter().any(|w| w.as_str().unwrap() == url));
+
+            worker.stop().await;
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_remove_existing_worker() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18302,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Get the worker URL
+            let req = actix_test::TestRequest::get()
+                .uri("/list_workers")
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            let workers = body["urls"].as_array().unwrap();
+            let worker_url = workers[0].as_str().unwrap();
+
+            // Remove the worker
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/remove_worker?url={}", worker_url))
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // Verify it's removed
+            let req = actix_test::TestRequest::get()
+                .uri("/list_workers")
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            let workers = body["urls"].as_array().unwrap();
+            assert!(workers.is_empty());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_add_worker_invalid_url() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![]).await;
+            let app = ctx.create_app().await;
+
+            // Invalid URL format
+            let req = actix_test::TestRequest::post()
+                .uri("/add_worker?url=not-a-valid-url")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+
+            // Missing URL parameter
+            let req = actix_test::TestRequest::post()
+                .uri("/add_worker")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+
+            // Empty URL
+            let req = actix_test::TestRequest::post()
+                .uri("/add_worker?url=")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_add_duplicate_worker() {
+        System::new().block_on(async {
+            // Start a mock worker
+            let mut worker = MockWorker::new(MockWorkerConfig {
+                port: 18303,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            });
+            let url = worker.start().await.unwrap();
+
+            let ctx = TestContext::new(vec![]).await;
+            let app = ctx.create_app().await;
+
+            // Add worker first time
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/add_worker?url={}", url))
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
+
+            // Try to add same worker again
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/add_worker?url={}", url))
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            // Should return error for duplicate
+            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+
+            worker.stop().await;
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_add_unhealthy_worker() {
+        System::new().block_on(async {
+            // Start unhealthy worker
+            let mut worker = MockWorker::new(MockWorkerConfig {
+                port: 18304,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Unhealthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            });
+            let url = worker.start().await.unwrap();
+
+            let ctx = TestContext::new(vec![]).await;
+            let app = ctx.create_app().await;
+
+            // Try to add unhealthy worker
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/add_worker?url={}", url))
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+
+            // Router should reject unhealthy workers
+            assert!(
+                resp.status() == StatusCode::BAD_REQUEST
+                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+            );
+
+            worker.stop().await;
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod error_tests {
+    use super::*;
+
+    #[test]
+    fn test_404_not_found() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18401,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Test unknown endpoint
+            let req = actix_test::TestRequest::get()
+                .uri("/unknown_endpoint")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::NOT_FOUND);
+
+            // Test POST to unknown endpoint
+            let req = actix_test::TestRequest::post()
+                .uri("/api/v2/generate")
+                .set_json(&json!({"text": "test"}))
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::NOT_FOUND);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_method_not_allowed() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18402,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // GET request to POST-only endpoint
+            let req = actix_test::TestRequest::get().uri("/generate").to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Note: actix-web returns 404 for unmatched methods in some configurations
+            assert!(
+                resp.status() == StatusCode::METHOD_NOT_ALLOWED
+                    || resp.status() == StatusCode::NOT_FOUND
+            );
+
+            // POST request to GET-only endpoint
+            let req = actix_test::TestRequest::post()
+                .uri("/health")
+                .set_json(&json!({}))
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Note: actix-web returns 404 for unmatched methods in some configurations
+            assert!(
+                resp.status() == StatusCode::METHOD_NOT_ALLOWED
+                    || resp.status() == StatusCode::NOT_FOUND
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_payload_too_large() {
+        System::new().block_on(async {
+            // Create context with small payload limit
+            let config = RouterConfig {
+                mode: RoutingMode::Regular {
+                    worker_urls: vec![],
+                },
+                policy: PolicyConfig::Random,
+                host: "127.0.0.1".to_string(),
+                port: 3010,
+                max_payload_size: 1024, // 1KB limit
+                request_timeout_secs: 600,
+                worker_startup_timeout_secs: 1,
+                worker_startup_check_interval_secs: 1,
+                discovery: None,
+                metrics: None,
+                log_dir: None,
+                log_level: None,
+            };
+
+            let ctx = TestContext::new_with_config(
+                config,
+                vec![MockWorkerConfig {
+                    port: 18403,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                }],
+            )
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Create large payload (> 1KB)
+            let large_text = "x".repeat(2000);
+            let payload = json!({
+                "text": large_text,
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Note: The test framework may not enforce payload size limits the same way as the full server
+            // In production, the server middleware would reject large payloads before reaching handlers
+            assert!(
+                resp.status() == StatusCode::PAYLOAD_TOO_LARGE || resp.status() == StatusCode::OK
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_invalid_json_payload() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18404,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Send invalid JSON
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .insert_header(("content-type", "application/json"))
+                .set_payload("{invalid json}")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+
+            // Send empty body
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .insert_header(("content-type", "application/json"))
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_missing_required_fields() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18405,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Missing messages in chat completion
+            let payload = json!({
+                "model": "test-model"
+                // missing "messages"
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/chat/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Note: Mock worker might accept this, but real implementation would return 400
+            // The status depends on the actual router implementation
+            assert!(resp.status() == StatusCode::OK || resp.status() == StatusCode::BAD_REQUEST);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_invalid_model() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18406,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "invalid-model-name-that-does-not-exist",
+                "messages": [{"role": "user", "content": "Hello"}],
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/chat/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Mock worker accepts any model, but real implementation might return 400
+            assert!(resp.status().is_success() || resp.status() == StatusCode::BAD_REQUEST);
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod cache_tests {
+    use super::*;
+
+    #[test]
+    fn test_flush_cache() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![MockWorkerConfig {
+                port: 18501,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = actix_test::init_service(
+                App::new()
+                    .app_data(ctx.app_state.clone())
+                    .service(flush_cache),
+            )
+            .await;
+
+            let req = actix_test::TestRequest::post()
+                .uri("/flush_cache")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // The response might be empty or contain a message
+            let body_bytes = actix_test::read_body(resp).await;
+            if !body_bytes.is_empty() {
+                if let Ok(body) = serde_json::from_slice::<serde_json::Value>(&body_bytes) {
+                    // Check that we got a successful response with expected fields
+                    assert!(body.is_object());
+                    assert!(body.get("message").is_some() || body.get("status").is_some());
+                }
+            }
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_get_loads() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![
+                MockWorkerConfig {
+                    port: 18502,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+                MockWorkerConfig {
+                    port: 18503,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+            ])
+            .await;
+
+            let app = actix_test::init_service(
+                App::new()
+                    .app_data(ctx.app_state.clone())
+                    .service(get_loads),
+            )
+            .await;
+
+            let req = actix_test::TestRequest::get()
+                .uri("/get_loads")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+
+            // Verify the response contains load information
+            assert!(body.is_object());
+            // The exact structure depends on the implementation
+            // but should contain worker load information
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_flush_cache_no_workers() {
+        System::new().block_on(async {
+            let ctx = TestContext::new(vec![]).await;
+
+            let app = actix_test::init_service(
+                App::new()
+                    .app_data(ctx.app_state.clone())
+                    .service(flush_cache),
+            )
+            .await;
+
+            let req = actix_test::TestRequest::post()
+                .uri("/flush_cache")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // Should either succeed (no-op) or return service unavailable
+            assert!(
+                resp.status() == StatusCode::OK || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod load_balancing_tests {
+    use super::*;
+
+    #[test]
+    fn test_request_distribution() {
+        System::new().block_on(async {
+            // Create multiple workers
+            let ctx = TestContext::new(vec![
+                MockWorkerConfig {
+                    port: 18601,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+                MockWorkerConfig {
+                    port: 18602,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+            ])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Send multiple requests and track distribution
+            let mut request_count = 0;
+            for _ in 0..10 {
+                let payload = json!({
+                    "text": format!("Request {}", request_count),
+                    "stream": false
+                });
+
+                let req = actix_test::TestRequest::post()
+                    .uri("/generate")
+                    .set_json(&payload)
+                    .to_request();
+
+                let resp = actix_test::call_service(&app, req).await;
+                if resp.status() == StatusCode::OK {
+                    request_count += 1;
+                }
+            }
+
+            // With random policy, all requests should succeed
+            assert_eq!(request_count, 10);
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod pd_mode_tests {
+    use super::*;
+
+    #[test]
+    fn test_pd_mode_routing() {
+        System::new().block_on(async {
+            // Create PD mode configuration with prefill and decode workers
+            let mut prefill_worker = MockWorker::new(MockWorkerConfig {
+                port: 18701,
+                worker_type: WorkerType::Prefill,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            });
+
+            let mut decode_worker = MockWorker::new(MockWorkerConfig {
+                port: 18702,
+                worker_type: WorkerType::Decode,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            });
+
+            let prefill_url = prefill_worker.start().await.unwrap();
+            let decode_url = decode_worker.start().await.unwrap();
+
+            tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
+
+            // For PD mode, we'll skip the test for now since it requires special handling
+            // TODO: Implement PD mode testing with proper worker management
+            let _prefill_url = prefill_url;
+            let _decode_url = decode_url;
+            prefill_worker.stop().await;
+            decode_worker.stop().await;
+        });
+    }
+}
diff --git a/sgl-router/tests/common/mock_worker.rs b/sgl-router/tests/common/mock_worker.rs
index c5129febc895..3aba2b3b439c 100644
--- a/sgl-router/tests/common/mock_worker.rs
+++ b/sgl-router/tests/common/mock_worker.rs
@@ -99,9 +99,17 @@ impl MockWorker {
 
 // Handler implementations
 
+/// Check if request should fail based on configured fail_rate
+async fn should_fail(config: &MockWorkerConfig) -> bool {
+    rand::random::<f32>() < config.fail_rate
+}
+
 async fn health_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
     let config = config.read().await;
 
+    // Note: We don't apply fail_rate to health endpoint to allow workers to be added successfully
+    // fail_rate is only applied to actual request endpoints
+
     match config.health_status {
         HealthStatus::Healthy => HttpResponse::Ok().json(json!({
             "status": "healthy",
@@ -122,6 +130,13 @@ async fn health_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> Htt
 async fn health_generate_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
     let config = config.read().await;
 
+    // Simulate failure based on fail_rate
+    if should_fail(&config).await {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Random failure for testing"
+        }));
+    }
+
     if matches!(config.health_status, HealthStatus::Healthy) {
         HttpResponse::Ok().json(json!({
             "status": "ok",
@@ -138,6 +153,13 @@ async fn health_generate_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>
 async fn server_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
     let config = config.read().await;
 
+    // Simulate failure based on fail_rate
+    if should_fail(&config).await {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Random failure for testing"
+        }));
+    }
+
     // Return response matching actual sglang server implementation
     HttpResponse::Ok().json(json!({
         // Server args fields
@@ -182,7 +204,16 @@ async fn server_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -
     }))
 }
 
-async fn model_info_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn model_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    let config = config.read().await;
+
+    // Simulate failure based on fail_rate
+    if should_fail(&config).await {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Random failure for testing"
+        }));
+    }
+
     // Return response matching actual sglang server implementation
     HttpResponse::Ok().json(json!({
         "model_path": "mock-model-path",
@@ -205,7 +236,7 @@ async fn generate_handler(
     let config = config.read().await;
 
     // Simulate failure based on fail_rate
-    if rand::random::<f32>() < config.fail_rate {
+    if should_fail(&config).await {
         return HttpResponse::InternalServerError().json(json!({
             "error": "Random failure for testing"
         }));
@@ -229,7 +260,10 @@ async fn generate_handler(
 
         tokio::spawn(async move {
             let tokens = vec!["This ", "is ", "a ", "mock ", "response."];
-            let timestamp_start = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs_f64();
+            let timestamp_start = SystemTime::now()
+                .duration_since(UNIX_EPOCH)
+                .unwrap()
+                .as_secs_f64();
 
             for (i, token) in tokens.iter().enumerate() {
                 let chunk = json!({
@@ -248,7 +282,14 @@ async fn generate_handler(
                     }
                 });
 
-                if tx.send(format!("data: {}\n\n", serde_json::to_string(&chunk).unwrap())).await.is_err() {
+                if tx
+                    .send(format!(
+                        "data: {}\n\n",
+                        serde_json::to_string(&chunk).unwrap()
+                    ))
+                    .await
+                    .is_err()
+                {
                     break;
                 }
 
@@ -269,7 +310,6 @@ async fn generate_handler(
     } else {
         // Return non-streaming response matching sglang format
         let request_id = format!("mock-req-{}", rand::random::<u32>());
-        let timestamp_start = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs_f64();
 
         HttpResponse::Ok().json(json!({
             "text": "Mock generated response for the input",
@@ -567,7 +607,16 @@ async fn completions_handler(
     }
 }
 
-async fn flush_cache_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn flush_cache_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    let config = config.read().await;
+
+    // Simulate failure based on fail_rate
+    if should_fail(&config).await {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Random failure for testing"
+        }));
+    }
+
     HttpResponse::Ok().json(json!({
         "status": "success",
         "message": "Cache flushed",
@@ -575,7 +624,16 @@ async fn flush_cache_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>)
     }))
 }
 
-async fn v1_models_handler(_config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn v1_models_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+    let config = config.read().await;
+
+    // Simulate failure based on fail_rate
+    if should_fail(&config).await {
+        return HttpResponse::InternalServerError().json(json!({
+            "error": "Random failure for testing"
+        }));
+    }
+
     HttpResponse::Ok().json(json!({
         "object": "list",
         "data": [{

From a167fd0bcb9ef4b0f4331a109e40c8cdc770b026 Mon Sep 17 00:00:00 2001
From: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Date: Thu, 24 Jul 2025 14:38:30 +0800
Subject: [PATCH 116/396] [code style] Clean dead triton kernel code in
 fused_moe and useless vllm_ops import (#8310)

---
 .../layers/moe/fused_moe_triton/fused_moe.py  | 249 ++----------------
 .../compressed_tensors_moe.py                 |  11 +-
 .../sglang/srt/layers/quantization/utils.py   |   9 -
 3 files changed, 27 insertions(+), 242 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
index 9c13c7e9dcb5..267b594c0a7b 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -53,9 +53,7 @@
             from aiter import moe_sum
         except ImportError:
             raise ImportError("aiter is required when SGLANG_USE_AITER is set to True")
-else:
-    from vllm import _custom_ops as vllm_ops
-    from vllm._custom_ops import scaled_fp8_quant
+
 
 if _is_cuda or _is_hip:
     from sgl_kernel import moe_align_block_size as sgl_moe_align_block_size
@@ -63,9 +61,6 @@
 
 logger = logging.getLogger(__name__)
 padding_size = 128 if bool(int(os.getenv("SGLANG_MOE_PADDING", "0"))) else 0
-enable_moe_align_block_size_triton = bool(
-    int(os.getenv("ENABLE_MOE_ALIGN_BLOCK_SIZE_TRITON", "0"))
-)
 
 
 @triton.jit
@@ -533,190 +528,6 @@ def fused_moe_kernel(
     tl.store(c_ptrs, accumulator, mask=c_mask)
 
 
-@triton.jit
-def moe_align_block_size_stage1(
-    topk_ids_ptr,
-    tokens_cnts_ptr,
-    num_experts: tl.constexpr,
-    numel: tl.constexpr,
-    tokens_per_thread: tl.constexpr,
-):
-    pid = tl.program_id(0)
-
-    start_idx = pid * tokens_per_thread
-
-    off_c = (pid + 1) * num_experts
-
-    for i in range(tokens_per_thread):
-        if start_idx + i < numel:
-            idx = tl.load(topk_ids_ptr + start_idx + i)
-            token_cnt = tl.load(tokens_cnts_ptr + off_c + idx)
-            tl.store(tokens_cnts_ptr + off_c + idx, token_cnt + 1)
-
-
-@triton.jit
-def moe_align_block_size_stage2(
-    tokens_cnts_ptr,
-    num_experts: tl.constexpr,
-):
-    pid = tl.program_id(0)
-
-    last_cnt = 0
-    for i in range(1, num_experts + 1):
-        token_cnt = tl.load(tokens_cnts_ptr + i * num_experts + pid)
-        last_cnt = last_cnt + token_cnt
-        tl.store(tokens_cnts_ptr + i * num_experts + pid, last_cnt)
-
-
-@triton.jit
-def moe_align_block_size_stage3(
-    total_tokens_post_pad_ptr,
-    tokens_cnts_ptr,
-    cumsum_ptr,
-    num_experts: tl.constexpr,
-    block_size: tl.constexpr,
-):
-    last_cumsum = 0
-    off_cnt = num_experts * num_experts
-    for i in range(1, num_experts + 1):
-        token_cnt = tl.load(tokens_cnts_ptr + off_cnt + i - 1)
-        last_cumsum = last_cumsum + tl.cdiv(token_cnt, block_size) * block_size
-        tl.store(cumsum_ptr + i, last_cumsum)
-    tl.store(total_tokens_post_pad_ptr, last_cumsum)
-
-
-@triton.jit
-def moe_align_block_size_stage4(
-    topk_ids_ptr,
-    sorted_token_ids_ptr,
-    expert_ids_ptr,
-    tokens_cnts_ptr,
-    cumsum_ptr,
-    num_experts: tl.constexpr,
-    block_size: tl.constexpr,
-    numel: tl.constexpr,
-    tokens_per_thread: tl.constexpr,
-):
-    pid = tl.program_id(0)
-    start_idx = tl.load(cumsum_ptr + pid)
-    end_idx = tl.load(cumsum_ptr + pid + 1)
-
-    for i in range(start_idx, end_idx, block_size):
-        tl.store(expert_ids_ptr + i // block_size, pid)
-
-    start_idx = pid * tokens_per_thread
-    off_t = pid * num_experts
-
-    for i in range(start_idx, tl.minimum(start_idx + tokens_per_thread, numel)):
-        expert_id = tl.load(topk_ids_ptr + i)
-        token_cnt = tl.load(tokens_cnts_ptr + off_t + expert_id)
-        rank_post_pad = token_cnt + tl.load(cumsum_ptr + expert_id)
-        tl.store(sorted_token_ids_ptr + rank_post_pad, i)
-        tl.store(tokens_cnts_ptr + off_t + expert_id, token_cnt + 1)
-
-
-def moe_align_block_size_triton(
-    topk_ids: torch.Tensor,
-    num_experts: int,
-    block_size: int,
-    sorted_token_ids: torch.Tensor,
-    expert_ids: torch.Tensor,
-    num_tokens_post_pad: torch.Tensor,
-) -> None:
-    numel = topk_ids.numel()
-    grid = (num_experts,)
-    tokens_cnts = torch.zeros(
-        (num_experts + 1, num_experts), dtype=torch.int32, device=topk_ids.device
-    )
-    cumsum = torch.zeros((num_experts + 1,), dtype=torch.int32, device=topk_ids.device)
-    tokens_per_thread = ceil_div(numel, num_experts)
-
-    moe_align_block_size_stage1[grid](
-        topk_ids,
-        tokens_cnts,
-        num_experts,
-        numel,
-        tokens_per_thread,
-    )
-    moe_align_block_size_stage2[grid](
-        tokens_cnts,
-        num_experts,
-    )
-    moe_align_block_size_stage3[(1,)](
-        num_tokens_post_pad,
-        tokens_cnts,
-        cumsum,
-        num_experts,
-        block_size,
-    )
-    moe_align_block_size_stage4[grid](
-        topk_ids,
-        sorted_token_ids,
-        expert_ids,
-        tokens_cnts,
-        cumsum,
-        num_experts,
-        block_size,
-        numel,
-        tokens_per_thread,
-    )
-
-
-@triton.jit
-def init_sorted_ids_and_cumsum_buffer_kernel(
-    sorted_ids_ptr,
-    cumsum_buffer_ptr,
-    max_num_tokens_padded,
-    topk_ids_numel,
-    num_experts: tl.constexpr,
-    BLOCK_SIZE: tl.constexpr,
-    ALIGNED_NUM_EXPERTS_P1: tl.constexpr,
-):
-    pid = tl.program_id(0)
-    offsets = pid * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
-
-    sorted_ids_blocks = tl.cdiv(max_num_tokens_padded, BLOCK_SIZE)
-
-    if pid < sorted_ids_blocks:
-        mask = offsets < max_num_tokens_padded
-        tl.store(
-            sorted_ids_ptr + offsets,
-            tl.full((BLOCK_SIZE,), topk_ids_numel, dtype=tl.int32),
-            mask=mask,
-        )
-    elif pid == sorted_ids_blocks:
-        offset_e = tl.arange(0, ALIGNED_NUM_EXPERTS_P1)
-        mask_e = offset_e < num_experts + 1
-        tl.store(
-            cumsum_buffer_ptr + offset_e,
-            tl.zeros((ALIGNED_NUM_EXPERTS_P1,), dtype=tl.int32),
-            mask=mask_e,
-        )
-
-
-def init_sorted_ids_and_cumsum_buffer(
-    max_num_tokens_padded: int, topk_ids_numel: int, num_experts: int, device="cuda"
-):
-    sorted_ids = torch.empty((max_num_tokens_padded,), dtype=torch.int32, device=device)
-    cumsum_buffer = torch.empty((num_experts + 1,), dtype=torch.int32, device=device)
-
-    BLOCK_SIZE = 1024
-    sorted_ids_blocks = triton.cdiv(max_num_tokens_padded, BLOCK_SIZE)
-    grid = (sorted_ids_blocks + 1,)
-
-    init_sorted_ids_and_cumsum_buffer_kernel[grid](
-        sorted_ids,
-        cumsum_buffer,
-        max_num_tokens_padded,
-        topk_ids_numel,
-        num_experts,
-        BLOCK_SIZE,
-        next_power_of_2(num_experts + 1),
-    )
-
-    return sorted_ids, cumsum_buffer
-
-
 def moe_align_block_size(
     topk_ids: torch.Tensor, block_size: int, num_experts: int
 ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
@@ -766,42 +577,32 @@ def moe_align_block_size(
         (max_num_m_blocks,), dtype=torch.int32, device=topk_ids.device
     )
     num_tokens_post_pad = torch.empty((1), dtype=torch.int32, device=topk_ids.device)
-    if enable_moe_align_block_size_triton:
-        sorted_ids.fill_(topk_ids.numel())
-        moe_align_block_size_triton(
-            topk_ids,
-            num_experts,
-            block_size,
-            sorted_ids,
-            expert_ids,
-            num_tokens_post_pad,
-        )
-    else:
-        cumsum_buffer = torch.empty(
-            (num_experts + 1,), dtype=torch.int32, device=topk_ids.device
-        )
-        token_cnts_buffer = torch.empty(
-            (num_experts + 1) * num_experts,
-            dtype=torch.int32,
-            device=topk_ids.device,
-        )
 
-        # Threshold based on benchmark results
-        fuse_sorted_ids_padding = sorted_ids.shape[0] <= 4096
-        if not fuse_sorted_ids_padding:
-            sorted_ids.fill_(topk_ids.numel())
+    cumsum_buffer = torch.empty(
+        (num_experts + 1,), dtype=torch.int32, device=topk_ids.device
+    )
+    token_cnts_buffer = torch.empty(
+        (num_experts + 1) * num_experts,
+        dtype=torch.int32,
+        device=topk_ids.device,
+    )
 
-        sgl_moe_align_block_size(
-            topk_ids,
-            num_experts,
-            block_size,
-            sorted_ids,
-            expert_ids,
-            num_tokens_post_pad,
-            token_cnts_buffer,
-            cumsum_buffer,
-            fuse_sorted_ids_padding,
-        )
+    # Threshold based on benchmark results
+    fuse_sorted_ids_padding = sorted_ids.shape[0] <= 4096
+    if not fuse_sorted_ids_padding:
+        sorted_ids.fill_(topk_ids.numel())
+
+    sgl_moe_align_block_size(
+        topk_ids,
+        num_experts,
+        block_size,
+        sorted_ids,
+        expert_ids,
+        num_tokens_post_pad,
+        token_cnts_buffer,
+        cumsum_buffer,
+        fuse_sorted_ids_padding,
+    )
     return sorted_ids, expert_ids, num_tokens_post_pad
 
 
diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index af1f6cbf7cc2..525a75069fe0 100644
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -28,15 +28,6 @@
         CompressedTensorsConfig,
     )
 
-_is_cuda = is_cuda()
-_is_npu = is_npu()
-_is_cpu_amx_available = cpu_has_amx_support()
-_is_cpu = is_cpu()
-_is_hip = is_hip()
-
-if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available) or _is_hip):
-    from vllm import _custom_ops as vllm_ops
-    from vllm._custom_ops import scaled_fp8_quant
 
 try:
     import vllm
@@ -568,6 +559,8 @@ def marlin_moe_permute_scales(
                 requires_grad=False,
             )
 
+        from vllm import _custom_ops as vllm_ops
+
         marlin_w13_qweight = vllm_ops.gptq_marlin_moe_repack(
             layer.w13_weight_packed,
             layer.w13_g_idx_sort_indices,
diff --git a/python/sglang/srt/layers/quantization/utils.py b/python/sglang/srt/layers/quantization/utils.py
index 8904247a6a8f..9b19e0309047 100644
--- a/python/sglang/srt/layers/quantization/utils.py
+++ b/python/sglang/srt/layers/quantization/utils.py
@@ -17,15 +17,6 @@
 if TYPE_CHECKING:
     from sglang.srt.layers.quantization.base_config import QuantizationConfig
 
-_is_cuda = is_cuda()
-_is_npu = is_npu()
-_is_cpu_amx_available = cpu_has_amx_support()
-_is_cpu = is_cpu()
-_is_hip = is_hip()
-
-if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available) or _is_hip):
-    from vllm._custom_ops import scaled_fp8_quant
-
 
 def is_layer_skipped(
     prefix: str,

From 8d1c5b948ed095fab7e0d4c0a7d31855d8fb8c0b Mon Sep 17 00:00:00 2001
From: Swipe4057 <106391009+Swipe4057@users.noreply.github.com>
Date: Fri, 25 Jul 2025 01:29:56 +0400
Subject: [PATCH 117/396] chore: upgrade flashinfer v0.2.9rc1 (#8301)

Co-authored-by: Yineng Zhang <me@zhyncs.com>
---
 python/pyproject.toml                   | 4 ++--
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 1cf32215d9ef..7a18ee94ddaf 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -60,7 +60,7 @@ srt = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.7.post1",
+    "flashinfer_python==0.2.9rc1",
 ]
 
 blackwell = [
@@ -71,7 +71,7 @@ blackwell = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.7.post1",
+    "flashinfer_python==0.2.9rc1",
 ]
 
 # HIP (Heterogeneous-computing Interface for Portability) for AMD
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index edf81a79a098..fd59624bcb56 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -646,7 +646,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if server_args.attention_backend == "flashinfer":
         assert_pkg_version(
             "flashinfer_python",
-            "0.2.7.post1",
+            "0.2.9rc1",
             "Please uninstall the old version and "
             "reinstall the latest version by following the instructions "
             "at https://docs.flashinfer.ai/installation.html.",

From 33c4b4d04e50db11ebd1a81b37217da97a379044 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 24 Jul 2025 14:30:27 -0700
Subject: [PATCH 118/396] [router] add streaming unit test (#8299)

---
 sgl-router/tests/streaming_tests.rs | 579 ++++++++++++++++++++++++++++
 1 file changed, 579 insertions(+)
 create mode 100644 sgl-router/tests/streaming_tests.rs

diff --git a/sgl-router/tests/streaming_tests.rs b/sgl-router/tests/streaming_tests.rs
new file mode 100644
index 000000000000..47a1326ae575
--- /dev/null
+++ b/sgl-router/tests/streaming_tests.rs
@@ -0,0 +1,579 @@
+mod common;
+
+use actix_web::{http::StatusCode, rt::System, test as actix_test, web, App};
+use bytes::Bytes;
+use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
+use reqwest::Client;
+use serde_json::json;
+use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::server::{
+    add_worker, generate, list_workers, v1_chat_completions, v1_completions, AppState,
+};
+use std::time::Instant;
+
+/// Test context for streaming tests
+struct StreamingTestContext {
+    workers: Vec<MockWorker>,
+    app_state: web::Data<AppState>,
+}
+
+impl StreamingTestContext {
+    async fn new(worker_configs: Vec<MockWorkerConfig>) -> Self {
+        let mut workers = Vec::new();
+        let mut worker_urls = Vec::new();
+
+        // Start mock workers
+        for config in worker_configs {
+            let mut worker = MockWorker::new(config);
+            let url = worker.start().await.unwrap();
+            worker_urls.push(url);
+            workers.push(worker);
+        }
+
+        // Give workers time to start
+        tokio::time::sleep(tokio::time::Duration::from_millis(50)).await;
+
+        // Create router config with empty worker URLs initially
+        // We'll add workers via the /add_worker endpoint
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![],
+            },
+            policy: PolicyConfig::Random,
+            host: "127.0.0.1".to_string(),
+            port: 3003,
+            max_payload_size: 256 * 1024 * 1024,
+            request_timeout_secs: 600,
+            worker_startup_timeout_secs: 1,
+            worker_startup_check_interval_secs: 1,
+            discovery: None,
+            metrics: None,
+            log_dir: None,
+            log_level: None,
+        };
+
+        let client = Client::builder()
+            .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
+            .build()
+            .unwrap();
+
+        let app_state = AppState::new(config, client).unwrap();
+        let app_state = web::Data::new(app_state);
+
+        // Add workers via HTTP API
+        let app =
+            actix_test::init_service(App::new().app_data(app_state.clone()).service(add_worker))
+                .await;
+
+        for url in &worker_urls {
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/add_worker?url={}", url))
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            assert!(resp.status().is_success());
+        }
+
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+
+        Self { workers, app_state }
+    }
+
+    async fn create_app(
+        &self,
+    ) -> impl actix_web::dev::Service<
+        actix_http::Request,
+        Response = actix_web::dev::ServiceResponse,
+        Error = actix_web::Error,
+    > {
+        actix_test::init_service(
+            App::new()
+                .app_data(self.app_state.clone())
+                .service(generate)
+                .service(v1_chat_completions)
+                .service(v1_completions)
+                .service(list_workers),
+        )
+        .await
+    }
+
+    async fn shutdown(mut self) {
+        for worker in &mut self.workers {
+            worker.stop().await;
+        }
+    }
+}
+
+/// Parse SSE (Server-Sent Events) from response body
+async fn parse_sse_stream(body: Bytes) -> Vec<serde_json::Value> {
+    let text = String::from_utf8_lossy(&body);
+    let mut events = Vec::new();
+
+    for line in text.lines() {
+        if line.starts_with("data: ") {
+            let data = &line[6..];
+            if data == "[DONE]" {
+                continue;
+            }
+            if let Ok(json) = serde_json::from_str::<serde_json::Value>(data) {
+                events.push(json);
+            }
+        }
+    }
+
+    events
+}
+
+#[cfg(test)]
+mod basic_streaming_tests {
+    use super::*;
+
+    #[test]
+    fn test_router_uses_mock_workers() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19000,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Verify workers are registered with the router
+            let req = actix_test::TestRequest::get()
+                .uri("/list_workers")
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            let urls = body["urls"].as_array().unwrap();
+            assert_eq!(urls.len(), 1);
+            assert!(urls[0].as_str().unwrap().contains("19000"));
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_generate_streaming() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19001,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Hello, streaming world!",
+                "stream": true,
+                "max_new_tokens": 50
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // Check content type
+            let content_type = resp.headers().get("content-type").unwrap();
+            assert_eq!(content_type, "text/event-stream");
+
+            // Read streaming body
+            let body = actix_test::read_body(resp).await;
+            let events = parse_sse_stream(body).await;
+
+            // Verify we got multiple chunks
+            assert!(events.len() > 1);
+
+            // Verify first chunk has text
+            assert!(events[0].get("text").is_some());
+
+            // Verify last chunk has finish_reason in meta_info
+            let last_event = events.last().unwrap();
+            assert!(last_event.get("meta_info").is_some());
+            let meta_info = &last_event["meta_info"];
+            assert!(meta_info.get("finish_reason").is_some());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_chat_completion_streaming() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19002,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "messages": [
+                    {"role": "user", "content": "Hello, streaming!"}
+                ],
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/chat/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+            assert_eq!(
+                resp.headers().get("content-type").unwrap(),
+                "text/event-stream"
+            );
+
+            let body = actix_test::read_body(resp).await;
+            let events = parse_sse_stream(body).await;
+
+            // Verify we got streaming events
+            // Note: Mock doesn't provide full OpenAI format, just verify we got chunks
+            assert!(!events.is_empty(), "Should have received streaming events");
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_completion_streaming() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19003,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "prompt": "Once upon a time",
+                "stream": true,
+                "max_tokens": 30
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+            assert_eq!(
+                resp.headers().get("content-type").unwrap(),
+                "text/event-stream"
+            );
+
+            let _body = actix_test::read_body(resp).await;
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod streaming_performance_tests {
+    use super::*;
+
+    #[test]
+    fn test_streaming_first_token_latency() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19010,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 10, // Small delay to simulate processing
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Measure latency",
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let start = Instant::now();
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            // Note: actix_test framework doesn't provide easy access to streaming chunks.
+            // The ideal solution would be to:
+            // 1. Start the router as a real HTTP server
+            // 2. Use reqwest::Client to make streaming requests
+            // 3. Measure time to first chunk properly
+            //
+            // For now, we verify that streaming responses work correctly,
+            // but cannot accurately measure TTFT with actix_test.
+            let body = actix_test::read_body(resp).await;
+            let total_time = start.elapsed();
+
+            // Verify we got streaming data
+            let events = parse_sse_stream(body).await;
+            assert!(!events.is_empty(), "Should receive streaming events");
+
+            // With mock worker delay of 10ms, total time should still be reasonable
+            assert!(
+                total_time.as_millis() < 1000,
+                "Total response took {}ms",
+                total_time.as_millis()
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_concurrent_streaming_requests() {
+        System::new().block_on(async {
+            // Test basic concurrent streaming functionality
+            let ctx = StreamingTestContext::new(vec![
+                MockWorkerConfig {
+                    port: 19050,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+                MockWorkerConfig {
+                    port: 19051,
+                    worker_type: WorkerType::Regular,
+                    health_status: HealthStatus::Healthy,
+                    response_delay_ms: 0,
+                    fail_rate: 0.0,
+                },
+            ])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Send a moderate number of concurrent requests for unit testing
+            use futures::future::join_all;
+            let mut futures = Vec::new();
+
+            for i in 0..20 {
+                let app_ref = &app;
+                let future = async move {
+                    let payload = json!({
+                        "text": format!("Concurrent request {}", i),
+                        "stream": true,
+                        "max_new_tokens": 5
+                    });
+
+                    let req = actix_test::TestRequest::post()
+                        .uri("/generate")
+                        .set_json(&payload)
+                        .to_request();
+
+                    let resp = actix_test::call_service(app_ref, req).await;
+                    resp.status() == StatusCode::OK
+                };
+
+                futures.push(future);
+            }
+
+            let results = join_all(futures).await;
+            let successful = results.iter().filter(|&&r| r).count();
+
+            // All requests should succeed in a unit test environment
+            assert_eq!(
+                successful, 20,
+                "Expected all 20 requests to succeed, got {}",
+                successful
+            );
+
+            ctx.shutdown().await;
+        });
+    }
+
+    // Note: Extreme load testing has been moved to benches/streaming_load_test.rs
+    // Run with: cargo run --release --bin streaming_load_test 10000 10
+    // Or: cargo bench streaming_load_test
+}
+
+#[cfg(test)]
+mod streaming_error_tests {
+    use super::*;
+
+    #[test]
+    fn test_streaming_with_worker_failure() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19020,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 1.0, // Always fail
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "This should fail",
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::INTERNAL_SERVER_ERROR);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_streaming_with_invalid_payload() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19021,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                // Missing required fields
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            // TODO: Router should validate payload and reject requests with missing content fields
+            // Currently, the router accepts requests with no prompt/text/input_ids which is a bug
+            // This should return StatusCode::BAD_REQUEST once proper validation is implemented
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod streaming_content_tests {
+    use super::*;
+
+    #[test]
+    fn test_unicode_streaming() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19030,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Test Unicode: 你好世界 🌍 émojis",
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body = actix_test::read_body(resp).await;
+            let events = parse_sse_stream(body).await;
+
+            // Verify events were parsed correctly (Unicode didn't break parsing)
+            assert!(!events.is_empty());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_incremental_text_building() {
+        System::new().block_on(async {
+            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
+                port: 19031,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Build text incrementally",
+                "stream": true
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body = actix_test::read_body(resp).await;
+            let events = parse_sse_stream(body).await;
+
+            // Build complete text from chunks
+            let mut complete_text = String::new();
+            for event in &events {
+                if let Some(text) = event.get("text").and_then(|t| t.as_str()) {
+                    complete_text.push_str(text);
+                }
+            }
+
+            // Verify we got some text
+            assert!(!complete_text.is_empty());
+
+            ctx.shutdown().await;
+        });
+    }
+}

From 39fe1e880d55157179ff8e57d8fe385ef03d51e8 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 24 Jul 2025 14:30:37 -0700
Subject: [PATCH 119/396] [router] add request format unit test (#8300)

---
 sgl-router/tests/request_formats_test.rs | 573 +++++++++++++++++++++++
 1 file changed, 573 insertions(+)
 create mode 100644 sgl-router/tests/request_formats_test.rs

diff --git a/sgl-router/tests/request_formats_test.rs b/sgl-router/tests/request_formats_test.rs
new file mode 100644
index 000000000000..40045a0f7b15
--- /dev/null
+++ b/sgl-router/tests/request_formats_test.rs
@@ -0,0 +1,573 @@
+mod common;
+
+use actix_web::{http::StatusCode, rt::System, test as actix_test, web, App};
+use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
+use reqwest::Client;
+use serde_json::json;
+use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::server::{
+    add_worker, generate, v1_chat_completions, v1_completions, AppState,
+};
+
+/// Test context for request type testing
+struct RequestTestContext {
+    workers: Vec<MockWorker>,
+    app_state: web::Data<AppState>,
+}
+
+impl RequestTestContext {
+    async fn new(worker_configs: Vec<MockWorkerConfig>) -> Self {
+        let mut workers = Vec::new();
+        let mut worker_urls = Vec::new();
+
+        // Start mock workers
+        for config in worker_configs {
+            let mut worker = MockWorker::new(config);
+            let url = worker.start().await.unwrap();
+            worker_urls.push(url);
+            workers.push(worker);
+        }
+
+        tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
+
+        // Create router config
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![],
+            },
+            policy: PolicyConfig::Random,
+            host: "127.0.0.1".to_string(),
+            port: 3006,
+            max_payload_size: 256 * 1024 * 1024,
+            request_timeout_secs: 600,
+            worker_startup_timeout_secs: 1,
+            worker_startup_check_interval_secs: 1,
+            discovery: None,
+            metrics: None,
+            log_dir: None,
+            log_level: None,
+        };
+
+        let client = Client::builder()
+            .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
+            .build()
+            .unwrap();
+
+        let app_state = AppState::new(config, client).unwrap();
+        let app_state = web::Data::new(app_state);
+
+        // Add workers via HTTP API
+        let app =
+            actix_test::init_service(App::new().app_data(app_state.clone()).service(add_worker))
+                .await;
+
+        for url in &worker_urls {
+            let req = actix_test::TestRequest::post()
+                .uri(&format!("/add_worker?url={}", url))
+                .to_request();
+            let resp = actix_test::call_service(&app, req).await;
+            assert!(resp.status().is_success());
+        }
+
+        tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
+
+        Self { workers, app_state }
+    }
+
+    async fn create_app(
+        &self,
+    ) -> impl actix_web::dev::Service<
+        actix_http::Request,
+        Response = actix_web::dev::ServiceResponse,
+        Error = actix_web::Error,
+    > {
+        actix_test::init_service(
+            App::new()
+                .app_data(self.app_state.clone())
+                .service(generate)
+                .service(v1_chat_completions)
+                .service(v1_completions),
+        )
+        .await
+    }
+
+    async fn shutdown(mut self) {
+        for worker in &mut self.workers {
+            worker.stop().await;
+        }
+    }
+}
+
+#[cfg(test)]
+mod generate_input_format_tests {
+    use super::*;
+
+    #[test]
+    fn test_generate_with_text_input() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21001,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Standard text input
+            let payload = json!({
+                "text": "Hello world",
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.get("text").is_some());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_generate_with_prompt_input() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21002,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Prompt input (alternative to text)
+            let payload = json!({
+                "prompt": "Once upon a time",
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_generate_with_input_ids() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21003,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // Input IDs (tokenized input)
+            let payload = json!({
+                "input_ids": [1, 2, 3, 4, 5],
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_generate_with_all_parameters() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21004,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            // All generation parameters
+            let payload = json!({
+                "text": "Complete this",
+                "temperature": 0.7,
+                "top_p": 0.9,
+                "top_k": 50,
+                "max_new_tokens": 100,
+                "min_new_tokens": 10,
+                "frequency_penalty": 0.5,
+                "presence_penalty": 0.3,
+                "repetition_penalty": 1.1,
+                "stop": [".", "!", "?"],
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod chat_completion_format_tests {
+    use super::*;
+
+    #[test]
+    fn test_chat_with_system_message() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21010,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "messages": [
+                    {"role": "system", "content": "You are a helpful assistant."},
+                    {"role": "user", "content": "Hello!"}
+                ]
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/chat/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    // Note: Function calling and tools tests are commented out because
+    // they require special handling in the mock worker that's not implemented yet.
+    // In production, these would be forwarded to the actual model.
+
+    // #[test]
+    // fn test_chat_with_function_calling() {
+    //     // Test would go here when mock worker supports function calling
+    // }
+
+    // #[test]
+    // fn test_chat_with_tools() {
+    //     // Test would go here when mock worker supports tools
+    // }
+
+    #[test]
+    fn test_chat_with_response_format() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21013,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "messages": [
+                    {"role": "user", "content": "Return JSON"}
+                ],
+                "response_format": {
+                    "type": "json_object"
+                }
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/chat/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod completion_format_tests {
+    use super::*;
+
+    #[test]
+    fn test_completion_with_single_prompt() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21020,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "prompt": "Once upon a time",
+                "max_tokens": 50
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+            assert!(body.get("choices").is_some());
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_completion_with_batch_prompts() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21021,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "prompt": ["First prompt", "Second prompt", "Third prompt"],
+                "max_tokens": 30
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_completion_with_echo() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21022,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "prompt": "Echo this prompt",
+                "echo": true,
+                "max_tokens": 20
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_completion_with_logprobs() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21023,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "prompt": "Calculate probability",
+                "logprobs": 5,
+                "max_tokens": 10
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_completion_with_suffix() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21024,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "model": "test-model",
+                "prompt": "Insert text here: ",
+                "suffix": " and continue from here.",
+                "max_tokens": 20
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/v1/completions")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+}
+
+#[cfg(test)]
+mod stop_sequence_tests {
+    use super::*;
+
+    #[test]
+    fn test_stop_sequences_array() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21030,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Generate until stop",
+                "stop": [".", "!", "?", "\n"],
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+
+    #[test]
+    fn test_stop_sequences_string() {
+        System::new().block_on(async {
+            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
+                port: 21031,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            }])
+            .await;
+
+            let app = ctx.create_app().await;
+
+            let payload = json!({
+                "text": "Generate until stop",
+                "stop": "\n\n",
+                "stream": false
+            });
+
+            let req = actix_test::TestRequest::post()
+                .uri("/generate")
+                .set_json(&payload)
+                .to_request();
+
+            let resp = actix_test::call_service(&app, req).await;
+            assert_eq!(resp.status(), StatusCode::OK);
+
+            ctx.shutdown().await;
+        });
+    }
+}

From 145482f422117eb5710bd2052679f0ceab8444f5 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Thu, 24 Jul 2025 17:31:47 -0700
Subject: [PATCH 120/396] HiCache Storage TP Refinement (#8307)

Co-authored-by: pansicheng <sicheng.pan.chn@gmail.com>
---
 .../sglang/srt/managers/cache_controller.py   | 58 +++++++++++++++++--
 .../sglang/srt/mem_cache/hicache_storage.py   | 18 +++++-
 python/sglang/srt/mem_cache/hiradix_cache.py  | 46 ++++++++++-----
 .../sglang/srt/mem_cache/memory_pool_host.py  |  3 +
 4 files changed, 102 insertions(+), 23 deletions(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index a94fdec78c32..9ef860f632c6 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -219,6 +219,7 @@ def __init__(
         token_to_kv_pool_allocator: BaseTokenToKVPoolAllocator,
         mem_pool_host: HostKVCache,
         page_size: int,
+        tp_group: torch.distributed.ProcessGroup,
         load_cache_event: threading.Event = None,
         write_policy: str = "write_through_selective",
         io_backend: str = "",
@@ -244,11 +245,17 @@ def __init__(
         self.enable_storage = False
         # todo: move backend initialization to storage backend module
         if storage_backend is not None:
+            # create a new communication group for synchronizing storage operations across TP workers
+            self.tp_world_size = torch.distributed.get_world_size(group=tp_group)
+            if self.tp_world_size > 1:
+                group_ranks = torch.distributed.get_process_group_ranks(tp_group)
+                self.tp_group = torch.distributed.new_group(group_ranks, backend="gloo")
+
             if storage_backend == "file":
                 self.storage_backend = HiCacheFile()
                 self.enable_storage = True
                 # todo: threshold policy for prefetching
-                self.prefetch_threshold = prefetch_threshold
+                self.prefetch_threshold = max(prefetch_threshold, self.page_size)
             else:
                 raise NotImplementedError(
                     f"Unsupported storage backend: {storage_backend}"
@@ -568,13 +575,32 @@ def prefetch_thread_func(self):
                     else:
                         break
 
+                if self.tp_world_size > 1:
+                    storage_hit_count_tensor = torch.tensor(
+                        storage_hit_count, dtype=torch.int
+                    )
+                    torch.distributed.all_reduce(
+                        storage_hit_count_tensor,
+                        op=torch.distributed.ReduceOp.MIN,
+                        group=self.tp_group,
+                    )
+                    storage_hit_count = storage_hit_count_tensor.item()
+
                 if storage_hit_count < self.prefetch_threshold:
                     # not to prefetch if not enough benefits
                     self.prefetch_revoke_queue.put(operation.request_id)
+                    logger.debug(
+                        f"Revoking prefetch for request {operation.request_id} due to insufficient hits ({storage_hit_count})."
+                    )
                 else:
-                    operation.hash_value = hash_value
+                    operation.hash_value = hash_value[
+                        : (storage_hit_count // self.page_size)
+                    ]
+                    # free the pre-allocated memory for pages that are not hit
+                    self.mem_pool_host.free(operation.host_indices[storage_hit_count:])
+                    operation.host_indices = operation.host_indices[:storage_hit_count]
                     logger.debug(
-                        f"Prefetching {len(hash_value)} pages for request {operation.request_id}."
+                        f"Prefetching {len(operation.hash_value)} pages for request {operation.request_id}."
                     )
                     self.prefetch_buffer.put(operation)
 
@@ -611,17 +637,37 @@ def backup_thread_func(self):
                     last_hash = get_hash_str(
                         tokens_to_backup[i : i + self.page_size], last_hash
                     )
-                    # todo, handle failures in storage backend
-                    self.storage_backend.set(
+                    success = self.storage_backend.set(
                         last_hash,
                         self.mem_pool_host.get_flat_data_page(
                             operation.host_indices[i]
                         ),
                     )
+                    if not success:
+                        logger.warning(f"Failed to write page {last_hash} to storage.")
+                        break
                     operation.completed_tokens += self.page_size
                     operation.hash_value.append(last_hash)
 
-                self.ack_backup_queue.put((operation.id, operation.hash_value))
+                min_completed_tokens = operation.completed_tokens
+                if self.tp_world_size > 1:
+                    completed_tokens_tensor = torch.tensor(
+                        min_completed_tokens, dtype=torch.int
+                    )
+                    torch.distributed.all_reduce(
+                        completed_tokens_tensor,
+                        op=torch.distributed.ReduceOp.MIN,
+                        group=self.tp_group,
+                    )
+                    min_completed_tokens = completed_tokens_tensor.item()
+
+                self.ack_backup_queue.put(
+                    (
+                        operation.id,
+                        operation.hash_value[: min_completed_tokens // self.page_size],
+                        min_completed_tokens,
+                    )
+                )
 
             except Empty:
                 continue
diff --git a/python/sglang/srt/mem_cache/hicache_storage.py b/python/sglang/srt/mem_cache/hicache_storage.py
index 1dfe661ab5c9..45b26d10008b 100644
--- a/python/sglang/srt/mem_cache/hicache_storage.py
+++ b/python/sglang/srt/mem_cache/hicache_storage.py
@@ -9,6 +9,12 @@
 logger = logging.getLogger(__name__)
 
 
+from sglang.srt.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+
+
 def get_hash_str(token_ids: List[int], prior_hash: Optional[str] = None) -> str:
     hasher = hashlib.sha256()
 
@@ -80,13 +86,20 @@ class HiCacheFile(HiCacheStorage):
 
     def __init__(self, file_path: str = "/tmp/hicache"):
         self.file_path = file_path
-        if not os.path.exists(self.file_path):
+        tp_rank = get_tensor_model_parallel_rank()
+        tp_size = get_tensor_model_parallel_world_size()
+        self.tp_suffix = f"_{tp_rank}_{tp_size}" if tp_size > 1 else ""
+        if not os.path.exists(self.file_path) and tp_rank == 0:
             os.makedirs(self.file_path)
             logger.info(f"Created HiCacheFile storage directory at {self.file_path}")
 
+    def _get_suffixed_key(self, key: str) -> str:
+        return key + self.tp_suffix
+
     def get(
         self, key: str, target_location: Optional[torch.Tensor] = None
     ) -> torch.Tensor | None:
+        key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         try:
             # todo: fixing the target_location logic to enable in-place loading
@@ -112,6 +125,7 @@ def batch_get(
         ]
 
     def set(self, key: str, value: torch.Tensor) -> bool:
+        key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         if self.exists(key):
             logger.debug(f"Key {key} already exists. Skipped.")
@@ -130,10 +144,12 @@ def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
         return True
 
     def exists(self, key: str) -> bool:
+        key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         return os.path.exists(tensor_path)
 
     def delete(self, key: str) -> None:
+        key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         try:
             os.remove(tensor_path)
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index 796f0553ceca..05248a1deb22 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -50,6 +50,7 @@ def __init__(
             raise ValueError(f"HiRadixCache only supports MHA and MLA yet")
 
         self.tp_group = tp_cache_group
+        self.tp_world_size = torch.distributed.get_world_size(group=self.tp_group)
         self.enable_storage = hicache_storage_backend is not None
         # todo: customizable storage prefetch threshold
         self.prefetch_threshold = 256
@@ -59,6 +60,7 @@ def __init__(
             token_to_kv_pool_allocator,
             self.token_to_kv_pool_host,
             page_size,
+            self.tp_group,
             load_cache_event=self.load_cache_event,
             write_policy=hicache_write_policy,
             io_backend=hicache_io_backend,
@@ -153,7 +155,7 @@ def writing_check(self, write_back=False):
         queue_size = torch.tensor(
             self.cache_controller.ack_write_queue.qsize(), dtype=torch.int
         )
-        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+        if self.tp_world_size > 1:
             # synchrnoize TP workers to make the same update to radix cache
             torch.distributed.all_reduce(
                 queue_size,
@@ -353,7 +355,7 @@ def check_revoked_prefetch(self):
         queue_size = torch.tensor(
             self.cache_controller.prefetch_revoke_queue.qsize(), dtype=torch.int
         )
-        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+        if self.tp_world_size > 1:
             # synchrnoize TP workers to make the same update to hiradix cache
             torch.distributed.all_reduce(
                 queue_size,
@@ -372,7 +374,7 @@ def check_backup_progress(self):
         queue_size = torch.tensor(
             self.cache_controller.ack_backup_queue.qsize(), dtype=torch.int
         )
-        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+        if self.tp_world_size > 1:
             # synchrnoize TP workers to make the same update to hiradix cache
             torch.distributed.all_reduce(
                 queue_size,
@@ -380,9 +382,15 @@ def check_backup_progress(self):
                 group=self.tp_group,
             )
         for _ in range(queue_size.item()):
-            ack_id, hash_value = self.cache_controller.ack_backup_queue.get()
-            self.ongoing_backup[ack_id].hash_value = hash_value
-            self.ongoing_backup[ack_id].release_host()
+            ack_id, hash_value, completed_tokens = (
+                self.cache_controller.ack_backup_queue.get()
+            )
+            host_node = self.ongoing_backup[ack_id]
+            if completed_tokens < len(host_node.key):
+                # backup is only partially successful, split the node
+                new_node = self._split_node(host_node.key, host_node, completed_tokens)
+                new_node.hash_value = hash_value
+            host_node.release_host()
             del self.ongoing_backup[ack_id]
 
     def check_prefetch_progress(self, req_id: str):
@@ -400,15 +408,18 @@ def check_prefetch_progress(self, req_id: str):
         )
         logger.debug(f"Prefetch {req_id} completed with {completed_tokens} tokens")
 
-        min_completed_tokens = torch.tensor(completed_tokens, dtype=torch.int)
-        if torch.distributed.get_world_size(group=self.tp_group) > 1:
+        min_completed_tokens = completed_tokens
+        if self.tp_world_size > 1:
             # synchrnoize TP workers to make the same update to hiradix cache
+            completed_tokens_tensor = torch.tensor(
+                min_completed_tokens, dtype=torch.int
+            )
             torch.distributed.all_reduce(
-                min_completed_tokens,
+                completed_tokens_tensor,
                 op=torch.distributed.ReduceOp.MIN,
                 group=self.tp_group,
             )
-        min_completed_tokens = min_completed_tokens.item()
+            min_completed_tokens = completed_tokens_tensor.item()
         fetched_token_ids = token_ids[:min_completed_tokens]
         written_indices = host_indices[:min_completed_tokens]
         matched_length = self._insert_helper_host(
@@ -465,16 +476,19 @@ def prefetch_from_storage(
         new_input_tokens: List[int],
         last_hash: Optional[str] = None,
     ):
-        if not self.enable_storage or len(new_input_tokens) < self.prefetch_threshold:
+        # align the number of fetching tokens to the page size
+        prefetch_length = len(new_input_tokens) - (
+            len(new_input_tokens) % self.page_size
+        )
+        new_input_tokens = new_input_tokens[:prefetch_length]
+        if not self.enable_storage or prefetch_length < self.prefetch_threshold:
             return
 
         last_host_node.protect_host()
-        host_indices = self.cache_controller.mem_pool_host.alloc(len(new_input_tokens))
+        host_indices = self.cache_controller.mem_pool_host.alloc(prefetch_length)
         if host_indices is None:
-            self.evict_host(len(new_input_tokens))
-            host_indices = self.cache_controller.mem_pool_host.alloc(
-                len(new_input_tokens)
-            )
+            self.evict_host(prefetch_length)
+            host_indices = self.cache_controller.mem_pool_host.alloc(prefetch_length)
         if host_indices is None:
             last_host_node.release_host()
             # no sufficient host memory to prefetch
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index f503479628a9..0116e7141a38 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -126,6 +126,9 @@ def available_size(self):
 
     @synchronized()
     def alloc(self, need_size: int) -> torch.Tensor:
+        assert (
+            need_size % self.page_size == 0
+        ), "The requested size should be a multiple of the page size."
         if need_size > self.available_size():
             return None
 

From d40846d456ecc930c04538778ed11f67cc793c23 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Thu, 24 Jul 2025 17:33:17 -0700
Subject: [PATCH 121/396] breakdown kernel update (#8334)

---
 sgl-kernel/python/sgl_kernel/kvcacheio.py | 114 ++++++++--------------
 sgl-kernel/tests/test_kvcacheio.py        |  10 +-
 2 files changed, 44 insertions(+), 80 deletions(-)

diff --git a/sgl-kernel/python/sgl_kernel/kvcacheio.py b/sgl-kernel/python/sgl_kernel/kvcacheio.py
index 1440c2ca35ec..83a611dd5873 100644
--- a/sgl-kernel/python/sgl_kernel/kvcacheio.py
+++ b/sgl-kernel/python/sgl_kernel/kvcacheio.py
@@ -10,30 +10,21 @@ def transfer_kv_per_layer(
     dst_v: torch.Tensor,
     src_indices: torch.Tensor,
     dst_indices: torch.Tensor,
-    io_backend: str,
-    page_size: int,
     item_size: int,
     block_quota: int = 2,
     num_warps_per_block: int = 32,
 ):
-    if io_backend == "kernel":
-        torch.ops.sgl_kernel.transfer_kv_per_layer(
-            src_k,
-            dst_k,
-            src_v,
-            dst_v,
-            src_indices,
-            dst_indices,
-            item_size * src_k.element_size(),  # todo, hot fix for compatibility
-            block_quota,
-            num_warps_per_block,
-        )
-    elif io_backend == "direct":
-        torch.ops.sgl_kernel.transfer_kv_direct(
-            [src_k, src_v], [dst_k, dst_v], src_indices, dst_indices, page_size
-        )
-    else:
-        raise ValueError(f"Unsupported io backend")
+    torch.ops.sgl_kernel.transfer_kv_per_layer(
+        src_k,
+        dst_k,
+        src_v,
+        dst_v,
+        src_indices,
+        dst_indices,
+        item_size,
+        block_quota,
+        num_warps_per_block,
+    )
 
 
 def transfer_kv_per_layer_pf_lf(
@@ -69,29 +60,23 @@ def transfer_kv_all_layer(
     dst_v_layers: torch.Tensor,
     src_indices: torch.Tensor,
     dst_indices: torch.Tensor,
-    io_backend: str,
     item_size: int,
     num_layers: int,
     block_quota: int = 2,
     num_warps_per_block: int = 32,
 ):
-    if io_backend == "kernel":
-        torch.ops.sgl_kernel.transfer_kv_all_layer(
-            src_k_layers,
-            dst_k_layers,
-            src_v_layers,
-            dst_v_layers,
-            src_indices,
-            dst_indices,
-            item_size,
-            num_layers,
-            block_quota,
-            num_warps_per_block,
-        )
-    elif io_backend == "direct":
-        raise NotImplementedError("Deprecated interface")
-    else:
-        raise ValueError(f"Unsupported io backend")
+    torch.ops.sgl_kernel.transfer_kv_all_layer(
+        src_k_layers,
+        dst_k_layers,
+        src_v_layers,
+        dst_v_layers,
+        src_indices,
+        dst_indices,
+        item_size,
+        num_layers,
+        block_quota,
+        num_warps_per_block,
+    )
 
 
 def transfer_kv_all_layer_lf_pf(
@@ -139,28 +124,19 @@ def transfer_kv_per_layer_mla(
     dst: torch.Tensor,
     src_indices: torch.Tensor,
     dst_indices: torch.Tensor,
-    io_backend: str,
-    page_size: int,
     item_size: int,
     block_quota: int = 2,
     num_warps_per_block: int = 32,
 ):
-    if io_backend == "kernel":
-        torch.ops.sgl_kernel.transfer_kv_per_layer_mla(
-            src,
-            dst,
-            src_indices,
-            dst_indices,
-            item_size * src.element_size(),  # todo, hot fix for compatibility
-            block_quota,
-            num_warps_per_block,
-        )
-    elif io_backend == "direct":
-        torch.ops.sgl_kernel.transfer_kv_direct(
-            [src], [dst], src_indices, dst_indices, page_size
-        )
-    else:
-        raise ValueError(f"Unsupported io backend")
+    torch.ops.sgl_kernel.transfer_kv_per_layer_mla(
+        src,
+        dst,
+        src_indices,
+        dst_indices,
+        item_size,
+        block_quota,
+        num_warps_per_block,
+    )
 
 
 def transfer_kv_per_layer_mla_pf_lf(
@@ -190,27 +166,21 @@ def transfer_kv_all_layer_mla(
     dst_layers: torch.Tensor,
     src_indices: torch.Tensor,
     dst_indices: torch.Tensor,
-    io_backend: str,
     item_size: int,
     num_layers: int,
     block_quota: int = 2,
     num_warps_per_block: int = 32,
 ):
-    if io_backend == "kernel":
-        torch.ops.sgl_kernel.transfer_kv_all_layer_mla(
-            src_layers,
-            dst_layers,
-            src_indices,
-            dst_indices,
-            item_size,
-            num_layers,
-            block_quota,
-            num_warps_per_block,
-        )
-    elif io_backend == "direct":
-        raise NotImplementedError("Deprecated interface")
-    else:
-        raise ValueError(f"Unsupported io backend")
+    torch.ops.sgl_kernel.transfer_kv_all_layer_mla(
+        src_layers,
+        dst_layers,
+        src_indices,
+        dst_indices,
+        item_size,
+        num_layers,
+        block_quota,
+        num_warps_per_block,
+    )
 
 
 def transfer_kv_all_layer_mla_lf_pf(
diff --git a/sgl-kernel/tests/test_kvcacheio.py b/sgl-kernel/tests/test_kvcacheio.py
index 171fc4ca4793..d2b5be111973 100644
--- a/sgl-kernel/tests/test_kvcacheio.py
+++ b/sgl-kernel/tests/test_kvcacheio.py
@@ -101,9 +101,7 @@ def test_transfer_kv(
                 dst_pool_kernel[layer_idx_to_test],
                 src_indices_device,
                 dst_indices_device,
-                io_backend="kernel",
-                page_size=page_size,
-                item_size=item_size,
+                item_size=item_size * dtype.itemsize,
             )
             transfer_kv_direct(
                 [src_pool_host[layer_idx_to_test]],
@@ -138,7 +136,6 @@ def test_transfer_kv(
                 dst_layers_device,
                 src_indices_device,
                 dst_indices_device,
-                io_backend="kernel",
                 item_size=item_size * dtype.itemsize,
                 num_layers=num_layers,
             )
@@ -173,9 +170,7 @@ def test_transfer_kv(
                 dst_v_pool_kernel[layer_idx_to_test],
                 src_indices_device,
                 dst_indices_device,
-                io_backend="kernel",
-                page_size=page_size,
-                item_size=item_size,
+                item_size=item_size * dtype.itemsize,
             )
             transfer_kv_direct(
                 [src_k_pool[layer_idx_to_test], src_v_pool[layer_idx_to_test]],
@@ -235,7 +230,6 @@ def test_transfer_kv(
                 dst_v_layers_device,
                 src_indices_device,
                 dst_indices_device,
-                io_backend="kernel",
                 item_size=item_size * dtype.itemsize,
                 num_layers=num_layers,
             )

From f4674df646ca8a5515dfdc93677f7bdc052416c6 Mon Sep 17 00:00:00 2001
From: ZhichenJiang <1147802470@qq.com>
Date: Fri, 25 Jul 2025 11:43:52 +0800
Subject: [PATCH 122/396] support idle batch for TBO (#8233)

---
 python/sglang/srt/two_batch_overlap.py | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index 3fdf2a1f77a6..74bc1ba8572e 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -341,15 +341,18 @@ def _compute_local_forward_mode(local_batch):
 
     @staticmethod
     def _compute_global_forward_mode(forward_modes):
-        converted_forward_modes = [
-            ForwardMode.DECODE.value if x == ForwardMode.IDLE.value else x
-            for x in forward_modes
+        forward_modes_excluding_idle = [
+            x for x in forward_modes if x != ForwardMode.IDLE.value
         ]
+
+        if not forward_modes_excluding_idle:
+            return ForwardMode.IDLE, False
+
         forward_mode_agree = TboDPAttentionPreparer._is_all_same(
-            converted_forward_modes
+            forward_modes_excluding_idle
         )
         global_forward_mode = (
-            ForwardMode(converted_forward_modes[0]) if forward_mode_agree else None
+            ForwardMode(forward_modes_excluding_idle[0]) if forward_mode_agree else None
         )
         return global_forward_mode, forward_mode_agree
 

From 28d4d4728088f551f13edfcafadf12484b32ee64 Mon Sep 17 00:00:00 2001
From: li haoyang <haoyanli@amd.com>
Date: Fri, 25 Jul 2025 11:48:42 +0800
Subject: [PATCH 123/396] [Feature] Integrate quick allreduce and select the
 best allreduce implementation (#6619)

Signed-off-by: Haoyang Li <Haoyang.Li@amd.com>
Co-authored-by: ilmarkov <imarkov@redhat.com>
---
 python/sglang/srt/_custom_ops.py              |  30 +-
 .../device_communicators/custom_all_reduce.py |  94 +--
 .../custom_all_reduce_utils.py                |  97 ++-
 .../device_communicators/quick_all_reduce.py  | 273 ++++++++
 .../sglang/srt/distributed/parallel_state.py  |  76 ++-
 sgl-kernel/csrc/allreduce/quick_all_reduce.cu | 111 +++
 .../csrc/allreduce/quick_all_reduce.cuh       | 633 ++++++++++++++++++
 sgl-kernel/csrc/allreduce/quick_all_reduce.h  | 233 +++++++
 .../csrc/allreduce/quick_all_reduce_base.h    | 318 +++++++++
 sgl-kernel/csrc/torch_extension_rocm.cc       |  19 +
 sgl-kernel/include/sgl_kernel_ops.h           |   9 +
 sgl-kernel/python/sgl_kernel/allreduce.py     |  34 +-
 sgl-kernel/setup_rocm.py                      |   1 +
 test/srt/test_quick_allreduce.py              | 212 ++++++
 14 files changed, 2031 insertions(+), 109 deletions(-)
 create mode 100644 python/sglang/srt/distributed/device_communicators/quick_all_reduce.py
 create mode 100644 sgl-kernel/csrc/allreduce/quick_all_reduce.cu
 create mode 100644 sgl-kernel/csrc/allreduce/quick_all_reduce.cuh
 create mode 100644 sgl-kernel/csrc/allreduce/quick_all_reduce.h
 create mode 100644 sgl-kernel/csrc/allreduce/quick_all_reduce_base.h
 create mode 100644 test/srt/test_quick_allreduce.py

diff --git a/python/sglang/srt/_custom_ops.py b/python/sglang/srt/_custom_ops.py
index 1c232d19f8c2..5ed175312c9b 100644
--- a/python/sglang/srt/_custom_ops.py
+++ b/python/sglang/srt/_custom_ops.py
@@ -1,6 +1,6 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/v0.6.4.post1/vllm/_custom_ops.py
 import logging
-from typing import List, Tuple
+from typing import List, Optional, Tuple
 
 import torch
 
@@ -114,6 +114,34 @@ def allocate_meta_buffer(size: int) -> torch.Tensor:
     def get_meta_buffer_ipc_handle(inp: torch.Tensor) -> torch.Tensor:
         return sgl_kernel.allreduce.get_meta_buffer_ipc_handle(inp)
 
+    # ROCM custom quick allreduce
+
+    def init_custom_qr(
+        rank: int, world_size: int, qr_max_size: Optional[int] = None
+    ) -> int:
+        return sgl_kernel.allreduce.init_custom_qr(world_size, rank, qr_max_size)
+
+    def qr_get_handle(fa: int) -> torch.Tensor:
+        return sgl_kernel.allreduce.qr_get_handle(fa)
+
+    def qr_open_handles(fa: int, handles: list[torch.Tensor]) -> None:
+        sgl_kernel.allreduce.qr_open_handles(fa, handles)
+
+    def qr_all_reduce(
+        fa: int,
+        inp: torch.Tensor,
+        out: torch.Tensor,
+        quant_level: int,
+        cast_bf2half: bool,
+    ) -> None:
+        sgl_kernel.allreduce.qr_all_reduce(fa, inp, out, quant_level, cast_bf2half)
+
+    def qr_destroy(fa: int) -> None:
+        sgl_kernel.allreduce.qr_destroy(fa)
+
+    def qr_max_size() -> int:
+        return sgl_kernel.allreduce.qr_max_size()
+
 
 def mscclpp_generate_unique_id() -> bytes:
     return sgl_kernel.allreduce.mscclpp_generate_unique_id()
diff --git a/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py b/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
index 9faff648c039..a1d28f2fc1d1 100644
--- a/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
+++ b/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
@@ -4,18 +4,18 @@
 import logging
 import os
 from contextlib import contextmanager
-from functools import wraps
-from typing import Any, Callable, List, Optional, TypeVar, Union
+from typing import Any, List, Optional, Union
 
 import torch
 import torch.distributed as dist
 from torch.distributed import ProcessGroup
-from typing_extensions import ParamSpec
 
 from sglang.srt import _custom_ops as ops
 from sglang.srt.distributed.device_communicators.cuda_wrapper import CudaRTLibrary
 from sglang.srt.distributed.device_communicators.custom_all_reduce_utils import (
     gpu_p2p_access_check,
+    is_full_nvlink,
+    is_weak_contiguous,
 )
 from sglang.srt.distributed.parallel_state import in_the_same_node_as
 from sglang.srt.utils import is_cuda, is_hip
@@ -25,23 +25,6 @@
 _is_cuda = is_cuda()
 _is_hip = is_hip()
 
-if _is_cuda:
-    try:
-        import pynvml
-    except ImportError as e:
-        logger.warning("Failed to import pynvml with %r", e)
-
-if _is_hip:
-    try:
-        from amdsmi import (
-            AmdSmiException,
-            amdsmi_get_processor_handles,
-            amdsmi_init,
-            amdsmi_shut_down,
-            amdsmi_topo_get_link_type,
-        )
-    except ImportError as e:
-        logger.warning("Failed to import amdsmi with %r", e)
 
 try:
     if ops.use_vllm_custom_allreduce and not _is_hip:
@@ -57,70 +40,6 @@
 
 logger = logging.getLogger(__name__)
 
-_P = ParamSpec("_P")
-_R = TypeVar("_R")
-
-
-def with_nvml_context(fn: Callable[_P, _R]) -> Callable[_P, _R]:
-    @wraps(fn)
-    def wrapper(*args: _P.args, **kwargs: _P.kwargs) -> _R:
-        if _is_hip:
-            try:
-                amdsmi_init()
-                return fn(*args, **kwargs)
-            finally:
-                amdsmi_shut_down()
-        else:
-            pynvml.nvmlInit()
-            try:
-                return fn(*args, **kwargs)
-            finally:
-                pynvml.nvmlShutdown()
-
-    return wrapper
-
-
-@with_nvml_context
-def is_full_nvlink(physical_device_ids: List[int], world_size: int) -> bool:
-    if _is_hip:
-        """
-        query if the set of gpus are fully connected by xgmi (1 hop)
-        """
-        handles = [amdsmi_get_processor_handles()[i] for i in physical_device_ids]
-        for i, handle in enumerate(handles):
-            for j, peer_handle in enumerate(handles):
-                if i < j:
-                    try:
-                        link_type = amdsmi_topo_get_link_type(handle, peer_handle)
-                        # type is 2 for XGMI
-                        if link_type["hops"] != 1 or link_type["type"] != 2:
-                            return False
-                    except AmdSmiException as error:
-                        logger.error("AMD 1 hop XGMI detection failed.", exc_info=error)
-                        return False
-        return True
-    else:
-        """
-        query if the set of gpus are fully connected by nvlink (1 hop)
-        """
-        handles = [pynvml.nvmlDeviceGetHandleByIndex(i) for i in physical_device_ids]
-        for i, handle in enumerate(handles):
-            for j, peer_handle in enumerate(handles):
-                if i < j:
-                    try:
-                        p2p_status = pynvml.nvmlDeviceGetP2PStatus(
-                            handle, peer_handle, pynvml.NVML_P2P_CAPS_INDEX_NVLINK
-                        )
-                        if p2p_status != pynvml.NVML_P2P_STATUS_OK:
-                            return False
-                    except pynvml.NVMLError:
-                        logger.exception(
-                            "NVLink detection failed. This is normal if your"
-                            " machine has no NVLink equipped."
-                        )
-                        return False
-        return True
-
 
 def _can_p2p(rank: int, world_size: int) -> bool:
     # SGLANG_SKIP_P2P_CHECK can be set to False in sglang
@@ -136,13 +55,6 @@ def _can_p2p(rank: int, world_size: int) -> bool:
     return True
 
 
-def is_weak_contiguous(inp: torch.Tensor):
-    return inp.is_contiguous() or (
-        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
-        == inp.numel() * inp.element_size()
-    )
-
-
 class CustomAllreduce:
     _SUPPORTED_WORLD_SIZES = [2, 4, 6, 8]
     _MAX_CAR_SIZE = 8192 * 1024
diff --git a/python/sglang/srt/distributed/device_communicators/custom_all_reduce_utils.py b/python/sglang/srt/distributed/device_communicators/custom_all_reduce_utils.py
index 86121ac976ee..c7baac845287 100644
--- a/python/sglang/srt/distributed/device_communicators/custom_all_reduce_utils.py
+++ b/python/sglang/srt/distributed/device_communicators/custom_all_reduce_utils.py
@@ -8,17 +8,44 @@
 import subprocess
 import sys
 import tempfile
+from functools import wraps
 from itertools import product
-from typing import Dict, List, Optional, Sequence
+from typing import Callable, Dict, List, Optional, Sequence, TypeVar
 
 import torch
 import torch.distributed as dist
 import torch.multiprocessing as mp
+from typing_extensions import ParamSpec
 
 from sglang.srt.distributed.device_communicators.cuda_wrapper import CudaRTLibrary
+from sglang.srt.utils import is_cuda, is_hip
 
 logger = logging.getLogger(__name__)
 
+_is_cuda = is_cuda()
+_is_hip = is_hip()
+
+if _is_cuda:
+    try:
+        import pynvml
+    except ImportError as e:
+        logger.warning("Failed to import pynvml with %r", e)
+
+if _is_hip:
+    try:
+        from amdsmi import (
+            AmdSmiException,
+            amdsmi_get_processor_handles,
+            amdsmi_init,
+            amdsmi_shut_down,
+            amdsmi_topo_get_link_type,
+        )
+    except ImportError as e:
+        logger.warning("Failed to import amdsmi with %r", e)
+
+_P = ParamSpec("_P")
+_R = TypeVar("_R")
+
 
 def update_environment_variables(envs: Dict[str, str]):
     for k, v in envs.items():
@@ -282,6 +309,74 @@ def gpu_p2p_access_check(src: int, tgt: int) -> bool:
     return _gpu_p2p_access_cache[f"{src}->{tgt}"]
 
 
+def with_nvml_context(fn: Callable[_P, _R]) -> Callable[_P, _R]:
+    @wraps(fn)
+    def wrapper(*args: _P.args, **kwargs: _P.kwargs) -> _R:
+        if _is_hip:
+            try:
+                amdsmi_init()
+                return fn(*args, **kwargs)
+            finally:
+                amdsmi_shut_down()
+        else:
+            pynvml.nvmlInit()
+            try:
+                return fn(*args, **kwargs)
+            finally:
+                pynvml.nvmlShutdown()
+
+    return wrapper
+
+
+@with_nvml_context
+def is_full_nvlink(physical_device_ids: List[int], world_size: int) -> bool:
+    if _is_hip:
+        """
+        query if the set of gpus are fully connected by xgmi (1 hop)
+        """
+        handles = [amdsmi_get_processor_handles()[i] for i in physical_device_ids]
+        for i, handle in enumerate(handles):
+            for j, peer_handle in enumerate(handles):
+                if i < j:
+                    try:
+                        link_type = amdsmi_topo_get_link_type(handle, peer_handle)
+                        # type is 2 for XGMI
+                        if link_type["hops"] != 1 or link_type["type"] != 2:
+                            return False
+                    except AmdSmiException as error:
+                        logger.error("AMD 1 hop XGMI detection failed.", exc_info=error)
+                        return False
+        return True
+    else:
+        """
+        query if the set of gpus are fully connected by nvlink (1 hop)
+        """
+        handles = [pynvml.nvmlDeviceGetHandleByIndex(i) for i in physical_device_ids]
+        for i, handle in enumerate(handles):
+            for j, peer_handle in enumerate(handles):
+                if i < j:
+                    try:
+                        p2p_status = pynvml.nvmlDeviceGetP2PStatus(
+                            handle, peer_handle, pynvml.NVML_P2P_CAPS_INDEX_NVLINK
+                        )
+                        if p2p_status != pynvml.NVML_P2P_STATUS_OK:
+                            return False
+                    except pynvml.NVMLError:
+                        logger.exception(
+                            "NVLink detection failed. This is normal if your"
+                            " machine has no NVLink equipped."
+                        )
+                        return False
+        return True
+
+
+def is_weak_contiguous(inp: torch.Tensor):
+    return inp.is_contiguous() or (
+        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
+        == inp.numel() * inp.element_size()
+    )
+
+
 __all__ = ["gpu_p2p_access_check"]
 
 if __name__ == "__main__":
diff --git a/python/sglang/srt/distributed/device_communicators/quick_all_reduce.py b/python/sglang/srt/distributed/device_communicators/quick_all_reduce.py
new file mode 100644
index 000000000000..0113c432df85
--- /dev/null
+++ b/python/sglang/srt/distributed/device_communicators/quick_all_reduce.py
@@ -0,0 +1,273 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import logging
+import os
+from enum import Enum
+from typing import Union
+
+import torch
+import torch.distributed as dist
+from torch.distributed import ProcessGroup
+
+from sglang.srt import _custom_ops as ops
+from sglang.srt.distributed.device_communicators.custom_all_reduce_utils import (
+    is_full_nvlink,
+    is_weak_contiguous,
+)
+from sglang.srt.distributed.parallel_state import in_the_same_node_as
+from sglang.srt.utils import is_cuda, is_hip
+
+logger = logging.getLogger(__name__)
+
+_is_cuda = is_cuda()
+_is_hip = is_hip()
+
+
+try:
+    ops.qr_max_size()
+    quick_ar = True
+except Exception:
+    # For CPUs and CUDA
+    quick_ar = False
+
+
+def qr_rocm_arch_available():
+    if not _is_hip:
+        return False
+    try:
+        props = torch.cuda.get_device_properties(0)
+        gcn_arch = getattr(props, "gcnArchName", "")
+        supported_archs = ["gfx94", "gfx95"]
+        return any(gfx in gcn_arch for gfx in supported_archs)
+    except Exception as e:
+        logger.warning("Failed to determine ROCm for quick allreduce: %s", e)
+        return False
+
+
+class QuickReduceRegime(Enum):
+    FP = 0
+    INT8 = 1
+    INT6 = 2
+    INT4 = 3
+    NONE = 4
+
+
+MB = 1024 * 1024
+
+
+class QuickAllReduce:
+
+    _SUPPORTED_WORLD_SIZES = [2, 4, 8]
+    _SUPPORTED_DTYPES = [torch.float16, torch.bfloat16]
+    # The following data is based on kernel tests.
+    # In this order [FP, INT8, INT6, INT4].
+    _QR_MIN_SIZE = {
+        (torch.float16, 2): [1 * MB, 2 * MB, 2 * MB, 1 * MB],
+        (torch.float16, 4): [1 * MB, 16 * MB, 4 * MB, 2 * MB],
+        (torch.float16, 8): [16 * MB, 4 * MB, 4 * MB, 2 * MB],
+        (torch.bfloat16, 2): [2 * MB, 8 * MB, 8 * MB, 8 * MB],
+        (torch.bfloat16, 4): [8 * MB, 64 * MB, 64 * MB, 16 * MB],
+        (torch.bfloat16, 8): [16 * MB, 2048 * MB, 2048 * MB, 2048 * MB],
+    }
+
+    def __init__(
+        self, group: ProcessGroup, device: Union[int, str, torch.device]
+    ) -> None:
+        """
+        Custom allreduce provides non-destructive acceleration and is
+        available for CUDA and ROCm MI300 series.
+        Custom quick allreduce leverages quantization for further
+        acceleration on ROCm. It currently supports Q8, Q6, and Q4
+        quantization formats and FP(float16, bfloat16).
+        Quick allreduce is designed as a complement to custom allreduce.
+        Its initialization requires even stricter conditions.
+        Only the ROCm MI300 series is supported for quick allreduce at
+        this time.
+        Args:
+            group: the process group to work on. If None, it will use the
+                default process group.
+            device: the device to bind the CustomAllreduce to. If None,
+                it will be bind to f"cuda:{local_rank}".
+        It is the caller's responsibility to make sure each communicator
+        is bind to a unique device, and all communicators in this group
+        are in the same node.
+        """
+        self.disabled = True
+        if not qr_rocm_arch_available():
+            logger.debug(
+                "Custom quick allreduce is only supported on ROCm MI300 series."
+            )
+            return
+
+        if not quick_ar:
+            # disable because of missing quick reduce library
+            # e.g. in a cuda environment
+            logger.info(
+                "Custom quick allreduce is disabled because "
+                "of missing custom quick allreduce library"
+            )
+            return
+
+        self.group = group
+        assert (
+            dist.get_backend(group) != dist.Backend.NCCL
+        ), "Custom quick allreduce should be attached to a non-NCCL group."
+        if not all(in_the_same_node_as(group, source_rank=0)):
+            # No need to initialize custom quick allreduce for
+            # multi-node case.
+            logger.warning(
+                "Custom quick allreduce is disabled because this "
+                "process group spans across nodes."
+            )
+            return
+        rank = dist.get_rank(group=self.group)
+        world_size = dist.get_world_size(group=self.group)
+        self.rank = rank
+        self.world_size = world_size
+        if world_size == 1:
+            # No need to initialize QuickReduce for single GPU case.
+            return
+
+        if world_size not in QuickAllReduce._SUPPORTED_WORLD_SIZES:
+            logger.warning(
+                "Custom quick allreduce is disabled due to an "
+                "unsupported world size: %d. Supported world sizes: %s.",
+                world_size,
+                str(QuickAllReduce._SUPPORTED_WORLD_SIZES),
+            )
+            return
+
+        if isinstance(device, int):
+            device = torch.device(f"cuda:{device}")
+        elif isinstance(device, str):
+            device = torch.device(device)
+        assert isinstance(device, torch.device)
+        self.device = device
+
+        cuda_visible_devices = os.environ.get("CUDA_VISIBLE_DEVICES", None)
+        if cuda_visible_devices:
+            device_ids = list(map(int, cuda_visible_devices.split(",")))
+        else:
+            device_ids = list(range(torch.cuda.device_count()))
+        physical_device_id = device_ids[device.index]
+        tensor = torch.tensor([physical_device_id], dtype=torch.int, device="cpu")
+        gather_list = [
+            torch.tensor([0], dtype=torch.int, device="cpu")
+            for _ in range(self.world_size)
+        ]
+        dist.all_gather(gather_list, tensor, group=self.group)
+        physical_device_ids = [t.item() for t in gather_list]
+
+        # test nvlink first, this will filter out most of the cases
+        # where custom quick allreduce is not supported
+        # this checks hardware and driver support for NVLink
+        if _is_cuda or _is_hip:
+            self.fully_connected = is_full_nvlink(physical_device_ids, self.world_size)
+        if self.world_size > 2 and not self.fully_connected:
+            logger.debug(
+                "Custom quick allreduce is disabled because it's not supported "
+                "on more than two PCIe-only GPUs. "
+            )
+            return
+
+        self.init_quick_all_reduce()
+
+    def init_quick_all_reduce(self):
+        # On RocM, bfloat16 kernels are slower than fp16
+        # due to slower match operations
+        # If environment variable is set to 1, we convert input to fp16
+        self.use_fp16_kernels = int(
+            os.environ.get("ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16", 1)
+        )
+        regime_str = os.environ.get("ROCM_QUICK_REDUCE_QUANTIZATION", "NONE")
+        if regime_str not in QuickReduceRegime.__members__:
+            logger.warning(
+                "Custom quick allreduce:",
+                f"Invalid quantization level: {regime_str}. "
+                "Supported levels: "
+                f"{list(QuickReduceRegime.__members__.keys())}",
+            )
+            return
+
+        if regime_str == "NONE":
+            logger.debug(
+                "Custom quick allreduce is disabled based "
+                "on env variable "
+                "ROCM_QUICK_REDUCE_QUANTIZATION='NONE'"
+            )
+            return
+        self.qr_quant_level = QuickReduceRegime[regime_str]
+
+        # TODO: If the dtype is not bfloat16 or then float16,
+        # quickallreduce should not be created.
+
+        # ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB is specified in MB
+        qr_max_size = int(os.environ.get("ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB", 0))
+        if qr_max_size > 0:
+            if qr_max_size < 1:
+                logger.info(
+                    "You should not set a max_size smaller than 1MB, which can "
+                    "lead to error or degradation to custom allreduce or rccl."
+                )
+            qr_max_size = qr_max_size * MB
+        # If qr_max_size is None, then 2GB is used by default.
+        self._ptr = ops.init_custom_qr(self.rank, self.world_size, qr_max_size)
+        self.qr_max_size = qr_max_size if qr_max_size > 0 else ops.qr_max_size()
+        self.create_shared_buffer()
+        self.disabled = False
+
+    def create_shared_buffer(self):
+        """
+        Creates a shared buffer for quickreduce.
+        Has to be called after init_custom_qr
+        """
+        handle = ops.qr_get_handle(self._ptr)
+        world_size = dist.get_world_size(group=self.group)
+        handles = [None] * world_size
+        dist.all_gather_object(handles, handle, group=self.group)
+        ops.qr_open_handles(self._ptr, handles)
+
+    def should_quick_allreduce(self, inp: torch.Tensor):
+        """
+        Check if quickreduce is available
+        """
+        if self.disabled:
+            return False
+        if inp.dtype not in self._SUPPORTED_DTYPES:
+            return False
+        inp_size = inp.numel() * inp.element_size()
+        # custom quick allreduce requires input byte size to be
+        # multiples of 16
+        if inp_size % 16 != 0:
+            return False
+        if not is_weak_contiguous(inp):
+            return False
+        dtype = inp.dtype
+        if self.use_fp16_kernels:
+            dtype = torch.float16
+        return (
+            inp_size <= self.qr_max_size
+            and inp_size
+            >= self._QR_MIN_SIZE[(dtype, self.world_size)][self.qr_quant_level.value]
+        )
+
+    def quick_all_reduce(self, inp: torch.Tensor, *, out: torch.Tensor = None):
+        """Performs an out-of-place custom quick all reduce."""
+        # quick allreduce doesn't require a separate graph mode,
+        # as QR uses static IPC buffer.
+        if out is None:
+            out = torch.empty_like(inp)
+        ops.qr_all_reduce(
+            self._ptr, inp, out, self.qr_quant_level.value, self.use_fp16_kernels
+        )
+        return out
+
+    def close(self):
+        if not self.disabled and getattr(self, "_ptr", None):
+            if ops is not None:
+                ops.qr_destroy(self._ptr)
+            self._ptr = 0
+            self.disabled = True
+
+    def __del__(self):
+        self.close()
diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
index 509c71531062..130bc53c7ed9 100644
--- a/python/sglang/srt/distributed/parallel_state.py
+++ b/python/sglang/srt/distributed/parallel_state.py
@@ -44,6 +44,7 @@
     get_bool_env_var,
     get_int_env_var,
     is_cuda_alike,
+    is_hip,
     is_npu,
     is_shm_available,
     supports_custom_op,
@@ -126,14 +127,18 @@ def inplace_all_reduce_fake(tensor: torch.Tensor, group_name: str) -> None:
         fake_impl=inplace_all_reduce_fake,
     )
 
-    def outplace_all_reduce(tensor: torch.Tensor, group_name: str) -> torch.Tensor:
+    def outplace_all_reduce(
+        tensor: torch.Tensor, group_name: str, outplace_all_reduce_method: str
+    ) -> torch.Tensor:
         assert group_name in _groups, f"Group {group_name} is not found."
         group = _groups[group_name]()
         if group is None:
             raise ValueError(f"Group {group_name} is destroyed.")
-        return group._all_reduce_out_place(tensor)
+        return group._all_reduce_out_place(tensor, outplace_all_reduce_method)
 
-    def outplace_all_reduce_fake(tensor: torch.Tensor, group_name: str) -> torch.Tensor:
+    def outplace_all_reduce_fake(
+        tensor: torch.Tensor, group_name: str, outplace_all_reduce_method: str
+    ) -> torch.Tensor:
         return torch.empty_like(tensor)
 
     direct_register_custom_op(
@@ -264,6 +269,12 @@ def __init__(
             PyNcclCommunicator,
         )
 
+        if is_hip():
+            from sglang.srt.distributed.device_communicators.quick_all_reduce import (
+                QuickAllReduce,
+                qr_rocm_arch_available,
+            )
+
         self.pynccl_comm: Optional[PyNcclCommunicator] = None
         if use_pynccl and self.world_size > 1:
             self.pynccl_comm = PyNcclCommunicator(
@@ -283,6 +294,7 @@ def __init__(
             )
 
         self.ca_comm: Optional[CustomAllreduce] = None
+        self.qr_comm: Optional[QuickAllReduce] = None
         if use_custom_allreduce and self.world_size > 1:
             # Initialize a custom fast all-reduce implementation.
             try:
@@ -295,6 +307,18 @@ def __init__(
                     f"Setup Custom allreduce failed with {e}. To silence this "
                     "warning, specify --disable-custom-all-reduce explicitly."
                 )
+            if is_hip():
+                try:
+                    # Initialize a custom quick all-reduce implementation for AMD
+                    # when rocm >= gfx942. Quick reduce is designed as a
+                    # complement to custom allreduce.
+                    # Based on quickreduce (https://github.com/mk1-project/quickreduce).
+                    if qr_rocm_arch_available():
+                        self.qr_comm = QuickAllReduce(
+                            group=self.cpu_group, device=self.device
+                        )
+                except Exception as e:
+                    logger.warning(f"Failed to initialize QuickAllReduce: {e}")
 
         from sglang.srt.distributed.device_communicators.hpu_communicator import (
             HpuCommunicator,
@@ -373,7 +397,8 @@ def graph_capture(
             graph_capture_context = GraphCaptureContext(stream)
         else:
             stream = graph_capture_context.stream
-
+        # We don't need the context of custom quick allreduce because the ipc access
+        # is already collected in init() and we can capture the quick allreduce directly.
         ca_comm = self.ca_comm
         maybe_ca_context = nullcontext() if ca_comm is None else ca_comm.capture()
 
@@ -388,23 +413,24 @@ def graph_capture(
             # operations. The current status is:
             #     allreduce \ Mode   |  Eager  |  Graph  |
             # --------------------------------------------
+            # quick allreduce        | enabled | enabled |
             # custom allreduce       | enabled | enabled |
             # PyNccl                 | disabled| enabled |
             # PyMscclpp              | disabled| enabled |
             # torch.distributed      | enabled | disabled|
             #
+            # Note: When custom quick allreduce is enabled, a runtime check
+            #  will be performed. If the tensor size is too small, it will
+            #  automatically fall back to the next available option.
             # Note that custom allreduce will have a runtime check, if the
             #  tensor size is too large, it will fallback to the next
             #  available option.
             # Note that the PyMsccl needs to register the tensor in ahead,
             #  which will introduce large overhead in the eager case,
             #  therefore it is only supported in the graph case.
-            # In summary: When using CUDA graph, we use
-            #  either custom all-reduce kernel or pynccl. When not using
-            #  CUDA graph, we use either custom all-reduce kernel or
-            #  PyTorch NCCL. We always prioritize using custom all-reduce
-            #  kernel but fall back to PyTorch or pynccl if it is
-            #  disabled or not supported.
+            # In summary: We select the appropriate allreduce method for
+            #  each mode based on the algorithm order in the table and
+            #  their usage conditions.
             pynccl_comm = self.pynccl_comm
             maybe_pynccl_context: Any
             if not pynccl_comm:
@@ -464,27 +490,47 @@ def all_reduce(self, input_: torch.Tensor) -> torch.Tensor:
         if self.npu_communicator is not None and not self.npu_communicator.disabled:
             return self.npu_communicator.all_reduce(input_)
 
+        outplace_all_reduce_method = None
         if (
+            self.qr_comm is not None
+            and not self.qr_comm.disabled
+            and self.qr_comm.should_quick_allreduce(input_)
+        ):
+            outplace_all_reduce_method = "qr"
+        elif (
             self.ca_comm is not None
             and not self.ca_comm.disabled
             and self.ca_comm.should_custom_ar(input_)
-        ) or (
+        ):
+            outplace_all_reduce_method = "ca"
+        elif (
             self.pymscclpp_comm is not None
             and not self.pymscclpp_comm.disabled
             and self.pymscclpp_comm.should_mscclpp_allreduce(input_)
         ):
+            outplace_all_reduce_method = "pymscclpp"
+        if outplace_all_reduce_method is not None:
             return torch.ops.sglang.outplace_all_reduce(
-                input_, group_name=self.unique_name
+                input_,
+                group_name=self.unique_name,
+                outplace_all_reduce_method=outplace_all_reduce_method,
             )
         else:
             torch.ops.sglang.inplace_all_reduce(input_, group_name=self.unique_name)
             return input_
 
-    def _all_reduce_out_place(self, input_: torch.Tensor) -> torch.Tensor:
+    def _all_reduce_out_place(
+        self, input_: torch.Tensor, outplace_all_reduce_method: str
+    ) -> torch.Tensor:
+        qr_comm = self.qr_comm
         ca_comm = self.ca_comm
         pymscclpp_comm = self.pymscclpp_comm
-        assert ca_comm is not None or pymscclpp_comm is not None
-        if ca_comm is not None and not ca_comm.disabled:
+        assert any([qr_comm, ca_comm, pymscclpp_comm])
+        if outplace_all_reduce_method == "qr":
+            assert not qr_comm.disabled
+            out = qr_comm.quick_all_reduce(input_)
+        elif outplace_all_reduce_method == "ca":
+            assert not ca_comm.disabled
             out = ca_comm.custom_all_reduce(input_)
         else:
             assert not pymscclpp_comm.disabled
diff --git a/sgl-kernel/csrc/allreduce/quick_all_reduce.cu b/sgl-kernel/csrc/allreduce/quick_all_reduce.cu
new file mode 100644
index 000000000000..757c05d2bddc
--- /dev/null
+++ b/sgl-kernel/csrc/allreduce/quick_all_reduce.cu
@@ -0,0 +1,111 @@
+#include <ATen/cuda/Exceptions.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <c10/cuda/CUDAStream.h>
+#include <torch/all.h>
+
+#ifdef USE_ROCM
+
+#include "quick_all_reduce.h"
+
+quickreduce::fptr_t init_custom_qr(int64_t rank, int64_t world_size, std::optional<int64_t> qr_max_size) {
+  if (world_size > 8) throw std::invalid_argument("world size > 8 is not supported");
+  if (world_size == 6) throw std::invalid_argument("world size == 6 is not supported");
+  if (world_size % 2 != 0) throw std::invalid_argument("Odd num gpus is not supported for now");
+  if (rank < 0 || rank >= world_size) throw std::invalid_argument("invalid rank passed in");
+  quickreduce::DeviceComms* fptr = new quickreduce::DeviceComms();
+  fptr->init(world_size, rank, qr_max_size);
+  return (quickreduce::fptr_t)fptr;
+}
+
+void qr_destroy(quickreduce::fptr_t _fa) {
+  if (_fa) {
+    auto fa = reinterpret_cast<quickreduce::DeviceComms*>(_fa);
+    fa->destroy();
+    delete fa;
+  }
+}
+
+torch::Tensor qr_get_handle(quickreduce::fptr_t _fa) {
+  auto fa = reinterpret_cast<quickreduce::DeviceComms*>(_fa);
+  hipIpcMemHandle_t handle = fa->get_handle();
+  auto options = torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCPU);
+  auto data_handle = torch::empty({static_cast<int64_t>(sizeof(hipIpcMemHandle_t))}, options);
+  std::memcpy(data_handle.data_ptr(), &handle, sizeof(hipIpcMemHandle_t));
+  return data_handle;
+}
+
+void qr_open_handles(quickreduce::fptr_t _fa, const std::vector<torch::Tensor>& handles) {
+  auto fa = reinterpret_cast<quickreduce::DeviceComms*>(_fa);
+  std::vector<hipIpcMemHandle_t> ipc_handles;
+  ipc_handles.reserve(handles.size());
+  for (auto& handle : handles) {
+    // Ensure the tensor is on the same device as the current device.
+    hipIpcMemHandle_t ipc_handle;
+    std::memcpy(&ipc_handle, handle.data_ptr(), sizeof(hipIpcMemHandle_t));
+    ipc_handles.push_back(ipc_handle);
+  }
+  fa->open_ipc_handles(ipc_handles);
+}
+
+void qr_all_reduce(
+    quickreduce::fptr_t _fa, torch::Tensor& inp, torch::Tensor& out, int64_t quant_level, bool cast_bf2half) {
+  auto fa = reinterpret_cast<quickreduce::DeviceComms*>(_fa);
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(inp));
+  auto stream = at::cuda::getCurrentHIPStreamMasqueradingAsCUDA();
+
+  TORCH_CHECK_EQ(inp.scalar_type(), out.scalar_type());
+  TORCH_CHECK_EQ(inp.numel(), out.numel());
+  TORCH_CHECK_LE(out.numel(), fa->kMaxProblemSize);
+  if (out.scalar_type() == at::ScalarType::Half) {
+    fa->allreduce<half, false>(
+        reinterpret_cast<half*>(inp.data_ptr()),
+        reinterpret_cast<half*>(out.data_ptr()),
+        out.numel(),
+        quant_level,
+        stream);
+  } else if (out.scalar_type() == at::ScalarType::BFloat16) {
+    if (cast_bf2half) {
+      fa->allreduce<half, true>(
+          reinterpret_cast<half*>(inp.data_ptr()),
+          reinterpret_cast<half*>(out.data_ptr()),
+          out.numel(),
+          quant_level,
+          stream);
+    } else {
+      fa->allreduce<quickreduce::nv_bfloat16, false>(
+          reinterpret_cast<quickreduce::nv_bfloat16*>(inp.data_ptr()),
+          reinterpret_cast<quickreduce::nv_bfloat16*>(out.data_ptr()),
+          out.numel(),
+          quant_level,
+          stream);
+    }
+  } else {
+    throw std::runtime_error("quick allreduce only supports float16 and bfloat16");
+  }
+}
+
+int64_t qr_max_size() {
+  // The default is 2GB (2,147,483,648 bytes)
+  return static_cast<int64_t>(std::numeric_limits<int32_t>::max()) + 1;
+}
+
+#define INSTANTIATE_FOR_WORLDSIZE(T, Codec, cast_bf2half)                      \
+  template struct quickreduce::AllReduceTwoshot<T, Codec<T, 2>, cast_bf2half>; \
+  template struct quickreduce::AllReduceTwoshot<T, Codec<T, 4>, cast_bf2half>; \
+  template struct quickreduce::AllReduceTwoshot<T, Codec<T, 8>, cast_bf2half>;
+
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecFP, false)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecQ4, false)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecQ6, false)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecQ8, false)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecFP, true)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecQ4, true)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecQ6, true)
+INSTANTIATE_FOR_WORLDSIZE(quickreduce::nv_bfloat16, quickreduce::CodecQ8, true)
+
+INSTANTIATE_FOR_WORLDSIZE(half, quickreduce::CodecFP, false)
+INSTANTIATE_FOR_WORLDSIZE(half, quickreduce::CodecQ4, false)
+INSTANTIATE_FOR_WORLDSIZE(half, quickreduce::CodecQ6, false)
+INSTANTIATE_FOR_WORLDSIZE(half, quickreduce::CodecQ8, false)
+
+#endif  // USE_ROCM
diff --git a/sgl-kernel/csrc/allreduce/quick_all_reduce.cuh b/sgl-kernel/csrc/allreduce/quick_all_reduce.cuh
new file mode 100644
index 000000000000..bd9e7b10fa19
--- /dev/null
+++ b/sgl-kernel/csrc/allreduce/quick_all_reduce.cuh
@@ -0,0 +1,633 @@
+#pragma once
+
+#include <hip/hip_runtime.h>
+
+#include "quick_all_reduce_base.h"
+
+namespace quickreduce {
+
+struct CodecBase {
+  const int thread;
+  const int rank;
+  const int group_leader;
+  __quickreduce_device_inline__ CodecBase(int thread, int rank)
+      : thread(thread), rank(rank), group_leader((threadIdx.x / kThreadGroupSize) * kThreadGroupSize) {
+    set_fp16_ovfl(true);
+  }
+};
+
+// Default full precision codec.
+template <typename T, int world_size>
+struct CodecFP : public CodecBase {
+  static constexpr int kWorldSize = world_size;
+  static constexpr int kRankAtoms = kAtoms / kWorldSize;
+
+  // Codec tile size process by this workgroup.
+  // Each thread processes atoms of f16x8_t (16B).
+  static constexpr int kRankTransmittedTileSize = kBlockSize * kRankAtoms * sizeof(int32x4_t);
+  static_assert(kRankTransmittedTileSize % 16 == 0, "kRankTransmittedTileSize must be 16B aligned.");
+
+  // Total tile size for the collective communication.
+  static constexpr int kTransmittedTileSize = kRankTransmittedTileSize * kWorldSize;
+
+  __quickreduce_device_inline__ CodecFP(int thread, int rank) : CodecBase(thread, rank) {}
+
+  __quickreduce_device_inline__ void send(int32x4_t* __restrict__ send_buffer, const int32x4_t* __restrict__ data) {
+    for (int i = 0; i < kRankAtoms; i++) {
+      __builtin_nontemporal_store(data[i], send_buffer + thread);
+      send_buffer += kAtomStride;
+    }
+  }
+
+  __quickreduce_device_inline__ void recv(int32x4_t** __restrict__ recv_buffer, int32x4_t* __restrict__ data) {
+    for (int i = 0; i < kRankAtoms; i++) {
+      data[i] = __builtin_nontemporal_load(*recv_buffer + thread);
+      *recv_buffer += kAtomStride;
+    }
+  }
+};
+
+// Int4 symmetric quantization codec.
+// We quantize the FP16 data to block-scaled Int4 in blocks of 4 *
+// kThreadGroupSize.
+template <typename T, int world_size>
+struct CodecQ4 : public CodecBase {
+  static constexpr int kWorldSize = world_size;
+
+  // Codec tile size process by this workgroup.
+  // Each threads processes a fragment of fp16x8_t (16B),
+  // into a int4x8_t (4B) and a fp16 scale shared among 32 values.
+  static constexpr int kRankAtoms = kAtoms / kWorldSize;
+  static constexpr int kRankTileStride = 1152;
+  static constexpr int kRankTileScaleOffset = 1024;
+  static constexpr int kRankTransmittedTileSize = kRankTileStride * kRankAtoms;
+  static_assert(kRankTransmittedTileSize % 16 == 0, "kRankTransmittedTileSize must be 16B aligned.");
+
+  static constexpr int kRankBufferTileStride = kRankTileStride / sizeof(int32x4_t);
+
+  // Total tile size for the collective communication.
+  static constexpr int kTransmittedTileSize = kRankTransmittedTileSize * kWorldSize;
+
+  // Constants configuration
+
+  // {-1/8.0h, -1/8.0h}, f16x2_t
+  static constexpr int kScaleFactor = std::is_same<T, half>::value ? 0xB000B000 : 0xBE00BE00;
+
+  // {1e-7, 1e-7}, f16x2_t
+  static constexpr int kScaleEpsilon = std::is_same<T, half>::value ? 0x00010001 : 0x33D733D7;
+
+  // {-8, -8}, f16x2_t
+  static constexpr int kRangeMin = std::is_same<T, half>::value ? 0xC800C800 : 0xC100C100;
+
+  // {+7, +7}, f16x2_t
+  static constexpr int kRangeMax = std::is_same<T, half>::value ? 0x47004700 : 0x40E040E0;
+
+  // {+8, +8}, int16x2_t
+  static constexpr int kRangeBias = 0x00080008;
+
+  __quickreduce_device_inline__ CodecQ4(int thread, int rank) : CodecBase(thread, rank) {}
+
+  __quickreduce_device_inline__ void send(int32x4_t* __restrict__ send_buffer, const int32x4_t* __restrict__ data) {
+    for (int k = 0; k < kRankAtoms; k++) {
+      int32x4_t const atom = data[k];
+
+      // Compute the absolute maximum of the atom in the thread group
+      // In 2 blocks of values, upper/lower halves of the f16x2_t
+      int wblockmax = group_abs_max<T>(atom);
+
+      // Derive scales
+      int decoding_scale;
+      int encoding_scale;
+      decoding_scale = packed_mul<T>(wblockmax, kScaleFactor);
+      encoding_scale = packed_add<T>(decoding_scale, kScaleEpsilon);
+      encoding_scale = packed_rcp<T>(encoding_scale);
+
+      // Apply scales to get quantized values
+      int32x4_t w;
+      for (int i = 0; i < 4; i++) {
+        w[i] = packed_mul<T>(atom[i], encoding_scale);
+        w[i] = packed_max<T>(w[i], kRangeMin);
+        w[i] = packed_min<T>(w[i], kRangeMax);
+      }
+
+      // Convert from f16x2_t to uint16x2_t
+      int32x4_t q;
+      {
+        int16_t* qi = reinterpret_cast<int16_t*>(&q);
+        T* wh = reinterpret_cast<T*>(&w);
+        for (int i = 0; i < 8; i++)
+          qi[i] = (int16_t)rintf(T2float_cast(wh[i]));
+
+        for (int i = 0; i < 4; i++) {
+          q[i] = packed_add<int16_t>(q[i], kRangeBias);
+        }
+      }
+
+      // Pack 8 x q4 into int32_t
+      int qw = q[0] | (q[1] << 4) | (q[2] << 8) | (q[3] << 12);
+
+      // Write quantized atom to send_buffer
+      // note: only the group leader stores the scale
+      uint8_t* atom_ptr = reinterpret_cast<uint8_t*>(send_buffer + k * kRankBufferTileStride);
+      int32_t* qw_ptr = reinterpret_cast<int32_t*>(atom_ptr) + thread;
+      int* qs_ptr = reinterpret_cast<int*>(atom_ptr + kRankTileScaleOffset) + (thread / 8);
+
+      __builtin_nontemporal_store(qw, qw_ptr);
+      if (threadIdx.x == group_leader) {
+        __builtin_nontemporal_store(decoding_scale, qs_ptr);
+      }
+    }
+  }
+
+  __quickreduce_device_inline__ void recv(int32x4_t** __restrict__ recv_buffer, int32x4_t* __restrict__ data) {
+    for (int k = 0; k < kRankAtoms; k++) {
+      // Directly read quantized atom from recv_buffer
+      uint8_t* atom_ptr = reinterpret_cast<uint8_t*>(*recv_buffer);
+      int32_t* qw_ptr = reinterpret_cast<int32_t*>(atom_ptr) + thread;
+      int* qs_ptr = reinterpret_cast<int*>(atom_ptr + kRankTileScaleOffset) + (thread / 8);
+
+      int32_t qw = __builtin_nontemporal_load(qw_ptr);
+      int qs = __builtin_nontemporal_load(qs_ptr);
+
+      *recv_buffer += kRankBufferTileStride;
+
+      // Unpack q4 into f16x8_t
+      int32x4_t w;
+      {
+        static constexpr uint kMask000F = 0x000F000F;
+        static constexpr uint kHalf2_1024 = 0x64006400;  // {1024.0, 1024.0}, fp16x2_t
+        static uint constexpr kHalf2_1032 = 0xE408E408;  // {-1032.0, -1032.0}, fp16x2_t
+
+        for (int i = 0; i < 4; i++) {
+          if constexpr (std::is_same<T, half>::value) {
+            int32_t q4 = ((qw >> (i * 4)) & kMask000F) | kHalf2_1024;
+            w[i] = packed_add<half>(q4, kHalf2_1032);
+          } else {
+            int32_t int16_2 = (qw >> (i * 4)) & kMask000F;
+            int16_t low = static_cast<int16_t>(int16_2 & 0xFFFF);
+            int16_t high = static_cast<int16_t>((int16_2 >> 16) & 0xFFFF);
+            nv_bfloat16 bf_low = __float2bfloat16(static_cast<float>(low));
+            nv_bfloat16 bf_high = __float2bfloat16(static_cast<float>(high));
+            nv_bfloat162 bf2 = __halves2bfloat162(bf_low, bf_high);
+            int32_t packed_bf16 = *reinterpret_cast<int32_t*>(&bf2);
+            w[i] = packed_add<nv_bfloat16>(packed_bf16, kRangeMin);
+          }
+        }
+      }
+
+      // Apply decoding scales
+      for (int i = 0; i < 4; i++) {
+        w[i] = packed_mul<T>(w[i], qs);
+      }
+
+      data[k] = w;
+    }
+  }
+};
+
+// Int6 symmetric quantization codec.
+// We quantize the FP16 data to block-scaled Int6 in blocks of 4 *
+// kThreadGroupSize.
+template <typename T, int world_size>
+struct CodecQ6 : public CodecBase {
+  static constexpr int kWorldSize = world_size;
+
+  // Codec tile size process by this workgroup.
+  // Each threads processes a fragment of fp16x8_t (16B),
+  // into a int6x8_t (4B + 2B) and a fp16 scale shared among 32 values.
+  static constexpr int kRankAtoms = kAtoms / kWorldSize;
+  static constexpr int kRankTileStride = 1664;
+  static constexpr int kRankTileQ2Offset = 1024;
+  static constexpr int kRankTileScaleOffset = 1536;
+  static constexpr int kRankTransmittedTileSize = kRankTileStride * kRankAtoms;
+  static_assert(kRankTransmittedTileSize % 16 == 0, "kRankTransmittedTileSize must be 16B aligned.");
+
+  static constexpr int kRankBufferTileStride = kRankTileStride / sizeof(int32x4_t);
+
+  // Total tile size for the collective communication.
+  static constexpr int kTransmittedTileSize = kRankTransmittedTileSize * kWorldSize;
+
+  // Constants configuration
+
+  // {-1/32.0h, -1/32.0h}, fp16x2_t
+  static constexpr int kScaleFactor = std::is_same<T, half>::value ? 0xA800A800 : 0xBD00BD00;
+
+  // {1e-7, 1e-7}, fp16x2_t
+  static constexpr int kScaleEpsilon = std::is_same<T, half>::value ? 0x00010001 : 0x33D733D7;
+
+  // {-32, -32}, fp16x2_t
+  static constexpr int kRangeMin = std::is_same<T, half>::value ? 0xD000D000 : 0xC200C200;
+
+  // {+31, +31}, fp16x2_t
+  static constexpr int kRangeMax = std::is_same<T, half>::value ? 0x4FC04FC0 : 0x41F841F8;
+
+  // {+32, +32}, int16x2_t
+  static constexpr int kRangeBias = 0x00200020;
+
+  __quickreduce_device_inline__ CodecQ6(int thread, int rank) : CodecBase(thread, rank) {}
+
+  __quickreduce_device_inline__ void send(int32x4_t* __restrict__ send_buffer, const int32x4_t* __restrict__ data) {
+    for (int k = 0; k < kRankAtoms; k++) {
+      int32x4_t const atom = data[k];
+
+      // Compute the absolute maximum of the atom in the thread group
+      // In 2 blocks of values, upper/lower halves of the f16x2_t
+      int wblockmax = group_abs_max<T>(atom);
+
+      // Derive scales
+      int decoding_scale;
+      int encoding_scale;
+      decoding_scale = packed_mul<T>(wblockmax, kScaleFactor);
+      encoding_scale = packed_add<T>(decoding_scale, kScaleEpsilon);
+      encoding_scale = packed_rcp<T>(encoding_scale);
+
+      // Apply scales to get quantized values
+      int32x4_t w;
+      for (int i = 0; i < 4; i++) {
+        w[i] = packed_mul<T>(atom[i], encoding_scale);
+        w[i] = packed_max<T>(w[i], kRangeMin);
+        w[i] = packed_min<T>(w[i], kRangeMax);
+      }
+
+      // Convert from f16x2_t to uint16x2_t
+      int32x4_t q;
+      {
+        int16_t* qi = reinterpret_cast<int16_t*>(&q);
+        T* wh = reinterpret_cast<T*>(&w);
+        for (int i = 0; i < 8; i++)
+          qi[i] = (int16_t)rintf(T2float_cast(wh[i]));
+
+        for (int i = 0; i < 4; i++) {
+          q[i] = packed_add<int16_t>(q[i], kRangeBias);
+        }
+      }
+
+      // Pack 8 x q6 into int32_t + int16_t
+      uint32_t q4w;
+      uint16_t q2w = 0;
+      q4w = (q[0] & 0x000F000F) | ((q[1] & 0x000F000F) << 4) | ((q[2] & 0x000F000F) << 8) | ((q[3] & 0x000F000F) << 12);
+      {
+        int16_t* tw = reinterpret_cast<int16_t*>(&q);
+#pragma unroll
+        for (int i = 0; i < 8; i++) {
+          q2w |= (tw[i] >> 4) << (i * 2);
+        }
+      }
+      // Write quantized atom to send_buffer
+      // note: only the group leader stores the scale
+      uint8_t* atom_ptr = reinterpret_cast<uint8_t*>(send_buffer + k * kRankBufferTileStride);
+      uint32_t* q4w_ptr = reinterpret_cast<uint32_t*>(atom_ptr) + thread;
+      uint16_t* q2w_ptr = reinterpret_cast<uint16_t*>(atom_ptr + kRankTileQ2Offset) + thread;
+      int* qs_ptr = reinterpret_cast<int*>(atom_ptr + kRankTileScaleOffset) + (thread / 8);
+
+      __builtin_nontemporal_store(q4w, q4w_ptr);
+      __builtin_nontemporal_store(q2w, q2w_ptr);
+      if (threadIdx.x == group_leader) {
+        __builtin_nontemporal_store(decoding_scale, qs_ptr);
+      }
+    }
+  }
+
+  __quickreduce_device_inline__ void recv(int32x4_t** __restrict__ recv_buffer, int32x4_t* __restrict__ data) {
+    for (int k = 0; k < kRankAtoms; k++) {
+      // Directly read quantized atom from recv_buffer
+      uint8_t* atom_ptr = reinterpret_cast<uint8_t*>(*recv_buffer);
+      uint32_t* q4w_ptr = reinterpret_cast<uint32_t*>(atom_ptr) + thread;
+      uint16_t* q2w_ptr = reinterpret_cast<uint16_t*>(atom_ptr + kRankTileQ2Offset) + thread;
+      int* qs_ptr = reinterpret_cast<int*>(atom_ptr + kRankTileScaleOffset) + (thread / 8);
+
+      uint32_t q4w = __builtin_nontemporal_load(q4w_ptr);
+      uint16_t q2w = __builtin_nontemporal_load(q2w_ptr);
+      int qs = __builtin_nontemporal_load(qs_ptr);
+
+      *recv_buffer += kRankBufferTileStride;
+
+      // Unpack q6 into fp16x8_t
+      int32x4_t w;
+      {
+        static uint constexpr kMask000F = 0x000F000F;
+        static uint constexpr kHalf2_1024 = 0x64006400;  // {1024.0, 1024.0}, fp16x2_t
+        static uint constexpr kHalf2_1056 = 0xE420E420;  // {-1056.0, -1056.0}, fp16x2_t
+
+#pragma unroll
+        for (int i = 0; i < 4; i++) {
+          int32_t q4 = q4w & kMask000F;
+          int32_t q2 = (q2w & 0x3) | ((q2w & 0xC) << 14);
+          q4w >>= 4;
+          q2w >>= 4;
+          if constexpr (std::is_same<T, half>::value) {
+            int32_t q6 = q4 | (q2 << 4) | kHalf2_1024;
+            asm volatile("v_pk_add_f16 %0, %1, %2" : "=v"(w[i]) : "v"(q6), "v"(kHalf2_1056));
+          } else {
+            int32_t int16_2 = q4 | (q2 << 4);
+            int16_t low = static_cast<int16_t>(int16_2 & 0xFFFF);
+            int16_t high = static_cast<int16_t>((int16_2 >> 16) & 0xFFFF);
+
+            nv_bfloat16 bf_low = __float2bfloat16(static_cast<float>(low));
+            nv_bfloat16 bf_high = __float2bfloat16(static_cast<float>(high));
+            nv_bfloat162 bf2 = __halves2bfloat162(bf_low, bf_high);
+            int32_t packed_bf16 = *reinterpret_cast<int32_t*>(&bf2);
+            w[i] = packed_add<nv_bfloat16>(packed_bf16, kRangeMin);
+          }
+        }
+      }
+
+      // Apply decoding scales
+      for (int i = 0; i < 4; i++) {
+        w[i] = packed_mul<T>(w[i], qs);
+      }
+
+      // That's pretty much it...
+      data[k] = w;
+    }
+  }
+};
+
+// Int8 symmetric quantization codec.
+// We quantize the FP16 data to block-scaled Int8 in blocks of 4 *
+// kThreadGroupSize.
+template <typename T, int world_size>
+struct CodecQ8 : public CodecBase {
+  static constexpr int kWorldSize = world_size;
+
+  // Codec tile size process by this workgroup.
+  // Each threads processes a fragment of f16x8_t (16B),
+  // into a int8x8_t (8B) and a f16 scale shared among 32 values.
+  static constexpr int kRankAtoms = kAtoms / kWorldSize;
+  static constexpr int kRankTileStride = 2176;
+  static constexpr int kRankTileScaleOffset = 2048;
+  static constexpr int kRankTransmittedTileSize = kRankTileStride * kRankAtoms;
+  static_assert(kRankTransmittedTileSize % 16 == 0, "kRankTileSize must be 16B aligned.");
+
+  static constexpr int kRankBufferTileStride = kRankTileStride / sizeof(int32x4_t);
+
+  // Total tile size for the collective communication.
+  static constexpr int kTransmittedTileSize = kRankTransmittedTileSize * kWorldSize;
+
+  // Constants configuration
+
+  // {-1/128.0h, -1/128.0h}, f16x2_t
+  static constexpr int kScaleFactor = std::is_same<T, half>::value ? 0xA000A000 : 0xBC00BC00;
+
+  // {1e-7, 1e-7}, f16x2_t
+  static constexpr int kScaleEpsilon = std::is_same<T, half>::value ? 0x00010001 : 0x33D733D7;
+
+  // {-128, -128}, f16x2_t
+  static constexpr int kRangeMin = std::is_same<T, half>::value ? 0xD800D800 : 0xC300C300;
+  // {+127, +127}, f16x2_t
+  static constexpr int kRangeMax = std::is_same<T, half>::value ? 0x57F057F0 : 0x42FE42FE;
+
+  // {+128, +128}, int16x2_t
+  static constexpr int kRangeBias = 0x00800080;
+
+  __quickreduce_device_inline__ CodecQ8(int thread, int rank) : CodecBase(thread, rank) {}
+
+  __quickreduce_device_inline__ void send(int32x4_t* __restrict__ send_buffer, int32x4_t const* __restrict__ data) {
+    for (int k = 0; k < kRankAtoms; k++) {
+      int32x4_t const atom = data[k];
+      // Compute the absolute maximum of the atom in the thread group
+      // In 2 blocks of values, upper/lower halves of the f16x2_t
+      int wblockmax = group_abs_max<T>(atom);
+
+      // Derive scales
+      int decoding_scale;
+      int encoding_scale;
+      decoding_scale = packed_mul<T>(wblockmax, kScaleFactor);
+      encoding_scale = packed_add<T>(decoding_scale, kScaleEpsilon);
+      encoding_scale = packed_rcp<T>(encoding_scale);
+
+      // Apply scales to get quantized values
+      int32x4_t w;
+      for (int i = 0; i < 4; i++) {
+        w[i] = packed_mul<T>(atom[i], encoding_scale);
+        w[i] = packed_max<T>(w[i], kRangeMin);
+        w[i] = packed_min<T>(w[i], kRangeMax);
+      }
+
+      // Convert from f16x2_t to uint16x2_t
+      int32x4_t q;
+      {
+        int16_t* qi = reinterpret_cast<int16_t*>(&q);
+        T* wh = reinterpret_cast<T*>(&w);
+        for (int i = 0; i < 8; i++)
+          qi[i] = (int16_t)rintf(T2float_cast(wh[i]));
+
+        for (int i = 0; i < 4; i++) {
+          q[i] = packed_add<int16_t>(q[i], kRangeBias);
+        }
+      }
+
+      // Pack 8 x q8 into int32x2_t
+      int32x2_t qw;
+      qw[0] = q[0] | (q[1] << 8);
+      qw[1] = q[2] | (q[3] << 8);
+
+      // Write quantized atom to send_buffer
+      // note: only the group leader stores the scale
+      uint8_t* atom_ptr = reinterpret_cast<uint8_t*>(send_buffer + k * kRankBufferTileStride);
+      int32x2_t* qw_ptr = reinterpret_cast<int32x2_t*>(atom_ptr) + thread;
+      int* qs_ptr = reinterpret_cast<int*>(atom_ptr + kRankTileScaleOffset) + (thread / 8);
+
+      __builtin_nontemporal_store(qw, qw_ptr);
+      if (threadIdx.x == group_leader) {
+        __builtin_nontemporal_store(decoding_scale, qs_ptr);
+      }
+    }
+  }
+
+  __quickreduce_device_inline__ void recv(int32x4_t** __restrict__ recv_buffer, int32x4_t* __restrict__ data) {
+    for (int k = 0; k < kRankAtoms; k++) {
+      // Directly read quantized atom from recv_buffer
+      uint8_t* atom_ptr = reinterpret_cast<uint8_t*>(*recv_buffer);
+      int32x2_t* qw_ptr = reinterpret_cast<int32x2_t*>(atom_ptr) + thread;
+      int* qs_ptr = reinterpret_cast<int*>(atom_ptr + kRankTileScaleOffset) + (thread / 8);
+
+      int32x2_t qw = __builtin_nontemporal_load(qw_ptr);
+      int qs = __builtin_nontemporal_load(qs_ptr);
+
+      *recv_buffer += kRankBufferTileStride;
+
+      // Unpack q8 into fp16x8_t
+      int32x4_t w;
+      {
+        static uint constexpr kMask00FF = 0x00FF00FF;
+
+        // {1024.0, 1024.0}, fp16x2_t
+        static uint constexpr kHalf2_1024 = 0x64006400;
+
+        // {-1152.0, -1152.0}, fp16x2_t
+        static uint constexpr kHalf2_1152 = 0xE480E480;
+
+#pragma unroll
+        for (int i = 0; i < 4; i++) {
+          if constexpr (std::is_same<T, half>::value) {
+            int32_t q8 = ((qw[i / 2] >> ((i % 2) * 8)) & kMask00FF) | kHalf2_1024;
+            w[i] = packed_add<half>(q8, kHalf2_1152);
+          } else {
+            int32_t int16_2 = (qw[i / 2] >> ((i % 2) * 8)) & kMask00FF;
+            int16_t low = static_cast<int16_t>(int16_2 & 0xFFFF);
+            int16_t high = static_cast<int16_t>((int16_2 >> 16) & 0xFFFF);
+            nv_bfloat16 bf_low = __float2bfloat16(static_cast<float>(low));
+            nv_bfloat16 bf_high = __float2bfloat16(static_cast<float>(high));
+            nv_bfloat162 bf2 = __halves2bfloat162(bf_low, bf_high);
+            int32_t packed_bf16 = *reinterpret_cast<int32_t*>(&bf2);
+            w[i] = packed_add<nv_bfloat16>(packed_bf16, kRangeMin);
+          }
+        }
+      }
+
+      // Apply decoding scales
+      for (int i = 0; i < 4; i++) {
+        w[i] = packed_mul<T>(w[i], qs);
+      }
+
+      data[k] = w;
+    }
+  }
+};
+
+// Twoshot All Reduce
+template <typename T, class Codec, bool cast_bf2half>
+struct AllReduceTwoshot {
+  static_assert(sizeof(T) == 2);
+
+  static constexpr int kWorldSize = Codec::kWorldSize;
+
+  __device__ static void
+  run(T const* __restrict__ input,
+      T* __restrict__ output,
+      uint32_t const N,                    // number of elements
+      int const block,                     // block index
+      int const rank,                      // rank index
+      uint8_t** __restrict__ buffer_list,  // communication buffers
+      uint32_t const data_offset,          // offset to start of the data buffer
+      uint32_t flag_color) {
+    // Topology
+    int thread = threadIdx.x + threadIdx.y * kWavefront;
+    uint8_t* rank_buffer = buffer_list[rank];
+    Codec codec(thread, rank);
+    int block_id = blockIdx.x;
+    int grid_size = gridDim.x;
+    // --------------------------------------------------------
+    // Read input into registers
+    int32x4_t tA[kAtoms];
+
+    BufferResource src_buffer(const_cast<T*>(input), N * sizeof(T));
+    uint32_t src_offset = block * kTileSize + thread * sizeof(int32x4_t);
+
+    for (int i = 0; i < kAtoms; i++) {
+      tA[i] = buffer_load_dwordx4(src_buffer.descriptor, src_offset, 0, 0);
+      src_offset += kAtomStride * sizeof(int32x4_t);
+      if constexpr (cast_bf2half) {
+        const nv_bfloat162* bf_buf = reinterpret_cast<const nv_bfloat162*>(&tA[i]);
+        half2 half_buf[4];
+#pragma unroll
+        for (int j = 0; j < 4; ++j) {
+          float2 f = __bfloat1622float2(bf_buf[j]);
+          half_buf[j] = __float22half2_rn(f);
+        }
+        tA[i] = *reinterpret_cast<const int32x4_t*>(half_buf);
+      }
+    }
+
+    // --------------------------------------------------------
+    // Phase-1A: Write segment data into the communication buffer of the target
+    // rank responsible for this segment.
+    uint32_t comm_data0_offset = data_offset + block_id * Codec::kTransmittedTileSize;
+    uint32_t comm_data1_offset = grid_size * Codec::kTransmittedTileSize + comm_data0_offset;
+
+    uint32_t comm_flags0_offset = block_id * (kWorldSize * sizeof(uint32_t));
+    uint32_t comm_flags1_offset = grid_size * (kWorldSize * sizeof(uint32_t)) + comm_flags0_offset;
+
+    for (int r = 0; r < kWorldSize; r++) {
+      int32x4_t* send_buffer =
+          reinterpret_cast<int32x4_t*>(buffer_list[r] + comm_data0_offset + rank * Codec::kRankTransmittedTileSize);
+      codec.send(send_buffer, &tA[r * Codec::kRankAtoms]);
+    }
+
+    __syncthreads();
+    if (thread < kWorldSize) {
+      int r = thread;
+      uint32_t* flag_ptr = reinterpret_cast<uint32_t*>(buffer_list[r] + comm_flags0_offset + rank * sizeof(uint32_t));
+      set_sync_flag(flag_ptr, flag_color);
+    }
+    // --------------------------------------------------------
+    // Phase-1B: Reduce the segment data from the communication buffers.
+    int32x4_t tR[Codec::kRankAtoms] = {};
+    {
+      // Read the data from the communication buffer.
+      int32x4_t* recv_buffer = reinterpret_cast<int32x4_t*>(rank_buffer + comm_data0_offset);
+      uint32_t* flag_ptr = reinterpret_cast<uint32_t*>(rank_buffer + comm_flags0_offset);
+
+      for (int r = 0; r < kWorldSize; r++) {
+        // Wait for the flags to be set.
+        if (thread == 0) {
+          wait_sync_flag(&flag_ptr[r], flag_color);
+        }
+        __syncthreads();
+
+        // note: we reuse tA as temp buffer here
+        codec.recv(&recv_buffer, tA);
+
+        for (int i = 0; i < Codec::kRankAtoms; i++) {
+          packed_assign_add<T>(&tR[i], &tA[i]);
+        }
+      }
+    }
+
+    // Phase-2: Write the reduced segment to every other rank
+    for (int r = 0; r < kWorldSize; r++) {
+      int32x4_t* send_buffer =
+          reinterpret_cast<int32x4_t*>(buffer_list[r] + comm_data1_offset + rank * Codec::kRankTransmittedTileSize);
+      codec.send(send_buffer, tR);
+    }
+
+    __syncthreads();
+    if (thread < kWorldSize) {
+      int r = thread;
+      uint32_t* flag_ptr = reinterpret_cast<uint32_t*>(buffer_list[r] + comm_flags1_offset + rank * sizeof(uint32_t));
+      set_sync_flag(flag_ptr, flag_color);
+    }
+
+    // Phase-2: Read the gather segments from the rank's communication buffer.
+    {
+      // Read the data from the communication buffer.
+      int32x4_t* recv_buffer = reinterpret_cast<int32x4_t*>(rank_buffer + comm_data1_offset);
+      uint32_t* flag_ptr = reinterpret_cast<uint32_t*>(rank_buffer + comm_flags1_offset);
+
+      for (int r = 0; r < kWorldSize; r++) {
+        // Wait for the flags to be set.
+        if (thread == 0) {
+          wait_sync_flag(&flag_ptr[r], flag_color);
+        }
+        __syncthreads();
+
+        // Gather all reduced and final rank segments into tA.
+        codec.recv(&recv_buffer, &tA[r * Codec::kRankAtoms]);
+      }
+    }
+
+    // --------------------------------------------------------
+    // Write the result to output.
+    BufferResource dst_buffer(output, N * sizeof(T));
+    uint32_t dst_offset = block * kTileSize + thread * sizeof(int32x4_t);
+
+    for (int i = 0; i < kAtoms; i++) {
+      if constexpr (cast_bf2half) {
+        const half2* half_buf = reinterpret_cast<const half2*>(&tA[i]);
+        nv_bfloat162 bf16_buf[4];
+#pragma unroll
+        for (int j = 0; j < 4; ++j) {
+          float2 f = __half22float2(half_buf[j]);
+          bf16_buf[j] = __float22bfloat162_rn(f);
+        }
+        buffer_store_dwordx4(*reinterpret_cast<const int32x4_t*>(bf16_buf), dst_buffer.descriptor, dst_offset, 0, 0);
+      } else {
+        buffer_store_dwordx4(tA[i], dst_buffer.descriptor, dst_offset, 0, 0);
+      }
+      dst_offset += kAtomStride * sizeof(int32x4_t);
+    }
+  }
+};
+
+}  // namespace quickreduce
diff --git a/sgl-kernel/csrc/allreduce/quick_all_reduce.h b/sgl-kernel/csrc/allreduce/quick_all_reduce.h
new file mode 100644
index 000000000000..1d629e018241
--- /dev/null
+++ b/sgl-kernel/csrc/allreduce/quick_all_reduce.h
@@ -0,0 +1,233 @@
+#pragma once
+
+#include <hip/hip_runtime.h>
+
+#include <vector>
+
+#include "quick_all_reduce.cuh"
+
+#define HIP_CHECK(err)                                                                               \
+  do {                                                                                               \
+    hipError_t err_ = (err);                                                                         \
+    if (err_ != hipSuccess) {                                                                        \
+      std::printf("HIP error %d at %s:%d. %s\n", err_, __FILE__, __LINE__, hipGetErrorString(err_)); \
+      throw std::runtime_error("HIP error");                                                         \
+    }                                                                                                \
+  } while (0)
+
+namespace quickreduce {
+using fptr_t = int64_t;
+static_assert(sizeof(void*) == sizeof(fptr_t));
+
+template <typename AllReduceKernel, typename T>
+__global__ __quickreduce_launch_bounds_two_shot__ static void allreduce_prototype_twoshot(
+    T const* A,
+    T* B,
+    uint32_t N,
+    uint32_t num_blocks,
+    int rank,
+    uint8_t** dbuffer_list,
+    uint32_t data_offset,
+    uint32_t flag_color) {
+  int block = blockIdx.x;
+  int grid = gridDim.x;
+
+  while (block < num_blocks) {
+    AllReduceKernel::run(A, B, N, block, rank, dbuffer_list, data_offset, flag_color);
+    block += grid;
+    flag_color++;
+  }
+}
+
+#define TWOSHOT_DISPATCH(__codec)                                         \
+  if (world_size == 2) {                                                  \
+    using LineCodec = __codec<T, 2>;                                      \
+    using AllReduceKernel = AllReduceTwoshot<T, LineCodec, cast_bf2half>; \
+    hipLaunchKernelGGL(                                                   \
+        (allreduce_prototype_twoshot<AllReduceKernel, T>),                \
+        dim3(grid),                                                       \
+        dim3(kBlockTwoShot),                                              \
+        0,                                                                \
+        stream,                                                           \
+        A,                                                                \
+        B,                                                                \
+        N,                                                                \
+        num_blocks,                                                       \
+        rank,                                                             \
+        dbuffer_list,                                                     \
+        data_offset,                                                      \
+        flag_color);                                                      \
+  } else if (world_size == 4) {                                           \
+    using LineCodec = __codec<T, 4>;                                      \
+    using AllReduceKernel = AllReduceTwoshot<T, LineCodec, cast_bf2half>; \
+    hipLaunchKernelGGL(                                                   \
+        (allreduce_prototype_twoshot<AllReduceKernel, T>),                \
+        dim3(grid),                                                       \
+        dim3(kBlockTwoShot),                                              \
+        0,                                                                \
+        stream,                                                           \
+        A,                                                                \
+        B,                                                                \
+        N,                                                                \
+        num_blocks,                                                       \
+        rank,                                                             \
+        dbuffer_list,                                                     \
+        data_offset,                                                      \
+        flag_color);                                                      \
+  } else if (world_size == 8) {                                           \
+    using LineCodec = __codec<T, 8>;                                      \
+    using AllReduceKernel = AllReduceTwoshot<T, LineCodec, cast_bf2half>; \
+    hipLaunchKernelGGL(                                                   \
+        (allreduce_prototype_twoshot<AllReduceKernel, T>),                \
+        dim3(grid),                                                       \
+        dim3(kBlockTwoShot),                                              \
+        0,                                                                \
+        stream,                                                           \
+        A,                                                                \
+        B,                                                                \
+        N,                                                                \
+        num_blocks,                                                       \
+        rank,                                                             \
+        dbuffer_list,                                                     \
+        data_offset,                                                      \
+        flag_color);                                                      \
+  }
+
+enum QuickReduceQuantLevel {
+  F16 = 0,
+  INT8 = 1,
+  INT6 = 2,
+  INT4 = 3,
+};
+
+struct DeviceComms {
+  // Max problem size is 2GB (in bytes) or half of uint32_t max value.
+  int64_t kMaxProblemSize = static_cast<int64_t>(std::numeric_limits<int32_t>::max()) + 1;
+
+  // Max TP-8
+  static int constexpr kMaxWorldSize = 8;
+
+  bool initialized = false;
+  uint32_t flag_color = 1;
+  int world_size;
+  int rank;
+
+  uint8_t* dbuffer;
+  uint8_t** dbuffer_list;
+  hipIpcMemHandle_t buffer_ipc_handle;
+  std::vector<hipIpcMemHandle_t> all_buffer_ipc_handles;
+  std::vector<uint8_t*> buffer_list;
+  uint32_t data_offset;
+
+  DeviceComms() : initialized(false), world_size(1), rank(0) {}
+  ~DeviceComms() {
+    destroy();
+  }
+
+  void init(int world_size, int rank, std::optional<int64_t> max_problem_size = std::nullopt) {
+    destroy();
+    this->world_size = world_size;
+    this->rank = rank;
+    if (max_problem_size.has_value() && max_problem_size.value() > 0) {
+      this->kMaxProblemSize = max_problem_size.value();
+    }
+    // Allocate buffer size for worst case: F16 2-stage buffer.
+    uint32_t flags_buffer_size = 2 * world_size * kMaxNumBlocks * sizeof(uint32_t);
+    static int64_t data_buffer_size = 2 * this->kMaxProblemSize;
+    int64_t total_buffer_size = flags_buffer_size + data_buffer_size;
+    data_offset = flags_buffer_size;
+    HIP_CHECK(hipExtMallocWithFlags((void**)&dbuffer, total_buffer_size, hipDeviceMallocUncached));
+
+    // Clear the flags buffer.
+    HIP_CHECK(hipMemset(dbuffer, 0, flags_buffer_size));
+
+    // Device-side list of IPC buffers.
+    buffer_list.resize(world_size);
+    HIP_CHECK(hipMalloc(&dbuffer_list, world_size * sizeof(uint8_t*)));
+
+    // Create IPC handles for rank's communication buffer.
+    all_buffer_ipc_handles.resize(world_size);
+    HIP_CHECK(hipIpcGetMemHandle(&buffer_ipc_handle, dbuffer));
+
+    initialized = true;
+  }
+  int get_world_size() {
+    return world_size;
+  }
+  int get_rank() {
+    return rank;
+  }
+  bool status() {
+    return initialized;
+  }
+  hipIpcMemHandle_t const get_handle() {
+    return buffer_ipc_handle;
+  }
+
+  void destroy() {
+    if (initialized) {
+      for (int i = 0; i < world_size; i++) {
+        if (i != rank) {
+          HIP_CHECK(hipIpcCloseMemHandle(dbuffer_list[i]));
+        }
+      }
+
+      HIP_CHECK(hipFree(dbuffer));
+      HIP_CHECK(hipFree(dbuffer_list));
+
+      initialized = false;
+    }
+  }
+
+  void open_ipc_handles(std::vector<hipIpcMemHandle_t> const& ipc_handles) {
+    assert(ipc_handles.size() == all_buffer_ipc_handles.size());
+    for (int i = 0; i < world_size; i++) {
+      all_buffer_ipc_handles[i] = ipc_handles[i];
+    }
+
+    // Open device memory access to the IPC communication buffers.
+    // Note: For our own rank, we do not need to open a handle.
+    for (int i = 0; i < world_size; i++) {
+      if (i != rank) {
+        HIP_CHECK(
+            hipIpcOpenMemHandle((void**)&buffer_list[i], all_buffer_ipc_handles[i], hipIpcMemLazyEnablePeerAccess));
+      } else {
+        buffer_list[i] = dbuffer;
+      }
+    }
+
+    HIP_CHECK(hipMemcpy(dbuffer_list, buffer_list.data(), world_size * sizeof(uint8_t*), hipMemcpyHostToDevice));
+  }
+
+  template <typename T, bool cast_bf2half>
+  void allreduce(T const* A, T* B, uint32_t N, int quant_level, hipStream_t stream) {
+    if (world_size != 2 && world_size != 4 && world_size != 8) {
+      throw std::runtime_error("All Reduce not supported for world_size = " + std::to_string(world_size));
+    }
+
+    // Configuration.
+    uint32_t msg_size = N * sizeof(T);
+    uint32_t num_blocks = divceil(msg_size, kTileSize);
+    uint32_t grid = min(kMaxNumBlocks, num_blocks);
+    auto quant_level_ = static_cast<QuickReduceQuantLevel>(quant_level);
+    switch (quant_level_) {
+      case QuickReduceQuantLevel::INT8:
+        TWOSHOT_DISPATCH(CodecQ8)
+        break;
+      case QuickReduceQuantLevel::INT6:
+        TWOSHOT_DISPATCH(CodecQ6)
+        break;
+      case QuickReduceQuantLevel::INT4:
+        TWOSHOT_DISPATCH(CodecQ4)
+        break;
+      default:
+        TWOSHOT_DISPATCH(CodecFP)
+        break;
+    }
+    HIP_CHECK(cudaGetLastError());
+    // Rotate the flag color.
+    flag_color += divceil(N, grid);
+  }
+};
+
+}  // namespace quickreduce
diff --git a/sgl-kernel/csrc/allreduce/quick_all_reduce_base.h b/sgl-kernel/csrc/allreduce/quick_all_reduce_base.h
new file mode 100644
index 000000000000..759b28f38ef9
--- /dev/null
+++ b/sgl-kernel/csrc/allreduce/quick_all_reduce_base.h
@@ -0,0 +1,318 @@
+#pragma once
+
+#include <hip/hip_bf16.h>
+#include <hip/hip_fp16.h>
+#include <hip/hip_runtime.h>
+
+#include <cstdint>
+
+#define __quickreduce_device_inline__ __device__ __forceinline__
+#define __quickreduce_launch_bounds_two_shot__ __launch_bounds__(256, 4)
+#define __quickreduce_launch_bounds_one_shot__ __launch_bounds__(512, 4)
+
+namespace quickreduce {
+
+typedef __hip_bfloat16 nv_bfloat16;
+typedef __hip_bfloat162 nv_bfloat162;
+
+using int32x2_t = __attribute__((__vector_size__(2 * sizeof(int)))) int;
+using int32x4_t = __attribute__((__vector_size__(4 * sizeof(int)))) int;
+
+// Setup acquire-release semantics for vector memory reads (mubuf instruction)
+// as per architecture.
+#if defined(__gfx942__)
+// CDNA3: Scope bits sc0, sc1
+#define MUBUF_ACQUIRE 16
+#define MUBUF_RELEASE 16
+#elif (defined(__gfx908__) || defined(__gfx90a__))
+// CDNA1 and CDNA2 - glc bit
+#define MUBUF_ACQUIRE 1
+#define MUBUF_RELEASE 0
+#endif
+
+static constexpr int kNegOne = 0xBC00BC00;  // {-1, -1}, fp16x2_t
+
+// Number of atoms (4xf16x2_t) processed by a single thread
+static constexpr int kAtoms = 8;
+
+// We use a workgroup of 256 threads
+static constexpr int kBlockSize = 256;
+static constexpr int kAtomStride = kBlockSize;
+
+// Size and atom stride of source/destination data that the block will
+// process.
+// Workgroup scope = Tile = (256 threads x 8 atoms x 16B)
+static constexpr int kTileSize = kBlockSize * kAtoms * sizeof(int32x4_t);
+
+// Max number of blocks. 304 CUs on MI300
+static constexpr int kMaxNumBlocks = 304 * 4;
+
+// Standard CDNA wavefront size.
+static constexpr int kWavefront = 64;
+
+// 256 thread, 4 wavefronts.
+static dim3 constexpr kBlockTwoShot = {kWavefront, kBlockSize / kWavefront, 1};
+
+// Number of threads in a group for quantization
+// It corresponds to 32 F16 elements in quantization block
+static constexpr int kThreadGroupSize = 8;
+
+// Methods
+__quickreduce_device_inline__ __host__ unsigned long divceil(unsigned long x, unsigned long y) {
+  return ((x + y - 1) / y);
+}
+
+union BufferResource {
+  __quickreduce_device_inline__ constexpr BufferResource() : config(0x00020000U) {}
+
+  __quickreduce_device_inline__ constexpr BufferResource(void* buffer_address, uint32_t buffer_size)
+      : address(buffer_address), range(buffer_size), config(0x00020000U) {}
+
+  int32x4_t descriptor;
+  struct {
+    void* address;  // 8B, out of which first 48b is address, and 16b is stride
+    // (unused)
+    uint32_t range;   // Byte range for the buffer resource
+    uint32_t config;  // Constant, DFMT=32b
+  };
+};
+
+__quickreduce_device_inline__ static int32x4_t buffer_load_dwordx4(
+    int32x4_t srsrc, int32_t voffset, int32_t soffset, int32_t aux) __asm("llvm.amdgcn.raw.buffer.load.v4i32");
+
+__quickreduce_device_inline__ static void
+buffer_store_dwordx4(int32x4_t data, int32x4_t srsrc, int32_t voffset, int32_t soffset, int32_t aux) __asm(
+    "llvm.amdgcn.raw.buffer.store.v4i32");
+
+__quickreduce_device_inline__ static void set_fp16_ovfl(bool const value) {
+#if defined(__gfx942__)
+  if (value) {
+    asm volatile("s_setreg_imm32_b32 0xdc1, 1;" ::);
+  } else {
+    asm volatile("s_setreg_imm32_b32 0xdc1, 0;" ::);
+  }
+#endif
+}
+union bf162_int_union {
+  int i;
+  nv_bfloat162 bf2;
+};
+
+template <typename T>
+__quickreduce_device_inline__ void packed_assign_add(int32x4_t* A, int32x4_t* B);
+
+template <>
+__quickreduce_device_inline__ void packed_assign_add<half>(int32x4_t* A, int32x4_t* B) {
+  int32x4_t& tR_fragment = A[0];
+  int32x4_t& tA_fragment = B[0];
+
+  asm volatile("v_pk_add_f16 %0, %1, %2" : "=v"(tR_fragment[0]) : "v"(tR_fragment[0]), "v"(tA_fragment[0]));
+  asm volatile("v_pk_add_f16 %0, %1, %2" : "=v"(tR_fragment[1]) : "v"(tR_fragment[1]), "v"(tA_fragment[1]));
+  asm volatile("v_pk_add_f16 %0, %1, %2" : "=v"(tR_fragment[2]) : "v"(tR_fragment[2]), "v"(tA_fragment[2]));
+  asm volatile("v_pk_add_f16 %0, %1, %2" : "=v"(tR_fragment[3]) : "v"(tR_fragment[3]), "v"(tA_fragment[3]));
+}
+
+template <>
+__quickreduce_device_inline__ void packed_assign_add<nv_bfloat16>(int32x4_t* A, int32x4_t* B) {
+  nv_bfloat162* tA = reinterpret_cast<nv_bfloat162*>(A);
+  nv_bfloat162* tB = reinterpret_cast<nv_bfloat162*>(B);
+#pragma unroll
+  for (int i = 0; i < 4; i++) {
+    tA[i] = __hadd2(tA[i], tB[i]);
+  }
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_max(int a, int b);
+
+template <>
+__quickreduce_device_inline__ int packed_max<half>(int a, int b) {
+  int result;
+  asm volatile("v_pk_max_f16 %0, %1, %2" : "=v"(result) : "v"(a), "v"(b));
+  return result;
+}
+
+template <>
+__quickreduce_device_inline__ int packed_max<nv_bfloat16>(int a, int b) {
+  bf162_int_union A, B, R;
+  A.i = a;
+  B.i = b;
+  R.bf2 = __hmax2(A.bf2, B.bf2);
+  return R.i;
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_min(int a, int b);
+
+template <>
+__quickreduce_device_inline__ int packed_min<half>(int a, int b) {
+  int result;
+  asm volatile("v_pk_min_f16 %0, %1, %2" : "=v"(result) : "v"(a), "v"(b));
+  return result;
+}
+
+template <>
+__quickreduce_device_inline__ int packed_min<nv_bfloat16>(int a, int b) {
+  bf162_int_union A, B, R;
+  A.i = a;
+  B.i = b;
+  R.bf2 = __hmin2(A.bf2, B.bf2);
+  return R.i;
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_abs_max(int a, int b);
+
+template <>
+__quickreduce_device_inline__ int packed_abs_max<half>(int a, int b) {
+  half2 wmaxh2 = __builtin_bit_cast(half2, a);
+  half2 wminh2 = __builtin_bit_cast(half2, b);
+  half2 wblockmaxh2;
+
+  wblockmaxh2.x = __hgt(__habs(wmaxh2.x), __habs(wminh2.x)) ? wmaxh2.x : wminh2.x;
+  wblockmaxh2.y = __hgt(__habs(wmaxh2.y), __habs(wminh2.y)) ? wmaxh2.y : wminh2.y;
+  return __builtin_bit_cast(int, wblockmaxh2);
+}
+
+template <>
+__quickreduce_device_inline__ int packed_abs_max<nv_bfloat16>(int a, int b) {
+  bf162_int_union A, B, R;
+  A.i = a;
+  B.i = b;
+  R.bf2.x = __hgt(__habs(A.bf2.x), __habs(B.bf2.x)) ? A.bf2.x : B.bf2.x;
+  R.bf2.y = __hgt(__habs(A.bf2.y), __habs(B.bf2.y)) ? A.bf2.y : B.bf2.y;
+  return R.i;
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_add(int a, int b);
+
+template <>
+__quickreduce_device_inline__ int packed_add<half>(int a, int b) {
+  int result;
+  asm volatile("v_pk_add_f16 %0, %1, %2" : "=v"(result) : "v"(a), "v"(b));
+  return result;
+}
+
+template <>
+__quickreduce_device_inline__ int packed_add<nv_bfloat16>(int a, int b) {
+  bf162_int_union A, B, R;
+  A.i = a;
+  B.i = b;
+  R.bf2 = __hadd2(A.bf2, B.bf2);
+  return R.i;
+}
+
+template <>
+__quickreduce_device_inline__ int packed_add<int16_t>(int a, int b) {
+  int result;
+  asm volatile("v_pk_add_i16 %0, %1, %2" : "=v"(result) : "v"(a), "v"(b));
+  return result;
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_sub(int a, int b);
+
+template <>
+__quickreduce_device_inline__ int packed_sub<half>(int a, int b) {
+  int result;
+
+  // MI300 lacks packed fp16 sub instruction. So we do -1 * min + max
+  asm volatile("v_pk_fma_f16 %0, %1, %2 %3" : "=v"(result) : "v"(kNegOne), "v"(b), "v"(a));
+  return result;
+}
+
+template <>
+__quickreduce_device_inline__ int packed_sub<nv_bfloat16>(int a, int b) {
+  bf162_int_union A, B, R;
+  A.i = a;
+  B.i = b;
+  R.bf2 = __hsub2(A.bf2, B.bf2);
+  return R.i;
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_mul(int a, int b);
+
+template <>
+__quickreduce_device_inline__ int packed_mul<half>(int a, int b) {
+  int result;
+  asm volatile("v_pk_mul_f16 %0, %1, %2" : "=v"(result) : "v"(a), "v"(b));
+  return result;
+}
+
+template <>
+__quickreduce_device_inline__ int packed_mul<nv_bfloat16>(int a, int b) {
+  nv_bfloat162* tA = reinterpret_cast<nv_bfloat162*>(&a);
+  nv_bfloat162* tB = reinterpret_cast<nv_bfloat162*>(&b);
+  nv_bfloat162 tR = __hmul2(*tA, *tB);
+  return *(reinterpret_cast<int*>(&tR));
+}
+
+template <typename T>
+__quickreduce_device_inline__ int packed_rcp(int a);
+
+template <>
+__quickreduce_device_inline__ int packed_rcp<half>(int a) {
+  return __builtin_bit_cast(int, h2rcp(__builtin_bit_cast(half2, a)));
+}
+
+template <>
+__quickreduce_device_inline__ int packed_rcp<nv_bfloat16>(int a) {
+  bf162_int_union A, R;
+  A.i = a;
+  R.bf2 = h2rcp(A.bf2);
+  return R.i;
+}
+
+// changes dtype
+__quickreduce_device_inline__ float T2float_cast(half a) {
+  return __half2float(a);
+}
+
+__quickreduce_device_inline__ float T2float_cast(nv_bfloat16 a) {
+  return __bfloat162float(a);
+}
+
+template <typename T>
+__quickreduce_device_inline__ int group_abs_max(int32x4_t atom) {
+  const int group_leader = (threadIdx.x / kThreadGroupSize) * kThreadGroupSize;
+
+  int wmax, wmin, wblockmax;
+  int a, b;
+  a = packed_max<T>(atom[0], atom[1]);
+  b = packed_max<T>(atom[2], atom[3]);
+
+  wmax = packed_max<T>(a, b);
+
+  a = packed_min<T>(atom[0], atom[1]);
+  b = packed_min<T>(atom[2], atom[3]);
+
+  wmin = packed_min<T>(a, b);
+
+  // Reduce the max among a group of threads
+  // Note: This is basically 2 blocks of values setup as the
+  // upper/lower halves of the f16x2_t
+  for (int i = 1; i < kThreadGroupSize; i <<= 1) {
+    int x = __shfl_down(wmax, i);
+    wmax = packed_max<T>(wmax, x);
+
+    int y = __shfl_down(wmin, i);
+    wmin = packed_min<T>(wmin, y);
+  }
+  wblockmax = packed_abs_max<T>(wmax, wmin);
+  // Share with the cohort
+  wblockmax = __shfl(wblockmax, group_leader);
+  return wblockmax;
+}
+
+__quickreduce_device_inline__ void set_sync_flag(uint32_t* flag_ptr, uint32_t flag) {
+  __atomic_store_n(flag_ptr, flag, __ATOMIC_RELEASE);
+}
+
+__quickreduce_device_inline__ void wait_sync_flag(uint32_t* flag_ptr, uint32_t flag) {
+  while (__atomic_load_n(flag_ptr, __ATOMIC_RELAXED) != flag) {
+  }
+}
+
+}  // namespace quickreduce
diff --git a/sgl-kernel/csrc/torch_extension_rocm.cc b/sgl-kernel/csrc/torch_extension_rocm.cc
index 84f9d1e7a4d8..46a50ca6b969 100644
--- a/sgl-kernel/csrc/torch_extension_rocm.cc
+++ b/sgl-kernel/csrc/torch_extension_rocm.cc
@@ -54,6 +54,25 @@ TORCH_LIBRARY_EXPAND(sgl_kernel, m) {
   m.def("get_meta_buffer_ipc_handle", &get_meta_buffer_ipc_handle);
   m.impl("get_meta_buffer_ipc_handle", torch::kCPU, &get_meta_buffer_ipc_handle);
 
+  // quick allreduce
+#ifdef USE_ROCM
+  m.def(
+      "qr_all_reduce(int fa, Tensor inp, Tensor out, int quant_level, bool "
+      "cast_bf2half) -> ()");
+  m.impl("qr_all_reduce", torch::kCUDA, &qr_all_reduce);
+
+  m.def("init_custom_qr", &init_custom_qr);
+  m.def("qr_destroy", &qr_destroy);
+
+  m.def("qr_get_handle", &qr_get_handle);
+
+  m.def("qr_open_handles(int _fa, Tensor[](b!) handles) -> ()");
+  m.impl("qr_open_handles", torch::kCPU, &qr_open_handles);
+
+  // Max input size in bytes
+  m.def("qr_max_size", &qr_max_size);
+#endif
+
   /*
    * From csrc/moe
    */
diff --git a/sgl-kernel/include/sgl_kernel_ops.h b/sgl-kernel/include/sgl_kernel_ops.h
index 6b589101feaa..ffd240a04dd0 100644
--- a/sgl-kernel/include/sgl_kernel_ops.h
+++ b/sgl-kernel/include/sgl_kernel_ops.h
@@ -66,6 +66,13 @@ void register_graph_buffers(
     fptr_t _fa, const std::vector<std::string>& handles, const std::vector<std::vector<int64_t>>& offsets);
 torch::Tensor allocate_meta_buffer(int64_t size);
 torch::Tensor get_meta_buffer_ipc_handle(torch::Tensor& inp);
+// quick allreduce
+fptr_t init_custom_qr(int64_t rank, int64_t world_size, std::optional<int64_t> qr_max_size = std::nullopt);
+void qr_destroy(fptr_t _fa);
+torch::Tensor qr_get_handle(fptr_t _fa);
+void qr_open_handles(fptr_t _fa, const std::vector<torch::Tensor>& handles);
+void qr_all_reduce(fptr_t _fa, torch::Tensor& inp, torch::Tensor& out, int64_t quant_level, bool cast_bf2half = false);
+int64_t qr_max_size();
 #else
 // custom allreduce
 fptr_t
@@ -77,6 +84,8 @@ std::tuple<std::vector<int64_t>, std::vector<int64_t>> get_graph_buffer_ipc_meta
 void register_buffer(fptr_t _fa, const std::vector<fptr_t>& fake_ipc_ptrs);
 void register_graph_buffers(
     fptr_t _fa, const std::vector<std::vector<int64_t>>& handles, const std::vector<std::vector<int64_t>>& offsets);
+
+// mscclpp
 torch::Tensor mscclpp_generate_unique_id();
 fptr_t mscclpp_init_context(
     const torch::Tensor& unique_id,
diff --git a/sgl-kernel/python/sgl_kernel/allreduce.py b/sgl-kernel/python/sgl_kernel/allreduce.py
index 317b2f1a7813..544fc1d77e27 100644
--- a/sgl-kernel/python/sgl_kernel/allreduce.py
+++ b/sgl-kernel/python/sgl_kernel/allreduce.py
@@ -1,4 +1,4 @@
-from typing import List, Tuple
+from typing import List, Optional, Tuple
 
 import torch
 
@@ -49,6 +49,38 @@ def allocate_meta_buffer(size: int) -> torch.Tensor:
     def get_meta_buffer_ipc_handle(inp: torch.Tensor) -> torch.Tensor:
         return torch.ops.sgl_kernel.get_meta_buffer_ipc_handle.default(inp)
 
+    # ROCM quick allreduce
+    def init_custom_qr(
+        rank: int, world_size: int, qr_max_size: Optional[int] = None
+    ) -> int:
+        return torch.ops.sgl_kernel.init_custom_qr.default(
+            world_size, rank, qr_max_size
+        )
+
+    def qr_get_handle(fa: int) -> torch.Tensor:
+        return torch.ops.sgl_kernel.qr_get_handle.default(fa)
+
+    def qr_open_handles(fa: int, handles: list[torch.Tensor]) -> None:
+        torch.ops.sgl_kernel.qr_open_handles.default(fa, handles)
+
+    def qr_all_reduce(
+        fa: int,
+        profile: int,
+        inp: torch.Tensor,
+        out: torch.Tensor,
+        cast_bf162half: bool,
+    ) -> None:
+        torch.ops.sgl_kernel.qr_all_reduce.default(
+            fa, profile, inp, out, cast_bf162half
+        )
+
+    def qr_destroy(fa: int) -> None:
+        torch.ops.sgl_kernel.qr_destroy.default(fa)
+
+    def qr_max_size() -> int:
+        return torch.ops.sgl_kernel.qr_max_size.default()
+
+    # mscclpp
     def mscclpp_generate_unique_id() -> bytes:
         raise NotImplementedError()
 
diff --git a/sgl-kernel/setup_rocm.py b/sgl-kernel/setup_rocm.py
index 4ab8635a83ea..a814b819689a 100644
--- a/sgl-kernel/setup_rocm.py
+++ b/sgl-kernel/setup_rocm.py
@@ -41,6 +41,7 @@ def _get_version():
 
 sources = [
     "csrc/allreduce/custom_all_reduce.hip",
+    "csrc/allreduce/quick_all_reduce.cu",
     "csrc/moe/moe_align_kernel.cu",
     "csrc/moe/moe_topk_softmax_kernels.cu",
     "csrc/torch_extension_rocm.cc",
diff --git a/test/srt/test_quick_allreduce.py b/test/srt/test_quick_allreduce.py
new file mode 100644
index 000000000000..ed081255f683
--- /dev/null
+++ b/test/srt/test_quick_allreduce.py
@@ -0,0 +1,212 @@
+import os
+import random
+import socket
+import unittest
+from typing import Any
+
+import ray
+import torch
+import torch.distributed as dist
+
+from sglang.srt.distributed import init_distributed_environment
+from sglang.srt.distributed.communication_op import (  # noqa
+    tensor_model_parallel_all_reduce,
+)
+from sglang.srt.distributed.device_communicators.quick_all_reduce import (
+    qr_rocm_arch_available,
+)
+from sglang.srt.distributed.parallel_state import (
+    get_tensor_model_parallel_group,
+    graph_capture,
+    initialize_model_parallel,
+)
+from sglang.test.test_utils import CustomTestCase
+
+torch.manual_seed(42)
+random.seed(44)  # keep the deterministic seed
+
+
+def get_open_port() -> int:
+    # try ipv4
+    try:
+        with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
+            s.bind(("", 0))
+            return s.getsockname()[1]
+    except OSError:
+        # try ipv6
+        with socket.socket(socket.AF_INET6, socket.SOCK_STREAM) as s:
+            s.bind(("", 0))
+            return s.getsockname()[1]
+
+
+def multi_process_parallel(
+    world_size: int, cls: Any, test_target: Any, quant_mode: str
+) -> None:
+
+    # Using ray helps debugging the error when it failed
+    # as compared to multiprocessing.
+    # NOTE: We need to set working_dir for distributed tests,
+    # otherwise we may get import errors on ray workers
+
+    ray.init(log_to_driver=True)
+
+    distributed_init_port = get_open_port()
+    refs = []
+    for rank in range(world_size):
+        refs.append(
+            test_target.remote(cls, world_size, rank, distributed_init_port, quant_mode)
+        )
+    ray.get(refs)
+
+    ray.shutdown()
+
+
+class TestQuickAllReduce(CustomTestCase):
+    TEST_SIZES = [
+        2 * 1024 * 1024,
+        4 * 1024 * 1024,
+        8 * 1024 * 1024,
+        16 * 1024 * 1024,
+        32 * 1024 * 1024,
+    ]
+    TEST_LOOP = 5
+    # Too many configurations can lead to a test grid that is too large
+    # The tp takes too long to boot,let's just choose 4 out of 12 configurations
+    # WORLD_SIZES = [2, 4, 8]
+    # QUANT_MODE = ["FP", "INT8", "INT6", "INT4"]
+    QUANT_MODE_WORLD_SIZE_PART = [["FP", 8], ["INT4", 4], ["INT8", 2], ["INT6", 2]]
+
+    @unittest.skipIf(
+        not qr_rocm_arch_available(),
+        "Only test Quick AllReduce on ROCm architectures >= gfx94*",
+    )
+    def test_graph_allreduce(self):
+        for quant_mode_world_size_part in self.QUANT_MODE_WORLD_SIZE_PART:
+            quant_mode = quant_mode_world_size_part[0]
+            world_size = quant_mode_world_size_part[1]
+            if world_size > torch.cuda.device_count():
+                continue
+            multi_process_parallel(world_size, self, self.graph_allreduce, quant_mode)
+
+    @unittest.skipIf(
+        not qr_rocm_arch_available(),
+        "Only test Quick AllReduce on ROCm architectures >= gfx94*",
+    )
+    def test_eager_allreduce(self):
+        for quant_mode_world_size_part in self.QUANT_MODE_WORLD_SIZE_PART:
+            quant_mode = quant_mode_world_size_part[0]
+            world_size = quant_mode_world_size_part[1]
+            if world_size > torch.cuda.device_count():
+                continue
+            multi_process_parallel(world_size, self, self.eager_allreduce, quant_mode)
+
+    @ray.remote(num_gpus=1, max_calls=1)
+    def graph_allreduce(self, world_size, rank, distributed_init_port, quant_mode):
+        os.environ.pop("CUDA_VISIBLE_DEVICES", None)
+        os.environ["ROCM_QUICK_REDUCE_QUANTIZATION"] = quant_mode
+        os.environ["ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16"] = "0"
+        device = torch.device(f"cuda:{rank}")
+        torch.cuda.set_device(device)
+        distributed_init_method = f"tcp://localhost:{distributed_init_port}"
+        init_distributed_environment(
+            world_size=world_size,
+            rank=rank,
+            distributed_init_method=distributed_init_method,
+            local_rank=rank,
+        )
+        initialize_model_parallel(tensor_model_parallel_size=world_size)
+        group = get_tensor_model_parallel_group().device_group
+
+        # A small all_reduce for warmup.
+        # this is needed because device communicators might be created lazily
+        # (e.g. NCCL). This will ensure that the communicator is initialized
+        # before any communication happens, so that this group can be used for
+        # graph capture immediately.
+        data = torch.zeros(1)
+        data = data.to(device=device)
+        torch.distributed.all_reduce(data, group=group)
+        torch.cuda.synchronize()
+        del data
+
+        for sz in self.TEST_SIZES:
+            for dtype in [torch.float16, torch.bfloat16]:
+                for _ in range(self.TEST_LOOP):
+                    with graph_capture() as graph_capture_context:
+                        # use integers so result matches NCCL exactly
+                        inp1 = torch.randint(
+                            1,
+                            23,
+                            (sz,),
+                            dtype=dtype,
+                            device=torch.cuda.current_device(),
+                        )
+                        inp2 = torch.randint(
+                            -23,
+                            1,
+                            (sz,),
+                            dtype=dtype,
+                            device=torch.cuda.current_device(),
+                        )
+                        torch.cuda.synchronize()
+                        graph = torch.cuda.CUDAGraph()
+                        with torch.cuda.graph(
+                            graph, stream=graph_capture_context.stream
+                        ):
+                            out1 = tensor_model_parallel_all_reduce(inp1)
+                            # the input buffer is immediately modified to test
+                            # synchronization
+                            dist.all_reduce(inp1, group=group)
+                            out2 = tensor_model_parallel_all_reduce(inp2)
+                            dist.all_reduce(inp2, group=group)
+                    graph.replay()
+                    atol = 1.25 * world_size
+                    rtol = 0.5 * world_size
+                    for inp, out in [[inp1, out1], [inp2, out2]]:
+                        torch.testing.assert_close(out, inp, atol=atol, rtol=rtol)
+                        # try:
+                        #     torch.testing.assert_close(out, inp, atol=atol, rtol=rtol)
+                        # except AssertionError as e:
+                        #     print("Max abs diff:", (out - inp).abs().max())
+                        #     print("Max rel diff:", ((out - inp).abs() / inp.abs().clamp(min=1e-5)).max())
+
+    @ray.remote(num_gpus=1, max_calls=1)
+    def eager_allreduce(self, world_size, rank, distributed_init_port, quant_mode):
+        os.environ.pop("CUDA_VISIBLE_DEVICES", None)
+        os.environ["ROCM_QUICK_REDUCE_QUANTIZATION"] = quant_mode
+        os.environ["ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16"] = "0"
+        device = torch.device(f"cuda:{rank}")
+        torch.cuda.set_device(device)
+        distributed_init_method = f"tcp://localhost:{distributed_init_port}"
+        init_distributed_environment(
+            world_size=world_size,
+            rank=rank,
+            distributed_init_method=distributed_init_method,
+            local_rank=rank,
+        )
+        initialize_model_parallel(tensor_model_parallel_size=world_size)
+        group = get_tensor_model_parallel_group().device_group
+
+        for sz in self.TEST_SIZES:
+            for dtype in [torch.float16, torch.bfloat16]:
+                for _ in range(self.TEST_LOOP):
+                    inp1 = torch.randint(
+                        1,
+                        23,
+                        (sz,),
+                        dtype=dtype,
+                        device=torch.cuda.current_device(),
+                    )
+                    out1 = tensor_model_parallel_all_reduce(inp1)
+                    dist.all_reduce(inp1, group=group)
+                    atol = 1.25 * world_size
+                    rtol = 0.5 * world_size
+                    torch.testing.assert_close(out1, inp1, atol=atol, rtol=rtol)
+                    # try:
+                    #     torch.testing.assert_close(out1, inp1, atol=atol, rtol=rtol)
+                    # except AssertionError as e:
+                    #     print("Max abs diff:", (out1 - inp1).abs().max())
+                    #     print("Max rel diff:", ((out1 - inp1).abs() / inp1.abs().clamp(min=1e-5)).max())
+
+
+if __name__ == "__main__":
+    unittest.main()

From c0fb25e9493927cfdf09f49fbe2638584600aae3 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Thu, 24 Jul 2025 21:36:21 -0700
Subject: [PATCH 124/396] DP Enhancement (#8280)

---
 .../sglang/srt/distributed/parallel_state.py  |   9 +
 .../srt/layers/attention/base_attn_backend.py |   4 +-
 python/sglang/srt/layers/communicator.py      |  24 +-
 python/sglang/srt/layers/dp_attention.py      |  96 +-
 python/sglang/srt/layers/logits_processor.py  |  58 +-
 python/sglang/srt/layers/radix_attention.py   |   8 +-
 python/sglang/srt/managers/schedule_batch.py  |   5 +-
 .../srt/model_executor/cuda_graph_runner.py   |  86 +-
 .../srt/model_executor/forward_batch_info.py  | 215 +++-
 .../sglang/srt/model_executor/model_runner.py |  25 +-
 python/sglang/srt/models/deepseek_v2.py       |   3 +-
 python/sglang/srt/models/qwen2_moe.py         |   4 -
 python/sglang/srt/models/qwen3_moe.py         |   7 +-
 .../eagle_draft_cuda_graph_runner.py          |  60 +-
 .../eagle_draft_extend_cuda_graph_runner.py   |  73 +-
 python/sglang/srt/speculative/eagle_utils.py  |  68 +-
 python/sglang/srt/speculative/eagle_worker.py | 103 +-
 python/sglang/srt/two_batch_overlap.py        |   1 +
 test/srt/test_deepep_small.py                 |  12 +-
 test/srt/test_hybrid_dp_ep_tp_mtp.py          | 920 ++----------------
 20 files changed, 665 insertions(+), 1116 deletions(-)

diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
index 130bc53c7ed9..45a1a42093cd 100644
--- a/python/sglang/srt/distributed/parallel_state.py
+++ b/python/sglang/srt/distributed/parallel_state.py
@@ -545,6 +545,15 @@ def _all_reduce_in_place(self, input_: torch.Tensor) -> None:
         else:
             torch.distributed.all_reduce(input_, group=self.device_group)
 
+    def reduce_scatter_tensor(
+        self,
+        output: torch.Tensor,
+        input: torch.Tensor,
+    ) -> None:
+        # TODO(ch-wan): support other backends
+        torch.distributed.reduce_scatter_tensor(output, input, group=self.device_group)
+        return output
+
     def reduce_scatter(
         self,
         output: torch.Tensor,
diff --git a/python/sglang/srt/layers/attention/base_attn_backend.py b/python/sglang/srt/layers/attention/base_attn_backend.py
index bddd7891f924..3025d0b118f9 100644
--- a/python/sglang/srt/layers/attention/base_attn_backend.py
+++ b/python/sglang/srt/layers/attention/base_attn_backend.py
@@ -65,7 +65,9 @@ def forward(
         **kwargs,
     ):
         """Run forward on an attention layer."""
-        if forward_batch.forward_mode.is_decode():
+        if forward_batch.forward_mode.is_idle():
+            return q.new_empty(q.shape[0], layer.tp_q_head_num * layer.v_head_dim)
+        elif forward_batch.forward_mode.is_decode():
             return self.forward_decode(
                 q,
                 k,
diff --git a/python/sglang/srt/layers/communicator.py b/python/sglang/srt/layers/communicator.py
index 5e0931ead0b9..aeb8449a17d7 100644
--- a/python/sglang/srt/layers/communicator.py
+++ b/python/sglang/srt/layers/communicator.py
@@ -24,8 +24,8 @@
     tensor_model_parallel_all_reduce,
 )
 from sglang.srt.layers.dp_attention import (
-    attn_tp_all_gather,
-    attn_tp_reduce_scatter,
+    attn_tp_all_gather_into_tensor,
+    attn_tp_reduce_scatter_tensor,
     dp_gather_partial,
     dp_scatter,
     get_attention_dp_size,
@@ -309,8 +309,8 @@ def _scattered_to_tp_attn_full(
             forward_batch.gathered_buffer[: forward_batch.input_ids.shape[0]],
             hidden_states,
         )
-        attn_tp_all_gather(
-            list(hidden_states.tensor_split(context.attn_tp_size)),
+        attn_tp_all_gather_into_tensor(
+            hidden_states,
             local_hidden_states,
         )
         return hidden_states
@@ -400,9 +400,7 @@ def _gather_hidden_states_and_residual(
                 ].clone(),
                 residual,
             )
-            attn_tp_all_gather(
-                list(residual.tensor_split(context.attn_tp_size)), local_residual
-            )
+            attn_tp_all_gather_into_tensor(residual, local_residual)
         if context.attn_dp_size != 1:
             if context.attn_tp_rank == 0:
                 hidden_states += residual
@@ -442,9 +440,11 @@ def _scatter_hidden_states_and_residual(
         *,
         residual_input_mode,
     ):
-        tensor_list = list(hidden_states.tensor_split(context.attn_tp_size))
-        hidden_states = tensor_list[context.attn_tp_rank]
-        attn_tp_reduce_scatter(hidden_states, tensor_list)
+        input_hidden_states = hidden_states
+        hidden_states = hidden_states.tensor_split(context.attn_tp_size)[
+            context.attn_tp_rank
+        ]
+        attn_tp_reduce_scatter_tensor(hidden_states, input_hidden_states)
         if residual_input_mode == ScatterMode.TP_ATTN_FULL:
             residual = residual.tensor_split(context.attn_tp_size)[context.attn_tp_rank]
         if hidden_states.shape[0] != 0:
@@ -547,8 +547,8 @@ def _gather(
             forward_batch.gathered_buffer[: forward_batch.input_ids.shape[0]],
             hidden_states,
         )
-        attn_tp_all_gather(
-            list(hidden_states.tensor_split(context.attn_tp_size)),
+        attn_tp_all_gather_into_tensor(
+            hidden_states,
             local_hidden_states,
         )
         return hidden_states, residual
diff --git a/python/sglang/srt/layers/dp_attention.py b/python/sglang/srt/layers/dp_attention.py
index ae4041956d9b..55db1333663e 100644
--- a/python/sglang/srt/layers/dp_attention.py
+++ b/python/sglang/srt/layers/dp_attention.py
@@ -3,7 +3,8 @@
 import functools
 import logging
 from contextlib import contextmanager
-from typing import TYPE_CHECKING, List
+from enum import IntEnum, auto
+from typing import TYPE_CHECKING, List, Tuple
 
 import torch
 import triton
@@ -30,6 +31,34 @@
 _LOCAL_ATTN_DP_RANK = None
 
 
+class DPPaddingMode(IntEnum):
+
+    # Padding tokens to max length and then gather tokens using `all_gather_into_tensor`
+    MAX_LEN = auto()
+    # Padding tokens to sum length and then gather tokens using `all_reduce`
+    SUM_LEN = auto()
+
+    def is_max_len(self):
+        return self == DPPaddingMode.MAX_LEN
+
+    def is_sum_len(self):
+        return self == DPPaddingMode.SUM_LEN
+
+    @classmethod
+    def get_dp_padding_mode(cls, global_num_tokens: List[int]) -> DPPaddingMode:
+        # we choose the mode that minimizes the communication cost
+        max_len = max(global_num_tokens)
+        sum_len = sum(global_num_tokens)
+        if sum_len * 2 > max_len * get_attention_dp_size():
+            return cls.MAX_LEN
+        else:
+            return cls.SUM_LEN
+
+    @classmethod
+    def get_default_mode_in_cuda_graph(cls) -> DPPaddingMode:
+        return cls.MAX_LEN
+
+
 def compute_dp_attention_world_info(enable_dp_attention, tp_rank, tp_size, dp_size):
     if not enable_dp_attention:
         return tp_rank, tp_size, 0
@@ -162,7 +191,7 @@ def disable_dp_size():
         _ATTN_DP_SIZE = old_dp_size
 
 
-def get_dp_local_info(forward_batch: ForwardBatch):
+def get_dp_local_info(forward_batch: ForwardBatch) -> Tuple[torch.Tensor, torch.Tensor]:
     # `get_dp_local_info` is only called in global DP gather and scatter. We use global DP rank here.
     dp_rank = get_attention_dp_rank()
 
@@ -221,7 +250,7 @@ def memcpy_triton(dst, src, dim, offset, sz, offset_src):
     memcpy_triton_kernel[grid](dst, src, offset, sz, offset_src, chunk_size, BLOCK_SIZE)
 
 
-def _dp_gather(
+def _dp_gather_via_all_reduce(
     global_tokens: torch.Tensor,
     local_tokens: torch.Tensor,
     forward_batch: ForwardBatch,
@@ -238,13 +267,6 @@ def _dp_gather(
             local_tokens.untyped_storage() is not global_tokens.untyped_storage()
         ), "aliasing between global_tokens and local_tokens not allowed"
 
-        # NOTE: During draft extend, the gathered_buffer is padded to num_tokens * (speculative_num_steps + 1).
-        # But the size of local_tokens is total accepted tokens. We need to reduce the local_num_tokens to the
-        # actual size of the accepted tokens.
-        if forward_batch.forward_mode.is_draft_extend():
-            shape_tensor = local_num_tokens.new_full((), local_tokens.shape[0])
-            local_num_tokens = torch.minimum(local_num_tokens, shape_tensor)
-
         memcpy_triton(
             global_tokens, local_tokens, 0, local_start_pos, local_num_tokens, False
         )
@@ -263,6 +285,38 @@ def _dp_gather(
         global_tokens[:] = tensor_model_parallel_all_reduce(global_tokens)
 
 
+def _dp_gather_via_all_gather(
+    global_tokens: torch.Tensor,
+    local_tokens: torch.Tensor,
+    forward_batch: ForwardBatch,
+    is_partial: bool,
+):
+    if not is_partial:
+        if get_attention_tp_rank() != 0:
+            local_tokens.fill_(0)
+    scattered_local_tokens = local_tokens.tensor_split(get_attention_tp_size())[
+        get_attention_tp_rank()
+    ]
+    get_attention_tp_group().reduce_scatter_tensor(scattered_local_tokens, local_tokens)
+    get_tp_group().all_gather_into_tensor(global_tokens, scattered_local_tokens)
+
+
+def _dp_gather(
+    global_tokens: torch.Tensor,
+    local_tokens: torch.Tensor,
+    forward_batch: ForwardBatch,
+    is_partial: bool,
+):
+    if forward_batch.dp_padding_mode.is_max_len():
+        _dp_gather_via_all_gather(
+            global_tokens, local_tokens, forward_batch, is_partial
+        )
+    else:
+        _dp_gather_via_all_reduce(
+            global_tokens, local_tokens, forward_batch, is_partial
+        )
+
+
 def dp_gather_partial(
     global_tokens: torch.Tensor,
     local_tokens: torch.Tensor,
@@ -296,24 +350,18 @@ def dp_scatter(
             local_tokens.untyped_storage() is not global_tokens.untyped_storage()
         ), "aliasing between local_tokens and global_tokens not allowed"
 
-        # NOTE: During draft extend, the gathered_buffer is padded to num_tokens * (speculative_num_steps + 1).
-        # But the size of local_tokens is total accepted tokens. We need to reduce the local_num_tokens to the
-        # actual size of the accepted tokens.
-        if forward_batch.forward_mode.is_draft_extend():
-            shape_tensor = local_num_tokens.new_full((), local_tokens.shape[0])
-            local_num_tokens = torch.minimum(local_num_tokens, shape_tensor)
-
         memcpy_triton(
             local_tokens, global_tokens, 0, local_start_pos, local_num_tokens, True
         )
 
 
-def attn_tp_reduce_scatter(
-    output: torch.Tensor,
-    input_list: List[torch.Tensor],
-):
-    return get_attention_tp_group().reduce_scatter(output, input_list)
+def attn_tp_reduce_scatter_tensor(output: torch.Tensor, input: torch.Tensor):
+    return get_attention_tp_group().reduce_scatter_tensor(output, input)
+
+
+def attn_tp_all_gather_into_tensor(output: torch.Tensor, input: torch.Tensor):
+    return get_attention_tp_group().all_gather_into_tensor(output, input)
 
 
-def attn_tp_all_gather(output_list: List[torch.Tensor], input_: torch.Tensor):
-    return get_attention_tp_group().all_gather(input_, output_tensor_list=output_list)
+def attn_tp_all_gather(output_list: List[torch.Tensor], input: torch.Tensor):
+    return get_attention_tp_group().all_gather(input, output_tensor_list=output_list)
diff --git a/python/sglang/srt/layers/logits_processor.py b/python/sglang/srt/layers/logits_processor.py
index 79d38193e6aa..0aee86f68a28 100644
--- a/python/sglang/srt/layers/logits_processor.py
+++ b/python/sglang/srt/layers/logits_processor.py
@@ -27,7 +27,9 @@
     tensor_model_parallel_all_gather,
 )
 from sglang.srt.layers.dp_attention import (
+    DPPaddingMode,
     attn_tp_all_gather,
+    attn_tp_all_gather_into_tensor,
     dp_gather_replicate,
     dp_scatter,
     get_attention_dp_rank,
@@ -111,7 +113,8 @@ class LogitsMetadata:
     # Number of tokens to sample per DP rank
     global_num_tokens_for_logprob_cpu: Optional[torch.Tensor] = None
     global_num_tokens_for_logprob_gpu: Optional[torch.Tensor] = None
-
+    # The gather mode for DP attention
+    dp_padding_mode: Optional[DPPaddingMode] = None
     # for padding
     padded_static_len: int = -1
 
@@ -163,12 +166,12 @@ def from_forward_batch(cls, forward_batch: ForwardBatch):
             forward_batch_gathered_buffer=forward_batch.gathered_buffer,
             global_num_tokens_for_logprob_cpu=forward_batch.global_num_tokens_for_logprob_cpu,
             global_num_tokens_for_logprob_gpu=forward_batch.global_num_tokens_for_logprob_gpu,
+            dp_padding_mode=DPPaddingMode.SUM_LEN,
         )
 
-    def compute_dp_attention_metadata(self, hidden_states: torch.Tensor):
-        if self.global_num_tokens_for_logprob_cpu is None:
-            # we are capturing cuda graph
-            return
+    def compute_dp_attention_metadata(self):
+        # TODO(ch-wan): gathered_buffer here is larger than the actual required size in draft extend,
+        # we may use a smaller buffer in draft extend.
 
         cumtokens = torch.cumsum(self.global_num_tokens_for_logprob_gpu, dim=0)
         dp_rank = get_attention_dp_rank()
@@ -179,18 +182,9 @@ def compute_dp_attention_metadata(self, hidden_states: torch.Tensor):
         else:
             dp_local_start_pos = cumtokens[dp_rank - 1]
         dp_local_num_tokens = self.global_num_tokens_for_logprob_gpu[dp_rank]
-        gathered_buffer = torch.zeros(
-            (
-                sum(self.global_num_tokens_for_logprob_cpu),
-                hidden_states.shape[1],
-            ),
-            dtype=hidden_states.dtype,
-            device=hidden_states.device,
-        )
 
         self.dp_local_start_pos = dp_local_start_pos
         self.dp_local_num_tokens = dp_local_num_tokens
-        self.gathered_buffer = gathered_buffer
 
 
 class LogitsProcessor(nn.Module):
@@ -434,7 +428,7 @@ def _get_logits(
         guarantee the given hidden_states follow this constraint.
         """
         if self.do_tensor_parallel_all_gather_dp_attn:
-            logits_metadata.compute_dp_attention_metadata(hidden_states)
+            logits_metadata.compute_dp_attention_metadata()
             hidden_states, local_hidden_states = (
                 torch.empty_like(logits_metadata.gathered_buffer),
                 hidden_states,
@@ -463,15 +457,31 @@ def _get_logits(
 
         if self.do_tensor_parallel_all_gather:
             if self.use_attn_tp_group:
-                global_logits = torch.empty(
-                    (self.config.vocab_size, logits.shape[0]),
-                    device=logits.device,
-                    dtype=logits.dtype,
-                )
-                global_logits = global_logits.T
-                attn_tp_all_gather(
-                    list(global_logits.tensor_split(self.attn_tp_size, dim=-1)), logits
-                )
+                if self.config.vocab_size % self.attn_tp_size == 0:
+                    global_logits = torch.empty(
+                        (
+                            self.attn_tp_size,
+                            logits.shape[0],
+                            self.config.vocab_size // self.attn_tp_size,
+                        ),
+                        device=logits.device,
+                        dtype=logits.dtype,
+                    )
+                    attn_tp_all_gather_into_tensor(global_logits, logits)
+                    global_logits = global_logits.permute(1, 0, 2).reshape(
+                        logits.shape[0], self.config.vocab_size
+                    )
+                else:
+                    global_logits = torch.empty(
+                        (self.config.vocab_size, logits.shape[0]),
+                        device=logits.device,
+                        dtype=logits.dtype,
+                    )
+                    global_logits = global_logits.T
+                    attn_tp_all_gather(
+                        list(global_logits.tensor_split(self.attn_tp_size, dim=-1)),
+                        logits,
+                    )
                 logits = global_logits
             else:
                 logits = tensor_model_parallel_all_gather(logits)
diff --git a/python/sglang/srt/layers/radix_attention.py b/python/sglang/srt/layers/radix_attention.py
index 322704ca9f78..8004fc7c9c4e 100644
--- a/python/sglang/srt/layers/radix_attention.py
+++ b/python/sglang/srt/layers/radix_attention.py
@@ -12,14 +12,16 @@
 # limitations under the License.
 # ==============================================================================
 """Radix attention."""
+from __future__ import annotations
 
 from enum import Enum
-from typing import Optional
+from typing import TYPE_CHECKING, Optional
 
 from torch import nn
 
-from sglang.srt.layers.quantization.base_config import QuantizationConfig
-from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+if TYPE_CHECKING:
+    from sglang.srt.layers.quantization.base_config import QuantizationConfig
+    from sglang.srt.model_executor.forward_batch_info import ForwardBatch
 
 
 class AttentionType(Enum):
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 714af6fba588..ea7cad98be90 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -45,7 +45,6 @@
 import triton.language as tl
 
 from sglang.global_config import global_config
-from sglang.srt.configs.model_config import ModelConfig
 from sglang.srt.constrained.base_grammar_backend import BaseGrammarObject
 from sglang.srt.disaggregation.base import BaseKVSender
 from sglang.srt.disaggregation.decode_schedule_batch_mixin import (
@@ -68,6 +67,7 @@
 from sglang.srt.utils import flatten_nested_list, support_triton
 
 if TYPE_CHECKING:
+    from sglang.srt.configs.model_config import ModelConfig
     from sglang.srt.speculative.eagle_utils import EagleDraftInput, EagleVerifyInput
     from sglang.srt.speculative.spec_info import SpeculativeAlgorithm
 
@@ -1880,7 +1880,7 @@ class ModelWorkerBatch:
     sampling_info: SamplingBatchInfo
 
     # The input Embeds
-    input_embeds: Optional[torch.tensor] = None
+    input_embeds: Optional[torch.Tensor] = None
 
     # For corss-encoder model
     token_type_ids: Optional[torch.Tensor] = None
@@ -1890,7 +1890,6 @@ class ModelWorkerBatch:
     spec_info: Optional[Union[EagleVerifyInput, EagleDraftInput]] = None
     # If set, the output of the batch contains the hidden states of the run.
     capture_hidden_mode: CaptureHiddenMode = None
-    spec_num_draft_tokens: Optional[int] = None
     hicache_consumer_index: int = 0
 
     # Overlap event
diff --git a/python/sglang/srt/model_executor/cuda_graph_runner.py b/python/sglang/srt/model_executor/cuda_graph_runner.py
index 520a631c5ecf..eef7fba14734 100644
--- a/python/sglang/srt/model_executor/cuda_graph_runner.py
+++ b/python/sglang/srt/model_executor/cuda_graph_runner.py
@@ -29,9 +29,9 @@
 from sglang.srt.custom_op import CustomOp
 from sglang.srt.distributed import get_tensor_model_parallel_rank
 from sglang.srt.distributed.parallel_state import GroupCoordinator, graph_capture
+from sglang.srt.layers.dp_attention import DPPaddingMode, get_attention_tp_size
 from sglang.srt.layers.logits_processor import LogitsProcessorOutput
 from sglang.srt.layers.torchao_utils import save_gemlite_cache
-from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import (
     CaptureHiddenMode,
     ForwardBatch,
@@ -167,8 +167,15 @@ def get_batch_sizes_to_capture(model_runner: ModelRunner):
         # is very small. We add more values here to make sure we capture the maximum bs.
         capture_bs += [model_runner.req_to_token_pool.size]
 
+    mul_base = 1
+
     if server_args.enable_two_batch_overlap:
-        capture_bs = [bs for bs in capture_bs if bs % 2 == 0]
+        mul_base *= 2
+
+    if require_gathered_buffer(server_args):
+        mul_base *= get_attention_tp_size()
+
+    capture_bs = [bs for bs in capture_bs if bs % mul_base == 0]
 
     if server_args.cuda_graph_max_bs:
         capture_bs = [bs for bs in capture_bs if bs <= server_args.cuda_graph_max_bs]
@@ -306,20 +313,37 @@ def __init__(self, model_runner: ModelRunner):
                 self.encoder_lens = None
 
             if self.require_gathered_buffer:
-                self.gathered_buffer = torch.zeros(
-                    (
-                        self.max_num_token,
-                        self.model_runner.model_config.hidden_size,
-                    ),
-                    dtype=self.model_runner.dtype,
-                )
                 if self.require_mlp_tp_gather:
                     self.global_num_tokens_gpu = torch.zeros(
                         (self.dp_size,), dtype=torch.int32
                     )
+                    self.global_num_tokens_for_logprob_gpu = torch.zeros(
+                        (self.dp_size,), dtype=torch.int32
+                    )
+                    self.gathered_buffer = torch.zeros(
+                        (
+                            self.max_num_token * self.dp_size,
+                            self.model_runner.model_config.hidden_size,
+                        ),
+                        dtype=self.model_runner.dtype,
+                    )
                 else:
                     assert self.require_attn_tp_gather
                     self.global_num_tokens_gpu = torch.zeros((1,), dtype=torch.int32)
+                    self.global_num_tokens_for_logprob_gpu = torch.zeros(
+                        (1,), dtype=torch.int32
+                    )
+                    self.gathered_buffer = torch.zeros(
+                        (
+                            self.max_num_token,
+                            self.model_runner.model_config.hidden_size,
+                        ),
+                        dtype=self.model_runner.dtype,
+                    )
+            else:
+                self.global_num_tokens_gpu = None
+                self.global_num_tokens_for_logprob_gpu = None
+                self.gathered_buffer = None
 
             self.custom_mask = torch.ones(
                 (
@@ -342,9 +366,9 @@ def __init__(self, model_runner: ModelRunner):
     def can_run(self, forward_batch: ForwardBatch):
         if self.require_mlp_tp_gather:
             cuda_graph_bs = (
-                sum(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
+                max(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
                 if self.model_runner.spec_algorithm.is_eagle()
-                else sum(forward_batch.global_num_tokens_cpu)
+                else max(forward_batch.global_num_tokens_cpu)
             )
         else:
             cuda_graph_bs = forward_batch.batch_size
@@ -480,16 +504,19 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
         if self.require_mlp_tp_gather:
             self.global_num_tokens_gpu.copy_(
                 torch.tensor(
-                    [
-                        num_tokens // self.dp_size + (i < (num_tokens % self.dp_size))
-                        for i in range(self.dp_size)
-                    ],
+                    [num_tokens] * self.dp_size,
                     dtype=torch.int32,
                     device=input_ids.device,
                 )
             )
-            global_num_tokens = self.global_num_tokens_gpu
-            gathered_buffer = self.gathered_buffer[:num_tokens]
+            self.global_num_tokens_for_logprob_gpu.copy_(
+                torch.tensor(
+                    [num_tokens] * self.dp_size,
+                    dtype=torch.int32,
+                    device=input_ids.device,
+                )
+            )
+            gathered_buffer = self.gathered_buffer[: num_tokens * self.dp_size]
         elif self.require_attn_tp_gather:
             self.global_num_tokens_gpu.copy_(
                 torch.tensor(
@@ -498,10 +525,15 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
                     device=input_ids.device,
                 )
             )
-            global_num_tokens = self.global_num_tokens_gpu
+            self.global_num_tokens_for_logprob_gpu.copy_(
+                torch.tensor(
+                    [num_tokens],
+                    dtype=torch.int32,
+                    device=input_ids.device,
+                )
+            )
             gathered_buffer = self.gathered_buffer[:num_tokens]
         else:
-            global_num_tokens = None
             gathered_buffer = None
 
         spec_info = self.get_spec_info(num_tokens)
@@ -531,7 +563,9 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             encoder_lens=encoder_lens,
             return_logprob=False,
             positions=positions,
-            global_num_tokens_gpu=global_num_tokens,
+            global_num_tokens_gpu=self.global_num_tokens_gpu,
+            global_num_tokens_for_logprob_gpu=self.global_num_tokens_for_logprob_gpu,
+            dp_padding_mode=DPPaddingMode.get_default_mode_in_cuda_graph(),
             gathered_buffer=gathered_buffer,
             mrope_positions=mrope_positions,
             spec_algorithm=self.model_runner.spec_algorithm,
@@ -635,12 +669,13 @@ def replay_prepare(
 
         # Pad
         if self.require_mlp_tp_gather:
-            total_batch_size = (
-                sum(forward_batch.global_num_tokens_cpu) / self.num_tokens_per_bs
+            max_num_tokens = max(forward_batch.global_num_tokens_cpu)
+            max_batch_size = (
+                max_num_tokens / self.num_tokens_per_bs
                 if self.model_runner.spec_algorithm.is_eagle()
-                else sum(forward_batch.global_num_tokens_cpu)
+                else max_num_tokens
             )
-            index = bisect.bisect_left(self.capture_bs, total_batch_size)
+            index = bisect.bisect_left(self.capture_bs, max_batch_size)
         else:
             index = bisect.bisect_left(self.capture_bs, raw_bs)
         bs = self.capture_bs[index]
@@ -670,7 +705,8 @@ def replay_prepare(
         if forward_batch.mrope_positions is not None:
             self.mrope_positions[:, :raw_bs].copy_(forward_batch.mrope_positions)
         if self.require_gathered_buffer:
-            self.global_num_tokens_gpu.copy_(forward_batch.global_num_tokens_gpu)
+            self.global_num_tokens_gpu.fill_(bs * self.num_tokens_per_bs)
+            self.global_num_tokens_for_logprob_gpu.fill_(bs * self.num_tokens_per_bs)
         if enable_num_token_non_padded(self.model_runner.server_args):
             self.num_token_non_padded.copy_(forward_batch.num_token_non_padded)
         if self.enable_two_batch_overlap:
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 6f3ea547477f..d6850aabd8be 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -38,6 +38,11 @@
 import triton
 import triton.language as tl
 
+from sglang.srt.layers.dp_attention import (
+    DPPaddingMode,
+    get_attention_dp_rank,
+    get_attention_tp_size,
+)
 from sglang.srt.layers.rotary_embedding import MRotaryEmbedding
 from sglang.srt.utils import (
     flatten_nested_list,
@@ -48,6 +53,7 @@
 
 if TYPE_CHECKING:
     from sglang.srt.layers.attention.base_attn_backend import AttentionBackend
+    from sglang.srt.layers.logits_processor import LogitsProcessorOutput
     from sglang.srt.managers.schedule_batch import ModelWorkerBatch, MultimodalInputs
     from sglang.srt.mem_cache.memory_pool import KVCache, ReqToTokenPool
     from sglang.srt.model_executor.model_runner import ModelRunner
@@ -242,7 +248,7 @@ class ForwardBatch:
     lora_paths: Optional[List[str]] = None
 
     # For input embeddings
-    input_embeds: Optional[torch.tensor] = None
+    input_embeds: Optional[torch.Tensor] = None
 
     # For cross-encoder model
     token_type_ids: Optional[torch.Tensor] = None
@@ -261,6 +267,8 @@ class ForwardBatch:
     # Has to be None when cuda graph is captured.
     global_num_tokens_for_logprob_cpu: Optional[List[int]] = None
     global_num_tokens_for_logprob_gpu: Optional[torch.Tensor] = None
+    # The padding mode for DP attention
+    dp_padding_mode: Optional[DPPaddingMode] = None
     # for extend, local start pos and num tokens is different in logits processor
     # this will be computed in get_dp_local_info
     # this will be recomputed in LogitsMetadata.from_forward_batch
@@ -286,7 +294,7 @@ class ForwardBatch:
     # For two-batch overlap
     tbo_split_seq_index: Optional[int] = None
     tbo_parent_token_range: Optional[Tuple[int, int]] = None
-    tbo_children: Optional[List["ForwardBatch"]] = None
+    tbo_children: Optional[List[ForwardBatch]] = None
 
     @classmethod
     def init_new(
@@ -340,20 +348,38 @@ def init_new(
                 len(batch.input_ids), dtype=torch.int32
             ).to(device, non_blocking=True)
 
-        # For DP attention
+        # For MLP sync
         if batch.global_num_tokens is not None:
-
-            spec_num_draft_tokens = (
-                batch.spec_num_draft_tokens
-                if batch.spec_num_draft_tokens is not None
-                else 1
+            from sglang.srt.speculative.eagle_utils import (
+                EagleDraftInput,
+                EagleVerifyInput,
             )
-            global_num_tokens = [
-                x * spec_num_draft_tokens for x in batch.global_num_tokens
-            ]
-            global_num_tokens_for_logprob = [
-                x * spec_num_draft_tokens for x in batch.global_num_tokens_for_logprob
-            ]
+
+            assert batch.global_num_tokens_for_logprob is not None
+            # process global_num_tokens and global_num_tokens_for_logprob
+            if batch.spec_info is not None:
+                if isinstance(batch.spec_info, EagleDraftInput):
+                    global_num_tokens = [
+                        x * batch.spec_info.num_tokens_per_batch
+                        for x in batch.global_num_tokens
+                    ]
+                    global_num_tokens_for_logprob = [
+                        x * batch.spec_info.num_tokens_for_logprob_per_batch
+                        for x in batch.global_num_tokens_for_logprob
+                    ]
+                else:
+                    assert isinstance(batch.spec_info, EagleVerifyInput)
+                    global_num_tokens = [
+                        x * batch.spec_info.draft_token_num
+                        for x in batch.global_num_tokens
+                    ]
+                    global_num_tokens_for_logprob = [
+                        x * batch.spec_info.draft_token_num
+                        for x in batch.global_num_tokens_for_logprob
+                    ]
+            else:
+                global_num_tokens = batch.global_num_tokens
+                global_num_tokens_for_logprob = batch.global_num_tokens_for_logprob
 
             ret.global_num_tokens_cpu = global_num_tokens
             ret.global_num_tokens_gpu = torch.tensor(
@@ -365,15 +391,8 @@ def init_new(
                 global_num_tokens_for_logprob, dtype=torch.int64
             ).to(device, non_blocking=True)
 
-            sum_len = sum(global_num_tokens)
-            ret.gathered_buffer = torch.zeros(
-                (sum_len, model_runner.model_config.hidden_size),
-                dtype=model_runner.dtype,
-                device=device,
-            )
-
         if ret.forward_mode.is_idle():
-            ret.positions = torch.empty((0,), device=device)
+            ret.positions = torch.empty((0,), dtype=torch.int64, device=device)
             TboForwardBatchPreparer.prepare(
                 ret, is_draft_worker=model_runner.is_draft_worker
             )
@@ -573,6 +592,158 @@ def prepare_chunked_kv_indices(self, device: torch.device):
             )
             self.prefix_chunk_kv_indices.append(chunk_kv_indices)
 
+    def _pad_tensor_to_size(self, tensor: torch.Tensor, size: int, *, value: int = 0):
+        if value == 0:
+            return torch.cat(
+                [tensor, tensor.new_zeros(size - tensor.shape[0], *tensor.shape[1:])],
+                dim=0,
+            )
+        else:
+            return torch.cat(
+                [
+                    tensor,
+                    tensor.new_full((size - tensor.shape[0], *tensor.shape[1:]), value),
+                ],
+                dim=0,
+            )
+
+    def prepare_mlp_sync_batch(self, model_runner: ModelRunner):
+
+        from sglang.srt.speculative.eagle_utils import EagleDraftInput
+
+        assert self.global_num_tokens_cpu is not None
+        assert self.global_num_tokens_for_logprob_cpu is not None
+
+        global_num_tokens = self.global_num_tokens_cpu
+        sync_group_size = len(global_num_tokens)
+        attn_tp_size = get_attention_tp_size()
+
+        for i in range(sync_group_size):
+            # make sure that the padded length is divisible by attn_tp_size because we may need reduce-scatter across attn_tp dim.
+            # there is no reduce-scatter in LM logprob, so we do not need to adjust the padded length for logprob
+            global_num_tokens[i] = (
+                (global_num_tokens[i] - 1) // attn_tp_size + 1
+            ) * attn_tp_size
+
+        dp_padding_mode = DPPaddingMode.get_dp_padding_mode(global_num_tokens)
+        self.dp_padding_mode = dp_padding_mode
+
+        if dp_padding_mode.is_max_len():
+            # when DP gather mode is all gather, we will use all_gather_into_tensor to gather hidden states,
+            # where transferred tokens should be padded to the same length.
+            max_num_tokens = max(global_num_tokens)
+            global_num_tokens = [max_num_tokens] * sync_group_size
+            buffer_len = max_num_tokens * sync_group_size
+        else:
+            buffer_len = sum(global_num_tokens)
+
+        self.gathered_buffer = torch.zeros(
+            (buffer_len, model_runner.model_config.hidden_size),
+            dtype=model_runner.dtype,
+            device=model_runner.device,
+        )
+
+        bs = self.batch_size
+        if len(global_num_tokens) > 1:
+            num_tokens = global_num_tokens[get_attention_dp_rank()]
+        else:
+            num_tokens = global_num_tokens[0]
+
+        # padding
+        self.input_ids = self._pad_tensor_to_size(self.input_ids, num_tokens)
+        self.req_pool_indices = self._pad_tensor_to_size(self.req_pool_indices, bs)
+
+        seq_len_fill_value = (
+            model_runner.attn_backend.get_cuda_graph_seq_len_fill_value()
+        )
+        self.seq_lens = self._pad_tensor_to_size(
+            self.seq_lens, bs, value=seq_len_fill_value
+        )
+        if self.seq_lens_cpu is not None:
+            self.seq_lens_cpu = self._pad_tensor_to_size(
+                self.seq_lens_cpu, bs, value=seq_len_fill_value
+            )
+
+        self.out_cache_loc = self._pad_tensor_to_size(self.out_cache_loc, num_tokens)
+        if self.encoder_lens is not None:
+            self.encoder_lens = self._pad_tensor_to_size(self.encoder_lens, bs)
+        self.positions = self._pad_tensor_to_size(self.positions, num_tokens)
+        self.global_num_tokens_cpu = global_num_tokens
+        self.global_num_tokens_gpu = self.global_num_tokens_gpu.new_tensor(
+            global_num_tokens
+        )
+
+        if self.mrope_positions is not None:
+            self.mrope_positions = self._pad_tensor_to_size(self.mrope_positions, bs)
+
+        if self.extend_seq_lens is not None:
+            self.extend_seq_lens = self._pad_tensor_to_size(self.extend_seq_lens, bs)
+
+        if self.spec_info is not None and isinstance(self.spec_info, EagleDraftInput):
+            spec_info = self.spec_info
+            self.output_cache_loc_backup = self.out_cache_loc
+            self.hidden_states_backup = spec_info.hidden_states
+            if spec_info.topk_p is not None:
+                spec_info.topk_p = self._pad_tensor_to_size(spec_info.topk_p, bs)
+            if spec_info.topk_index is not None:
+                spec_info.topk_index = self._pad_tensor_to_size(
+                    spec_info.topk_index, bs
+                )
+            if spec_info.accept_length is not None:
+                spec_info.accept_length = self._pad_tensor_to_size(
+                    spec_info.accept_length, bs
+                )
+            spec_info.hidden_states = self._pad_tensor_to_size(
+                spec_info.hidden_states, num_tokens
+            )
+
+    def post_forward_mlp_sync_batch(self, logits_output: LogitsProcessorOutput):
+
+        bs = self.batch_size
+
+        if self.spec_info is not None:
+            if self.forward_mode.is_decode():  # draft
+                num_tokens = self.hidden_states_backup.shape[0]
+                self.positions = self.positions[:num_tokens]
+                self.seq_lens = self.seq_lens[:bs]
+                self.req_pool_indices = self.req_pool_indices[:bs]
+                if self.seq_lens_cpu is not None:
+                    self.seq_lens_cpu = self.seq_lens_cpu[:bs]
+                logits_output.next_token_logits = logits_output.next_token_logits[
+                    :num_tokens
+                ]
+                logits_output.hidden_states = logits_output.hidden_states[:num_tokens]
+            elif self.forward_mode.is_target_verify():  # verify
+                num_tokens = bs * self.spec_info.draft_token_num
+                logits_output.next_token_logits = logits_output.next_token_logits[
+                    :num_tokens
+                ]
+                logits_output.hidden_states = logits_output.hidden_states[:num_tokens]
+            elif self.forward_mode.is_draft_extend():  # draft extend
+                self.spec_info.accept_length = self.spec_info.accept_length[:bs]
+                logits_output.next_token_logits = logits_output.next_token_logits[:bs]
+                logits_output.hidden_states = logits_output.hidden_states[:bs]
+            elif self.forward_mode.is_extend() or self.forward_mode.is_idle():
+                logits_output.next_token_logits = logits_output.next_token_logits[:bs]
+                logits_output.hidden_states = logits_output.hidden_states[:bs]
+
+            if hasattr(self, "hidden_states_backup"):
+                self.spec_info.hidden_states = self.hidden_states_backup
+            if hasattr(self, "output_cache_loc_backup"):
+                self.out_cache_loc = self.output_cache_loc_backup
+
+        elif self.forward_mode.is_decode() or self.forward_mode.is_idle():
+            logits_output.next_token_logits = logits_output.next_token_logits[:bs]
+            if logits_output.hidden_states is not None:
+                logits_output.hidden_states = logits_output.hidden_states[:bs]
+        elif self.forward_mode.is_extend():
+            num_tokens = self.seq_lens_sum
+            logits_output.next_token_logits = logits_output.next_token_logits[
+                :num_tokens
+            ]
+            if logits_output.hidden_states is not None:
+                logits_output.hidden_states = logits_output.hidden_states[:num_tokens]
+
     # Here we suppose the length of each chunk is equal
     # For example, if we have 4 sequences with prefix length [256, 512, 768, 1024], prefix_chunk_len = 256
     # num_prefix_chunks = cdiv(1024, 256) = 4
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index cbb35bf270d3..3d3be71f1b82 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -1464,9 +1464,13 @@ def apply_torch_tp(self):
         tensor_parallel(self.model, device_mesh)
 
     def forward_decode(
-        self, forward_batch: ForwardBatch, pp_proxy_tensors=None
+        self,
+        forward_batch: ForwardBatch,
+        skip_attn_backend_init: bool = False,
+        pp_proxy_tensors=None,
     ) -> LogitsProcessorOutput:
-        self.attn_backend.init_forward_metadata(forward_batch)
+        if not skip_attn_backend_init:
+            self.attn_backend.init_forward_metadata(forward_batch)
         # FIXME: add pp_proxy_tensors arg to all models
         kwargs = {}
         if self.support_pp:
@@ -1578,8 +1582,18 @@ def _forward_raw(
                 skip_attn_backend_init=skip_attn_backend_init,
                 pp_proxy_tensors=pp_proxy_tensors,
             )
-        elif forward_batch.forward_mode.is_decode():
-            ret = self.forward_decode(forward_batch, pp_proxy_tensors=pp_proxy_tensors)
+            return ret, can_run_cuda_graph
+
+        # For MLP sync
+        if forward_batch.global_num_tokens_cpu is not None:
+            forward_batch.prepare_mlp_sync_batch(self)
+
+        if forward_batch.forward_mode.is_decode():
+            ret = self.forward_decode(
+                forward_batch,
+                skip_attn_backend_init=skip_attn_backend_init,
+                pp_proxy_tensors=pp_proxy_tensors,
+            )
         elif forward_batch.forward_mode.is_extend():
             ret = self.forward_extend(
                 forward_batch,
@@ -1597,6 +1611,9 @@ def _forward_raw(
         else:
             raise ValueError(f"Invalid forward mode: {forward_batch.forward_mode}")
 
+        if forward_batch.global_num_tokens_cpu is not None:
+            forward_batch.post_forward_mlp_sync_batch(ret)
+
         return ret, can_run_cuda_graph
 
     def _preprocess_logits(
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index e02d30839007..7c627bc090f6 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -550,9 +550,8 @@ def forward_cpu(
     def forward_deepep(
         self, hidden_states: torch.Tensor, forward_batch: ForwardBatch
     ) -> torch.Tensor:
-        forward_mode = forward_batch.forward_mode
         shared_output = None
-        if is_non_idle_and_non_empty(forward_mode, hidden_states):
+        if hidden_states.shape[0] > 0:
             # router_logits: (num_tokens, n_experts)
             router_logits = self.gate(hidden_states)
             shared_output = self._forward_shared_experts(hidden_states)
diff --git a/python/sglang/srt/models/qwen2_moe.py b/python/sglang/srt/models/qwen2_moe.py
index e033424cf023..291678652939 100644
--- a/python/sglang/srt/models/qwen2_moe.py
+++ b/python/sglang/srt/models/qwen2_moe.py
@@ -43,10 +43,6 @@
     ScatterMode,
 )
 from sglang.srt.layers.dp_attention import (
-    attn_tp_all_gather,
-    attn_tp_reduce_scatter,
-    dp_gather_partial,
-    dp_scatter,
     get_attention_tp_rank,
     get_attention_tp_size,
     get_local_attention_dp_size,
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index c75a384990e8..8eeee74fad1e 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -38,10 +38,6 @@
 from sglang.srt.layers.activation import SiluAndMul
 from sglang.srt.layers.communicator import LayerCommunicator, LayerScatterModes
 from sglang.srt.layers.dp_attention import (
-    attn_tp_all_gather,
-    attn_tp_reduce_scatter,
-    dp_gather_partial,
-    dp_scatter,
     get_attention_tp_rank,
     get_attention_tp_size,
     get_local_attention_dp_size,
@@ -193,8 +189,7 @@ def forward_normal(self, hidden_states: torch.Tensor) -> torch.Tensor:
     def forward_deepep(
         self, hidden_states: torch.Tensor, forward_batch: ForwardBatch
     ) -> torch.Tensor:
-        forward_mode = forward_batch.forward_mode
-        if is_non_idle_and_non_empty(forward_mode, hidden_states):
+        if hidden_states.shape[0] > 0:
             # router_logits: (num_tokens, n_experts)
             router_logits, _ = self.gate(hidden_states)
             topk_weights, topk_idx, _ = self.topk(
diff --git a/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py b/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py
index 6b6c1a777aaa..2c8cdf255e4e 100644
--- a/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py
+++ b/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py
@@ -5,6 +5,7 @@
 
 import torch
 
+from sglang.srt.layers.dp_attention import DPPaddingMode
 from sglang.srt.model_executor.cuda_graph_runner import (
     CUDA_GRAPH_CAPTURE_FAILED_MSG,
     CudaGraphRunner,
@@ -97,13 +98,6 @@ def __init__(self, eagle_worker: EAGLEWorker):
             )
 
             if self.require_gathered_buffer:
-                self.gathered_buffer = torch.zeros(
-                    (
-                        self.max_num_token,
-                        self.model_runner.model_config.hidden_size,
-                    ),
-                    dtype=self.model_runner.dtype,
-                )
                 if self.require_mlp_tp_gather:
                     self.global_num_tokens_gpu = torch.zeros(
                         (self.dp_size,), dtype=torch.int32
@@ -111,12 +105,30 @@ def __init__(self, eagle_worker: EAGLEWorker):
                     self.global_num_tokens_for_logprob_gpu = torch.zeros(
                         (self.dp_size,), dtype=torch.int32
                     )
+                    self.gathered_buffer = torch.zeros(
+                        (
+                            self.max_num_token * self.dp_size,
+                            self.model_runner.model_config.hidden_size,
+                        ),
+                        dtype=self.model_runner.dtype,
+                    )
                 else:
                     assert self.require_attn_tp_gather
                     self.global_num_tokens_gpu = torch.zeros((1,), dtype=torch.int32)
                     self.global_num_tokens_for_logprob_gpu = torch.zeros(
                         (1,), dtype=torch.int32
                     )
+                    self.gathered_buffer = torch.zeros(
+                        (
+                            self.max_num_token,
+                            self.model_runner.model_config.hidden_size,
+                        ),
+                        dtype=self.model_runner.dtype,
+                    )
+            else:
+                self.global_num_tokens_gpu = None
+                self.global_num_tokens_for_logprob_gpu = None
+                self.gathered_buffer = None
 
         # Capture
         try:
@@ -130,9 +142,9 @@ def __init__(self, eagle_worker: EAGLEWorker):
     def can_run(self, forward_batch: ForwardBatch):
         if self.require_mlp_tp_gather:
             cuda_graph_bs = (
-                sum(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
+                max(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
                 if self.model_runner.spec_algorithm.is_eagle()
-                else sum(forward_batch.global_num_tokens_cpu)
+                else max(forward_batch.global_num_tokens_cpu)
             )
         else:
             cuda_graph_bs = forward_batch.batch_size
@@ -168,26 +180,20 @@ def capture_one_batch_size(self, num_seqs: int, forward: Callable):
         if self.require_mlp_tp_gather:
             self.global_num_tokens_gpu.copy_(
                 torch.tensor(
-                    [
-                        num_tokens // self.dp_size + (i < (num_tokens % self.dp_size))
-                        for i in range(self.dp_size)
-                    ],
+                    [num_tokens] * self.dp_size,
                     dtype=torch.int32,
                     device=self.input_ids.device,
                 )
             )
             self.global_num_tokens_for_logprob_gpu.copy_(
                 torch.tensor(
-                    [
-                        num_tokens // self.dp_size + (i < (num_tokens % self.dp_size))
-                        for i in range(self.dp_size)
-                    ],
+                    [num_tokens] * self.dp_size,
                     dtype=torch.int32,
                     device=self.input_ids.device,
                 )
             )
             global_num_tokens = self.global_num_tokens_gpu
-            gathered_buffer = self.gathered_buffer[:num_tokens]
+            gathered_buffer = self.gathered_buffer[: num_tokens * self.dp_size]
             global_num_tokens_for_logprob = self.global_num_tokens_for_logprob_gpu
         elif self.require_attn_tp_gather:
             self.global_num_tokens_gpu.copy_(
@@ -233,6 +239,7 @@ def capture_one_batch_size(self, num_seqs: int, forward: Callable):
             return_logprob=False,
             positions=positions,
             global_num_tokens_gpu=global_num_tokens,
+            dp_padding_mode=DPPaddingMode.get_default_mode_in_cuda_graph(),
             gathered_buffer=gathered_buffer,
             spec_algorithm=self.model_runner.spec_algorithm,
             spec_info=spec_info,
@@ -290,12 +297,13 @@ def replay(self, forward_batch: ForwardBatch):
 
         # Pad
         if self.require_mlp_tp_gather:
-            total_batch_size = (
-                sum(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
+            max_num_tokens = max(forward_batch.global_num_tokens_cpu)
+            max_batch_size = (
+                max_num_tokens // self.num_tokens_per_bs
                 if self.model_runner.spec_algorithm.is_eagle()
-                else sum(forward_batch.global_num_tokens_cpu)
+                else max_num_tokens
             )
-            index = bisect.bisect_left(self.capture_bs, total_batch_size)
+            index = bisect.bisect_left(self.capture_bs, max_batch_size)
         else:
             index = bisect.bisect_left(self.capture_bs, raw_bs)
         bs = self.capture_bs[index]
@@ -316,12 +324,10 @@ def replay(self, forward_batch: ForwardBatch):
         self.topk_index[:raw_bs].copy_(forward_batch.spec_info.topk_index)
         self.hidden_states[:raw_bs].copy_(forward_batch.spec_info.hidden_states)
 
+        # TODO(ch-wan): support num_token_non_padded
         if self.require_gathered_buffer:
-            self.global_num_tokens_gpu.copy_(forward_batch.global_num_tokens_gpu)
-            self.global_num_tokens_for_logprob_gpu.copy_(
-                forward_batch.global_num_tokens_for_logprob_gpu
-            )
-            forward_batch.gathered_buffer = self.gathered_buffer
+            self.global_num_tokens_gpu.fill_(bs * self.num_tokens_per_bs)
+            self.global_num_tokens_for_logprob_gpu.fill_(bs * self.num_tokens_per_bs)
 
         # Attention backend
         if bs != raw_bs:
diff --git a/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py b/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
index 7057c502da0e..f4ed31d7e995 100644
--- a/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
+++ b/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
@@ -5,6 +5,7 @@
 
 import torch
 
+from sglang.srt.layers.dp_attention import DPPaddingMode
 from sglang.srt.model_executor.cuda_graph_runner import (
     CUDA_GRAPH_CAPTURE_FAILED_MSG,
     CudaGraphRunner,
@@ -109,13 +110,6 @@ def __init__(self, eagle_worker: EAGLEWorker):
             )
 
             if self.require_gathered_buffer:
-                self.gathered_buffer = torch.zeros(
-                    (
-                        self.max_num_token,
-                        self.model_runner.model_config.hidden_size,
-                    ),
-                    dtype=self.model_runner.dtype,
-                )
                 if self.require_mlp_tp_gather:
                     self.global_num_tokens_gpu = torch.zeros(
                         (self.dp_size,), dtype=torch.int32
@@ -123,12 +117,31 @@ def __init__(self, eagle_worker: EAGLEWorker):
                     self.global_num_tokens_for_logprob_gpu = torch.zeros(
                         (self.dp_size,), dtype=torch.int32
                     )
+                    self.gathered_buffer = torch.zeros(
+                        (
+                            self.max_num_token * self.dp_size,
+                            self.model_runner.model_config.hidden_size,
+                        ),
+                        dtype=self.model_runner.dtype,
+                    )
                 else:
                     assert self.require_attn_tp_gather
                     self.global_num_tokens_gpu = torch.zeros((1,), dtype=torch.int32)
                     self.global_num_tokens_for_logprob_gpu = torch.zeros(
                         (1,), dtype=torch.int32
                     )
+                    self.gathered_buffer = torch.zeros(
+                        (
+                            self.max_num_token,
+                            self.model_runner.model_config.hidden_size,
+                        ),
+                        dtype=self.model_runner.dtype,
+                    )
+            else:
+                self.global_num_tokens_gpu = None
+                self.global_num_tokens_for_logprob_gpu = None
+                self.gathered_buffer = None
+
         # Capture
         try:
             with model_capture_mode():
@@ -141,9 +154,9 @@ def __init__(self, eagle_worker: EAGLEWorker):
     def can_run(self, forward_batch: ForwardBatch):
         if self.require_mlp_tp_gather:
             cuda_graph_bs = (
-                sum(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
+                max(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
                 if self.model_runner.spec_algorithm.is_eagle()
-                else sum(forward_batch.global_num_tokens_cpu)
+                else max(forward_batch.global_num_tokens_cpu)
             )
         else:
             cuda_graph_bs = forward_batch.seq_lens.numel()
@@ -180,27 +193,19 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
         if self.require_mlp_tp_gather:
             self.global_num_tokens_gpu.copy_(
                 torch.tensor(
-                    [
-                        num_tokens // self.dp_size + (i < (num_tokens % self.dp_size))
-                        for i in range(self.dp_size)
-                    ],
+                    [num_tokens] * self.dp_size,
                     dtype=torch.int32,
                     device=self.input_ids.device,
                 )
             )
             self.global_num_tokens_for_logprob_gpu.copy_(
                 torch.tensor(
-                    [
-                        num_tokens // self.dp_size + (i < (num_tokens % self.dp_size))
-                        for i in range(self.dp_size)
-                    ],
+                    [bs] * self.dp_size,
                     dtype=torch.int32,
                     device=self.input_ids.device,
                 )
             )
-            global_num_tokens = self.global_num_tokens_gpu
-            gathered_buffer = self.gathered_buffer[:num_tokens]
-            global_num_tokens_for_logprob = self.global_num_tokens_for_logprob_gpu
+            gathered_buffer = self.gathered_buffer[: num_tokens * self.dp_size]
         elif self.require_attn_tp_gather:
             self.global_num_tokens_gpu.copy_(
                 torch.tensor(
@@ -211,18 +216,14 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             )
             self.global_num_tokens_for_logprob_gpu.copy_(
                 torch.tensor(
-                    [num_tokens],
+                    [bs],
                     dtype=torch.int32,
                     device=self.input_ids.device,
                 )
             )
-            global_num_tokens = self.global_num_tokens_gpu
             gathered_buffer = self.gathered_buffer[:num_tokens]
-            global_num_tokens_for_logprob = self.global_num_tokens_for_logprob_gpu
         else:
-            global_num_tokens = None
             gathered_buffer = None
-            global_num_tokens_for_logprob = None
 
         spec_info = EagleDraftInput(
             hidden_states=hidden_states,
@@ -243,8 +244,9 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             seq_lens_sum=seq_lens.sum().item(),
             return_logprob=False,
             positions=positions,
-            global_num_tokens_gpu=global_num_tokens,
-            global_num_tokens_for_logprob_gpu=global_num_tokens_for_logprob,
+            global_num_tokens_gpu=self.global_num_tokens_gpu,
+            global_num_tokens_for_logprob_gpu=self.global_num_tokens_for_logprob_gpu,
+            dp_padding_mode=DPPaddingMode.get_default_mode_in_cuda_graph(),
             gathered_buffer=gathered_buffer,
             spec_algorithm=self.model_runner.spec_algorithm,
             spec_info=spec_info,
@@ -306,12 +308,13 @@ def replay(self, forward_batch: ForwardBatch):
         raw_bs = forward_batch.batch_size
         num_tokens = forward_batch.input_ids.shape[0]
         if self.require_mlp_tp_gather:
-            total_batch_size = (
-                sum(forward_batch.global_num_tokens_cpu) // self.num_tokens_per_bs
+            max_num_tokens = max(forward_batch.global_num_tokens_cpu)
+            max_batch_size = (
+                max_num_tokens // self.num_tokens_per_bs
                 if self.model_runner.spec_algorithm.is_eagle()
-                else sum(forward_batch.global_num_tokens_cpu)
+                else max_num_tokens
             )
-            index = bisect.bisect_left(self.capture_bs, total_batch_size)
+            index = bisect.bisect_left(self.capture_bs, max_batch_size)
         else:
             index = bisect.bisect_left(self.capture_bs, raw_bs)
 
@@ -334,12 +337,10 @@ def replay(self, forward_batch: ForwardBatch):
             self.accept_length[:raw_bs].copy_(forward_batch.spec_info.accept_length)
         self.req_pool_indices[:raw_bs].copy_(forward_batch.req_pool_indices)
 
+        # TODO(ch-wan): support num_token_non_padded
         if self.require_gathered_buffer:
-            self.global_num_tokens_gpu.copy_(forward_batch.global_num_tokens_gpu)
-            self.global_num_tokens_for_logprob_gpu.copy_(
-                forward_batch.global_num_tokens_for_logprob_gpu
-            )
-            forward_batch.gathered_buffer = self.gathered_buffer
+            self.global_num_tokens_gpu.fill_(bs * self.num_tokens_per_bs)
+            self.global_num_tokens_for_logprob_gpu.fill_(bs)
 
         if forward_batch.seq_lens_cpu is not None:
             if bs != raw_bs:
diff --git a/python/sglang/srt/speculative/eagle_utils.py b/python/sglang/srt/speculative/eagle_utils.py
index 7f7e21e968c1..aa49e4fc753e 100644
--- a/python/sglang/srt/speculative/eagle_utils.py
+++ b/python/sglang/srt/speculative/eagle_utils.py
@@ -71,9 +71,20 @@ class EagleDraftInput:
     kv_indptr: torch.Tensor = None
     kv_indices: torch.Tensor = None
 
+    # Shape info for padding
+    num_tokens_per_batch: int = -1
+    num_tokens_for_logprob_per_batch: int = -1
+
+    # Inputs for draft extend
+    # shape: (b,)
+    seq_lens_for_draft_extend: torch.Tensor = None
+    req_pool_indices_for_draft_extend: torch.Tensor = None
+
     def prepare_for_extend(self, batch: ScheduleBatch):
+
         if batch.forward_mode.is_idle():
             return
+
         # Prefill only generate 1 token.
         assert len(self.verified_id) == len(batch.seq_lens)
 
@@ -95,7 +106,7 @@ def create_idle_input(
         capture_hidden_mode: CaptureHiddenMode,
     ):
         return cls(
-            verified_id=None,
+            verified_id=torch.empty((0,), device=device, dtype=torch.int32),
             hidden_states=torch.empty((0, hidden_size), device=device, dtype=dtype),
             topk_p=torch.empty((0, topk), device=device, dtype=torch.float32),
             topk_index=torch.empty((0, topk), device=device, dtype=torch.int64),
@@ -109,7 +120,10 @@ def prepare_extend_after_decode(
         batch: ScheduleBatch,
         speculative_num_steps: int,
     ):
-        batch.forward_mode = ForwardMode.DRAFT_EXTEND
+
+        if batch.forward_mode.is_idle():
+            return
+
         batch.input_ids = self.verified_id
         batch.extend_lens = [x + 1 for x in batch.spec_info.accept_length_cpu]
         batch.extend_num_tokens = sum(batch.extend_lens)
@@ -316,7 +330,7 @@ def generate_attn_arg_prefill(
     def verify(
         self,
         batch: ScheduleBatch,
-        logits_output: torch.Tensor,
+        logits_output: LogitsProcessorOutput,
         token_to_kv_pool_allocator: BaseTokenToKVPoolAllocator,
         page_size: int,
         vocab_mask: Optional[torch.Tensor] = None,  # For grammar
@@ -599,13 +613,14 @@ def verify(
                 batch.out_cache_loc = tgt_cache_loc
             batch.seq_lens.add_(accept_length + 1)
 
-            draft_input = EagleDraftInput()
-            draft_input.hidden_states = batch.spec_info.hidden_states[accept_index]
-            draft_input.verified_id = verified_id
-            draft_input.accept_length = accept_length
-            draft_input.accept_length_cpu = accept_length.tolist()
-            draft_input.seq_lens_for_draft_extend = batch.seq_lens
-            draft_input.req_pool_indices_for_draft_extend = batch.req_pool_indices
+            draft_input = EagleDraftInput(
+                hidden_states=batch.spec_info.hidden_states[accept_index],
+                verified_id=verified_id,
+                accept_length=accept_length,
+                accept_length_cpu=accept_length.tolist(),
+                seq_lens_for_draft_extend=batch.seq_lens,
+                req_pool_indices_for_draft_extend=batch.req_pool_indices,
+            )
 
             return EagleVerifyOutput(
                 draft_input=draft_input,
@@ -628,7 +643,6 @@ def verify(
                 batch.seq_lens.add_(accept_length + 1)
 
             accept_length_cpu = accept_length.tolist()
-            draft_input = EagleDraftInput()
             if len(unfinished_accept_index) > 0:
                 unfinished_accept_index = torch.cat(unfinished_accept_index)
                 unfinished_index_device = torch.tensor(
@@ -659,18 +673,26 @@ def verify(
                         next_power_of_2(self.draft_token_num),
                     )
 
-                draft_input.hidden_states = batch.spec_info.hidden_states[
-                    unfinished_accept_index
-                ]
-                draft_input.verified_id = predict[unfinished_accept_index]
-                draft_input.accept_length_cpu = draft_input_accept_length_cpu
-                draft_input.accept_length = accept_length[unfinished_index_device]
-                draft_input.seq_lens_for_draft_extend = batch.seq_lens[
-                    unfinished_index_device
-                ]
-                draft_input.req_pool_indices_for_draft_extend = batch.req_pool_indices[
-                    unfinished_index_device
-                ]
+                draft_input = EagleDraftInput(
+                    hidden_states=batch.spec_info.hidden_states[
+                        unfinished_accept_index
+                    ],
+                    verified_id=predict[unfinished_accept_index],
+                    accept_length_cpu=draft_input_accept_length_cpu,
+                    accept_length=accept_length[unfinished_index_device],
+                    seq_lens_for_draft_extend=batch.seq_lens[unfinished_index_device],
+                    req_pool_indices_for_draft_extend=batch.req_pool_indices[
+                        unfinished_index_device
+                    ],
+                )
+            else:
+                draft_input = EagleDraftInput.create_idle_input(
+                    device=batch.device,
+                    hidden_size=batch.model_config.hidden_size,
+                    dtype=batch.model_config.dtype,
+                    topk=self.topk,
+                    capture_hidden_mode=CaptureHiddenMode.LAST,
+                )
 
             return EagleVerifyOutput(
                 draft_input=draft_input,
diff --git a/python/sglang/srt/speculative/eagle_worker.py b/python/sglang/srt/speculative/eagle_worker.py
index b6a6dace64ae..2d2e23a01066 100644
--- a/python/sglang/srt/speculative/eagle_worker.py
+++ b/python/sglang/srt/speculative/eagle_worker.py
@@ -297,7 +297,7 @@ def draft_model_runner(self):
 
     def forward_batch_speculative_generation(
         self, batch: ScheduleBatch
-    ) -> Tuple[LogitsProcessorOutput, List[int], int, int]:
+    ) -> Tuple[LogitsProcessorOutput, torch.Tensor, int, int, bool]:
         """Run speculative decoding forward.
 
         NOTE: Many states of batch is modified as you go through. It is not guaranteed that
@@ -325,11 +325,16 @@ def forward_batch_speculative_generation(
                 self.verify(batch, spec_info)
             )
 
-            if self.check_forward_draft_extend_after_decode(batch):
-                with self.draft_tp_context(self.draft_model_runner.tp_group):
-                    self.forward_draft_extend_after_decode(
-                        batch,
-                    )
+            with self.draft_tp_context(self.draft_model_runner.tp_group):
+                # NOTE: We should use `check_forward_draft_extend_after_decode`
+                # when DP attention is enabled, but it is slow. Skip it for now.
+                if (
+                    self.server_args.enable_dp_attention
+                    or batch.spec_info.verified_id.shape[0] > 0
+                ):
+                    # decode is not finished
+                    self.forward_draft_extend_after_decode(batch)
+
             return (
                 logits_output,
                 verify_output.verified_id,
@@ -339,10 +344,7 @@ def forward_batch_speculative_generation(
             )
 
     def check_forward_draft_extend_after_decode(self, batch: ScheduleBatch):
-        local_need_forward = (
-            batch.spec_info.verified_id is not None
-            and batch.spec_info.verified_id.shape[0] > 0
-        )
+        local_need_forward = batch.spec_info.verified_id.shape[0] > 0
         if not self.server_args.enable_dp_attention:
             return local_need_forward
 
@@ -361,7 +363,7 @@ def check_forward_draft_extend_after_decode(self, batch: ScheduleBatch):
 
     def forward_target_extend(
         self, batch: ScheduleBatch
-    ) -> Tuple[LogitsProcessorOutput, List[int], int]:
+    ) -> Tuple[LogitsProcessorOutput, torch.Tensor, int, Optional[torch.Tensor]]:
         """Run the target extend.
 
         Args:
@@ -376,7 +378,6 @@ def forward_target_extend(
         # We need the full hidden states to prefill the KV cache of the draft model.
         model_worker_batch = batch.get_model_worker_batch()
         model_worker_batch.capture_hidden_mode = CaptureHiddenMode.FULL
-        model_worker_batch.spec_num_draft_tokens = 1
         logits_output, next_token_ids, _ = self.target_worker.forward_batch_generation(
             model_worker_batch
         )
@@ -508,13 +509,15 @@ def draft(self, batch: ScheduleBatch):
             self._draft_preprocess_decode(batch)
 
         spec_info = batch.spec_info
+        assert isinstance(spec_info, EagleDraftInput)
 
         spec_info.capture_hidden_mode = CaptureHiddenMode.LAST
+        spec_info.num_tokens_per_batch = self.topk
+        spec_info.num_tokens_for_logprob_per_batch = self.topk
         batch.return_hidden_states = False
 
         # Get forward batch
         model_worker_batch = batch.get_model_worker_batch()
-        model_worker_batch.spec_num_draft_tokens = self.topk
         assert model_worker_batch.capture_hidden_mode == CaptureHiddenMode.LAST
         forward_batch = ForwardBatch.init_new(
             model_worker_batch, self.draft_model_runner
@@ -527,6 +530,7 @@ def draft(self, batch: ScheduleBatch):
                 forward_batch
             )
         else:
+            forward_batch.can_run_dp_cuda_graph = False
             if not forward_batch.forward_mode.is_idle():
                 # Initialize attention backend
                 self.draft_attn_backend.init_forward_metadata(forward_batch)
@@ -578,6 +582,7 @@ def draft(self, batch: ScheduleBatch):
     def draft_forward(self, forward_batch: ForwardBatch):
         # Parse args
         spec_info = forward_batch.spec_info
+        assert isinstance(spec_info, EagleDraftInput)
         out_cache_loc = forward_batch.out_cache_loc
         topk_p, topk_index, hidden_states = (
             spec_info.topk_p,
@@ -621,8 +626,8 @@ def draft_forward(self, forward_batch: ForwardBatch):
             spec_info.hidden_states = hidden_states
 
             # Run forward
-            logits_output = self.draft_model_runner.model.forward(
-                forward_batch.input_ids, forward_batch.positions, forward_batch
+            logits_output, _ = self.draft_model_runner.forward(
+                forward_batch, skip_attn_backend_init=True
             )
             self._detect_nan_if_needed(logits_output)
             probs = torch.softmax(logits_output.next_token_logits, dim=-1)
@@ -642,10 +647,10 @@ def verify(self, batch: ScheduleBatch, spec_info: EagleVerifyInput):
             else ForwardMode.IDLE
         )
         batch.spec_info = spec_info
+
         model_worker_batch = batch.get_model_worker_batch(
             seq_lens_cpu_cache=spec_info.seq_lens_cpu
         )
-        model_worker_batch.spec_num_draft_tokens = self.speculative_num_draft_tokens
         assert model_worker_batch.capture_hidden_mode == spec_info.capture_hidden_mode
 
         if batch.has_grammar:
@@ -782,8 +787,8 @@ def forward_draft_extend(
         self,
         batch: ScheduleBatch,
         hidden_states: torch.Tensor,
-        next_token_ids: List[int],
-        seq_lens_cpu: torch.Tensor,
+        next_token_ids: torch.Tensor,
+        seq_lens_cpu: Optional[torch.Tensor],
     ):
         """Run draft model extend. This API modifies the states of the batch.
 
@@ -795,6 +800,8 @@ def forward_draft_extend(
         batch.spec_info = EagleDraftInput(
             hidden_states=hidden_states,
             verified_id=next_token_ids,
+            num_tokens_per_batch=1,
+            num_tokens_for_logprob_per_batch=1,
         )
         batch.return_hidden_states = False
         batch.spec_info.prepare_for_extend(batch)
@@ -802,7 +809,6 @@ def forward_draft_extend(
         model_worker_batch = batch.get_model_worker_batch(
             seq_lens_cpu_cache=seq_lens_cpu
         )
-        model_worker_batch.spec_num_draft_tokens = 1
         forward_batch = ForwardBatch.init_new(
             model_worker_batch, self.draft_model_runner
         )
@@ -814,37 +820,45 @@ def forward_draft_extend(
         self.capture_for_decode(logits_output, forward_batch.spec_info)
 
     def forward_draft_extend_after_decode(self, batch: ScheduleBatch):
+        assert isinstance(batch.spec_info, EagleDraftInput)
         # Backup fields that will be modified in-place
         seq_lens_backup = batch.seq_lens.clone()
         req_pool_indices_backup = batch.req_pool_indices
         accept_length_backup = batch.spec_info.accept_length
         return_logprob_backup = batch.return_logprob
+
         input_is_idle = batch.forward_mode.is_idle()
-        if not input_is_idle:
-            # Prepare metadata
-            if batch.spec_info.verified_id is not None:
-                batch.spec_info.prepare_extend_after_decode(
-                    batch,
-                    self.speculative_num_steps,
-                )
-            else:
-                batch = batch.copy()
-                batch.prepare_for_idle()
-                hidden_size = (
-                    self.model_config.hidden_size * 3
-                    if self.speculative_algorithm.is_eagle3()
-                    else self.model_config.hidden_size
-                )
-                batch.spec_info = EagleDraftInput.create_idle_input(
-                    device=self.device,
-                    hidden_size=hidden_size,
-                    dtype=self.model_config.dtype,
-                    topk=self.topk,
-                    capture_hidden_mode=CaptureHiddenMode.LAST,
-                )
+
+        if not input_is_idle and batch.spec_info.verified_id.numel() == 0:
+            batch = batch.copy()
+            batch.prepare_for_idle()
+            hidden_size = (
+                self.model_config.hidden_size * 3
+                if self.speculative_algorithm.is_eagle3()
+                else self.model_config.hidden_size
+            )
+            batch.spec_info = EagleDraftInput.create_idle_input(
+                device=self.device,
+                hidden_size=hidden_size,
+                dtype=self.model_config.dtype,
+                topk=self.topk,
+                capture_hidden_mode=CaptureHiddenMode.LAST,
+            )
+
+        batch.spec_info.num_tokens_per_batch = self.speculative_num_steps + 1
+        batch.spec_info.num_tokens_for_logprob_per_batch = 1
+        batch.spec_info.prepare_extend_after_decode(
+            batch,
+            self.speculative_num_steps,
+        )
+        batch.forward_mode = (
+            ForwardMode.DRAFT_EXTEND
+            if not batch.forward_mode.is_idle()
+            else ForwardMode.IDLE
+        )
+
         batch.return_hidden_states = False
         model_worker_batch = batch.get_model_worker_batch()
-        model_worker_batch.spec_num_draft_tokens = self.speculative_num_steps + 1
         assert model_worker_batch.capture_hidden_mode == CaptureHiddenMode.LAST
         forward_batch = ForwardBatch.init_new(
             model_worker_batch, self.draft_model_runner
@@ -869,12 +883,13 @@ def forward_draft_extend_after_decode(self, batch: ScheduleBatch):
             )
             forward_batch.spec_info.hidden_states = logits_output.hidden_states
         else:
+            forward_batch.can_run_dp_cuda_graph = False
             if not forward_batch.forward_mode.is_idle():
                 self.draft_model_runner.attn_backend.init_forward_metadata(
                     forward_batch
                 )
-            logits_output = self.draft_model_runner.model.forward(
-                forward_batch.input_ids, forward_batch.positions, forward_batch
+            logits_output, _ = self.draft_model_runner.forward(
+                forward_batch, skip_attn_backend_init=True
             )
             self.capture_for_decode(logits_output, forward_batch.spec_info)
 
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index 74bc1ba8572e..e802a7254d40 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -545,6 +545,7 @@ def filter_batch(
                 tbo_children=None,
                 global_num_tokens_gpu=None,
                 global_num_tokens_cpu=None,
+                dp_padding_mode=None,
                 gathered_buffer=gathered_buffer,
                 global_num_tokens_for_logprob_gpu=None,
                 global_num_tokens_for_logprob_cpu=None,
diff --git a/test/srt/test_deepep_small.py b/test/srt/test_deepep_small.py
index e26017ade608..0f6ccb9553b4 100644
--- a/test/srt/test_deepep_small.py
+++ b/test/srt/test_deepep_small.py
@@ -35,7 +35,7 @@ def setUpClass(cls):
                 "--cuda-graph-max-bs",
                 "128",
                 "--max-running-requests",
-                "128",
+                "512",
                 "--mem-fraction-static",
                 "0.5",
             ],
@@ -81,7 +81,7 @@ def setUpClass(cls):
                 "--cuda-graph-max-bs",
                 "128",
                 "--max-running-requests",
-                "128",
+                "256",
             ],
         )
 
@@ -170,7 +170,7 @@ def setUpClass(cls):
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
-                "128",
+                "512",
             ],
         )
 
@@ -217,7 +217,7 @@ def setUpClass(cls):
                 "--cuda-graph-max-bs",
                 "128",
                 "--max-running-requests",
-                "128",
+                "512",
             ],
         )
 
@@ -273,7 +273,7 @@ def setUpClass(cls):
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
-                "32",
+                "64",
             ],
         )
 
@@ -343,7 +343,7 @@ def setUpClass(cls):
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
-                "32",
+                "128",
             ],
         )
 
diff --git a/test/srt/test_hybrid_dp_ep_tp_mtp.py b/test/srt/test_hybrid_dp_ep_tp_mtp.py
index a3d44a67adcb..74363649a1f1 100644
--- a/test/srt/test_hybrid_dp_ep_tp_mtp.py
+++ b/test/srt/test_hybrid_dp_ep_tp_mtp.py
@@ -16,7 +16,7 @@
 )
 
 
-class Test0(CustomTestCase):
+class Test00(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -47,23 +47,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
-class Test1(CustomTestCase):
+class Test01(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -97,23 +84,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
-class Test2(CustomTestCase):
+class Test02(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -147,23 +121,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
+        self.assertGreater(metrics["score"], 0.48)
 
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
 
-
-class Test3(CustomTestCase):
+class Test03(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -196,23 +157,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
-class Test4(CustomTestCase):
+class Test04(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -248,23 +196,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
+        self.assertGreater(metrics["score"], 0.48)
 
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
 
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
-
-
-class Test5(CustomTestCase):
+class Test05(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -300,23 +235,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
-class Test6(CustomTestCase):
+class Test06(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -351,23 +273,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
+        self.assertGreater(metrics["score"], 0.48)
 
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
 
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
-
-
-class Test7(CustomTestCase):
+class Test07(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -402,23 +311,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
-class Test8(CustomTestCase):
+class Test08(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -455,23 +351,10 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
+        self.assertGreater(metrics["score"], 0.48)
 
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
 
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
-
-
-class Test9(CustomTestCase):
+class Test09(CustomTestCase):
     @classmethod
     def setUpClass(cls):
         cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
@@ -508,20 +391,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test10(CustomTestCase):
@@ -560,20 +430,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test11(CustomTestCase):
@@ -615,20 +472,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test12(CustomTestCase):
@@ -670,20 +514,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test13(CustomTestCase):
@@ -724,20 +555,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test14(CustomTestCase):
@@ -781,20 +599,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test15(CustomTestCase):
@@ -838,20 +643,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test16(CustomTestCase):
@@ -894,20 +686,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test17(CustomTestCase):
@@ -950,20 +729,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test18(CustomTestCase):
@@ -1008,20 +774,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test19(CustomTestCase):
@@ -1066,20 +819,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test20(CustomTestCase):
@@ -1114,20 +854,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test21(CustomTestCase):
@@ -1165,20 +892,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test22(CustomTestCase):
@@ -1216,20 +930,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test23(CustomTestCase):
@@ -1266,20 +967,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test24(CustomTestCase):
@@ -1319,20 +1007,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test25(CustomTestCase):
@@ -1372,20 +1047,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test26(CustomTestCase):
@@ -1424,20 +1086,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test27(CustomTestCase):
@@ -1476,20 +1125,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test28(CustomTestCase):
@@ -1530,20 +1166,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test29(CustomTestCase):
@@ -1584,20 +1207,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test30(CustomTestCase):
@@ -1641,20 +1251,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test31(CustomTestCase):
@@ -1701,20 +1298,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test32(CustomTestCase):
@@ -1761,20 +1345,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test33(CustomTestCase):
@@ -1820,20 +1391,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test34(CustomTestCase):
@@ -1882,20 +1440,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test35(CustomTestCase):
@@ -1944,20 +1489,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test36(CustomTestCase):
@@ -2005,20 +1537,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test37(CustomTestCase):
@@ -2066,20 +1585,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test38(CustomTestCase):
@@ -2129,20 +1635,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test39(CustomTestCase):
@@ -2192,20 +1685,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test40(CustomTestCase):
@@ -2256,20 +1736,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test41(CustomTestCase):
@@ -2323,20 +1790,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test42(CustomTestCase):
@@ -2390,20 +1844,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test43(CustomTestCase):
@@ -2456,20 +1897,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test44(CustomTestCase):
@@ -2525,20 +1953,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test45(CustomTestCase):
@@ -2594,20 +2009,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test46(CustomTestCase):
@@ -2662,20 +2064,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test47(CustomTestCase):
@@ -2730,20 +2119,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test48(CustomTestCase):
@@ -2800,20 +2176,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test49(CustomTestCase):
@@ -2870,20 +2233,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test50(CustomTestCase):
@@ -2928,20 +2278,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test51(CustomTestCase):
@@ -2989,20 +2326,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test52(CustomTestCase):
@@ -3050,20 +2374,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test53(CustomTestCase):
@@ -3110,20 +2421,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test54(CustomTestCase):
@@ -3173,20 +2471,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test55(CustomTestCase):
@@ -3236,20 +2521,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test56(CustomTestCase):
@@ -3298,20 +2570,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test57(CustomTestCase):
@@ -3360,20 +2619,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test58(CustomTestCase):
@@ -3424,20 +2670,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 class Test59(CustomTestCase):
@@ -3488,20 +2721,7 @@ def test_mmlu(self):
 
         metrics = run_eval(args)
         print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.5)
-
-    def test_mgsm_en(self):
-        args = SimpleNamespace(
-            base_url=self.base_url,
-            model=self.model,
-            eval_name="mgsm_en",
-            num_examples=None,
-            num_threads=1024,
-        )
-
-        metrics = run_eval(args)
-        print(f"{metrics=}")
-        self.assertGreater(metrics["score"], 0.8)
+        self.assertGreater(metrics["score"], 0.48)
 
 
 if __name__ == "__main__":

From 7ad6b766c589cc51f4716b1d2052d66ac1a135fb Mon Sep 17 00:00:00 2001
From: Ying Wang <83981870+ynwang007@users.noreply.github.com>
Date: Thu, 24 Jul 2025 23:11:32 -0700
Subject: [PATCH 125/396] fix: Fix failed functional tests
 https://github.com/meta-llama/llama-stack-evals (#8266)

---
 .../sglang/srt/entrypoints/openai/serving_chat.py  | 14 ++++++++++++++
 python/sglang/srt/utils.py                         | 10 +++++++---
 2 files changed, 21 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index 9889cb2edd66..ca090e06074f 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -55,6 +55,20 @@ def __init__(
     def _request_id_prefix(self) -> str:
         return "chatcmpl-"
 
+    def _validate_request(self, request: ChatCompletionRequest) -> Optional[str]:
+        """Validate that the input is valid."""
+        if not request.messages:
+            return "Messages cannot be empty."
+
+        if (
+            isinstance(request.tool_choice, str)
+            and request.tool_choice.lower() == "required"
+            and not request.tools
+        ):
+            return "Tools cannot be empty if tool choice is set to required."
+
+        return None
+
     def _convert_to_internal_request(
         self,
         request: ChatCompletionRequest,
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 23960a8c1123..01e54392ac65 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -744,9 +744,13 @@ def load_image(
         image = Image.open(BytesIO(image_file))
     elif image_file.startswith("http://") or image_file.startswith("https://"):
         timeout = int(os.getenv("REQUEST_TIMEOUT", "3"))
-        response = requests.get(image_file, stream=True, timeout=timeout).raw
-        image = Image.open(response)
-        response.close()
+        response = requests.get(image_file, stream=True, timeout=timeout)
+        try:
+            response.raise_for_status()
+            image = Image.open(response.raw)
+            image.load()  # Force loading to avoid issues after closing the stream
+        finally:
+            response.close()
     elif image_file.lower().endswith(("png", "jpg", "jpeg", "webp", "gif")):
         image = Image.open(image_file)
     elif image_file.startswith("data:"):

From af4b9bae95cc992712980bf83d1dce5f3ed33023 Mon Sep 17 00:00:00 2001
From: Hubert Lu <55214931+hubertlu-tw@users.noreply.github.com>
Date: Thu, 24 Jul 2025 23:44:28 -0700
Subject: [PATCH 126/396] [AMD] Add silu_and_mul, gelu_and_mul,
 gelu_tanh_and_mul, and gelu_quick kernels for AMD GPUs (#7135)

Co-authored-by: yiakwy-xpu-ml-framework-team <961186938@qq.com>
Co-authored-by: HAI <hixiao@gmail.com>
---
 python/sglang/srt/layers/activation.py      |  14 +-
 python/sglang/test/test_activation.py       |  51 +++++-
 sgl-kernel/benchmark/bench_activation.py    | 153 +++++++++++++++++
 sgl-kernel/csrc/common_extension.cc         |   6 +-
 sgl-kernel/csrc/elementwise/activation.cu   | 128 +++++++++++---
 sgl-kernel/csrc/torch_extension_rocm.cc     |  14 ++
 sgl-kernel/include/hip_act_and_mul.cuh      |  87 ++++++++++
 sgl-kernel/include/hip_math_def.h           |  94 +++++++++++
 sgl-kernel/include/hip_vec_dtypes.h         | 101 +++++++++++
 sgl-kernel/include/impl/hip_vec_bf16_impl.h | 177 ++++++++++++++++++++
 sgl-kernel/include/impl/hip_vec_fp32_impl.h | 129 ++++++++++++++
 sgl-kernel/include/impl/hip_vec_half_impl.h | 172 +++++++++++++++++++
 sgl-kernel/include/sgl_kernel_ops.h         |  10 +-
 sgl-kernel/include/utils.h                  | 110 +++++++++---
 sgl-kernel/python/sgl_kernel/__init__.py    |   4 +
 sgl-kernel/python/sgl_kernel/elementwise.py |  30 +++-
 sgl-kernel/setup_rocm.py                    |   5 +-
 17 files changed, 1225 insertions(+), 60 deletions(-)
 create mode 100644 sgl-kernel/benchmark/bench_activation.py
 create mode 100644 sgl-kernel/include/hip_act_and_mul.cuh
 create mode 100644 sgl-kernel/include/hip_math_def.h
 create mode 100644 sgl-kernel/include/hip_vec_dtypes.h
 create mode 100644 sgl-kernel/include/impl/hip_vec_bf16_impl.h
 create mode 100644 sgl-kernel/include/impl/hip_vec_fp32_impl.h
 create mode 100644 sgl-kernel/include/impl/hip_vec_half_impl.h

diff --git a/python/sglang/srt/layers/activation.py b/python/sglang/srt/layers/activation.py
index 63e9fcdd3cc9..15c2ba077272 100644
--- a/python/sglang/srt/layers/activation.py
+++ b/python/sglang/srt/layers/activation.py
@@ -33,6 +33,7 @@
     cpu_has_amx_support,
     is_cpu,
     is_cuda,
+    is_hip,
     is_npu,
     set_weight_attrs,
 )
@@ -42,9 +43,12 @@
 _is_npu = is_npu()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
+_is_hip = is_hip()
 
 if _is_cuda:
     from sgl_kernel import gelu_and_mul, gelu_tanh_and_mul, silu_and_mul
+elif _is_hip:
+    from sgl_kernel import gelu_and_mul, gelu_quick, gelu_tanh_and_mul, silu_and_mul
 
 if is_npu():
     import torch_npu
@@ -126,9 +130,13 @@ def forward_native(self, x: torch.Tensor) -> torch.Tensor:
         return x * torch.sigmoid(1.702 * x)
 
     def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
-        # TODO(zhyncs): Implement the CUDA kernel for QuickGELU in sgl-kernel
         return self.forward_native(x)
 
+    def forward_hip(self, x: torch.Tensor) -> torch.Tensor:
+        out = torch.empty(x.shape, dtype=x.dtype, device=x.device)
+        gelu_quick(x, out)
+        return out
+
 
 class ScaledActivation(nn.Module):
     """An activation function with post-scale parameters.
@@ -222,8 +230,8 @@ def get_cross_encoder_activation_function(config: PretrainedConfig):
         return nn.Identity()
 
 
-if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available)):
+if not (_is_cuda or _is_npu or (_is_cpu and _is_cpu_amx_available) or _is_hip):
     logger.info(
-        "sgl-kernel is not available on Non-NV platforms or Non-AMX CPUs. Fallback to other kernel libraries."
+        "sgl-kernel is not available on Non-NV, Non-AMD platforms or Non-AMX CPUs. Fallback to other kernel libraries."
     )
     from vllm.model_executor.layers.activation import GeluAndMul, SiluAndMul
diff --git a/python/sglang/test/test_activation.py b/python/sglang/test/test_activation.py
index 38366e92be78..dd5c668cfce0 100644
--- a/python/sglang/test/test_activation.py
+++ b/python/sglang/test/test_activation.py
@@ -3,9 +3,12 @@
 
 import torch
 
-from sglang.srt.layers.activation import GeluAndMul
+from sglang.srt.layers.activation import GeluAndMul, QuickGELU
+from sglang.srt.utils import is_hip
 from sglang.test.test_utils import CustomTestCase
 
+_is_hip = is_hip()
+
 
 class TestGeluAndMul(CustomTestCase):
     DTYPES = [torch.half, torch.bfloat16]
@@ -52,5 +55,51 @@ def test_gelu_and_mul(self):
                 self._run_gelu_and_mul_test(*params)
 
 
+class TestQuickGELU(CustomTestCase):
+    DTYPES = [torch.half, torch.bfloat16]
+    NUM_TOKENS = [7, 83, 2048]  # batch = sequence length
+    DIMS = [512, 4096, 5120, 13824]  # all multiples of 16 bytes
+    SEEDS = [0]
+
+    @classmethod
+    def setUpClass(cls):
+        if not torch.cuda.is_available():
+            raise unittest.SkipTest("CUDA is not available")
+        torch.set_default_device("cuda")
+
+    def _run_gelu_quick_test(self, n_tok: int, dim: int, dtype: torch.dtype, seed: int):
+        torch.manual_seed(seed)
+
+        layer = QuickGELU().to(dtype=dtype)
+
+        x = torch.randn(n_tok, dim, dtype=dtype, device="cuda")
+
+        with torch.inference_mode():
+            ref = layer.forward_native(x)  # x * sigmoid(1.702 * x), fp32 math
+            if _is_hip:
+                out = layer.forward_hip(x)  # 128-bit vectorised kernel from sgl-kernel
+            else:
+                out = layer.forward_cuda(x)
+
+        tol = 1e-2 if dtype is torch.bfloat16 else 1e-3
+        self.assertTrue(
+            torch.allclose(out, ref, atol=tol, rtol=tol),
+            msg=f"Mismatch @ B={n_tok}, D={dim}, dtype={dtype}",
+        )
+        print(f"Match @ B={n_tok}, D={dim}, dtype={dtype}")
+
+    def test_quick_gelu(self):
+        for params in itertools.product(
+            self.NUM_TOKENS, self.DIMS, self.DTYPES, self.SEEDS
+        ):
+            with self.subTest(
+                num_tokens=params[0],
+                dim=params[1],
+                dtype=params[2],
+                seed=params[3],
+            ):
+                self._run_gelu_quick_test(*params)
+
+
 if __name__ == "__main__":
     unittest.main(verbosity=2)
diff --git a/sgl-kernel/benchmark/bench_activation.py b/sgl-kernel/benchmark/bench_activation.py
new file mode 100644
index 000000000000..cfea789158b8
--- /dev/null
+++ b/sgl-kernel/benchmark/bench_activation.py
@@ -0,0 +1,153 @@
+# Benchmarks SGLang kernels versus vLLM across
+# (kernel, dtype, batch_size, seq_len, dim) and prints speed-up.
+import argparse
+import itertools
+import re
+from typing import List, Tuple
+
+import sgl_kernel
+import torch
+import torch.nn.functional as F
+import triton
+import triton.testing
+from sgl_kernel import gelu_quick  # activation-only kernel
+from sgl_kernel import gelu_and_mul, gelu_tanh_and_mul, silu_and_mul
+from vllm import _custom_ops as vllm_ops
+
+if not hasattr(vllm_ops, "silu_and_mul"):
+    vllm_ops = torch.ops._C
+
+
+def str2int_list(arg: str) -> List[int]:
+    if arg in ("", None):
+        return []
+    if re.fullmatch(r"\d+(,\d+)*", arg.strip()) is None:
+        raise argparse.ArgumentTypeError(f"Bad int list: {arg}")
+    return [int(x) for x in arg.split(",")]
+
+
+def calculate_diff(
+    kernel: str, dtype: torch.dtype, batch_size: int, seq_len: int, dim: int
+) -> bool:
+    """Compare vLLM with SGLang for one shape."""
+    device = torch.device("cuda")
+
+    # activation-only quick GELU
+    if kernel == "gelu_quick":
+        x = torch.randn(batch_size, seq_len, dim, dtype=dtype, device=device)
+        ref_out = torch.zeros_like(x)
+        getattr(vllm_ops, kernel)(ref_out, x)
+        test_out = getattr(sgl_kernel, kernel)(x)
+    # fused activation x mul kernels
+    else:
+        x = torch.randn(batch_size, seq_len, 2 * dim, dtype=dtype, device=device)
+        ref_out = torch.zeros(batch_size, seq_len, dim, dtype=dtype, device=device)
+        getattr(vllm_ops, kernel)(ref_out, x)
+        test_out = getattr(sgl_kernel, kernel)(x)
+
+    ok = torch.allclose(ref_out, test_out, rtol=1e-3, atol=1e-5)
+    tag = "✅ match" if ok else "❌ mismatch"
+    print(
+        f"[{kernel:14s} | {str(dtype):9s} | B={batch_size:3d} | "
+        f"L={seq_len:3d} | D={dim:5d}] {tag}"
+    )
+    return ok
+
+
+kernels = ["silu_and_mul", "gelu_and_mul", "gelu_tanh_and_mul", "gelu_quick"]
+dtypes = [torch.float16, torch.bfloat16]
+
+
+def make_configs(bsizes: List[int], slens: List[int], dims_: List[int]) -> List[Tuple]:
+    return list(itertools.product(kernels, dtypes, bsizes, slens, dims_))
+
+
+default_batch_sizes = [2**i for i in range(0, 5, 2)]  # 1,4,16
+default_seq_lens = [2**i for i in range(0, 8, 2)]  # 1,4,16,64
+default_dims = [2**i for i in range(7, 15)]  # 128...16384
+
+
+@triton.testing.perf_report(
+    triton.testing.Benchmark(
+        x_names=["kernel", "dtype", "batch_size", "seq_len", "dim"],
+        x_vals=[],
+        line_arg="provider",
+        line_vals=["vllm", "sglang", "speedup"],
+        line_names=["vLLM", "SGL Kernel", "Speed-up (x)"],
+        styles=[("blue", "-"), ("green", "-"), ("red", "--")],
+        ylabel="µs (median)  or  × (speed-up)",
+        plot_name="activation-performance",
+        args={},
+    )
+)
+def benchmark(kernel, dtype, batch_size, seq_len, dim, provider):
+    device = torch.device("cuda")
+    in_mult = 1 if kernel == "gelu_quick" else 2
+    x = torch.randn(batch_size, seq_len, in_mult * dim, dtype=dtype, device=device)
+    y0 = torch.zeros(batch_size, seq_len, dim, dtype=dtype, device=device)
+
+    vllm_kernel = getattr(vllm_ops, kernel)
+    sglang_kernel = getattr(sgl_kernel, kernel)
+
+    def baseline():
+        tmp = y0.clone()
+        vllm_kernel(tmp, x)
+        return tmp
+
+    def sglang():
+        return sglang_kernel(x)
+
+    # one-time correctness check
+    if provider == "vllm" and not calculate_diff(
+        kernel, dtype, batch_size, seq_len, dim
+    ):
+        raise ValueError("Mismatch – abort benchmark")
+
+    # timing helper
+    def timed(fn):
+        for _ in range(5):
+            fn()
+        torch.cuda.synchronize()
+        ms, qmin, qmax = triton.testing.do_bench(fn, quantiles=[0.5, 0.2, 0.8])
+        return 1000 * ms, 1000 * qmax, 1000 * qmin
+
+    if provider == "vllm":
+        return timed(baseline)
+    if provider == "sglang":
+        return timed(sglang)
+
+    # provider == "speedup"
+    t_ref, _, _ = timed(baseline)
+    t_sgl, _, _ = timed(sglang)
+    spd = t_ref / t_sgl
+    return (spd, spd, spd)
+
+
+if __name__ == "__main__":
+    p = argparse.ArgumentParser("Activation kernel benchmark")
+    p.add_argument("--batch_sizes", type=str2int_list, default=default_batch_sizes)
+    p.add_argument("--seq_lens", type=str2int_list, default=default_seq_lens)
+    p.add_argument("--dims", type=str2int_list, default=default_dims)
+    p.add_argument("--verify_only", action="store_true")
+    args = p.parse_args()
+
+    # coerce lists
+    if isinstance(args.batch_sizes, str):
+        args.batch_sizes = str2int_list(args.batch_sizes)
+    if isinstance(args.seq_lens, str):
+        args.seq_lens = str2int_list(args.seq_lens)
+    if isinstance(args.dims, str):
+        args.dims = str2int_list(args.dims)
+
+    # patch perf_report grid
+    benchmark_grid = make_configs(args.batch_sizes, args.seq_lens, args.dims)
+    if hasattr(benchmark, "benchmarks"):
+        benchmark.benchmarks.x_vals = benchmark_grid
+    else:
+        benchmark.benchmark.x_vals = benchmark_grid
+
+    if args.verify_only:
+        ok = calculate_diff("gelu_quick", torch.float16, 1, 1, args.dims[0])
+        print("✅ sanity pass" if ok else "❌ mismatch")
+    else:
+        benchmark.run(print_data=True)
diff --git a/sgl-kernel/csrc/common_extension.cc b/sgl-kernel/csrc/common_extension.cc
index 20b9a804872d..623fbefb514b 100644
--- a/sgl-kernel/csrc/common_extension.cc
+++ b/sgl-kernel/csrc/common_extension.cc
@@ -78,13 +78,13 @@ TORCH_LIBRARY_FRAGMENT(sgl_kernel, m) {
   m.def("gemma_fused_add_rmsnorm(Tensor! input, Tensor! residual, Tensor weight, float eps, bool enable_pdl) -> ()");
   m.impl("gemma_fused_add_rmsnorm", torch::kCUDA, &gemma_fused_add_rmsnorm);
 
-  m.def("silu_and_mul(Tensor! out, Tensor input, int cuda_stream) -> ()");
+  m.def("silu_and_mul(Tensor! out, Tensor input) -> ()");
   m.impl("silu_and_mul", torch::kCUDA, &silu_and_mul);
 
-  m.def("gelu_tanh_and_mul(Tensor! out, Tensor input, int cuda_stream) -> ()");
+  m.def("gelu_tanh_and_mul(Tensor! out, Tensor input) -> ()");
   m.impl("gelu_tanh_and_mul", torch::kCUDA, &gelu_tanh_and_mul);
 
-  m.def("gelu_and_mul(Tensor! out, Tensor input, int cuda_stream) -> ()");
+  m.def("gelu_and_mul(Tensor! out, Tensor input) -> ()");
   m.impl("gelu_and_mul", torch::kCUDA, &gelu_and_mul);
 
   m.def(
diff --git a/sgl-kernel/csrc/elementwise/activation.cu b/sgl-kernel/csrc/elementwise/activation.cu
index 242281fd9ddc..20b889530146 100644
--- a/sgl-kernel/csrc/elementwise/activation.cu
+++ b/sgl-kernel/csrc/elementwise/activation.cu
@@ -13,70 +13,158 @@
  * See the License for the specific language governing permissions and
  * limitations under the License.
  */
+
+#include <ATen/cuda/CUDAContext.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <torch/all.h>
+
+#ifndef USE_ROCM
+
 #include <flashinfer/activation.cuh>
 
-#include "pytorch_extension_utils.h"
+#include "utils.h"
+
+#else
+#include "hip_act_and_mul.cuh"
+#endif
+
+// Adapted from flashinfer activation
+// https://github.com/flashinfer-ai/flashinfer/blob/4e8eb1879f9c3ba6d75511e5893183bf8f289a62/csrc/activation.cu#L44
+
+namespace detail {
+
+template <typename T>
+__device__ __forceinline__ float to_f32(const T& x) {
+#if USE_ROCM
+  return castToFloat(x);
+#else
+  return static_cast<float>(x);
+#endif
+}
+
+template <typename T>
+__device__ __forceinline__ T from_f32(float f32) {
+#if USE_ROCM
+  return castFromFloat<T>(f32);
+#else
+  return static_cast<T>(f32);
+#endif
+}
 
-using namespace flashinfer;
+}  // namespace detail
 
-__device__ __forceinline__ float silu(const float& val) {
-  return val / (1.0f + __expf(-val));
+template <typename T>
+__device__ __forceinline__ T silu(const T& x) {
+  float f32_val = detail::to_f32(x);
+  return detail::from_f32<T>(f32_val / (1.0f + expf(-f32_val)));
 }
 
-__device__ __forceinline__ float gelu(const float& val) {
+template <typename T>
+__device__ __forceinline__ T gelu(const T& x) {
   constexpr float kAlpha = M_SQRT1_2;
-  return val * 0.5f * (1.0f + ::erf(val * kAlpha));
+  float f32_val = detail::to_f32(x);
+  return detail::from_f32<T>(f32_val * (0.5f * (1.0f + erf(f32_val * kAlpha))));
+}
+
+// gelu_quick(x) = x * torch.sigmoid(1.702 * x)
+template <typename T>
+__device__ __forceinline__ T gelu_quick_act(const T& x) {
+  float f32_val = detail::to_f32(x);
+  return detail::from_f32<T>(f32_val / (1.0f + expf(-f32_val * 1.702f)));
 }
 
-__device__ __forceinline__ float gelu_tanh(const float& val) {
-  const float cdf = 0.5f * (1.0f + math::tanh((0.7978845608028654f * (val + 0.044715f * val * val * val))));
-  return val * cdf;
+template <typename T>
+__device__ __forceinline__ T gelu_tanh(const T& x) {
+  constexpr float kAlpha = 0.044715f;
+  constexpr float kBeta = 0.7978845608028654f;
+  float f32_val = detail::to_f32(x);
+  const float cdf = 0.5f * (1.0f + tanhf((kBeta * (f32_val + kAlpha * f32_val * f32_val * f32_val))));
+  return detail::from_f32<T>(f32_val * cdf);
 }
 
-void silu_and_mul(at::Tensor& out, at::Tensor& input, int64_t cuda_stream) {
+void silu_and_mul(at::Tensor& out, at::Tensor& input) {
   int d = input.size(-1) / 2;
   int64_t num_tokens = input.numel() / input.size(-1);
   dim3 grid(num_tokens);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
-  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
+
+  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(input.scalar_type(), c_type, [&] {
     uint32_t vec_size = 16 / sizeof(c_type);
     dim3 block(std::min(d / vec_size, 1024U));
+#if USE_ROCM
+    sgl_hip::activation::act_and_mul_kernel<c_type, silu>
+        <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
+#else
     flashinfer::activation::act_and_mul_kernel<c_type, silu>
         <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
-
+#endif
     return true;
   });
 }
 
-void gelu_tanh_and_mul(at::Tensor& out, at::Tensor& input, int64_t cuda_stream) {
+void gelu_tanh_and_mul(at::Tensor& out, at::Tensor& input) {
   int d = input.size(-1) / 2;
   int64_t num_tokens = input.numel() / input.size(-1);
   dim3 grid(num_tokens);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
-  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
+
+  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(input.scalar_type(), c_type, [&] {
     uint32_t vec_size = 16 / sizeof(c_type);
     dim3 block(std::min(d / vec_size, 1024U));
+#if USE_ROCM
+    sgl_hip::activation::act_and_mul_kernel<c_type, gelu_tanh>
+        <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
+#else
     flashinfer::activation::act_and_mul_kernel<c_type, gelu_tanh>
         <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
-
+#endif
     return true;
   });
 }
 
-void gelu_and_mul(at::Tensor& out, at::Tensor& input, int64_t cuda_stream) {
+void gelu_and_mul(at::Tensor& out, at::Tensor& input) {
   int d = input.size(-1) / 2;
   int64_t num_tokens = input.numel() / input.size(-1);
   dim3 grid(num_tokens);
 
-  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
-  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(input.scalar_type(), c_type, [&] {
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
+
+  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(input.scalar_type(), c_type, [&] {
     uint32_t vec_size = 16 / sizeof(c_type);
     dim3 block(std::min(d / vec_size, 1024U));
+#if USE_ROCM
+    sgl_hip::activation::act_and_mul_kernel<c_type, gelu>
+        <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
+#else
     flashinfer::activation::act_and_mul_kernel<c_type, gelu>
         <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
+#endif
+
+    return true;
+  });
+}
+
+#if USE_ROCM
+void gelu_quick(at::Tensor& out, const at::Tensor& input) {
+  int d = input.size(-1);
+  int64_t num_tokens = input.numel() / input.size(-1);
+  dim3 grid(num_tokens);
+
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
+
+  DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(input.scalar_type(), c_type, [&] {
+    uint32_t vec_size = 16 / sizeof(c_type);
+    dim3 block(std::min(d / vec_size, 1024U));
+    sgl_hip::activation::act_only_kernel<c_type, gelu_quick_act>
+        <<<grid, block, 0, stream>>>(static_cast<c_type*>(out.data_ptr()), static_cast<c_type*>(input.data_ptr()), d);
 
     return true;
   });
 }
+#endif
diff --git a/sgl-kernel/csrc/torch_extension_rocm.cc b/sgl-kernel/csrc/torch_extension_rocm.cc
index 46a50ca6b969..9010d0b260f0 100644
--- a/sgl-kernel/csrc/torch_extension_rocm.cc
+++ b/sgl-kernel/csrc/torch_extension_rocm.cc
@@ -19,6 +19,20 @@ limitations under the License.
 #include "sgl_kernel_ops.h"
 
 TORCH_LIBRARY_EXPAND(sgl_kernel, m) {
+  /*
+   * From csrc/activation
+   */
+  m.def("silu_and_mul(Tensor! out, Tensor input) -> ()");
+  m.impl("silu_and_mul", torch::kCUDA, &silu_and_mul);
+
+  m.def("gelu_tanh_and_mul(Tensor! out, Tensor input) -> ()");
+  m.impl("gelu_tanh_and_mul", torch::kCUDA, &gelu_tanh_and_mul);
+
+  m.def("gelu_and_mul(Tensor! out, Tensor input) -> ()");
+  m.impl("gelu_and_mul", torch::kCUDA, &gelu_and_mul);
+
+  m.def("gelu_quick(Tensor! out, Tensor input) -> ()");
+  m.impl("gelu_quick", torch::kCUDA, &gelu_quick);
   /*
    * From csrc/allreduce
    */
diff --git a/sgl-kernel/include/hip_act_and_mul.cuh b/sgl-kernel/include/hip_act_and_mul.cuh
new file mode 100644
index 000000000000..ddb1b702d92d
--- /dev/null
+++ b/sgl-kernel/include/hip_act_and_mul.cuh
@@ -0,0 +1,87 @@
+/* Copyright 2025 SGLang Team. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+==============================================================================*/
+
+#pragma once
+
+#include "utils.h"
+
+#define kBitsToLoad 128
+#define kBytesToLoad (kBitsToLoad / 8)
+
+// Adapted from
+// [flashinfer::activation::act_and_mul_kernel](https://github.com/flashinfer-ai/flashinfer/blob/4e8eb1879f9c3ba6d75511e5893183bf8f289a62/include/flashinfer/activation.cuh#L29)
+
+namespace sgl_hip {
+namespace activation {
+
+template <typename T, T (*Activation)(const T&)>
+__global__ void act_and_mul_kernel(T* __restrict__ out, const T* __restrict__ input, const int d) {
+  constexpr uint32_t vec_size = kBytesToLoad / sizeof(T);
+  const int64_t token_idx = blockIdx.x;
+  const int64_t thread_idx = threadIdx.x;
+  const int64_t stride = blockDim.x;
+  const int64_t offset = token_idx * 2 * d;
+
+#pragma unroll 1
+  for (uint32_t idx = thread_idx; idx < d / vec_size; idx += stride) {
+    sgl_hip::vec_t<T, vec_size> x_vec, y_vec, out_vec;
+    x_vec.cast_load(input + offset + idx * vec_size);
+    y_vec.cast_load(input + offset + d + idx * vec_size);
+#pragma unroll
+    for (uint32_t i = 0; i < vec_size; ++i) {
+      out_vec[i] = Activation(x_vec[i]) * y_vec[i];
+    }
+    out_vec.cast_store(out + token_idx * d + idx * vec_size);
+  }
+
+  const int64_t remaining_offset = d - d % (stride * vec_size);
+  // process the remaining elements
+#pragma unroll 1
+  for (int64_t idx = thread_idx; idx < d % (stride * vec_size); idx += stride) {
+    T x = input[offset + remaining_offset + idx], y = input[offset + remaining_offset + d + idx];
+    out[token_idx * d + remaining_offset + idx] = Activation(x) * y;
+  }
+}
+
+template <typename T, T (*Activation)(const T&)>
+__global__ void act_only_kernel(T* __restrict__ out, const T* __restrict__ input, const int d) {
+  constexpr uint32_t vec_size = kBytesToLoad / sizeof(T);
+  const int64_t token_idx = blockIdx.x;
+  const int64_t thread_idx = threadIdx.x;
+  const int64_t stride = blockDim.x;
+  const int64_t offset = token_idx * d;
+
+#pragma unroll 1
+  for (uint32_t idx = thread_idx; idx < d / vec_size; idx += stride) {
+    sgl_hip::vec_t<T, vec_size> x_vec, y_vec, out_vec;
+    x_vec.cast_load(input + offset + idx * vec_size);
+#pragma unroll
+    for (uint32_t i = 0; i < vec_size; ++i) {
+      out_vec[i] = Activation(x_vec[i]);
+    }
+    out_vec.cast_store(out + token_idx * d + idx * vec_size);
+  }
+
+  const int64_t remaining_offset = d - d % (stride * vec_size);
+  // process the remaining elements
+#pragma unroll 1
+  for (int64_t idx = thread_idx; idx < d % (stride * vec_size); idx += stride) {
+    T x = input[offset + remaining_offset + idx];
+    out[token_idx * d + remaining_offset + idx] = Activation(x);
+  }
+}
+
+}  // namespace activation
+}  // namespace sgl_hip
diff --git a/sgl-kernel/include/hip_math_def.h b/sgl-kernel/include/hip_math_def.h
new file mode 100644
index 000000000000..21cc67456ee7
--- /dev/null
+++ b/sgl-kernel/include/hip_math_def.h
@@ -0,0 +1,94 @@
+/* Copyright 2025 SGLang Team. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+==============================================================================*/
+
+#pragma once
+
+#if defined(__HIP_PLATFORM_AMD__)
+
+#include <hip/hip_bf16.h>
+#include <hip/hip_common.h>
+#include <hip/hip_fp16.h>
+
+// Adapted from flashinfer-rocm [PR#491](https://github.com/flashinfer-ai/flashinfer/pull/491)
+
+namespace amdgpu {
+
+template <typename T>
+__forceinline__ __device__ T shfl_xor_sync(unsigned mask, T var, int laneMask, int width = warpSize);
+
+template <typename srcDtype, typename destDtype>
+__forceinline__ __device__ destDtype cast(srcDtype val);
+
+// specialization
+template <>
+__forceinline__ __device__ float shfl_xor_sync(unsigned mask, float var, int laneMask, int width) {
+  return __shfl_xor(var, laneMask, width);
+}
+
+template <>
+__forceinline__ __device__ int shfl_xor_sync(unsigned mask, int var, int laneMask, int width) {
+  return __shfl_xor(var, laneMask, width);
+}
+
+template <>
+__forceinline__ __device__ float cast(float val) {
+  return val;
+}
+
+template <>
+__forceinline__ __device__ float cast(__half val) {
+  return __half2float(val);
+}
+
+template <>
+__forceinline__ __device__ float cast(__hip_bfloat16 val) {
+  return __bfloat162float(val);
+}
+
+template <>
+__forceinline__ __device__ __half cast(float fval) {
+  return __float2half(fval);
+}
+
+template <>
+__forceinline__ __device__ __hip_bfloat16 cast(float fval) {
+  return __float2bfloat16(fval);
+}
+
+}  // namespace amdgpu
+
+template <typename T>
+__forceinline__ __device__ T __shfl_xor_sync(unsigned mask, T var, int laneMask, int width = warpSize) {
+  return amdgpu::shfl_xor_sync(mask, var, laneMask, width);
+}
+
+template <typename srcDtype>
+__device__ __forceinline__ float castToFloat(srcDtype val) {
+  return amdgpu::cast<srcDtype, float>(val);
+}
+
+template <typename dstDtype>
+__device__ __forceinline__ dstDtype castFromFloat(float val) {
+  return amdgpu::cast<float, dstDtype>(val);
+}
+
+// operator overload to support flashinfer
+__host__ __device__ __forceinline__ __half operator*(const __half& x, const __half& y) {
+  __half h_x = x;
+  __half h_y = y;
+  return __hmul(h_x, h_y);
+}
+
+#endif
diff --git a/sgl-kernel/include/hip_vec_dtypes.h b/sgl-kernel/include/hip_vec_dtypes.h
new file mode 100644
index 000000000000..a68a6986e027
--- /dev/null
+++ b/sgl-kernel/include/hip_vec_dtypes.h
@@ -0,0 +1,101 @@
+/* Copyright 2025 SGLang Team. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+==============================================================================*/
+
+#pragma once
+
+#if USE_ROCM
+
+#include <hip/hip_bf16.h>
+#include <hip/hip_common.h>
+#include <hip/hip_fp16.h>
+
+// Adapted from flashinfer-rocm [PR#491](https://github.com/flashinfer-ai/flashinfer/pull/491)d
+
+#define SGL_HIP_INLINE inline __attribute__((always_inline)) __device__
+
+namespace sgl_hip {
+
+template <typename float_t, size_t vec_size>
+struct vec_t;
+
+template <typename srcDtype, typename dstDtype, size_t vec_size>
+SGL_HIP_INLINE void cast_load_impl(vec_t<dstDtype, vec_size>& dst, const srcDtype* src);
+
+template <typename srcDtype, typename dstDtype, size_t vec_size>
+SGL_HIP_INLINE void cast_store_impl(dstDtype* dst_ptr, const vec_t<srcDtype, vec_size>& src);
+
+template <typename float_t, size_t vec_size>
+struct vec_t {
+  SGL_HIP_INLINE float_t& operator[](size_t i);
+  SGL_HIP_INLINE const float_t& operator[](size_t i) const;
+  SGL_HIP_INLINE float_t* ptr();
+
+  SGL_HIP_INLINE void load(const float_t* ptr);
+  SGL_HIP_INLINE void store(float_t* ptr) const;
+
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, vec_size>& src);
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr);
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const;
+};
+
+}  // namespace sgl_hip
+
+// **** impl *****
+
+namespace sgl_hip {
+
+template <typename srcDtype, typename dstDtype, size_t vec_size>
+SGL_HIP_INLINE void cast_load_impl(vec_t<dstDtype, vec_size>& dst, const srcDtype* src_ptr) {
+  if constexpr (std::is_same<srcDtype, dstDtype>::value) {
+    dst.load(src_ptr);
+  } else {
+    vec_t<srcDtype, vec_size> tmp;
+    tmp.load(src_ptr);
+    dst.cast_from(tmp);
+  }
+}
+
+template <typename srcDtype, typename dstDtype, size_t vec_size>
+SGL_HIP_INLINE void cast_store_impl(dstDtype* dst_ptr, const vec_t<srcDtype, vec_size>& src) {
+  if constexpr (std::is_same<srcDtype, dstDtype>::value) {
+    src.store(dst_ptr);
+  } else {
+    vec_t<dstDtype, vec_size> tmp;
+    tmp.cast_from(src);
+    tmp.store(dst_ptr);
+  }
+}
+
+template <typename float_t, size_t vec_size>
+template <typename T>
+SGL_HIP_INLINE void vec_t<float_t, vec_size>::cast_load(const T* ptr) {
+  cast_load_impl(*this, ptr);
+}
+
+template <typename float_t, size_t vec_size>
+template <typename T>
+SGL_HIP_INLINE void vec_t<float_t, vec_size>::cast_store(T* ptr) const {
+  cast_store_impl(ptr, *this);
+}
+
+}  // namespace sgl_hip
+
+#include "impl/hip_vec_bf16_impl.h"
+#include "impl/hip_vec_fp32_impl.h"
+#include "impl/hip_vec_half_impl.h"
+#endif
diff --git a/sgl-kernel/include/impl/hip_vec_bf16_impl.h b/sgl-kernel/include/impl/hip_vec_bf16_impl.h
new file mode 100644
index 000000000000..b783f3f43fa8
--- /dev/null
+++ b/sgl-kernel/include/impl/hip_vec_bf16_impl.h
@@ -0,0 +1,177 @@
+#pragma once
+
+#if USE_ROCM
+
+#include <hip/hip_bf16.h>
+#include <hip/hip_common.h>
+
+// Adapted from flashinfer-rocm [PR#491](https://github.com/flashinfer-ai/flashinfer/pull/491)
+
+using nv_bfloat16 = __hip_bfloat16;
+using nv_bfloat162 = __hip_bfloat162;
+
+__BF16_HOST_DEVICE_STATIC__ __hip_bfloat162 make_bfloat162(const __hip_bfloat16 x, const __hip_bfloat16 y) {
+  __hip_bfloat162 t;
+  t.x = x;
+  t.y = y;
+  return t;
+}
+
+namespace sgl_hip {
+
+// nv_bfloat16 x 1
+template <>
+struct vec_t<nv_bfloat16, 1> {
+  nv_bfloat16 data;
+  SGL_HIP_INLINE nv_bfloat16& operator[](size_t i) {
+    return ((nv_bfloat16*)(&data))[i];
+  }
+  SGL_HIP_INLINE const nv_bfloat16& operator[](size_t i) const {
+    return ((const nv_bfloat16*)(&data))[i];
+  }
+  SGL_HIP_INLINE nv_bfloat16* ptr() {
+    return reinterpret_cast<nv_bfloat16*>(&data);
+  }
+  SGL_HIP_INLINE void load(const nv_bfloat16* ptr);
+  SGL_HIP_INLINE void store(nv_bfloat16* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 1>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<nv_bfloat16, 1>::load(const nv_bfloat16* ptr) {
+  data = *ptr;
+}
+
+SGL_HIP_INLINE void vec_t<nv_bfloat16, 1>::store(nv_bfloat16* ptr) const {
+  *ptr = data;
+}
+
+// nv_bfloat16 x 2
+template <>
+struct vec_t<nv_bfloat16, 2> {
+  nv_bfloat162 data;
+
+  SGL_HIP_INLINE nv_bfloat16& operator[](size_t i) {
+    return ((nv_bfloat16*)(&data))[i];
+  }
+  SGL_HIP_INLINE const nv_bfloat16& operator[](size_t i) const {
+    return ((const nv_bfloat16*)(&data))[i];
+  }
+  SGL_HIP_INLINE nv_bfloat16* ptr() {
+    return reinterpret_cast<nv_bfloat16*>(&data);
+  }
+  SGL_HIP_INLINE void load(const nv_bfloat16* ptr);
+  SGL_HIP_INLINE void store(nv_bfloat16* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 2>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<nv_bfloat16, 2>::load(const nv_bfloat16* ptr) {
+  data = *((nv_bfloat162*)ptr);
+}
+
+SGL_HIP_INLINE void vec_t<nv_bfloat16, 2>::store(nv_bfloat16* ptr) const {
+  *((nv_bfloat162*)ptr) = data;
+}
+
+template <>
+struct vec_t<nv_bfloat16, 4> {
+  uint2 data;
+
+  SGL_HIP_INLINE nv_bfloat16& operator[](size_t i) {
+    return ((nv_bfloat16*)(&data))[i];
+  }
+  SGL_HIP_INLINE const nv_bfloat16& operator[](size_t i) const {
+    return ((const nv_bfloat16*)(&data))[i];
+  }
+  SGL_HIP_INLINE nv_bfloat16* ptr() {
+    return reinterpret_cast<nv_bfloat16*>(&data);
+  }
+  SGL_HIP_INLINE void load(const nv_bfloat16* ptr);
+  SGL_HIP_INLINE void store(nv_bfloat16* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 4>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<nv_bfloat16, 4>::load(const nv_bfloat16* ptr) {
+  data = *((uint2*)ptr);
+}
+
+SGL_HIP_INLINE void vec_t<nv_bfloat16, 4>::store(nv_bfloat16* ptr) const {
+  *((uint2*)ptr) = data;
+}
+
+// nv_bfloat16 x 8 or more
+
+template <size_t vec_size>
+struct vec_t<nv_bfloat16, vec_size> {
+  uint4 data[vec_size / 8];
+
+  SGL_HIP_INLINE nv_bfloat16& operator[](size_t i) {
+    return ((nv_bfloat16*)data)[i];
+  }
+  SGL_HIP_INLINE const nv_bfloat16& operator[](size_t i) const {
+    return ((const nv_bfloat16*)data)[i];
+  }
+  SGL_HIP_INLINE nv_bfloat16* ptr() {
+    return reinterpret_cast<nv_bfloat16*>(&data);
+  }
+  SGL_HIP_INLINE void load(const nv_bfloat16* ptr) {
+#pragma unoll
+    for (size_t i = 0; i < vec_size / 8; ++i) {
+      data[i] = ((uint4*)ptr)[i];
+    }
+  }
+  SGL_HIP_INLINE void store(nv_bfloat16* ptr) const {
+#pragma unoll
+    for (size_t i = 0; i < vec_size / 8; ++i) {
+      ((uint4*)ptr)[i] = data[i];
+    }
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, vec_size>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+}  // namespace sgl_hip
+
+#endif
diff --git a/sgl-kernel/include/impl/hip_vec_fp32_impl.h b/sgl-kernel/include/impl/hip_vec_fp32_impl.h
new file mode 100644
index 000000000000..97cba6320d38
--- /dev/null
+++ b/sgl-kernel/include/impl/hip_vec_fp32_impl.h
@@ -0,0 +1,129 @@
+#pragma once
+
+#if USE_ROCM
+
+#include <hip/hip_common.h>
+
+// Adapted from flashinfer-rocm [PR#491](https://github.com/flashinfer-ai/flashinfer/pull/491)
+
+namespace sgl_hip {
+
+template <>
+struct vec_t<float, 1> {
+  float data;
+
+  SGL_HIP_INLINE float& operator[](size_t i) {
+    return ((float*)(&data))[i];
+  }
+  SGL_HIP_INLINE const float& operator[](size_t i) const {
+    return ((const float*)(&data))[i];
+  }
+  SGL_HIP_INLINE float* ptr() {
+    return reinterpret_cast<float*>(&data);
+  }
+  SGL_HIP_INLINE void load(const float* ptr);
+  SGL_HIP_INLINE void store(float* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 1>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<float, 1>::load(const float* ptr) {
+  data = *ptr;
+}
+
+SGL_HIP_INLINE void vec_t<float, 1>::store(float* ptr) const {
+  *ptr = data;
+}
+
+// float x 2
+
+template <>
+struct vec_t<float, 2> {
+  float2 data;
+
+  SGL_HIP_INLINE float& operator[](size_t i) {
+    return ((float*)(&data))[i];
+  }
+  SGL_HIP_INLINE const float& operator[](size_t i) const {
+    return ((const float*)(&data))[i];
+  }
+  SGL_HIP_INLINE float* ptr() {
+    return reinterpret_cast<float*>(&data);
+  }
+  SGL_HIP_INLINE void load(const float* ptr);
+  SGL_HIP_INLINE void store(float* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 2>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<float, 2>::load(const float* ptr) {
+  data = *((float2*)ptr);
+}
+
+SGL_HIP_INLINE void vec_t<float, 2>::store(float* ptr) const {
+  *((float2*)ptr) = data;
+}
+
+// float x 4 or more
+template <size_t vec_size>
+struct vec_t<float, vec_size> {
+  float4 data[vec_size / 4];
+
+  SGL_HIP_INLINE float& operator[](size_t i) {
+    return ((float*)(data))[i];
+  }
+  SGL_HIP_INLINE const float& operator[](size_t i) const {
+    return ((const float*)(data))[i];
+  }
+  SGL_HIP_INLINE float* ptr() {
+    return reinterpret_cast<float*>(&data);
+  }
+  SGL_HIP_INLINE void load(const float* ptr) {
+#pragma unroll
+    for (size_t i = 0; i < vec_size / 4; ++i) {
+      data[i] = ((float4*)ptr)[i];
+    }
+  }
+  SGL_HIP_INLINE void store(float* ptr) const {
+#pragma unroll
+    for (size_t i = 0; i < vec_size / 4; ++i) {
+      ((float4*)ptr)[i] = data[i];
+    }
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, vec_size>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+}  // namespace sgl_hip
+
+#endif
diff --git a/sgl-kernel/include/impl/hip_vec_half_impl.h b/sgl-kernel/include/impl/hip_vec_half_impl.h
new file mode 100644
index 000000000000..767b9c62f9b9
--- /dev/null
+++ b/sgl-kernel/include/impl/hip_vec_half_impl.h
@@ -0,0 +1,172 @@
+#pragma once
+
+#if USE_ROCM
+
+#include <hip/hip_common.h>
+#include <hip/hip_fp16.h>
+
+// Adapted from flashinfer-rocm [PR#491](https://github.com/flashinfer-ai/flashinfer/pull/491)
+
+using half = __half;
+using half2 = __half2;
+
+namespace sgl_hip {
+
+// half x 1
+template <>
+struct vec_t<half, 1> {
+  half data;
+
+  SGL_HIP_INLINE half& operator[](size_t i) {
+    return ((half*)(&data))[i];
+  }
+  SGL_HIP_INLINE const half& operator[](size_t i) const {
+    return ((const half*)(&data))[i];
+  }
+  SGL_HIP_INLINE half* ptr() {
+    return reinterpret_cast<half*>(&data);
+  }
+  SGL_HIP_INLINE void load(const half* ptr);
+  SGL_HIP_INLINE void store(half* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 1>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<half, 1>::load(const half* ptr) {
+  data = *ptr;
+}
+
+SGL_HIP_INLINE void vec_t<half, 1>::store(half* ptr) const {
+  *ptr = data;
+}
+
+// half x 2
+template <>
+struct vec_t<half, 2> {
+  half2 data;
+
+  SGL_HIP_INLINE half& operator[](size_t i) {
+    return ((half*)(&data))[i];
+  }
+  SGL_HIP_INLINE const half& operator[](size_t i) const {
+    return ((const half*)(&data))[i];
+  }
+  SGL_HIP_INLINE half* ptr() {
+    return reinterpret_cast<half*>(&data);
+  }
+  SGL_HIP_INLINE void load(const half* ptr);
+  SGL_HIP_INLINE void store(half* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 2>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<half, 2>::load(const half* ptr) {
+  data = *((half2*)ptr);
+}
+
+SGL_HIP_INLINE void vec_t<half, 2>::store(half* ptr) const {
+  *((half2*)ptr) = data;
+}
+
+// half x 4
+
+template <>
+struct vec_t<half, 4> {
+  uint2 data;
+
+  SGL_HIP_INLINE half& operator[](size_t i) {
+    return ((half*)(&data))[i];
+  }
+  SGL_HIP_INLINE const half& operator[](size_t i) const {
+    return ((const half*)(&data))[i];
+  }
+  SGL_HIP_INLINE half* ptr() {
+    return reinterpret_cast<half*>(&data);
+  }
+  SGL_HIP_INLINE void load(const half* ptr);
+  SGL_HIP_INLINE void store(half* ptr) const;
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, 4>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+SGL_HIP_INLINE void vec_t<half, 4>::load(const half* ptr) {
+  data = *((uint2*)ptr);
+}
+
+SGL_HIP_INLINE void vec_t<half, 4>::store(half* ptr) const {
+  *((uint2*)ptr) = data;
+}
+
+// half x 8 or more
+
+template <size_t vec_size>
+struct vec_t<half, vec_size> {
+  uint4 data[vec_size / 8];
+
+  SGL_HIP_INLINE half& operator[](size_t i) {
+    return ((half*)data)[i];
+  }
+  SGL_HIP_INLINE const half& operator[](size_t i) const {
+    return ((const half*)data)[i];
+  }
+  SGL_HIP_INLINE half* ptr() {
+    return reinterpret_cast<half*>(&data);
+  }
+  SGL_HIP_INLINE void load(const half* ptr) {
+#pragma unroll
+    for (size_t i = 0; i < vec_size / 8; ++i) {
+      data[i] = ((uint4*)ptr)[i];
+    }
+  }
+  SGL_HIP_INLINE void store(half* ptr) const {
+#pragma unroll
+    for (size_t i = 0; i < vec_size / 8; ++i) {
+      ((uint4*)ptr)[i] = data[i];
+    }
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_from(const vec_t<T, vec_size>& src) {
+    cast_from_impl(*this, src);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_load(const T* ptr) {
+    cast_load_impl(*this, ptr);
+  }
+  template <typename T>
+  SGL_HIP_INLINE void cast_store(T* ptr) const {
+    cast_store_impl(ptr, *this);
+  }
+};
+
+}  // namespace sgl_hip
+#endif
diff --git a/sgl-kernel/include/sgl_kernel_ops.h b/sgl-kernel/include/sgl_kernel_ops.h
index ffd240a04dd0..ca82760500ce 100644
--- a/sgl-kernel/include/sgl_kernel_ops.h
+++ b/sgl-kernel/include/sgl_kernel_ops.h
@@ -138,9 +138,10 @@ void sgl_fused_add_rmsnorm(
     torch::Tensor input, torch::Tensor residual, torch::Tensor weight, double eps, bool enable_pdl);
 void gemma_rmsnorm(at::Tensor& output, at::Tensor& input, at::Tensor& weight, double eps, bool enable_pdl);
 void gemma_fused_add_rmsnorm(at::Tensor& input, at::Tensor& residual, at::Tensor& weight, double eps, bool enable_pdl);
-void silu_and_mul(at::Tensor& out, at::Tensor& input, int64_t cuda_stream);
-void gelu_tanh_and_mul(at::Tensor& out, at::Tensor& input, int64_t cuda_stream);
-void gelu_and_mul(at::Tensor& out, at::Tensor& input, int64_t cuda_stream);
+void silu_and_mul(at::Tensor& out, at::Tensor& input);
+void gelu_tanh_and_mul(at::Tensor& out, at::Tensor& input);
+void gelu_and_mul(at::Tensor& out, at::Tensor& input);
+
 void apply_rope_pos_ids_cos_sin_cache(
     at::Tensor q,
     at::Tensor k,
@@ -151,6 +152,9 @@ void apply_rope_pos_ids_cos_sin_cache(
     bool interleave,
     int64_t cuda_stream);
 
+#ifdef USE_ROCM
+void gelu_quick(at::Tensor& out, const at::Tensor& input);
+#endif
 /*
  * From csrc/gemm
  */
diff --git a/sgl-kernel/include/utils.h b/sgl-kernel/include/utils.h
index 1054dbc5286a..d7d0d5d1fc83 100644
--- a/sgl-kernel/include/utils.h
+++ b/sgl-kernel/include/utils.h
@@ -19,7 +19,20 @@ limitations under the License.
 #include <cuda_runtime.h>
 #include <torch/all.h>
 
-#include <sstream>
+#ifdef USE_ROCM
+// Adapted from flashinfer-rocm [PR#491](https://github.com/flashinfer-ai/flashinfer/pull/491)
+#define _DISPATCH_CASE_F16(c_type, ...) \
+  case at::ScalarType::Half: {          \
+    using c_type = __half;              \
+    return __VA_ARGS__();               \
+  }
+
+#define _DISPATCH_CASE_BF16(c_type, ...) \
+  case at::ScalarType::BFloat16: {       \
+    using c_type = __hip_bfloat16;       \
+    return __VA_ARGS__();                \
+  }
+#endif  // USE_ROCM
 
 #ifndef USE_ROCM
 // Adapt from FlashInfer
@@ -31,7 +44,7 @@ limitations under the License.
   }
 #else
 #define _DISPATCH_CASE_F16(c_type, ...)
-#endif
+#endif  // FLASHINFER_ENABLE_F16
 
 #ifdef FLASHINFER_ENABLE_BF16
 #define _DISPATCH_CASE_BF16(c_type, ...) \
@@ -41,7 +54,7 @@ limitations under the License.
   }
 #else
 #define _DISPATCH_CASE_BF16(c_type, ...)
-#endif
+#endif  // FLASHINFER_ENABLE_BF16
 
 #ifdef FLASHINFER_ENABLE_FP8_E4M3
 #define _DISPATCH_CASE_FP8_E4M3(c_type, ...) \
@@ -51,7 +64,7 @@ limitations under the License.
   }
 #else
 #define _DISPATCH_CASE_FP8_E4M3(c_type, ...)
-#endif
+#endif  // FLASHINFER_ENABLE_FP8_E4M3
 
 #ifdef FLASHINFER_ENABLE_FP8_E5M2
 #define _DISPATCH_CASE_FP8_E5M2(c_type, ...) \
@@ -61,7 +74,7 @@ limitations under the License.
   }
 #else
 #define _DISPATCH_CASE_FP8_E5M2(c_type, ...)
-#endif
+#endif  // FLASHINFER_ENABLE_FP8_E5M2
 
 #define DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FP16(pytorch_dtype, c_type, ...)                 \
   [&]() -> bool {                                                                        \
@@ -197,7 +210,7 @@ inline constexpr uint32_t pack_u16(uint16_t a, uint16_t b) {
 inline bool is_float8_tensor(const at::Tensor& tensor) {
   return tensor.scalar_type() == at::ScalarType::Float8_e4m3fn || tensor.scalar_type() == at::ScalarType::Float8_e5m2;
 }
-#endif
+#endif  // USE_ROCM
 
 struct cuda_error : public std::runtime_error {
   /**
@@ -267,7 +280,6 @@ inline bool getEnvEnablePDL() {
 #define SGLANG_SHFL_XOR_SYNC_WIDTH(mask, var, lane_mask, width) __shfl_xor((var), (lane_mask), (width))
 #endif
 
-#ifndef USE_ROCM
 #define DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(pytorch_dtype, c_type, ...)           \
   [&]() -> bool {                                                                        \
     switch (pytorch_dtype) {                                                             \
@@ -284,7 +296,6 @@ inline bool getEnvEnablePDL() {
         return false;                                                                    \
     }                                                                                    \
   }()
-#endif
 
 #define DISPATCH_CASE_INTEGRAL_TYPES(...)              \
   AT_DISPATCH_CASE(at::ScalarType::Byte, __VA_ARGS__)  \
@@ -297,52 +308,99 @@ inline bool getEnvEnablePDL() {
   AT_DISPATCH_SWITCH(TYPE, NAME, DISPATCH_CASE_INTEGRAL_TYPES(__VA_ARGS__))
 
 #define CEILDIV(x, y) (((x) + (y) - 1) / (y))
+
+#ifndef USE_ROCM
 #define WARP_SIZE 32
+#else
+#define WARP_SIZE warpSize  // 64
+#endif
+
+#if defined(__HIP_PLATFORM_AMD__)
+
+#include "hip_math_def.h"
+#include "hip_vec_dtypes.h"
+
+#else
+
+template <typename srcDtype>
+__device__ __forceinline__ float castToFloat(srcDtype val) {
+  return static_cast<srcDtype>(val);
+}
+
+template <typename dstDtype>
+__device__ __forceinline__ dstDtype castFromFloat(float val) {
+  return static_cast<dstDtype>(val);
+}
+
+#endif
+
+// add FP8 support
 
 #ifndef USE_ROCM
 #include <c10/util/Float8_e4m3fn.h>
 using FP8_TYPE = c10::Float8_e4m3fn;
 C10_HOST_DEVICE constexpr auto FP8_E4M3_MAX = std::numeric_limits<FP8_TYPE>::max();
-#else
-#include <c10/util/Float8_e4m3fnuz.h>
 
+#else  // USE_ROCM
+
+#if HIP_FP8_TYPE_FNUZ
+#include <c10/util/Float8_e4m3fnuz.h>
 using FP8_TYPE = c10::Float8_e4m3fnuz;
 constexpr auto FP8_E4M3_MAX = 224.0f;
-#endif
+#else
+#if HIP_FP8_TYPE_E4M3
+#include <c10/util/Float8_e4m3fn.h>
+using FP8_TYPE = c10::Float8_e4m3fn;
+C10_HOST_DEVICE constexpr auto FP8_E4M3_MAX = std::numeric_limits<FP8_TYPE>::max();
+#else
+#error "fp8 is not supported in this processor (arch < gfx942)."
+#endif  // HIP_FP8_TYPE_E4M3
+#endif  // HIP_FP8_TYPE_FNUZ
+#endif  // USE_ROCM
+
+#define FULL_MASK 0xffffffff
 
-#ifndef USE_ROCM
 __device__ __forceinline__ float atomicMaxFloat(float* addr, float value) {
+#ifndef USE_ROCM
   float old;
   old = (value >= 0) ? __int_as_float(atomicMax((int*)addr, __float_as_int(value)))
                      : __uint_as_float(atomicMin((unsigned int*)addr, __float_as_uint(value)));
   return old;
+#else
+  int* addr_as_i = (int*)addr;
+  int old = *addr_as_i, assumed;
+  do {
+    assumed = old;
+    old = atomicCAS(addr_as_i, assumed, __float_as_int(fmaxf(value, __int_as_float(assumed))));
+  } while (assumed != old);
+  return __int_as_float(old);
+#endif
 }
 
-__device__ __forceinline__ float warpReduceMax(float max_value) {
-  max_value = fmaxf(max_value, SGLANG_SHFL_XOR_SYNC(0xffffffff, max_value, 16));
-  max_value = fmaxf(max_value, SGLANG_SHFL_XOR_SYNC(0xffffffff, max_value, 8));
-  max_value = fmaxf(max_value, SGLANG_SHFL_XOR_SYNC(0xffffffff, max_value, 4));
-  max_value = fmaxf(max_value, SGLANG_SHFL_XOR_SYNC(0xffffffff, max_value, 2));
-  max_value = fmaxf(max_value, SGLANG_SHFL_XOR_SYNC(0xffffffff, max_value, 1));
-  return max_value;
+__device__ __forceinline__ float warpReduceMax(float value) {
+  value = fmaxf(value, __shfl_xor_sync(FULL_MASK, value, 16));
+  value = fmaxf(value, __shfl_xor_sync(FULL_MASK, value, 8));
+  value = fmaxf(value, __shfl_xor_sync(FULL_MASK, value, 4));
+  value = fmaxf(value, __shfl_xor_sync(FULL_MASK, value, 2));
+  value = fmaxf(value, __shfl_xor_sync(FULL_MASK, value, 1));
+  return value;
 }
 
-__device__ __forceinline__ float blockReduceMax(float max_value) {
+__device__ __forceinline__ float blockReduceMax(float value) {
   static __shared__ float warpLevelMaxs[WARP_SIZE];
   const int laneId = threadIdx.x % WARP_SIZE;
   const int warpId = threadIdx.x / WARP_SIZE;
 
-  max_value = warpReduceMax(max_value);
+  value = warpReduceMax(value);
 
-  if (laneId == 0) warpLevelMaxs[warpId] = max_value;
+  if (laneId == 0) warpLevelMaxs[warpId] = value;
   __syncthreads();
 
-  max_value = (threadIdx.x < blockDim.x / WARP_SIZE) ? warpLevelMaxs[laneId] : 0;
-  if (warpId == 0) max_value = warpReduceMax(max_value);
+  value = (threadIdx.x < blockDim.x / WARP_SIZE) ? warpLevelMaxs[laneId] : 0;
+  if (warpId == 0) value = warpReduceMax(value);
 
-  return max_value;
+  return value;
 }
-#endif
 
 // Pads to a multiple of `alignment` rows.
 inline torch::Tensor pad_tensor(const torch::Tensor& tensor, int64_t alignment = 4, bool is_column_major = false) {
diff --git a/sgl-kernel/python/sgl_kernel/__init__.py b/sgl-kernel/python/sgl_kernel/__init__.py
index 5cecfc3c041e..2a4656aea21b 100755
--- a/sgl-kernel/python/sgl_kernel/__init__.py
+++ b/sgl-kernel/python/sgl_kernel/__init__.py
@@ -31,6 +31,10 @@
     silu_and_mul,
 )
 from sgl_kernel.fused_moe import fused_marlin_moe
+
+if torch.version.hip is not None:
+    from sgl_kernel.elementwise import gelu_quick
+
 from sgl_kernel.gemm import (
     awq_dequantize,
     bmm_fp8,
diff --git a/sgl-kernel/python/sgl_kernel/elementwise.py b/sgl-kernel/python/sgl_kernel/elementwise.py
index 0e2bbc9904dd..01ee718606ba 100644
--- a/sgl-kernel/python/sgl_kernel/elementwise.py
+++ b/sgl-kernel/python/sgl_kernel/elementwise.py
@@ -179,7 +179,7 @@ def silu_and_mul(input: torch.Tensor, out: torch.Tensor = None) -> torch.Tensor:
             device=input.device,
             dtype=input.dtype,
         )
-    torch.ops.sgl_kernel.silu_and_mul.default(out, input, get_cuda_stream())
+    torch.ops.sgl_kernel.silu_and_mul.default(out, input)
     return out
 
 
@@ -194,7 +194,7 @@ def gelu_tanh_and_mul(input: torch.Tensor, out: torch.Tensor = None) -> torch.Te
             device=input.device,
             dtype=input.dtype,
         )
-    torch.ops.sgl_kernel.gelu_tanh_and_mul.default(out, input, get_cuda_stream())
+    torch.ops.sgl_kernel.gelu_tanh_and_mul.default(out, input)
     return out
 
 
@@ -209,10 +209,34 @@ def gelu_and_mul(input: torch.Tensor, out: torch.Tensor = None) -> torch.Tensor:
             device=input.device,
             dtype=input.dtype,
         )
-    torch.ops.sgl_kernel.gelu_and_mul.default(out, input, get_cuda_stream())
+    torch.ops.sgl_kernel.gelu_and_mul.default(out, input)
     return out
 
 
+if torch.version.hip is not None:
+
+    def gelu_quick(input: torch.Tensor, out: torch.Tensor = None) -> torch.Tensor:
+        """
+        Quick-GELU:  y = x * sigmoid(1.702 * x)
+
+        The CUDA/HIP kernel uses 128-bit (16-byte) vector loads & stores,
+        so the last-dimension byte length must be a multiple of 16 bytes.
+        """
+        if input.shape[-1] * input.dtype.itemsize % 16 != 0:
+            raise ValueError(
+                f"The last dimension ({input.shape[-1]}) x itemsize "
+                f"({input.dtype.itemsize}) must be a multiple of 16 bytes."
+            )
+
+        if out is not None:
+            assert input.shape == out.shape, f"{input.shape} != {out.shape}"
+        else:
+            out = torch.empty_like(input)
+
+        torch.ops.sgl_kernel.gelu_quick(out, input)
+        return out
+
+
 def apply_rope_with_cos_sin_cache_inplace(
     positions: torch.Tensor,
     query: torch.Tensor,
diff --git a/sgl-kernel/setup_rocm.py b/sgl-kernel/setup_rocm.py
index a814b819689a..47f59071f4d3 100644
--- a/sgl-kernel/setup_rocm.py
+++ b/sgl-kernel/setup_rocm.py
@@ -36,16 +36,18 @@ def _get_version():
 operator_namespace = "sgl_kernel"
 include_dirs = [
     root / "include",
+    root / "include" / "impl",
     root / "csrc",
 ]
 
 sources = [
     "csrc/allreduce/custom_all_reduce.hip",
     "csrc/allreduce/quick_all_reduce.cu",
+    "csrc/elementwise/activation.cu",
     "csrc/moe/moe_align_kernel.cu",
     "csrc/moe/moe_topk_softmax_kernels.cu",
-    "csrc/torch_extension_rocm.cc",
     "csrc/speculative/eagle_utils.cu",
+    "csrc/torch_extension_rocm.cc",
 ]
 
 cxx_flags = ["-O3"]
@@ -69,6 +71,7 @@ def _get_version():
     )
     sys.exit(1)
 
+
 hipcc_flags = [
     "-DNDEBUG",
     f"-DOPERATOR_NAMESPACE={operator_namespace}",

From 15d275917431648a85cfa8b06c6471cbf2ffbd8b Mon Sep 17 00:00:00 2001
From: Zaili Wang <109502517+ZailiWang@users.noreply.github.com>
Date: Fri, 25 Jul 2025 15:03:16 +0800
Subject: [PATCH 127/396] [CPU] Add tutorial docs for SGL on CPU (#8000)

---
 docs/references/cpu.md       | 197 +++++++++++++++++++++++++++++++++++
 docs/references/deepseek.md  |   3 +
 docs/references/hardware.rst |   1 +
 docs/start/install.md        |   6 ++
 4 files changed, 207 insertions(+)
 create mode 100644 docs/references/cpu.md

diff --git a/docs/references/cpu.md b/docs/references/cpu.md
new file mode 100644
index 000000000000..5aa76af32c41
--- /dev/null
+++ b/docs/references/cpu.md
@@ -0,0 +1,197 @@
+# SGLang on CPU
+
+The document addresses how to set up the [SGLang](https://github.com/sgl-project/sglang) environment and run LLM inference on CPU servers.
+Specifically, SGLang is well optimized on the CPUs equipped with Intel® AMX® Instructions,
+which are 4th generation or newer Intel® Xeon® Scalable Processors.
+
+## Optimized Model List
+
+A list of popular LLMs are optimized and run efficiently on CPU,
+including the most notable open-source models like Llama series, Qwen series,
+and the phenomenal high-quality reasoning model DeepSeek-R1.
+
+| Model Name | BF16 | w8a8_int8 | FP8 |
+|:---:|:---:|:---:|:---:|
+| DeepSeek-R1 |   | [meituan/DeepSeek-R1-Channel-INT8](https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8) | [deepseek-ai/DeepSeek-R1](https://huggingface.co/deepseek-ai/DeepSeek-R1) |
+| Llama-3.2-3B | [meta-llama/Llama-3.2-3B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) | [RedHatAI/Llama-3.2-3B-quantized.w8a8](https://huggingface.co/RedHatAI/Llama-3.2-3B-Instruct-quantized.w8a8) |   |
+| Llama-3.1-8B | [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) | [RedHatAI/Meta-Llama-3.1-8B-quantized.w8a8](https://huggingface.co/RedHatAI/Meta-Llama-3.1-8B-quantized.w8a8) |   |
+| QwQ-32B |   | [RedHatAI/QwQ-32B-quantized.w8a8](https://huggingface.co/RedHatAI/QwQ-32B-quantized.w8a8) |   |
+| DeepSeek-Distilled-Llama |   | [RedHatAI/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8](https://huggingface.co/RedHatAI/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8) |   |
+| Qwen3-235B |   |   | [Qwen/Qwen3-235B-A22B-FP8](https://huggingface.co/Qwen/Qwen3-235B-A22B-FP8) |
+
+**Note:** The model identifiers listed in the table above
+have been verified on 6th Gen Intel® Xeon® P-core platforms.
+
+## Installation
+
+### Install Using Docker
+
+It is recommended to use Docker for setting up the SGLang environment.
+A [Dockerfile](https://github.com/sgl-project/sglang/blob/main/docker/Dockerfile.xeon) is provided to facilitate the installation.
+Replace `<secret>` below with your [HuggingFace access token](https://huggingface.co/docs/hub/en/security-tokens).
+
+```bash
+# Clone the SGLang repository
+git clone https://github.com/sgl-project/sglang.git
+cd sglang/docker
+
+# Build the docker image
+docker build -t sglang-cpu:main -f Dockerfile.xeon .
+
+# Initiate a docker container
+docker run \
+    -it \
+    --privileged \
+    --ipc=host \
+    --network=host \
+    -v /dev/shm:/dev/shm \
+    -v ~/.cache/huggingface:/root/.cache/huggingface \
+    -p 30000:30000 \
+    -e "HF_TOKEN=<secret>" \
+    sglang-cpu:main /bin/bash
+```
+
+### Install From Source
+
+If you'd prefer to install SGLang in a bare metal environment,
+the command list is as below.
+It is worth noting that the environment variable `SGLANG_USE_CPU_ENGINE=1`
+is required to enable SGLang service with CPU engine.
+
+```bash
+# Create and activate a conda environment
+conda create -n sgl-cpu python=3.12 -y
+conda activate sgl-cpu
+
+# Optional: Set PyTorch CPU as primary pip install channel to avoid installing CUDA version
+pip config set global.index-url https://download.pytorch.org/whl/cpu
+pip config set global.extra-index-url https://pypi.org/simple
+
+# Check if some conda related environment variables have been set
+env | grep -i conda
+# The following environment variable settings are required
+# if they have not been set properly
+export CONDA_EXE=$(which conda)
+export CONDA_ROOT=${CONDA_EXE}/../..
+export CONDA_PREFIX=${CONDA_ROOT}/envs/sgl-cpu
+export PATH=${PATH}:${CONDA_ROOT}/bin:${CONDA_ROOT}/condabin
+
+# Clone the SGLang code
+git clone https://github.com/sgl-project/sglang.git
+cd sglang
+git checkout <YOUR-DESIRED-VERSION>
+
+# Install SGLang dependent libs, and build SGLang main package
+pip install --upgrade pip setuptools
+conda install -y libsqlite==3.48.0 gperftools tbb libnuma numactl
+pip install intel-openmp
+pip install -e "python[all_cpu]"
+
+# Build the CPU backend kernels
+cd sgl-kernel
+cp pyproject_cpu.toml pyproject.toml
+pip install -v .
+
+# Other required environment variables
+# Recommend to set these in ~/.bashrc in order not to set every time in a new terminal
+export SGLANG_USE_CPU_ENGINE=1
+export LD_PRELOAD=${LD_PRELOAD}:${CONDA_PREFIX}/lib/libiomp5.so:${CONDA_PREFIX}/lib/libtcmalloc.so:${CONDA_PREFIX}/lib/libtbbmalloc.so.2
+```
+
+## Launch of the Serving Engine
+
+Example command to launch SGLang serving:
+
+```bash
+python -m sglang.launch_server   \
+    --model <MODEL_ID_OR_PATH>   \
+    --trust-remote-code          \
+    --disable-overlap-schedule   \
+    --device cpu                 \
+    --host 0.0.0.0               \
+    --tp 6
+```
+
+Notes:
+
+1. For running W8A8 quantized models, please add the flag `--quantization w8a8_int8`.
+
+2. The flag `--tp 6` specifies that tensor parallelism will be applied using 6 ranks (TP6).
+    The number of TP specified is how many TP ranks will be used during the execution.
+    In a CPU platform, a TP rank means a sub-NUMA cluster (SNC).
+    Usually we can get the SNC information (How many available) from Operation System.
+    User can specify TP to be no more than the total available SNCs in current system.
+
+    If the specified TP rank number differs from the total SNC count,
+    the system will automatically utilize the first `n` SNCs.
+    Note that `n` cannot exceed the total SNC number, doing so will result in an error.
+
+    To specify the cores to be used, we need to explicitly set the environment variable `SGLANG_CPU_OMP_THREADS_BIND`.
+    For example, if we want to run the SGLang service using the first 40 cores of each SNC on a Xeon® 6980P server,
+    which has 43-43-42 cores on the 3 SNCs of a socket, we should set:
+
+    ```bash
+    export SGLANG_CPU_OMP_THREADS_BIND="0-39|43-82|86-125|128-167|171-210|214-253"
+    ```
+
+3. A warmup step is automatically triggered when the service is started.
+The server is ready when you see the log `The server is fired up and ready to roll!`.
+
+## Benchmarking with Requests
+
+You can benchmark the performance via the `bench_serving` script.
+Run the command in another terminal.
+
+```bash
+python -m sglang.bench_serving   \
+    --dataset-name random        \
+    --random-input-len 1024      \
+    --random-output-len 1024     \
+    --num-prompts 1              \
+    --request-rate inf           \
+    --random-range-ratio 1.0
+```
+
+The detail explanations of the parameters can be looked up by the command:
+
+```bash
+python -m sglang.bench_serving -h
+```
+
+Additionally, the requests can be formed with
+[OpenAI Completions API](https://docs.sglang.ai/backend/openai_api_completions.html)
+and sent via the command line (e.g. using `curl`) or via your own script.
+
+## Example: Running DeepSeek-R1
+
+An example command to launch service for W8A8 DeepSeek-R1 on a Xeon® 6980P server
+
+```bash
+python -m sglang.launch_server                 \
+    --model meituan/DeepSeek-R1-Channel-INT8   \
+    --trust-remote-code                        \
+    --disable-overlap-schedule                 \
+    --device cpu                               \
+    --quantization w8a8_int8                   \
+    --host 0.0.0.0                             \
+    --mem-fraction-static 0.8                  \
+    --max-total-token 65536                    \
+    --tp 6
+```
+
+Similarly, an example command to launch service for FP8 DeepSeek-R1 would be
+
+```bash
+python -m sglang.launch_server                 \
+    --model deepseek-ai/DeepSeek-R1            \
+    --trust-remote-code                        \
+    --disable-overlap-schedule                 \
+    --device cpu                               \
+    --host 0.0.0.0                             \
+    --mem-fraction-static 0.8                  \
+    --max-total-token 65536                    \
+    --tp 6
+```
+
+Then you can test with `bench_serving` command or construct your own command or script
+following [the benchmarking example](#benchmarking-with-requests).
diff --git a/docs/references/deepseek.md b/docs/references/deepseek.md
index efa4f1928616..8b6d688d1507 100644
--- a/docs/references/deepseek.md
+++ b/docs/references/deepseek.md
@@ -14,6 +14,7 @@ To run DeepSeek V3/R1 models, the requirements are as follows:
 | **Full precision FP8**<br>*(recommended)* | 8 x H200 |
 | | 8 x MI300X |
 | | 2 x 8 x H100/800/20 |
+| | Xeon 6980P CPU |
 | **Full precision BF16** | 2 x 8 x H200 |
 | | 2 x 8 x MI300X |
 | | 4 x 8 x H100/800/20 |
@@ -22,6 +23,7 @@ To run DeepSeek V3/R1 models, the requirements are as follows:
 | | 8 x A100/A800 |
 | **Quantized weights (int8)** | 16 x A100/800 |
 | | 32 x L40S |
+| | Xeon 6980P CPU |
 
 <style>
 .md-typeset__table {
@@ -61,6 +63,7 @@ Detailed commands for reference:
 - [8 x A100 (AWQ)](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-8-a100a800-with-awq-quantization)
 - [16 x A100 (int8)](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-16-a100a800-with-int8-quantization)
 - [32 x L40S (int8)](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3#example-serving-with-32-l40s-with-int8-quantization)
+- [Xeon 6980P CPU](https://docs.sglang.ai/references/cpu.html#example-running-deepseek-r1)
 
 ### Download Weights
 If you encounter errors when starting the server, ensure the weights have finished downloading. It's recommended to download them beforehand or restart multiple times until all weights are downloaded. Please refer to [DeepSeek V3](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base#61-inference-with-deepseek-infer-demo-example-only) official guide to download the weights.
diff --git a/docs/references/hardware.rst b/docs/references/hardware.rst
index 0500e543575f..ea37b2b49ebf 100644
--- a/docs/references/hardware.rst
+++ b/docs/references/hardware.rst
@@ -5,3 +5,4 @@ Hardware Supports
 
    amd.md
    nvidia_jetson.md
+   cpu.md
\ No newline at end of file
diff --git a/docs/start/install.md b/docs/start/install.md
index cd2e731108c3..c64f3c148afe 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -52,6 +52,9 @@ cd ..
 pip install -e "python[all_hip]"
 ```
 
+Note: Please refer to [the CPU environment setup command list](../references/cpu.md#install-from-source)
+to set up the SGLang environment for running the models with CPU servers.
+
 ## Method 3: Using docker
 
 The docker images are available on Docker Hub as [lmsysorg/sglang](https://hub.docker.com/r/lmsysorg/sglang/tags), built from [Dockerfile](https://github.com/sgl-project/sglang/tree/main/docker).
@@ -87,6 +90,9 @@ drun -p 30000:30000 \
 drun v0.4.9.post3-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
+Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
+to set up the SGLang environment for running the models with CPU servers.
+
 ## Method 4: Using docker compose
 
 <details>

From 70e37b97bf4192891c2d4a1ca9b4d4bdb9b76a40 Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Fri, 25 Jul 2025 16:17:26 +0800
Subject: [PATCH 128/396] chore: upgrade mooncake 0.3.5 (#8341)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 .github/workflows/pr-test-pd-router.yml |  2 +-
 docker/Dockerfile                       |  2 +-
 docker/Dockerfile.gb200                 | 10 ++--------
 scripts/ci_install_dependency.sh        |  2 +-
 4 files changed, 5 insertions(+), 11 deletions(-)

diff --git a/.github/workflows/pr-test-pd-router.yml b/.github/workflows/pr-test-pd-router.yml
index 91e809123934..20a9c79e84f2 100644
--- a/.github/workflows/pr-test-pd-router.yml
+++ b/.github/workflows/pr-test-pd-router.yml
@@ -114,7 +114,7 @@ jobs:
       run: |
         echo "Installing SGLang with all extras..."
         python3 -m pip --no-cache-dir install -e "python[all]" --break-system-packages
-        python3 -m pip --no-cache-dir install mooncake-transfer-engine==0.3.4.post2
+        python3 -m pip --no-cache-dir install mooncake-transfer-engine==0.3.5
 
     - name: Build and install sgl-router
       run: |
diff --git a/docker/Dockerfile b/docker/Dockerfile
index 5494762150d0..ad2d196861ef 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -86,7 +86,7 @@ RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.3.9/sour
 # Python tools
 RUN python3 -m pip install --no-cache-dir \
     datamodel_code_generator \
-    mooncake_transfer_engine==0.3.4.post2 \
+    mooncake-transfer-engine==0.3.5 \
     pre-commit \
     pytest \
     black \
diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
index b4da2c5ddb84..614f22156fe3 100644
--- a/docker/Dockerfile.gb200
+++ b/docker/Dockerfile.gb200
@@ -145,14 +145,8 @@ RUN apt update -y \
     && apt update -y \
     && apt install nsight-systems-cli -y
 
-RUN git clone https://github.com/kvcache-ai/Mooncake.git \
-    && cd Mooncake \
-    && bash dependencies.sh -y \
-    && mkdir build \
-    && cd build \
-    && cmake .. -DUSE_MNNVL=ON \
-    && make -j \
-    && make install
+# --- Install Mooncake ---
+RUN pip install mooncake-transfer-engine==0.3.5
 
 # Set up locale
 RUN locale-gen en_US.UTF-8
diff --git a/scripts/ci_install_dependency.sh b/scripts/ci_install_dependency.sh
index 8ac697041fde..7654a23adf46 100755
--- a/scripts/ci_install_dependency.sh
+++ b/scripts/ci_install_dependency.sh
@@ -23,7 +23,7 @@ pip install -e "python[dev]"
 pip list
 
 # Install additional dependencies
-pip install mooncake-transfer-engine==0.3.4.post2 nvidia-cuda-nvrtc-cu12
+pip install mooncake-transfer-engine==0.3.5 nvidia-cuda-nvrtc-cu12
 
 # For lmms_evals evaluating MMMU
 git clone --branch v0.3.3 --depth 1 https://github.com/EvolvingLMMs-Lab/lmms-eval.git

From 9045cc1eb8daa77e6d4d271e3bdebc6e26584303 Mon Sep 17 00:00:00 2001
From: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Date: Fri, 25 Jul 2025 21:17:47 +0800
Subject: [PATCH 129/396] [torch.compile bug] avoid biased_grouped_topk_impl
 func repeatedly triggering `torch.compile` in forward pass (#8353)

---
 docs/references/hardware.rst         |  2 +-
 python/sglang/srt/layers/moe/topk.py | 11 ++---------
 2 files changed, 3 insertions(+), 10 deletions(-)

diff --git a/docs/references/hardware.rst b/docs/references/hardware.rst
index ea37b2b49ebf..5be98e7cd868 100644
--- a/docs/references/hardware.rst
+++ b/docs/references/hardware.rst
@@ -5,4 +5,4 @@ Hardware Supports
 
    amd.md
    nvidia_jetson.md
-   cpu.md
\ No newline at end of file
+   cpu.md
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index a806a40520be..ce00fb9c89c9 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -387,6 +387,7 @@ def grouped_topk_cpu(
     )
 
 
+@torch.compile(dynamic=True, backend=get_compiler_backend(), disable=_is_npu)
 def biased_grouped_topk_impl(
     hidden_states: torch.Tensor,
     gating_output: torch.Tensor,
@@ -482,7 +483,6 @@ def biased_grouped_topk_gpu(
     renormalize: bool,
     num_expert_group: int = 0,
     topk_group: int = 0,
-    compiled: bool = not _is_npu,
     num_fused_shared_experts: int = 0,
     routed_scaling_factor: Optional[float] = None,
     num_token_non_padded: Optional[torch.Tensor] = None,
@@ -535,14 +535,7 @@ def biased_grouped_topk_gpu(
         )
         return topk_weights, topk_ids
     else:
-        biased_grouped_topk_fn = (
-            torch.compile(
-                biased_grouped_topk_impl, dynamic=True, backend=get_compiler_backend()
-            )
-            if compiled
-            else biased_grouped_topk_impl
-        )
-        return biased_grouped_topk_fn(
+        return biased_grouped_topk_impl(
             hidden_states,
             gating_output,
             correction_bias,

From 1b9cea5ade6fe34bfafcff24b177e1ae6f5cb14f Mon Sep 17 00:00:00 2001
From: Stepan Kargaltsev <stepikmvk@gmail.com>
Date: Fri, 25 Jul 2025 18:53:30 +0300
Subject: [PATCH 130/396] [P/D] Support ipv6 in P/D scenario (#7858)

Co-authored-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 .../sglang/srt/disaggregation/common/conn.py  | 40 +++++++++--
 python/sglang/srt/disaggregation/mini_lb.py   |  5 +-
 .../srt/disaggregation/mooncake/conn.py       | 69 +++++++++++++------
 .../mooncake/transfer_engine.py               |  6 +-
 python/sglang/srt/disaggregation/nixl/conn.py | 30 ++++----
 .../device_communicators/shm_broadcast.py     | 17 +++--
 python/sglang/srt/utils.py                    | 10 +++
 7 files changed, 129 insertions(+), 48 deletions(-)

diff --git a/python/sglang/srt/disaggregation/common/conn.py b/python/sglang/srt/disaggregation/common/conn.py
index e6a6ad445b17..da6cc7217849 100644
--- a/python/sglang/srt/disaggregation/common/conn.py
+++ b/python/sglang/srt/disaggregation/common/conn.py
@@ -23,7 +23,14 @@
 )
 from sglang.srt.disaggregation.utils import DisaggregationMode
 from sglang.srt.server_args import ServerArgs
-from sglang.srt.utils import get_free_port, get_ip, get_local_ip_by_remote
+from sglang.srt.utils import (
+    format_tcp_address,
+    get_free_port,
+    get_ip,
+    get_local_ip_by_remote,
+    is_valid_ipv6_address,
+    maybe_wrap_ipv6_address,
+)
 
 logger = logging.getLogger(__name__)
 
@@ -65,11 +72,18 @@ def __init__(
     def _register_to_bootstrap(self):
         """Register KVSender to bootstrap server via HTTP POST."""
         if self.dist_init_addr:
-            ip_address = socket.gethostbyname(self.dist_init_addr.split(":")[0])
+            if self.dist_init_addr.startswith("["):  # [ipv6]:port or [ipv6]
+                if self.dist_init_addr.endswith("]"):
+                    host = self.dist_init_addr
+                else:
+                    host, _ = self.dist_init_addr.rsplit(":", 1)
+            else:
+                host = socket.gethostbyname(self.dist_init_addr.rsplit(":", 1)[0])
         else:
-            ip_address = get_ip()
+            host = get_ip()
+            host = maybe_wrap_ipv6_address(host)
 
-        bootstrap_server_url = f"{ip_address}:{self.bootstrap_port}"
+        bootstrap_server_url = f"{host}:{self.bootstrap_port}"
         url = f"http://{bootstrap_server_url}/route"
         payload = {
             "role": "Prefill",
@@ -92,8 +106,10 @@ def _register_to_bootstrap(self):
             logger.error(f"Prefill Failed to register to bootstrap server: {e}")
 
     @cache
-    def _connect(self, endpoint: str):
+    def _connect(self, endpoint: str, is_ipv6: bool = False):
         socket = zmq.Context().socket(zmq.PUSH)
+        if is_ipv6:
+            socket.setsockopt(zmq.IPV6, 1)
         socket.connect(endpoint)
         return socket
 
@@ -263,15 +279,27 @@ def _get_prefill_dp_size_from_server(self) -> int:
             return None
 
     @classmethod
-    def _connect(cls, endpoint: str):
+    def _connect(cls, endpoint: str, is_ipv6: bool = False):
         with cls._global_lock:
             if endpoint not in cls._socket_cache:
                 sock = cls._ctx.socket(zmq.PUSH)
+                if is_ipv6:
+                    sock.setsockopt(zmq.IPV6, 1)
                 sock.connect(endpoint)
                 cls._socket_cache[endpoint] = sock
                 cls._socket_locks[endpoint] = threading.Lock()
             return cls._socket_cache[endpoint], cls._socket_locks[endpoint]
 
+    @classmethod
+    def _connect_to_bootstrap_server(cls, bootstrap_info: dict):
+        ip_address = bootstrap_info["rank_ip"]
+        port = bootstrap_info["rank_port"]
+        is_ipv6_address = is_valid_ipv6_address(ip_address)
+        sock, lock = cls._connect(
+            format_tcp_address(ip_address, port), is_ipv6=is_ipv6_address
+        )
+        return sock, lock
+
     def _register_kv_args(self):
         pass
 
diff --git a/python/sglang/srt/disaggregation/mini_lb.py b/python/sglang/srt/disaggregation/mini_lb.py
index d91598e4fc7b..a80407bca580 100644
--- a/python/sglang/srt/disaggregation/mini_lb.py
+++ b/python/sglang/srt/disaggregation/mini_lb.py
@@ -17,6 +17,7 @@
 from fastapi.responses import ORJSONResponse, Response, StreamingResponse
 
 from sglang.srt.disaggregation.utils import PDRegistryRequest
+from sglang.srt.utils import maybe_wrap_ipv6_address
 
 AIOHTTP_STREAM_READ_CHUNK_SIZE = (
     1024 * 64
@@ -271,7 +272,7 @@ async def handle_generate_request(request_data: dict):
 
     # Parse and transform prefill_server for bootstrap data
     parsed_url = urllib.parse.urlparse(prefill_server)
-    hostname = parsed_url.hostname
+    hostname = maybe_wrap_ipv6_address(parsed_url.hostname)
     modified_request = request_data.copy()
 
     batch_size = _get_request_batch_size(modified_request)
@@ -309,7 +310,7 @@ async def _forward_to_backend(request_data: dict, endpoint_name: str):
 
     # Parse and transform prefill_server for bootstrap data
     parsed_url = urllib.parse.urlparse(prefill_server)
-    hostname = parsed_url.hostname
+    hostname = maybe_wrap_ipv6_address(parsed_url.hostname)
     modified_request = request_data.copy()
     modified_request.update(
         {
diff --git a/python/sglang/srt/disaggregation/mooncake/conn.py b/python/sglang/srt/disaggregation/mooncake/conn.py
index e345d9519eac..c5baa69886de 100644
--- a/python/sglang/srt/disaggregation/mooncake/conn.py
+++ b/python/sglang/srt/disaggregation/mooncake/conn.py
@@ -35,7 +35,15 @@
 from sglang.srt.disaggregation.mooncake.transfer_engine import MooncakeTransferEngine
 from sglang.srt.disaggregation.utils import DisaggregationMode
 from sglang.srt.server_args import ServerArgs
-from sglang.srt.utils import get_free_port, get_int_env_var, get_ip, get_local_ip_auto
+from sglang.srt.utils import (
+    format_tcp_address,
+    get_free_port,
+    get_int_env_var,
+    get_ip,
+    get_local_ip_auto,
+    is_valid_ipv6_address,
+    maybe_wrap_ipv6_address,
+)
 
 logger = logging.getLogger(__name__)
 
@@ -148,6 +156,9 @@ def __init__(
         self.request_status: Dict[int, KVPoll] = {}
         self.rank_port = None
         self.server_socket = zmq.Context().socket(zmq.PULL)
+        if is_valid_ipv6_address(self.local_ip):
+            self.server_socket.setsockopt(zmq.IPV6, 1)
+
         self.register_buffer_to_engine()
         if self.disaggregation_mode == DisaggregationMode.PREFILL:
             self.transfer_infos: Dict[int, Dict[str, TransferInfo]] = {}
@@ -240,8 +251,10 @@ def register_buffer_to_engine(self):
             self.engine.register(aux_data_ptr, aux_data_len)
 
     @cache
-    def _connect(self, endpoint: str):
+    def _connect(self, endpoint: str, is_ipv6: bool = False):
         socket = zmq.Context().socket(zmq.PUSH)
+        if is_ipv6:
+            socket.setsockopt(zmq.IPV6, 1)
         socket.connect(endpoint)
         return socket
 
@@ -471,9 +484,9 @@ def send_aux(
     def sync_status_to_decode_endpoint(
         self, remote: str, dst_port: int, room: int, status: int, prefill_rank: int
     ):
-        if ":" in remote:
-            remote = remote.split(":")[0]
-        self._connect("tcp://" + remote + ":" + str(dst_port)).send_multipart(
+        self._connect(
+            format_tcp_address(remote, dst_port), is_ipv6=is_valid_ipv6_address(remote)
+        ).send_multipart(
             [
                 str(room).encode("ascii"),
                 str(status).encode("ascii"),
@@ -616,9 +629,12 @@ def transfer_worker(
                     f"Transfer thread failed because of {e}. Prefill instance with bootstrap_port={self.bootstrap_port} is dead."
                 )
 
+    def _bind_server_socket(self):
+        self.server_socket.bind(format_tcp_address(self.local_ip, self.rank_port))
+
     def start_prefill_thread(self):
         self.rank_port = get_free_port()
-        self.server_socket.bind(f"tcp://{self.local_ip}:{self.rank_port}")
+        self._bind_server_socket()
 
         def bootstrap_thread():
             """This thread recvs pre-alloc notification from the decode engine"""
@@ -657,7 +673,7 @@ def bootstrap_thread():
 
     def start_decode_thread(self):
         self.rank_port = get_free_port()
-        self.server_socket.bind(f"tcp://{self.local_ip}:{self.rank_port}")
+        self._bind_server_socket()
 
         def decode_thread():
             while True:
@@ -776,7 +792,7 @@ def add_transfer_request(
         # requests with the same dst_sessions will be added into the same
         # queue, which enables early abort with failed sessions.
         dst_infos = self.transfer_infos[bootstrap_room].keys()
-        session_port_sum = sum(int(session.split(":")[1]) for session in dst_infos)
+        session_port_sum = sum(int(session.rsplit(":", 1)[1]) for session in dst_infos)
         shard_idx = session_port_sum % len(self.transfer_queues)
 
         self.transfer_queues[shard_idx].put(
@@ -814,11 +830,18 @@ def get_session_id(self):
     def _register_to_bootstrap(self):
         """Register KVSender to bootstrap server via HTTP POST."""
         if self.dist_init_addr:
-            ip_address = socket.gethostbyname(self.dist_init_addr.split(":")[0])
+            if self.dist_init_addr.startswith("["):  # [ipv6]:port or [ipv6]
+                if self.dist_init_addr.endswith("]"):
+                    host = self.dist_init_addr
+                else:
+                    host, _ = self.dist_init_addr.rsplit(":", 1)
+            else:
+                host = socket.gethostbyname(self.dist_init_addr.rsplit(":", 1)[0])
         else:
-            ip_address = get_ip()
+            host = get_ip()
+            host = maybe_wrap_ipv6_address(host)
 
-        bootstrap_server_url = f"{ip_address}:{self.bootstrap_port}"
+        bootstrap_server_url = f"{host}:{self.bootstrap_port}"
         url = f"http://{bootstrap_server_url}/route"
         payload = {
             "role": "Prefill",
@@ -1163,9 +1186,6 @@ def _get_prefill_parallel_info_from_server(self) -> Tuple[int, int]:
 
     def _register_kv_args(self):
         for bootstrap_info in self.bootstrap_infos:
-            self.prefill_server_url = (
-                f"{bootstrap_info['rank_ip']}:{bootstrap_info['rank_port']}"
-            )
             packed_kv_data_ptrs = b"".join(
                 struct.pack("Q", ptr) for ptr in self.kv_mgr.kv_args.kv_data_ptrs
             )
@@ -1179,7 +1199,7 @@ def _register_kv_args(self):
             dst_tp_size = str(tp_size).encode("ascii")
             dst_kv_item_len = str(kv_item_len).encode("ascii")
 
-            sock, lock = self._connect("tcp://" + self.prefill_server_url)
+            sock, lock = self._connect_to_bootstrap_server(bootstrap_info)
             with lock:
                 sock.send_multipart(
                     [
@@ -1196,23 +1216,32 @@ def _register_kv_args(self):
                 )
 
     @classmethod
-    def _connect(cls, endpoint: str):
+    def _connect(cls, endpoint: str, is_ipv6: bool = False):
         with cls._global_lock:
             if endpoint not in cls._socket_cache:
                 sock = cls._ctx.socket(zmq.PUSH)
+                if is_ipv6:
+                    sock.setsockopt(zmq.IPV6, 1)
                 sock.connect(endpoint)
                 cls._socket_cache[endpoint] = sock
                 cls._socket_locks[endpoint] = threading.Lock()
             return cls._socket_cache[endpoint], cls._socket_locks[endpoint]
 
+    @classmethod
+    def _connect_to_bootstrap_server(cls, bootstrap_info: dict):
+        ip_address = bootstrap_info["rank_ip"]
+        port = bootstrap_info["rank_port"]
+        is_ipv6_address = is_valid_ipv6_address(ip_address)
+        sock, lock = cls._connect(
+            format_tcp_address(ip_address, port), is_ipv6=is_ipv6_address
+        )
+        return sock, lock
+
     def init(self, kv_indices: npt.NDArray[np.int32], aux_index: Optional[int] = None):
         for bootstrap_info in self.bootstrap_infos:
-            self.prefill_server_url = (
-                f"{bootstrap_info['rank_ip']}:{bootstrap_info['rank_port']}"
-            )
+            sock, lock = self._connect_to_bootstrap_server(bootstrap_info)
             is_dummy = bootstrap_info["is_dummy"]
 
-            sock, lock = self._connect("tcp://" + self.prefill_server_url)
             with lock:
                 sock.send_multipart(
                     [
diff --git a/python/sglang/srt/disaggregation/mooncake/transfer_engine.py b/python/sglang/srt/disaggregation/mooncake/transfer_engine.py
index 8c7ea0108150..5baee5397da3 100644
--- a/python/sglang/srt/disaggregation/mooncake/transfer_engine.py
+++ b/python/sglang/srt/disaggregation/mooncake/transfer_engine.py
@@ -1,7 +1,7 @@
 import logging
 from typing import List, Optional
 
-from sglang.srt.utils import get_bool_env_var, get_free_port
+from sglang.srt.utils import get_bool_env_var, get_free_port, maybe_wrap_ipv6_address
 
 logger = logging.getLogger(__name__)
 
@@ -27,7 +27,9 @@ def __init__(self, hostname: str, gpu_id: int, ib_device: Optional[str] = None):
             hostname=self.hostname,
             device_name=self.ib_device,
         )
-        self.session_id = f"{self.hostname}:{self.engine.get_rpc_port()}"
+        self.session_id = (
+            f"{maybe_wrap_ipv6_address(self.hostname)}:{self.engine.get_rpc_port()}"
+        )
 
     def register(self, ptr, length):
         try:
diff --git a/python/sglang/srt/disaggregation/nixl/conn.py b/python/sglang/srt/disaggregation/nixl/conn.py
index 73f32c0a61f5..7a75d79b740d 100644
--- a/python/sglang/srt/disaggregation/nixl/conn.py
+++ b/python/sglang/srt/disaggregation/nixl/conn.py
@@ -27,7 +27,11 @@
 from sglang.srt.disaggregation.common.utils import group_concurrent_contiguous
 from sglang.srt.disaggregation.utils import DisaggregationMode
 from sglang.srt.server_args import ServerArgs
-from sglang.srt.utils import get_local_ip_by_remote
+from sglang.srt.utils import (
+    format_tcp_address,
+    get_local_ip_auto,
+    is_valid_ipv6_address,
+)
 
 logger = logging.getLogger(__name__)
 
@@ -124,7 +128,10 @@ def __init__(
                 "to run SGLang with NixlTransferEngine."
             ) from e
         self.agent = nixl_agent(str(uuid.uuid4()))
+        self.local_ip = get_local_ip_auto()
         self.server_socket = zmq.Context().socket(zmq.PULL)
+        if is_valid_ipv6_address(self.local_ip):
+            self.server_socket.setsockopt(zmq.IPV6, 1)
         self.register_buffer_to_engine()
 
         if self.disaggregation_mode == DisaggregationMode.PREFILL:
@@ -337,8 +344,11 @@ def check_transfer_done(self, room: int):
             return False
         return self.transfer_statuses[room].is_done()
 
+    def _bind_server_socket(self):
+        self.server_socket.bind(format_tcp_address(self.local_ip, self.rank_port))
+
     def _start_bootstrap_thread(self):
-        self.server_socket.bind(f"tcp://{get_local_ip_by_remote()}:{self.rank_port}")
+        self._bind_server_socket()
 
         def bootstrap_thread():
             """This thread recvs transfer info from the decode engine"""
@@ -452,23 +462,20 @@ def __init__(
 
     def init(self, kv_indices: npt.NDArray[np.int32], aux_index: Optional[int] = None):
         for bootstrap_info in self.bootstrap_infos:
-            self.prefill_server_url = (
-                f"{bootstrap_info['rank_ip']}:{bootstrap_info['rank_port']}"
-            )
             logger.debug(
                 f"Fetched bootstrap info: {bootstrap_info} for engine rank: {self.kv_mgr.kv_args.engine_rank}"
             )
+            sock, lock = self._connect_to_bootstrap_server(bootstrap_info)
             is_dummy = bootstrap_info["is_dummy"]
             logger.debug(
-                f"Sending to {self.prefill_server_url} with bootstrap room {self.bootstrap_room} {is_dummy=}"
+                f"Sending to prefill server with bootstrap room {self.bootstrap_room} {is_dummy=}"
             )
-            sock, lock = self._connect("tcp://" + self.prefill_server_url)
             with lock:
                 sock.send_multipart(
                     [
                         GUARD,
                         str(self.bootstrap_room).encode("ascii"),
-                        get_local_ip_by_remote().encode("ascii"),
+                        self.kv_mgr.local_ip.encode("ascii"),
                         str(self.kv_mgr.rank_port).encode("ascii"),
                         self.kv_mgr.agent.name.encode("ascii"),
                         kv_indices.tobytes() if not is_dummy else b"",
@@ -494,9 +501,7 @@ def poll(self) -> KVPoll:
 
     def _register_kv_args(self):
         for bootstrap_info in self.bootstrap_infos:
-            self.prefill_server_url = (
-                f"{bootstrap_info['rank_ip']}:{bootstrap_info['rank_port']}"
-            )
+            sock, lock = self._connect_to_bootstrap_server(bootstrap_info)
             packed_kv_data_ptrs = b"".join(
                 struct.pack("Q", ptr) for ptr in self.kv_mgr.kv_args.kv_data_ptrs
             )
@@ -504,13 +509,12 @@ def _register_kv_args(self):
                 struct.pack("Q", ptr) for ptr in self.kv_mgr.kv_args.aux_data_ptrs
             )
 
-            sock, lock = self._connect("tcp://" + self.prefill_server_url)
             with lock:
                 sock.send_multipart(
                     [
                         GUARD,
                         "None".encode("ascii"),
-                        get_local_ip_by_remote().encode("ascii"),
+                        self.kv_mgr.local_ip.encode("ascii"),
                         str(self.kv_mgr.rank_port).encode("ascii"),
                         self.kv_mgr.agent.name.encode("ascii"),
                         self.kv_mgr.agent.get_agent_metadata(),
diff --git a/python/sglang/srt/distributed/device_communicators/shm_broadcast.py b/python/sglang/srt/distributed/device_communicators/shm_broadcast.py
index 4e5c55a9913b..e5b59e7cc614 100644
--- a/python/sglang/srt/distributed/device_communicators/shm_broadcast.py
+++ b/python/sglang/srt/distributed/device_communicators/shm_broadcast.py
@@ -16,7 +16,12 @@
 from zmq import IPV6  # type: ignore
 from zmq import SUB, SUBSCRIBE, XPUB, XPUB_VERBOSE, Context  # type: ignore
 
-from sglang.srt.utils import get_ip, get_open_port, is_valid_ipv6_address
+from sglang.srt.utils import (
+    format_tcp_address,
+    get_ip,
+    get_open_port,
+    is_valid_ipv6_address,
+)
 
 # SGLANG_RINGBUFFER_WARNING_INTERVAL can be set to 60
 SGLANG_RINGBUFFER_WARNING_INTERVAL = int(
@@ -225,9 +230,9 @@ def __init__(
             remote_subscribe_port = get_open_port()
             if is_valid_ipv6_address(connect_ip):
                 self.remote_socket.setsockopt(IPV6, 1)
-                connect_ip = f"[{connect_ip}]"
-            socket_addr = f"tcp://{connect_ip}:{remote_subscribe_port}"
-            self.remote_socket.bind(socket_addr)
+            self.remote_socket.bind(
+                format_tcp_address(connect_ip, remote_subscribe_port)
+            )
 
         else:
             remote_subscribe_port = None
@@ -288,7 +293,9 @@ def create_from_handle(handle: Handle, rank) -> "MessageQueue":
             self.remote_socket.setsockopt_string(SUBSCRIBE, "")
             if is_valid_ipv6_address(handle.connect_ip):
                 self.remote_socket.setsockopt(IPV6, 1)
-            socket_addr = f"tcp://{handle.connect_ip}:{handle.remote_subscribe_port}"
+            socket_addr = format_tcp_address(
+                handle.connect_ip, handle.remote_subscribe_port
+            )
             logger.debug("Connecting to %s", socket_addr)
             self.remote_socket.connect(socket_addr)
 
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 01e54392ac65..52a1e20b8b46 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2065,6 +2065,16 @@ def is_valid_ipv6_address(address: str) -> bool:
         return False
 
 
+def maybe_wrap_ipv6_address(address: str) -> str:
+    if is_valid_ipv6_address(address):
+        return f"[{address}]"
+    return address
+
+
+def format_tcp_address(ip: str, port: int) -> str:
+    return f"tcp://{maybe_wrap_ipv6_address(ip)}:{port}"
+
+
 def configure_ipv6(dist_init_addr):
     addr = dist_init_addr
     end = addr.find("]")

From 12cb760a3773fe1a97d5a00fca26412f814f20fa Mon Sep 17 00:00:00 2001
From: Xu Wenqing <121550081+Xu-Wenqing@users.noreply.github.com>
Date: Sat, 26 Jul 2025 01:58:12 +0800
Subject: [PATCH 131/396] Add H20-3e fused MoE kernel tuning configs for
 Qwen3-Coder-480B-A35B-Instruct (#8344)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 许文卿 <xwq391974@alibaba-inc.com>
---
 ...E=160,N=320,device_name=NVIDIA_H20-3e.json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=320,device_name=NVIDIA_H20-3e.json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=320,device_name=NVIDIA_H20-3e.json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=320,device_name=NVIDIA_H20-3e.json
new file mode 100644
index 000000000000..a3022a054589
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=320,device_name=NVIDIA_H20-3e.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}

From f8260f25391fcd68e2fe82324d5b4b970aa76b60 Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Fri, 25 Jul 2025 12:03:16 -0700
Subject: [PATCH 132/396] [Bugfix][Feat] Add XML-ish grammar in EBNFComposer
 and fix misc bugs in Qwen3 detector (#8357)

---
 .../srt/function_call/base_format_detector.py |   4 +
 .../sglang/srt/function_call/ebnf_composer.py | 158 +++---
 .../srt/function_call/function_call_parser.py |   8 +-
 .../srt/function_call/pythonic_detector.py    |   9 +-
 ...n3_detector.py => qwen3_coder_detector.py} |  19 +-
 python/sglang/srt/server_args.py              |   4 +-
 test/srt/test_function_call_parser.py         | 455 ++++++++++++++++++
 7 files changed, 574 insertions(+), 83 deletions(-)
 rename python/sglang/srt/function_call/{qwen3_detector.py => qwen3_coder_detector.py} (91%)

diff --git a/python/sglang/srt/function_call/base_format_detector.py b/python/sglang/srt/function_call/base_format_detector.py
index d9ac71253e6d..39bb92f5f100 100644
--- a/python/sglang/srt/function_call/base_format_detector.py
+++ b/python/sglang/srt/function_call/base_format_detector.py
@@ -321,6 +321,10 @@ def has_tool_call(self, text: str) -> bool:
         """
         raise NotImplementedError()
 
+    def supports_structural_tag(self) -> bool:
+        """Return True if this detector supports structural tag format."""
+        return True
+
     @abstractmethod
     def structure_info(self) -> _GetInfoFunc:
         """
diff --git a/python/sglang/srt/function_call/ebnf_composer.py b/python/sglang/srt/function_call/ebnf_composer.py
index 60035e05d565..85d6039bb79f 100644
--- a/python/sglang/srt/function_call/ebnf_composer.py
+++ b/python/sglang/srt/function_call/ebnf_composer.py
@@ -1,51 +1,73 @@
-from typing import Literal, Optional
+from typing import Any, Dict, Literal, Optional
 
 
 class EBNFComposer:
     # Adapted from https://xgrammar.mlc.ai/docs/how_to/ebnf_guided_generation.html#try-out-via-hf-transformers
-    json_grammar_ebnf_str = r"""
-        json ::= basic_array | basic_object
-        basic_any ::= basic_number | basic_string | basic_boolean | basic_null | basic_array | basic_object
-        basic_integer ::= ("0" | "-"? [1-9] [0-9]*) ".0"?
-        basic_number ::= ("0" | "-"? [1-9] [0-9]*) ("." [0-9]+)? ([eE] [+-]? [0-9]+)?
+    # Shared primitive grammar rules used across all formats
+    BASE_PRIMITIVE_GRAMMAR = r"""
         basic_string ::= (([\"] basic_string_1 [\"]))
         basic_string_1 ::= "" | [^"\\\x00-\x1F] basic_string_1 | "\\" escape basic_string_1
-        escape ::= ["\\/bfnrt] | "u" [A-Fa-f0-9] [A-Fa-f0-9] [A-Fa-f0-9] [A-Fa-f0-9]
-        basic_boolean ::= "true" | "false"
-        basic_null ::= "null"
+        escape ::= ["\\/bfnrt] | "u" [A-Fa-f0-9]{4}
+        basic_integer ::= ("0" | "-"? [1-9] [0-9]*) ".0"?
+        basic_number ::= ("0" | "-"? [1-9] [0-9]*) ("." [0-9]+)? ([eE] [+-]? [0-9]+)?
         basic_array ::= "[" ("" | ws basic_any (ws "," ws basic_any)*) ws "]"
         basic_object ::= "{" ("" | ws basic_string ws ":" ws basic_any ( ws "," ws basic_string ws ":" ws basic_any)*) ws "}"
         ws ::= [ \n\t]*
-        """
+    """
 
-    pythonic_grammar_ebnf_str = r"""
+    # Format-specific extensions
+    json_grammar_ebnf_str = (
+        r"""
+        json ::= basic_array | basic_object
+        basic_any ::= basic_number | basic_string | basic_boolean | basic_null | basic_array | basic_object
+        basic_boolean ::= "true" | "false"
+        basic_null ::= "null"
+    """
+        + BASE_PRIMITIVE_GRAMMAR
+    )
+
+    pythonic_grammar_ebnf_str = (
+        r"""
         pythonic ::= basic_number | basic_string | basic_array | "True" | "False" | "None"
         basic_any ::= basic_number | basic_string | basic_array | basic_object
-        basic_number ::= ("0" | "-"? [1-9] [0-9]*) ("." [0-9]+)? ([eE] [+-]? [0-9]+)?
-        basic_string ::= (([\"] basic_string_1 [\"]))
-        basic_string_1 ::= "" | [^"\\\x00-\x1F] basic_string_1 | "\\" escape basic_string_1
-        escape ::= ["\\/bfnrt] | "u" [A-Fa-f0-9] [A-Fa-f0-9] [A-Fa-f0-9] [A-Fa-f0-9]
-        basic_array ::= "[" ("" | ws basic_any (ws "," ws basic_any)*) ws "]"
-        basic_object ::= "{" ("" | ws basic_string ws ":" ws basic_any ( ws "," ws basic_string ws ":" ws basic_any)*) ws "}"
-        ws ::= [ \n\t]*
+        basic_boolean ::= "True" | "False"
+        basic_null ::= "None"
+    """
+        + BASE_PRIMITIVE_GRAMMAR
+    )
+
+    xml_grammar_ebnf_str = (
+        r"""
+        xml ::= xml_element | xml_text
+        xml_element ::= basic_string | basic_number | basic_boolean | basic_null | basic_array | basic_object
+        xml_text ::= [^<>]*
+        basic_any ::= basic_number | basic_string | basic_boolean | basic_null | basic_array | basic_object
+        basic_boolean ::= "true" | "false"
+        basic_null ::= "null"
     """
+        + BASE_PRIMITIVE_GRAMMAR
+    )
 
     CALL_RULE_MAP = {
         "pythonic": 'call_{name} ::= "{name}" "(" {arguments_rule} ")"',
         "json": 'call_{name} ::= "{{" "\\"name\\"" ":" "\\"{name}\\"" ", " "\\"arguments\\"" ":" {arguments_rule} "}}"',
+        "xml": 'call_{name} ::= "<function={name}>\\n" {arguments_rule} "\\n</function>"',
     }
 
     ARGUMENTS_RULE_MAP = {
         "pythonic": "{arg_rules}",
         "json": '"{{" {arg_rules} "}}"',
+        "xml": "{arg_rules}",
     }
 
     KEY_VALUE_RULE_MAP = {
         "pythonic": '"{key}" "=" {valrule}',
         "json": '"\\"{key}\\"" ":" {valrule}',
+        "xml": '"<parameter={key}>\\n" {valrule} "\\n</parameter>"',
     }
 
-    JSON_TYPE_MAPPING = {
+    # Base type mapping - most types are the same across formats
+    BASE_TYPE_MAPPING = {
         "string": "basic_string",
         "number": "basic_number",
         "integer": "basic_number",
@@ -55,19 +77,20 @@ class EBNFComposer:
         "object": "basic_object",
     }
 
-    PYTHONIC_TYPE_MAPPING = {
-        "string": "basic_string",
-        "number": "basic_number",
-        "integer": "basic_number",
-        "boolean": '"True" | "False"',
-        "null": '"None"',
-        "array": "basic_array",
-        "object": "basic_object",
+    # Format-specific overrides for types that differ
+    FORMAT_TYPE_OVERRIDES = {
+        "pythonic": {
+            "boolean": '"True" | "False"',
+            "null": '"None"',
+        },
+        "xml": {
+            "string": "xml_text",
+        },
     }
 
     @staticmethod
     def get_value_rule(
-        prop: dict, function_format: Literal["pythonic", "json"] = "json"
+        prop: dict, function_format: Literal["pythonic", "json", "xml"] = "json"
     ) -> str:
         if "enum" in prop:
             return EBNFComposer._handle_enum(prop, function_format)
@@ -83,48 +106,46 @@ def _handle_enum(prop: dict, function_format: str) -> str:
         enum_values = prop["enum"]
         prop_type = prop.get("type", "string")
 
-        # Define formatters for different type/format combinations
-        formatters = {
-            ("string", "json"): lambda v: f'"\\"{v}\\""',
-            ("string", "pythonic"): lambda v: f'"\\"{v}\\""',
-            ("number", "json"): str,
-            ("number", "pythonic"): str,
-            ("integer", "json"): str,
-            ("integer", "pythonic"): str,
-            ("boolean", "json"): lambda v: "true" if v else "false",
-            ("boolean", "pythonic"): lambda v: "True" if v else "False",
-        }
+        def format_enum_val(v: Any) -> str:
+            if prop_type == "boolean":
+                if function_format == "json" or function_format == "xml":
+                    return "true" if v else "false"
+                elif function_format == "pythonic":
+                    return "True" if v else "False"
+                else:
+                    return str(v)  # fallback
 
-        # Get the formatter or default to string handling
-        formatter = formatters.get(
-            (prop_type, function_format),
-            formatters[("string", function_format)],  # Default to string handling
-        )
+            if prop_type == "string":
+                if function_format == "xml":
+                    return f'"{v}"'
+                else:  # json or pythonic
+                    return f'"\\"{v}\\""'  # escape quote-wrapped string
 
-        formatted_values = [formatter(value) for value in enum_values]
-        enum_rule = " | ".join(formatted_values)
+            # All other types (number, integer, etc.)
+            return str(v)
 
-        # Wrap in parentheses if there are multiple values to ensure correct EBNF precedence
-        if len(formatted_values) > 1:
-            enum_rule = f"({enum_rule})"
+        formatted_values = [format_enum_val(v) for v in enum_values]
+        enum_rule = " | ".join(formatted_values)
+        return f"({enum_rule})" if len(formatted_values) > 1 else enum_rule
 
-        return enum_rule
+    @staticmethod
+    def get_type_mapping(function_format: str) -> Dict[str, str]:
+        """Get the complete type mapping for a given format."""
+        mapping = EBNFComposer.BASE_TYPE_MAPPING.copy()
+        overrides = EBNFComposer.FORMAT_TYPE_OVERRIDES.get(function_format, {})
+        mapping.update({k: v for k, v in overrides.items() if v is not None})
+        return mapping
 
     @staticmethod
     def _handle_type(prop: dict, function_format: str) -> str:
         """Handle type properties using the appropriate type mapping."""
         prop_type = prop["type"]
-        type_mapping = (
-            EBNFComposer.PYTHONIC_TYPE_MAPPING
-            if function_format == "pythonic"
-            else EBNFComposer.JSON_TYPE_MAPPING
-        )
+        type_mapping = EBNFComposer.get_type_mapping(function_format)
 
         if isinstance(prop_type, list):
             type_rules = [
-                type_mapping[single_type]
+                type_mapping.get(single_type, function_format)
                 for single_type in prop_type
-                if single_type in type_mapping
             ]
             return " | ".join(type_rules) if type_rules else function_format
 
@@ -133,7 +154,7 @@ def _handle_type(prop: dict, function_format: str) -> str:
     @staticmethod
     def build_ebnf(
         tools,
-        function_format: Literal["pythonic", "json"] = "json",
+        function_format: Literal["pythonic", "json", "xml"] = "json",
         # Parameters for wrapping the entire sequence of tool calls
         sequence_start_token: Optional[str] = None,
         sequence_end_token: Optional[str] = None,
@@ -143,6 +164,7 @@ def build_ebnf(
         # Parameter for separating multiple tool calls
         tool_call_separator: Optional[str] = None,
         call_rule_fmt: Optional[str] = None,
+        key_value_rule_fmt: Optional[str] = None,
     ):
         """
         Generalized EBNF builder for all detectors.
@@ -157,6 +179,9 @@ def build_ebnf(
             call_rule_fmt: Optional custom format string for call_{name} rule. It should define each function call's format, with
                 the placeholders {name} for the function name and {arguments_rule} for the arguments rule. If None, a default
                 format based on function_format will be used.
+            key_value_rule_fmt: Optional custom format string for key-value pairs. It should define how each parameter is formatted,
+                with placeholders {key} for the parameter name and {valrule} for the value rule. If None, a default format
+                based on function_format will be used.
         """
         # =================================================================
         # Step 1: Determine the root tool calls rule
@@ -200,7 +225,11 @@ def build_ebnf(
             else EBNFComposer.CALL_RULE_MAP[function_format]
         )
         args_template = EBNFComposer.ARGUMENTS_RULE_MAP[function_format]
-        key_value_template = EBNFComposer.KEY_VALUE_RULE_MAP[function_format]
+        key_value_template = (
+            key_value_rule_fmt
+            if key_value_rule_fmt
+            else EBNFComposer.KEY_VALUE_RULE_MAP[function_format]
+        )
 
         # =================================================================
         # Step 4: Build rules for each tool
@@ -292,10 +321,13 @@ def build_ebnf(
         # =================================================================
         # Step 5: Add base grammar rules
         # =================================================================
-        base_grammar = (
-            EBNFComposer.pythonic_grammar_ebnf_str
-            if function_format == "pythonic"
-            else EBNFComposer.json_grammar_ebnf_str
+        grammar_dict = {
+            "pythonic": EBNFComposer.pythonic_grammar_ebnf_str,
+            "json": EBNFComposer.json_grammar_ebnf_str,
+            "xml": EBNFComposer.xml_grammar_ebnf_str,
+        }
+        base_grammar = grammar_dict.get(
+            function_format, EBNFComposer.json_grammar_ebnf_str
         )
         ebnf_lines.append(base_grammar)
 
diff --git a/python/sglang/srt/function_call/function_call_parser.py b/python/sglang/srt/function_call/function_call_parser.py
index 4c38d9d4fb04..fde00f303d88 100644
--- a/python/sglang/srt/function_call/function_call_parser.py
+++ b/python/sglang/srt/function_call/function_call_parser.py
@@ -14,7 +14,7 @@
 from sglang.srt.function_call.llama32_detector import Llama32Detector
 from sglang.srt.function_call.mistral_detector import MistralDetector
 from sglang.srt.function_call.pythonic_detector import PythonicDetector
-from sglang.srt.function_call.qwen3_detector import Qwen3XMLDetector
+from sglang.srt.function_call.qwen3_coder_detector import Qwen3CoderDetector
 from sglang.srt.function_call.qwen25_detector import Qwen25Detector
 
 logger = logging.getLogger(__name__)
@@ -36,7 +36,7 @@ class FunctionCallParser:
         "deepseekv3": DeepSeekV3Detector,
         "pythonic": PythonicDetector,
         "kimi_k2": KimiK2Detector,
-        "qwen3": Qwen3XMLDetector,
+        "qwen3_coder": Qwen3CoderDetector,
     }
 
     def __init__(self, tools: List[Tool], tool_call_parser: str):
@@ -155,9 +155,9 @@ def get_structure_constraint(
             or None if no constraint applies.
         """
         # NOTE: structural_tag only supports JSON-compatible content between the begin and end.
-        # It cannot parse or validate Python syntax like function calls.
+        # It cannot parse or validate function call Pythonic or XML-ish syntax.
         if (
-            not isinstance(self.detector, PythonicDetector)
+            self.detector.supports_structural_tag()
             and tool_choice == "auto"
             and any(tool.function.strict for tool in self.tools)
         ):
diff --git a/python/sglang/srt/function_call/pythonic_detector.py b/python/sglang/srt/function_call/pythonic_detector.py
index 85c3cd1359ed..be183c6bf82f 100644
--- a/python/sglang/srt/function_call/pythonic_detector.py
+++ b/python/sglang/srt/function_call/pythonic_detector.py
@@ -8,7 +8,6 @@
 from sglang.srt.function_call.base_format_detector import BaseFormatDetector
 from sglang.srt.function_call.core_types import (
     StreamingParseResult,
-    StructureInfo,
     ToolCallItem,
     _GetInfoFunc,
 )
@@ -216,11 +215,11 @@ def _get_parameter_value(self, val):
         else:
             raise ValueError("Tool call arguments must be literals")
 
-    def structure_info(self) -> _GetInfoFunc:
-        def info(name: str):
-            return StructureInfo(begin=f"[{name}(", end=")]", trigger=f"[{name}(")
+    def supports_structural_tag(self) -> bool:
+        return False
 
-        return info
+    def structure_info(self) -> _GetInfoFunc:
+        raise NotImplementedError
 
     def build_ebnf(self, tools: List[Tool]) -> Optional[str]:
         return EBNFComposer.build_ebnf(
diff --git a/python/sglang/srt/function_call/qwen3_detector.py b/python/sglang/srt/function_call/qwen3_coder_detector.py
similarity index 91%
rename from python/sglang/srt/function_call/qwen3_detector.py
rename to python/sglang/srt/function_call/qwen3_coder_detector.py
index 5c6ac698e8ea..641c86806292 100644
--- a/python/sglang/srt/function_call/qwen3_detector.py
+++ b/python/sglang/srt/function_call/qwen3_coder_detector.py
@@ -9,7 +9,6 @@
 from sglang.srt.function_call.base_format_detector import BaseFormatDetector
 from sglang.srt.function_call.core_types import (
     StreamingParseResult,
-    StructureInfo,
     ToolCallItem,
     _GetInfoFunc,
 )
@@ -29,7 +28,7 @@ def _safe_val(raw: str) -> Any:
             return raw
 
 
-class Qwen3XMLDetector(BaseFormatDetector):
+class Qwen3CoderDetector(BaseFormatDetector):
     """
     Detector for Qwen 3 models.
     Assumes function call format:
@@ -127,24 +126,26 @@ def _parse_block(self, block: str, tools: List[Tool]) -> List[ToolCallItem]:
                 params[pname] = _safe_val(pval)
             raw = {"name": fname, "arguments": params}
             try:
+                # TODO: fix idx in function call, the index for a function
+                # call will always be -1 in parse_base_json
                 res.extend(self.parse_base_json(raw, tools))
             except Exception:
                 logger.warning("invalid tool call for %s dropped", fname)
         return res
 
+    def supports_structural_tag(self) -> bool:
+        return False
+
     def structure_info(self) -> _GetInfoFunc:
-        return lambda n: StructureInfo(
-            begin=f"{self.tool_call_start_token}\n<function={n}>",
-            end=f"</function>\n{self.tool_call_end_token}",
-            trigger=self.tool_call_start_token,
-        )
+        raise NotImplementedError
 
-    # TODO: fake ebnf for xml + outlines backend
     def build_ebnf(self, tools: List[Tool]):
         return EBNFComposer.build_ebnf(
             tools,
             individual_call_start_token=self.tool_call_start_token.replace("\n", "\\n"),
             individual_call_end_token=self.tool_call_end_token.replace("\n", "\\n"),
             tool_call_separator="\\n",
-            function_format="json",
+            function_format="xml",
+            call_rule_fmt='"<function={name}>\\n" {arguments_rule} "\\n</function>"',
+            key_value_rule_fmt='"<parameter={key}>\\n" {valrule} "\\n</parameter>"',
         )
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 1625f2c3af21..b48cbf7253cb 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1099,10 +1099,10 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "deepseekv3",
                 "pythonic",
                 "kimi_k2",
-                "qwen3",
+                "qwen3_coder",
             ],
             default=ServerArgs.tool_call_parser,
-            help="Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', and 'kimi_k2'.",
+            help="Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', 'kimi_k2', and 'qwen3_coder'.",
         )
 
         # Data parallelism
diff --git a/test/srt/test_function_call_parser.py b/test/srt/test_function_call_parser.py
index 26dd24fbb71b..51102065184c 100644
--- a/test/srt/test_function_call_parser.py
+++ b/test/srt/test_function_call_parser.py
@@ -10,6 +10,7 @@
 from sglang.srt.function_call.llama32_detector import Llama32Detector
 from sglang.srt.function_call.mistral_detector import MistralDetector
 from sglang.srt.function_call.pythonic_detector import PythonicDetector
+from sglang.srt.function_call.qwen3_coder_detector import Qwen3CoderDetector
 from sglang.srt.function_call.qwen25_detector import Qwen25Detector
 from sglang.srt.hf_transformers_utils import get_tokenizer
 from sglang.test.test_utils import DEFAULT_SMALL_MODEL_NAME_FOR_TEST
@@ -507,6 +508,7 @@ def setUp(self):
         self.llama32_detector = Llama32Detector()
         self.mistral_detector = MistralDetector()
         self.qwen25_detector = Qwen25Detector()
+        self.qwen3_coder_detector = Qwen3CoderDetector()
         self.kimik2_detector = KimiK2Detector()
 
     def test_pythonic_detector_ebnf(self):
@@ -620,6 +622,26 @@ def test_qwen25_detector_ebnf(self):
         except RuntimeError as e:
             self.fail(f"Failed to compile EBNF: {e}")
 
+    def test_qwen3_coder_detector_ebnf(self):
+        """Test that the Qwen3CoderDetector generates valid EBNF."""
+        ebnf = self.qwen3_coder_detector.build_ebnf(self.tools)
+        self.assertIsNotNone(ebnf)
+        # Check that the EBNF contains expected patterns for XML format
+        self.assertIn("<tool_call>", ebnf)
+        self.assertIn("</tool_call>", ebnf)
+        self.assertIn('"<function=get_weather>\\n"', ebnf)
+        self.assertIn('"\\n</function>"', ebnf)
+        self.assertIn('"<parameter=location>\\n"', ebnf)
+        self.assertIn('"\\n</parameter>"', ebnf)
+        # Check that it uses xml_text for string parameters
+        self.assertIn("xml_text", ebnf)
+        # Validate that the EBNF can be compiled by GrammarCompiler
+        try:
+            ctx = self.grammar_compiler.compile_grammar(ebnf)
+            self.assertIsNotNone(ctx, "EBNF should be valid and compile successfully")
+        except RuntimeError as e:
+            self.fail(f"Failed to compile EBNF: {e}")
+
     def test_weather_function_optional_parameter_handling(self):
         """Test that weather function with optional unit parameter generates correct EBNF without trailing commas."""
         # Create a weather tool with required location and optional unit
@@ -1464,5 +1486,438 @@ def test_parse_streaming_multiple_tool_calls_with_multi_token_chunk(self):
         self.assertEqual(params2["city"], "Beijing")
 
 
+class TestQwen3CoderDetector(unittest.TestCase):
+    def setUp(self):
+        # Create sample tools for testing
+        self.tools = [
+            Tool(
+                type="function",
+                function=Function(
+                    name="get_current_weather",
+                    description="Get the current weather",
+                    parameters={
+                        "properties": {
+                            "city": {"type": "string", "description": "The city name"},
+                            "state": {
+                                "type": "string",
+                                "description": "The state code",
+                            },
+                            "unit": {
+                                "type": "string",
+                                "enum": ["fahrenheit", "celsius"],
+                            },
+                        },
+                        "required": ["city", "state"],
+                    },
+                ),
+            ),
+            Tool(
+                type="function",
+                function=Function(
+                    name="calculate_area",
+                    description="Calculate area of a shape",
+                    parameters={
+                        "properties": {
+                            "shape": {"type": "string"},
+                            "dimensions": {"type": "object"},
+                            "precision": {"type": "integer"},
+                        }
+                    },
+                ),
+            ),
+        ]
+        self.detector = Qwen3CoderDetector()
+
+    def test_has_tool_call(self):
+        """Test detection of tool call markers."""
+        self.assertTrue(self.detector.has_tool_call("<tool_call>test</tool_call>"))
+        self.assertFalse(self.detector.has_tool_call("No tool call here"))
+
+    def test_detect_and_parse_no_tools(self):
+        """Test parsing text without tool calls."""
+        model_output = "This is a test response without any tool calls"
+        result = self.detector.detect_and_parse(model_output, tools=[])
+        self.assertEqual(result.normal_text, model_output)
+        self.assertEqual(result.calls, [])
+
+    def test_detect_and_parse_single_tool(self):
+        """Test parsing a single tool call."""
+        model_output = """<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Dallas
+</parameter>
+<parameter=state>
+TX
+</parameter>
+<parameter=unit>
+fahrenheit
+</parameter>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+
+        self.assertEqual(result.normal_text, "")
+        self.assertEqual(len(result.calls), 1)
+        self.assertEqual(result.calls[0].name, "get_current_weather")
+
+        params = json.loads(result.calls[0].parameters)
+        self.assertEqual(params["city"], "Dallas")
+        self.assertEqual(params["state"], "TX")
+        self.assertEqual(params["unit"], "fahrenheit")
+
+    def test_detect_and_parse_with_content(self):
+        """Test parsing tool call with surrounding text."""
+        model_output = """Sure! Let me check the weather for you.<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Dallas
+</parameter>
+<parameter=state>
+TX
+</parameter>
+<parameter=unit>
+fahrenheit
+</parameter>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+
+        self.assertEqual(result.normal_text, "Sure! Let me check the weather for you.")
+        self.assertEqual(len(result.calls), 1)
+        self.assertEqual(result.calls[0].name, "get_current_weather")
+
+    def test_detect_and_parse_multiline_param(self):
+        """Test parsing tool call with multiline parameter values."""
+        model_output = """<tool_call>
+<function=calculate_area>
+<parameter=shape>
+rectangle
+</parameter>
+<parameter=dimensions>
+{"width": 10,
+ "height": 20}
+</parameter>
+<parameter=precision>
+2
+</parameter>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+
+        self.assertEqual(len(result.calls), 1)
+        self.assertEqual(result.calls[0].name, "calculate_area")
+
+        params = json.loads(result.calls[0].parameters)
+        self.assertEqual(params["shape"], "rectangle")
+        self.assertEqual(params["dimensions"], {"width": 10, "height": 20})
+        self.assertEqual(params["precision"], 2)
+
+    def test_detect_and_parse_parallel_tools(self):
+        """Test parsing multiple tool calls."""
+        model_output = """<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Dallas
+</parameter>
+<parameter=state>
+TX
+</parameter>
+<parameter=unit>
+fahrenheit
+</parameter>
+</function>
+</tool_call>
+<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Orlando
+</parameter>
+<parameter=state>
+FL
+</parameter>
+<parameter=unit>
+fahrenheit
+</parameter>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+
+        self.assertEqual(result.normal_text, "\n")
+        self.assertEqual(len(result.calls), 2)
+
+        # First call
+        self.assertEqual(result.calls[0].name, "get_current_weather")
+        params1 = json.loads(result.calls[0].parameters)
+        self.assertEqual(params1["city"], "Dallas")
+        self.assertEqual(params1["state"], "TX")
+
+        # Second call
+        self.assertEqual(result.calls[1].name, "get_current_weather")
+        params2 = json.loads(result.calls[1].parameters)
+        self.assertEqual(params2["city"], "Orlando")
+        self.assertEqual(params2["state"], "FL")
+
+    def test_parse_streaming_simple(self):
+        """Test basic streaming parsing."""
+        chunks = [
+            "Sure! ",
+            "Let me check ",
+            "the weather.",
+            "<tool_call>",
+            "\n<function=get_current_weather>",
+            "\n<parameter=city>",
+            "\nDallas",
+            "\n</parameter>",
+            "\n<parameter=state>",
+            "\nTX",
+            "\n</parameter>",
+            "\n</function>",
+            "\n</tool_call>",
+        ]
+
+        accumulated_text = ""
+        accumulated_calls = []
+
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, tools=self.tools)
+            accumulated_text += result.normal_text
+            accumulated_calls.extend(result.calls)
+
+        self.assertEqual(accumulated_text, "Sure! Let me check the weather.")
+        self.assertEqual(len(accumulated_calls), 1)
+        self.assertEqual(accumulated_calls[0].name, "get_current_weather")
+
+        params = json.loads(accumulated_calls[0].parameters)
+        self.assertEqual(params["city"], "Dallas")
+        self.assertEqual(params["state"], "TX")
+
+    def test_parse_streaming_incomplete(self):
+        """Test streaming with incomplete tool call."""
+        # Send incomplete tool call
+        chunks = [
+            "<tool_call>",
+            "\n<function=get_current_weather>",
+            "\n<parameter=city>",
+            "\nDallas",
+            "\n</parameter>",
+            "\n<parameter=state>",
+            "\nTX",
+            # Missing </parameter>, </function>, </tool_call>
+        ]
+
+        accumulated_calls = []
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, tools=self.tools)
+            accumulated_calls.extend(result.calls)
+
+        # Should not have any complete calls yet
+        self.assertEqual(len(accumulated_calls), 0)
+
+        # Now complete it
+        result = self.detector.parse_streaming_increment(
+            "\n</parameter>\n</function>\n</tool_call>", tools=self.tools
+        )
+        self.assertEqual(len(result.calls), 1)
+        self.assertEqual(result.calls[0].name, "get_current_weather")
+
+    def test_edge_case_no_parameters(self):
+        """Test tool call without parameters."""
+        model_output = """<tool_call>
+<function=get_current_weather>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+        self.assertEqual(len(result.calls), 1)
+        self.assertEqual(result.calls[0].name, "get_current_weather")
+        self.assertEqual(json.loads(result.calls[0].parameters), {})
+
+    def test_edge_case_special_chars_in_value(self):
+        """Test parameter with special characters in value."""
+        model_output = """<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Dallas->TX
+</parameter>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+        self.assertEqual(len(result.calls), 1)
+
+        params = json.loads(result.calls[0].parameters)
+        self.assertEqual(params["city"], "Dallas->TX")
+
+    def test_extract_tool_calls_fallback_no_tags(self):
+        """Test fallback parsing when XML tags are missing (just function without tool_call wrapper)."""
+        model_output = """<function=get_current_weather>
+<parameter=city>
+Dallas
+</parameter>
+<parameter=state>
+TX
+</parameter>
+</function>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=self.tools)
+
+        self.assertIsNotNone(result)
+
+    def test_extract_tool_calls_type_conversion(self):
+        """Test parameter type conversion based on tool schema."""
+        test_tool = Tool(
+            type="function",
+            function=Function(
+                name="test_types",
+                parameters={
+                    "type": "object",
+                    "properties": {
+                        "int_param": {"type": "integer"},
+                        "float_param": {"type": "float"},
+                        "bool_param": {"type": "boolean"},
+                        "str_param": {"type": "string"},
+                        "obj_param": {"type": "object"},
+                    },
+                },
+            ),
+        )
+
+        model_output = """<tool_call>
+<function=test_types>
+<parameter=int_param>
+42
+</parameter>
+<parameter=float_param>
+3.14
+</parameter>
+<parameter=bool_param>
+true
+</parameter>
+<parameter=str_param>
+hello world
+</parameter>
+<parameter=obj_param>
+{"key": "value"}
+</parameter>
+</function>
+</tool_call>"""
+
+        result = self.detector.detect_and_parse(model_output, tools=[test_tool])
+
+        self.assertEqual(len(result.calls), 1)
+        params = json.loads(result.calls[0].parameters)
+        self.assertEqual(params["int_param"], 42)
+        self.assertEqual(params["float_param"], 3.14)
+        self.assertEqual(params["bool_param"], True)
+        self.assertEqual(params["str_param"], "hello world")
+        self.assertEqual(params["obj_param"], {"key": "value"})
+
+    def test_parse_streaming_incremental(self):
+        """Test that streaming is truly incremental with very small chunks."""
+        model_output = """I'll check the weather.<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Dallas
+</parameter>
+<parameter=state>
+TX
+</parameter>
+</function>
+</tool_call>"""
+
+        # Simulate more realistic token-based chunks where <tool_call> is a single token
+        chunks = [
+            "I'll check the weather.",
+            "<tool_call>",
+            "\n<function=get_current_weather>\n",
+            "<parameter=city>\n",
+            "Dallas\n",
+            "</parameter>\n",
+            "<parameter=state>\n",
+            "TX\n",
+            "</parameter>\n",
+            "</function>\n",
+            "</tool_call>",
+        ]
+
+        accumulated_text = ""
+        accumulated_calls = []
+        chunks_count = 0
+
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, tools=self.tools)
+            accumulated_text += result.normal_text
+            accumulated_calls.extend(result.calls)
+            chunks_count += 1
+
+        self.assertGreater(chunks_count, 3)
+
+        # Verify the accumulated results
+        self.assertIn("I'll check the weather.", accumulated_text)
+        self.assertEqual(len(accumulated_calls), 1)
+        self.assertEqual(accumulated_calls[0].name, "get_current_weather")
+
+        params = json.loads(accumulated_calls[0].parameters)
+        self.assertEqual(params["city"], "Dallas")
+        self.assertEqual(params["state"], "TX")
+
+    def test_parse_streaming_multiple_tools(self):
+        """Test streaming with multiple tool calls."""
+        model_output = """<tool_call>
+<function=get_current_weather>
+<parameter=city>
+Dallas
+</parameter>
+<parameter=state>
+TX
+</parameter>
+</function>
+</tool_call>
+Some text in between.
+<tool_call>
+<function=calculate_area>
+<parameter=shape>
+circle
+</parameter>
+<parameter=dimensions>
+{"radius": 5}
+</parameter>
+</function>
+</tool_call>"""
+
+        # Simulate streaming by chunks
+        chunk_size = 20
+        chunks = [
+            model_output[i : i + chunk_size]
+            for i in range(0, len(model_output), chunk_size)
+        ]
+
+        accumulated_text = ""
+        accumulated_calls = []
+
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, tools=self.tools)
+            accumulated_text += result.normal_text
+            accumulated_calls.extend(result.calls)
+
+        self.assertIn("Some text in between.", accumulated_text)
+        self.assertEqual(len(accumulated_calls), 2)
+        self.assertEqual(accumulated_calls[0].name, "get_current_weather")
+        self.assertEqual(accumulated_calls[1].name, "calculate_area")
+
+        # Verify parameters
+        params1 = json.loads(accumulated_calls[0].parameters)
+        self.assertEqual(params1["city"], "Dallas")
+
+        params2 = json.loads(accumulated_calls[1].parameters)
+        self.assertEqual(params2["shape"], "circle")
+        self.assertEqual(params2["dimensions"], {"radius": 5})
+
+
 if __name__ == "__main__":
     unittest.main()

From ed2e313eb667708be3202e0719f9a5d4a48e0d59 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Fri, 25 Jul 2025 14:14:51 -0700
Subject: [PATCH 133/396] Clean up server_args, triton cache manager (#8332)

---
 python/sglang/srt/entrypoints/engine.py       |   6 -
 python/sglang/srt/entrypoints/http_server.py  |  52 ++++-----
 python/sglang/srt/layers/moe/topk.py          |   7 +-
 python/sglang/srt/managers/scheduler.py       |  11 +-
 .../srt/model_executor/forward_batch_info.py  |  15 +--
 .../sglang/srt/model_executor/model_runner.py |   1 -
 python/sglang/srt/server_args.py              | 108 ++++++++++--------
 .../eagle_draft_cuda_graph_runner.py          |   1 -
 python/sglang/srt/utils.py                    |  65 -----------
 test/srt/test_deepep_large.py                 |   2 +-
 test/srt/test_deepep_small.py                 |   4 +-
 test/srt/test_hybrid_dp_ep_tp_mtp.py          |  60 +++++-----
 12 files changed, 128 insertions(+), 204 deletions(-)

diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index fd59624bcb56..578f7193cc02 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -71,7 +71,6 @@
     is_cuda,
     kill_process_tree,
     launch_dummy_health_check_server,
-    maybe_set_triton_cache_manager,
     prepare_model_and_tokenizer,
     set_prometheus_multiproc_dir,
     set_ulimit,
@@ -637,11 +636,6 @@ def _set_envs_and_config(server_args: ServerArgs):
     # Set ulimit
     set_ulimit()
 
-    # Fix triton bugs
-    if server_args.tp_size * server_args.dp_size > 1:
-        # FIXME: remove this after https://github.com/triton-lang/triton/pull/4295 is used as a dependency.
-        maybe_set_triton_cache_manager()
-
     # Check flashinfer version
     if server_args.attention_backend == "flashinfer":
         assert_pkg_version(
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index 43819e1a65e4..e2ce86847cd0 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -107,6 +107,8 @@
 logger = logging.getLogger(__name__)
 asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
 
+HEALTH_CHECK_TIMEOUT = int(os.getenv("SGLANG_HEALTH_CHECK_TIMEOUT", 20))
+
 
 # Store global states
 @dataclasses.dataclass
@@ -212,9 +214,6 @@ async def validate_json_request(raw_request: Request):
         )
 
 
-HEALTH_CHECK_TIMEOUT = int(os.getenv("SGLANG_HEALTH_CHECK_TIMEOUT", 20))
-
-
 ##### Native API endpoints #####
 
 
@@ -807,6 +806,24 @@ async def retrieve_model(model: str):
     )
 
 
+@app.post("/v1/score", dependencies=[Depends(validate_json_request)])
+async def v1_score_request(request: ScoringRequest, raw_request: Request):
+    """Endpoint for the decoder-only scoring API. See Engine.score() for detailed documentation."""
+    return await raw_request.app.state.openai_serving_score.handle_request(
+        request, raw_request
+    )
+
+
+@app.api_route(
+    "/v1/rerank", methods=["POST", "PUT"], dependencies=[Depends(validate_json_request)]
+)
+async def v1_rerank_request(request: V1RerankReqInput, raw_request: Request):
+    """Endpoint for reranking documents based on query relevance."""
+    return await raw_request.app.state.openai_serving_rerank.handle_request(
+        request, raw_request
+    )
+
+
 ## SageMaker API
 @app.get("/ping")
 async def sagemaker_health() -> Response:
@@ -852,24 +869,6 @@ async def vertex_generate(vertex_req: VertexGenerateReqInput, raw_request: Reque
     return ORJSONResponse({"predictions": ret})
 
 
-@app.post("/v1/score", dependencies=[Depends(validate_json_request)])
-async def v1_score_request(request: ScoringRequest, raw_request: Request):
-    """Endpoint for the decoder-only scoring API. See Engine.score() for detailed documentation."""
-    return await raw_request.app.state.openai_serving_score.handle_request(
-        request, raw_request
-    )
-
-
-@app.api_route(
-    "/v1/rerank", methods=["POST", "PUT"], dependencies=[Depends(validate_json_request)]
-)
-async def v1_rerank_request(request: V1RerankReqInput, raw_request: Request):
-    """Endpoint for reranking documents based on query relevance."""
-    return await raw_request.app.state.openai_serving_rerank.handle_request(
-        request, raw_request
-    )
-
-
 def _create_error_response(e):
     return ORJSONResponse(
         {"error": {"message": str(e)}}, status_code=HTTPStatus.BAD_REQUEST
@@ -916,15 +915,6 @@ def launch_server(
         add_prometheus_middleware(app)
         enable_func_timer()
 
-    image_token_text = None
-    if (
-        tokenizer_manager.image_token_id is not None
-        and not server_args.skip_tokenizer_init
-    ):
-        image_token_text = tokenizer_manager.tokenizer.decode(
-            [tokenizer_manager.image_token_id]
-        )
-
     # Send a warmup request - we will create the thread launch it
     # in the lifespan after all other warmups have fired.
     warmup_thread = threading.Thread(
@@ -932,7 +922,6 @@ def launch_server(
         args=(
             server_args,
             pipe_finish_writer,
-            image_token_text,
             launch_callback,
         ),
     )
@@ -1066,7 +1055,6 @@ def _execute_server_warmup(
 def _wait_and_warmup(
     server_args: ServerArgs,
     pipe_finish_writer: Optional[multiprocessing.connection.Connection],
-    image_token_text: str,
     launch_callback: Optional[Callable[[], None]] = None,
 ):
     if not server_args.skip_server_warmup:
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index ce00fb9c89c9..253c269b69df 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -15,7 +15,7 @@
 from __future__ import annotations
 
 import math
-from typing import TYPE_CHECKING, Callable, NamedTuple, Optional
+from typing import Callable, NamedTuple, Optional
 
 import torch
 import torch.nn.functional as F
@@ -39,10 +39,10 @@
 
 _is_cuda = is_cuda()
 _is_hip = is_hip()
-_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
-_is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
+_is_cpu_amx_available = cpu_has_amx_support()
 _is_npu = is_npu()
+_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
 
 if _is_cuda:
     from sgl_kernel import moe_fused_gate
@@ -54,7 +54,6 @@
         from aiter import biased_grouped_topk as aiter_biased_grouped_topk
     except ImportError:
         raise ImportError("aiter is required when SGLANG_USE_AITER is set to True")
-
 if _is_npu:
     import torch_npu
 
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index c3b5fc2e885f..9b7a8b7d9729 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -653,6 +653,9 @@ def init_memory_pool_and_cache(self):
             )
         )
 
+        embedding_cache_size = int(os.environ.get("SGLANG_VLM_CACHE_SIZE_MB", "100"))
+        init_embedding_cache(embedding_cache_size * 1024 * 1024)
+
     def init_profier(self):
         self.torch_profiler = None
         self.torch_profiler_output_dir: Optional[str] = None
@@ -2895,9 +2898,9 @@ def run_scheduler_process(
         prefix += f" PP{pp_rank}"
 
     # Config the process
-    kill_itself_when_parent_died()
     setproctitle.setproctitle(f"sglang::scheduler{prefix.replace(' ', '_')}")
     faulthandler.enable()
+    kill_itself_when_parent_died()
     parent_process = psutil.Process().parent()
 
     # [For Router] if env var "SGLANG_DP_RANK" exist, set dp_rank to the value of the env var
@@ -2912,10 +2915,6 @@ def run_scheduler_process(
     if get_bool_env_var("SGLANG_SET_CPU_AFFINITY"):
         set_gpu_proc_affinity(server_args.tp_size, server_args.nnodes, gpu_id)
 
-    embedding_cache_size = 100
-    if "SGLANG_VLM_CACHE_SIZE_MB" in os.environ:
-        embedding_cache_size = int(os.environ["SGLANG_VLM_CACHE_SIZE_MB"])
-    init_embedding_cache(embedding_cache_size * 1024 * 1024)
     # Create a scheduler and run the event loop
     try:
         scheduler = Scheduler(server_args, port_args, gpu_id, tp_rank, pp_rank, dp_rank)
@@ -2926,8 +2925,8 @@ def run_scheduler_process(
                 "max_req_input_len": scheduler.max_req_input_len,
             }
         )
-        disaggregation_mode: DisaggregationMode = scheduler.disaggregation_mode
 
+        disaggregation_mode: DisaggregationMode = scheduler.disaggregation_mode
         if disaggregation_mode == DisaggregationMode.NULL:
             if server_args.pp_size > 1:
                 scheduler.event_loop_pp()
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index d6850aabd8be..8f278e5231fe 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -74,8 +74,6 @@ class ForwardMode(IntEnum):
     MIXED = auto()
     # No sequence to forward. For data parallel attention, some workers will be IDLE if no sequence are allocated.
     IDLE = auto()
-    # Split Prefill for PD multiplexing
-    SPLIT_PREFILL = auto()
 
     # Used in speculative decoding: verify a batch in the target model.
     TARGET_VERIFY = auto()
@@ -86,6 +84,9 @@ class ForwardMode(IntEnum):
     # It is now used for triggering the sampling_info_done event for the first prefill batch.
     DUMMY_FIRST = auto()
 
+    # Split Prefill for PD multiplexing
+    SPLIT_PREFILL = auto()
+
     def is_prefill(self):
         return self.is_extend()
 
@@ -103,12 +104,12 @@ def is_decode(self):
     def is_mixed(self):
         return self == ForwardMode.MIXED
 
-    def is_split_prefill(self):
-        return self == ForwardMode.SPLIT_PREFILL
-
     def is_idle(self):
         return self == ForwardMode.IDLE
 
+    def is_decode_or_idle(self):
+        return self == ForwardMode.DECODE or self == ForwardMode.IDLE
+
     def is_target_verify(self):
         return self == ForwardMode.TARGET_VERIFY
 
@@ -132,8 +133,8 @@ def is_cuda_graph(self):
     def is_dummy_first(self):
         return self == ForwardMode.DUMMY_FIRST
 
-    def is_decode_or_idle(self):
-        return self == ForwardMode.DECODE or self == ForwardMode.IDLE
+    def is_split_prefill(self):
+        return self == ForwardMode.SPLIT_PREFILL
 
 
 @total_ordering
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 3d3be71f1b82..fbb08077ced2 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -109,7 +109,6 @@
     get_bool_env_var,
     get_cpu_ids_by_node,
     init_custom_process_group,
-    is_cuda,
     is_fa3_default_architecture,
     is_flashinfer_available,
     is_hip,
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index b48cbf7253cb..107c63646bec 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -80,7 +80,7 @@ class ServerArgs:
     schedule_policy: str = "fcfs"
     schedule_conservativeness: float = 1.0
     cpu_offload_gb: int = 0
-    page_size: int = 1
+    page_size: Optional[int] = None
     hybrid_kvcache_ratio: Optional[float] = None
     swa_full_tokens_ratio: float = 0.8
     disable_hybrid_swa_memory: bool = False
@@ -266,31 +266,20 @@ class ServerArgs:
 
     def __post_init__(self):
         # Expert parallelism
+        # We put it here first due to some internal ckpt conversation issues.
         if self.enable_ep_moe:
             self.ep_size = self.tp_size
             logger.warning(
                 f"EP MoE is enabled. The expert parallel size is adjusted to be the same as the tensor parallel size[{self.tp_size}]."
             )
-        if self.enable_flashinfer_moe:
-            assert (
-                self.quantization == "modelopt_fp4"
-            ), "modelopt_fp4 quantization is required for Flashinfer MOE"
-            os.environ["TRTLLM_ENABLE_PDL"] = "1"
-            self.disable_shared_experts_fusion = True
-            logger.warning(
-                f"Flashinfer MoE is enabled. Shared expert fusion is disabled."
-            )
 
         # Set missing default values
         if self.tokenizer_path is None:
             self.tokenizer_path = self.model_path
-
-        if self.device is None:
-            self.device = get_device()
-
         if self.served_model_name is None:
             self.served_model_name = self.model_path
-
+        if self.device is None:
+            self.device = get_device()
         if self.random_seed is None:
             self.random_seed = random.randint(0, 1 << 30)
 
@@ -359,7 +348,6 @@ def __post_init__(self):
                     self.chunked_prefill_size = 16384
             else:
                 self.chunked_prefill_size = 4096
-        assert self.chunked_prefill_size % self.page_size == 0
 
         # Set cuda graph max batch size
         if self.cuda_graph_max_bs is None:
@@ -410,6 +398,14 @@ def __post_init__(self):
             )
             self.page_size = 128
 
+        # Set page size
+        if self.page_size is None:
+            self.page_size = 1
+
+        # AMD-specific Triton attention KV splits default number
+        if is_hip():
+            self.triton_attention_num_kv_splits = 16
+
         # Choose grammar backend
         if self.grammar_backend is None:
             self.grammar_backend = "xgrammar"
@@ -431,6 +427,17 @@ def __post_init__(self):
                 self.enable_dp_attention
             ), "Please enable dp attention when setting enable_dp_lm_head. "
 
+        # MoE kernel
+        if self.enable_flashinfer_moe:
+            assert (
+                self.quantization == "modelopt_fp4"
+            ), "modelopt_fp4 quantization is required for Flashinfer MOE"
+            os.environ["TRTLLM_ENABLE_PDL"] = "1"
+            self.disable_shared_experts_fusion = True
+            logger.warning(
+                f"Flashinfer MoE is enabled. Shared expert fusion is disabled."
+            )
+
         # DeepEP MoE
         if self.enable_deepep_moe:
             if self.deepep_mode == "normal":
@@ -502,14 +509,6 @@ def __post_init__(self):
                     logger.warning(
                         "DeepSeek MTP does not require setting speculative_draft_model_path."
                     )
-            elif "Llama4" in model_arch:
-                # TODO: remove this after Llama4 supports in other backends
-                if self.attention_backend != "fa3":
-                    self.attention_backend = "fa3"
-                    logger.warning(
-                        "Llama4 requires using fa3 attention backend. "
-                        "Attention backend is automatically set to fa3."
-                    )
 
             # Auto choose parameters
             if self.speculative_num_steps is None:
@@ -542,12 +541,11 @@ def __post_init__(self):
         ) and check_gguf_file(self.model_path):
             self.quantization = self.load_format = "gguf"
 
+        # Model loading
         if is_remote_url(self.model_path):
             self.load_format = "remote"
-
-        # AMD-specific Triton attention KV splits default number
-        if is_hip():
-            self.triton_attention_num_kv_splits = 16
+        if self.custom_weight_loader is None:
+            self.custom_weight_loader = []
 
         # PD disaggregation
         if self.disaggregation_mode == "decode":
@@ -572,6 +570,7 @@ def __post_init__(self):
             self.disable_cuda_graph = True
             logger.warning("Cuda graph is disabled for prefill server")
 
+        # Propagate env vars
         os.environ["SGLANG_ENABLE_TORCH_COMPILE"] = (
             "1" if self.enable_torch_compile else "0"
         )
@@ -580,9 +579,6 @@ def __post_init__(self):
             "1" if self.disable_outlines_disk_cache else "0"
         )
 
-        if self.custom_weight_loader is None:
-            self.custom_weight_loader = []
-
     @staticmethod
     def add_cli_args(parser: argparse.ArgumentParser):
         # Model and tokenizer
@@ -1227,6 +1223,13 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.grammar_backend,
             help="Choose the backend for grammar-guided decoding.",
         )
+        parser.add_argument(
+            "--mm-attention-backend",
+            type=str,
+            choices=["sdpa", "fa3", "triton_attn"],
+            default=ServerArgs.mm_attention_backend,
+            help="Set multimodal attention backend.",
+        )
 
         # Speculative decoding
         parser.add_argument(
@@ -1276,13 +1279,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="The path of the draft model's small vocab table.",
             default=ServerArgs.speculative_token_map,
         )
-        parser.add_argument(
-            "--mm-attention-backend",
-            type=str,
-            choices=["sdpa", "fa3", "triton_attn"],
-            default=ServerArgs.mm_attention_backend,
-            help="Set multimodal attention backend.",
-        )
 
         # Expert parallelism
         parser.add_argument(
@@ -1530,11 +1526,6 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Disable the overlap scheduler, which overlaps the CPU scheduler with GPU model worker.",
         )
-        parser.add_argument(
-            "--disable-overlap-cg-plan",
-            action="store_true",
-            help="Disable the overlap optimization for cudagraph preparation in eagle verify.",
-        )
         parser.add_argument(
             "--enable-mixed-chunk",
             action="store_true",
@@ -1792,11 +1783,11 @@ def get_hf_config(self):
         return hf_config
 
     def check_server_args(self):
+        # Check parallel size constraints
         assert (
             self.tp_size * self.pp_size
         ) % self.nnodes == 0, "tp_size must be divisible by number of nodes"
 
-        # FIXME pp constraints
         if self.pp_size > 1:
             assert (
                 self.disable_overlap_schedule
@@ -1807,11 +1798,7 @@ def check_server_args(self):
         assert not (
             self.dp_size > 1 and self.nnodes != 1 and not self.enable_dp_attention
         ), "multi-node data parallel is not supported unless dp attention!"
-        assert (
-            self.max_loras_per_batch > 0
-            # FIXME
-            and (self.lora_paths is None or self.disable_radix_cache)
-        ), "compatibility of lora and radix attention is in progress"
+
         assert self.base_gpu_id >= 0, "base_gpu_id must be non-negative"
         assert self.gpu_id_step >= 1, "gpu_id_step must be positive"
 
@@ -1820,9 +1807,32 @@ def check_server_args(self):
             None,
         }, "moe_dense_tp_size only support 1 and None currently"
 
+        # Check model architecture
+        model_arch = self.get_hf_config().architectures[0]
+        if "Llama4" in model_arch:
+            assert self.attention_backend == "fa3", "fa3 is required for Llama4 model"
+
+        # Check LoRA
         self.check_lora_server_args()
 
+        # Check speculative decoding
+        if self.speculative_algorithm is not None:
+            assert (
+                not self.enable_mixed_chunk
+            ), "enable_mixed_chunk is required for speculative decoding"
+
+        # Check chunked prefill
+        assert (
+            self.chunked_prefill_size % self.page_size == 0
+        ), "chunked_prefill_size must be divisible by page_size"
+
     def check_lora_server_args(self):
+        assert (
+            self.max_loras_per_batch > 0
+            # FIXME
+            and (self.lora_paths is None or self.disable_radix_cache)
+        ), "compatibility of lora and radix attention is in progress"
+
         # Enable LoRA if any LoRA paths are provided for backward compatibility.
         if self.lora_paths:
             if self.enable_lora is None:
diff --git a/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py b/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py
index 2c8cdf255e4e..8cc324158b77 100644
--- a/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py
+++ b/python/sglang/srt/speculative/eagle_draft_cuda_graph_runner.py
@@ -336,7 +336,6 @@ def replay(self, forward_batch: ForwardBatch):
             forward_batch.req_pool_indices = self.req_pool_indices[:bs]
             forward_batch.positions = self.positions[:num_tokens]
 
-        # Special handle for seq_len_cpu used when flashinfer mla is used
         if forward_batch.seq_lens_cpu is not None:
             if bs != raw_bs:
                 self.seq_lens_cpu.fill_(self.seq_len_fill_value)
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 52a1e20b8b46..db45a3580990 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -937,71 +937,6 @@ def get_quant_method_with_embedding_replaced(
     setattr(GGUFConfig, "get_quant_method", get_quant_method_with_embedding_replaced)
 
 
-def maybe_set_triton_cache_manager() -> None:
-    """Set environment variable to tell Triton to use a
-    custom cache manager"""
-    cache_manger = os.environ.get("TRITON_CACHE_MANAGER", None)
-    if cache_manger is None:
-        manager = "sglang.srt.utils:CustomCacheManager"
-        logger.debug("Setting Triton cache manager to: %s", manager)
-        os.environ["TRITON_CACHE_MANAGER"] = manager
-
-
-class CustomCacheManager(FileCacheManager):
-    # Adapted from: https://github.com/tdoublep/vllm/blob/3307522289fdfefe323b6c00d0db696651989a2f/vllm/triton_utils/custom_cache_manager.py
-    def __init__(self, key, override=False, dump=False):
-        from sglang.srt.distributed.parallel_state import get_tp_group
-
-        self.key = key
-        self.lock_path = None
-
-        try:
-            module_path = "triton.runtime.cache"
-            cache_module = importlib.import_module(module_path)
-
-            default_cache_dir = getattr(cache_module, "default_cache_dir", None)
-            default_dump_dir = getattr(cache_module, "default_dump_dir", None)
-            default_override_dir = getattr(cache_module, "default_override_dir", None)
-        except (ModuleNotFoundError, AttributeError) as e:
-            default_cache_dir = None
-            default_dump_dir = None
-            default_override_dir = None
-
-        if dump:
-            self.cache_dir = (
-                default_dump_dir()
-                if default_dump_dir is not None
-                else os.path.join(Path.home(), ".triton", "dump")
-            )
-            self.cache_dir = os.path.join(self.cache_dir, self.key)
-            self.lock_path = os.path.join(self.cache_dir, "lock")
-            os.makedirs(self.cache_dir, exist_ok=True)
-        elif override:
-            self.cache_dir = (
-                default_override_dir()
-                if default_override_dir is not None
-                else os.path.join(Path.home(), ".triton", "override")
-            )
-            self.cache_dir = os.path.join(self.cache_dir, self.key)
-        else:
-            # create cache directory if it doesn't exist
-            self.cache_dir = os.getenv("TRITON_CACHE_DIR", "").strip() or (
-                default_cache_dir()
-                if default_cache_dir is not None
-                else os.path.join(Path.home(), ".triton", "cache")
-            )
-            if self.cache_dir:
-                try:
-                    self.cache_dir = f"{self.cache_dir}_{get_tp_group().local_rank}"
-                except:
-                    self.cache_dir = f"{self.cache_dir}_{os.getpid()}"
-                self.cache_dir = os.path.join(self.cache_dir, self.key)
-                self.lock_path = os.path.join(self.cache_dir, "lock")
-                os.makedirs(self.cache_dir, exist_ok=True)
-            else:
-                raise RuntimeError("Could not create or locate cache dir")
-
-
 def set_ulimit(target_soft_limit=65535):
     # number of open files
     resource_type = resource.RLIMIT_NOFILE
diff --git a/test/srt/test_deepep_large.py b/test/srt/test_deepep_large.py
index 703eb7789316..9492f093a829 100644
--- a/test/srt/test_deepep_large.py
+++ b/test/srt/test_deepep_large.py
@@ -101,7 +101,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "512",
                 "--speculative-algorithm",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-num-steps",
                 "1",
                 "--speculative-eagle-topk",
diff --git a/test/srt/test_deepep_small.py b/test/srt/test_deepep_small.py
index 0f6ccb9553b4..0c5931a8d77a 100644
--- a/test/srt/test_deepep_small.py
+++ b/test/srt/test_deepep_small.py
@@ -261,7 +261,7 @@ def setUpClass(cls):
                 "--enable-dp-lm-head",
                 "--enable-deepep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 DEFAULT_MODEL_NAME_FOR_TEST_MLA_NEXTN,
                 "--speculative-num-steps",
@@ -329,7 +329,7 @@ def setUpClass(cls):
                 "--enable-deepep-moe",
                 "--trust-remote-code",
                 "--speculative-algorithm",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-num-steps",
                 "2",
                 "--speculative-eagle-topk",
diff --git a/test/srt/test_hybrid_dp_ep_tp_mtp.py b/test/srt/test_hybrid_dp_ep_tp_mtp.py
index 74363649a1f1..15fa98f727fc 100644
--- a/test/srt/test_hybrid_dp_ep_tp_mtp.py
+++ b/test/srt/test_hybrid_dp_ep_tp_mtp.py
@@ -1224,7 +1224,7 @@ def setUpClass(cls):
                 "--tp",
                 "8",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1271,7 +1271,7 @@ def setUpClass(cls):
                 "--dp",
                 "4",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1318,7 +1318,7 @@ def setUpClass(cls):
                 "--dp",
                 "8",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1364,7 +1364,7 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1413,7 +1413,7 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1462,7 +1462,7 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1510,7 +1510,7 @@ def setUpClass(cls):
                 "4",
                 "--enable-dp-lm-head",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1558,7 +1558,7 @@ def setUpClass(cls):
                 "8",
                 "--enable-dp-lm-head",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1608,7 +1608,7 @@ def setUpClass(cls):
                 "1",
                 "--enable-dp-lm-head",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1658,7 +1658,7 @@ def setUpClass(cls):
                 "1",
                 "--enable-dp-lm-head",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1709,7 +1709,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1763,7 +1763,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1817,7 +1817,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1870,7 +1870,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1926,7 +1926,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -1982,7 +1982,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2037,7 +2037,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2092,7 +2092,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2149,7 +2149,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2206,7 +2206,7 @@ def setUpClass(cls):
                 "--max-running-requests",
                 "32",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2251,7 +2251,7 @@ def setUpClass(cls):
                 "8",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2299,7 +2299,7 @@ def setUpClass(cls):
                 "4",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2347,7 +2347,7 @@ def setUpClass(cls):
                 "8",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2394,7 +2394,7 @@ def setUpClass(cls):
                 "1",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2444,7 +2444,7 @@ def setUpClass(cls):
                 "1",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2494,7 +2494,7 @@ def setUpClass(cls):
                 "1",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2543,7 +2543,7 @@ def setUpClass(cls):
                 "--enable-dp-lm-head",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2592,7 +2592,7 @@ def setUpClass(cls):
                 "--enable-dp-lm-head",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2643,7 +2643,7 @@ def setUpClass(cls):
                 "--enable-dp-lm-head",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",
@@ -2694,7 +2694,7 @@ def setUpClass(cls):
                 "--enable-dp-lm-head",
                 "--enable-ep-moe",
                 "--speculative-algo",
-                "NEXTN",
+                "EAGLE",
                 "--speculative-draft",
                 "lmsys/DeepSeek-V3-0324-NextN",
                 "--speculative-num-steps",

From 7181ec8cfcc30a588967cb9272dd8ddc9685978b Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Fri, 25 Jul 2025 14:59:02 -0700
Subject: [PATCH 134/396] fix: upgrade nccl version (#8359)

---
 docker/Dockerfile | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index ad2d196861ef..1e3872c9e76e 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -58,8 +58,8 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
       *) echo "Unsupported CUDA version: $CUDA_VERSION" && exit 1 ;; \
     esac \
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
+ && python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
-      python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps ; \
       python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.7/sgl_kernel-0.2.7+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 

From d8ee15643bf3190d760a2c0e12620f677ceaf0dd Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Fri, 25 Jul 2025 14:59:42 -0700
Subject: [PATCH 135/396] [Feat] Add reasoning parser for
 Qwen/Qwen3-235B-A22B-Thinking-2507 (#8363)

---
 docs/backend/openai_api_completions.ipynb |  17 +++-
 docs/backend/separate_reasoning.ipynb     | 100 +++++++++++++++-------
 python/sglang/srt/reasoning_parser.py     |  50 ++++++++++-
 test/srt/test_reasoning_parser.py         |  98 ++++++++++++++++++++-
 4 files changed, 225 insertions(+), 40 deletions(-)

diff --git a/docs/backend/openai_api_completions.ipynb b/docs/backend/openai_api_completions.ipynb
index 29def290b46a..4ccb2197c7b8 100644
--- a/docs/backend/openai_api_completions.ipynb
+++ b/docs/backend/openai_api_completions.ipynb
@@ -97,14 +97,23 @@
     "\n",
     "#### Enabling Model Thinking/Reasoning\n",
     "\n",
-    "You can use `chat_template_kwargs` to enable or disable the model's internal thinking or reasoning process output. Set `\"enable_thinking\": True` within `chat_template_kwargs` to include the reasoning steps in the response. This requires launching the server with a compatible reasoning parser (e.g., `--reasoning-parser qwen3` for Qwen3 models).\n",
+    "You can use `chat_template_kwargs` to enable or disable the model's internal thinking or reasoning process output. Set `\"enable_thinking\": True` within `chat_template_kwargs` to include the reasoning steps in the response. This requires launching the server with a compatible reasoning parser.\n",
+    "\n",
+    "**Reasoning Parser Options:**\n",
+    "- `--reasoning-parser deepseek-r1`: For DeepSeek-R1 family models (R1, R1-0528, R1-Distill)\n",
+    "- `--reasoning-parser qwen3`: For standard Qwen3 models that support `enable_thinking` parameter\n",
+    "- `--reasoning-parser qwen3-thinking`: For Qwen3-Thinking models (e.g., Qwen/Qwen3-235B-A22B-Thinking-2507) that always generate thinking content\n",
+    "- `--reasoning-parser kimi`: For Kimi thinking models\n",
     "\n",
     "Here's an example demonstrating how to enable thinking and retrieve the reasoning content separately (using `separate_reasoning: True`):\n",
     "\n",
     "```python\n",
-    "# Ensure the server is launched with a compatible reasoning parser, e.g.:\n",
+    "# For standard Qwen3 models with enable_thinking support:\n",
     "# python3 -m sglang.launch_server --model-path QwQ/Qwen3-32B-250415 --reasoning-parser qwen3 ...\n",
     "\n",
+    "# For Qwen3-Thinking models that always think:\n",
+    "# python3 -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --reasoning-parser qwen3-thinking ...\n",
+    "\n",
     "from openai import OpenAI\n",
     "\n",
     "# Modify OpenAI's API key and API base to use SGLang's API server.\n",
@@ -123,7 +132,7 @@
     "    model=model,\n",
     "    messages=messages,\n",
     "    extra_body={\n",
-    "        \"chat_template_kwargs\": {\"enable_thinking\": True},\n",
+    "        \"chat_template_kwargs\": {\"enable_thinking\": True}, # Only for standard Qwen3 models\n",
     "        \"separate_reasoning\": True\n",
     "    }\n",
     ")\n",
@@ -149,6 +158,8 @@
     "\n",
     "Setting `\"enable_thinking\": False` (or omitting it) will result in `reasoning_content` being `None`.\n",
     "\n",
+    "**Note for Qwen3-Thinking models:** These models always generate thinking content and do not support the `enable_thinking` parameter. When using `--reasoning-parser qwen3-thinking`, the model will always produce reasoning content regardless of the `enable_thinking` setting.\n",
+    "\n",
     "Here is an example of a detailed chat completion request using standard OpenAI parameters:"
    ]
   },
diff --git a/docs/backend/separate_reasoning.ipynb b/docs/backend/separate_reasoning.ipynb
index 50a91b8976fc..cd0ab23c4621 100644
--- a/docs/backend/separate_reasoning.ipynb
+++ b/docs/backend/separate_reasoning.ipynb
@@ -6,14 +6,27 @@
    "source": [
     "# Reasoning Parser\n",
     "\n",
-    "SGLang supports parsing reasoning content our from \"normal\" content for reasoning models such as [DeepSeek R1](https://huggingface.co/deepseek-ai/DeepSeek-R1).\n",
+    "SGLang supports parsing reasoning content out from \"normal\" content for reasoning models such as [DeepSeek R1](https://huggingface.co/deepseek-ai/DeepSeek-R1).\n",
     "\n",
     "## Supported Models & Parsers\n",
     "\n",
-    "| Model  |  Reasoning tags      | Parser |\n",
-    "|---------|-----------------------------|------------------|\n",
-    "| [DeepSeek‑R1 series](https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d) | `<think>` … `</think>` | `deepseek-r1`    |\n",
-    "| [Qwen3 and QwQ series](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f)       | `<think>` … `</think>` | `qwen3`          |"
+    "| Model  |  Reasoning tags      | Parser | Notes |\n",
+    "|---------|-----------------------------|------------------|-------|\n",
+    "| [DeepSeek‑R1 series](https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d) | `<think>` … `</think>` | `deepseek-r1` | Supports all variants (R1, R1-0528, R1-Distill) |\n",
+    "| [Standard Qwen3 models](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f) | `<think>` … `</think>` | `qwen3` | Supports `enable_thinking` parameter |\n",
+    "| [Qwen3-Thinking models](https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507) | `<think>` … `</think>` | `qwen3-thinking` | Always generates thinking content |\n",
+    "| [Kimi models](https://huggingface.co/collections/MoonshotAI/kimi-675e30c072b7ba7e79833be7) | `◁think▷` … `◁/think▷` | `kimi` | Uses special thinking delimiters |\n",
+    "\n",
+    "### Model-Specific Behaviors\n",
+    "\n",
+    "**DeepSeek-R1 Family:**\n",
+    "- DeepSeek-R1: No `<think>` start tag, jumps directly to thinking content\n",
+    "- DeepSeek-R1-0528: Generates both `<think>` start and `</think>` end tags\n",
+    "- Both are handled by the same `deepseek-r1` parser\n",
+    "\n",
+    "**Qwen3 Family:**\n",
+    "- Standard Qwen3 (e.g., Qwen3-2507): Use `qwen3` parser, supports `enable_thinking` in chat templates\n",
+    "- Qwen3-Thinking (e.g., Qwen3-235B-A22B-Thinking-2507): Use `qwen3-thinking` parser, always thinks"
    ]
   },
   {
@@ -353,36 +366,61 @@
     "```python\n",
     "class DeepSeekR1Detector(BaseReasoningFormatDetector):\n",
     "    \"\"\"\n",
-    "    Detector for DeepSeek-R1 model.\n",
-    "    Assumes reasoning format:\n",
-    "      (<think>)*(.*)</think>\n",
-    "    Returns all the text before the </think> tag as `reasoning_text`\n",
-    "    and the rest of the text as `normal_text`.\n",
-    "\n",
-    "    Args:\n",
-    "        stream_reasoning (bool): If False, accumulates reasoning content until the end tag.\n",
-    "            If True, streams reasoning content as it arrives.\n",
+    "    Detector for DeepSeek-R1 family models.\n",
+    "    \n",
+    "    Supported models:\n",
+    "      - DeepSeek-R1: Always generates thinking content without <think> start tag\n",
+    "      - DeepSeek-R1-0528: Generates thinking content with <think> start tag\n",
+    "    \n",
+    "    This detector handles both patterns automatically.\n",
     "    \"\"\"\n",
     "\n",
-    "    def __init__(self, stream_reasoning: bool = False):\n",
-    "        # DeepSeek-R1 is assumed to be reasoning until `</think>` token\n",
-    "        super().__init__(\"<think>\", \"</think>\", True, stream_reasoning=stream_reasoning)\n",
-    "        # https://github.com/sgl-project/sglang/pull/3202#discussion_r1950153599\n",
+    "    def __init__(self, stream_reasoning: bool = True):\n",
+    "        super().__init__(\"<think>\", \"</think>\", force_reasoning=True, stream_reasoning=stream_reasoning)\n",
     "\n",
     "\n",
-    "class ReasoningParser:\n",
+    "class Qwen3Detector(BaseReasoningFormatDetector):\n",
+    "    \"\"\"\n",
+    "    Detector for standard Qwen3 models that support enable_thinking parameter.\n",
+    "    \n",
+    "    These models can switch between thinking and non-thinking modes:\n",
+    "      - enable_thinking=True: Generates <think>...</think> tags\n",
+    "      - enable_thinking=False: No thinking content generated\n",
+    "    \"\"\"\n",
+    "\n",
+    "    def __init__(self, stream_reasoning: bool = True):\n",
+    "        super().__init__(\"<think>\", \"</think>\", force_reasoning=False, stream_reasoning=stream_reasoning)\n",
+    "\n",
+    "\n",
+    "class Qwen3ThinkingDetector(BaseReasoningFormatDetector):\n",
     "    \"\"\"\n",
-    "    Parser that handles both streaming and non-streaming scenarios for extracting\n",
-    "    reasoning content from model outputs.\n",
+    "    Detector for Qwen3-Thinking models (e.g., Qwen3-235B-A22B-Thinking-2507).\n",
+    "    \n",
+    "    These models always generate thinking content without <think> start tag.\n",
+    "    They do not support the enable_thinking parameter.\n",
+    "    \"\"\"\n",
+    "\n",
+    "    def __init__(self, stream_reasoning: bool = True):\n",
+    "        super().__init__(\"<think>\", \"</think>\", force_reasoning=True, stream_reasoning=stream_reasoning)\n",
     "\n",
-    "    Args:\n",
-    "        model_type (str): Type of model to parse reasoning from\n",
-    "        stream_reasoning (bool): If False, accumulates reasoning content until complete.\n",
-    "            If True, streams reasoning content as it arrives.\n",
+    "\n",
+    "class ReasoningParser:\n",
+    "    \"\"\"\n",
+    "    Parser that handles both streaming and non-streaming scenarios.\n",
+    "    \n",
+    "    Usage:\n",
+    "      # For standard Qwen3 models with enable_thinking support\n",
+    "      parser = ReasoningParser(\"qwen3\")\n",
+    "      \n",
+    "      # For Qwen3-Thinking models that always think\n",
+    "      parser = ReasoningParser(\"qwen3-thinking\")\n",
     "    \"\"\"\n",
     "\n",
-    "    DetectorMap: Dict[str, BaseReasoningFormatDetector] = {\n",
-    "        \"deepseek-r1\": DeepSeekR1Detector\n",
+    "    DetectorMap: Dict[str, Type[BaseReasoningFormatDetector]] = {\n",
+    "        \"deepseek-r1\": DeepSeekR1Detector,\n",
+    "        \"qwen3\": Qwen3Detector,\n",
+    "        \"qwen3-thinking\": Qwen3ThinkingDetector,\n",
+    "        \"kimi\": KimiDetector,\n",
     "    }\n",
     "\n",
     "    def __init__(self, model_type: str = None, stream_reasoning: bool = True):\n",
@@ -395,13 +433,13 @@
     "\n",
     "        self.detector = detector_class(stream_reasoning=stream_reasoning)\n",
     "\n",
-    "    def parse_non_stream(self, full_text: str) -> StreamingParseResult:\n",
-    "        \"\"\"Non-streaming call: one-time parsing\"\"\"\n",
+    "    def parse_non_stream(self, full_text: str) -> Tuple[str, str]:\n",
+    "        \"\"\"Returns (reasoning_text, normal_text)\"\"\"\n",
     "        ret = self.detector.detect_and_parse(full_text)\n",
     "        return ret.reasoning_text, ret.normal_text\n",
     "\n",
-    "    def parse_stream_chunk(self, chunk_text: str) -> StreamingParseResult:\n",
-    "        \"\"\"Streaming call: incremental parsing\"\"\"\n",
+    "    def parse_stream_chunk(self, chunk_text: str) -> Tuple[str, str]:\n",
+    "        \"\"\"Returns (reasoning_text, normal_text) for the current chunk\"\"\"\n",
     "        ret = self.detector.parse_streaming_increment(chunk_text)\n",
     "        return ret.reasoning_text, ret.normal_text\n",
     "```"
diff --git a/python/sglang/srt/reasoning_parser.py b/python/sglang/srt/reasoning_parser.py
index 9e18554f1a04..87915c5411d4 100644
--- a/python/sglang/srt/reasoning_parser.py
+++ b/python/sglang/srt/reasoning_parser.py
@@ -118,6 +118,14 @@ class DeepSeekR1Detector(BaseReasoningFormatDetector):
     Returns all the text before the </think> tag as `reasoning_text`
     and the rest of the text as `normal_text`.
 
+    Supported models:
+      - DeepSeek-R1: Always generates thinking content without <think> start tag
+      - DeepSeek-R1-0528: Generates thinking content with <think> start tag
+
+    Format patterns:
+      - DeepSeek-R1: "I need to think about this...</think>The answer is 42."
+      - DeepSeek-R1-0528: "<think>I need to think about this...</think>The answer is 42."
+
     Args:
         stream_reasoning (bool): If False, accumulates reasoning content until the end tag.
             If True, streams reasoning content as it arrives.
@@ -136,11 +144,20 @@ def __init__(self, stream_reasoning: bool = True):
 
 class Qwen3Detector(BaseReasoningFormatDetector):
     """
-    Detector for Qwen3 model.
+    Detector for standard Qwen3 models (e.g., Qwen/Qwen3-235B-A22B).
     Assumes reasoning format:
       (<think>)*(.*)</think>
-    Returns all the text before the </think> tag as `reasoning_text`
-    and the rest of the text as `normal_text`.
+
+    Qwen3 models released before 07/2025 supports switching between thinking mode and normal
+    mode using `enable_thinking` parameter in the request parameter.
+      - enable_thinking=True: "<think>reasoning content</think>The answer is 42."
+      - enable_thinking=False: "The answer is 42." (no thinking tokens)
+
+    This detector handles both cases.
+
+    NOTE: Do NOT use this detector for Qwen3-Thinking models (e.g., Qwen3-Thinking-2507).
+    Those models always generate thinking content without <think> start tags.
+    Use "qwen3-thinking" parser type for those models instead.
 
     Args:
         stream_reasoning (bool): If False, accumulates reasoning content until the end tag.
@@ -148,7 +165,6 @@ class Qwen3Detector(BaseReasoningFormatDetector):
     """
 
     def __init__(self, stream_reasoning: bool = True):
-        # Qwen3 won't be in reasoning mode when user passes `enable_thinking=False`
         super().__init__(
             "<think>",
             "</think>",
@@ -157,6 +173,31 @@ def __init__(self, stream_reasoning: bool = True):
         )
 
 
+class Qwen3ThinkingDetector(BaseReasoningFormatDetector):
+    """
+    Detector for Qwen3-Thinking models (e.g., Qwen3-Thinking-2507).
+    Assumes reasoning format:
+      *(.*)</think>
+
+    These models always generate thinking content without <think> start tag.
+    They do not support the enable_thinking parameter and always think.
+
+    Format: "I need to think about this...</think>The answer is 42."
+
+    Args:
+        stream_reasoning (bool): If False, accumulates reasoning content until the end tag.
+            If True, streams reasoning content as it arrives.
+    """
+
+    def __init__(self, stream_reasoning: bool = True):
+        super().__init__(
+            "<think>",
+            "</think>",
+            force_reasoning=True,
+            stream_reasoning=stream_reasoning,
+        )
+
+
 class KimiDetector(BaseReasoningFormatDetector):
     """
     Detector for Kimi Thinking model.
@@ -189,6 +230,7 @@ class ReasoningParser:
     DetectorMap: Dict[str, Type[BaseReasoningFormatDetector]] = {
         "deepseek-r1": DeepSeekR1Detector,
         "qwen3": Qwen3Detector,
+        "qwen3-thinking": Qwen3ThinkingDetector,
         "kimi": KimiDetector,
     }
 
diff --git a/test/srt/test_reasoning_parser.py b/test/srt/test_reasoning_parser.py
index e4200ed2385a..7f33591443e1 100644
--- a/test/srt/test_reasoning_parser.py
+++ b/test/srt/test_reasoning_parser.py
@@ -5,6 +5,7 @@
     DeepSeekR1Detector,
     KimiDetector,
     Qwen3Detector,
+    Qwen3ThinkingDetector,
     ReasoningParser,
     StreamingParseResult,
 )
@@ -180,6 +181,14 @@ def test_detect_and_parse_with_end_token(self):
         self.assertEqual(result.reasoning_text, "I think this is the answer")
         self.assertEqual(result.normal_text, "The final answer is 42.")
 
+    def test_detect_and_parse_with_start_token(self):
+        """Test parsing deepseek-ai/DeepSeek-R1-0528 format, which generates the <think> token."""
+        text = "<think>I need to think about this.</think>The answer is 42."
+        result = self.detector.detect_and_parse(text)
+        # Should be treated as reasoning because force_reasoning=True
+        self.assertEqual(result.reasoning_text, "I need to think about this.")
+        self.assertEqual(result.normal_text, "The answer is 42.")
+
 
 class TestQwen3Detector(CustomTestCase):
     def setUp(self):
@@ -207,6 +216,52 @@ def test_detect_and_parse_without_thinking(self):
         self.assertEqual(result.reasoning_text, "")
 
 
+class TestQwen3ThinkingDetector(CustomTestCase):
+    def setUp(self):
+        self.detector = Qwen3ThinkingDetector()
+
+    def test_init(self):
+        """Test Qwen3ThinkingDetector initialization."""
+        self.assertEqual(self.detector.think_start_token, "<think>")
+        self.assertEqual(self.detector.think_end_token, "</think>")
+        self.assertTrue(self.detector._in_reasoning)  # force_reasoning=True
+        self.assertTrue(self.detector.stream_reasoning)
+
+    def test_detect_and_parse_qwen3_thinking_format(self):
+        """Test parsing Qwen3-Thinking format (no <think> start tag)."""
+        text = "I need to think about this step by step.</think>The answer is 42."
+        result = self.detector.detect_and_parse(text)
+        self.assertEqual(
+            result.reasoning_text, "I need to think about this step by step."
+        )
+        self.assertEqual(result.normal_text, "The answer is 42.")
+
+    def test_detect_and_parse_with_start_token(self):
+        """Test parsing Qwen3-Thinking with optional <think> start tag."""
+        text = "<think>I need to think about this.</think>The answer is 42."
+        result = self.detector.detect_and_parse(text)
+        # Should work because base class logic handles both force_reasoning=True OR start token
+        self.assertEqual(result.reasoning_text, "I need to think about this.")
+        self.assertEqual(result.normal_text, "The answer is 42.")
+
+    def test_streaming_qwen3_thinking_format(self):
+        """Test streaming parse of Qwen3-Thinking format."""
+        # First chunk without <think> start
+        result = self.detector.parse_streaming_increment("I need to")
+        self.assertEqual(result.reasoning_text, "I need to")
+        self.assertEqual(result.normal_text, "")
+
+        # More reasoning content
+        result = self.detector.parse_streaming_increment(" think about this.")
+        self.assertEqual(result.reasoning_text, " think about this.")
+        self.assertEqual(result.normal_text, "")
+
+        # End token with normal text
+        result = self.detector.parse_streaming_increment("</think>The answer is 42.")
+        self.assertEqual(result.reasoning_text, "")  # Buffer cleared
+        self.assertEqual(result.normal_text, "The answer is 42.")
+
+
 class TestKimiDetector(CustomTestCase):
     def setUp(self):
         self.detector = KimiDetector()
@@ -265,6 +320,9 @@ def test_init_valid_model(self):
         parser = ReasoningParser("qwen3")
         self.assertIsInstance(parser.detector, Qwen3Detector)
 
+        parser = ReasoningParser("qwen3-thinking")
+        self.assertIsInstance(parser.detector, Qwen3ThinkingDetector)
+
         parser = ReasoningParser("kimi")
         self.assertIsInstance(parser.detector, KimiDetector)
 
@@ -312,11 +370,13 @@ def test_case_insensitive_model_type(self):
         """Test case insensitive model type matching."""
         parser1 = ReasoningParser("DeepSeek-R1")
         parser2 = ReasoningParser("QWEN3")
-        parser3 = ReasoningParser("Kimi")
+        parser3 = ReasoningParser("QWEN3-THINKING")
+        parser4 = ReasoningParser("Kimi")
 
         self.assertIsInstance(parser1.detector, DeepSeekR1Detector)
         self.assertIsInstance(parser2.detector, Qwen3Detector)
-        self.assertIsInstance(parser3.detector, KimiDetector)
+        self.assertIsInstance(parser3.detector, Qwen3ThinkingDetector)
+        self.assertIsInstance(parser4.detector, KimiDetector)
 
     def test_stream_reasoning_parameter(self):
         """Test stream_reasoning parameter is passed correctly."""
@@ -398,6 +458,40 @@ def test_empty_reasoning_blocks(self):
         self.assertEqual(reasoning, "")
         self.assertEqual(normal, "Just the answer.")
 
+    def test_qwen3_thinking_complete_response(self):
+        """Test complete Qwen3-Thinking response parsing."""
+        parser = ReasoningParser("qwen3-thinking")
+        text = "Let me solve this step by step. The equation is x + 2 = 5. Subtracting 2 from both sides gives x = 3.</think>The solution is x = 3."
+
+        reasoning, normal = parser.parse_non_stream(text)
+        self.assertIn("step by step", reasoning)
+        self.assertIn("x = 3", reasoning)
+        self.assertEqual(normal, "The solution is x = 3.")
+
+    def test_qwen3_thinking_streaming_scenario(self):
+        """Test Qwen3-Thinking streaming scenario."""
+        parser = ReasoningParser("qwen3-thinking")
+
+        chunks = [
+            "I need to analyze",
+            " this problem carefully.",
+            " Let me break it down.",
+            "</think>",
+            "The final answer is 42.",
+        ]
+
+        all_reasoning = ""
+        all_normal = ""
+
+        for chunk in chunks:
+            reasoning, normal = parser.parse_stream_chunk(chunk)
+            all_reasoning += reasoning
+            all_normal += normal
+
+        self.assertIn("analyze", all_reasoning)
+        self.assertIn("break it down", all_reasoning)
+        self.assertIn("final answer", all_normal)
+
 
 if __name__ == "__main__":
     unittest.main()

From f8ca2368b20d2f7eb378dce7f2e0056beb144c4b Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Fri, 25 Jul 2025 15:44:01 -0700
Subject: [PATCH 136/396] fix: kimi k2 xgrammar crash (#8367)

Co-authored-by: cicirori <32845984+cicirori@users.noreply.github.com>
Co-authored-by: gongwei-130 <56567052+gongwei-130@users.noreply.github.com>
---
 python/sglang/srt/managers/schedule_batch.py | 10 ++++++++++
 python/sglang/srt/managers/scheduler.py      |  7 +++++--
 2 files changed, 15 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index ea7cad98be90..ad8bcf11922d 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -431,6 +431,7 @@ def __init__(
         bootstrap_port: Optional[int] = None,
         bootstrap_room: Optional[int] = None,
         data_parallel_rank: Optional[int] = None,
+        vocab_size: Optional[int] = None,
     ):
         # Input and output info
         self.rid = rid
@@ -480,6 +481,7 @@ def __init__(
         self.to_abort_message: str = None
         self.stream = stream
         self.eos_token_ids = eos_token_ids
+        self.vocab_size = vocab_size
 
         # For incremental decoding
         # ----- | --------- read_ids -------|
@@ -713,6 +715,14 @@ def check_finished(self):
                 self.finished_reason = FINISH_MATCHED_TOKEN(matched=last_token_id)
                 return
 
+        if last_token_id > self.vocab_size or last_token_id < 0:
+            if self.sampling_params.stop_token_ids:
+                self.output_ids[-1] = next(iter(self.sampling_params.stop_token_ids))
+            if self.eos_token_ids:
+                self.output_ids[-1] = next(iter(self.eos_token_ids))
+            self.finished_reason = FINISH_MATCHED_STR(matched="NaN happened")
+            return
+
         # Check stop strings
         if len(self.sampling_params.stop_strs) > 0:
             tail_str = self.tokenizer.decode(
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 9b7a8b7d9729..f3eb20cad170 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1129,6 +1129,7 @@ def handle_generate_request(
                 bootstrap_port=recv_req.bootstrap_port,
                 bootstrap_room=recv_req.bootstrap_room,
                 data_parallel_rank=recv_req.data_parallel_rank,
+                vocab_size=self.model_config.vocab_size,
             )
             req.tokenizer = self.tokenizer
 
@@ -1395,8 +1396,10 @@ def log_prefill_stats(
         logger.info(f)
 
         if self.enable_metrics:
-            cache_hit_rate = adder.log_hit_tokens / (
-                adder.log_input_tokens + adder.log_hit_tokens
+            total_tokens = adder.log_input_tokens + adder.log_hit_tokens
+
+            cache_hit_rate = (
+                adder.log_hit_tokens / total_tokens if total_tokens > 0 else 0.0
             )
             self.stats.num_running_reqs = running_bs
             self.stats.num_used_tokens = num_used

From 58c468f4045e89981c9f02b6e46a2a49e0fc4b11 Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Fri, 25 Jul 2025 16:40:23 -0700
Subject: [PATCH 137/396] Fix FP4 MoE accuracy from missing
 routed_scaling_factor (#8333)

---
 .../sglang/srt/layers/quantization/modelopt_quant.py | 12 ++++++++----
 python/sglang/srt/server_args.py                     |  4 ----
 2 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 73de5b0d1594..9087f79b088c 100644
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -952,7 +952,6 @@ def apply(
         tp_rank: Optional[int] = None,
         tp_size: Optional[int] = None,
     ) -> torch.Tensor:
-
         assert activation == "silu", "Only SiLU activation is supported."
 
         if self.enable_flashinfer_moe:
@@ -982,13 +981,15 @@ def apply(
                 tp_size=tp_size,
                 tp_rank=tp_rank,
                 tune_max_num_tokens=next_power_of_2(x.shape[0]),
-            )
-            return output[0]
+            )[0]
+            if routed_scaling_factor is not None:
+                output *= routed_scaling_factor
+            return output
 
         from sglang.srt.layers.moe.cutlass_moe import cutlass_moe_fp4
 
         topk_weights, topk_ids, _ = topk_output
-        return cutlass_moe_fp4(
+        output = cutlass_moe_fp4(
             a=x,
             a1_gscale=layer.w13_input_scale_quant,
             w1_fp4=layer.w13_weight,
@@ -1003,3 +1004,6 @@ def apply(
             params=layer.cutlass_moe_params,
             apply_router_weight_on_input=apply_router_weight_on_input,
         ).to(x.dtype)
+        if routed_scaling_factor is not None:
+            output *= routed_scaling_factor
+        return output
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 107c63646bec..6fec17bc002e 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -433,10 +433,6 @@ def __post_init__(self):
                 self.quantization == "modelopt_fp4"
             ), "modelopt_fp4 quantization is required for Flashinfer MOE"
             os.environ["TRTLLM_ENABLE_PDL"] = "1"
-            self.disable_shared_experts_fusion = True
-            logger.warning(
-                f"Flashinfer MoE is enabled. Shared expert fusion is disabled."
-            )
 
         # DeepEP MoE
         if self.enable_deepep_moe:

From 3ec0b21229157cf5c2a9185e122d11162a727396 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Fri, 25 Jul 2025 16:41:56 -0700
Subject: [PATCH 138/396] [CI] Fix flaky threshold (#8370)

---
 test/srt/test_vllm_dependency.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/srt/test_vllm_dependency.py b/test/srt/test_vllm_dependency.py
index cd3e13167be0..b4451f3695ff 100644
--- a/test/srt/test_vllm_dependency.py
+++ b/test/srt/test_vllm_dependency.py
@@ -17,8 +17,8 @@
 )
 
 MODEL_SCORE_THRESHOLDS = {
-    "hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4": 0.83,
-    "hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4": 0.83,
+    "hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4": 0.825,
+    "hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4": 0.825,
     "hugging-quants/Mixtral-8x7B-Instruct-v0.1-AWQ-INT4": 0.62,
 }
 

From 2272c2a5b5025b3c7aae9291cbf3e5cb868556dd Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Fri, 25 Jul 2025 17:12:47 -0700
Subject: [PATCH 139/396] chore: bump v0.4.9.post4 (#8305)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index bb202fcf4924..d9d1c0629e22 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.9.post3"
+pip install "sglang[all]>=0.4.9.post4"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index 6b13b8150d11..82f0233dbe07 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post3-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post4-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post3-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post4-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index c64f3c148afe..b5f38dcb8c39 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.9.post3"
+uv pip install "sglang[all]>=0.4.9.post4"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.9.post3"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post3 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post4 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post3 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post4 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -74,7 +74,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.9.post3 -t v0.4.9.post3-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.9.post4 -t v0.4.9.post4-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -83,11 +83,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.9.post3-rocm630 \
+    v0.4.9.post4-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.9.post3-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.9.post4-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
diff --git a/python/pyproject.toml b/python/pyproject.toml
index 7a18ee94ddaf..3dfa9d258600 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.9.post3"
+version = "0.4.9.post4"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index d07dcd150de0..15bb2fa07b42 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.9.post3"
+__version__ = "0.4.9.post4"

From 8af145b7dcb2f4002fb35ca647f1803a8768262c Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Sat, 26 Jul 2025 09:30:12 +0800
Subject: [PATCH 140/396] Fix test_moe_fused_gate_combined sgl-kernel ci test
 (#8374)

---
 sgl-kernel/tests/test_moe_fused_gate.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/sgl-kernel/tests/test_moe_fused_gate.py b/sgl-kernel/tests/test_moe_fused_gate.py
index b08e0d97b23d..70c4ea209a1a 100644
--- a/sgl-kernel/tests/test_moe_fused_gate.py
+++ b/sgl-kernel/tests/test_moe_fused_gate.py
@@ -46,7 +46,6 @@ def test_moe_fused_gate_combined(seq_length, params, num_fused_shared_experts):
         renormalize=True,
         num_expert_group=num_expert_group,
         topk_group=topk_group,
-        compiled=False,
         num_fused_shared_experts=num_fused_shared_experts,
         routed_scaling_factor=2.5,
     )

From e6312d271d86c9665faaefd01b3dda5fb85cfee6 Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Sat, 26 Jul 2025 00:22:06 -0700
Subject: [PATCH 141/396] Uodate Dockerfile.gb200 to latest sglang (#8356)

---
 docker/Dockerfile.gb200 | 67 +++++++++++++++++------------------------
 1 file changed, 28 insertions(+), 39 deletions(-)

diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
index 614f22156fe3..3124c9822db5 100644
--- a/docker/Dockerfile.gb200
+++ b/docker/Dockerfile.gb200
@@ -2,6 +2,8 @@ ARG CUDA_VERSION=12.8.1
 FROM nvidia/cuda:${CUDA_VERSION}-cudnn-devel-ubuntu22.04
 
 ARG BUILD_TYPE=blackwell
+ARG DEEPEP_COMMIT=1b14ad661c7640137fcfe93cccb2694ede1220b0
+ARG CMAKE_BUILD_PARALLEL_LEVEL=2
 ENV DEBIAN_FRONTEND=noninteractive \
     CUDA_HOME=/usr/local/cuda \
     GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/ \
@@ -16,7 +18,7 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     tzdata \
     software-properties-common netcat-openbsd kmod unzip openssh-server \
     curl wget lsof zsh ccache tmux htop git-lfs tree \
-    python3 python3-pip python3-dev libpython3-dev \
+    python3 python3-pip python3-dev libpython3-dev python3-venv \
     build-essential cmake \
     libopenmpi-dev libnuma1 libnuma-dev \
     libibverbs-dev libibverbs1 libibumad3 \
@@ -36,13 +38,8 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
  && rm -rf /var/lib/apt/lists/* \
  && apt-get clean
 
-
-# --- Install SGLang missing package
-RUN pip install netifaces
-
-# --- Install nightly PyTorch ---
-RUN pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128 --force-reinstall
-
+# --- Install SGLang missing package for blackwell build type
+RUN python3 -m pip install openai httpx
 
 # GDRCopy installation
 RUN mkdir -p /tmp/gdrcopy && cd /tmp \
@@ -56,12 +53,12 @@ RUN mkdir -p /tmp/gdrcopy && cd /tmp \
 RUN ln -sf /usr/lib/$(uname -m)-linux-gnu/libmlx5.so.1 /usr/lib/$(uname -m)-linux-gnu/libmlx5.so
 
 # Clone and install SGLang
-# FIXME: Forcing SGLang to 2a2d3478afe8cdb336888f2e6faa3775ac40254e because sgl-kernel v0.2.5 is missing aarch64 package
+# NOTE: flashinfer v0.2.9rc1 is not installing for aarch64
 WORKDIR /sgl-workspace
 RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5lib six \
  && git clone https://github.com/sgl-project/sglang.git \
  && cd sglang \
- && git checkout 2a2d3478afe8cdb336888f2e6faa3775ac40254e \
+ && git checkout a167fd0bcb9ef4b0f4331a109e40c8cdc770b026 \
  && case "$CUDA_VERSION" in \
       12.6.1) CUINDEX=126 ;; \
       12.8.1) CUINDEX=128 ;; \
@@ -70,38 +67,33 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
       python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps ; \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.4/sgl_kernel-0.2.4+cu128-cp39-abi3-manylinux2014_$(uname -m).whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.7/sgl_kernel-0.2.7+cu128-cp39-abi3-manylinux2014_$(uname -m).whl --force-reinstall --no-deps ; \
     fi
 
-
-# Build NVSHMEM
-# Build and install NVSHMEM + DeepEP
-RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.2.5/source/nvshmem_src_3.2.5-1.txz \
- && git clone https://github.com/fzyzcjy/DeepEP.git \
- && cd DeepEP \
- && git checkout 1b14ad661c7640137fcfe93cccb2694ede1220b0 \
- && cd .. \
- && tar -xf nvshmem_src_3.2.5-1.txz && mv nvshmem_src nvshmem \
- && cd nvshmem \
- && git apply /sgl-workspace/DeepEP/third-party/nvshmem.patch \
- && sed -i '1i#include <unistd.h>' examples/moe_shuffle.cu \
- && rm -f /sgl-workspace/nvshmem_src_3.2.5-1.txz \
- && NVSHMEM_SHMEM_SUPPORT=0 \
-    NVSHMEM_UCX_SUPPORT=0 \
-    NVSHMEM_USE_NCCL=0 \
-    NVSHMEM_MPI_SUPPORT=0 \
-    NVSHMEM_IBGDA_SUPPORT=1 \
-    NVSHMEM_PMIX_SUPPORT=0 \
-    NVSHMEM_TIMEOUT_DEVICE_POLLING=0 \
-    NVSHMEM_USE_GDRCOPY=1 \
-    cmake -S . -B build/ -DCMAKE_INSTALL_PREFIX=${NVSHMEM_DIR} -DCMAKE_CUDA_ARCHITECTURES="100;120" \
- && cmake --build build --target install -j \
- && cd /sgl-workspace/DeepEP \
- && NVSHMEM_DIR=${NVSHMEM_DIR} pip install .
+    # Build and install NVSHMEM + DeepEP
+RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.3.9/source/nvshmem_src_cuda12-all-all-3.3.9.tar.gz \
+&& git clone https://github.com/fzyzcjy/DeepEP.git \
+&& cd DeepEP && git checkout ${DEEPEP_COMMIT} && cd .. \
+&& tar -xf nvshmem_src_cuda12-all-all-3.3.9.tar.gz && mv nvshmem_src nvshmem \
+&& cd nvshmem \
+&& rm -f /sgl-workspace/nvshmem_src_cuda12-all-all-3.3.9.tar.gz \
+&& NVSHMEM_SHMEM_SUPPORT=0 \
+   NVSHMEM_UCX_SUPPORT=0 \
+   NVSHMEM_USE_NCCL=0 \
+   NVSHMEM_MPI_SUPPORT=0 \
+   NVSHMEM_IBGDA_SUPPORT=1 \
+   NVSHMEM_PMIX_SUPPORT=0 \
+   NVSHMEM_TIMEOUT_DEVICE_POLLING=0 \
+   NVSHMEM_USE_GDRCOPY=1 \
+   cmake -S . -B build/ -DCMAKE_INSTALL_PREFIX=${NVSHMEM_DIR} -DCMAKE_CUDA_ARCHITECTURES="100;120" \
+&& cmake --build build --target install -j${CMAKE_BUILD_PARALLEL_LEVEL} \
+&& cd /sgl-workspace/DeepEP \
+&& NVSHMEM_DIR=${NVSHMEM_DIR} pip install .
 
 # Python tools
 RUN python3 -m pip install --no-cache-dir \
     datamodel_code_generator \
+    mooncake_transfer_engine==0.3.5 \
     pre-commit \
     pytest \
     black \
@@ -145,9 +137,6 @@ RUN apt update -y \
     && apt update -y \
     && apt install nsight-systems-cli -y
 
-# --- Install Mooncake ---
-RUN pip install mooncake-transfer-engine==0.3.5
-
 # Set up locale
 RUN locale-gen en_US.UTF-8
 ENV LANG en_US.UTF-8

From 4fa44d63c6e6259b823362a4710534879a21a6e3 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Sat, 26 Jul 2025 16:19:45 +0800
Subject: [PATCH 142/396] chore: improve mmmu benchmark (#7000)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 benchmark/mmmu/bench_sglang.py | 31 ++++++++++++++++++++-----------
 benchmark/mmmu/eval_utils.py   |  7 ++++---
 2 files changed, 24 insertions(+), 14 deletions(-)

diff --git a/benchmark/mmmu/bench_sglang.py b/benchmark/mmmu/bench_sglang.py
index 26f585120845..524beb7bc181 100644
--- a/benchmark/mmmu/bench_sglang.py
+++ b/benchmark/mmmu/bench_sglang.py
@@ -125,7 +125,6 @@ async def eval_mmmu(args) -> None:
     client = openai.AsyncOpenAI(
         api_key="sk", base_url=f"http://127.0.0.1:{args.port}/v1"
     )
-    semaphore = asyncio.Semaphore(args.concurrency)
     start = time.perf_counter()
     base_url = f"http://127.0.0.1:{args.port}"
 
@@ -139,16 +138,26 @@ async def eval_mmmu(args) -> None:
 
         samples = samples[: args.profile_number]
 
-    tasks = [
-        process_sample_with_semaphore(
-            semaphore, client, sample, sampling_params, lora_path
-        )
-        for sample in samples
-    ]
-
-    for coro in tqdm(asyncio.as_completed(tasks), total=len(tasks)):
-        sample, response = await coro
-        process_result(response, sample, answer_dict, out_samples)
+    if args.concurrency == 1:
+        # For concurrency == 1, run in sequential mode to ensure consistent order
+        # this is mainly for profiling
+        for sample in tqdm(samples):
+            _, response = await process_sample(
+                client, sample, sampling_params, lora_path
+            )
+            process_result(response, sample, answer_dict, out_samples)
+    else:
+        semaphore = asyncio.Semaphore(args.concurrency)
+        tasks = [
+            process_sample_with_semaphore(
+                semaphore, client, sample, sampling_params, lora_path
+            )
+            for sample in samples
+        ]
+
+        for coro in tqdm(asyncio.as_completed(tasks), total=len(tasks)):
+            sample, response = await coro
+            process_result(response, sample, answer_dict, out_samples)
 
     if args.profile:
         print("Stopping profiler...")
diff --git a/benchmark/mmmu/eval_utils.py b/benchmark/mmmu/eval_utils.py
index 48b9af4b1911..2ec6691551ec 100644
--- a/benchmark/mmmu/eval_utils.py
+++ b/benchmark/mmmu/eval_utils.py
@@ -27,8 +27,7 @@
 class EvalArgs:
     seed: int = 42
     split: str = "validation"
-    # Default setting to make the benchmark available on A100 for most 7B models
-    image_pixels_limit: int = 4300000
+    image_pixels_limit: int = -1
     result_filename: str = ""
     prompt_format_file: str = "prompt_format.yaml"
     dataset_path: str = "MMMU/MMMU"
@@ -190,7 +189,7 @@ def process_sample(i, sample):
         sample = construct_prompt(sample, eval_args.config)
         image = sample["image"]
         width, height = image.size
-        if width * height >= eval_args.image_pixels_limit:
+        if 0 < eval_args.image_pixels_limit <= width * height:
             return None, True
         # Use a unique identifier for the image path to avoid potential collisions if indices reset
         image_path = f"{images_path}/image_{sample['id']}.png"
@@ -217,6 +216,8 @@ def process_sample(i, sample):
             elif sample:
                 samples.append(sample)
 
+    samples.sort(key=lambda x: x["final_input_prompt"])
+
     print(
         f"Skipping {skip_count} samples with large images, {round((float(skip_count) / len(dataset)) * 100, 2)}% of dataset"
     )

From e236d8fee82f5e5efb601c038b76bf3f710c40b1 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sat, 26 Jul 2025 01:46:42 -0700
Subject: [PATCH 143/396] Save peak memory in logits processor (#8343)

---
 python/sglang/srt/layers/logits_processor.py | 17 ++++++++++++++---
 1 file changed, 14 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/logits_processor.py b/python/sglang/srt/layers/logits_processor.py
index 0aee86f68a28..90f981c578aa 100644
--- a/python/sglang/srt/layers/logits_processor.py
+++ b/python/sglang/srt/layers/logits_processor.py
@@ -170,8 +170,6 @@ def from_forward_batch(cls, forward_batch: ForwardBatch):
         )
 
     def compute_dp_attention_metadata(self):
-        # TODO(ch-wan): gathered_buffer here is larger than the actual required size in draft extend,
-        # we may use a smaller buffer in draft extend.
 
         cumtokens = torch.cumsum(self.global_num_tokens_for_logprob_gpu, dim=0)
         dp_rank = get_attention_dp_rank()
@@ -186,6 +184,19 @@ def compute_dp_attention_metadata(self):
         self.dp_local_start_pos = dp_local_start_pos
         self.dp_local_num_tokens = dp_local_num_tokens
 
+        if self.global_num_tokens_for_logprob_cpu is not None:
+            # create a smaller buffer to reduce peak memory usage
+            self.gathered_buffer = torch.empty(
+                (
+                    sum(self.global_num_tokens_for_logprob_cpu),
+                    self.gathered_buffer.shape[1],
+                ),
+                dtype=self.gathered_buffer.dtype,
+                device=self.gathered_buffer.device,
+            )
+        else:
+            self.gathered_buffer = torch.empty_like(self.gathered_buffer)
+
 
 class LogitsProcessor(nn.Module):
     def __init__(
@@ -430,7 +441,7 @@ def _get_logits(
         if self.do_tensor_parallel_all_gather_dp_attn:
             logits_metadata.compute_dp_attention_metadata()
             hidden_states, local_hidden_states = (
-                torch.empty_like(logits_metadata.gathered_buffer),
+                logits_metadata.gathered_buffer,
                 hidden_states,
             )
             dp_gather_replicate(hidden_states, local_hidden_states, logits_metadata)

From ce32bc2ba9ab48c6e62d82e165f9a22637c4a539 Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Sat, 26 Jul 2025 02:00:59 -0700
Subject: [PATCH 144/396] Extract update_weights from RL Engine to SGLang to
 keep simplicity and fix torch reduce (#8267)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Co-authored-by: CuiBo 82354186+SuperCB@users.noreply.github.com
Co-authored-by: GeLee 865038696@qq.com
Co-authored-by: 杨睿 yangruipis@163.com
---
 python/sglang/srt/managers/tp_worker.py |   3 +
 python/sglang/srt/weight_sync/utils.py  | 119 ++++++++++++++++
 test/srt/run_suite.py                   |   1 +
 test/srt/test_utils_update_weights.py   | 173 ++++++++++++++++++++++++
 4 files changed, 296 insertions(+)
 create mode 100644 python/sglang/srt/weight_sync/utils.py
 create mode 100644 test/srt/test_utils_update_weights.py

diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index d0939ffcaeaa..e6d3c9a242b4 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -41,6 +41,7 @@
 from sglang.srt.mem_cache.memory_pool import ReqToTokenPool
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch, PPProxyTensors
 from sglang.srt.model_executor.model_runner import ModelRunner
+from sglang.srt.patch_torch import monkey_patch_torch_reductions
 from sglang.srt.server_args import ServerArgs
 from sglang.srt.utils import MultiprocessingSerializer, broadcast_pyobj, set_random_seed
 
@@ -278,6 +279,8 @@ def update_weights_from_distributed(
         return success, message
 
     def update_weights_from_tensor(self, recv_req: UpdateWeightsFromTensorReqInput):
+
+        monkey_patch_torch_reductions()
         success, message = self.model_runner.update_weights_from_tensor(
             named_tensors=MultiprocessingSerializer.deserialize(
                 recv_req.serialized_named_tensors[self.tp_rank]
diff --git a/python/sglang/srt/weight_sync/utils.py b/python/sglang/srt/weight_sync/utils.py
new file mode 100644
index 000000000000..edb7f6ea05a9
--- /dev/null
+++ b/python/sglang/srt/weight_sync/utils.py
@@ -0,0 +1,119 @@
+from typing import Optional
+
+import torch
+import torch.distributed as dist
+from torch.distributed.device_mesh import DeviceMesh
+from torch.distributed.tensor import DTensor
+
+from sglang.srt.entrypoints.engine import Engine
+from sglang.srt.managers.tokenizer_manager import UpdateWeightsFromTensorReqInput
+from sglang.srt.model_executor.model_runner import LocalSerializedTensor
+from sglang.srt.utils import MultiprocessingSerializer
+
+
+async def update_weights(
+    engine: Engine,
+    params_batch: list[tuple[str, torch.Tensor]],
+    device_mesh_key: str,
+    device_mesh: DeviceMesh,
+    load_format: Optional[str] = None,
+):
+    """
+    Update weights for the inference engine.
+    This function is designed to be stateless, so that the caller process could keep the stateful engine.
+    Example Use Case:
+        - Multiple Producer Process will call this function in a SPMD style
+
+    Args:
+        engine: The inference engine created by the caller process.
+        params_batch: A list of (name, tensor) tuples. We batched the tensors to avoid the overhead of cpu call.
+        device_mesh_key: The key of the device mesh. Typically "tp" or "infer_tp"
+        device_mesh: The device mesh.
+        load_format: The format of the weights.
+    """
+    infer_tp_size = device_mesh[device_mesh_key].mesh.size()[0]
+    infer_tp_rank = device_mesh[device_mesh_key].get_local_rank()
+    from sglang.srt.patch_torch import monkey_patch_torch_reductions
+
+    monkey_patch_torch_reductions()
+
+    # [
+    #   (name0, ipc_tensor0_tp0),
+    #   (name1, ipc_tensor1_tp0),
+    # ]
+    named_tensors_batch = [
+        (
+            name,
+            MultiprocessingSerializer.serialize(
+                _preprocess_tensor_for_update_weights(tensor)
+            ),
+        )
+        for name, tensor in params_batch
+    ]
+
+    if infer_tp_rank == 0:
+        gathered_serialized_batches = [None for _ in range(infer_tp_size)]
+    else:
+        gathered_serialized_batches = None
+
+    # [
+    #   [ (name0, ipc_tensor0_tp0), (name1, ipc_tensor1_tp0) ],
+    #   [ (name0, ipc_tensor0_tp1), (name1, ipc_tensor1_tp1) ],
+    # ]
+    dist.gather_object(
+        obj=named_tensors_batch,
+        object_gather_list=gathered_serialized_batches,
+        dst=device_mesh[device_mesh_key].mesh.tolist()[0],
+        group=device_mesh[device_mesh_key].get_group(),
+    )
+
+    if infer_tp_rank == 0:
+        # Use zip(*) to "transpose" the data structure.
+        # After transpose, the data structure is like:
+        # [
+        #   ( (name0, ipc_tensor0_tp0), (name0, ipc_tensor0_tp1) ),
+        #   ( (name1, ipc_tensor1_tp0), (name1, ipc_tensor1_tp1) ),
+        # ]
+        logical_tensors = zip(*gathered_serialized_batches, strict=True)
+
+        named_tensors = [
+            # [
+            #   (name0, LocalSerializedTensor(values=[ipc_tensor0_tp0, ipc_tensor0_tp1])),
+            #   (name1, LocalSerializedTensor(values=[ipc_tensor1_tp0, ipc_tensor1_tp1])),
+            # ]
+            (
+                tensor_group[0][0],
+                LocalSerializedTensor(
+                    values=[rank_part[1] for rank_part in tensor_group]
+                ),
+            )
+            for tensor_group in logical_tensors
+        ]
+
+        update_weights_request = UpdateWeightsFromTensorReqInput(
+            serialized_named_tensors=[
+                MultiprocessingSerializer.serialize(named_tensors)
+                for _ in range(infer_tp_size)
+            ],
+            load_format=load_format,
+        )
+
+        return await engine.update_weights_from_tensor(update_weights_request)
+
+
+def _preprocess_tensor_for_update_weights(tensor: torch.Tensor):
+    """
+    Preprocess the tensor for update weights.
+    Example Use Case:
+        - FSDP: we gather tensor by calling full_tensor in _preprocess_tensor_for_update_weights
+        - Megatron: we do nothing here, assuming it is gathered when feed into this func
+
+    Args:
+        tensor: The tensor to be preprocessed.
+
+    Returns:
+        The full tensor if it is a DTensor, otherwise the original tensor.
+    """
+    if isinstance(tensor, DTensor):
+        return tensor.full_tensor()
+    return tensor
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 18dcd004ff62..19ff9d560a79 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -101,6 +101,7 @@ class TestFile:
         TestFile("test_triton_sliding_window.py", 250),
         TestFile("test_update_weights_from_disk.py", 114),
         TestFile("test_update_weights_from_tensor.py", 48),
+        TestFile("test_utils_update_weights.py", 48),
         TestFile("test_vertex_endpoint.py", 31),
         TestFile("test_vision_chunked_prefill.py", 175),
         TestFile("test_vlm_input_format.py", 300),
diff --git a/test/srt/test_utils_update_weights.py b/test/srt/test_utils_update_weights.py
new file mode 100644
index 000000000000..afbef6d385a5
--- /dev/null
+++ b/test/srt/test_utils_update_weights.py
@@ -0,0 +1,173 @@
+import asyncio
+import os
+
+import pytest
+import torch
+import torch.distributed as dist
+from loguru import logger
+from torch.distributed.device_mesh import init_device_mesh
+from transformers import AutoModelForCausalLM
+
+from sglang.srt.entrypoints.engine import Engine
+from sglang.srt.weight_sync.utils import update_weights
+from sglang.test.test_utils import DEFAULT_SMALL_MODEL_NAME_FOR_TEST
+
+
+class AsyncEngine(Engine):
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+
+    async def update_weights_from_tensor(self, update_weights_request):
+        return await self.tokenizer_manager.update_weights_from_tensor(
+            update_weights_request, None
+        )
+
+
+def is_distributed_available():
+    """Check if distributed training environment is available"""
+    required_vars = ["RANK", "WORLD_SIZE", "MASTER_ADDR", "MASTER_PORT"]
+    return all(var in os.environ for var in required_vars)
+
+
+def setup_single_process_distributed():
+    """Setup distributed environment for single process testing"""
+    if not is_distributed_available():
+        os.environ["RANK"] = "0"
+        os.environ["WORLD_SIZE"] = "1"
+        os.environ["MASTER_ADDR"] = "localhost"
+        os.environ["MASTER_PORT"] = "12356"
+        os.environ["LOCAL_RANK"] = "0"
+
+
+class TestUtilsUpdateWeights:
+    """Test class for utils.update_weights function"""
+
+    @pytest.fixture(scope="class")
+    def setup_distributed(self):
+        """Setup distributed environment for testing"""
+        setup_single_process_distributed()
+
+        if not dist.is_initialized():
+            try:
+                dist.init_process_group(
+                    backend="nccl" if torch.cuda.is_available() else "gloo"
+                )
+            except Exception as e:
+                pytest.skip(f"Could not initialize distributed backend: {e}")
+
+        rank = dist.get_rank()
+        world_size = dist.get_world_size()
+
+        if torch.cuda.is_available():
+            torch.cuda.set_device(rank % torch.cuda.device_count())
+
+        # Set up environment variables
+        os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
+        os.environ["NCCL_CUMEM_ENABLE"] = "0"
+        os.environ["TORCH_NCCL_AVOID_RECORD_STREAMS"] = "1"
+        os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
+        os.environ["CUDA_MODULE_LOADING"] = "AUTO"
+
+        yield rank, world_size
+
+        # Cleanup
+        if dist.is_initialized():
+            dist.destroy_process_group()
+
+    @pytest.fixture(scope="class")
+    def test_engine(self, setup_distributed):
+        """Setup test engine"""
+        rank, world_size = setup_distributed
+
+        if rank == 0:
+            os.environ["SGLANG_BLOCK_NONZERO_RANK_CHILDREN"] = "0"
+            engine = AsyncEngine(
+                model_path=DEFAULT_SMALL_MODEL_NAME_FOR_TEST,
+                dtype="bfloat16",
+                mem_fraction_static=0.3,
+                enable_memory_saver=True,
+                tp_size=world_size,
+                disable_cuda_graph=True,
+            )
+            yield engine
+            engine.shutdown()
+
+        else:
+            yield None
+
+    @pytest.fixture(scope="class")
+    def test_model(self):
+        """Load test model"""
+        try:
+            model = AutoModelForCausalLM.from_pretrained(
+                DEFAULT_SMALL_MODEL_NAME_FOR_TEST,
+                device_map="cpu",
+                trust_remote_code=True,
+                low_cpu_mem_usage=True,
+                torch_dtype=(
+                    torch.float16 if torch.cuda.is_available() else torch.float32
+                ),
+            )
+            return model
+        except Exception as e:
+            pytest.skip(f"Could not load test model: {e}")
+
+    @pytest.fixture(scope="class")
+    def device_mesh(self, setup_distributed):
+        """Create device mesh for testing"""
+        rank, world_size = setup_distributed
+
+        if not torch.cuda.is_available():
+            pytest.skip("CUDA not available for device mesh")
+
+        device_mesh_key = "tp"
+        mesh = init_device_mesh(
+            "cuda", (world_size,), mesh_dim_names=(device_mesh_key,)
+        )
+
+        return device_mesh_key, mesh
+
+    def create_test_params_batch(self, model, num_params=64):
+        """Create a batch of test parameters from the model"""
+        param_names = []
+        test_tensors = []
+
+        # Get first few parameters from the model for testing
+        for i, (name, tensor) in enumerate(model.named_parameters()):
+            if i >= num_params:
+                break
+            param_names.append(name)
+            # Create test tensor with known values, matching original shape and dtype
+            test_tensor = torch.full_like(tensor, 1.5, dtype=tensor.dtype).cuda()
+            test_tensors.append(test_tensor)
+
+        return list(zip(param_names, test_tensors))
+
+    @pytest.mark.asyncio
+    async def test_utils_update_weights(
+        self, setup_distributed, test_engine, test_model, device_mesh
+    ):
+        """Test basic functionality of utils.update_weights"""
+        rank, world_size = setup_distributed
+        device_mesh_key, mesh = device_mesh
+
+        # Create test parameters batch
+        params_batch = self.create_test_params_batch(test_model, num_params=2)
+
+        print(
+            f"Rank {rank} testing utils.update_weights with {len(params_batch)} parameters"
+        )
+        # Test the utils.update_weights function
+        result = await update_weights(
+            engine=test_engine,
+            params_batch=params_batch,
+            device_mesh_key=device_mesh_key,
+            device_mesh=mesh,
+            load_format=None,
+        )
+
+        assert "Success" in result
+
+
+if __name__ == "__main__":
+    pytest.main([__file__])

From 534756749ae4e664f762de2645a4f63ca2901bab Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Sat, 26 Jul 2025 17:38:56 +0800
Subject: [PATCH 145/396] chore: improvements on mm_utils (#7737)

---
 python/sglang/srt/managers/mm_utils.py | 62 ++++++++++++--------------
 1 file changed, 29 insertions(+), 33 deletions(-)

diff --git a/python/sglang/srt/managers/mm_utils.py b/python/sglang/srt/managers/mm_utils.py
index f3faa75d9a07..13ca29c54ddb 100644
--- a/python/sglang/srt/managers/mm_utils.py
+++ b/python/sglang/srt/managers/mm_utils.py
@@ -85,8 +85,8 @@ def pad_input_tokens(
                 "No data_token_pairs provided, RadixAttention might be influenced."
             )
             return input_ids
-        start_token_ids = [s for s, _e in data_token_pairs]
-        end_tokens_ids = [e for _s, e in data_token_pairs]
+        start_token_ids = {s for s, _e in data_token_pairs}
+        end_tokens_ids = {e for _s, e in data_token_pairs}
 
         padded_ids = []
         last_idx = 0
@@ -135,7 +135,7 @@ def pad_input_tokens(
         if not input_ids or not mm_inputs.mm_items:
             return input_ids
 
-        input_ids_tensor = torch.tensor(input_ids)
+        input_ids_tensor = torch.as_tensor(input_ids)
 
         # Create mapping of token_ids to pad_values for each modality
         token_to_pad_mapping = {}
@@ -211,7 +211,7 @@ def get_embedding_chunk(
             end_index += extend_end_index - start + 1
         elif extend_end_index > end:
             end_index += end - start + 1
-    # some models embedding is 3-dim, reshape it to 2-dim
+    # some models' embedding is 3-dim, reshape it to 2-dim
     embedding = embedding.reshape(-1, embedding.shape[-1])
     embedding_chunk = embedding[start_index:end_index]
     return embedding_chunk, start_index, end_index
@@ -428,7 +428,7 @@ def embed_mm_inputs(
             modality_id = modality.name.lower()
             embedder = getattr(multimodal_model, f"get_{modality_id}_feature", None)
         if len(items) != 0 and embedder is not None:
-            placeholder_tensor = torch.tensor(
+            placeholder_tensor = torch.as_tensor(
                 [item.pad_value for item in items],
                 device=input_ids.device,
             )
@@ -473,11 +473,9 @@ def embed_mm_inputs(
     for embedding, mask in zip(embeddings, masks):
         if embedding is None or mask is None:
             continue
-        mask = mask.expand_as(inputs_embeds).to(inputs_embeds.device)
-        inputs_embeds = inputs_embeds.masked_scatter(
-            mask,
-            embedding.to(inputs_embeds.device, inputs_embeds.dtype),
-        )
+        # in-place update
+        indices = torch.where(mask.squeeze(dim=-1))[0]
+        inputs_embeds[indices] = embedding.to(inputs_embeds.device, inputs_embeds.dtype)
     return inputs_embeds
 
 
@@ -561,34 +559,36 @@ def get_multimodal_data_bounds(
         [bounds_count, 2]
     """
     # All the multimodal data in the batch should share the same special bound token ids.
-    start_tokens = [s for s, _e in token_pairs]
-    end_tokens = [e for _s, e in token_pairs]
+    start_tokens = {s for s, _e in token_pairs}
+    end_tokens = {e for _s, e in token_pairs}
 
     assert all(isinstance(t, int) for t in start_tokens)
     assert all(isinstance(t, int) for t in end_tokens)
 
     start_cond = torch.isin(
-        input_ids, torch.tensor(start_tokens, device=input_ids.device)
+        input_ids, torch.as_tensor(start_tokens, device=input_ids.device)
+    )
+    end_cond = torch.isin(
+        input_ids, torch.as_tensor(end_tokens, device=input_ids.device)
     )
-    end_cond = torch.isin(input_ids, torch.tensor(end_tokens, device=input_ids.device))
 
     (data_start_tokens,) = torch.where(start_cond)
     (data_end_tokens,) = torch.where(end_cond)
 
+    data_start_tokens_cpu = data_start_tokens.cpu().tolist()
+    data_end_tokens_cpu = data_end_tokens.cpu().tolist()
+
     # the im_start_id sometimes can be cached as prefix, but it is needed for the embedding of the multimodal data
-    if len(data_start_tokens) != len(data_end_tokens):
+    if len(data_start_tokens_cpu) != len(data_end_tokens_cpu):
         if (
-            len(data_start_tokens) + 1 == len(data_end_tokens)
-            and input_ids[0] in pad_values
-            and data_end_tokens[0] < data_start_tokens[0]
+            len(data_start_tokens_cpu) + 1 == len(data_end_tokens_cpu)
+            and input_ids[0].item() in pad_values
+            and data_end_tokens_cpu
+            and data_start_tokens_cpu
+            and data_end_tokens_cpu[0] < data_start_tokens_cpu[0]
         ):
-            data_start_tokens = torch.cat(
-                [
-                    torch.tensor([0], device=data_start_tokens.device),
-                    data_start_tokens,
-                ]
-            )
-    valid_mm_data_nums = min(len(data_start_tokens), len(data_end_tokens))
+            data_start_tokens_cpu.insert(0, 0)
+    valid_mm_data_nums = min(len(data_start_tokens_cpu), len(data_end_tokens_cpu))
 
     if valid_mm_data_nums == 0:
         return torch.zeros((0, 2), device=input_ids.device)
@@ -596,8 +596,8 @@ def get_multimodal_data_bounds(
     # Filter out pairs where start_token >= end_token
     valid_pairs = []
     for i in range(valid_mm_data_nums):
-        start_token = data_start_tokens[i]
-        end_token = data_end_tokens[i]
+        start_token = data_start_tokens_cpu[i]
+        end_token = data_end_tokens_cpu[i]
         if start_token < end_token:
             valid_pairs.append((start_token + 1, end_token - 1))
 
@@ -605,7 +605,7 @@ def get_multimodal_data_bounds(
         return torch.zeros((0, 2), device=input_ids.device)
 
     # Convert valid pairs to tensor
-    valid_pairs_tensor = torch.tensor(valid_pairs, device=input_ids.device)
+    valid_pairs_tensor = torch.as_tensor(valid_pairs, device=input_ids.device)
     return valid_pairs_tensor
 
 
@@ -634,11 +634,7 @@ def tensor_hash(tensor_list) -> int:
         tensor = tensor.float()
 
     assert isinstance(tensor, torch.Tensor)
-    if tensor.is_cuda:
-        # TODO: improve this
-        tensor_cpu = tensor.cpu()
-    else:
-        tensor_cpu = tensor
+    tensor_cpu = tensor.cpu()
 
     mv = memoryview(tensor_cpu.numpy())
     return data_hash(mv.tobytes())

From 3212c2ad3f7e4fb473dc807b4b176020a778ed5b Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Sat, 26 Jul 2025 17:41:01 +0800
Subject: [PATCH 146/396] vlm: optimize tensor transport (#6003)

Co-authored-by: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
---
 python/sglang/srt/managers/mm_utils.py        | 127 +++++++++++++++++-
 .../srt/managers/multimodal_processor.py      |  17 +--
 python/sglang/srt/managers/schedule_batch.py  |   5 +-
 .../sglang/srt/managers/tokenizer_manager.py  |  14 +-
 .../multimodal/processors/base_processor.py   |  26 +++-
 .../sglang/srt/multimodal/processors/clip.py  |   4 +-
 .../multimodal/processors/deepseek_vl_v2.py   |   4 +-
 .../srt/multimodal/processors/gemma3.py       |   4 +-
 .../srt/multimodal/processors/gemma3n.py      |   4 +-
 .../srt/multimodal/processors/internvl.py     |   4 +-
 .../srt/multimodal/processors/janus_pro.py    |   4 +-
 .../srt/multimodal/processors/kimi_vl.py      |   4 +-
 .../sglang/srt/multimodal/processors/llava.py |   8 +-
 .../srt/multimodal/processors/minicpm.py      |   5 +-
 .../sglang/srt/multimodal/processors/mlama.py |   4 +-
 .../srt/multimodal/processors/mllama4.py      |   4 +-
 .../srt/multimodal/processors/phi4mm.py       |   4 +-
 .../srt/multimodal/processors/pixtral.py      |   4 +-
 .../srt/multimodal/processors/qwen_audio.py   |   4 +-
 .../srt/multimodal/processors/qwen_vl.py      |   4 +-
 .../sglang/srt/multimodal/processors/vila.py  |   4 +-
 python/sglang/utils.py                        |  19 +++
 test/srt/test_vlm_input_format.py             |   4 +-
 23 files changed, 221 insertions(+), 60 deletions(-)

diff --git a/python/sglang/srt/managers/mm_utils.py b/python/sglang/srt/managers/mm_utils.py
index 13ca29c54ddb..78a9762eef0e 100644
--- a/python/sglang/srt/managers/mm_utils.py
+++ b/python/sglang/srt/managers/mm_utils.py
@@ -3,8 +3,9 @@
 """
 
 import hashlib
+import pickle
 from abc import abstractmethod
-from typing import Callable, Dict, List, Optional, Tuple
+from typing import Any, Callable, Dict, List, Literal, Optional, Tuple
 
 import numpy as np
 import torch
@@ -27,6 +28,130 @@
 # propagation that can cause some log messages (like 'server is fired up') to not appear
 # in the console when multimodal support is enabled.
 
+# TODO(mick): nccl
+# cuda_ipc: for intranode tensor sharing
+TensorTransportMode = Literal["cuda_ipc", "auto", "default"]
+
+
+class TransportProxyTensor(torch.Tensor):
+    """
+    A convenient torch.Tensor subclass that carries extra metadata and supports
+    efficient inter-process communications
+    """
+
+    @staticmethod
+    def __new__(
+        cls,
+        data: torch.Tensor,
+        name: Optional[str] = None,
+        fields: Optional[Dict[str, Any]] = None,
+        transport_mode: TensorTransportMode = "default",
+        *args,
+        **kwargs,
+    ):
+
+        if not isinstance(data, torch.Tensor):
+            raise TypeError(
+                f"Input 'data' must be a torch.Tensor, but got {type(data)}"
+            )
+
+        instance = data.as_subclass(cls)
+
+        instance._metadata = {
+            "name": name,
+            "fields": fields if fields is not None else {},
+            "transport_mode": transport_mode,
+        }
+
+        return instance
+
+    def __getstate__(self):
+        """
+        Called during pickling. Implements the serialization logic.
+        """
+        # acquire all serialize metadata from _metadata
+        state = {
+            "metadata": self._metadata,
+            "tensor_data": None,
+            "ipc_extra": None,
+        }
+
+        transport_mode = self._metadata.get("transport_mode", "default")
+
+        if transport_mode == "cuda_ipc" and self.is_cuda:
+            try:
+                storage = self.untyped_storage()
+                handle = storage._share_cuda_()
+
+                state["ipc_extra"] = {
+                    "handle": handle,
+                    "shape": self.shape,
+                    "dtype": self.dtype,
+                    "stride": self.stride(),
+                    "device_index": self.device.index,
+                }
+                state["tensor_data"] = None
+            except Exception as e:
+                print_warning_once(
+                    f"Warning: Failed to get CUDA IPC handle ({e}). Falling back to default transport."
+                )
+                state["metadata"]["transport_mode"] = "default"
+                state["tensor_data"] = self.as_subclass(torch.Tensor)
+        else:
+            state["metadata"]["transport_mode"] = "default"
+            state["tensor_data"] = self.as_subclass(torch.Tensor)
+
+        return state
+
+    def __setstate__(self, state: Dict[str, Any]):
+        """
+        Called during unpickling. Implements the deserialization logic.
+        """
+        self._metadata = state["metadata"]
+
+        transport_mode = self._metadata.get("transport_mode", "default")
+
+        if transport_mode == "cuda_ipc" and state["ipc_extra"] is not None:
+            ipc_extra = state["ipc_extra"]
+            handle, shape, dtype, stride, source_device_index = (
+                ipc_extra["handle"],
+                ipc_extra["shape"],
+                ipc_extra["dtype"],
+                ipc_extra["stride"],
+                ipc_extra["device_index"],
+            )
+
+            try:
+                target_device = torch.device(f"cuda:{source_device_index}")
+                with torch.cuda.device(target_device):
+                    storage = torch.UntypedStorage._new_shared_cuda(*handle)
+                    reconstructed_tensor = torch.empty(
+                        0, dtype=dtype, device=target_device
+                    ).set_(storage, storage_offset=0, size=shape, stride=stride)
+                    self.set_(reconstructed_tensor)
+            except Exception as e:
+                print(f"Error: Failed to deserialize from CUDA IPC handle ({e}).")
+                raise e
+
+        elif state["tensor_data"] is not None:
+            self.set_(state["tensor_data"])
+        else:
+            raise pickle.UnpicklingError(
+                "Invalid state for TransportProxyTensor: no tensor data found."
+            )
+
+    @property
+    def name(self) -> Optional[str]:
+        return self._metadata.get("name")
+
+    @property
+    def fields(self) -> Dict[str, Any]:
+        return self._metadata.get("fields", {})
+
+    @property
+    def transport_mode(self) -> TensorTransportMode:
+        return self._metadata.get("transport_mode", "default")
+
 
 class MultiModalityDataPaddingPattern:
     """
diff --git a/python/sglang/srt/managers/multimodal_processor.py b/python/sglang/srt/managers/multimodal_processor.py
index 76679358ac70..51b6f3d92b58 100644
--- a/python/sglang/srt/managers/multimodal_processor.py
+++ b/python/sglang/srt/managers/multimodal_processor.py
@@ -12,18 +12,6 @@
 PROCESSOR_MAPPING = {}
 
 
-class DummyMultimodalProcessor(BaseMultimodalProcessor):
-    def __init__(self):
-        pass
-
-    async def process_mm_data_async(self, *args, **kwargs):
-        return None
-
-
-def get_dummy_processor():
-    return DummyMultimodalProcessor()
-
-
 def import_processors():
     package_name = "sglang.srt.multimodal.processors"
     package = importlib.import_module(package_name)
@@ -49,11 +37,12 @@ def import_processors():
 
 
 def get_mm_processor(
-    hf_config, server_args: ServerArgs, processor
+    hf_config, server_args: ServerArgs, processor, transport_mode
 ) -> BaseMultimodalProcessor:
     for model_cls, processor_cls in PROCESSOR_MAPPING.items():
         if model_cls.__name__ in hf_config.architectures:
-            return processor_cls(hf_config, server_args, processor)
+            return processor_cls(hf_config, server_args, processor, transport_mode)
+
     raise ValueError(
         f"No processor registered for architecture: {hf_config.architectures}.\n"
         f"Registered architectures: {[model_cls.__name__ for model_cls in PROCESSOR_MAPPING.keys()]}"
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index ad8bcf11922d..283da3394db2 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -209,10 +209,11 @@ class MultimodalDataItem:
     hash: int = None
     pad_value: int = None
     offsets: Optional[list] = None
+
     # the raw features returned by processor, e.g. pixel_values or audio_features
     feature: Union[torch.Tensor, np.ndarray] = None
-
-    # the precomputed embeddings for the modality, e.g. image_emb for image, audio_emb for audio
+    # the precomputed embeddings, passed as final encoder embeddings
+    # One and only one of the feature and precomputed_embeddings will be empty
     precomputed_embeddings: Optional[Union[torch.Tensor, np.ndarray]] = None
 
     # Model-specific data stored in a dictionary
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 0f65fa9257e8..77c805aace8e 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -112,6 +112,7 @@
     UpdateWeightsFromTensorReqInput,
     UpdateWeightsFromTensorReqOutput,
 )
+from sglang.srt.managers.mm_utils import TensorTransportMode
 from sglang.srt.managers.multimodal_processor import get_mm_processor, import_processors
 from sglang.srt.metrics.collector import TokenizerMetricsCollector
 from sglang.srt.sampling.sampling_params import SamplingParams
@@ -166,6 +167,16 @@ class ReqState:
     output_token_ids_logprobs_idx: List = dataclasses.field(default_factory=list)
 
 
+def _determine_tensor_transport_mode(server_args: ServerArgs) -> TensorTransportMode:
+    is_cross_node = server_args.dist_init_addr
+
+    if is_cross_node:
+        # Fallback to default CPU transport for multi-node
+        return "default"
+    else:
+        return "cuda_ipc"
+
+
 class TokenizerManager:
     """TokenizerManager is a process that tokenizes the text."""
 
@@ -216,12 +227,13 @@ def __init__(
                 revision=server_args.revision,
                 use_fast=not server_args.disable_fast_image_processor,
             )
+            transport_mode = _determine_tensor_transport_mode(self.server_args)
 
             # We want to parallelize the image pre-processing so we create an executor for it
             # We create mm_processor for any skip_tokenizer_init to make sure we still encode
             # images even with skip_tokenizer_init=False.
             self.mm_processor = get_mm_processor(
-                self.model_config.hf_config, server_args, _processor
+                self.model_config.hf_config, server_args, _processor, transport_mode
             )
 
             if server_args.skip_tokenizer_init:
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 3d548a19ee9e..3f62a14d1e4e 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -12,6 +12,7 @@
 from PIL import Image
 from transformers import BaseImageProcessorFast
 
+from sglang.srt.managers.mm_utils import TransportProxyTensor
 from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.utils import load_audio, load_image, load_video, logger
 
@@ -142,11 +143,14 @@ def get_combined_regex(self) -> re.Pattern:
 class BaseMultimodalProcessor(ABC):
     models = []
 
-    def __init__(self, hf_config, server_args, _processor):
+    def __init__(
+        self, hf_config, server_args, _processor, transport_mode, *args, **kwargs
+    ):
         self.hf_config = hf_config
         self._processor = _processor
         self.arch = hf_config.architectures[0]
         self.server_args = server_args
+        self.transport_mode = transport_mode
 
         # FIXME: not accurate, model and image specific
         self.NUM_TOKEN_PER_FRAME = 330
@@ -217,10 +221,6 @@ def process_mm_data(
             return_tensors="pt",
             **kwargs,
         )
-        if "pixel_values" in result and isinstance(
-            result["pixel_values"], torch.Tensor
-        ):
-            result["pixel_values"] = result["pixel_values"].to("cpu")
         return result
 
     @abstractmethod
@@ -500,7 +500,6 @@ def collect_mm_items_from_processor_output(
     ) -> List[MultimodalDataItem]:
         """Create mm_items directly from processor output."""
         items: dict[Modality, MultimodalDataItem] = {}
-
         for attr_name, value in data_dict.items():
             if attr_name == "input_ids":
                 continue
@@ -624,4 +623,19 @@ def process_and_combine_mm_data(
                 mm_token_id=mm_token_id,
             )
 
+        # post-process
+        for item in all_collected_items:
+            # replace the feature tensor with a proxy
+            if isinstance(item.feature, torch.Tensor) and item.feature.is_cuda:
+                item.feature = TransportProxyTensor(
+                    transport_mode=self.transport_mode, data=item.feature
+                )
+            elif (
+                isinstance(item.precomputed_embeddings, torch.Tensor)
+                and item.precomputed_embeddings.is_cuda
+            ):
+                item.precomputed_embeddings = TransportProxyTensor(
+                    transport_mode=self.transport_mode, data=item.precomputed_embeddings
+                )
+
         return all_collected_items, input_ids, ret
diff --git a/python/sglang/srt/multimodal/processors/clip.py b/python/sglang/srt/multimodal/processors/clip.py
index 0925212cb44c..19ff71e78417 100644
--- a/python/sglang/srt/multimodal/processors/clip.py
+++ b/python/sglang/srt/multimodal/processors/clip.py
@@ -10,8 +10,8 @@
 class ClipImageProcessor(BaseMultimodalProcessor):
     models = [CLIPModel]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.mm_tokens = MultimodalSpecialTokens(image_token="<image>").build(
             _processor
         )
diff --git a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
index 9847929f7b0f..b09402d0be17 100644
--- a/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
+++ b/python/sglang/srt/multimodal/processors/deepseek_vl_v2.py
@@ -31,8 +31,8 @@
 class DeepseekVL2ImageProcessor(BaseMultimodalProcessor):
     models = [DeepseekVL2ForCausalLM]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.mm_tokens = MultimodalSpecialTokens(
             image_token="<image>", image_token_id=self._processor.image_token_id
         ).build(_processor)
diff --git a/python/sglang/srt/multimodal/processors/gemma3.py b/python/sglang/srt/multimodal/processors/gemma3.py
index 9abf172b2c09..cbfb45e8404e 100644
--- a/python/sglang/srt/multimodal/processors/gemma3.py
+++ b/python/sglang/srt/multimodal/processors/gemma3.py
@@ -14,8 +14,8 @@
 class Gemma3SGLangImageProcessor(SGLangBaseProcessor):
     models = [Gemma3ForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.IM_START_TOKEN_ID = hf_config.boi_token_index
         self.IM_END_TOKEN_ID = hf_config.eoi_token_index
         self.mm_tokens = MultimodalSpecialTokens(
diff --git a/python/sglang/srt/multimodal/processors/gemma3n.py b/python/sglang/srt/multimodal/processors/gemma3n.py
index 938819d9143e..4bfbcaffa223 100644
--- a/python/sglang/srt/multimodal/processors/gemma3n.py
+++ b/python/sglang/srt/multimodal/processors/gemma3n.py
@@ -27,8 +27,8 @@ class Gemma3nSGLangProcessor(SGLangBaseProcessor):
 
     models = [Gemma3nForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
 
         self.IM_START_TOKEN_ID = hf_config.boi_token_id
         self.IM_END_TOKEN_ID = hf_config.eoi_token_id
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index 12823077f0ad..234d57d35529 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -16,8 +16,8 @@
 class InternVLImageProcessor(BaseMultimodalProcessor):
     models = [InternVLChatModel]
 
-    def __init__(self, hf_config, server_args, _image_processor):
-        super().__init__(hf_config, server_args, _image_processor)
+    def __init__(self, hf_config, server_args, _image_processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _image_processor, *args, **kwargs)
         image_size = hf_config.force_image_size or hf_config.vision_config.image_size
         patch_size = hf_config.vision_config.patch_size
 
diff --git a/python/sglang/srt/multimodal/processors/janus_pro.py b/python/sglang/srt/multimodal/processors/janus_pro.py
index 4dd8c1a8476a..54d6c1978849 100644
--- a/python/sglang/srt/multimodal/processors/janus_pro.py
+++ b/python/sglang/srt/multimodal/processors/janus_pro.py
@@ -11,8 +11,8 @@
 class JanusProImageProcessor(BaseMultimodalProcessor):
     models = [MultiModalityCausalLM]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
 
         self.mm_tokens = MultimodalSpecialTokens(
             image_token=_processor.image_token,
diff --git a/python/sglang/srt/multimodal/processors/kimi_vl.py b/python/sglang/srt/multimodal/processors/kimi_vl.py
index 84c4a5133853..541ed5c9edf0 100644
--- a/python/sglang/srt/multimodal/processors/kimi_vl.py
+++ b/python/sglang/srt/multimodal/processors/kimi_vl.py
@@ -12,8 +12,8 @@
 class KimiVLImageProcessor(SGLangBaseProcessor):
     models = [KimiVLForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.mm_tokens = MultimodalSpecialTokens(
             image_token="<|media_pad|>",
             # TODO: could we convert in MultimodalSpecialTokens?
diff --git a/python/sglang/srt/multimodal/processors/llava.py b/python/sglang/srt/multimodal/processors/llava.py
index f4504ecea2de..5031dccbd585 100644
--- a/python/sglang/srt/multimodal/processors/llava.py
+++ b/python/sglang/srt/multimodal/processors/llava.py
@@ -30,8 +30,8 @@ class LlavaImageProcessor(BaseMultimodalProcessor):
         LlavaMistralForCausalLM,
     ]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
 
     @staticmethod
     def _process_single_image_task(
@@ -187,7 +187,7 @@ def _get_sgl_processor_cls(self, model_type: str):
             f"Cannot find corresponding multimodal processor registered in sglang for model type `{model_type}`"
         )
 
-    def __init__(self, hf_config, server_args, _processor):
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
         assert hasattr(hf_config, "vision_config")
         assert hasattr(hf_config, "text_config")
         self.vision_config = hf_config.vision_config
@@ -196,7 +196,7 @@ def __init__(self, hf_config, server_args, _processor):
 
         if vision_type := getattr(self.vision_config, "model_type"):
             self.inner = self._get_sgl_processor_cls(vision_type)(
-                hf_config, server_args, _processor
+                hf_config, server_args, _processor, *args, **kwargs
             )
         else:
             raise ValueError(
diff --git a/python/sglang/srt/multimodal/processors/minicpm.py b/python/sglang/srt/multimodal/processors/minicpm.py
index ed4f86511b1d..9ddbf4fb6752 100644
--- a/python/sglang/srt/multimodal/processors/minicpm.py
+++ b/python/sglang/srt/multimodal/processors/minicpm.py
@@ -15,8 +15,8 @@
 class MiniCPMMultimodalProcessor(BaseMultimodalProcessor):
     models = [MiniCPMV, MiniCPMO]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         # Collect special token ids
         tokenizer = self._processor.tokenizer
         self.slice_start_id = getattr(tokenizer, "slice_start_id", None)
@@ -26,7 +26,6 @@ def __init__(self, hf_config, server_args, _processor):
         self.im_start_id = getattr(tokenizer, "im_start_id", None)
         self.im_end_id = getattr(tokenizer, "im_end_id", None)
         self.im_token_id = getattr(tokenizer, "unk_id", None)
-
         self.mm_tokens = MultimodalSpecialTokens(
             image_token="(<image>./</image>)",
             audio_token="(<audio>./</audio>)",
diff --git a/python/sglang/srt/multimodal/processors/mlama.py b/python/sglang/srt/multimodal/processors/mlama.py
index dd31844525b4..432215a4f043 100644
--- a/python/sglang/srt/multimodal/processors/mlama.py
+++ b/python/sglang/srt/multimodal/processors/mlama.py
@@ -10,8 +10,8 @@
 class MllamaImageProcessor(BaseMultimodalProcessor):
     models = [MllamaForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.mm_tokens = MultimodalSpecialTokens(
             image_token=self._processor.image_token,
             image_token_id=self._processor.image_token_id,
diff --git a/python/sglang/srt/multimodal/processors/mllama4.py b/python/sglang/srt/multimodal/processors/mllama4.py
index 2d0eba2fd499..fd22d384819f 100644
--- a/python/sglang/srt/multimodal/processors/mllama4.py
+++ b/python/sglang/srt/multimodal/processors/mllama4.py
@@ -18,8 +18,8 @@
 class Mllama4ImageProcessor(BaseMultimodalProcessor):
     models = [Llama4ForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.vision_config = hf_config.vision_config
         self.text_config = hf_config.text_config
         self.boi_token_index = hf_config.boi_token_index
diff --git a/python/sglang/srt/multimodal/processors/phi4mm.py b/python/sglang/srt/multimodal/processors/phi4mm.py
index 720e3c1324e7..1487d2ca2f71 100644
--- a/python/sglang/srt/multimodal/processors/phi4mm.py
+++ b/python/sglang/srt/multimodal/processors/phi4mm.py
@@ -47,9 +47,9 @@ def __call__(self, **kwargs):
 class Phi4MMMultimodalProcessor(BaseMultimodalProcessor):
     models = [Phi4MMForCausalLM]
 
-    def __init__(self, hf_config, server_args, _processor):
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
         self.processor = Phi4MMProcessorAdapter(_processor)
-        super().__init__(hf_config, server_args, self.processor)
+        super().__init__(hf_config, server_args, self.processor, *args, **kwargs)
 
         # the following CONSTANTS come from hugging-face microsoft/Phi-4-multimodal-instruct's processing_phi4mm.py file
         # ref: https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/processing_phi4mm.py
diff --git a/python/sglang/srt/multimodal/processors/pixtral.py b/python/sglang/srt/multimodal/processors/pixtral.py
index fdfd6bd627ee..af5cedec9fa6 100644
--- a/python/sglang/srt/multimodal/processors/pixtral.py
+++ b/python/sglang/srt/multimodal/processors/pixtral.py
@@ -42,8 +42,8 @@ def get_patch_grid_size(
 
         return ncols, nrows
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.IM_TOKEN_ID = getattr(
             hf_config, "image_token_index", PixtralVisionModel.DEFAULT_IMAGE_TOKEN_ID
         )
diff --git a/python/sglang/srt/multimodal/processors/qwen_audio.py b/python/sglang/srt/multimodal/processors/qwen_audio.py
index 34d440375ae3..b2bb38464aa6 100644
--- a/python/sglang/srt/multimodal/processors/qwen_audio.py
+++ b/python/sglang/srt/multimodal/processors/qwen_audio.py
@@ -11,8 +11,8 @@
 class Qwen2AudioMultimodalProcessor(BaseMultimodalProcessor):
     models = [Qwen2AudioForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.AUDIO_TOKEN = "<|audio_bos|><|AUDIO|><|audio_eos|>"
         self.AUDIO_TOKEN_REGEX = re.compile(
             r"<\|audio_bos\|>(?:<\|AUDIO\|>)+<\|audio_eos\|>"
diff --git a/python/sglang/srt/multimodal/processors/qwen_vl.py b/python/sglang/srt/multimodal/processors/qwen_vl.py
index 1b1de43695bb..f67f72b95d8f 100644
--- a/python/sglang/srt/multimodal/processors/qwen_vl.py
+++ b/python/sglang/srt/multimodal/processors/qwen_vl.py
@@ -201,8 +201,8 @@ async def preprocess_video(
 class Qwen2_5VLImageProcessor(SGLangBaseProcessor):
     models = [Qwen2VLForConditionalGeneration, Qwen2_5_VLForConditionalGeneration]
 
-    def __init__(self, hf_config, server_args, _processor):
-        super().__init__(hf_config, server_args, _processor)
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         # The regex that matches expanded image tokens.
         self.IM_START_TOKEN_ID = hf_config.vision_start_token_id
         self.IM_END_TOKEN_ID = hf_config.vision_end_token_id
diff --git a/python/sglang/srt/multimodal/processors/vila.py b/python/sglang/srt/multimodal/processors/vila.py
index 7070dfe73dc9..5f9586b6c249 100644
--- a/python/sglang/srt/multimodal/processors/vila.py
+++ b/python/sglang/srt/multimodal/processors/vila.py
@@ -34,8 +34,10 @@ def __init__(
         hf_config: PretrainedConfig,
         server_args: ServerArgs,
         _processor: VILAProcessor,
+        *args,
+        **kwargs,
     ) -> None:
-        super().__init__(hf_config, server_args, _processor)
+        super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.mm_tokens = MultimodalSpecialTokens(
             image_token=self._processor.tokenizer.image_token,
             image_token_id=hf_config.image_token_id,
diff --git a/python/sglang/utils.py b/python/sglang/utils.py
index 83c653232674..b7600b1a6452 100644
--- a/python/sglang/utils.py
+++ b/python/sglang/utils.py
@@ -14,6 +14,7 @@
 import urllib.request
 import weakref
 from concurrent.futures import ThreadPoolExecutor
+from functools import wraps
 from io import BytesIO
 from json import dumps
 from typing import Any, Callable, List, Optional, Tuple, Type, Union
@@ -28,6 +29,24 @@
 logger = logging.getLogger(__name__)
 
 
+def execute_once(func):
+    has_run = None
+
+    @wraps(func)
+    def wrapper(*args, **kwargs):
+        nonlocal has_run
+        if not has_run:
+            func(*args, **kwargs)
+            has_run = True
+
+    return wrapper
+
+
+@execute_once
+def info_once(message: str):
+    logger.info(message)
+
+
 def convert_json_schema_to_str(json_schema: Union[dict, str, Type[BaseModel]]) -> str:
     """Convert a JSON schema to a string.
     Parameters
diff --git a/test/srt/test_vlm_input_format.py b/test/srt/test_vlm_input_format.py
index 79625ee82cbb..b2cf0073d806 100644
--- a/test/srt/test_vlm_input_format.py
+++ b/test/srt/test_vlm_input_format.py
@@ -24,7 +24,7 @@ class VLMInputTestBase:
     model_path = None
     chat_template = None
     processor = None
-    visual = None  # Should be a callable for precomputed features
+    visual = None  # Should be a callable for precomputed embeddings
 
     @classmethod
     def setUpClass(cls):
@@ -41,7 +41,7 @@ def setUpClass(cls):
 
     @classmethod
     def _init_visual(cls):
-        """Override in subclass to set up cls.visual as a callable for precomputed features."""
+        """Override in subclass to set up cls.visual as a callable for precomputed embeddings."""
         raise NotImplementedError
 
     def setUp(self):

From da0c0260841ebc3eb3094e530551665459c4c40d Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sat, 26 Jul 2025 18:20:39 +0800
Subject: [PATCH 147/396] Tiny assert EPLB is used together with expert
 parallel (#8381)

---
 python/sglang/srt/server_args.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 6fec17bc002e..27091dc232d0 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -458,6 +458,9 @@ def __post_init__(self):
                 "EPLB is enabled or init_expert_location is provided. ep_dispatch_algorithm is configured."
             )
 
+        if self.enable_eplb:
+            assert self.enable_ep_moe or self.enable_deepep_moe
+
         if self.enable_expert_distribution_metrics and (
             self.expert_distribution_recorder_mode is None
         ):

From b7094a5ef197743d9fb5540feac06f8f2814444b Mon Sep 17 00:00:00 2001
From: RunningLeon <maningsheng@sensetime.com>
Date: Sun, 27 Jul 2025 04:48:51 +0800
Subject: [PATCH 148/396] model: support intern-s1 (#8350)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: zxy <zhou0493@e.ntu.edu.sg>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Mick <mickjagger19@icloud.com>
Co-authored-by: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
---
 python/sglang/lang/chat_template.py           |  21 ++
 python/sglang/srt/configs/internvl.py         |   3 +
 python/sglang/srt/configs/model_config.py     |   1 +
 python/sglang/srt/conversation.py             |  17 +-
 python/sglang/srt/layers/attention/vision.py  |  64 +++-
 python/sglang/srt/layers/layernorm.py         |  27 +-
 python/sglang/srt/models/interns1.py          | 328 ++++++++++++++++++
 python/sglang/srt/models/internvl.py          | 190 +++++++---
 python/sglang/srt/models/qwen3_moe.py         |   3 +
 .../srt/multimodal/processors/internvl.py     |  25 +-
 10 files changed, 616 insertions(+), 63 deletions(-)
 create mode 100644 python/sglang/srt/models/interns1.py

diff --git a/python/sglang/lang/chat_template.py b/python/sglang/lang/chat_template.py
index f309d053dde4..ef348d27eef4 100644
--- a/python/sglang/lang/chat_template.py
+++ b/python/sglang/lang/chat_template.py
@@ -448,6 +448,19 @@ def get_chat_template_by_model_path(model_path):
     )
 )
 
+register_chat_template(
+    ChatTemplate(
+        name="interns1",
+        default_system_prompt="You are an AI assistant whose name is Intern-S1 (书生大模型).\n- Intern-S1 (书生大模型) is a vision-language model that is developed by Shanghai AI Laboratory (上海人工智能实验室).  It is designed to be helpful, honest, and harmless.\n- Intern-S1 (书生大模型) can understand and communicate fluently in the language chosen by the user such as English and 中文.\nYou are an expert reasoner with extensive experience in all areas. You approach problems through systematic thinking and rigorous reasoning. Your response should reflect deep understanding and precise logical thinking, making your solution path and reasoning clear to others. Please put your thinking process within <think>...</think> tags.",
+        role_prefix_and_suffix={
+            "system": ("<|im_start|>system\n", "<|im_end|>\n"),
+            "user": ("<|im_start|>user\n", "<|im_end|>\n"),
+            "assistant": ("<|im_start|>assistant\n", "<|im_end|>\n"),
+        },
+        stop_str=["<|im_end|>", "<|action_end|>"],
+    )
+)
+
 register_chat_template(
     ChatTemplate(
         name="granite-3-instruct",
@@ -609,6 +622,14 @@ def match_internvl_chat(model_path: str):
         return "internvl-2-5"
 
 
+@register_chat_template_matching_function
+def match_interns1_chat(model_path: str):
+    if re.search(r"intern-s1", model_path, re.IGNORECASE):
+        return "interns1"
+    if re.search(r"interns1", model_path, re.IGNORECASE):
+        return "interns1"
+
+
 if __name__ == "__main__":
     messages = [
         {"role": "system", "content": None},  # None means default
diff --git a/python/sglang/srt/configs/internvl.py b/python/sglang/srt/configs/internvl.py
index b4ddda22773d..7033ef359588 100644
--- a/python/sglang/srt/configs/internvl.py
+++ b/python/sglang/srt/configs/internvl.py
@@ -10,6 +10,7 @@
     PretrainedConfig,
     PreTrainedTokenizer,
     Qwen2Config,
+    Qwen3Config,
 )
 
 from sglang.utils import logger
@@ -314,6 +315,8 @@ def __init__(
             self.llm_config = InternLM2Config(**llm_config)
         elif llm_config.get("architectures")[0] == "Qwen2ForCausalLM":
             self.llm_config = Qwen2Config(**llm_config)
+        elif llm_config.get("architectures")[0] == "Qwen3MoeForCausalLM":
+            self.llm_config = Qwen3Config(**llm_config)
         else:
             raise ValueError(
                 "Unsupported architecture: {}".format(
diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index cea455a24ed4..c2d1d14155e1 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -635,6 +635,7 @@ def is_generation_model(model_architectures: List[str], is_embedding: bool = Fal
     "Qwen2_5_VLForConditionalGeneration",
     "KimiVLForConditionalGeneration",
     "InternVLChatModel",
+    "InternS1ForConditionalGeneration",
     "Phi4MMForCausalLM",
     "VILAForConditionalGeneration",
 ]
diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index 80b706430bf7..cc0071628f85 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -623,7 +623,7 @@ def generate_chat_conv(
                         real_content += content.text
                     elif content.type == "image_url":
                         # NOTE: works for llava and intervl2_5
-                        if conv.name == "internvl-2-5":
+                        if conv.name in ["internvl-2-5", "interns1"]:
                             real_content = image_token + real_content
                         else:
                             real_content += image_token
@@ -817,6 +817,19 @@ def generate_chat_conv(
     )
 )
 
+register_conv_template(
+    Conversation(
+        name="interns1",
+        system_template="<|im_start|>system\n{system_message}",
+        system_message="You are an AI assistant whose name is Intern-S1 (书生大模型).\n- Intern-S1 (书生大模型) is a vision-language model that is developed by Shanghai AI Laboratory (上海人工智能实验室).  It is designed to be helpful, honest, and harmless.\n- Intern-S1 (书生大模型) can understand and communicate fluently in the language chosen by the user such as English and 中文.\nYou are an expert reasoner with extensive experience in all areas. You approach problems through systematic thinking and rigorous reasoning. Your response should reflect deep understanding and precise logical thinking, making your solution path and reasoning clear to others. Please put your thinking process within <think>...</think> tags.",
+        roles=("<|im_start|>user\n", "<|im_start|>assistant\n"),
+        sep_style=SeparatorStyle.MPT,
+        sep="<|im_end|>\n",
+        stop_str=["<|im_end|>", "<|action_end|>"],
+        image_token="<image>",
+    )
+)
+
 # Reference: https://huggingface.co/docs/transformers/main/model_doc/qwen2_vl#usage-example
 register_conv_template(
     Conversation(
@@ -986,6 +999,8 @@ def generate_chat_conv(
 def match_internvl(model_path: str):
     if re.search(r"internvl", model_path, re.IGNORECASE):
         return "internvl-2-5"
+    if re.search(r"interns1", model_path, re.IGNORECASE):
+        return "interns1"
 
 
 @register_conv_template_matching_function
diff --git a/python/sglang/srt/layers/attention/vision.py b/python/sglang/srt/layers/attention/vision.py
index 41f3110cda9b..c7bbd3ea681d 100644
--- a/python/sglang/srt/layers/attention/vision.py
+++ b/python/sglang/srt/layers/attention/vision.py
@@ -3,7 +3,7 @@
 import dataclasses
 import functools
 import math
-from functools import lru_cache
+from functools import lru_cache, partial
 from typing import Any, Optional, Tuple, Union
 
 import torch
@@ -18,11 +18,16 @@
 if _is_cuda:
     from sgl_kernel.flash_attn import flash_attn_varlen_func
 
-from sglang.srt.distributed import parallel_state
+from sglang.srt.distributed import (
+    parallel_state,
+    split_tensor_along_last_dim,
+    tensor_model_parallel_all_gather,
+)
 from sglang.srt.distributed import utils as dist_utils
 from sglang.srt.layers.attention.triton_ops.prefill_attention import (
     context_attention_fwd,
 )
+from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -349,25 +354,44 @@ def __init__(
         flatten_batch: bool = False,
         prefix: str = "",
         proj_bias: bool = True,
+        num_dummy_heads: int = 0,
+        qkv_bias: bool = True,
+        qk_normalization: bool = False,
+        layer_norm_eps: float = 1e-06,
         **kwargs,
     ):
         super().__init__()
         world_size = parallel_state.get_tensor_model_parallel_world_size()
+        self.tp_size = world_size
+        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
         self.dropout = dropout
         self.head_size = embed_dim // num_heads
         self.hidden_size_per_attention_head = dist_utils.divide(
             projection_size, num_heads
         )
         self.num_attention_heads_per_partition = dist_utils.divide(
-            num_heads, world_size
+            num_dummy_heads + num_heads, world_size
         )
         self.num_attention_kv_heads_per_partition = dist_utils.divide(
-            num_heads, world_size
+            num_dummy_heads + num_heads, world_size
         )
 
         self.q_size = self.num_attention_heads_per_partition * self.head_size
         self.kv_size = self.num_attention_kv_heads_per_partition * self.head_size
 
+        self.qk_normalization = qk_normalization
+
+        # Additional dummy heads are used to enable TP for common GPU counts.
+        self.dummy_dim = (num_dummy_heads + num_heads) * self.head_size
+
+        if self.qk_normalization:
+            self.q_norm = RMSNorm(
+                self.dummy_dim, eps=layer_norm_eps, var_hidden_size=embed_dim
+            )
+            self.k_norm = RMSNorm(
+                self.dummy_dim, eps=layer_norm_eps, var_hidden_size=embed_dim
+            )
+
         if global_server_args_dict["mm_attention_backend"] is None:
             if qkv_backend is None:
                 qkv_backend = "sdpa"
@@ -391,26 +415,46 @@ def __init__(
             self.qkv_proj = QKVParallelLinear(
                 hidden_size=embed_dim,
                 head_size=self.head_size,
-                total_num_heads=num_heads,
-                total_num_kv_heads=num_heads,
+                total_num_heads=num_dummy_heads + num_heads,
+                total_num_kv_heads=num_dummy_heads + num_heads,
+                bias=qkv_bias,
                 quant_config=quant_config,
                 prefix=add_prefix("qkv_proj", prefix),
             )
         else:
             self.qkv_proj = ColumnParallelLinear(
                 input_size=embed_dim,
-                output_size=3 * projection_size,
+                output_size=3 * self.dummy_dim,
+                bias=qkv_bias,
                 quant_config=quant_config,
                 prefix=add_prefix("qkv_proj", prefix),
             )
         self.proj = RowParallelLinear(
-            input_size=embed_dim,
+            input_size=self.dummy_dim,
             output_size=embed_dim,
             bias=proj_bias,
             quant_config=quant_config,
             prefix=add_prefix("proj", prefix),
         )
 
+    def _apply_qk_norm(self, q: torch.Tensor, k: torch.Tensor):
+        """apply qk norm for internvl vit attn"""
+        q = q.flatten(1, 2)
+        k = k.flatten(1, 2)
+
+        if self.tp_size > 1:
+            q = tensor_model_parallel_all_gather(q.contiguous())
+            k = tensor_model_parallel_all_gather(k.contiguous())
+        q = self.q_norm(q)
+        k = self.k_norm(k)
+        if self.tp_size > 1:
+            splitter = partial(split_tensor_along_last_dim, num_partitions=self.tp_size)
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+        q = q.unflatten(-1, (-1, self.head_size))
+        k = k.unflatten(-1, (-1, self.head_size))
+        return q, k
+
     def forward(
         self,
         x: torch.Tensor,
@@ -489,6 +533,10 @@ def forward(
         assert k.dim() == 3, k.dim()
         assert v.dim() == 3, v.dim()
 
+        # internvl
+        if self.qk_normalization:
+            q, k = self._apply_qk_norm(q, k)
+
         output = self.qkv_backend.forward(
             q=q,
             k=k,
diff --git a/python/sglang/srt/layers/layernorm.py b/python/sglang/srt/layers/layernorm.py
index 0ad32a380a79..4c1f2268b32e 100644
--- a/python/sglang/srt/layers/layernorm.py
+++ b/python/sglang/srt/layers/layernorm.py
@@ -61,10 +61,15 @@ def __init__(
         self,
         hidden_size: int,
         eps: float = 1e-6,
+        var_hidden_size: Optional[int] = None,
     ) -> None:
         super().__init__()
         self.weight = nn.Parameter(torch.ones(hidden_size))
         self.variance_epsilon = eps
+        self.hidden_size = hidden_size
+        self.variance_size_override = (
+            None if var_hidden_size == hidden_size else var_hidden_size
+        )
         if _use_aiter:
             self._forward_method = self.forward_aiter
 
@@ -73,6 +78,8 @@ def forward_cuda(
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
     ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+        if self.variance_size_override is not None:
+            return self.forward_native(x, residual)
         if residual is not None:
             fused_add_rmsnorm(x, residual, self.weight.data, self.variance_epsilon)
             return x, residual
@@ -138,7 +145,25 @@ def forward_native(
             x = x + residual.to(torch.float32)
             residual = x.to(orig_dtype)
 
-        variance = x.pow(2).mean(dim=-1, keepdim=True)
+        hidden_size = x.shape[-1]
+        if hidden_size != self.hidden_size:
+            raise ValueError(
+                "Expected hidden_size to be "
+                f"{self.hidden_size}, but found: {hidden_size}"
+            )
+
+        if self.variance_size_override is None:
+            x_var = x
+        else:
+            if hidden_size < self.variance_size_override:
+                raise ValueError(
+                    "Expected hidden_size to be at least "
+                    f"{self.variance_size_override}, but found: {hidden_size}"
+                )
+
+            x_var = x[..., : self.variance_size_override]
+
+        variance = x_var.pow(2).mean(dim=-1, keepdim=True)
         x = x * torch.rsqrt(variance + self.variance_epsilon)
         x = (x * self.weight).to(orig_dtype)
         if residual is None:
diff --git a/python/sglang/srt/models/interns1.py b/python/sglang/srt/models/interns1.py
new file mode 100644
index 000000000000..75f2cb77543d
--- /dev/null
+++ b/python/sglang/srt/models/interns1.py
@@ -0,0 +1,328 @@
+from typing import Iterable, List, Optional, Set, Tuple
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from sglang.srt.distributed import parallel_state
+from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.managers.mm_utils import (
+    MultiModalityDataPaddingPatternTokenPairs,
+    general_mm_embed_routine,
+)
+from sglang.srt.managers.schedule_batch import (
+    Modality,
+    MultimodalDataItem,
+    MultimodalInputs,
+)
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.model_loader.weight_utils import default_weight_loader
+from sglang.srt.models.internvl import InternVisionModel
+from sglang.srt.models.qwen2 import Qwen2ForCausalLM
+from sglang.srt.models.qwen3_moe import Qwen3MoeForCausalLM
+from sglang.utils import logger
+
+
+class InternS1ForConditionalGeneration(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        use_flash_attn=True,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.quant_config = quant_config
+        self._update_hf_config()
+        image_size = (
+            getattr(config, "force_image_size", None) or config.vision_config.image_size
+        )
+        patch_size = config.vision_config.patch_size
+        if isinstance(image_size, list):
+            image_size = image_size[0]
+        if isinstance(patch_size, list):
+            patch_size = patch_size[0]
+        self.patch_size = patch_size
+        self.select_layer = config.vision_feature_layer
+        self.num_image_token = int(
+            (image_size // patch_size) ** 2 * (config.downsample_ratio**2)
+        )
+        self.downsample_ratio = config.downsample_ratio
+        self.ps_version = getattr(config, "ps_version", "v1")
+        # self.template = getattr(config, 'template', 'internvl2_5')
+
+        config.vision_config.use_flash_attn = True if use_flash_attn else False
+        config.text_config._attn_implementation = (
+            "flash_attention_2" if use_flash_attn else "eager"
+        )
+
+        logger.info(f"num_image_token: {self.num_image_token}")
+        logger.info(f"ps_version: {self.ps_version}")
+
+        self.vision_model = InternVisionModel(config.vision_config)
+        if config.text_config.architectures[0] == "Qwen2ForCausalLM":
+            self.language_model = Qwen2ForCausalLM(
+                config=config.text_config, quant_config=quant_config
+            )
+        elif config.text_config.architectures[0] == "Qwen3MoeForCausalLM":
+            self.language_model = Qwen3MoeForCausalLM(
+                config=config.text_config, quant_config=quant_config
+            )
+        else:
+            raise NotImplementedError(
+                f"{config.text_config.architectures[0]} is not implemented."
+            )
+
+        vit_hidden_size = config.vision_config.hidden_size
+        llm_hidden_size = config.text_config.hidden_size
+
+        self.mlp1 = nn.Sequential(
+            nn.LayerNorm(vit_hidden_size * int(1 / self.downsample_ratio) ** 2),
+            nn.Linear(
+                vit_hidden_size * int(1 / self.downsample_ratio) ** 2, llm_hidden_size
+            ),
+            nn.GELU(),
+            nn.Linear(llm_hidden_size, llm_hidden_size),
+        )
+
+    def _update_hf_config(self):
+        """update hf config to support tp"""
+        world_size = parallel_state.get_tensor_model_parallel_world_size()
+        num_heads = self.config.vision_config.num_attention_heads
+        head_dim = self.config.vision_config.hidden_size // num_heads
+        num_dummy_heads = 0
+
+        if num_heads % world_size != 0:
+            num_dummy_heads = (
+                (num_heads + world_size) // world_size
+            ) * world_size - num_heads
+
+        setattr(self.config.vision_config, "head_dim", head_dim)
+        setattr(self.config.vision_config, "num_dummy_heads", num_dummy_heads)
+
+    def pixel_shuffle(self, x, scale_factor=0.5):
+        n, w, h, c = x.size()
+        # N, W, H, C --> N, W, H * scale, C // scale
+        x = x.view(n, w, int(h * scale_factor), int(c / scale_factor))
+        # N, W, H * scale, C // scale --> N, H * scale, W, C // scale
+        x = x.permute(0, 2, 1, 3).contiguous()
+        # N, H * scale, W, C // scale --> N, H * scale, W * scale, C // (scale ** 2)
+        x = x.view(
+            n,
+            int(h * scale_factor),
+            int(w * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+        if self.ps_version == "v1":
+            logger.warn(
+                "In ps_version 'v1', the height and width have not been swapped back, "
+                "which results in a transposed image."
+            )
+        else:
+            x = x.permute(0, 2, 1, 3).contiguous()
+        return x
+
+    def extract_feature(self, pixel_values):
+        if self.select_layer == -1:
+            vit_embeds = self.vision_model(
+                pixel_values=pixel_values, output_hidden_states=False, return_dict=True
+            ).last_hidden_state
+        else:
+            vit_embeds = self.vision_model(
+                pixel_values=pixel_values, output_hidden_states=True, return_dict=True
+            ).hidden_states[self.select_layer]
+        vit_embeds = vit_embeds[:, 1:, :]
+
+        h = w = int(vit_embeds.shape[1] ** 0.5)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], h, w, -1)
+        vit_embeds = self.pixel_shuffle(vit_embeds, scale_factor=self.downsample_ratio)
+        vit_embeds = vit_embeds.reshape(vit_embeds.shape[0], -1, vit_embeds.shape[-1])
+        vit_embeds = self.mlp1(vit_embeds)
+        return vit_embeds
+
+    def get_image_feature(self, items: List[MultimodalDataItem]):
+        """
+        Projects the last hidden state from the vision model into language model space.
+
+        Returns:
+            image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
+        """
+        pixel_values = torch.cat([item.feature for item in items])
+        image_features = self.extract_feature(pixel_values)
+        return image_features
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+    ) -> torch.Tensor:
+
+        hs = general_mm_embed_routine(
+            input_ids=input_ids,
+            forward_batch=forward_batch,
+            language_model=self.language_model,
+            data_embedding_funcs={
+                Modality.IMAGE: self.get_image_feature,
+            },
+            positions=positions,
+        )
+
+        return hs
+
+    def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
+        # Get all special token IDs
+        im_start_id: int = mm_inputs.im_start_id
+        im_end_id: int = mm_inputs.im_end_id
+
+        media_token_pairs = [(im_start_id, im_end_id)]
+        helper = MultiModalityDataPaddingPatternTokenPairs(media_token_pairs)
+
+        return helper.pad_input_tokens(input_ids, mm_inputs)
+
+    def _pad_vit_attn_dummy_heads(self, name: str, loaded_weight: torch.Tensor):
+        """pad attn qkv weights for dummy heads"""
+        num_dummy_heads = self.config.vision_config.num_dummy_heads
+        if num_dummy_heads == 0:
+            return loaded_weight
+        head_dim = self.config.vision_config.head_dim
+
+        if any([_ in name for _ in ["attn.q_proj", "attn.k_proj", "attn.v_proj"]]):
+            if name.endswith(".weight"):
+                dummy_shape = [num_dummy_heads, head_dim, loaded_weight.shape[-1]]
+            elif name.endswith(".bias"):
+                dummy_shape = [num_dummy_heads, head_dim]
+            else:
+                raise RuntimeError(f"Unsupported weight with name={name}")
+            padded_weight = loaded_weight.new_zeros(dummy_shape)
+            loaded_weight = torch.cat(
+                [loaded_weight.unflatten(0, (-1, head_dim)), padded_weight], dim=0
+            ).flatten(0, 1)
+        if "attn.proj.weight" in name:
+            padded_weight = loaded_weight.new_zeros(
+                loaded_weight.shape[0], head_dim * num_dummy_heads
+            )
+            loaded_weight = torch.cat([loaded_weight, padded_weight], dim=-1)
+        if "attn.q_norm.weight" in name or "attn.k_norm.weight" in name:
+            padded_weight = loaded_weight.new_zeros(head_dim * num_dummy_heads)
+            loaded_weight = torch.cat([loaded_weight, padded_weight], dim=0)
+        return loaded_weight
+
+    def _mapping_interns1_name(self, name):
+        names_map = {
+            "lm_head.weight": "language_model.lm_head.weight",
+            "model.multi_modal_projector.layer_norm.bias": "mlp1.0.bias",
+            "model.multi_modal_projector.layer_norm.weight": "mlp1.0.weight",
+            "model.multi_modal_projector.linear_1.bias": "mlp1.1.bias",
+            "model.multi_modal_projector.linear_1.weight": "mlp1.1.weight",
+            "model.multi_modal_projector.linear_2.bias": "mlp1.3.bias",
+            "model.multi_modal_projector.linear_2.weight": "mlp1.3.weight",
+            "model.vision_tower.embeddings.cls_token": "vision_model.embeddings.class_embedding",
+            "model.vision_tower.embeddings.patch_embeddings.projection.bias": "vision_model.embeddings.patch_embedding.bias",
+            "model.vision_tower.embeddings.patch_embeddings.projection.weight": "vision_model.embeddings.patch_embedding.weight",
+            "model.vision_tower.embeddings.position_embeddings": "vision_model.embeddings.position_embedding",
+        }
+        if name in names_map:
+            name = names_map[name]
+        elif name.startswith("model.language_model."):
+            name = "language_model.model." + name[len("model.language_model.") :]
+        elif name.startswith("model.vision_tower."):
+            name = "vision_model." + name[len("model.vision_tower.") :]
+
+        if name.startswith("vision_model.encoder.layer"):
+
+            name = name.replace(r".layer.", r".layers.")
+            name = name.replace(r".attention.", r".attn.attn.")
+            name = name.replace(r".projection_layer.", r".proj.")
+            name = name.replace(r".lambda_1", r".ls1")
+            name = name.replace(r".lambda_2", r".ls2")
+            name = name.replace(r".layernorm_before.", r".norm1.")
+            name = name.replace(r".layernorm_after.", r".norm2.")
+        return name
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        expert_params_mapping = []
+        if "Qwen3MoeForCausalLM" in self.config.text_config.architectures:
+            expert_params_mapping = get_moe_impl_class().make_expert_params_mapping(
+                ckpt_gate_proj_name="gate_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="up_proj",
+                num_experts=self.config.num_experts,
+            )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: Set[str] = set()
+
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            name = self._mapping_interns1_name(name)
+            if "vision_model" in name:
+                loaded_weight = self._pad_vit_attn_dummy_heads(name, loaded_weight)
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if "mlp.experts" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+
+            loaded_params.add(name)
+        unloaded_params = params_dict.keys() - loaded_params
+        if unloaded_params:
+            raise RuntimeError(
+                f"Some weights are not initialized from checkpoints: {unloaded_params}"
+            )
+        return loaded_params
+
+
+EntryClass = [InternS1ForConditionalGeneration]
diff --git a/python/sglang/srt/models/internvl.py b/python/sglang/srt/models/internvl.py
index 056797cbfe00..db093dd0846b 100644
--- a/python/sglang/srt/models/internvl.py
+++ b/python/sglang/srt/models/internvl.py
@@ -1,16 +1,3 @@
-# Copyright 2023-2024 SGLang Team
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# ==========================582====================================================
 from typing import Iterable, List, Optional, Set, Tuple, Union
 
 import torch
@@ -23,7 +10,9 @@
 from transformers.activations import ACT2FN
 from transformers.modeling_outputs import BaseModelOutput, BaseModelOutputWithPooling
 
+from sglang.srt.distributed import parallel_state
 from sglang.srt.layers.attention.vision import SingletonCache, VisionAttention
+from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.managers.mm_utils import (
     MultiModalityDataPaddingPatternTokenPairs,
@@ -39,6 +28,7 @@
 from sglang.srt.models.deepseek_janus_pro import DropPath
 from sglang.srt.models.internlm2 import InternLM2ForCausalLM
 from sglang.srt.models.qwen2 import Qwen2ForCausalLM
+from sglang.srt.models.qwen3_moe import Qwen3MoeForCausalLM
 from sglang.utils import logger
 
 
@@ -53,7 +43,6 @@ def __init__(
         self.embed_dim = config.hidden_size
         self.num_heads = config.num_attention_heads
         self.head_dim = self.embed_dim // self.num_heads
-
         self.scale = self.head_dim**-0.5
 
         self.attn = VisionAttention(
@@ -64,18 +53,16 @@ def __init__(
             use_qkv_parallel=True,
             quant_config=quant_config,
             dropout=getattr(config, "dropout", 0.0),
-            proj_bias=getattr(config, "qkv_bias", True),
+            qkv_bias=getattr(config, "qkv_bias", False)
+            or getattr(config, "attention_bias", False),
+            num_dummy_heads=getattr(config, "num_dummy_heads", 0),
+            qk_normalization=getattr(config, "qk_normalization", False)
+            or getattr(config, "use_qk_norm", False),
             flatten_batch=False,
         )
 
         self.proj_drop = nn.Dropout(config.dropout)
 
-        self.qk_normalization = config.qk_normalization
-
-        if self.qk_normalization:
-            self.q_norm = InternRMSNorm(self.embed_dim, eps=config.layer_norm_eps)
-            self.k_norm = InternRMSNorm(self.embed_dim, eps=config.layer_norm_eps)
-
     def forward(
         self,
         hidden_states: torch.Tensor,
@@ -91,8 +78,16 @@ def __init__(self, config: PretrainedConfig):
         super().__init__()
         self.config = config
         self.embed_dim = config.hidden_size
-        self.image_size = config.image_size
-        self.patch_size = config.patch_size
+        self.image_size = (
+            config.image_size
+            if isinstance(config.image_size, int)
+            else config.image_size[0]
+        )
+        self.patch_size = (
+            config.patch_size
+            if isinstance(config.patch_size, int)
+            else config.patch_size[0]
+        )
 
         self.class_embedding = nn.Parameter(
             torch.randn(1, 1, self.embed_dim),
@@ -199,7 +194,7 @@ def __init__(
         self.embed_dim = config.hidden_size
         self.intermediate_size = config.intermediate_size
         self.norm_type = config.norm_type
-        self.attn = InternAttention(config)
+        self.attn = InternAttention(config=config, quant_config=quant_config)
         self.mlp = InternMLP(config)
         self.norm1 = NORM2FN[self.norm_type](self.embed_dim, eps=config.layer_norm_eps)
         self.norm2 = NORM2FN[self.norm_type](self.embed_dim, eps=config.layer_norm_eps)
@@ -417,7 +412,7 @@ def __init__(
         super().__init__()
         self.config = config
         self.quant_config = quant_config
-
+        self._update_vision_config()
         image_size = config.force_image_size or config.vision_config.image_size
         patch_size = config.vision_config.patch_size
         self.patch_size = patch_size
@@ -446,6 +441,10 @@ def __init__(
             self.language_model = InternLM2ForCausalLM(
                 config=config.llm_config, quant_config=quant_config
             )
+        elif config.llm_config.architectures[0] == "Qwen3MoeForCausalLM":
+            self.language_model = Qwen3MoeForCausalLM(
+                config=config.llm_config, quant_config=quant_config
+            )
         else:
             raise NotImplementedError(
                 f"{config.llm_config.architectures[0]} is not implemented."
@@ -463,6 +462,21 @@ def __init__(
             nn.Linear(llm_hidden_size, llm_hidden_size),
         )
 
+    def _update_vision_config(self):
+        """update vision config to support tp"""
+        world_size = parallel_state.get_tensor_model_parallel_world_size()
+        num_heads = self.config.vision_config.num_attention_heads
+        head_dim = self.config.vision_config.hidden_size // num_heads
+        num_dummy_heads = 0
+
+        if num_heads % world_size != 0:
+            num_dummy_heads = (
+                (num_heads + world_size) // world_size
+            ) * world_size - num_heads
+
+        setattr(self.config.vision_config, "head_dim", head_dim)
+        setattr(self.config.vision_config, "num_dummy_heads", num_dummy_heads)
+
     def pixel_shuffle(self, x, scale_factor=0.5):
         n, w, h, c = x.size()
         # N, W, H, C --> N, W, H * scale, C // scale
@@ -545,7 +559,38 @@ def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
 
         return helper.pad_input_tokens(input_ids, mm_inputs)
 
+    def _pad_vit_attn_dummy_heads(self, name: str, loaded_weight: torch.Tensor):
+        """pad attn qkv weights for dummy heads"""
+        num_dummy_heads = self.config.vision_config.num_dummy_heads
+        if num_dummy_heads == 0:
+            return loaded_weight
+        head_dim = self.config.vision_config.head_dim
+
+        if "attn.qkv_proj" in name:
+            wq, wk, wv = loaded_weight.chunk(3, dim=0)
+            if name.endswith(".weight"):
+                dummy_shape = [num_dummy_heads, head_dim, wq.shape[-1]]
+            elif name.endswith(".bias"):
+                dummy_shape = [num_dummy_heads, head_dim]
+            else:
+                raise RuntimeError(f"Unsupported weight with name={name}")
+            pad_func = lambda x: torch.cat(
+                [x.unflatten(0, (-1, head_dim)), x.new_zeros(dummy_shape)], dim=0
+            ).flatten(0, 1)
+            wq, wk, wv = pad_func(wq), pad_func(wk), pad_func(wv)
+            loaded_weight = torch.cat([wq, wk, wv], dim=0)
+        if "attn.proj.weight" in name:
+            padded_weight = loaded_weight.new_zeros(
+                loaded_weight.shape[0], head_dim * num_dummy_heads
+            )
+            loaded_weight = torch.cat([loaded_weight, padded_weight], dim=-1)
+        if "attn.q_norm.weight" in name or "attn.k_norm.weight" in name:
+            padded_weight = loaded_weight.new_zeros(head_dim * num_dummy_heads)
+            loaded_weight = torch.cat([loaded_weight, padded_weight], dim=0)
+        return loaded_weight
+
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        expert_params_mapping = []
         if "InternLM2ForCausalLM" in self.config.llm_config.architectures:
             stacked_params_mapping = [
                 # (param_name, shard_name, shard_id)
@@ -561,15 +606,41 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
                 ("gate_up_proj", "gate_proj", 0),
                 ("gate_up_proj", "up_proj", 1),
             ]
+        elif "Qwen3MoeForCausalLM" in self.config.llm_config.architectures:
+            stacked_params_mapping = [
+                # (param_name, shard_name, shard_id)
+                ("qkv_proj", "q_proj", "q"),
+                ("qkv_proj", "k_proj", "k"),
+                ("qkv_proj", "v_proj", "v"),
+                ("gate_up_proj", "gate_proj", 0),
+                ("gate_up_proj", "up_proj", 1),
+            ]
+
+            expert_params_mapping = get_moe_impl_class().make_expert_params_mapping(
+                ckpt_gate_proj_name="gate_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="up_proj",
+                num_experts=self.config.num_experts,
+            )
+
         params_dict = dict(self.named_parameters())
         loaded_params: Set[str] = set()
 
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
+
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if "mlp.experts" in name:
+                    continue
                 name = name.replace(weight_name, param_name)
                 # Skip loading extra bias for GPTQ models.
                 if name.endswith(".bias") and name not in params_dict:
@@ -584,30 +655,55 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
                     name = name.replace(r"attn.", r"attn.attn.")
                     name = name.replace(r"qkv.", r"qkv_proj.")
 
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                param = params_dict[name]
-                if "wqkv" in name:
-                    config = self.config
-                    kv_groups = config.num_attention_heads // config.num_key_value_heads
-                    head_dim = config.hidden_size // config.num_attention_heads
-                    loaded_weight = loaded_weight.view(
-                        -1, 2 + kv_groups, head_dim, loaded_weight.shape[-1]
-                    )
-                    wq, wk, wv = torch.split(loaded_weight, [kv_groups, 1, 1], dim=1)
-                    wq = wq.reshape(-1, wq.shape[-1])
-                    wk = wk.reshape(-1, wk.shape[-1])
-                    wv = wv.reshape(-1, wv.shape[-1])
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    param = params_dict[name]
                     weight_loader = param.weight_loader
-                    weight_loader(param, wq, "q")
-                    weight_loader(param, wk, "k")
-                    weight_loader(param, wv, "v")
-                else:
-                    weight_loader = getattr(
-                        param, "weight_loader", default_weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
                     )
-                    weight_loader(param, loaded_weight)
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    if "wqkv" in name:
+                        config = self.config
+                        kv_groups = (
+                            config.num_attention_heads // config.num_key_value_heads
+                        )
+                        head_dim = config.hidden_size // config.num_attention_heads
+                        loaded_weight = loaded_weight.view(
+                            -1, 2 + kv_groups, head_dim, loaded_weight.shape[-1]
+                        )
+                        wq, wk, wv = torch.split(
+                            loaded_weight, [kv_groups, 1, 1], dim=1
+                        )
+                        wq = wq.reshape(-1, wq.shape[-1])
+                        wk = wk.reshape(-1, wk.shape[-1])
+                        wv = wv.reshape(-1, wv.shape[-1])
+                        weight_loader = param.weight_loader
+                        weight_loader(param, wq, "q")
+                        weight_loader(param, wk, "k")
+                        weight_loader(param, wv, "v")
+                    else:
+                        weight_loader = getattr(
+                            param, "weight_loader", default_weight_loader
+                        )
+                        if "vision_model" in name:
+                            loaded_weight = self._pad_vit_attn_dummy_heads(
+                                name, loaded_weight
+                            )
+                        weight_loader(param, loaded_weight)
+
             loaded_params.add(name)
         unloaded_params = params_dict.keys() - loaded_params
         if unloaded_params:
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index 8eeee74fad1e..6b8655459515 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -707,6 +707,9 @@ def __init__(
         self.logits_processor = LogitsProcessor(config)
         self.capture_aux_hidden_states = False
 
+    def get_input_embeddings(self) -> nn.Embedding:
+        return self.model.embed_tokens
+
     @torch.no_grad()
     def forward(
         self,
diff --git a/python/sglang/srt/multimodal/processors/internvl.py b/python/sglang/srt/multimodal/processors/internvl.py
index 234d57d35529..6ab17b1a9b1c 100644
--- a/python/sglang/srt/multimodal/processors/internvl.py
+++ b/python/sglang/srt/multimodal/processors/internvl.py
@@ -6,6 +6,7 @@
 from PIL import Image
 
 from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
+from sglang.srt.models.interns1 import InternS1ForConditionalGeneration
 from sglang.srt.models.internvl import InternVLChatModel
 from sglang.srt.multimodal.processors.base_processor import (
     BaseMultimodalProcessor,
@@ -14,12 +15,19 @@
 
 
 class InternVLImageProcessor(BaseMultimodalProcessor):
-    models = [InternVLChatModel]
+    models = [InternVLChatModel, InternS1ForConditionalGeneration]
 
     def __init__(self, hf_config, server_args, _image_processor, *args, **kwargs):
         super().__init__(hf_config, server_args, _image_processor, *args, **kwargs)
-        image_size = hf_config.force_image_size or hf_config.vision_config.image_size
+        image_size = (
+            getattr(hf_config, "force_image_size", None)
+            or hf_config.vision_config.image_size
+        )
         patch_size = hf_config.vision_config.patch_size
+        if isinstance(image_size, list):
+            image_size = image_size[0]
+        if isinstance(patch_size, list):
+            patch_size = patch_size[0]
 
         self.IMG_CONTEXT_TOKEN = "<IMG_CONTEXT>"
         self.IMG_START_TOKEN = "<img>"
@@ -27,8 +35,12 @@ def __init__(self, hf_config, server_args, _image_processor, *args, **kwargs):
         self.num_image_token = int(
             (image_size // patch_size) ** 2 * (hf_config.downsample_ratio**2)
         )
+        if hasattr(self._processor, "tokenizer"):
+            tokenizer = self._processor.tokenizer
+        else:
+            tokenizer = self._processor
+        self.tokenizer = tokenizer
 
-        tokenizer = self._processor
         self.img_start_token_id = tokenizer.convert_tokens_to_ids(self.IMG_START_TOKEN)
         self.img_end_token_id = tokenizer.convert_tokens_to_ids(self.IMG_END_TOKEN)
         self.mm_tokens = MultimodalSpecialTokens(
@@ -195,7 +207,7 @@ def process_image_internvl(image, input_size=448, max_num=12):
             try:
                 # TODO: video input
                 raw_image = process_image_internvl(image)
-                pixel_value = [raw_image.to(torch.bfloat16).cuda()]
+                pixel_value = [raw_image.to(torch.bfloat16)]
                 pixel_values += pixel_value
                 num_patches = raw_image.shape[0]
                 num_patches_list += [num_patches]
@@ -214,8 +226,9 @@ def process_image_internvl(image, input_size=448, max_num=12):
             )
             input_text = input_text.replace("<image>", image_tokens, 1)
 
-        tokenizer = self._processor
-        input_ids = tokenizer(input_text, return_tensors="pt")["input_ids"].flatten()
+        input_ids = self.tokenizer(input_text, return_tensors="pt")[
+            "input_ids"
+        ].flatten()
         image_offsets = self.get_mm_items_offset(
             input_ids=input_ids,
             mm_token_id=self.mm_tokens.image_token_id,

From 5c705b1dce9f189594c084b6465b36fc0c448bb8 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sat, 26 Jul 2025 14:55:22 -0700
Subject: [PATCH 149/396] Add perf tests for LoRA (#8314)

---
 .github/workflows/pr-test.yml    |   7 ++
 python/sglang/test/test_utils.py |  35 ++++++-
 test/srt/test_bench_serving.py   | 156 +++++++++++++++++++++++++++----
 3 files changed, 177 insertions(+), 21 deletions(-)

diff --git a/.github/workflows/pr-test.yml b/.github/workflows/pr-test.yml
index 6c79b0ae63fa..c19d9d068e89 100644
--- a/.github/workflows/pr-test.yml
+++ b/.github/workflows/pr-test.yml
@@ -174,6 +174,13 @@ jobs:
           cd test/srt
           python3 -m unittest test_bench_serving.TestBenchServing.test_online_latency_eagle
 
+      - name: Benchmark online latency (LoRA)
+        timeout-minutes: 10
+        run: |
+          cd test/srt
+          python3 -m unittest test_bench_serving.TestBenchServing.test_lora_online_latency
+          python3 -m unittest test_bench_serving.TestBenchServing.test_lora_online_latency_with_concurrent_adapter_updates
+
   performance-test-1-gpu-part-2:
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
         github.event.pull_request.draft == false
diff --git a/python/sglang/test/test_utils.py b/python/sglang/test/test_utils.py
index 132a796d498e..057bc5eb9fcf 100644
--- a/python/sglang/test/test_utils.py
+++ b/python/sglang/test/test_utils.py
@@ -1,6 +1,7 @@
 """Common utilities for testing and benchmarking"""
 
 import argparse
+import asyncio
 import copy
 import json
 import logging
@@ -15,7 +16,7 @@
 from dataclasses import dataclass
 from functools import partial
 from types import SimpleNamespace
-from typing import Callable, List, Optional, Tuple
+from typing import Awaitable, Callable, List, Optional, Tuple
 
 import numpy as np
 import requests
@@ -714,6 +715,7 @@ def get_benchmark_args(
     seed: int = 0,
     device="auto",
     pd_separated: bool = False,
+    lora_name=None,
 ):
     return SimpleNamespace(
         backend="sglang",
@@ -741,7 +743,7 @@ def get_benchmark_args(
         extra_request_body=None,
         apply_chat_template=False,
         profile=None,
-        lora_name=None,
+        lora_name=lora_name,
         prompt_suffix="",
         device=device,
         pd_separated=pd_separated,
@@ -764,6 +766,8 @@ def run_bench_serving(
     need_warmup=False,
     seed: int = 0,
     device="auto",
+    background_task: Optional[Callable[[str, asyncio.Event], Awaitable[None]]] = None,
+    lora_name: Optional[str] = None,
 ):
     if device == "auto":
         device = auto_config_device()
@@ -791,14 +795,35 @@ def run_bench_serving(
         disable_ignore_eos=disable_ignore_eos,
         seed=seed,
         device=device,
+        lora_name=lora_name,
     )
 
-    try:
+    async def _run():
         if need_warmup:
             warmup_args = copy.deepcopy(args)
             warmup_args.num_prompts = 16
-            run_benchmark(warmup_args)
-        res = run_benchmark(args)
+            await asyncio.to_thread(run_benchmark, warmup_args)
+
+        start_event = asyncio.Event()
+        stop_event = asyncio.Event()
+        task_handle = (
+            asyncio.create_task(background_task(base_url, start_event, stop_event))
+            if background_task
+            else None
+        )
+
+        try:
+            start_event.set()
+            result = await asyncio.to_thread(run_benchmark, args)
+        finally:
+            if task_handle:
+                stop_event.set()
+                await task_handle
+
+        return result
+
+    try:
+        res = asyncio.run(_run())
     finally:
         kill_process_tree(process.pid)
 
diff --git a/test/srt/test_bench_serving.py b/test/srt/test_bench_serving.py
index 19936c574dff..ee1346e1c18b 100644
--- a/test/srt/test_bench_serving.py
+++ b/test/srt/test_bench_serving.py
@@ -1,4 +1,9 @@
+import asyncio
+import itertools
 import unittest
+from random import random, uniform
+
+import requests
 
 from sglang.test.test_utils import (
     DEFAULT_EAGLE_DRAFT_MODEL_FOR_TEST,
@@ -16,7 +21,6 @@
 
 
 class TestBenchServing(CustomTestCase):
-
     def test_offline_throughput_default(self):
         res = run_bench_serving(
             model=DEFAULT_MODEL_NAME_FOR_TEST,
@@ -28,7 +32,7 @@ def test_offline_throughput_default(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_offline_throughput_default\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 3050)
@@ -51,7 +55,7 @@ def test_offline_throughput_non_stream_small_batch_size(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_offline_throughput_non_stream_small_batch_size\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             self.assertGreater(res["output_throughput"], 1050)
 
@@ -66,7 +70,7 @@ def test_offline_throughput_without_radix_cache(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_offline_throughput_without_radix_cache\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 3050)
@@ -84,7 +88,7 @@ def test_offline_throughput_without_chunked_prefill(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_offline_throughput_without_chunked_prefill\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             self.assertGreater(res["output_throughput"], 2600)
 
@@ -104,7 +108,7 @@ def test_offline_throughput_with_triton_attention_backend(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_offline_throughput_with_triton_attention_backend\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 3500)
@@ -122,7 +126,7 @@ def test_offline_throughput_default_fp8(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_offline_throughput_default_fp8\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 3500)
@@ -140,7 +144,7 @@ def test_online_latency_default(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_online_latency_default\n"
-                f'median_e2e_latency_ms: {res["median_e2e_latency_ms"]:.2f} ms\n'
+                f"median_e2e_latency_ms: {res['median_e2e_latency_ms']:.2f} ms\n"
             )
             self.assertLess(res["median_e2e_latency_ms"], 11000)
             if is_in_amd_ci():
@@ -164,7 +168,7 @@ def test_vlm_offline_throughput(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_vlm_offline_throughput\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 2000)
@@ -187,7 +191,7 @@ def test_vlm_online_latency(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_vlm_online_latency\n"
-                f'median_e2e_latency_ms: {res["median_e2e_latency_ms"]:.2f} ms\n'
+                f"median_e2e_latency_ms: {res['median_e2e_latency_ms']:.2f} ms\n"
             )
             self.assertLess(res["median_e2e_latency_ms"], 16500)
             if is_in_amd_ci():
@@ -197,6 +201,126 @@ def test_vlm_online_latency(self):
                 self.assertLess(res["median_ttft_ms"], 100)
             self.assertLess(res["median_itl_ms"], 8)
 
+    def test_lora_online_latency(self):
+        # TODO (lifuhuang): verify LoRA support in AMD.
+        if is_in_amd_ci():
+            pass
+
+        res = self._run_lora_latency_test(enable_background_task=False)
+
+        if is_in_ci():
+            write_github_step_summary(
+                f"### test_lora_online_latency\n"
+                f"median_e2e_latency_ms: {res['median_e2e_latency_ms']:.2f} ms\n"
+                f"median_ttft_ms: {res['median_ttft_ms']:.2f} ms\n"
+            )
+            self.assertLess(res["median_e2e_latency_ms"], 2400)
+            self.assertLess(res["median_ttft_ms"], 58)
+
+    def test_lora_online_latency_with_concurrent_adapter_updates(self):
+        # TODO (lifuhuang): verify LoRA support in AMD.
+        if is_in_amd_ci():
+            pass
+
+        res = self._run_lora_latency_test(enable_background_task=True)
+
+        if is_in_ci():
+            write_github_step_summary(
+                f"### test_lora_online_latency\n"
+                f"median_e2e_latency_ms: {res['median_e2e_latency_ms']:.2f} ms\n"
+                f"median_ttft_ms: {res['median_ttft_ms']:.2f} ms\n"
+            )
+            self.assertLess(res["median_e2e_latency_ms"], 4000)
+            # TODO (lifuhuang): This will be fixed by the overlapped LoRA update in a separate PR.
+            self.assertLess(res["median_ttft_ms"], 1600)
+
+    def _run_lora_latency_test(self, enable_background_task: bool):
+        """
+        Run a latency test for LoRA with the specified background task setting.
+        """
+
+        async def lora_loader_unloader_task(
+            base_url: str,
+            start_event: asyncio.Event,
+            stop_event: asyncio.Event,
+        ):
+            """
+            A background task that repeatedly loads and unloads a LoRA adapter.
+            """
+            await start_event.wait()
+
+            path_cycler = itertools.cycle(
+                [
+                    "pbevan11/llama-3.1-8b-ocr-correction",
+                    "faridlazuarda/valadapt-llama-3.1-8B-it-chinese",
+                    "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+                ]
+            )
+            load_url = f"{base_url}/load_lora_adapter"
+            unload_url = f"{base_url}/unload_lora_adapter"
+            num_updates = 0
+
+            while not stop_event.is_set():
+                # 1. Load the LoRA adapter
+                lora_path = next(path_cycler)
+                response = await asyncio.to_thread(
+                    requests.post,
+                    load_url,
+                    json={"lora_name": lora_path, "lora_path": lora_path},
+                )
+                self.assertTrue(
+                    response.ok, f"Failed to load LoRA adapter: {response.text}"
+                )
+                num_updates += 1
+
+                if stop_event.is_set():
+                    break
+
+                # Yield control to allow other tasks to run.
+                await asyncio.sleep(1)
+
+                # 2. Unload the LoRA adapter
+                response = await asyncio.to_thread(
+                    requests.post,
+                    unload_url,
+                    json={"lora_name": lora_path},
+                )
+                self.assertTrue(
+                    response.ok, f"Failed to unload LoRA adapter: {response.text}"
+                )
+                num_updates += 1
+
+                # Yield control to allow other tasks to run.
+                await asyncio.sleep(1)
+
+        background_task = lora_loader_unloader_task if enable_background_task else None
+        res = run_bench_serving(
+            model=DEFAULT_MODEL_NAME_FOR_TEST,
+            num_prompts=400,
+            request_rate=8,
+            other_server_args=[
+                "--enable-lora",
+                "--max-loras-per-batch",
+                "1",
+                "--disable-radix-cache",
+                "--random-seed",
+                "42",
+                "--mem-fraction-static",
+                "0.8",
+                "--lora-paths",
+                "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+                "--max-lora-rank",
+                "256",
+            ],
+            dataset_name="random",
+            random_input_len=256,
+            random_output_len=256,
+            lora_name=["Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"],
+            background_task=background_task,
+        )
+
+        return res
+
     def test_online_latency_eagle(self):
         res = run_bench_serving(
             model=DEFAULT_EAGLE_TARGET_MODEL_FOR_TEST,
@@ -226,8 +350,8 @@ def test_online_latency_eagle(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_online_latency_eagle\n"
-                f'median_e2e_latency_ms: {res["median_e2e_latency_ms"]:.2f} ms\n'
-                f'accept_length: {res["accept_length"]:.2f} \n'
+                f"median_e2e_latency_ms: {res['median_e2e_latency_ms']:.2f} ms\n"
+                f"accept_length: {res['accept_length']:.2f} \n"
             )
             if is_in_amd_ci():
                 self.assertLess(res["median_e2e_latency_ms"], 1800)
@@ -246,7 +370,7 @@ def test_moe_offline_throughput_default(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_moe_offline_throughput_default\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 2100)
@@ -264,7 +388,7 @@ def test_moe_offline_throughput_without_radix_cache(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_moe_offline_throughput_without_radix_cache\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             if is_in_amd_ci():
                 self.assertGreater(res["output_throughput"], 2100)
@@ -286,7 +410,7 @@ def test_pp_offline_throughput_default_decode(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_pp_offline_throughput_default_decode\n"
-                f'Output throughput: {res["output_throughput"]:.2f} token/s\n'
+                f"Output throughput: {res['output_throughput']:.2f} token/s\n"
             )
             self.assertGreater(res["output_throughput"], 6700)
 
@@ -311,7 +435,7 @@ def test_pp_long_context_prefill(self):
         if is_in_ci():
             write_github_step_summary(
                 f"### test_pp_long_context_latency_prefill\n"
-                f'input_throughput: {res["input_throughput"]:.2f} ms\n'
+                f"input_throughput: {res['input_throughput']:.2f} ms\n"
             )
             self.assertGreater(res["input_throughput"], 4000)
 

From 761546315cd08e1a4948eb398dfc38dcec0dc432 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sat, 26 Jul 2025 21:24:22 -0700
Subject: [PATCH 150/396] Remove slot usage in code to be backward-compatible
 with python 3.9 (#8396)

---
 python/sglang/srt/lora/lora_registry.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/lora/lora_registry.py b/python/sglang/srt/lora/lora_registry.py
index b596c7371f9c..59ac917d22d4 100644
--- a/python/sglang/srt/lora/lora_registry.py
+++ b/python/sglang/srt/lora/lora_registry.py
@@ -19,7 +19,7 @@
 from uuid import uuid4
 
 
-@dataclass(frozen=True, slots=True)
+@dataclass(frozen=True)
 class LoRARef:
     """
     Reference record for a LoRA model.

From 62a6b7c77341d8c33f558399b1574fe4993d3cd3 Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Sat, 26 Jul 2025 21:25:07 -0700
Subject: [PATCH 151/396] Add docker release flow for gb200 (#8394)

---
 .github/workflows/release-docker-gb200.yml | 40 ++++++++++++++++++++++
 1 file changed, 40 insertions(+)
 create mode 100644 .github/workflows/release-docker-gb200.yml

diff --git a/.github/workflows/release-docker-gb200.yml b/.github/workflows/release-docker-gb200.yml
new file mode 100644
index 000000000000..69aee635e644
--- /dev/null
+++ b/.github/workflows/release-docker-gb200.yml
@@ -0,0 +1,40 @@
+name: Release Docker Images (GB200)
+on:
+  push:
+    branches:
+      - main
+    paths:
+      - "python/sglang/version.py"
+  workflow_dispatch:
+
+jobs:
+  publish:
+    if: github.repository == 'sgl-project/sglang'
+    runs-on: ubuntu-latest
+    environment: 'prod'
+    steps:
+      - name: Delete huge unnecessary tools folder
+        run: rm -rf /opt/hostedtoolcache
+
+      - name: Checkout repository
+        uses: actions/checkout@v4
+
+      - name: Set up QEMU
+        uses: docker/setup-qemu-action@v3
+
+      - name: Set up Docker Buildx
+        uses: docker/setup-buildx-action@v3
+
+      - name: Login to Docker Hub
+        uses: docker/login-action@v2
+        with:
+          username: ${{ secrets.DOCKERHUB_USERNAME }}
+          password: ${{ secrets.DOCKERHUB_TOKEN }}
+
+      - name: Build and Push
+        run: |
+          version=$(cat python/sglang/version.py | cut -d'"' -f2)
+          tag=v${version}-cu128-gb200
+
+          docker buildx build --platform linux/arm64 --output type=image,compression=zstd . -f docker/Dockerfile.gb200 --build-arg CUDA_VERSION=12.8.1 --build-arg BUILD_TYPE=blackwell -t lmsysorg/sglang:${tag} --no-cache
+          docker push lmsysorg/sglang:${tag}

From 528bd1ed856e4a9225eef3a4e9eeddff41c8a940 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Sat, 26 Jul 2025 23:13:16 -0700
Subject: [PATCH 152/396] HiCache, check before terminate prefetching (#8372)

---
 python/sglang/srt/managers/cache_controller.py | 16 +++++++++-------
 python/sglang/srt/mem_cache/hiradix_cache.py   |  7 +++++--
 2 files changed, 14 insertions(+), 9 deletions(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index 9ef860f632c6..fb7ad794f3f1 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -201,8 +201,9 @@ def __init__(
     def increment(self, num_tokens: int):
         with self._lock:
             if self._done_flag:
-                return
+                return False
             self.completed_tokens += num_tokens
+            return True
 
     def mark_done(self):
         with self._lock:
@@ -528,12 +529,12 @@ def prefetch_io_aux_func(self):
                             f"Prefetch operation {operation.request_id} failed to retrieve page {h}."
                         )
                         break
-                    self.mem_pool_host.set_from_flat_data_page(
-                        operation.host_indices[operation.completed_tokens],
-                        page_data,
-                    )
-                    operation.increment(self.page_size)
-                    if operation.is_done():
+                    if operation.increment(self.page_size):
+                        self.mem_pool_host.set_from_flat_data_page(
+                            operation.host_indices[operation.completed_tokens],
+                            page_data,
+                        )
+                    else:
                         # operation terminated by controller, release pre-allocated memory
                         self.mem_pool_host.free(
                             operation.host_indices[operation.completed_tokens :]
@@ -589,6 +590,7 @@ def prefetch_thread_func(self):
                 if storage_hit_count < self.prefetch_threshold:
                     # not to prefetch if not enough benefits
                     self.prefetch_revoke_queue.put(operation.request_id)
+                    self.mem_pool_host.free(operation.host_indices)
                     logger.debug(
                         f"Revoking prefetch for request {operation.request_id} due to insufficient hits ({storage_hit_count})."
                     )
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index 05248a1deb22..e6acbe9ccba0 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -365,10 +365,12 @@ def check_revoked_prefetch(self):
         for _ in range(queue_size.item()):
             req_id = self.cache_controller.prefetch_revoke_queue.get()
             if req_id in self.ongoing_prefetch:
-                last_host_node, _, host_indices, _ = self.ongoing_prefetch[req_id]
+                last_host_node, _, _, _ = self.ongoing_prefetch[req_id]
                 last_host_node.release_host()
-                self.cache_controller.mem_pool_host.free(host_indices)
                 del self.ongoing_prefetch[req_id]
+            else:
+                # the revoked operation already got terminated
+                pass
 
     def check_backup_progress(self):
         queue_size = torch.tensor(
@@ -403,6 +405,7 @@ def check_prefetch_progress(self, req_id: str):
         last_host_node, token_ids, host_indices, operation = self.ongoing_prefetch[
             req_id
         ]
+
         completed_tokens, hash_value = self.cache_controller.terminate_prefetch(
             operation
         )

From 426b74936a103f7dec0022218022ca56c2fb96af Mon Sep 17 00:00:00 2001
From: Qi Yuhang <45795032+HydraQYH@users.noreply.github.com>
Date: Sun, 27 Jul 2025 14:18:04 +0800
Subject: [PATCH 153/396] Add nvfp4 scaled mm benchmark. (#8401)

---
 .../benchmark/bench_nvfp4_scaled_gemm.py      | 172 ++++++++++++++++++
 1 file changed, 172 insertions(+)
 create mode 100644 sgl-kernel/benchmark/bench_nvfp4_scaled_gemm.py

diff --git a/sgl-kernel/benchmark/bench_nvfp4_scaled_gemm.py b/sgl-kernel/benchmark/bench_nvfp4_scaled_gemm.py
new file mode 100644
index 000000000000..44498a3b42ed
--- /dev/null
+++ b/sgl-kernel/benchmark/bench_nvfp4_scaled_gemm.py
@@ -0,0 +1,172 @@
+import argparse
+import copy
+import itertools
+
+import torch
+import triton
+from sgl_kernel import cutlass_scaled_fp4_mm, scaled_fp4_quant
+
+FLOAT4_E2M1_MAX = 6.0
+FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
+
+# Weight Shapes are in the format
+# ([K, N], TP_SPLIT_DIM)
+# Example:
+#  A shape of ([14336, 4096], 0) indicates the following GEMM shape,
+#   - TP1 : K = 14336, N = 4096
+#   - TP2 : K = 7168, N = 4096
+#  A shape of ([4096, 6144], 1) indicates the following GEMM shape,
+#   - TP1 : K = 4096, N = 6144
+#   - TP4 : K = 4096, N = 1536
+
+# TP1 shapes
+WEIGHT_SHAPES = {
+    "meta-llama/Llama-3.1-8B-Instruct": [
+        ([4096, 6144], 1),
+        ([4096, 4096], 0),
+        ([4096, 28672], 1),
+        ([14336, 4096], 0),
+    ],
+    "meta-llama/Llama-3.3-70B-Instruct": [
+        ([8192, 10240], 1),
+        ([8192, 8192], 0),
+        ([8192, 57344], 1),
+        ([28672, 8192], 0),
+    ],
+    "mistralai/Mistral-Large-Instruct-2407": [
+        ([12288, 14336], 1),
+        ([12288, 12288], 0),
+        ([12288, 57344], 1),
+        ([28672, 12288], 0),
+    ],
+    "Qwen/Qwen2.5-7B-Instruct": [
+        ([3584, 4608], 1),
+        ([3584, 3584], 0),
+        ([3584, 37888], 1),
+        ([18944, 3584], 0),
+    ],
+    "Qwen/Qwen2.5-32B-Instruct": [
+        ([5120, 7168], 1),
+        ([5120, 5120], 0),
+        ([5120, 55296], 1),
+        ([27648, 5120], 0),
+    ],
+    "Qwen/Qwen2.5-72B-Instruct": [
+        ([8192, 10240], 1),
+        ([8192, 8192], 0),
+        ([8192, 59136], 1),
+        ([29568, 8192], 0),
+    ],
+    "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct": [
+        ([2048, 3072], 1),
+        ([2048, 4096], 1),
+        ([2048, 2048], 0),
+        ([2048, 576], 0),
+        ([2048, 21888], 1),
+        ([10944, 2048], 0),
+        ([2048, 2816], 1),
+        ([1408, 2048], 0),
+    ],
+}
+
+
+@triton.testing.perf_report(
+    triton.testing.Benchmark(
+        x_names=["batch_size"],
+        x_vals=[1, 16, 64, 128, 256, 512, 1024, 2048],
+        x_log=False,
+        line_arg="provider",
+        line_vals=[
+            "sglang-fp4-fp16",
+            "sglang-fp4-bf16",
+        ],
+        line_names=[
+            "sglang-fp4-fp16",
+            "sglang-fp4-bf16",
+        ],
+        styles=[("green", "-"), ("blue", "-")],
+        ylabel="TFLOPS",
+        plot_name="fp4 block scaled matmul",
+        args={},
+    )
+)
+def benchmark(batch_size, provider, N, K):
+    # M, N, K = batch_size, 4096, 8192
+    run_step = 100
+    dtype = torch.float16 if "fp16" in provider else torch.bfloat16
+    M = batch_size
+    a = torch.randn((M, K), dtype=dtype, device="cuda")
+    b = torch.randn((N, K), dtype=dtype, device="cuda")
+    a_global_scale = (
+        (FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX) / torch.amax(a.flatten(), dim=-1)
+    ).to(torch.float32)
+    b_global_scale = (
+        (FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX) / torch.amax(b.flatten(), dim=-1)
+    ).to(torch.float32)
+    alpha = 1.0 / (a_global_scale * b_global_scale)
+    a_fp4, a_scale_interleaved = scaled_fp4_quant(a, a_global_scale)
+    b_fp4, b_scale_interleaved = scaled_fp4_quant(b, b_global_scale)
+
+    start_event = torch.cuda.Event(enable_timing=True)
+    end_event = torch.cuda.Event(enable_timing=True)
+
+    # Bridging the gap between CPU and GPU
+    for _ in range(25):
+        c = a @ b.t()
+    # Warmup
+    for _ in range(5):
+        cutlass_scaled_fp4_mm(
+            a_fp4, b_fp4, a_scale_interleaved, b_scale_interleaved, alpha, dtype
+        )
+    start_event.record()
+    for _ in range(run_step):
+        cutlass_scaled_fp4_mm(
+            a_fp4, b_fp4, a_scale_interleaved, b_scale_interleaved, alpha, dtype
+        )
+    end_event.record()
+    end_event.synchronize()
+    torch.cuda.synchronize()
+    ms = start_event.elapsed_time(end_event) / run_step
+
+    tflops = lambda ms: (2 * M * N * K) * 1e-9 / ms
+    return tflops(ms)
+
+
+def prepare_shapes(args):
+    KN_model_names = []
+    models_tps = list(itertools.product(args.models, args.tp_sizes))
+    for model, tp_size in models_tps:
+        assert model in WEIGHT_SHAPES
+        for KN, tp_split_dim in copy.deepcopy(WEIGHT_SHAPES[model]):
+            KN[tp_split_dim] = KN[tp_split_dim] // tp_size
+            KN.append(model)
+            KN_model_names.append(KN)
+    return KN_model_names
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--models",
+        nargs="+",
+        type=str,
+        default=["meta-llama/Llama-3.1-8B-Instruct"],
+        help="List of models to benchmark",
+    )
+    parser.add_argument(
+        "--tp-sizes",
+        nargs="+",
+        type=int,
+        default=[1],
+        help="List of tensor parallel sizes",
+    )
+    args = parser.parse_args()
+
+    KN_model_names = prepare_shapes(args)
+    for K, N, model_name in KN_model_names:
+        print(f"{model_name} N={N} K={K}: ")
+        benchmark.run(
+            print_data=True, show_plots=True, save_path="bench_fp4_res", N=N, K=K
+        )
+
+    print("Benchmark finished!")

From b602f4235487443d79b95bc940909912bf7c9310 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Sun, 27 Jul 2025 00:22:31 -0700
Subject: [PATCH 154/396] Urgent Fix: intern-s1 chat-template matching (#8403)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
---
 python/sglang/srt/conversation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index cc0071628f85..81e406eb7966 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -999,7 +999,7 @@ def generate_chat_conv(
 def match_internvl(model_path: str):
     if re.search(r"internvl", model_path, re.IGNORECASE):
         return "internvl-2-5"
-    if re.search(r"interns1", model_path, re.IGNORECASE):
+    if re.search(r"intern.*s1", model_path, re.IGNORECASE):
         return "interns1"
 
 

From ed0fdbf35b023f07ac3e8e2fbc09294cbbd486af Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sun, 27 Jul 2025 15:27:21 +0800
Subject: [PATCH 155/396] Tool to dump and compare internal activation tensors
 (#7976)

---
 python/sglang/srt/debug_utils.py              |  74 ----------
 python/sglang/srt/debug_utils/__init__.py     |   0
 .../sglang/srt/debug_utils/dump_comparator.py | 131 ++++++++++++++++++
 python/sglang/srt/debug_utils/dumper.py       | 108 +++++++++++++++
 4 files changed, 239 insertions(+), 74 deletions(-)
 delete mode 100644 python/sglang/srt/debug_utils.py
 create mode 100644 python/sglang/srt/debug_utils/__init__.py
 create mode 100644 python/sglang/srt/debug_utils/dump_comparator.py
 create mode 100644 python/sglang/srt/debug_utils/dumper.py

diff --git a/python/sglang/srt/debug_utils.py b/python/sglang/srt/debug_utils.py
deleted file mode 100644
index f019971df0f7..000000000000
--- a/python/sglang/srt/debug_utils.py
+++ /dev/null
@@ -1,74 +0,0 @@
-import os
-import time
-from pathlib import Path
-
-import torch
-
-from sglang.srt.utils import get_bool_env_var
-
-
-class _Dumper:
-    """Utility to dump tensors, which can be useful when comparison checking models.
-
-    Example usage:
-    debug_utils.dumper.dump("layer_start_hidden_states", hidden_states, layer_id=self.layer_id)
-    """
-
-    def __init__(self):
-        self._enable = get_bool_env_var("SGLANG_DUMPER_ENABLE", "true")
-        self._base_dir = Path(os.environ.get("SGLANG_DUMPER_DIR", "/tmp"))
-        self._enable_write_file = get_bool_env_var("SGLANG_DUMPER_WRITE_FILE", "1")
-        self._partial_name = str(time.time())
-        self.forward_pass_id = None
-
-    def dump(self, name, value, **kwargs):
-        if not self._enable:
-            return
-
-        from sglang.srt.distributed import get_tensor_model_parallel_rank
-
-        rank = get_tensor_model_parallel_rank()
-        full_kwargs = dict(
-            forward_pass_id=self.forward_pass_id,
-            name=name,
-            **kwargs,
-        )
-        full_filename = "___".join(f"{k}={v}" for k, v in full_kwargs.items()) + ".pt"
-        path = (
-            self._base_dir / f"sglang_dump_{self._partial_name}_{rank}" / full_filename
-        )
-
-        sample_value = self._get_sample_value(name, value)
-
-        print(
-            f"[{rank}, {time.time()}] {path} "
-            f"type={type(value)} "
-            f"shape={value.shape if isinstance(value, torch.Tensor) else None} "
-            f"dtype={value.dtype if isinstance(value, torch.Tensor) else None} "
-            f"sample_value={sample_value}"
-        )
-
-        if self._enable_write_file:
-            path.parent.mkdir(parents=True, exist_ok=True)
-            torch.save(value, str(path))
-
-    def _get_sample_value(self, name, value):
-        if value is None:
-            return None
-
-        if isinstance(value, tuple):
-            return [self._get_sample_value(name, x) for x in value]
-
-        if not isinstance(value, torch.Tensor):
-            return None
-
-        if value.numel() < 200:
-            return value
-
-        slices = [
-            slice(0, 5) if dim_size > 200 else slice(None) for dim_size in value.shape
-        ]
-        return value[tuple(slices)]
-
-
-dumper = _Dumper()
diff --git a/python/sglang/srt/debug_utils/__init__.py b/python/sglang/srt/debug_utils/__init__.py
new file mode 100644
index 000000000000..e69de29bb2d1
diff --git a/python/sglang/srt/debug_utils/dump_comparator.py b/python/sglang/srt/debug_utils/dump_comparator.py
new file mode 100644
index 000000000000..946cdc4fb7d5
--- /dev/null
+++ b/python/sglang/srt/debug_utils/dump_comparator.py
@@ -0,0 +1,131 @@
+import argparse
+import functools
+import re
+from pathlib import Path
+
+import polars as pl
+import torch
+
+from sglang.srt.debug_utils.dumper import get_truncated_value
+
+
+def main(args):
+    df_target = read_meta(args.target_path)
+    df_target = df_target.sort("rank", "dump_index")
+    df_target = df_target.filter(
+        (pl.col("forward_pass_id") >= args.start_id)
+        & (pl.col("forward_pass_id") <= args.end_id)
+    )
+    assert all(
+        c in df_target.columns
+        for c in ["rank", "forward_pass_id", "dump_index", "name"]
+    )
+
+    df_baseline = read_meta(args.baseline_path)
+    print("df_target", df_target)
+    print("df_baseline", df_baseline)
+
+    for row in df_target.iter_rows(named=True):
+        rows_baseline = df_baseline.filter(
+            (
+                pl.col("forward_pass_id")
+                == row["forward_pass_id"] - args.start_id + args.baseline_start_id
+            )
+            & functools.reduce(
+                lambda a, b: a & b,
+                [
+                    pl.col(col) == row[col]
+                    for col in row.keys()
+                    if col not in ["forward_pass_id", "dump_index", "filename"]
+                ],
+            )
+        )
+        assert len(rows_baseline) == 1, f"{rows_baseline=}"
+        row_baseline = rows_baseline.to_dicts()[0]
+
+        path_baseline = Path(args.baseline_path) / row_baseline["filename"]
+        path_target = Path(args.target_path) / row["filename"]
+        print(f"Check: target={str(path_target)} baseline={str(path_baseline)}")
+        check_tensor_pair(path_baseline=path_baseline, path_target=path_target)
+        print()
+
+
+def read_meta(directory):
+    directory = Path(directory)
+    assert directory.is_dir(), f"{directory=} should be a directory"
+
+    rows = []
+    for p in directory.glob("*.pt"):
+        full_kwargs = {}
+        for kv in p.stem.split("___"):
+            k, v = kv.split("=")
+            full_kwargs[k] = v
+        rows.append(
+            {
+                "filename": str(p.name),
+                **full_kwargs,
+            }
+        )
+
+    df = pl.DataFrame(rows)
+    df = df.with_columns(
+        pl.col("forward_pass_id").cast(int),
+        pl.col("rank").cast(int),
+    )
+    return df
+
+
+def check_tensor_pair(path_baseline, path_target):
+    x_baseline = torch.load(path_baseline, weights_only=True)
+    x_target = torch.load(path_target, weights_only=True)
+
+    print(
+        f"[shape] {x_baseline.shape} vs {x_target.shape}\t"
+        f"[dtype] {x_baseline.dtype} vs {x_target.dtype}"
+    )
+
+    if x_baseline.shape != x_target.shape:
+        print(f"❌ Shape mismatch")
+        return
+
+    raw_abs_diff = (x_target - x_baseline).abs()
+
+    max_abs_diff = raw_abs_diff.max().item()
+    mean_abs_diff = raw_abs_diff.mean().item()
+    rel_diff = _calc_rel_diff(x_target, x_baseline)
+
+    needs_print = max_abs_diff > 1e-3
+
+    print(
+        "\t".join(
+            f"{'❌' if value > 1e-3 else '✅'} {name}={value}"
+            for name, value in [
+                ("rel_diff", rel_diff),
+                ("max_abs_diff", max_abs_diff),
+                ("mean_abs_diff", mean_abs_diff),
+            ]
+        )
+    )
+
+    if needs_print:
+        print(f"x_baseline(sample)={get_truncated_value(x_baseline)}")
+        print(f"x_target(sample)={get_truncated_value(x_target)}")
+
+
+# Copied from DeepGEMM
+def _calc_rel_diff(x: torch.Tensor, y: torch.Tensor):
+    x, y = x.double(), y.double()
+    denominator = (x * x + y * y).sum()
+    sim = 2 * (x * y).sum() / denominator
+    return 1 - sim
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--baseline-path", type=str)
+    parser.add_argument("--target-path", type=str)
+    parser.add_argument("--start-id", type=int, default=0)
+    parser.add_argument("--end-id", type=int, default=1000000)
+    parser.add_argument("--baseline-start-id", type=int, default=0)
+    args = parser.parse_args()
+    main(args)
diff --git a/python/sglang/srt/debug_utils/dumper.py b/python/sglang/srt/debug_utils/dumper.py
new file mode 100644
index 000000000000..d10301241d7b
--- /dev/null
+++ b/python/sglang/srt/debug_utils/dumper.py
@@ -0,0 +1,108 @@
+import os
+import time
+from pathlib import Path
+from typing import Optional
+
+import torch
+import torch.distributed as dist
+
+
+class _Dumper:
+    """Utility to dump tensors, which can be useful when comparison checking models.
+
+    Example usage:
+    dumper.on_forward_pass_start()
+    dumper.dump("layer_start__hidden_states", hidden_states, layer_id=self.layer_id)
+
+    Import from non-SGLang system:
+    ```
+    import sys
+    sys.path.append("/YOUR_PATH/sglang/python/sglang/srt/debug_utils")
+    from dumper import dumper
+    ```
+
+    Related: `sglang.srt.debug_utils.dump_comparator` for dump comparison
+    """
+
+    def __init__(self):
+        # Do not import `sglang` to make this file standalone
+        self._enable = bool(int(os.environ.get("SGLANG_DUMPER_ENABLE", "1")))
+        self._base_dir = Path(os.environ.get("SGLANG_DUMPER_DIR", "/tmp"))
+        self._enable_write_file = bool(
+            int(os.environ.get("SGLANG_DUMPER_WRITE_FILE", "1"))
+        )
+        self._partial_name: Optional[str] = None
+        self._dump_index = 0
+        self._forward_pass_id = 0
+
+    def on_forward_pass_start(self):
+        self._forward_pass_id += 1
+        print(
+            f"[Dumper] [{time.time()}] on_forward_pass_start id={self._forward_pass_id}"
+        )
+
+    def dump(self, name, value, **kwargs):
+        if not self._enable:
+            return
+
+        assert (
+            self._forward_pass_id >= 1
+        ), "Do you forget to call `dumper.on_forward_pass_start()`?"
+        self._dump_index += 1
+
+        if self._partial_name is None:
+            self._partial_name = _get_partial_name()
+
+        rank = dist.get_rank()
+        full_kwargs = dict(
+            forward_pass_id=self._forward_pass_id,
+            rank=rank,
+            name=name,
+            dump_index=self._dump_index,
+            **kwargs,
+        )
+        full_filename = "___".join(f"{k}={v}" for k, v in full_kwargs.items()) + ".pt"
+        path = self._base_dir / f"sglang_dump_{self._partial_name}" / full_filename
+
+        sample_value = get_truncated_value(value)
+
+        print(
+            f"[Dumper] [{rank}, {time.time()}] {path} "
+            f"type={type(value)} "
+            f"shape={value.shape if isinstance(value, torch.Tensor) else None} "
+            f"dtype={value.dtype if isinstance(value, torch.Tensor) else None} "
+            f"sample_value={sample_value}"
+        )
+
+        if self._enable_write_file:
+            path.parent.mkdir(parents=True, exist_ok=True)
+            torch.save(value, str(path))
+
+
+def _get_partial_name():
+    rank = dist.get_rank()
+    object_list = [str(time.time()) if rank == 0 else None]
+    dist.broadcast_object_list(object_list, device="cuda")
+    return object_list[0]
+
+
+def get_truncated_value(value):
+    if value is None:
+        return None
+
+    if isinstance(value, tuple):
+        return [get_truncated_value(x) for x in value]
+
+    if not isinstance(value, torch.Tensor):
+        return None
+
+    if value.numel() < 200:
+        return value
+
+    slices = [
+        slice(0, 5) if dim_size > 200 else slice(None) for dim_size in value.shape
+    ]
+    return value[tuple(slices)]
+
+
+dumper = _Dumper()

From 62222bd27e4bd3051dc3517dbfe82287912ffbef Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sun, 27 Jul 2025 15:27:50 +0800
Subject: [PATCH 156/396] Minor tool for comparison of benchmark results
 (#7974)

---
 benchmark/gsm8k/bench_sglang.py               |   7 +
 benchmark/mmlu/bench_sglang.py                |   8 +
 .../sglang/srt/debug_utils/text_comparator.py | 172 ++++++++++++++++++
 python/sglang/test/test_utils.py              |  35 ++++
 4 files changed, 222 insertions(+)
 create mode 100644 python/sglang/srt/debug_utils/text_comparator.py

diff --git a/benchmark/gsm8k/bench_sglang.py b/benchmark/gsm8k/bench_sglang.py
index 05ac0beb1391..fe15c015a728 100644
--- a/benchmark/gsm8k/bench_sglang.py
+++ b/benchmark/gsm8k/bench_sglang.py
@@ -10,6 +10,7 @@
 from sglang.api import set_default_backend
 from sglang.test.test_utils import (
     add_common_sglang_args_and_parse,
+    dump_bench_raw_result,
     select_sglang_backend,
 )
 from sglang.utils import download_and_cache_file, dump_state_text, read_jsonl
@@ -115,6 +116,12 @@ def few_shot_gsm8k(s, question):
 
     # Dump results
     dump_state_text(f"tmp_output_{args.backend}.txt", states)
+    dump_bench_raw_result(
+        path=args.raw_result_file,
+        states=states,
+        preds=preds,
+        labels=labels,
+    )
 
     with open(args.result_file, "a") as fout:
         value = {
diff --git a/benchmark/mmlu/bench_sglang.py b/benchmark/mmlu/bench_sglang.py
index 0bae7b6e4506..23057be4aed8 100644
--- a/benchmark/mmlu/bench_sglang.py
+++ b/benchmark/mmlu/bench_sglang.py
@@ -9,6 +9,7 @@
 
 from sglang.test.test_utils import (
     add_common_sglang_args_and_parse,
+    dump_bench_raw_result,
     select_sglang_backend,
 )
 
@@ -142,6 +143,13 @@ def few_shot_mmlu(s, examples, question):
     assert pt == len(cors)
     weighted_acc = np.mean(cors)
 
+    dump_bench_raw_result(
+        path=args.raw_result_file,
+        states=states,
+        preds=preds,
+        labels=labels,
+    )
+
     # Print results
     print("Total latency: {:.3f}".format(latency))
     print("Average accuracy: {:.3f}".format(weighted_acc))
diff --git a/python/sglang/srt/debug_utils/text_comparator.py b/python/sglang/srt/debug_utils/text_comparator.py
new file mode 100644
index 000000000000..5917fcfb6b8f
--- /dev/null
+++ b/python/sglang/srt/debug_utils/text_comparator.py
@@ -0,0 +1,172 @@
+import argparse
+import json
+from pathlib import Path
+
+import polars as pl
+
+_DESCRIPTION = """Compare and find differences to benchmark outputs.
+
+Supported inputs:
+* The samples jsonl from `lm_eval --log_samples --output_path FOLDER_NAME`
+* The output from `gsm8k/bench_sglang.py --raw-result-file FILE_NAME` (or mmlu)
+"""
+
+
+def main(args):
+    df_input = _transform_df_input(_compute_df_raw(args))
+    assert all(
+        c in df_input.columns
+        for c in ["category", "trial_index", "prompt_id", "prompt", "output", "correct"]
+    )
+
+    df_meta = _compute_df_meta(df_input)
+
+    df_correctness_per_trial = df_input.group_by(
+        "category", "trial_index", maintain_order=True
+    ).agg(pl.col("correct").mean())
+    df_correctness_delta = (
+        df_meta.group_by("correctness_delta").len().sort("correctness_delta")
+    )
+    df_good_to_bad = df_meta.filter(pl.col("correctness_delta") < 0)
+    df_bad_to_good = df_meta.filter(pl.col("correctness_delta") > 0)
+
+    print(f"Dump output to {args.output_path}")
+    Path(args.output_path).write_text(
+        json.dumps(
+            dict(
+                df_meta=df_meta.to_dicts(),
+                df_good_to_bad=df_good_to_bad.to_dicts(),
+                df_bad_to_good=df_bad_to_good.to_dicts(),
+            )
+        )
+    )
+
+    if not args.disable_print_details:
+        with pl.Config(
+            fmt_str_lengths=10000,
+            tbl_cols=-1,
+            tbl_rows=-1,
+            tbl_width_chars=-1,
+            tbl_formatting="UTF8_FULL",
+        ):
+            print("====== Correctness per trial ======")
+            print(df_correctness_per_trial)
+
+            print(
+                "====== Correctness Delta (-1.0 means all-right becomes all-wrong) ======"
+            )
+            print(df_correctness_delta)
+
+            for name, df in [
+                ("Good->Bad", df_good_to_bad),
+                ("Bad->Good", df_bad_to_good),
+            ]:
+                print(f"====== Concrete Examples: {name} ======")
+                print(df)
+
+
+def _compute_df_raw(args):
+    return pl.concat(
+        [
+            _read_df_raw(p, category=category, trial_index=i)
+            for category, paths in [
+                ("baseline", args.baseline_path),
+                ("target", args.target_path),
+            ]
+            for i, p in enumerate(paths)
+        ]
+    )
+
+
+def _read_df_raw(path: str, category: str, trial_index: int):
+    return pl.read_ndjson(path).with_columns(
+        category=pl.lit(category), trial_index=trial_index
+    )
+
+
+def _transform_df_input(df: pl.DataFrame):
+    if "doc_id" in df.columns:
+        print("Transform mode: lm_eval")
+
+        filter_names = df["filter"].unique(maintain_order=True).to_list()
+        if len(filter_names) > 1:
+            filter_name = filter_names[0]
+            print(f"Choose {filter_name=} among {filter_names}")
+            df = df.filter(pl.col("filter") == filter_name)
+
+        df = df.select(
+            pl.col("category"),
+            pl.col("trial_index"),
+            prompt_id=pl.col("doc_id"),
+            prompt=pl.col("arguments").struct.field("gen_args_0").struct.field("arg_0"),
+            output=pl.col("resps").list.get(0).list.get(0),
+            correct=pl.col("exact_match").cast(bool),
+        )
+
+        return df
+    elif "prompt_id" in df.columns:
+        print("Transform mode: SGLang bench")
+        return df
+    else:
+        raise Exception(f"Unknown data: {df.columns}")
+
+
+def _compute_df_meta(df_input: pl.DataFrame):
+    df_input = df_input.sort("prompt_id", "category", "trial_index")
+    df_meta = pl.DataFrame(
+        [
+            _handle_one_prompt(df_one_prompt)
+            for df_one_prompt in df_input.partition_by("prompt_id", maintain_order=True)
+        ]
+    )
+    df_meta = df_meta.with_columns(
+        correctness_delta=pl.col("correctness_target") - pl.col("correctness_baseline"),
+    )
+    df_meta = df_meta.sort("correctness_delta", "output_same_prefix_len")
+    return df_meta
+
+
+def _handle_one_prompt(df_one_prompt: pl.DataFrame):
+    assert len(set(df_one_prompt["prompt"])) == 1
+
+    df_baseline = df_one_prompt.filter(pl.col("category") == "baseline")
+    df_target = df_one_prompt.filter(pl.col("category") == "target")
+
+    outputs_baseline = df_baseline["output"].to_list()
+    outputs_target = df_target["output"].to_list()
+
+    output_same_prefix_len = max(
+        _compute_str_prefix_len(output_baseline, output_target)
+        for output_baseline in outputs_baseline
+        for output_target in outputs_target
+    )
+
+    return dict(
+        prompt_id=df_one_prompt[0, "prompt_id"],
+        correctness_baseline=df_baseline["correct"].mean(),
+        correctness_target=df_target["correct"].mean(),
+        output_same_prefix_len=output_same_prefix_len,
+        prompt=df_one_prompt[0, "prompt"],
+        outputs_baseline=outputs_baseline,
+        outputs_target=outputs_target,
+    )
+
+
+def _compute_str_prefix_len(a: str, b: str) -> int:
+    min_len = min(len(a), len(b))
+    for i in range(min_len):
+        if a[i] != b[i]:
+            return i
+    return min_len
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description=_DESCRIPTION)
+    parser.add_argument("--baseline-path", type=str, nargs="+")
+    parser.add_argument("--target-path", type=str, nargs="+")
+    parser.add_argument(
+        "--output-path", type=str, default="/tmp/text_comparator_output.json"
+    )
+    parser.add_argument("--disable-print-details", action="store_true")
+    args = parser.parse_args()
+    main(args)
diff --git a/python/sglang/test/test_utils.py b/python/sglang/test/test_utils.py
index 057bc5eb9fcf..65d989eab666 100644
--- a/python/sglang/test/test_utils.py
+++ b/python/sglang/test/test_utils.py
@@ -15,6 +15,7 @@
 from concurrent.futures import ThreadPoolExecutor
 from dataclasses import dataclass
 from functools import partial
+from pathlib import Path
 from types import SimpleNamespace
 from typing import Awaitable, Callable, List, Optional, Tuple
 
@@ -27,6 +28,7 @@
 from sglang.global_config import global_config
 from sglang.lang.backend.openai import OpenAI
 from sglang.lang.backend.runtime_endpoint import RuntimeEndpoint
+from sglang.lang.interpreter import ProgramState
 from sglang.srt.utils import (
     get_bool_env_var,
     get_device,
@@ -348,6 +350,7 @@ def add_common_sglang_args_and_parse(parser: argparse.ArgumentParser):
         help="Device type (auto/cuda/rocm/cpu). Auto will detect available platforms",
     )
     parser.add_argument("--result-file", type=str, default="result.jsonl")
+    parser.add_argument("--raw-result-file", type=str)
     args = parser.parse_args()
 
     return args
@@ -1309,3 +1312,35 @@ def _callTestMethod(self, method):
             lambda: super(CustomTestCase, self)._callTestMethod(method),
             max_retry=max_retry,
         )
+
+
+def dump_bench_raw_result(
+    path: str,
+    states,
+    preds,
+    labels,
+):
+    if not path:
+        return
+
+    rows = []
+    for i in range(len(states)):
+        state = states[i]
+        output = state["answer"]
+        prompt = _ensure_remove_suffix(state.text(), output)
+        rows.append(
+            dict(
+                prompt_id=i,
+                prompt=prompt,
+                output=output,
+                correct=bool(preds[i] == labels[i]),
+            )
+        )
+
+    print(f"BenchRawResultDumper save results to {path}")
+    Path(path).write_text("\n".join(json.dumps(row) for row in rows))
+
+
+def _ensure_remove_suffix(text: str, suffix: str):
+    assert text.endswith(suffix)
+    return text.removesuffix(suffix)

From e34cf6ad75dd310b5f8a75d82b7325cc51da0f0f Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sun, 27 Jul 2025 15:30:24 +0800
Subject: [PATCH 157/396] Fix bench script making input data on L2 cache
 (#7739)

---
 sgl-kernel/benchmark/bench_per_token_group_quant_8bit.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/sgl-kernel/benchmark/bench_per_token_group_quant_8bit.py b/sgl-kernel/benchmark/bench_per_token_group_quant_8bit.py
index c831729971e7..5a924898281b 100644
--- a/sgl-kernel/benchmark/bench_per_token_group_quant_8bit.py
+++ b/sgl-kernel/benchmark/bench_per_token_group_quant_8bit.py
@@ -205,9 +205,9 @@ def benchmark(batch_size, seq_len, group_size, dst_dtype, provider):
     quantiles = [0.5, 0.2, 0.8]
 
     if provider == "triton":
-        fn = lambda: triton_per_token_group_quant_8bit(x.clone(), group_size, dst_dtype)
+        fn = lambda: triton_per_token_group_quant_8bit(x, group_size, dst_dtype)
     elif provider == "sglang":
-        fn = lambda: sglang_per_token_group_quant_8bit(x.clone(), group_size, dst_dtype)
+        fn = lambda: sglang_per_token_group_quant_8bit(x, group_size, dst_dtype)
 
     ms, min_ms, max_ms = triton.testing.do_bench(fn, quantiles=quantiles)
 

From 85486b6f6f7246c9f3d62eb5414700e2679f0496 Mon Sep 17 00:00:00 2001
From: Kaixi Hou <kaixih@nvidia.com>
Date: Sun, 27 Jul 2025 00:34:41 -0700
Subject: [PATCH 158/396] [NVIDIA] Add Flashinfer MoE blockscale fp8 backend
 (#8036)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 109 ++++++++++++++++--
 .../srt/layers/moe/fused_moe_triton/layer.py  |  16 +--
 .../srt/layers/quantization/modelopt_quant.py |  10 +-
 python/sglang/srt/managers/schedule_batch.py  |   3 +-
 python/sglang/srt/models/deepseek_v2.py       |  64 ++++++----
 python/sglang/srt/models/qwen2_moe.py         |   4 +-
 python/sglang/srt/models/qwen3_moe.py         |   4 +-
 python/sglang/srt/server_args.py              |  16 ++-
 8 files changed, 179 insertions(+), 47 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 83f74fb27019..80fbadd5721e 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -47,12 +47,17 @@
     get_bool_env_var,
     is_hip,
     is_npu,
+    next_power_of_2,
 )
 
 _is_hip = is_hip()
 _is_npu = is_npu()
 _is_fp8_fnuz = is_fp8_fnuz()
 _use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
+use_flashinfer_trtllm_moe = (
+    global_server_args_dict["enable_flashinfer_trtllm_moe"]
+    and global_server_args_dict["enable_ep_moe"]
+)
 
 if not (_is_npu or _is_hip):
     from sgl_kernel import silu_and_mul
@@ -64,6 +69,13 @@
     from aiter.fused_moe import fused_moe
     from aiter.ops.shuffle import shuffle_weight
 
+if use_flashinfer_trtllm_moe:
+    try:
+        import flashinfer.fused_moe as fi_fused_moe
+    except ImportError:
+        fi_fused_moe = None
+        use_flashinfer_trtllm_moe = False
+
 logger = logging.getLogger(__name__)
 
 
@@ -140,6 +152,16 @@ def forward(
         return c
 
 
+def _get_tile_tokens_dim(num_tokens, top_k, num_experts):
+    # Guess tokens per expert assuming perfect expert distribution first.
+    num_tokens_per_expert = (num_tokens * top_k) // num_experts
+    # And pad the number to the next power of 2.
+    tile_tokens_dim = next_power_of_2(num_tokens_per_expert)
+    # Cap to 8-64 tokens per CTA tile as it's the range supported by the kernel.
+    tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
+    return tile_tokens_dim
+
+
 class EPMoE(torch.nn.Module):
     """
     MoE Expert Parallel Impl
@@ -776,14 +798,20 @@ def _weight_loader_physical(
             )
             return
 
-        if shard_id == "w2":
+        # Flashinfer assumes w31 format for w13_weight. Same for the scales.
+        if use_flashinfer_trtllm_moe:
+            actual_shard_id = {"w1": "w3", "w3": "w1", "w2": "w2"}[shard_id]
+        else:
+            actual_shard_id = shard_id
+
+        if actual_shard_id == "w2":
             param.data[expert_id] = loaded_weight
-        elif shard_id == "w1":
+        elif actual_shard_id == "w1":
             param.data[expert_id][: self.intermediate_size, :] = loaded_weight
-        elif shard_id == "w3":
+        elif actual_shard_id == "w3":
             param.data[expert_id][self.intermediate_size :, :] = loaded_weight
         else:
-            raise ValueError(f"Expected shard_id w1,w2 or w3 but got {shard_id}")
+            raise ValueError(f"Expected shard_id w1,w2 or w3 but got {actual_shard_id}")
 
     def _load_fp8_scale(
         self,
@@ -820,12 +848,18 @@ def _load_fp8_scale(
         # Weight scales
         elif "weight_scale" in weight_name:
             if self.use_block_quant:
+                if use_flashinfer_trtllm_moe:
+                    actual_shard_id = {"w1": "w3", "w3": "w1", "w2": "w2"}[shard_id]
+                else:
+                    actual_shard_id = shard_id
+
                 block_n, block_k = self.block_shape[0], self.block_shape[1]
-                if shard_id == "w1":
+
+                if actual_shard_id == "w1":
                     param_data[expert_id][
                         : (self.intermediate_size + block_n - 1) // block_n, :
                     ] = loaded_weight
-                elif shard_id == "w3":
+                elif actual_shard_id == "w3":
                     param_data[expert_id][
                         (self.intermediate_size + block_n - 1) // block_n :, :
                     ] = loaded_weight
@@ -1315,12 +1349,73 @@ def forward_deepgemm_masked(
         return down_output
 
 
+class FlashInferEPMoE(EPMoE):
+    def __init__(self, *args, **kwargs):
+        renormalize = kwargs.pop("renormalize", True)
+        num_fused_shared_experts = kwargs.pop("num_fused_shared_experts", 0)
+        use_grouped_topk = kwargs.pop("use_grouped_topk", False)
+        num_expert_group = kwargs.pop("num_expert_group", None)
+        topk_group = kwargs.pop("topk_group", None)
+        correction_bias = kwargs.pop("correction_bias", None)
+        super().__init__(*args, **kwargs)
+        self.renormalize = renormalize
+        self.num_fused_shared_experts = num_fused_shared_experts
+        self.use_grouped_topk = use_grouped_topk
+        if self.use_grouped_topk:
+            assert num_expert_group is not None and topk_group is not None
+        self.num_expert_group = num_expert_group
+        self.topk_group = topk_group
+        self.correction_bias = correction_bias
+
+    def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
+        assert use_flashinfer_trtllm_moe
+        assert (
+            self.activation == "silu"
+        ), "Only silu is supported for flashinfer blockscale fp8 moe"
+        assert (
+            self.renormalize
+        ), "Renormalize is required for flashinfer blockscale fp8 moe"
+        assert (
+            self.num_fused_shared_experts == 0
+        ), "Fused shared experts are not supported for flashinfer blockscale fp8 moe"
+        a_q, a_sf = sglang_per_token_group_quant_fp8(hidden_states, self.block_shape[1])
+        # NOTE: scales of hidden states have to be transposed!
+        a_sf_t = a_sf.t().contiguous()
+        assert fi_fused_moe is not None
+        return fi_fused_moe.trtllm_fp8_block_scale_moe(
+            routing_logits=router_logits.to(torch.float32),
+            routing_bias=self.correction_bias.to(hidden_states.dtype),
+            hidden_states=a_q,
+            hidden_states_scale=a_sf_t,
+            gemm1_weights=self.w13_weight,
+            gemm1_weights_scale=self.w13_weight_scale_inv,
+            gemm2_weights=self.w2_weight,
+            gemm2_weights_scale=self.w2_weight_scale_inv,
+            num_experts=self.num_experts,
+            top_k=self.top_k,
+            n_group=self.num_expert_group,
+            topk_group=self.topk_group,
+            intermediate_size=self.w2_weight.shape[2],
+            local_expert_offset=self.start_expert_id,
+            local_num_experts=self.num_experts_per_partition,
+            routed_scaling_factor=self.routed_scaling_factor,
+            tile_tokens_dim=_get_tile_tokens_dim(
+                hidden_states.shape[0], self.top_k, self.num_experts
+            ),
+            routing_method_type=2,  # DeepSeek-styled routing method
+            use_shuffled_weight=False,
+        )
+
+
 def get_moe_impl_class():
     if global_server_args_dict["enable_deepep_moe"]:
         return DeepEPMoE
-    if global_server_args_dict["enable_flashinfer_moe"]:
+    if global_server_args_dict["enable_flashinfer_cutlass_moe"]:
         # Must come before EPMoE because FusedMoE also supports enable_ep_moe
         return FusedMoE
+    if use_flashinfer_trtllm_moe:
+        # Must come before EPMoE because FusedMoE also supports enable_ep_moe
+        return FlashInferEPMoE
     if global_server_args_dict["enable_ep_moe"]:
         return EPMoE
     return FusedMoE
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 0c3cb0422f55..5983a6beb286 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -75,7 +75,7 @@ def __init__(
         inplace: bool = True,
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
-        enable_flashinfer_moe: Optional[bool] = False,
+        enable_flashinfer_cutlass_moe: Optional[bool] = False,
         enable_ep_moe: Optional[bool] = False,
     ):
         super().__init__()
@@ -92,16 +92,16 @@ def __init__(
         self.num_experts = num_experts
         self.expert_map = None
 
-        if enable_flashinfer_moe and quant_config is None:
+        if enable_flashinfer_cutlass_moe and quant_config is None:
             logger.warning("Disable flashinfer MoE when quantization config is None.")
-            enable_flashinfer_moe = False
+            enable_flashinfer_cutlass_moe = False
             enable_ep_moe = False
 
-        self.enable_flashinfer_moe = enable_flashinfer_moe
+        self.enable_flashinfer_cutlass_moe = enable_flashinfer_cutlass_moe
         if enable_ep_moe:
             assert (
-                self.enable_flashinfer_moe
-            ), "FusedMoE only supports EP with --enable-flashinfer-moe"
+                self.enable_flashinfer_cutlass_moe
+            ), "FusedMoE only supports EP with --enable-flashinfer-cutlass-moe"
             self.ep_size = self.tp_size
             self.ep_rank = self.tp_rank
             self.tp_size = 1
@@ -141,7 +141,9 @@ def __init__(
         else:
             self.quant_method = quant_config.get_quant_method(self, prefix)
             if self.quant_method.__class__.__name__ == "ModelOptNvFp4FusedMoEMethod":
-                self.quant_method.enable_flashinfer_moe = self.enable_flashinfer_moe
+                self.quant_method.enable_flashinfer_cutlass_moe = (
+                    self.enable_flashinfer_cutlass_moe
+                )
         assert self.quant_method is not None
 
         self.quant_config = quant_config
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 9087f79b088c..223d7d43fbc9 100644
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -711,7 +711,7 @@ def __init__(self, quant_config: ModelOptFp4Config):
                 " quantization. Please use Blackwell and"
                 " above."
             )
-        self.enable_flashinfer_moe = False
+        self.enable_flashinfer_cutlass_moe = False
 
     def create_weights(
         self,
@@ -865,7 +865,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         w13_weight_scale_2 = layer.w13_weight_scale_2[:, 0]
         layer.w13_weight_scale_2 = Parameter(w13_weight_scale_2, requires_grad=False)
 
-        if self.enable_flashinfer_moe:
+        if self.enable_flashinfer_cutlass_moe:
             w13_input_scale = layer.w13_input_scale.max().to(torch.float32)
         else:
             w13_input_scale = layer.w13_input_scale.max(dim=1).values.to(torch.float32)
@@ -894,7 +894,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         layer.w13_weight = Parameter(layer.w13_weight.data, requires_grad=False)
 
         # GEMM 2
-        if self.enable_flashinfer_moe:
+        if self.enable_flashinfer_cutlass_moe:
             w2_input_scale = layer.w2_input_scale.max().to(torch.float32)
         else:
             w2_input_scale = layer.w2_input_scale
@@ -934,7 +934,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
     @property
     def load_up_proj_weight_first(self) -> bool:
         # FlashInfer CUTLASS kernel assumes [Up, Gate] Proj as W13
-        return self.enable_flashinfer_moe
+        return self.enable_flashinfer_cutlass_moe
 
     def apply(
         self,
@@ -954,7 +954,7 @@ def apply(
     ) -> torch.Tensor:
         assert activation == "silu", "Only SiLU activation is supported."
 
-        if self.enable_flashinfer_moe:
+        if self.enable_flashinfer_cutlass_moe:
             assert (
                 not apply_router_weight_on_input
             ), "apply_router_weight_on_input is not supported for Flashinfer"
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 283da3394db2..5d174db77511 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -88,7 +88,8 @@
     "enable_deepep_moe",
     "deepep_mode",
     "enable_ep_moe",
-    "enable_flashinfer_moe",
+    "enable_flashinfer_cutlass_moe",
+    "enable_flashinfer_trtllm_moe",
     "enable_flashinfer_allreduce_fusion",
     "moe_dense_tp_size",
     "ep_dispatch_algorithm",
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 7c627bc090f6..be6ef9bf3384 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -56,7 +56,11 @@
     RowParallelLinear,
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
-from sglang.srt.layers.moe.ep_moe.layer import DeepEPMoE, get_moe_impl_class
+from sglang.srt.layers.moe.ep_moe.layer import (
+    DeepEPMoE,
+    get_moe_impl_class,
+    use_flashinfer_trtllm_moe,
+)
 from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
 from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization import deep_gemm_wrapper
@@ -302,15 +306,19 @@ def __init__(
             config=config, prefix=add_prefix("gate", prefix), is_nextn=is_nextn
         )
 
-        self.topk = TopK(
-            top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
-            renormalize=config.norm_topk_prob,
-            use_grouped_topk=True,
-            num_expert_group=config.n_group,
-            num_fused_shared_experts=self.num_fused_shared_experts,
-            topk_group=config.topk_group,
-            correction_bias=self.gate.e_score_correction_bias,
-            routed_scaling_factor=self.routed_scaling_factor,
+        self.topk = (
+            TopK(
+                top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
+                renormalize=config.norm_topk_prob,
+                use_grouped_topk=True,
+                num_expert_group=config.n_group,
+                num_fused_shared_experts=self.num_fused_shared_experts,
+                topk_group=config.topk_group,
+                correction_bias=self.gate.e_score_correction_bias,
+                routed_scaling_factor=self.routed_scaling_factor,
+            )
+            if not use_flashinfer_trtllm_moe
+            else None
         )
 
         self.experts = get_moe_impl_class()(
@@ -332,10 +340,22 @@ def __init__(
             # Additional args for FusedMoE
             **(
                 dict(
-                    enable_flashinfer_moe=True,
+                    enable_flashinfer_cutlass_moe=True,
                     enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
-                if global_server_args_dict["enable_flashinfer_moe"]
+                if global_server_args_dict["enable_flashinfer_cutlass_moe"]
+                else {}
+            ),
+            **(
+                dict(
+                    renormalize=config.norm_topk_prob,
+                    use_grouped_topk=True,
+                    num_expert_group=config.n_group,
+                    num_fused_shared_experts=self.num_fused_shared_experts,
+                    topk_group=config.topk_group,
+                    correction_bias=self.gate.e_score_correction_bias,
+                )
+                if use_flashinfer_trtllm_moe
                 else {}
             ),
         )
@@ -455,10 +475,12 @@ def forward_normal_dual_stream(
         with torch.cuda.stream(self.alt_stream):
             # router_logits: (num_tokens, n_experts)
             router_logits = self.gate(hidden_states)
-            topk_output = self.topk(hidden_states, router_logits)
-            final_hidden_states = self.experts(
-                hidden_states=hidden_states, topk_output=topk_output
-            )
+            kwargs = {"hidden_states": hidden_states}
+            if self.topk is not None:
+                kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+            else:
+                kwargs["router_logits"] = router_logits
+            final_hidden_states = self.experts(**kwargs)
             if not _is_cuda:
                 final_hidden_states *= self.routed_scaling_factor
         current_stream.wait_stream(self.alt_stream)
@@ -478,10 +500,12 @@ def forward_normal(
         shared_output = self._forward_shared_experts(hidden_states)
         # router_logits: (num_tokens, n_experts)
         router_logits = self.gate(hidden_states)
-        topk_output = self.topk(hidden_states, router_logits)
-        final_hidden_states = self.experts(
-            hidden_states=hidden_states, topk_output=topk_output
-        )
+        kwargs = {"hidden_states": hidden_states}
+        if self.topk is not None:
+            kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+        else:
+            kwargs["router_logits"] = router_logits
+        final_hidden_states = self.experts(**kwargs)
         if not _is_cuda and not _use_aiter:
             # fused in biased_grouped_topk so we can skip here
             final_hidden_states *= self.routed_scaling_factor
diff --git a/python/sglang/srt/models/qwen2_moe.py b/python/sglang/srt/models/qwen2_moe.py
index 291678652939..716e6c0963a2 100644
--- a/python/sglang/srt/models/qwen2_moe.py
+++ b/python/sglang/srt/models/qwen2_moe.py
@@ -147,10 +147,10 @@ def __init__(
             # Additional args for FusedMoE
             **(
                 dict(
-                    enable_flashinfer_moe=True,
+                    enable_flashinfer_cutlass_moe=True,
                     enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
-                if global_server_args_dict["enable_flashinfer_moe"]
+                if global_server_args_dict["enable_flashinfer_cutlass_moe"]
                 else {}
             ),
         )
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index 6b8655459515..01235f7acf87 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -120,10 +120,10 @@ def __init__(
             # Additional args for FusedMoE
             **(
                 dict(
-                    enable_flashinfer_moe=True,
+                    enable_flashinfer_cutlass_moe=True,
                     enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
-                if global_server_args_dict["enable_flashinfer_moe"]
+                if global_server_args_dict["enable_flashinfer_cutlass_moe"]
                 else {}
             ),
         )
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 27091dc232d0..f1497d2a6e5c 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -169,7 +169,8 @@ class ServerArgs:
     ep_size: int = 1
     enable_ep_moe: bool = False
     enable_deepep_moe: bool = False
-    enable_flashinfer_moe: bool = False
+    enable_flashinfer_cutlass_moe: bool = False
+    enable_flashinfer_trtllm_moe: bool = False
     enable_flashinfer_allreduce_fusion: bool = False
     deepep_mode: Optional[Literal["auto", "normal", "low_latency"]] = "auto"
     ep_num_redundant_experts: int = 0
@@ -428,12 +429,16 @@ def __post_init__(self):
             ), "Please enable dp attention when setting enable_dp_lm_head. "
 
         # MoE kernel
-        if self.enable_flashinfer_moe:
+        if self.enable_flashinfer_cutlass_moe:
             assert (
                 self.quantization == "modelopt_fp4"
             ), "modelopt_fp4 quantization is required for Flashinfer MOE"
             os.environ["TRTLLM_ENABLE_PDL"] = "1"
 
+        if self.enable_flashinfer_trtllm_moe:
+            assert self.enable_ep_moe, "EP MoE is required for Flashinfer TRTLLM MOE"
+            logger.warning(f"Flashinfer TRTLLM MoE is enabled.")
+
         # DeepEP MoE
         if self.enable_deepep_moe:
             if self.deepep_mode == "normal":
@@ -1293,10 +1298,15 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="Enabling expert parallelism for moe. The ep size is equal to the tp size.",
         )
         parser.add_argument(
-            "--enable-flashinfer-moe",
+            "--enable-flashinfer-cutlass-moe",
             action="store_true",
             help="Enable FlashInfer CUTLASS MoE backend for modelopt_fp4 quant on Blackwell. Supports MoE-EP with --enable-ep-moe",
         )
+        parser.add_argument(
+            "--enable-flashinfer-trtllm-moe",
+            action="store_true",
+            help="Enable FlashInfer TRTLLM MoE backend on Blackwell. Supports BlockScale FP8 MoE-EP with --enable-ep-moe",
+        )
         parser.add_argument(
             "--enable-flashinfer-allreduce-fusion",
             action="store_true",

From 91e3d1542e545c9429b86ad72c526f291ed2b4dc Mon Sep 17 00:00:00 2001
From: Baizhou Zhang <sobereddiezhang@gmail.com>
Date: Sun, 27 Jul 2025 00:36:15 -0700
Subject: [PATCH 159/396] Update Cutlass in sgl-kernel to v4.1 (#8392)

---
 sgl-kernel/CMakeLists.txt                                       | 2 +-
 .../sm90_mma_array_tma_gmma_rs_warpspecialized_mixed_input_.hpp | 1 -
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/sgl-kernel/CMakeLists.txt b/sgl-kernel/CMakeLists.txt
index 739782372909..b359c76c1cfb 100644
--- a/sgl-kernel/CMakeLists.txt
+++ b/sgl-kernel/CMakeLists.txt
@@ -45,7 +45,7 @@ include(FetchContent)
 FetchContent_Declare(
     repo-cutlass
     GIT_REPOSITORY https://github.com/NVIDIA/cutlass
-    GIT_TAG        f115c3f85467d5d9619119d1dbeb9c03c3d73864
+    GIT_TAG        664c4f7b3ed1959414905025728eef5568209479
     GIT_SHALLOW    OFF
 )
 FetchContent_Populate(repo-cutlass)
diff --git a/sgl-kernel/csrc/cutlass_extensions/gemm/collective/sm90_mma_array_tma_gmma_rs_warpspecialized_mixed_input_.hpp b/sgl-kernel/csrc/cutlass_extensions/gemm/collective/sm90_mma_array_tma_gmma_rs_warpspecialized_mixed_input_.hpp
index 6e1a01e22cc4..13e890e35c57 100644
--- a/sgl-kernel/csrc/cutlass_extensions/gemm/collective/sm90_mma_array_tma_gmma_rs_warpspecialized_mixed_input_.hpp
+++ b/sgl-kernel/csrc/cutlass_extensions/gemm/collective/sm90_mma_array_tma_gmma_rs_warpspecialized_mixed_input_.hpp
@@ -36,7 +36,6 @@
 #include "cute/arch/copy_sm90.hpp"
 #include "cute/atom/mma_atom.hpp"
 #include "cute/numeric/arithmetic_tuple.hpp"
-#include "cute/tensor_predicate.hpp"
 #include "cutlass/cuda_host_adapter.hpp"
 #include "cutlass/cutlass.h"
 #include "cutlass/gemm/dispatch_policy.hpp"

From 0bcc195f4ebf2c98aa07cd3b49d0c1b5c4bc05d4 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Sun, 27 Jul 2025 15:38:49 +0800
Subject: [PATCH 160/396] fix: minor fix TransportProxyTensor under tp (#8382)

---
 python/sglang/srt/managers/mm_utils.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/managers/mm_utils.py b/python/sglang/srt/managers/mm_utils.py
index 78a9762eef0e..6f73488d3293 100644
--- a/python/sglang/srt/managers/mm_utils.py
+++ b/python/sglang/srt/managers/mm_utils.py
@@ -92,9 +92,7 @@ def __getstate__(self):
                 }
                 state["tensor_data"] = None
             except Exception as e:
-                print_warning_once(
-                    f"Warning: Failed to get CUDA IPC handle ({e}). Falling back to default transport."
-                )
+                # Failed to get CUDA IPC handle (possibly tp). Falling back to default transport.
                 state["metadata"]["transport_mode"] = "default"
                 state["tensor_data"] = self.as_subclass(torch.Tensor)
         else:
@@ -751,7 +749,7 @@ def tensor_hash(tensor_list) -> int:
         ]
         tensor = torch.concat(tensor_list)
     if tensor.is_cuda:
-        return gpu_tensor_hash(tensor)
+        return gpu_tensor_hash(tensor.cuda())
     tensor = tensor.detach().contiguous()
 
     if tensor.dtype == torch.bfloat16:

From 2ab97023e316cbeddf6c5e1f0ca6b6b94c194135 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sun, 27 Jul 2025 00:39:20 -0700
Subject: [PATCH 161/396] [router] add different policies for p node and d node
 (#8395)

---
 sgl-router/README.md                          |  14 +-
 .../py_src/sglang_router/launch_router.py     |  67 +++++-
 sgl-router/py_src/sglang_router/router.py     |   8 +
 sgl-router/src/config/types.rs                | 190 ++++++++++++++++++
 sgl-router/src/config/validation.rs           | 101 ++++++++++
 sgl-router/src/lib.rs                         |  47 +++--
 sgl-router/src/policies/cache_aware.rs        |   6 +-
 sgl-router/src/routers/factory.rs             |  28 ++-
 sgl-router/src/routers/pd_router.rs           | 152 +++++++++-----
 sgl-router/tests/test_pd_routing.rs           |   6 +
 10 files changed, 537 insertions(+), 82 deletions(-)

diff --git a/sgl-router/README.md b/sgl-router/README.md
index c899a6f59e0b..baa894e1fc97 100644
--- a/sgl-router/README.md
+++ b/sgl-router/README.md
@@ -120,6 +120,16 @@ python -m sglang_router.launch_router \
     --prefill-selector app=sglang component=prefill \
     --decode-selector app=sglang component=decode \
     --service-discovery-namespace sglang-system
+
+# With separate routing policies:
+python -m sglang_router.launch_router \
+    --pd-disaggregation \
+    --prefill-policy cache_aware \
+    --decode-policy power_of_two \
+    --service-discovery \
+    --prefill-selector app=sglang component=prefill \
+    --decode-selector app=sglang component=decode \
+    --service-discovery-namespace sglang-system
 ```
 
 #### Kubernetes Pod Configuration
@@ -226,7 +236,9 @@ python -m sglang_router.launch_router \
 - `--decode`: Initial decode server URL
 - `--prefill-selector`: Label selector for prefill pods
 - `--decode-selector`: Label selector for decode pods
-- `--policy`: Routing policy (`cache_aware`, `random`, `power_of_two`)
+- `--policy`: Routing policy (`cache_aware`, `random`, `power_of_two`, `round_robin`)
+- `--prefill-policy`: Separate routing policy for prefill nodes (optional, overrides `--policy` for prefill)
+- `--decode-policy`: Separate routing policy for decode nodes (optional, overrides `--policy` for decode)
 
 ## Development
 
diff --git a/sgl-router/py_src/sglang_router/launch_router.py b/sgl-router/py_src/sglang_router/launch_router.py
index f7aaf6dee628..af1ce392c0b6 100644
--- a/sgl-router/py_src/sglang_router/launch_router.py
+++ b/sgl-router/py_src/sglang_router/launch_router.py
@@ -40,6 +40,8 @@ class RouterArgs:
 
     # Routing policy
     policy: str = "cache_aware"
+    prefill_policy: Optional[str] = None  # Specific policy for prefill nodes in PD mode
+    decode_policy: Optional[str] = None  # Specific policy for decode nodes in PD mode
     worker_startup_timeout_secs: int = 300
     worker_startup_check_interval: int = 10
     cache_threshold: float = 0.5
@@ -108,7 +110,21 @@ def add_cli_args(
             type=str,
             default=RouterArgs.policy,
             choices=["random", "round_robin", "cache_aware", "power_of_two"],
-            help="Load balancing policy to use. Note: power_of_two is only available in PD disaggregated mode",
+            help="Load balancing policy to use. In PD mode, this is used for both prefill and decode unless overridden",
+        )
+        parser.add_argument(
+            f"--{prefix}prefill-policy",
+            type=str,
+            default=None,
+            choices=["random", "round_robin", "cache_aware", "power_of_two"],
+            help="Specific policy for prefill nodes in PD mode. If not specified, uses the main policy",
+        )
+        parser.add_argument(
+            f"--{prefix}decode-policy",
+            type=str,
+            default=None,
+            choices=["random", "round_robin", "cache_aware", "power_of_two"],
+            help="Specific policy for decode nodes in PD mode. If not specified, uses the main policy",
         )
 
         # PD-specific arguments
@@ -266,6 +282,8 @@ def from_cli_args(
             prefill_urls=prefill_urls,
             decode_urls=decode_urls,
             policy=getattr(args, f"{prefix}policy"),
+            prefill_policy=getattr(args, f"{prefix}prefill_policy", None),
+            decode_policy=getattr(args, f"{prefix}decode_policy", None),
             worker_startup_timeout_secs=getattr(
                 args, f"{prefix}worker_startup_timeout_secs"
             ),
@@ -389,6 +407,35 @@ def launch_router(args: argparse.Namespace) -> Optional[Router]:
                 if not router_args.decode_urls:
                     raise ValueError("PD disaggregation mode requires --decode")
 
+            # Warn about policy usage in PD mode
+            if (
+                router_args.prefill_policy
+                and router_args.decode_policy
+                and router_args.policy
+            ):
+                logger.warning(
+                    "Both --prefill-policy and --decode-policy are specified. "
+                    "The main --policy flag will be ignored for PD mode."
+                )
+            elif (
+                router_args.prefill_policy
+                and not router_args.decode_policy
+                and router_args.policy
+            ):
+                logger.info(
+                    f"Using --prefill-policy '{router_args.prefill_policy}' for prefill nodes "
+                    f"and --policy '{router_args.policy}' for decode nodes."
+                )
+            elif (
+                router_args.decode_policy
+                and not router_args.prefill_policy
+                and router_args.policy
+            ):
+                logger.info(
+                    f"Using --policy '{router_args.policy}' for prefill nodes "
+                    f"and --decode-policy '{router_args.decode_policy}' for decode nodes."
+                )
+
         # Create router with unified constructor
         router = Router(
             worker_urls=(
@@ -424,6 +471,16 @@ def launch_router(args: argparse.Namespace) -> Optional[Router]:
             decode_urls=(
                 router_args.decode_urls if router_args.pd_disaggregation else None
             ),
+            prefill_policy=(
+                policy_from_str(router_args.prefill_policy)
+                if router_args.prefill_policy
+                else None
+            ),
+            decode_policy=(
+                policy_from_str(router_args.decode_policy)
+                if router_args.decode_policy
+                else None
+            ),
         )
 
         router.start()
@@ -455,12 +512,18 @@ def parse_router_args(args: List[str]) -> RouterArgs:
   # Regular mode
   python -m sglang_router.launch_router --worker-urls http://worker1:8000 http://worker2:8000
 
-  # PD disaggregated mode
+  # PD disaggregated mode with same policy for both
   python -m sglang_router.launch_router --pd-disaggregation \\
     --prefill http://prefill1:8000 9000 --prefill http://prefill2:8000 none \\
     --decode http://decode1:8001 --decode http://decode2:8001 \\
     --policy cache_aware
 
+  # PD mode with different policies for prefill and decode
+  python -m sglang_router.launch_router --pd-disaggregation \\
+    --prefill http://prefill1:8000 9000 --prefill http://prefill2:8000 none \\
+    --decode http://decode1:8001 --decode http://decode2:8001 \\
+    --prefill-policy cache_aware --decode-policy power_of_two
+
     """,
         formatter_class=CustomHelpFormatter,
     )
diff --git a/sgl-router/py_src/sglang_router/router.py b/sgl-router/py_src/sglang_router/router.py
index 4c5eed7960b1..cd10e8e69e3f 100644
--- a/sgl-router/py_src/sglang_router/router.py
+++ b/sgl-router/py_src/sglang_router/router.py
@@ -50,6 +50,10 @@ class Router:
         pd_disaggregation: Enable PD (Prefill-Decode) disaggregated mode. Default: False
         prefill_urls: List of (url, bootstrap_port) tuples for prefill servers (PD mode only)
         decode_urls: List of URLs for decode servers (PD mode only)
+        prefill_policy: Specific load balancing policy for prefill nodes (PD mode only).
+            If not specified, uses the main policy. Default: None
+        decode_policy: Specific load balancing policy for decode nodes (PD mode only).
+            If not specified, uses the main policy. Default: None
     """
 
     def __init__(
@@ -79,6 +83,8 @@ def __init__(
         pd_disaggregation: bool = False,
         prefill_urls: Optional[List[tuple]] = None,
         decode_urls: Optional[List[str]] = None,
+        prefill_policy: Optional[PolicyType] = None,
+        decode_policy: Optional[PolicyType] = None,
     ):
         if selector is None:
             selector = {}
@@ -113,6 +119,8 @@ def __init__(
             pd_disaggregation=pd_disaggregation,
             prefill_urls=prefill_urls,
             decode_urls=decode_urls,
+            prefill_policy=prefill_policy,
+            decode_policy=decode_policy,
         )
 
     def start(self) -> None:
diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index 5e25b2c3b218..84075de4c991 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -46,6 +46,12 @@ pub enum RoutingMode {
         prefill_urls: Vec<(String, Option<u16>)>,
         /// Decode worker URLs
         decode_urls: Vec<String>,
+        /// Optional separate policy for prefill workers
+        #[serde(skip_serializing_if = "Option::is_none")]
+        prefill_policy: Option<PolicyConfig>,
+        /// Optional separate policy for decode workers
+        #[serde(skip_serializing_if = "Option::is_none")]
+        decode_policy: Option<PolicyConfig>,
     },
 }
 
@@ -60,9 +66,32 @@ impl RoutingMode {
             RoutingMode::PrefillDecode {
                 prefill_urls,
                 decode_urls,
+                ..
             } => prefill_urls.len() + decode_urls.len(),
         }
     }
+
+    /// Get the effective prefill policy for PD mode
+    /// Falls back to the main policy if no specific prefill policy is set
+    pub fn get_prefill_policy<'a>(&'a self, main_policy: &'a PolicyConfig) -> &'a PolicyConfig {
+        match self {
+            RoutingMode::PrefillDecode { prefill_policy, .. } => {
+                prefill_policy.as_ref().unwrap_or(main_policy)
+            }
+            _ => main_policy,
+        }
+    }
+
+    /// Get the effective decode policy for PD mode
+    /// Falls back to the main policy if no specific decode policy is set
+    pub fn get_decode_policy<'a>(&'a self, main_policy: &'a PolicyConfig) -> &'a PolicyConfig {
+        match self {
+            RoutingMode::PrefillDecode { decode_policy, .. } => {
+                decode_policy.as_ref().unwrap_or(main_policy)
+            }
+            _ => main_policy,
+        }
+    }
 }
 
 /// Policy configuration for routing
@@ -307,6 +336,8 @@ mod tests {
         let pd = RoutingMode::PrefillDecode {
             prefill_urls: vec![("http://prefill1".to_string(), Some(8001))],
             decode_urls: vec!["http://decode1".to_string()],
+            prefill_policy: None,
+            decode_policy: None,
         };
         assert!(pd.is_pd_mode());
     }
@@ -332,6 +363,8 @@ mod tests {
                 "http://decode2".to_string(),
                 "http://decode3".to_string(),
             ],
+            prefill_policy: None,
+            decode_policy: None,
         };
         assert_eq!(pd.worker_count(), 5);
 
@@ -355,6 +388,8 @@ mod tests {
         let pd = RoutingMode::PrefillDecode {
             prefill_urls: vec![("http://prefill1".to_string(), Some(8001))],
             decode_urls: vec!["http://decode1".to_string()],
+            prefill_policy: None,
+            decode_policy: None,
         };
         let json = serde_json::to_string(&pd).unwrap();
         assert!(json.contains("\"type\":\"prefill_decode\""));
@@ -551,6 +586,8 @@ mod tests {
             mode: RoutingMode::PrefillDecode {
                 prefill_urls: vec![],
                 decode_urls: vec![],
+                prefill_policy: None,
+                decode_policy: None,
             },
             ..Default::default()
         };
@@ -674,6 +711,8 @@ mod tests {
                     "http://decode1:8000".to_string(),
                     "http://decode2:8000".to_string(),
                 ],
+                prefill_policy: None,
+                decode_policy: None,
             },
             policy: PolicyConfig::PowerOfTwo {
                 load_check_interval_secs: 30,
@@ -800,4 +839,155 @@ mod tests {
             Some("production".to_string())
         );
     }
+
+    // ============= Policy Fallback Tests =============
+
+    #[test]
+    fn test_pd_policy_fallback_both_specified() {
+        // When both prefill and decode policies are specified, they should be used
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![("http://prefill1".to_string(), None)],
+            decode_urls: vec!["http://decode1".to_string()],
+            prefill_policy: Some(PolicyConfig::CacheAware {
+                cache_threshold: 0.5,
+                balance_abs_threshold: 32,
+                balance_rel_threshold: 1.1,
+                eviction_interval_secs: 60,
+                max_tree_size: 1000,
+            }),
+            decode_policy: Some(PolicyConfig::PowerOfTwo {
+                load_check_interval_secs: 60,
+            }),
+        };
+
+        let main_policy = PolicyConfig::Random;
+
+        // Both specific policies should be used
+        match pd.get_prefill_policy(&main_policy) {
+            PolicyConfig::CacheAware { .. } => {} // Success
+            _ => panic!("Expected CacheAware for prefill"),
+        }
+
+        match pd.get_decode_policy(&main_policy) {
+            PolicyConfig::PowerOfTwo { .. } => {} // Success
+            _ => panic!("Expected PowerOfTwo for decode"),
+        }
+    }
+
+    #[test]
+    fn test_pd_policy_fallback_only_prefill() {
+        // When only prefill policy is specified, decode should use main policy
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![("http://prefill1".to_string(), None)],
+            decode_urls: vec!["http://decode1".to_string()],
+            prefill_policy: Some(PolicyConfig::CacheAware {
+                cache_threshold: 0.5,
+                balance_abs_threshold: 32,
+                balance_rel_threshold: 1.1,
+                eviction_interval_secs: 60,
+                max_tree_size: 1000,
+            }),
+            decode_policy: None,
+        };
+
+        let main_policy = PolicyConfig::RoundRobin;
+
+        // Prefill should use specific policy
+        match pd.get_prefill_policy(&main_policy) {
+            PolicyConfig::CacheAware { .. } => {} // Success
+            _ => panic!("Expected CacheAware for prefill"),
+        }
+
+        // Decode should fall back to main policy
+        match pd.get_decode_policy(&main_policy) {
+            PolicyConfig::RoundRobin => {} // Success
+            _ => panic!("Expected RoundRobin for decode"),
+        }
+    }
+
+    #[test]
+    fn test_pd_policy_fallback_only_decode() {
+        // When only decode policy is specified, prefill should use main policy
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![("http://prefill1".to_string(), None)],
+            decode_urls: vec!["http://decode1".to_string()],
+            prefill_policy: None,
+            decode_policy: Some(PolicyConfig::PowerOfTwo {
+                load_check_interval_secs: 60,
+            }),
+        };
+
+        let main_policy = PolicyConfig::Random;
+
+        // Prefill should fall back to main policy
+        match pd.get_prefill_policy(&main_policy) {
+            PolicyConfig::Random => {} // Success
+            _ => panic!("Expected Random for prefill"),
+        }
+
+        // Decode should use specific policy
+        match pd.get_decode_policy(&main_policy) {
+            PolicyConfig::PowerOfTwo { .. } => {} // Success
+            _ => panic!("Expected PowerOfTwo for decode"),
+        }
+    }
+
+    #[test]
+    fn test_pd_policy_fallback_none_specified() {
+        // When no specific policies are specified, both should use main policy
+        let pd = RoutingMode::PrefillDecode {
+            prefill_urls: vec![("http://prefill1".to_string(), None)],
+            decode_urls: vec!["http://decode1".to_string()],
+            prefill_policy: None,
+            decode_policy: None,
+        };
+
+        let main_policy = PolicyConfig::CacheAware {
+            cache_threshold: 0.7,
+            balance_abs_threshold: 20,
+            balance_rel_threshold: 1.5,
+            eviction_interval_secs: 300,
+            max_tree_size: 2000,
+        };
+
+        // Both should fall back to main policy
+        match pd.get_prefill_policy(&main_policy) {
+            PolicyConfig::CacheAware {
+                cache_threshold, ..
+            } => {
+                assert!((cache_threshold - 0.7).abs() < 0.0001);
+            }
+            _ => panic!("Expected CacheAware for prefill"),
+        }
+
+        match pd.get_decode_policy(&main_policy) {
+            PolicyConfig::CacheAware {
+                cache_threshold, ..
+            } => {
+                assert!((cache_threshold - 0.7).abs() < 0.0001);
+            }
+            _ => panic!("Expected CacheAware for decode"),
+        }
+    }
+
+    #[test]
+    fn test_regular_mode_policy_fallback() {
+        // For regular mode, the helper methods should just return the main policy
+        let regular = RoutingMode::Regular {
+            worker_urls: vec!["http://worker1".to_string()],
+        };
+
+        let main_policy = PolicyConfig::RoundRobin;
+
+        // Both methods should return main policy for regular mode
+        match regular.get_prefill_policy(&main_policy) {
+            PolicyConfig::RoundRobin => {} // Success
+            _ => panic!("Expected RoundRobin for regular mode"),
+        }
+
+        match regular.get_decode_policy(&main_policy) {
+            PolicyConfig::RoundRobin => {} // Success
+            _ => panic!("Expected RoundRobin for regular mode"),
+        }
+    }
 }
diff --git a/sgl-router/src/config/validation.rs b/sgl-router/src/config/validation.rs
index 381fcce075d8..1e78a0f10c5e 100644
--- a/sgl-router/src/config/validation.rs
+++ b/sgl-router/src/config/validation.rs
@@ -41,6 +41,8 @@ impl ConfigValidator {
             RoutingMode::PrefillDecode {
                 prefill_urls,
                 decode_urls,
+                prefill_policy,
+                decode_policy,
             } => {
                 // Only require URLs if service discovery is disabled
                 if !has_service_discovery {
@@ -78,6 +80,14 @@ impl ConfigValidator {
                         }
                     }
                 }
+
+                // Validate optional prefill and decode policies
+                if let Some(p_policy) = prefill_policy {
+                    Self::validate_policy(p_policy)?;
+                }
+                if let Some(d_policy) = decode_policy {
+                    Self::validate_policy(d_policy)?;
+                }
             }
         }
         Ok(())
@@ -272,6 +282,35 @@ impl ConfigValidator {
                     });
                 }
             }
+
+            // For PD mode, validate that policies have sufficient workers
+            if let RoutingMode::PrefillDecode {
+                prefill_urls,
+                decode_urls,
+                prefill_policy,
+                decode_policy,
+            } = &config.mode
+            {
+                // Check power-of-two for prefill
+                if let Some(PolicyConfig::PowerOfTwo { .. }) = prefill_policy {
+                    if prefill_urls.len() < 2 {
+                        return Err(ConfigError::IncompatibleConfig {
+                            reason: "Power-of-two policy for prefill requires at least 2 prefill workers".to_string(),
+                        });
+                    }
+                }
+
+                // Check power-of-two for decode
+                if let Some(PolicyConfig::PowerOfTwo { .. }) = decode_policy {
+                    if decode_urls.len() < 2 {
+                        return Err(ConfigError::IncompatibleConfig {
+                            reason:
+                                "Power-of-two policy for decode requires at least 2 decode workers"
+                                    .to_string(),
+                        });
+                    }
+                }
+            }
         }
 
         Ok(())
@@ -430,6 +469,8 @@ mod tests {
             RoutingMode::PrefillDecode {
                 prefill_urls: vec![("http://prefill:8000".to_string(), Some(8081))],
                 decode_urls: vec!["http://decode:8000".to_string()],
+                prefill_policy: None,
+                decode_policy: None,
             },
             PolicyConfig::Random,
         );
@@ -444,6 +485,8 @@ mod tests {
             RoutingMode::PrefillDecode {
                 prefill_urls: vec![("http://prefill:8000".to_string(), None)],
                 decode_urls: vec!["http://decode:8000".to_string()],
+                prefill_policy: None,
+                decode_policy: None,
             },
             PolicyConfig::RoundRobin,
         );
@@ -459,6 +502,8 @@ mod tests {
             RoutingMode::PrefillDecode {
                 prefill_urls: vec![("http://prefill:8000".to_string(), None)],
                 decode_urls: vec!["http://decode:8000".to_string()],
+                prefill_policy: None,
+                decode_policy: None,
             },
             PolicyConfig::CacheAware {
                 cache_threshold: 0.5,
@@ -491,4 +536,60 @@ mod tests {
         let result = ConfigValidator::validate(&config);
         assert!(result.is_ok());
     }
+
+    #[test]
+    fn test_validate_pd_mode_with_separate_policies() {
+        // Test PD mode with different policies for prefill and decode
+        let config = RouterConfig::new(
+            RoutingMode::PrefillDecode {
+                prefill_urls: vec![
+                    ("http://prefill1:8000".to_string(), None),
+                    ("http://prefill2:8000".to_string(), None),
+                ],
+                decode_urls: vec![
+                    "http://decode1:8000".to_string(),
+                    "http://decode2:8000".to_string(),
+                ],
+                prefill_policy: Some(PolicyConfig::CacheAware {
+                    cache_threshold: 0.5,
+                    balance_abs_threshold: 32,
+                    balance_rel_threshold: 1.1,
+                    eviction_interval_secs: 60,
+                    max_tree_size: 1000,
+                }),
+                decode_policy: Some(PolicyConfig::PowerOfTwo {
+                    load_check_interval_secs: 60,
+                }),
+            },
+            PolicyConfig::Random, // Main policy as fallback
+        );
+
+        let result = ConfigValidator::validate(&config);
+        assert!(result.is_ok());
+    }
+
+    #[test]
+    fn test_validate_pd_mode_power_of_two_insufficient_workers() {
+        // Test that power-of-two policy requires at least 2 workers
+        let config = RouterConfig::new(
+            RoutingMode::PrefillDecode {
+                prefill_urls: vec![("http://prefill1:8000".to_string(), None)], // Only 1 prefill
+                decode_urls: vec![
+                    "http://decode1:8000".to_string(),
+                    "http://decode2:8000".to_string(),
+                ],
+                prefill_policy: Some(PolicyConfig::PowerOfTwo {
+                    load_check_interval_secs: 60,
+                }), // Requires 2+ workers
+                decode_policy: None,
+            },
+            PolicyConfig::Random,
+        );
+
+        let result = ConfigValidator::validate(&config);
+        assert!(result.is_err());
+        if let Err(e) = result {
+            assert!(e.to_string().contains("prefill requires at least 2"));
+        }
+    }
 }
diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index a37a4b474728..0c03bd497bc7 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -54,6 +54,8 @@ struct Router {
     // PD-specific fields (only used when pd_disaggregation is true)
     prefill_urls: Option<Vec<(String, Option<u16>)>>,
     decode_urls: Option<Vec<String>>,
+    prefill_policy: Option<PolicyType>,
+    decode_policy: Option<PolicyType>,
 }
 
 impl Router {
@@ -63,11 +65,31 @@ impl Router {
             DiscoveryConfig, MetricsConfig, PolicyConfig as ConfigPolicyConfig, RoutingMode,
         };
 
+        // Convert policy helper function
+        let convert_policy = |policy: &PolicyType| -> ConfigPolicyConfig {
+            match policy {
+                PolicyType::Random => ConfigPolicyConfig::Random,
+                PolicyType::RoundRobin => ConfigPolicyConfig::RoundRobin,
+                PolicyType::CacheAware => ConfigPolicyConfig::CacheAware {
+                    cache_threshold: self.cache_threshold,
+                    balance_abs_threshold: self.balance_abs_threshold,
+                    balance_rel_threshold: self.balance_rel_threshold,
+                    eviction_interval_secs: self.eviction_interval_secs,
+                    max_tree_size: self.max_tree_size,
+                },
+                PolicyType::PowerOfTwo => ConfigPolicyConfig::PowerOfTwo {
+                    load_check_interval_secs: 5, // Default value
+                },
+            }
+        };
+
         // Determine routing mode
         let mode = if self.pd_disaggregation {
             RoutingMode::PrefillDecode {
                 prefill_urls: self.prefill_urls.clone().unwrap_or_default(),
                 decode_urls: self.decode_urls.clone().unwrap_or_default(),
+                prefill_policy: self.prefill_policy.as_ref().map(convert_policy),
+                decode_policy: self.decode_policy.as_ref().map(convert_policy),
             }
         } else {
             RoutingMode::Regular {
@@ -75,21 +97,8 @@ impl Router {
             }
         };
 
-        // Convert policy
-        let policy = match self.policy {
-            PolicyType::Random => ConfigPolicyConfig::Random,
-            PolicyType::RoundRobin => ConfigPolicyConfig::RoundRobin,
-            PolicyType::CacheAware => ConfigPolicyConfig::CacheAware {
-                cache_threshold: self.cache_threshold,
-                balance_abs_threshold: self.balance_abs_threshold,
-                balance_rel_threshold: self.balance_rel_threshold,
-                eviction_interval_secs: self.eviction_interval_secs,
-                max_tree_size: self.max_tree_size,
-            },
-            PolicyType::PowerOfTwo => ConfigPolicyConfig::PowerOfTwo {
-                load_check_interval_secs: 5, // Default value
-            },
-        };
+        // Convert main policy
+        let policy = convert_policy(&self.policy);
 
         // Service discovery configuration
         let discovery = if self.service_discovery {
@@ -163,7 +172,9 @@ impl Router {
         request_timeout_secs = 600,  // Add configurable request timeout
         pd_disaggregation = false,  // New flag for PD mode
         prefill_urls = None,
-        decode_urls = None
+        decode_urls = None,
+        prefill_policy = None,
+        decode_policy = None
     ))]
     fn new(
         worker_urls: Vec<String>,
@@ -193,6 +204,8 @@ impl Router {
         pd_disaggregation: bool,
         prefill_urls: Option<Vec<(String, Option<u16>)>>,
         decode_urls: Option<Vec<String>>,
+        prefill_policy: Option<PolicyType>,
+        decode_policy: Option<PolicyType>,
     ) -> PyResult<Self> {
         Ok(Router {
             host,
@@ -222,6 +235,8 @@ impl Router {
             pd_disaggregation,
             prefill_urls,
             decode_urls,
+            prefill_policy,
+            decode_policy,
         })
     }
 
diff --git a/sgl-router/src/policies/cache_aware.rs b/sgl-router/src/policies/cache_aware.rs
index 9e30c0d01f70..bfbe4b93a003 100644
--- a/sgl-router/src/policies/cache_aware.rs
+++ b/sgl-router/src/policies/cache_aware.rs
@@ -254,7 +254,11 @@ impl LoadBalancingPolicy for CacheAwarePolicy {
         decode_workers: &[Box<dyn Worker>],
         request_text: Option<&str>,
     ) -> Option<(usize, usize)> {
-        // In PD mode:
+        // DEPRECATED: This method is no longer used when separate policies are configured.
+        // The PD router now uses separate policies for prefill and decode selection.
+        // This implementation remains for backward compatibility when a single policy is used.
+
+        // In PD mode with single policy:
         // - Prefill: Use cache-aware routing for better cache utilization
         // - Decode: Use least-load routing for better load distribution
 
diff --git a/sgl-router/src/routers/factory.rs b/sgl-router/src/routers/factory.rs
index 201240121645..edf063440b44 100644
--- a/sgl-router/src/routers/factory.rs
+++ b/sgl-router/src/routers/factory.rs
@@ -17,7 +17,16 @@ impl RouterFactory {
             RoutingMode::PrefillDecode {
                 prefill_urls,
                 decode_urls,
-            } => Self::create_pd_router(prefill_urls, decode_urls, &config.policy, config),
+                prefill_policy,
+                decode_policy,
+            } => Self::create_pd_router(
+                prefill_urls,
+                decode_urls,
+                prefill_policy.as_ref(),
+                decode_policy.as_ref(),
+                &config.policy,
+                config,
+            ),
         }
     }
 
@@ -45,18 +54,23 @@ impl RouterFactory {
     fn create_pd_router(
         prefill_urls: &[(String, Option<u16>)],
         decode_urls: &[String],
-        policy_config: &PolicyConfig,
+        prefill_policy_config: Option<&PolicyConfig>,
+        decode_policy_config: Option<&PolicyConfig>,
+        main_policy_config: &PolicyConfig,
         router_config: &RouterConfig,
     ) -> Result<Box<dyn RouterTrait>, String> {
-        // Create policy directly from PolicyConfig
-        // All policies now support PD mode through the select_worker_pair method
-        let policy = PolicyFactory::create_from_config(policy_config);
+        // Create policies - use specific policies if provided, otherwise fall back to main policy
+        let prefill_policy =
+            PolicyFactory::create_from_config(prefill_policy_config.unwrap_or(main_policy_config));
+        let decode_policy =
+            PolicyFactory::create_from_config(decode_policy_config.unwrap_or(main_policy_config));
 
-        // Create PD router with injected policy
+        // Create PD router with separate policies
         let router = PDRouter::new(
             prefill_urls.to_vec(),
             decode_urls.to_vec(),
-            policy,
+            prefill_policy,
+            decode_policy,
             router_config.worker_startup_timeout_secs,
             router_config.worker_startup_check_interval_secs,
         )?;
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index ab9927d244d6..507ac1f4250f 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -22,8 +22,10 @@ use uuid::Uuid;
 pub struct PDRouter {
     pub prefill_workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
     pub decode_workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
-    pub policy: Arc<dyn LoadBalancingPolicy>,
+    pub prefill_policy: Arc<dyn LoadBalancingPolicy>,
+    pub decode_policy: Arc<dyn LoadBalancingPolicy>,
     pub prefill_tree: Option<Arc<Mutex<Tree>>>,
+    pub decode_tree: Option<Arc<Mutex<Tree>>>,
     pub timeout_secs: u64,
     pub interval_secs: u64,
     pub worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
@@ -66,7 +68,7 @@ impl PDRouter {
 
         workers.push(worker);
 
-        // Add to cache tree if using cache-aware policy
+        // Add to cache tree if using cache-aware policy for prefill
         if let Some(ref tree) = self.prefill_tree {
             tree.lock().unwrap().insert("", &url);
         }
@@ -102,6 +104,11 @@ impl PDRouter {
 
         workers.push(worker);
 
+        // Add to cache tree if using cache-aware policy for decode
+        if let Some(ref tree) = self.decode_tree {
+            tree.lock().unwrap().insert("", &url);
+        }
+
         info!("Added decode server: {}", url);
         Ok(format!("Successfully added decode server: {}", url))
     }
@@ -126,12 +133,7 @@ impl PDRouter {
 
         // Remove from cache tree if using cache-aware policy
         if let Some(ref tree) = self.prefill_tree {
-            // Note: Tree doesn't have a remove method, so we rebuild it
-            let mut tree_guard = tree.lock().unwrap();
-            *tree_guard = Tree::new();
-            for worker in workers.iter() {
-                tree_guard.insert("", worker.url());
-            }
+            tree.lock().unwrap().remove_tenant(url);
         }
 
         info!("Removed prefill server: {}", url);
@@ -156,6 +158,11 @@ impl PDRouter {
             });
         }
 
+        // Remove from the cache tree if using cache-aware policy for decode
+        if let Some(ref tree) = self.decode_tree {
+            tree.lock().unwrap().remove_tenant(url);
+        }
+
         info!("Removed decode server: {}", url);
         Ok(format!("Successfully removed decode server: {}", url))
     }
@@ -163,7 +170,8 @@ impl PDRouter {
     pub fn new(
         prefill_urls: Vec<(String, Option<u16>)>,
         decode_urls: Vec<String>,
-        policy: Arc<dyn LoadBalancingPolicy>,
+        prefill_policy: Arc<dyn LoadBalancingPolicy>,
+        decode_policy: Arc<dyn LoadBalancingPolicy>,
         timeout_secs: u64,
         interval_secs: u64,
     ) -> Result<Self, String> {
@@ -192,10 +200,10 @@ impl PDRouter {
             )?;
         }
 
-        // Initialize cache-aware components if needed
-        let prefill_tree = if policy.name() == "cache_aware" {
+        // Initialize cache-aware components if needed for prefill policy
+        let prefill_tree = if prefill_policy.name() == "cache_aware" {
             // Initialize the policy's internal tree with prefill workers
-            if let Some(cache_policy) = policy
+            if let Some(cache_policy) = prefill_policy
                 .as_any()
                 .downcast_ref::<crate::policies::CacheAwarePolicy>()
             {
@@ -212,6 +220,26 @@ impl PDRouter {
             None
         };
 
+        // Initialize cache-aware components if needed for decode policy
+        let decode_tree = if decode_policy.name() == "cache_aware" {
+            // Initialize the policy's internal tree with decode workers
+            if let Some(cache_policy) = decode_policy
+                .as_any()
+                .downcast_ref::<crate::policies::CacheAwarePolicy>()
+            {
+                cache_policy.init_workers(&decode_workers);
+            }
+
+            let tree = Arc::new(Mutex::new(Tree::new()));
+            // Initialize tree with decode workers
+            for worker in &decode_workers {
+                tree.lock().unwrap().insert("", worker.url());
+            }
+            Some(tree)
+        } else {
+            None
+        };
+
         // Set up background load monitoring for power-of-two selection
         let (tx, rx) = tokio::sync::watch::channel(HashMap::new());
         let worker_loads = Arc::new(rx);
@@ -222,25 +250,28 @@ impl PDRouter {
             .build()
             .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
 
-        let load_monitor_handle = if policy.name() == "power_of_two" {
-            let monitor_urls = all_urls.clone();
-            let monitor_interval = interval_secs;
-            let monitor_client = http_client.clone();
-            let policy_clone = Arc::clone(&policy);
-
-            Some(Arc::new(tokio::spawn(async move {
-                Self::monitor_worker_loads_with_client(
-                    monitor_urls,
-                    tx,
-                    monitor_interval,
-                    monitor_client,
-                    policy_clone,
-                )
-                .await;
-            })))
-        } else {
-            None
-        };
+        let load_monitor_handle =
+            if prefill_policy.name() == "power_of_two" || decode_policy.name() == "power_of_two" {
+                let monitor_urls = all_urls.clone();
+                let monitor_interval = interval_secs;
+                let monitor_client = http_client.clone();
+                let prefill_policy_clone = Arc::clone(&prefill_policy);
+                let decode_policy_clone = Arc::clone(&decode_policy);
+
+                Some(Arc::new(tokio::spawn(async move {
+                    Self::monitor_worker_loads_with_client(
+                        monitor_urls,
+                        tx,
+                        monitor_interval,
+                        monitor_client,
+                        prefill_policy_clone,
+                        decode_policy_clone,
+                    )
+                    .await;
+                })))
+            } else {
+                None
+            };
 
         let prefill_workers = Arc::new(RwLock::new(prefill_workers));
         let decode_workers = Arc::new(RwLock::new(decode_workers));
@@ -254,8 +285,10 @@ impl PDRouter {
         Ok(PDRouter {
             prefill_workers,
             decode_workers,
-            policy,
+            prefill_policy,
+            decode_policy,
             prefill_tree,
+            decode_tree,
             timeout_secs,
             interval_secs,
             worker_loads,
@@ -736,18 +769,21 @@ impl PDRouter {
             return Err("No decode workers available. Please check if decode servers are configured and healthy.".to_string());
         }
 
-        // Use the policy to select worker pair
-        match self
-            .policy
-            .select_worker_pair(&prefill_workers, &decode_workers, request_text)
-        {
-            Some((prefill_idx, decode_idx)) => {
-                let prefill = prefill_workers[prefill_idx].clone_worker();
-                let decode = decode_workers[decode_idx].clone_worker();
-                Ok((prefill, decode))
-            }
-            None => Err("Failed to select worker pair".to_string()),
-        }
+        // Select prefill worker using prefill policy
+        let prefill_idx = self
+            .prefill_policy
+            .select_worker(&prefill_workers, request_text)
+            .ok_or("Failed to select prefill worker")?;
+
+        // Select decode worker using decode policy
+        let decode_idx = self
+            .decode_policy
+            .select_worker(&decode_workers, request_text)
+            .ok_or("Failed to select decode worker")?;
+
+        let prefill = prefill_workers[prefill_idx].clone_worker();
+        let decode = decode_workers[decode_idx].clone_worker();
+        Ok((prefill, decode))
     }
 
     // Background task to monitor worker loads with shared client
@@ -756,7 +792,8 @@ impl PDRouter {
         tx: tokio::sync::watch::Sender<HashMap<String, isize>>,
         interval_secs: u64,
         client: reqwest::Client,
-        policy: Arc<dyn LoadBalancingPolicy>,
+        prefill_policy: Arc<dyn LoadBalancingPolicy>,
+        decode_policy: Arc<dyn LoadBalancingPolicy>,
     ) {
         loop {
             let mut loads = HashMap::new();
@@ -781,8 +818,9 @@ impl PDRouter {
 
             debug!("Worker loads updated: {:?}", loads);
 
-            // Update the policy with current loads
-            policy.update_loads(&loads);
+            // Update both policies with current loads
+            prefill_policy.update_loads(&loads);
+            decode_policy.update_loads(&loads);
 
             // Check if receiver is still active
             if tx.send(loads).is_err() {
@@ -1463,13 +1501,16 @@ mod tests {
     use actix_web::test::TestRequest;
 
     fn create_test_pd_router() -> PDRouter {
-        let policy = Arc::new(RandomPolicy::new());
+        let prefill_policy = Arc::new(RandomPolicy::new());
+        let decode_policy = Arc::new(RandomPolicy::new());
 
         PDRouter {
             prefill_workers: Arc::new(RwLock::new(vec![])),
             decode_workers: Arc::new(RwLock::new(vec![])),
-            policy,
+            prefill_policy,
+            decode_policy,
             prefill_tree: None,
+            decode_tree: None,
             timeout_secs: 5,
             interval_secs: 1,
             worker_loads: Arc::new(tokio::sync::watch::channel(HashMap::new()).1),
@@ -1608,9 +1649,9 @@ mod tests {
 
     #[tokio::test]
     async fn test_cache_tree_operations() {
-        let policy = Arc::new(CacheAwarePolicy::new());
+        let cache_policy = Arc::new(CacheAwarePolicy::new());
         let mut router = create_test_pd_router();
-        router.policy = policy;
+        router.prefill_policy = cache_policy;
 
         // Initialize cache tree
         let tree = Arc::new(Mutex::new(Tree::new()));
@@ -1638,9 +1679,9 @@ mod tests {
 
     #[tokio::test]
     async fn test_cache_tree_rebuild_on_remove() {
-        let policy = Arc::new(CacheAwarePolicy::new());
+        let cache_policy = Arc::new(CacheAwarePolicy::new());
         let mut router = create_test_pd_router();
-        router.policy = policy;
+        router.prefill_policy = cache_policy;
 
         // Initialize cache tree
         let tree = Arc::new(Mutex::new(Tree::new()));
@@ -1880,9 +1921,10 @@ mod tests {
 
     #[tokio::test]
     async fn test_load_monitor_updates() {
-        let policy = Arc::new(crate::policies::PowerOfTwoPolicy::new());
+        let power_of_two_policy = Arc::new(crate::policies::PowerOfTwoPolicy::new());
         let mut router = create_test_pd_router();
-        router.policy = policy;
+        router.prefill_policy = power_of_two_policy.clone();
+        router.decode_policy = power_of_two_policy;
 
         // Create load channel
         let (tx, rx) = tokio::sync::watch::channel(HashMap::new());
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index a2c0d7e3197d..24571eb243f6 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -122,6 +122,8 @@ mod test_pd_routing {
                         "http://decode1:8080".to_string(),
                         "http://decode2:8080".to_string(),
                     ],
+                    prefill_policy: None,
+                    decode_policy: None,
                 },
                 PolicyConfig::Random,
             ),
@@ -129,6 +131,8 @@ mod test_pd_routing {
                 RoutingMode::PrefillDecode {
                     prefill_urls: vec![("http://prefill:8080".to_string(), Some(9000))],
                     decode_urls: vec!["http://decode:8080".to_string()],
+                    prefill_policy: None,
+                    decode_policy: None,
                 },
                 PolicyConfig::PowerOfTwo {
                     load_check_interval_secs: 5,
@@ -142,6 +146,8 @@ mod test_pd_routing {
                         ("http://p3:8080".to_string(), Some(9002)),
                     ],
                     decode_urls: vec!["http://d1:8080".to_string(), "http://d2:8080".to_string()],
+                    prefill_policy: None,
+                    decode_policy: None,
                 },
                 PolicyConfig::CacheAware {
                     cache_threshold: 0.7,

From 2a1936de96dd22bea27fda74f32f2d84893f06e4 Mon Sep 17 00:00:00 2001
From: Li Hui <lambert80.ios@gmail.com>
Date: Sun, 27 Jul 2025 15:46:07 +0800
Subject: [PATCH 162/396] Add A800 fused MoE kernel tuning configs for
 Qwen3-Coder-480B-A35B-Instruct (#8351)

---
 ...NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_2_0/E=160,N=320,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_2_0/E=160,N=320,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_2_0/E=160,N=320,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json
new file mode 100644
index 000000000000..550d314f0652
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_2_0/E=160,N=320,device_name=NVIDIA_A800-SXM4-80GB,dtype=int8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}

From 36d6f0ba5bf8792d146deef766f544c725d9df3d Mon Sep 17 00:00:00 2001
From: Yingchun Lai <laiyingchun@apache.org>
Date: Sun, 27 Jul 2025 15:55:25 +0800
Subject: [PATCH 163/396] fix: fix the missing metrics on non-rank0 nodes
 (#7720)

---
 python/sglang/srt/entrypoints/engine.py | 4 +++-
 python/sglang/srt/utils.py              | 9 ++++++++-
 2 files changed, 11 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 578f7193cc02..4e1525544999 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -765,7 +765,9 @@ def _launch_subprocesses(
             # When using `Engine` as a Python API, we don't want to block here.
             return None, None, None
 
-        launch_dummy_health_check_server(server_args.host, server_args.port)
+        launch_dummy_health_check_server(
+            server_args.host, server_args.port, server_args.enable_metrics
+        )
 
         for proc in scheduler_procs:
             proc.join()
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index db45a3580990..89ee7f635b93 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -85,6 +85,8 @@
 from torch.utils._contextlib import _DecoratorContextManager
 from triton.runtime.cache import FileCacheManager
 
+from sglang.srt.metrics.func_timer import enable_func_timer
+
 logger = logging.getLogger(__name__)
 
 show_time_cost = False
@@ -2049,7 +2051,7 @@ def rank0_log(msg: str):
         logger.info(msg)
 
 
-def launch_dummy_health_check_server(host, port):
+def launch_dummy_health_check_server(host, port, enable_metrics):
     import asyncio
 
     import uvicorn
@@ -2067,6 +2069,11 @@ async def health_generate():
         """Check the health of the http server."""
         return Response(status_code=200)
 
+    # Add prometheus middleware
+    if enable_metrics:
+        add_prometheus_middleware(app)
+        enable_func_timer()
+
     config = uvicorn.Config(
         app,
         host=host,

From bf0f448fe5b549cc80bc86a505e0ceb040e0f613 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sun, 27 Jul 2025 01:00:21 -0700
Subject: [PATCH 164/396] [2/N] MoE Refactor: Unify weight loader and quant
 methods (#8397)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 304 +++++-------------
 .../srt/layers/moe/fused_moe_triton/layer.py  |  74 ++---
 python/sglang/srt/layers/quantization/fp8.py  | 272 ++--------------
 .../sglang/srt/layers/quantization/unquant.py |  76 +----
 .../sglang/srt/layers/quantization/w4afp8.py  |  85 ++++-
 5 files changed, 221 insertions(+), 590 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 80fbadd5721e..e99946869ac3 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -30,13 +30,13 @@
     QuantizationConfig,
     QuantizeMethodBase,
 )
-from sglang.srt.layers.quantization.fp8 import Fp8EPMoEMethod
+from sglang.srt.layers.quantization.fp8 import Fp8Config, Fp8MoEMethod
 from sglang.srt.layers.quantization.fp8_kernel import (
     is_fp8_fnuz,
     sglang_per_token_group_quant_fp8,
     sglang_per_token_quant_fp8,
 )
-from sglang.srt.layers.quantization.unquant import UnquantizedEPMoEMethod
+from sglang.srt.layers.quantization.unquant import UnquantizedFusedMoEMethod
 from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config, W4AFp8MoEMethod
 from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch
@@ -62,8 +62,6 @@
 if not (_is_npu or _is_hip):
     from sgl_kernel import silu_and_mul
 
-    from sglang.srt.layers.moe.cutlass_w4a8_moe import cutlass_w4a8_moe
-
 if _use_aiter:
     from aiter import ActivationType, QuantType
     from aiter.fused_moe import fused_moe
@@ -162,7 +160,7 @@ def _get_tile_tokens_dim(num_tokens, top_k, num_experts):
     return tile_tokens_dim
 
 
-class EPMoE(torch.nn.Module):
+class EPMoE(FusedMoE):
     """
     MoE Expert Parallel Impl
 
@@ -184,51 +182,60 @@ def __init__(
         routed_scaling_factor: Optional[float] = None,
         use_per_token_if_dynamic: bool = True,
     ):
-        super().__init__()
+        super().__init__(
+            num_experts=num_experts,
+            hidden_size=hidden_size,
+            intermediate_size=intermediate_size,
+            top_k=top_k,
+            layer_id=layer_id,
+            params_dtype=params_dtype,
+            quant_config=quant_config,
+            tp_size=tp_size,
+            prefix=prefix,
+            activation=activation,
+            routed_scaling_factor=routed_scaling_factor,
+            enable_ep_moe=True,
+            skip_quant=True,
+        )
 
         if params_dtype is None:
             params_dtype = torch.get_default_dtype()
 
-        self.tp_size = (
-            tp_size if tp_size is not None else get_tensor_model_parallel_world_size()
-        )
-        self.tp_rank = get_tensor_model_parallel_rank()
-
         self.layer_id = layer_id
-        self.num_experts = num_experts
-        assert self.num_experts % self.tp_size == 0
-        self.num_experts_per_partition, self.expert_map = self.determine_expert_map()
-        self.start_expert_id = self.tp_rank * self.num_experts_per_partition
-        self.end_expert_id = self.start_expert_id + self.num_experts_per_partition - 1
+        self.num_local_experts, self.expert_map = self.determine_expert_map()
+        self.start_expert_id = self.ep_rank * self.num_local_experts
+        self.end_expert_id = self.start_expert_id + self.num_local_experts - 1
 
-        self.top_k = top_k
         self.intermediate_size = intermediate_size
-        self.activation = activation
-        self.routed_scaling_factor = routed_scaling_factor
         self.use_per_token_if_dynamic = use_per_token_if_dynamic
 
+        # TODO(ch-wan): move quant preparation to FusedMoE
         if quant_config is None:
-            self.quant_method: Optional[QuantizeMethodBase] = UnquantizedEPMoEMethod()
+            self.quant_method: Optional[QuantizeMethodBase] = (
+                UnquantizedFusedMoEMethod()
+            )
             self.use_fp8_w8a8 = False
             self.use_block_quant = False
             self.block_shape = None
             self.activation_scheme = None
-            self.use_w4afp8 = False
+            self.w13_input_scale = None
+            self.w2_input_scale = None
+            self.w13_weight_scale = None
+            self.w2_weight_scale = None
         elif isinstance(quant_config, W4AFp8Config):
             self.quant_method: Optional[QuantizeMethodBase] = W4AFp8MoEMethod(
                 quant_config
             )
-            self.use_w4afp8 = True
             self.use_fp8_w8a8 = False
             self.use_block_quant = False
             self.fp8_dtype = torch.float8_e4m3fn
+            self.w13_input_scale = None
+            self.w2_input_scale = None
             self.w13_weight_scale = None
             self.w2_weight_scale = None
             self.activation_scheme = quant_config.moe_activation_scheme
-        else:
-            self.quant_method: Optional[QuantizeMethodBase] = Fp8EPMoEMethod(
-                quant_config
-            )
+        elif isinstance(quant_config, Fp8Config):
+            self.quant_method: Optional[QuantizeMethodBase] = Fp8MoEMethod(quant_config)
             self.use_fp8_w8a8 = True
             self.use_block_quant = getattr(self.quant_method, "block_quant", False)
             self.block_shape = (
@@ -238,11 +245,13 @@ def __init__(
             )
             self.fp8_dtype = torch.float8_e4m3fn
             self.activation_scheme = quant_config.activation_scheme
-            self.use_w4afp8 = False
+        else:
+            raise ValueError(f"Unsupported quant_config: {quant_config}")
 
+        self.quant_config = quant_config
         self.quant_method.create_weights(
             layer=self,
-            num_experts_per_partition=self.num_experts_per_partition,
+            num_experts=self.num_local_experts,
             hidden_size=hidden_size,
             intermediate_size=self.intermediate_size,
             params_dtype=params_dtype,
@@ -251,19 +260,6 @@ def __init__(
 
         self.grouped_gemm_runner = None
 
-        self.w13_weight_fp8 = (
-            self.w13_weight,
-            (
-                self.w13_weight_scale_inv
-                if self.use_block_quant
-                else self.w13_weight_scale
-            ),
-        )
-        self.w2_weight_fp8 = (
-            self.w2_weight,
-            self.w2_weight_scale_inv if self.use_block_quant else self.w2_weight_scale,
-        )
-
     # Adapted from https://github.com/vllm-project/vllm/blob/9fb52e523abf7bdaf7e60cf2971edb5a1b13dc08/vllm/model_executor/layers/fused_moe/layer.py#L544C1-L586C43
     # Modifications: use determine_expert_map as a class internal function, set 'global_num_experts' rather than '-1' for experts not assigned to the current rank.
     def determine_expert_map(self) -> Tuple[int, Optional[torch.Tensor]]:
@@ -282,8 +278,8 @@ def determine_expert_map(self) -> Tuple[int, Optional[torch.Tensor]]:
                     Contains global_num_experts for experts not assigned to the current rank.
                     Returns None if ep_size is 1.
         """
-        ep_size = self.tp_size
-        ep_rank = self.tp_rank
+        ep_size = self.ep_size
+        ep_rank = self.ep_rank
         global_num_experts = self.num_experts
 
         assert ep_size > 0
@@ -293,7 +289,7 @@ def determine_expert_map(self) -> Tuple[int, Optional[torch.Tensor]]:
         local_num_experts = global_num_experts // ep_size
 
         expert_map = torch.full(
-            (global_num_experts,), self.num_experts, dtype=torch.int32
+            (global_num_experts,), global_num_experts, dtype=torch.int32
         )
         if ep_rank < (ep_size - 1):
             expert_map[
@@ -318,6 +314,20 @@ def forward_deepgemm(
         hidden_states: torch.Tensor,
         topk_output: TopKOutput,
     ):
+
+        self.w13_weight_fp8 = (
+            self.w13_weight,
+            (
+                self.w13_weight_scale_inv
+                if self.use_block_quant
+                else self.w13_weight_scale
+            ),
+        )
+        self.w2_weight_fp8 = (
+            self.w2_weight,
+            self.w2_weight_scale_inv if self.use_block_quant else self.w2_weight_scale,
+        )
+
         assert self.quant_method is not None
         assert self.activation == "silu"
         hidden_states_shape = hidden_states.shape
@@ -457,7 +467,10 @@ def forward_deepgemm(
         return output
 
     def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
-        assert self.quant_method is not None
+        return self.quant_method.apply(self, hidden_states, topk_output)
+
+    def run_moe(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
+
         topk_weights, topk_ids, _ = topk_output
 
         hidden_states_shape = hidden_states.shape
@@ -470,53 +483,11 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
                 use_per_token_if_dynamic=self.use_per_token_if_dynamic,
             )
 
-        if self.use_w4afp8:
-            local_topk_ids = topk_ids
-            if self.expert_map is not None:
-                "Translate info from expert_map to topk_ids"
-                local_topk_ids = torch.where(
-                    self.expert_map[topk_ids] != self.num_experts,
-                    self.expert_map[topk_ids],
-                    self.num_experts,
-                )
-
-            output = cutlass_w4a8_moe(
-                self.start_expert_id,
-                self.end_expert_id,
-                self.num_experts,
-                hidden_states,
-                self.w13_weight,
-                self.w2_weight,
-                self.w13_weight_scale_inv,
-                self.w2_weight_scale_inv,
-                topk_weights,
-                topk_ids,
-                local_topk_ids,
-                self.quant_method.a_strides1,
-                self.quant_method.b_strides1,
-                self.quant_method.c_strides1,
-                self.quant_method.a_strides2,
-                self.quant_method.b_strides2,
-                self.quant_method.c_strides2,
-                self.quant_method.s_strides13,
-                self.quant_method.s_strides2,
-                self.quant_method.expert_offsets,
-                self.quant_method.problem_sizes1,
-                self.quant_method.problem_sizes2,
-                self.w13_input_scale,
-                self.w2_input_scale,
-            )
-            return output
-
-        if self.grouped_gemm_runner is None:
-            self.grouped_gemm_runner = GroupedGemmRunner(
-                hidden_states.device,
-                use_flashinfer=False,  # TODO: use flashinfer
-                use_per_token_if_dynamic=self.use_per_token_if_dynamic,
-            )
+        num_experts = self.num_experts
 
         reorder_topk_ids, src2dst, seg_indptr = run_moe_ep_preproess(
-            topk_ids, self.num_experts
+            topk_ids,
+            num_experts,
         )
 
         gateup_input = torch.empty(
@@ -524,7 +495,7 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
             device=hidden_states.device,
             dtype=(
                 self.fp8_dtype
-                if ((self.use_fp8_w8a8 or self.use_w4afp8) and not self.use_block_quant)
+                if self.use_fp8_w8a8 and not self.use_block_quant
                 else hidden_states.dtype
             ),
         )
@@ -535,7 +506,7 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
             else:
                 max_value = (
                     torch.max(hidden_states)
-                    .repeat(self.num_experts_per_partition)
+                    .repeat(self.num_local_experts)
                     .to(torch.float32)
                 )
                 self.w13_input_scale = max_value / torch.finfo(self.fp8_dtype).max
@@ -576,7 +547,7 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
         seg_indptr_cur_rank = seg_indptr[self.start_expert_id : self.end_expert_id + 2]
         weight_indices_cur_rank = torch.arange(
             0,
-            self.num_experts_per_partition,
+            self.num_local_experts,
             device=hidden_states_device,
             dtype=torch.int64,
         )
@@ -586,17 +557,13 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
             b=self.w13_weight,
             c=None,
             c_dtype=hidden_states_dtype,
-            batch_size=self.num_experts_per_partition,
+            batch_size=self.num_local_experts,
             weight_column_major=True,
             seg_indptr=seg_indptr_cur_rank,
             weight_indices=weight_indices_cur_rank,
             use_fp8_w8a8=self.use_fp8_w8a8,
             scale_a=self.w13_input_scale,
-            scale_b=(
-                self.w13_weight_scale_inv
-                if self.use_block_quant
-                else self.w13_weight_scale
-            ),
+            scale_b=self.w13_weight_scale,
             block_shape=self.block_shape,
         )
         del gateup_input
@@ -653,7 +620,7 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
                 down_input, self.w2_input_scale = sglang_per_token_quant_fp8(down_input)
             else:
                 self.w2_input_scale = torch.ones(
-                    self.num_experts_per_partition,
+                    self.num_local_experts,
                     dtype=torch.float32,
                     device=hidden_states_device,
                 )
@@ -669,17 +636,13 @@ def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
             a=down_input,
             b=self.w2_weight,
             c=down_output,
-            batch_size=self.num_experts_per_partition,
+            batch_size=self.num_local_experts,
             weight_column_major=True,
             seg_indptr=seg_indptr_cur_rank,
             weight_indices=weight_indices_cur_rank,
             use_fp8_w8a8=self.use_fp8_w8a8,
             scale_a=self.w2_input_scale,
-            scale_b=(
-                self.w2_weight_scale_inv
-                if self.use_block_quant
-                else self.w2_weight_scale
-            ),
+            scale_b=self.w2_weight_scale,
             block_shape=self.block_shape,
         )
         del down_input
@@ -782,107 +745,14 @@ def _weight_loader_physical(
             return
         expert_id = expert_id - self.start_expert_id
 
-        if shard_id not in ("w1", "w2", "w3"):
-            raise ValueError(
-                f"shard_id must be ['w1','w2','w3'] but " f"got {shard_id}."
-            )
-
-        # Special case for fp8 scales.
-        if "scale" in weight_name:
-            self._load_fp8_scale(
-                param.data,
-                loaded_weight,
-                weight_name,
-                shard_id,
-                expert_id,
-            )
-            return
-
-        # Flashinfer assumes w31 format for w13_weight. Same for the scales.
-        if use_flashinfer_trtllm_moe:
-            actual_shard_id = {"w1": "w3", "w3": "w1", "w2": "w2"}[shard_id]
-        else:
-            actual_shard_id = shard_id
-
-        if actual_shard_id == "w2":
-            param.data[expert_id] = loaded_weight
-        elif actual_shard_id == "w1":
-            param.data[expert_id][: self.intermediate_size, :] = loaded_weight
-        elif actual_shard_id == "w3":
-            param.data[expert_id][self.intermediate_size :, :] = loaded_weight
-        else:
-            raise ValueError(f"Expected shard_id w1,w2 or w3 but got {actual_shard_id}")
-
-    def _load_fp8_scale(
-        self,
-        param: torch.nn.Parameter,
-        loaded_weight: torch.Tensor,
-        weight_name: str,
-        shard_id: str,
-        expert_id: int,
-    ) -> None:
-        param_data = param.data
-
-        # Input scales can be loaded directly and should be equal.
-        if "input_scale" in weight_name:
-            if self.use_w4afp8:
-                if shard_id == "w1":
-                    param_data[expert_id][0] = loaded_weight
-                elif shard_id == "w3":
-                    param_data[expert_id][1] = loaded_weight
-                else:
-                    param_data[expert_id] = loaded_weight
-                return
-
-            if (
-                (shard_id == "w1" or shard_id == "w3")
-                and param_data[expert_id] != 1
-                and (param_data[expert_id] - loaded_weight).abs() > 1e-5
-            ):
-                raise ValueError(
-                    "input_scales of w1 and w3 of a layer "
-                    f"must be equal. But got {param_data[expert_id]} "
-                    f"vs. {loaded_weight}"
-                )
-            param_data[expert_id] = loaded_weight
-        # Weight scales
-        elif "weight_scale" in weight_name:
-            if self.use_block_quant:
-                if use_flashinfer_trtllm_moe:
-                    actual_shard_id = {"w1": "w3", "w3": "w1", "w2": "w2"}[shard_id]
-                else:
-                    actual_shard_id = shard_id
-
-                block_n, block_k = self.block_shape[0], self.block_shape[1]
-
-                if actual_shard_id == "w1":
-                    param_data[expert_id][
-                        : (self.intermediate_size + block_n - 1) // block_n, :
-                    ] = loaded_weight
-                elif actual_shard_id == "w3":
-                    param_data[expert_id][
-                        (self.intermediate_size + block_n - 1) // block_n :, :
-                    ] = loaded_weight
-                else:  # w2
-                    param_data[expert_id] = loaded_weight
-            elif self.use_w4afp8:
-                if shard_id == "w1":
-                    param_data[expert_id][: self.intermediate_size, :] = loaded_weight
-                elif shard_id == "w3":
-                    param_data[expert_id][self.intermediate_size :, :] = loaded_weight
-                else:
-                    param_data[expert_id] = loaded_weight
-            # If we are in merged column case (gate_up_proj)
-            else:
-                if shard_id in ("w1", "w3"):
-                    # We have to keep the weight scales of w1 and w3 because
-                    # we need to re-quantize w1/w3 weights after weight loading.
-                    idx = 0 if shard_id == "w1" else 1
-                    param_data[expert_id][idx] = loaded_weight
-
-                # If we are in the row parallel case (down_proj)
-                else:
-                    param_data[expert_id] = loaded_weight
+        self._weight_loader_impl(
+            param=param,
+            loaded_weight=loaded_weight,
+            weight_name=weight_name,
+            shard_id=shard_id,
+            expert_id=expert_id,
+        )
+        return
 
 
 class DeepEPMoE(EPMoE):
@@ -932,13 +802,13 @@ def __init__(
                 deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM
             ), f"DeepEP {self.deepep_mode} mode requires deep_gemm"
         if _use_aiter:
-            # expert_mask is of size (self.num_experts_per_partition + 1),
+            # expert_mask is of size (self.num_local_experts + 1),
             # the extra 1 is for invalid rank_id (in original deepep, the invalid rank_id is -1, but aiter does not allow -1, we use a mask to make those ids invalid)
             # for instance, if we have 4 experts on this rank, we would have a expert_mask like:
             #     self.expert_mask = [1, 1, 1, 1, 0]
             # idx from 0-3 is valid and will be processed, while idx == 4 will be masked out
             self.expert_mask = torch.zeros(
-                (self.num_experts_per_partition + 1),
+                (self.num_local_experts + 1),
                 device=torch.cuda.current_device(),
                 dtype=torch.int,
             )
@@ -1011,13 +881,13 @@ def forward_normal(
         if self.activation_scheme == "dynamic" and not self.use_block_quant:
             max_value = (
                 torch.max(hidden_states)
-                .repeat(self.num_experts_per_partition)
+                .repeat(self.num_local_experts)
                 .to(torch.float32)
             )
             self.w13_input_scale = max_value / torch.finfo(self.fp8_dtype).max
         weight_indices_cur_rank = torch.arange(
             0,
-            self.num_experts_per_partition,
+            self.num_local_experts,
             device=hidden_states.device,
             dtype=torch.int64,
         )
@@ -1029,7 +899,7 @@ def forward_normal(
                 b=self.w13_weight,
                 c=None,
                 c_dtype=hidden_states.dtype,
-                batch_size=self.num_experts_per_partition,
+                batch_size=self.num_local_experts,
                 weight_column_major=True,
                 seg_indptr=seg_indptr,
                 weight_indices=weight_indices_cur_rank,
@@ -1063,7 +933,7 @@ def forward_normal(
         )
         if self.w2_input_scale is None and not self.use_block_quant:
             self.w2_input_scale = torch.ones(
-                self.num_experts_per_partition,
+                self.num_local_experts,
                 dtype=torch.float32,
                 device=hidden_states_device,
             )
@@ -1076,7 +946,7 @@ def forward_normal(
                 reorder_topk_ids,
                 self.w2_input_scale,
                 0,
-                self.num_experts_per_partition - 1,
+                self.num_local_experts - 1,
                 BLOCK_SIZE=512,
             )
         else:
@@ -1096,7 +966,7 @@ def forward_normal(
                 a=down_input,
                 b=self.w2_weight,
                 c=down_output,
-                batch_size=self.num_experts_per_partition,
+                batch_size=self.num_local_experts,
                 weight_column_major=True,
                 seg_indptr=seg_indptr,
                 weight_indices=weight_indices_cur_rank,
@@ -1121,9 +991,9 @@ def forward_aiter(
             return hidden_states
         # in original deepep, idx == -1 meaning invalid and will not be processed.
         # aiter does not accept -1, we use a expert mask to make these idx invalid
-        # (idx == num_experts_per_partition) meaning not used in aiter fused_moe
+        # (idx == num_local_experts) meaning not used in aiter fused_moe
         topk_idx_copy = topk_idx.to(torch.int32)
-        topk_idx_copy[topk_idx_copy == -1] = self.num_experts_per_partition
+        topk_idx_copy[topk_idx_copy == -1] = self.num_local_experts
 
         return fused_moe(
             hidden_states,
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 5983a6beb286..39368e8798f8 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -77,6 +77,7 @@ def __init__(
         routed_scaling_factor: Optional[float] = None,
         enable_flashinfer_cutlass_moe: Optional[bool] = False,
         enable_ep_moe: Optional[bool] = False,
+        skip_quant: Optional[bool] = False,
     ):
         super().__init__()
 
@@ -99,9 +100,6 @@ def __init__(
 
         self.enable_flashinfer_cutlass_moe = enable_flashinfer_cutlass_moe
         if enable_ep_moe:
-            assert (
-                self.enable_flashinfer_cutlass_moe
-            ), "FusedMoE only supports EP with --enable-flashinfer-cutlass-moe"
             self.ep_size = self.tp_size
             self.ep_rank = self.tp_rank
             self.tp_size = 1
@@ -110,16 +108,16 @@ def __init__(
             self.expert_map = torch.full((self.num_experts,), -1, dtype=torch.int32)
             # Create a expert map for the local experts
             assert num_experts % self.ep_size == 0
-            self.local_num_experts = num_experts // self.ep_size
+            self.num_local_experts = num_experts // self.ep_size
             self.expert_map[
                 self.ep_rank
-                * self.local_num_experts : (self.ep_rank + 1)
-                * self.local_num_experts
-            ] = torch.arange(0, self.local_num_experts, dtype=torch.int32, device="cpu")
+                * self.num_local_experts : (self.ep_rank + 1)
+                * self.num_local_experts
+            ] = torch.arange(0, self.num_local_experts, dtype=torch.int32, device="cpu")
         else:
             self.ep_size = 1
             self.ep_rank = 0
-            self.local_num_experts = num_experts
+            self.num_local_experts = num_experts
         self.routed_scaling_factor = routed_scaling_factor
         assert intermediate_size % self.tp_size == 0
         self.intermediate_size_per_partition = intermediate_size // self.tp_size
@@ -134,6 +132,9 @@ def __init__(
             not _is_cpu and global_server_args_dict["enable_triton_kernel_moe"]
         )
 
+        if skip_quant:
+            return
+
         if quant_config is None:
             self.quant_method: Optional[QuantizeMethodBase] = UnquantizedFusedMoEMethod(
                 self.use_triton_kernels
@@ -149,7 +150,7 @@ def __init__(
         self.quant_config = quant_config
         self.quant_method.create_weights(
             layer=self,
-            num_experts=self.local_num_experts,
+            num_experts=self.num_local_experts,
             hidden_size=hidden_size,
             # FIXME: figure out which intermediate_size to use
             intermediate_size=self.intermediate_size_per_partition,
@@ -378,6 +379,23 @@ def weight_loader(
         if expert_id == -1:
             return
 
+        self._weight_loader_impl(
+            param=param,
+            loaded_weight=loaded_weight,
+            weight_name=weight_name,
+            shard_id=shard_id,
+            expert_id=expert_id,
+        )
+
+    def _weight_loader_impl(
+        self,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        shard_id: str,
+        expert_id: int,
+    ) -> None:
+
         # TP rank is set to 0 if EP is enabled
         tp_rank = 0 if self.ep_size > 1 else get_tensor_model_parallel_rank()
 
@@ -398,6 +416,10 @@ def weight_loader(
                 f"shard_id must be ['w1','w2','w3'] but " f"got {shard_id}."
             )
 
+        # Flashinfer assumes w31 format for w13_weight. Same for the scales.
+        if getattr(self, "use_flashinfer_trtllm_moe", False):
+            shard_id = {"w1": "w3", "w3": "w1", "w2": "w2"}[shard_id]
+
         WEIGHT_SCALE_SUPPORTED = [e.value for e in FusedMoeWeightScaleSupported]
         # Fetch the dim to shard the parameter/loaded weight
         # based on the shard id. This will be whatever
@@ -605,37 +627,3 @@ def make_expert_params_mapping(
                 ("w3", ckpt_up_proj_name),
             ]
         ]
-
-    def _load_fp8_scale(
-        self,
-        param: torch.nn.Parameter,
-        loaded_weight: torch.Tensor,
-        weight_name: str,
-        shard_id: str,
-        expert_id: int,
-    ) -> None:
-        param_data = param.data
-
-        # Input scales can be loaded directly and should be equal.
-        if "input_scale" in weight_name:
-            if (
-                param_data[expert_id] != 1
-                and (param_data[expert_id] - loaded_weight).abs() > 1e-5
-            ):
-                raise ValueError(
-                    "input_scales of w1 and w3 of a layer "
-                    f"must be equal. But got {param_data[expert_id]} "
-                    f"vs. {loaded_weight}"
-                )
-            param_data[expert_id] = loaded_weight
-        # Weight scales
-        elif "weight_scale" in weight_name:
-            # If we are in merged column case (gate_up_proj)
-            if shard_id in ("w1", "w3"):
-                # We have to keep the weight scales of w1 and w3 because
-                # we need to re-quantize w1/w3 weights after weight loading.
-                idx = 0 if shard_id == "w1" else 1
-                param_data[expert_id][idx] = loaded_weight
-            # If we are in the row parallel case (down_proj)
-            else:
-                param_data[expert_id] = loaded_weight
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 6fa3ccc59ee5..ff10b801b26f 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -172,6 +172,7 @@ def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
+        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
@@ -180,6 +181,8 @@ def get_quant_method(
             return Fp8LinearMethod(self)
         elif isinstance(layer, FusedMoE):
             return Fp8MoEMethod(self)
+        elif isinstance(layer, EPMoE):
+            return Fp8EPMoEMethod(self)
         return None
 
     def get_scaled_act_names(self) -> List[str]:
@@ -791,11 +794,13 @@ def process_weights_after_loading(self, layer: Module) -> None:
             # merged w13 weights and generate a single scaling factor.
             layer.w13_weight_scale = torch.nn.Parameter(
                 torch.ones(
-                    layer.num_experts, dtype=torch.float32, device=w13_weight.device
+                    layer.num_local_experts,
+                    dtype=torch.float32,
+                    device=w13_weight.device,
                 ),
                 requires_grad=False,
             )
-            for expert in range(layer.num_experts):
+            for expert in range(layer.num_local_experts):
                 w13_weight[expert, :, :], layer.w13_weight_scale[expert] = (
                     scaled_fp8_quant(layer.w13_weight.data[expert, :, :])
                 )
@@ -871,7 +876,7 @@ def process_weights_after_loading(self, layer: Module) -> None:
             assert layer.w13_weight_scale is not None
             shard_size = layer.intermediate_size_per_partition
             max_w13_scales = layer.w13_weight_scale.max(dim=1).values
-            for expert_id in range(layer.num_experts):
+            for expert_id in range(layer.num_local_experts):
                 start = 0
                 for shard_id in range(2):
                     dq_weight = per_tensor_dequantize(
@@ -914,7 +919,7 @@ def process_weights_hip_int4(self, layer: Module):
         assert layer.w13_weight_scale is not None
         shard_size = layer.intermediate_size_per_partition
         max_w13_scales = layer.w13_weight_scale.max(dim=1).values
-        for expert_id in range(layer.num_experts):
+        for expert_id in range(layer.num_local_experts):
             start = 0
             max_w13_scale_fp8 = max_w13_scales[expert_id]
             for shard_id in range(2):
@@ -931,7 +936,7 @@ def process_weights_hip_int4(self, layer: Module):
 
         # special hack to asm_moe, which takes (weight_scale1 * weight_scale) as post GEMM scaling
         # optimal design - shall apply per-column weight_scale1 before GEMM, and weight_scale post
-        for expert_id in range(layer.num_experts):
+        for expert_id in range(layer.num_local_experts):
             layer.w13_weight_scale1[expert_id] *= max_w13_scales[expert_id]
             layer.w2_weight_scale1[expert_id] *= layer.w2_weight_scale[expert_id]
 
@@ -979,8 +984,23 @@ def apply(
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
+        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
 
+        if isinstance(layer, EPMoE):
+            layer.w13_weight_scale = (
+                layer.w13_weight_scale_inv
+                if self.block_quant
+                else layer.w13_weight_scale
+            )
+            layer.w2_weight_scale = (
+                layer.w2_weight_scale_inv if self.block_quant else layer.w2_weight_scale
+            )
+            return layer.run_moe(
+                hidden_states=x,
+                topk_output=topk_output,
+            )
+
         if use_intel_amx_backend(layer):
             from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
 
@@ -1138,248 +1158,6 @@ def maybe_apply_hip_fused_experts(
         return None
 
 
-class Fp8EPMoEMethod(Fp8MoEMethod):
-    """MoE method for FP8.
-    Supports loading FP8 checkpoints with static weight scale and
-    dynamic/static activation scale.
-
-    Args:
-        quant_config: The quantization config.
-    """
-
-    def __init__(self, quant_config: Fp8Config):
-        self.quant_config = quant_config
-        self.block_quant = self.quant_config.weight_block_size is not None
-
-    def create_weights(
-        self,
-        layer: Module,
-        num_experts_per_partition: int,
-        hidden_size: int,
-        intermediate_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
-
-        if self.quant_config.is_checkpoint_fp8_serialized:
-            params_dtype = torch.float8_e4m3fn
-
-        tp_size = get_tensor_model_parallel_world_size()
-        if self.block_quant:
-            block_n, block_k = (
-                self.quant_config.weight_block_size[0],
-                self.quant_config.weight_block_size[1],
-            )
-            # NOTE(HandH1998): To ensure proper alignment of the block-wise quantization scales, the output_size of the weights for both the gate and up layers must be divisible by block_n.
-            # Required by column parallel or enabling merged weights
-            if intermediate_size % block_n != 0:
-                raise ValueError(
-                    f"The output_size of gate's and up's weight = "
-                    f"{intermediate_size} is not divisible by "
-                    f"weight quantization block_n = {block_n}."
-                )
-            if tp_size > 1:
-                # Required by row parallel
-                if intermediate_size % block_k != 0:
-                    raise ValueError(
-                        f"The input_size of down's weight = "
-                        f"{intermediate_size} is not divisible by "
-                        f"weight quantization block_k = {block_k}."
-                    )
-
-        # WEIGHTS
-        w13_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                2 * intermediate_size,
-                hidden_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w13_weight", w13_weight)
-        set_weight_attrs(w13_weight, extra_weight_attrs)
-
-        w2_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                hidden_size,
-                intermediate_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight", w2_weight)
-        set_weight_attrs(w2_weight, extra_weight_attrs)
-
-        # WEIGHT_SCALES
-        if self.block_quant:
-            w13_weight_scale = torch.nn.Parameter(
-                torch.ones(
-                    num_experts_per_partition,
-                    2 * ((intermediate_size + block_n - 1) // block_n),
-                    (hidden_size + block_k - 1) // block_k,
-                    dtype=torch.float32,
-                ),
-                requires_grad=False,
-            )
-            w2_weight_scale = torch.nn.Parameter(
-                torch.ones(
-                    num_experts_per_partition,
-                    (hidden_size + block_n - 1) // block_n,
-                    (intermediate_size + block_k - 1) // block_k,
-                    dtype=torch.float32,
-                ),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_weight_scale_inv", w13_weight_scale)
-            layer.register_parameter("w2_weight_scale_inv", w2_weight_scale)
-            assert self.quant_config.activation_scheme == "dynamic"
-        else:
-            # WEIGHT_SCALES
-            # Allocate 2 scales for w1 and w3 respectively.
-            w13_weight_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, 2, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_weight_scale", w13_weight_scale)
-
-            w2_weight_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w2_weight_scale", w2_weight_scale)
-        # Add the quantization method used (per tensor/grouped/channel)
-        # to ensure the weight scales are loaded in properly
-        extra_weight_attrs.update(
-            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
-            if self.block_quant
-            else {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
-        )
-        # If loading fp8 checkpoint, pass the weight loaders.
-        # If loading an fp16 checkpoint, do not (we will quantize in
-        #   process_weights_after_loading()
-        if self.quant_config.is_checkpoint_fp8_serialized:
-            set_weight_attrs(w13_weight_scale, extra_weight_attrs)
-            set_weight_attrs(w2_weight_scale, extra_weight_attrs)
-
-        # INPUT_SCALES
-        if self.quant_config.activation_scheme == "static":
-            if not self.quant_config.is_checkpoint_fp8_serialized:
-                raise ValueError(
-                    "Found static activation scheme for checkpoint that "
-                    "was not serialized fp8."
-                )
-
-            w13_input_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_input_scale", w13_input_scale)
-            set_weight_attrs(w13_input_scale, extra_weight_attrs)
-
-            w2_input_scale = torch.nn.Parameter(
-                torch.ones(num_experts_per_partition, dtype=torch.float32),
-                requires_grad=False,
-            )
-            layer.register_parameter("w2_input_scale", w2_input_scale)
-            set_weight_attrs(w2_input_scale, extra_weight_attrs)
-
-        else:
-            layer.w13_input_scale = None
-            layer.w2_input_scale = None
-
-    def process_weights_after_loading(self, layer: Module) -> None:
-
-        # If checkpoint is fp16, quantize in place.
-        if not self.quant_config.is_checkpoint_fp8_serialized:
-            # If rocm, use float8_e4m3fnuz as dtype
-            fp8_dtype = torch.float8_e4m3fnuz if _is_hip else torch.float8_e4m3fn
-            w13_weight = torch.empty_like(layer.w13_weight.data, dtype=fp8_dtype)
-            w2_weight = torch.empty_like(layer.w2_weight.data, dtype=fp8_dtype)
-
-            layer.w13_weight_scale = torch.nn.Parameter(
-                torch.ones(
-                    layer.num_experts_per_partition,
-                    dtype=torch.float32,
-                    device=w13_weight.device,
-                ),
-                requires_grad=False,
-            )
-
-            for expert in range(layer.num_experts_per_partition):
-                w13_weight[expert, :, :], layer.w13_weight_scale[expert] = (
-                    scaled_fp8_quant(layer.w13_weight.data[expert, :, :])
-                )
-                w2_weight[expert, :, :], layer.w2_weight_scale[expert] = (
-                    scaled_fp8_quant(layer.w2_weight.data[expert, :, :])
-                )
-            layer.w13_weight = torch.nn.Parameter(w13_weight, requires_grad=False)
-            layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
-            return
-
-        # If checkpoint is fp8, we need to handle that the
-        # MoE kernels require single activation scale and single weight
-        # scale for w13 per expert.
-        else:
-            if self.quant_config.activation_scheme == "static":
-                if layer.w13_input_scale is None or layer.w2_input_scale is None:
-                    raise ValueError(
-                        "QuantConfig has static quantization, but found "
-                        "activation scales are None."
-                    )
-                layer.w13_weight_scale = torch.nn.Parameter(
-                    torch.max(layer.w13_weight_scale, dim=1).values,
-                    requires_grad=False,
-                )
-            if self.block_quant:
-                # If ROCm, normalize the weights and scales to e4m3fnuz
-                if _is_fp8_fnuz:
-                    # activation_scheme: dynamic
-                    w13_weight, w13_weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
-                        weight=layer.w13_weight,
-                        weight_scale=layer.w13_weight_scale_inv,
-                        input_scale=None,
-                    )
-                    w2_weight, w2_weight_scale, _ = normalize_e4m3fn_to_e4m3fnuz(
-                        weight=layer.w2_weight,
-                        weight_scale=layer.w2_weight_scale_inv,
-                        input_scale=None,
-                    )
-                    # Reset the parameter
-                    layer.w13_weight = torch.nn.Parameter(
-                        w13_weight, requires_grad=False
-                    )
-                    layer.w13_weight_scale_inv = torch.nn.Parameter(
-                        w13_weight_scale, requires_grad=False
-                    )
-                    layer.w13_input_scale = None
-                    layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
-                    layer.w2_weight_scale_inv = torch.nn.Parameter(
-                        w2_weight_scale, requires_grad=False
-                    )
-                    layer.w2_input_scale = None
-                if _use_aiter:
-                    layer.w13_weight = torch.nn.Parameter(
-                        shuffle_weight(layer.w13_weight.data, (16, 16)),
-                        requires_grad=False,
-                    )
-                    layer.w2_weight = torch.nn.Parameter(
-                        shuffle_weight(layer.w2_weight.data, (16, 16)),
-                        requires_grad=False,
-                    )
-            return
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        hidden_states: torch.Tensor,
-        topk_output: TopKOutput,
-    ) -> torch.Tensor:
-        raise NotImplementedError
-
-
 class Fp8KVCacheMethod(BaseKVCacheMethod):
     """
     Supports loading kv-cache scaling factors from FP8 checkpoints.
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index ddafcc6f5d9f..121d5b714a47 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -24,6 +24,7 @@
 )
 
 if TYPE_CHECKING:
+    from sglang.srt.layers.moe.ep_moe.layer import EPMoE
     from sglang.srt.layers.moe.topk import TopKOutput
 
 has_triton_kernels = importlib.util.find_spec("triton_kernels") is not None
@@ -194,6 +195,15 @@ def apply(
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
+
+        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
+
+        if isinstance(layer, EPMoE):
+            return layer.run_moe(
+                hidden_states=x,
+                topk_output=topk_output,
+            )
+
         return self.forward(
             x=x,
             layer=layer,
@@ -354,69 +364,3 @@ def forward_tpu(self, *args, **kwargs) -> torch.Tensor:
         raise NotImplementedError("The TPU backend currently does not support MoE.")
 
     forward_native = forward_cpu
-
-
-class UnquantizedEPMoEMethod(FusedMoEMethodBase, CustomOp):
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts_per_partition: int,
-        hidden_size: int,
-        intermediate_size: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        # Fused gate_up_proj (column parallel)
-        w13_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                2 * intermediate_size,
-                hidden_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w13_weight", w13_weight)
-        set_weight_attrs(w13_weight, extra_weight_attrs)
-
-        # down_proj (row parallel)
-        w2_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts_per_partition,
-                hidden_size,
-                intermediate_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight", w2_weight)
-        set_weight_attrs(w2_weight, extra_weight_attrs)
-
-        # scale
-        layer.register_parameter("w13_input_scale", None)
-        layer.register_parameter("w13_weight_scale", None)
-
-        ones_tensor = torch.ones(num_experts_per_partition, dtype=torch.float32)
-
-        w2_input_scale = torch.nn.Parameter(
-            ones_tensor,
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_input_scale", w2_input_scale)
-        set_weight_attrs(w2_input_scale, extra_weight_attrs)
-
-        w2_weight_scale = torch.nn.Parameter(
-            ones_tensor,
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight_scale", w2_weight_scale)
-        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        hidden_states: torch.Tensor,
-        topk_output: TopKOutput,
-    ) -> torch.Tensor:
-        raise NotImplementedError
diff --git a/python/sglang/srt/layers/quantization/w4afp8.py b/python/sglang/srt/layers/quantization/w4afp8.py
index 1c9dc5d33710..0a2f555c89c7 100644
--- a/python/sglang/srt/layers/quantization/w4afp8.py
+++ b/python/sglang/srt/layers/quantization/w4afp8.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 
 import logging
-from typing import Any, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Dict, List, Optional
 
 import torch
 from torch.nn import Module
@@ -17,6 +17,9 @@
 from sglang.srt.layers.quantization.utils import is_layer_skipped
 from sglang.srt.utils import set_weight_attrs
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.ep_moe.layer import EPMoE, TopKOutput
+
 ACTIVATION_SCHEMES = ["static", "dynamic"]
 
 logger = logging.getLogger(__name__)
@@ -84,13 +87,14 @@ def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
+        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
             if is_layer_skipped(prefix, self.ignored_layers):
                 return UnquantizedLinearMethod()
             return Fp8LinearMethod(self)
-        elif isinstance(layer, FusedMoE):
+        elif isinstance(layer, EPMoE):
             return W4AFp8MoEMethod(self)
         return None
 
@@ -105,8 +109,8 @@ def __init__(self, quant_config: W4AFp8Config):
 
     def create_weights(
         self,
-        layer: Module,
-        num_experts_per_partition: int,
+        layer: EPMoE,
+        num_experts: int,
         hidden_size: int,
         intermediate_size: int,
         params_dtype: torch.dtype,
@@ -117,7 +121,7 @@ def create_weights(
         # Fused gate_up_proj (column parallel)
         w13_weight = torch.nn.Parameter(
             torch.empty(
-                num_experts_per_partition,
+                num_experts,
                 intermediate_size * 2,
                 hidden_size // 2,
                 dtype=torch.int8,
@@ -130,7 +134,7 @@ def create_weights(
         # down_proj (row parallel)
         w2_weight = torch.nn.Parameter(
             torch.empty(
-                num_experts_per_partition,
+                num_experts,
                 hidden_size,
                 intermediate_size // 2,
                 dtype=torch.int8,
@@ -142,7 +146,7 @@ def create_weights(
 
         w13_weight_scale = torch.nn.Parameter(
             torch.zeros(
-                num_experts_per_partition,
+                num_experts,
                 2 * intermediate_size,
                 hidden_size // self.quant_config.group_size,
                 dtype=torch.float32,
@@ -154,7 +158,7 @@ def create_weights(
 
         w2_weight_scale = torch.nn.Parameter(
             torch.zeros(
-                num_experts_per_partition,
+                num_experts,
                 hidden_size,
                 intermediate_size // self.quant_config.group_size,
                 dtype=torch.float32,
@@ -166,14 +170,14 @@ def create_weights(
 
         # Input scales
         w13_input_scale = torch.nn.Parameter(
-            torch.ones((num_experts_per_partition, 2), dtype=torch.bfloat16),
+            torch.ones((num_experts, 2), dtype=torch.bfloat16),
             requires_grad=False,
         )
         layer.register_parameter("w13_input_scale", w13_input_scale)
         set_weight_attrs(w13_input_scale, extra_weight_attrs)
 
         w2_input_scale = torch.nn.Parameter(
-            torch.ones(num_experts_per_partition, dtype=torch.bfloat16),
+            torch.ones(num_experts, dtype=torch.bfloat16),
             requires_grad=False,
         )
         layer.register_parameter("w2_input_scale", w2_input_scale)
@@ -183,25 +187,25 @@ def create_weights(
         device = layer.w13_weight.device
 
         self.a_strides1 = torch.full(
-            (num_experts_per_partition, 3),
+            (num_experts, 3),
             hidden_size,
             device=device,
             dtype=torch.int64,
         )
         self.c_strides1 = torch.full(
-            (num_experts_per_partition, 3),
+            (num_experts, 3),
             2 * intermediate_size,
             device=device,
             dtype=torch.int64,
         )
         self.a_strides2 = torch.full(
-            (num_experts_per_partition, 3),
+            (num_experts, 3),
             intermediate_size,
             device=device,
             dtype=torch.int64,
         )
         self.c_strides2 = torch.full(
-            (num_experts_per_partition, 3),
+            (num_experts, 3),
             hidden_size,
             device=device,
             dtype=torch.int64,
@@ -212,13 +216,13 @@ def create_weights(
         self.s_strides2 = self.c_strides2
 
         self.expert_offsets = torch.empty(
-            (num_experts_per_partition + 1), dtype=torch.int32, device=device
+            (num_experts + 1), dtype=torch.int32, device=device
         )
         self.problem_sizes1 = torch.empty(
-            (num_experts_per_partition, 3), dtype=torch.int32, device=device
+            (num_experts, 3), dtype=torch.int32, device=device
         )
         self.problem_sizes2 = torch.empty(
-            (num_experts_per_partition, 3), dtype=torch.int32, device=device
+            (num_experts, 3), dtype=torch.int32, device=device
         )
 
         return
@@ -266,3 +270,50 @@ def process_weights_after_loading(self, layer: Module) -> None:
             [w2_input_scale_max], dtype=dtype, device=device
         )
         layer.w2_input_scale = Parameter(new_w2_input_scale, requires_grad=False)
+
+    def apply(
+        self,
+        layer: EPMoE,
+        hidden_states: torch.Tensor,
+        topk_output: TopKOutput,
+    ) -> torch.Tensor:
+
+        # TODO(ch-wan): move it out of this class
+        from sglang.srt.layers.moe.cutlass_w4a8_moe import cutlass_w4a8_moe
+
+        topk_ids, topk_weights, _ = topk_output
+        local_topk_ids = topk_ids
+        if layer.expert_map is not None:
+            "Translate info from expert_map to topk_ids"
+            local_topk_ids = torch.where(
+                layer.expert_map[topk_ids] != layer.num_experts,
+                layer.expert_map[topk_ids],
+                layer.num_experts,
+            )
+
+        return cutlass_w4a8_moe(
+            layer.start_expert_id,
+            layer.end_expert_id,
+            layer.num_experts,
+            hidden_states,
+            layer.w13_weight,
+            layer.w2_weight,
+            layer.w13_weight_scale_inv,
+            layer.w2_weight_scale_inv,
+            topk_weights,
+            topk_ids,
+            local_topk_ids,
+            self.a_strides1,
+            self.b_strides1,
+            self.c_strides1,
+            self.a_strides2,
+            self.b_strides2,
+            self.c_strides2,
+            self.s_strides13,
+            self.s_strides2,
+            self.expert_offsets,
+            self.problem_sizes1,
+            self.problem_sizes2,
+            layer.w13_input_scale,
+            layer.w2_input_scale,
+        )

From 5c9c275bc8ed388b68e6617d8f081f58aa2dafbe Mon Sep 17 00:00:00 2001
From: Elfie Guo <164945471+elfiegg@users.noreply.github.com>
Date: Sun, 27 Jul 2025 01:05:22 -0700
Subject: [PATCH 165/396] Use FlashInfer FP4 gemm. (#8241)

---
 .../srt/layers/quantization/modelopt_quant.py |  25 ++-
 sgl-kernel/benchmark/bench_fp4_gemm.py        | 210 ++++++++++++++++++
 2 files changed, 230 insertions(+), 5 deletions(-)
 mode change 100644 => 100755 python/sglang/srt/layers/quantization/modelopt_quant.py
 create mode 100755 sgl-kernel/benchmark/bench_fp4_gemm.py

diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
old mode 100644
new mode 100755
index 223d7d43fbc9..36ffd1275f4e
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -35,10 +35,20 @@
     from sglang.srt.layers.moe.topk import TopKOutput
 
 if is_cuda():
-    from sgl_kernel import cutlass_scaled_fp4_mm, scaled_fp4_quant
+    from sgl_kernel import scaled_fp4_quant
+
+try:
+    from flashinfer import mm_fp4 as fp4_gemm
+
+    enable_flashinfer_fp4_gemm = True
+except ImportError:
+    if is_cuda():
+        from sgl_kernel import cutlass_scaled_fp4_mm as fp4_gemm
+    else:
+        fp4_gemm = None
+    enable_flashinfer_fp4_gemm = False
 
 try:
-    from flashinfer import fp4_quantize as fp4_quantize
     from flashinfer.fused_moe import cutlass_fused_moe as flashinfer_cutlass_fused_moe
 except ImportError:
     flashinfer_cutlass_fused_moe = None
@@ -683,11 +693,16 @@ def apply(
         assert layer.weight_scale_interleaved.dtype == torch.float8_e4m3fn
         assert layer.alpha.dtype == torch.float32
 
-        out = cutlass_scaled_fp4_mm(
+        w = layer.weight
+        w_scale_interleaved = layer.weight_scale_interleaved
+        if enable_flashinfer_fp4_gemm:
+            w = layer.weight.T
+            w_scale_interleaved = layer.weight_scale_interleaved.T
+        out = fp4_gemm(
             x_fp4,
-            layer.weight,
+            w,
             x_scale_interleaved,
-            layer.weight_scale_interleaved,
+            w_scale_interleaved,
             layer.alpha,
             output_dtype,
         )
diff --git a/sgl-kernel/benchmark/bench_fp4_gemm.py b/sgl-kernel/benchmark/bench_fp4_gemm.py
new file mode 100755
index 000000000000..80773eb077d4
--- /dev/null
+++ b/sgl-kernel/benchmark/bench_fp4_gemm.py
@@ -0,0 +1,210 @@
+import argparse
+import copy
+import csv
+import itertools
+
+import pytest
+import torch
+import triton
+from flashinfer import mm_fp4
+from sgl_kernel import cutlass_scaled_fp4_mm, scaled_fp4_quant
+
+FLOAT4_E2M1_MAX = 6.0
+FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
+
+
+def get_weight_shapes(args):
+    models_tps = args.tp_sizes
+
+    if models_tps == [4]:
+        return [[1024, 3584], [7168, 256], [7168, 2304], [9216, 3584]]
+
+    if models_tps == [8]:
+        return [[512, 3584], [7168, 128], [7168, 1152], [4608, 3584]]
+    return [
+        [1024, 3584],
+        [7168, 256],
+        [7168, 2304],
+        [9216, 3584],
+        [512, 3584],
+        [7168, 128],
+        [7168, 1152],
+        [4608, 3584],
+    ]
+
+
+@triton.testing.perf_report(
+    triton.testing.Benchmark(
+        x_names=["batch_size"],
+        x_vals=[
+            1,
+            2,
+            4,
+            8,
+            16,
+            32,
+            64,
+            128,
+            256,
+            512,
+            1024,
+            2048,
+            3072,
+            4096,
+            8192,
+            16384,
+        ],
+        # x_vals = [64],
+        x_log=False,
+        line_arg="provider",
+        line_vals=["cutlass", "cudnn", "trtllm"],
+        line_names=["baseline cutlass fp4", "cudnn fp4", "trtllm fp4"],
+        styles=[("red", "solid"), ("blue", "solid"), ("green", "solid")],
+        ylabel="latency (ms)",
+        plot_name="fp4_gemm_benchmark",
+        args={},
+    )
+)
+def benchmark(batch_size, provider, N, K, dtype, correctness, csv_file):
+    M = batch_size
+    packed_k = K
+    K = 2 * packed_k
+    a_dtype = torch.randn((M, K), dtype=dtype, device="cuda")
+    b_dtype = torch.randn((N, K), dtype=dtype, device="cuda")
+    a_global_scale = (
+        (FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX) / torch.amax(a_dtype.flatten(), dim=-1)
+    ).to(torch.float32)
+    b_global_scale = (
+        (FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX) / torch.amax(b_dtype.flatten(), dim=-1)
+    ).to(torch.float32)
+
+    alpha = 1.0 / (a_global_scale * b_global_scale)
+    a_fp4, a_scale_interleaved = scaled_fp4_quant(a_dtype, a_global_scale)
+    # print("a_fp4", a_fp4)
+    b_fp4, b_scale_interleaved = scaled_fp4_quant(b_dtype, b_global_scale)
+    res_fi = torch.empty((M, N), dtype=dtype, device="cuda")
+
+    quantiles = [0.5, 0.2, 0.8]
+    if provider == "cutlass":
+        ms, min_ms, max_ms = triton.testing.do_bench_cudagraph(
+            lambda: cutlass_scaled_fp4_mm(
+                a_fp4, b_fp4, a_scale_interleaved, b_scale_interleaved, alpha, dtype
+            ),
+            quantiles=quantiles,
+        )
+    if provider == "cudnn":
+        ms, min_ms, max_ms = triton.testing.do_bench_cudagraph(
+            lambda: mm_fp4(
+                a_fp4,
+                b_fp4.T,
+                a_scale_interleaved,
+                b_scale_interleaved.T,
+                alpha,
+                dtype,
+                res_fi,
+            ),
+            quantiles=quantiles,
+        )
+    if provider == "trtllm":
+        a_scale_interleaved = a_scale_interleaved.to(torch.uint8)
+        b_scale_interleaved = b_scale_interleaved.to(torch.uint8)
+        ms, min_ms, max_ms = triton.testing.do_bench_cudagraph(
+            lambda: mm_fp4(
+                a_fp4,
+                b_fp4.T,
+                a_scale_interleaved,
+                b_scale_interleaved.T,
+                alpha,
+                dtype,
+                res_fi,
+                backend="trtllm",
+            ),
+            quantiles=quantiles,
+        )
+    if correctness:
+        res_cutlass = cutlass_scaled_fp4_mm(
+            a_fp4, b_fp4, a_scale_interleaved, b_scale_interleaved, alpha, dtype
+        )
+        mm_fp4(
+            a_fp4,
+            b_fp4.T,
+            a_scale_interleaved,
+            b_scale_interleaved.T,
+            alpha,
+            dtype,
+            res_fi,
+            backend="cudnn",
+        )
+        assert torch.allclose(
+            res_fi, res_cutlass, atol=1e-3, rtol=1e-3
+        ), "cudnn fp4 doesn't match cutlass fp4"
+        mm_fp4(
+            a_fp4,
+            b_fp4.T,
+            a_scale_interleaved,
+            b_scale_interleaved.T,
+            alpha,
+            dtype,
+            res_fi,
+            backend="trtllm",
+        )
+        assert torch.allclose(
+            res_fi, res_cutlass, atol=1e-3, rtol=1e-3
+        ), "trtllm fp4 doesn't match cutlass fp4"
+
+    if csv_file:
+        with open(csv_file, "a", newline="") as f:
+            writer = csv.writer(f)
+            writer.writerow([provider, M, N, K, ms])
+
+    return ms, min_ms, max_ms
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--tp-sizes",
+        nargs="+",
+        type=int,
+        default=[1],
+        help="List of tensor parallel sizes",
+    )
+    parser.add_argument(
+        "--dtype",
+        type=torch.dtype,
+        default=torch.bfloat16,
+        help="Data type",
+    )
+    parser.add_argument(
+        "--correctness",
+        action="store_true",
+        help="Check correctness",
+    )
+    parser.add_argument(
+        "--csv",
+        type=str,
+        default="results_cutlass_cudnn.csv",
+        help="CSV file to save results",
+    )
+    args = parser.parse_args()
+
+    if args.csv:
+        with open(args.csv, "w", newline="") as f:
+            writer = csv.writer(f)
+            writer.writerow(["provider", "m", "n", "k", "time_ms"])
+
+    NKs = get_weight_shapes(args)
+    for N, K in NKs:
+        print(f"DeepSeek-R1-0528-FP4 N={N} K={K}: ")
+        benchmark.run(
+            print_data=True,
+            show_plots=True,
+            save_path="bench_fp4_res",
+            N=N,
+            K=K,
+            dtype=args.dtype,
+            correctness=args.correctness,
+            csv_file=args.csv,
+        )
+
+    print("Benchmark finished!")

From 44d600cd675f6899f4001dd9e3f8c2c7208d1863 Mon Sep 17 00:00:00 2001
From: Kevin Xiang Li <kevinli020508@gmail.com>
Date: Sun, 27 Jul 2025 01:14:49 -0700
Subject: [PATCH 166/396] Support precomputed_embeddings for Llama 4 (#8156)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xiang (Kevin) Li <lik@nvidia.com>
Co-authored-by: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 .pre-commit-config.yaml                       |   6 +-
 docs/backend/vlm_query.ipynb                  | 383 +++++++++++++++++-
 docs/index.rst                                |   1 +
 python/sglang/srt/layers/multimodal.py        |  19 +-
 .../srt/multimodal/processors/mllama4.py      | 125 +-----
 test/srt/test_vlm_input_format.py             |  38 ++
 6 files changed, 449 insertions(+), 123 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index e9e9af1d0a02..3512b2c89f02 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -39,7 +39,11 @@ repos:
       - id: codespell
         additional_dependencies: ['tomli']
         args: ['--toml', 'python/pyproject.toml', '-L', 'cann']
-        exclude: test/srt/test_reasoning_parser.py # Exclude the test file that is expected to fail
+        exclude: |
+          (?x)^(
+            test/srt/test_reasoning_parser\.py|
+            docs/backend/vlm_query\.ipynb
+          )$
   - repo: https://github.com/pre-commit/mirrors-clang-format
     rev: v18.1.8
     hooks:
diff --git a/docs/backend/vlm_query.ipynb b/docs/backend/vlm_query.ipynb
index 3f03a5671626..7c95c1ebcd56 100644
--- a/docs/backend/vlm_query.ipynb
+++ b/docs/backend/vlm_query.ipynb
@@ -28,7 +28,32 @@
    "execution_count": null,
    "id": "2",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "<|im_start|>system\n",
+      "You are a helpful assistant.<|im_end|>\n",
+      "<|im_start|>user\n",
+      "What's shown here: <|vision_start|><|image_pad|><|vision_end|>?<|im_end|>\n",
+      "<|im_start|>assistant\n",
+      "\n"
+     ]
+    },
+    {
+     "data": {
+      "image/jpeg": "/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0aHBwgJC4nICIsIxwcKDcpLDAxNDQ0Hyc5PTgyPC4zNDL/2wBDAQkJCQwLDBgNDRgyIRwhMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjL/wAARCAF8AjoDASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAAgEDAwIEAwUFBAQAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdISUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMoEIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0tba3uLm6wsPExcbHyMnK0tPU1dbX2Nna4uPk5ebn6Onq8vP09fb3+Pn6/9oADAMBAAIRAxEAPwDyDRuNQLHnCmur4POccdMVymijN8/H8NdUM7c9+lSNDkwpAHUU7Py4xk5poOeaeAOooGchrCs2qTDPAx/KqHlNj/GtnUULalMcZ5FReQOoHFYTnZm8Kd1cyxGynnj8KcIcirssOGzihEPpxilzh7LUqrD1AFO8sjg8VbRDycHikeMZzS5xuFkZE6gynPpQsSuRlsVJd/LORx0FRpksBW6bsczVmWLWDDO3opxW5oq7bJzz98/yFZkK7YXI/umtbRxnS29fNP8AIVSEbGn6ounTRTHnaM1l3Wo3WuX8zeaY7fPIJ61R1FijKDwp4yelTaSvlpjgjrmlbW4/UqRzvHHK4iUIGOAg5GD+VOt7+EvuB+Y+tWH024SzKx/NnqAaxYbeWO5USRuvXqKaIubfmozbumV4708RkLkEEEckVj42OdjFfXB4qb7SyHh1f6jB/wAKHJpm9OTS0LoGXXI4zUN+eV+tJHexORuyG9xS3GLhVZGB/Hincmo7s1fDij5zjOZFFbsgJkYjj5jWJ4cG1iCRzICMGttyA59cmlclDZsCCTj+E/yrnrvixjx3x/KugmH+iy8n7h/lWBdrmxi46YpoUiSIf8SzHoppmmDFu/1qaMH+y+n8BqLSz+5k/wB6mSQ2qD7RMf8AZP8AOqmnpu1KIf8ATTmrtlzNKcfw1X0tN2qRZP8AETUsEdmMLaxAen9abMP9ElXPVTUihWto8ggbev40yZSlq5wPu0It7HJwXt3aTSxxklFHNaFrrkD2rRshBboRVOBAYLuU4+Ykc1E8KnRQxUEjpxyOaZFjoY5o5NORI5EdicEA4I/CtRPk0/bzzdR/+gmuCsYJ3hkk84hV6A1paVr9zcTQ2c3KGUSZ75xikwSOqnYGU1kaq37xB6o39K1HYFzz371kaoMzLjtEaRT2M1OYWxx8wFKwP2UA/wATE/lxSD5YSfVv6VI/+qjXvg/zp7akI6zRDs0mEd+f51o2uAxQFlQjIO7O3ntVDRbeSS3tokyPlJDYztINaPlSW7AyKimRSSg4HBrWnWppqDep9dl940kr7l7eu3e/LHoxH8/SuT0P994zhI/57E5/Ouh85DCSWKnacE9TVDQdFu7PxNbXMwjMTlipVwex7VrWeyOfOZXpxGa6c6kx9Zz/AOgios7UJ/2TRq/z34I/57Of/HRSN/qnwf4c5rm6nziMiKMzzHjqa6Kzh8qCQ+ik1m6fb4Y8VuEbLGZvRG/lSZn1MLRh+5JHpWzqExhs4HABO6sjRxi3/KtXUcNFaRk43E8+lCNeg3SLn7WZywPyYHt3rN8Su63q+X5mQn8A4rV0zEbXATBAIGRVa+uIv7SuEmdV2oCMnrQviBbFrRVaPR4t+dxJ4asK/QvqE+IXOX4OeK6KxYSafER0NYMt7DuuFKuZPNIX5PehbgdLFhLFB0IUcfhWWl38oHkHBIG7PFakxKWhPohP5CuatLyV/stuEIYuNxLD1oWojor077KRegKkZ+vFc3Y6OsN9bz72/dtxW/qoKaZcHPO3j86xNPvWn1OCBmi+UZ+U5zxRHYbN27keG3eWGWSF3wrmNyuR7+tZOn2Pn6tbPjdcM21c1oauGOnkK2CSP51m+H7/AD4gtnklDiNl4C44zRF3QmrHQazBdaG0kcg8udcZANZVvDanUBsSOK5ILFAMBs+nv7dK2PG2sPP5k3y/JLtXA52n/wDV+tYGg6xcXV2UmiSaILn99GM/gQKaWgr6mhqDBbQnPBIqvH5SX8KJg5XeRnmk8UXMR09ykLfLKvyseq1k+Hpkn1fYsXRDzR0H1N3VZAtk5f5VyBzVOxK3t9CYWBji5kf+FcjofetjUoUltD5uBGDlifT2rLtJ0lvI4YE8uFclEC4/EnuaIvQOpvrOkbDy081wPvyDj8F/qah1G7unu/K+0SbPl+UNgfpUXmosgRidw7bTUdyGku3uId4LMp5Q9hj1pJjtoM1eALp7yHqOhFcq2lx3Ukf2olvm6ZrqpLkyadLb3bLJOQ2xlGEDdV3DrgCq+mac0FqpdvMaTlsoML9KadkSONpDZ2Dw28YjXvisY6bbZPy/+O1ryxu96YpJ3ERTIiwBg59fSs2RJxK+2/lxuOPkX/CiyGee6MQL1/8Adrqsjb37c1ymjAm8fnjbXVc54GRUjQ5Qd+egpx56HimLyByc1JwTz+FMZgXuBfzHBPPaod5CYCmrt0n+lSkDnNROg2kY7da4ZS1Z3wi+VFX5mHTpQkJC8sKmjjBZvSpxGB8uMkVPMUoXK3lYHDE/hUbx/Ly1XduecGoZE3E5pqQpwVjAvQBdYGegpIk+bNSXw/07A9BToV55rtjsjgnuy0oIt5P92tjQUB0pu370/wAhWQ3Fu/0ra0Aj+zcYP32NCJRZlsEuItsnNRi0EDFQOAK1YgNvPX0qO5TOTjtTG1oV0GLfp1BqK2QNMAVyMd6n2stuMN271DZ7hLkrng8ipZkR3WnW0gOY8E9xWXNo2P8AVS59nrenZSSOnHQ1CE3AkjI9M0OVtzopuyObFhPFOuUyB3HNVfJb7cBnjPY4rrVRVmTnPtipLPThd6mMp0OacZ3IqFTRYpba+Mb5JJX8ARmttic9cjNMljVPEkygcKyj8lpzHnPTjpTJi7oZcHFnLzn5W/lWHPteyRVbLLjPtWxqJxpdy3/TM1y8e+GwSYOxbbnB5FNMJGtGD/Z+CDjGCajsXhiVwxkOemxcmqVrfyzW7Fk+QZDYOcfgasWN3bqrbHyG55pki2WBcXAHoe1Q6Sf+JnGcdGY1PbrsmlckAMOOah0cf8TNfYNQ9ho7DcBBGBx8oqG8YLYXBJ6KamYgIg77BVTUeNMnJx92kiuhhp8mjMe7Hn3odduiA+v+NOn+TSYlHei4G3R1XHpTIIohs0OVx1INM0OJTqkYx0B/lU2P+JE2O+f50/w6gfUlJHRGpMEdG5+cg+tc9rl/Ja3sYVdymP8ArXQuMyE8AE965jxEubtc/wBwChIp7DI762mXYf3bDrk1Z8sOybGDKo6j/CsO4hG7pnIB/SmxyzQLuSQgDsadl1JR614anWG0RHfOUJKD+Hmr1/MqxHYUJ6Ekc1w+i6jcGy3uck/LkVrpPJcLLcOhAOFyWH8q4Y4OTre0b0PrMFRtCMm9LF0uu0sVPTqKzfBZd/ExbcSFikOc1P5o2H5T93uaj8DLnWLqTssDV6dR3scmcaxTHX7br1T6vIf1AoQAnaxwDxkimXWWvUx0w5/8ep6ck/WsVufPrYvWthIhcfLiMZJ3dR6ir12AmkXB7+W38qZZDfbkHqh4PtT9Wwmk3QHRYiBR0M1uYenIEhAHtUmvvHFb2zSgdT1ptoCI8fSneILRLyGGF3K96EbdCfw46vZykKozJ2+lZetXcMOqyBsdB2rY0REWzwnK7sdMZrN1PTorzUHkfJOex6ULViextWXNhbn/AGa4K61KX+1J4Ukcfvzx2616HGFS0jI7KCBXMDSbN7jzhDyz5znvREOx0V45FlMcdI2/lXC6GGfVrQ4P38klq7292paSkjI2HNY9nBFHcW7Ii888DFCAv66caPOR12d/qK5jw4C+rrIYgNoIBrsLxlWFdwBGehqjaxLDdIm0bipbnrQtg6ly9jEkYUsBg55OBXOeHLedNSdplOChwfxrc1aTyo4vdqjsWQXTIuDsXnBzQloHUb4mikm09Y4ly3mDv7GsXwxYXNtdSG4yPl45rodVlSMW6u4UM2Dk1Dp8kct9cCFg4AHShbA9y3OFaSFJUV4JG8uXPXB4yPocGsbQ9H/s/WrkF9x+ZP1rS1WWOBIhMSqsetWbWRJtTeVclmgWQnHrgU4q6DqJqwZ7dAvGGzis3TFf7YjucAKeKv65crb28JYNt3YOBVHT7pLm4IVHXC55oS0BvU6iCASRI449ad5RVskAAHNPsCq2aZPvU8sqCFmyMBT2qbFI5CVoAzZkjAZ2Jy49K6PSkT+zYCu0qVyCOlcitnZiYZiBzye4rr9Oi26fbrGoChBgU7oS3MO/u7K31iTzZlVlAGMVQ/tOw/57f+On/CrGohG1O43Rbm3DnFVt8X/PJ/8Avmi4rnmuhKGupTycL/WuoySQM59q5vw6MzXZ/wBgV0e7HXrSKSHKPmYdKVeoOcU0E5OW49KccnsOKCihP/rnJ5INQsBtqSVCZnO4jJ6YoSM4wWrz6nxM9OmvdRFGueKfj5yCackJ3E7qBESCWJOai5VtCM/Kc56VC+SeD1qwYlKnIqSG0DyKewPNXEzkjmtRTZqO3H8IpYxzmrGtpt1th2AH8qijFd0dkebP4mSSD/RX+lbegLjTc+rtWLN/x6vj0ra0KQCwRO+Sf1qiUbduMgcHpTbjpnrxUkGdnpio5yCpA69KBvYhYDyOnamWaZkJHZanliYQ4HoOtNtUZWc/hSMrhOmS3H8OaqhFUHjHvV1wSr+uBVdxlSMUpJM0gyKEb5k5J5710+i2PlsXK8k81i6dal51YjgEEV2NjFsBPpRGJNV6nKXCj/hJbr/rrj/x2oucde1TT5PiC8PcSt+i1BkkjDdqoIbDpQrW7hlBBGCKhvNLtpLAjy9pxjK1O+fIYZqS8Oy0wRjkCpdymjCh0Fk09/JlDZ3EBxWfY2E0XnGSEnpzXWwkf2fx71X08cSj6UKTJschZl91wA7Db0GeM/Srlg8ouoJXQEMDkgYxxXQ2tlDO9wGiUluM4xU17psdhZWEajqzE1XNcCzIRtTn+BePwqlqfOmSj1q5J94A9lA/SqGssRpExBIIGRTRT2My+GLKBRjHepL1Smmoo/2ax455F01blmB56VakvpJLSL7QNqP904/wpmZZPGisKd4az9uJ9Iz/ADqDzkbTGhUnd2q34cidbp2KsBsxuxxSkUkdC52uB1+tcv4hb/T0AAHyc10znL+oFcxrgDakxP8AcGKExszrkHeoz/Cv8qilH+jJ6liTVm4XEnrhR/KopFzHF/vGmKJvaS+LQEdjyK0432zPtbG5ARzWbpJ2Wg7Zb5T71qKwwCUUAZwccn8KzdaztY+vwlRexin2JlkDxgY7evepfANwJLvUxjmOLHPuf/rVWjddrHaOOvtxVvwJGqR6xJ0OAM/iauM1M4M3knCJHNLbtfFYZVk2x4cg9GLEkVJGMy496wNGQi/vpMk7pCD+ZrVvL77BbPcld2wjIHuQKFufP9LHT6eNuzHd/wClM1nI0a5z1K8fnWbovibTbl0V5hC3/TTgfnWrr2z+xJGR1YErgj/eFHQzS1Me15RTjvSa8HNxCyAEeVt5YDnNLaDCID61F4iSaZoRGgkweeOlC6Gz2NHRSUsF3YJ3k8fhWVfXUtvd3MeYf3hGCScgVo6GkqaXGjrtYM3H41h6rbzSalM68jihbsT2R1SAmxTnkoOR9K5i2lkN1Fbm4TCy9BGeefWuk2lLOLJ6IvT6VgWunbb5JftinEm7Zg569KI9RPob+ooZLOSMNgsMZrNsrKSK8iZ7tpBHwF6cYq7q436fKucblxmud0PT5bfWEkeTOVPGaED3Ok1JEuI0jlfYmeTnFQWUFnHc747jzZQCDl9xxTPEdubmxWHOCWzWR4Y0v7HqNzN5m7emOnvRuh9TQ8Tywpb27ORtEmefpVfwxPDJJNt29ByKseJ9NW/iSEuQPao/DOmpYCYBidwHWi2g3uWvEVzClvG0gBweCRVbwvKj+e6EkZAqzrdql0qwnJA5wKfpMMFjGUHlxr7daFe1ioUpTlaKuV/Ftx5VnB1ALde9a2m27pbRXTPGUlt41UB/nBAycjtVHVRDewiIGJ1H96tW1mlOmW8bNFs2nlF5wp4/lVJNR1KqUKlNpyVjK8Ru5t4VRQctVTRQ5nl34GE4qzrcmHQcBcVFokm8zn04zSWxi9zrIMCBBxjaKjuG/wBHcAjO04qNA/y91x/Sq905jikc9FUk4qSzLcStcKnlgFYycE9a6q0bFpCCvOwfyrGn0+9t9J/tya3ZLOQBFLcHnocelbUIUQRcH7g/lTsJHOXUchvJX4wzHGKpG1fJ+dfyqSXU281wLWdvmIzjjNVzqE2T/ocn5Ci6A868Pcvdj1T+orothI4JNc54d4e79do/nXSc4AxSHcVWIU5/Wjv1yDRkdOOe1PG0qAaYIoP/AK5+vWlwAc4/OmM4WRzngGhplx2rzZ/Ez1qb91eg/t6etLk4xUaONpbIx9aUOvTPIpFXGDLHgHrWpZR8HIwcd6pWyq0mfeta1T5+xBqo7mUmcZr/APyMUoHYAfpUCCp9eUf8JJc49v5VCg5rujsjzJ/Ex0//AB7P05rc0NP+JZGxGM5/nWHcDFq34V0mk8aNZgj+E/zqhGnbk+WeSajuhthYgjJqSEnYSBgVDc8qRjtQN7FV7yeOLqG9iKls9RUqxkh6HqDUcse5cHgVCqBFK8HPPSkZGmt9Zur5kCn3qRYopV/durA+hzXOTJlH9CRVaBXW5iUMRlh0+tJouOx32nWwjxxXQWqkKazLGJtoIU4xwa1oRtQ1cTKTuziSQdavW9ZJKhPUCnxuG1O+Y/8APSX+dRkkn6daRrHYk6xgZzlgP1qzeg+Qo9xVeJdzIvqwxVy9jby1A9aljbIo0X7DjGcg1XsI9hk5Pbir6RkWI4x8vWorCJizjHU0CLGg2hkuZWIOM1L4pQK9gO+H/pWtotuEL5GKzfFZ/wBMsV9Eb+lNIl7mZPxIc+38qhlQNaurjcpFSz/61uO9MlBaFsccU+hfQz7rSLWTSVRVMeT/AAVQ1PRpfsttHE4IX1renDCwjGM5PakugDJarz1B5H0qbtE2IdK0mKfVFM0XmPBxszwK9Hu5ja6YsfkIEHZVAA/CsjwnbQ2Vj5rjM8zlya6HUbm3lhKFUIYc1HtE9zsjS91Hnt7qNgJ8SgI79CK5vVAsmpyAOuVxkE+1WPFNn9k1MOn+pPIrL13R7l7hL+HZKk0anEbguvHcds44rSMk9TnnTld+QtzGTKSR6VXdfljHA+YgkngVFNfzWyxwtFsZF56/N9c09L9ZmjR4TlumDV3VjNHQ2tsY7V1R/Nlz9+BwUU5+nNI8UqLvdpAF5Jx071NoMmbOdRn5Xq3qH/IOuQOuw4qeVM9Knj5QiklsZKXkB4a5cp0J/wAiuq8LQi00fU7hSH83DcEcYziuARAImLkjOOB1rt/Cu1PCeouGchpCPnGf4aqKS2McVjJV0k1axjaJwlw5/ilJqbXju0iVRjDMo5qHSOLR26Zlp+tEf2cQf760luciOfkt8rbKoIdhjipUuryG7NnFO/kmTBTcccVaRP8ATrcEfdWq8CBtXzj/AJamm9iDt7M5WLjFSagqSXzREgBU3ZJqO04aIehFVdce1jvVMoAJHU1K3L6G9Y+WbND3Of51gyXFu8crM8e8SFQM89a19NKjTrfZnaVriJr4JqkqbIyDPtHycj5sdaI7sOx3d24jsmJOMR5zWNY3sElzaBHBdj8wrX1MMmnzN6RN0+lch4cuZ7nXLeLqBktx7ULqJnT64xXTm4OMj+dUNHuPtGqx4BCLERyOM1oazGWs2RTySP51l6BJI9/Mr5O1e596SkrWRT3NHX5XjSDCk/NzimaLJ5t3OwVlQAY3VF4jlCiHJxyeab4ZcSNcuGyCyimnoLqTa5cGC6t8LlcZPOKXQ5jc/aZMY+YACqPigwi+t1mDEbf4aseFVVrSZkXCmTv9KOgdR+s3b2t5GVVGXaerYqfTA17YudmG3HGysXxkkpubXyV34znitnwXeLa6GY5kKOZW/KplUlBe6rs9PLG1VbSuRXJe2XL4Bxye1aumym40exkbkujMcf7xrL17zGsrp4k3SEfKo681f0mNotC02Ngdy2+D/wB9GtZSk1qjpzad3GL3KOq2009yFjkCqEGRt/rUmmWj2ok3vu3Y7U69e3S9czMR8o74p9m8cit5WcdMmovoeI9zeBwuOOBVG8kKRSthThSQCOKt8bmBJ6VSvABbuRknpihDZZ0TxBrniSzuIdda0XSlIRVSLDMw7Dn6VqurGEqsLqBx8gLY+oriIbmeFjCgRY1cKqAHA3Hk/WuqlmdY2KOVI54bmm2RG551qcskV9JFKCGLErzxitCAH7PH8y/cH8q2NQePVIYo72GOWWL5luNoDn2OKjitU8lOF+6O1TyFc6PMfDoG+6PTgV0JJxiud8PnEk/uFxXRZycnHPSmOw5QNpY0owRktg03jPX8Kd1UcU3sNGc6fvHzzk8UyNAc5xkUSORKwx3pqvg158viZ6EX7qBApYrgYqVI8tmoY2ySat24yeeaVi7ly1jUkApW3AgOCBjHFZVucHBHJ6e1bEAGV52/WhLUzk9DzzXv+RmvPYjp9BUKDmp9dx/wk15/vf0FQR9a7o7I8+W7C5P+jN9RXRacR/Zdpg8+Vz+Zrnbr/j1J9xXRaUuNPgPrEKpE9TTh+7gdKjnOXYegAqWMEKBmoJ5UjWSRz8q9aBvYHTK1C8I2cZ5p8d7ZzfcnUE9icVKyB0UI6tx2NFjHUyp0CqwyeSKkhjX7Vb8gDevJ+tPuoX2jK/xc8U6JGN1AMdHX+dFi76He2qlVwGBFXkUBT7kCqVsvNXVGFH+8KpbGRwMJDz3jerSH9aZnB70WfIum92/9Coyc+1JG8dhwLDaVJB3dRUl/fzwRqeG56GmJhmQED7wPSjUUVlUNnHbFQwZai1dBYBpYj93Py1f0Oe3vld4dxxjOR3rlmlU2pgwemATXReDITHbz5/v0Ik6zT02l8elc74s51WzH/TJv1IrqLQbd3vXK+KiDrdqPSL+tX0Baszp93nSAf3utNb/VkZ5x/hSz486TJ/iNMaWKJCZGwDR0L6FidT9lgHekuUJu7dMelTTNDIsCrIhzjAzzVr7OH1GJs5wPrUk6oVr82J8ts49KDrNxeALDETjqSOKTX4riCA3dqxDx8MO2K5S4/tO903zPM8plfayJn0/WsJQszvp1HKKtui/rULX7FTINyj+GqFqjiySTkhmAXjpgcD9arWhNuhYvuLV13hq5sgXtJIUkRogQrjIyKV7OyNVFzTXVnM3kSyTuHUMPcUlnodvPdWpjjKspzweBye1ezweG/Dmq6fG8ulxq0gyXi+U/mKmt/h/pUeJLaS4g9nYN/SsY42HM4vRo5amGlFnlq24tbm7RFwokx+gqprEjR6PdFPvBeK7XX/Bep6e1zdoFuoXk37ouq/WuSuAWtmTGc4AAHPWuynVjJXTMHFrc4aHUJfKcuA4XHXrXonhp0PgG6lQMoeV+p5GBiucm0ZpI5g9lIOOoQjvXV6RZNaeBfICMCzvwwwea1TTJcX2OZ0sg6ewBBPm1JrAzYoOTmQf1pY7QWRlhUYAmwfriq2vXLWlpC6qrfPyD9KS3BbB8qalFnuuKpWZ3aqM93b+tNivTNNFK8bbwofj06Uae6NqCOH3BixGKb2JR3NkgLRgEgjFM1ayS6nDuM7OMCn2J+dDjpzzVPVry8tbqYGGIRyLmNmbHHekiuht2cSR2MSA8KnArnf7KtZbgXBiOWfOS3fNdDAzfY04w3lDOPXFc7ZS3LvbxGSPYsoONvzHmkmOx02pf8eUquPlKkYrIs7KGxul8iNVdxkYznitLUQ89s0YYLuxziq1naTR3aTS3G8xrjAXFDV00S1ctu0eqWSneEZRkmixs0L+ZAgJVArALgn3qnO6W12Syfe6gcA8elXLPUomAUHJUfMa4oykpW6GXNJSsU9YHmyJHt5xxUmhxKDNznDCn3UUFzIvmTGIg4Vk5/OpdNszZeafNMhZsljXWpJxsaKV2VdVVXvth67RjFT6Gu63kJ7P0/CsDxIZxqyNFKyqyAYU1t+H4pILEpLkNvJOarSxV1cTU4vNnaMcAY5pdLGyWeJxnzAGqlqkFtc30yGWRZm2jcGwFwO/sat2bLAUKyF2jBXJOCwPTP406c76Jao9XKZXqtIt6jE9ksBCeYhGWQnPGOlTiVILW1LHankqM+nJrMvr9b5ZRMgO3oBWlJBBcQ20bvsIhXaCOBxXP7Sdm5bnNmdSTrNPoUtbsYZ7B7mMkyKOGB4xS6VbGK0RiDsfBqzZWUyB0G14uxL/pii3S4kndAhjCvwCOD9KiFV3szzYzdzS2nc+DxWVqcrxWruieYwI+XOK1DhAWBOc4Oa53xHdy22lzTRY3KRj866UzovoUoJ7l7lAYB88ilju5Ug11lw+2GXpwjdfpXBafqNy+taZCUGychpMDoeeldzeHbaysByEP8qfUUTh38TSrkYgAXg9ea7u2+zTWsMvl/fQN+YrymaCT7UwERKlsk7a9WtrQfZYf9xe3tV2M5J3PGvDoytwcdNv9a6BQMgYz/SsHw2rstxtxxjrXRKkhXlFOfQ1BqMXOMDpSn5RjJqUK2CSjH3phIx0PPtQPqYckv7x+R96mLKCDz3qFjmSQdfmOOKbuw2a42tWdqeiLUbktjHGa0YGUDPP5VRtVJGR371pQphetJIq+hdt3QjP9K17YpgZzkDOMVm2uNicc9K1YU3H1oSRMmecaw4fxFekdN9RIafrH/Iw32OMSGoo+O9dcdjhluOuebbHuK6XTB/xLoB0xGtcxct+4Huf6V1Fj8mnwe8SmqQkaEZ+XBPSqdyjS20iggbz1JwBVpSu08nPFVbiaOG3M00fmRoQcUwavsYZ0a5cZiktpeOizAn9cVXlt7y0m2MskbAZrol13Qp0AuLMBsdWgB/UVXu5tKumSK1eZlwSqRuQYz/FkntjmmrEOMuqMj7VfBlXzX69+a2bW6uZNQtY38tg0qgnocZrN03T98gmnLnPRe1dNa/Yn1C2VXiLbxtA5IxSsQ3bQ7C2BAGe/NWycJn3qvAi9Qc1YcbYieuMmn0IR53YtmG4OOob/ANCp/BGCD1qLTc/Z5TkdP61KevTipN47EsPLoBzzSatxGnY1WuZLmJEa1zv3jIHpVHVNcu4tiTW6H1BGKVmDFVGckKM49K7PwemLKUn+/jn6VwkOs27kb4HRsdV5rvvB0sc+mu8ecGTv9KaQmdLESPzrkfEoB8RwD0hH8661P61x/iNs+Joh6RL/ADNNijuUJTmVj/tE1BcxGaLaOMHOcVO4BYn3NKmMNjpijoW9jOvkzPbkDheTXSaEPNuXfO5Qa529XMyLn+Gul8KR5gPGcuf5CpdkiVqddpelPqM0oOPJXiQmuC8ZaXceHbiS2gmD2knzxkdfpXouq6hHouliKC42zMM7ccyMa5seHd8U11rKCW6kGAhORGvYV5FTG/vLvZHrUMNaF29WeZRBjCpBZi2OD6VseH4ppNSGOpP6U6905LOUpFF8lb3hfSpplL+Z5K9M06mLSjdG1Onyu7Z2WgXZtDNZS5Ei4Kj1BrabW2jaTAysaM31xXIXgjtZkntpZLhov9dITwR6D2qxdXhFrvT7szYP0INedifftOPXc6ZQUzs7XVCY4Q53Sv26fU1y/i3w/DiLWNPiVdkgNzGv/odLpdwbiZbhmwBHlfZc8Afz/GtmxumchCFYNlWB6FTwVP1pYfEzpySb0OapRXToefafP9stzcpDuYkJIkVqWCn8+vfpRJcKdTNiBGGVd8mIijBsj5SpNT67o82lam8ccMRspPmt2Mfb0/CqVpC/2yK4dYg0jsMomDtBx6+1fRUm5pSTMK2Kp2cWtbGPdjN1MO/2hqq6iqvaoHVWBY8EVakbdPKe5lbj8aju081EU981ueWtijDptvIAwUqViOCDTLfSRZQWTnklmAJHbFbVjal2ZdvybMVPq8QjSwjHYt/SnZkJ6lqx/wBagxVbWNOXUAFjuQZUffhiPlHAK/1q1Yj94Oe1ZUlwF1WR0OSrsCN36YpqNzXY6NlVLX90fkVOAfQCua0yyf8AtRXlcIoO7B5z6V0U0iJZOw5UR5GPTFZNjfQvdW6Ljez4Jx14znpUWXUdzR1eOZrGTym2txtP41meH7a8W7eaaVmjCkY3ZGcit+5tLy8tHe2tZJVj+Z2RchQPWs6yvIiQ0LkoRtHy9T3NKUuVGblZ6C3gd71XIC+WvGRnJ/wq1YTo0xjaEDd3AHI96pXil58+YoViF4HUgcCo9/kSAuJC+cMV7+oArknJ30MZSakS63ZyXc0YtpjFtbJNa9rGIw0TqQexcY2574qGB0KByxaNSAQPvLTpdS2yybGLAjHlyDGPWjne4KbvcztR0i3vLkvJvW4i4RgeK17FRJahFwGGQc9/eq8d/wDaAHEkJG3aUKZJI6CoLq5mgSLykVQetT7SXNcXPK9ylrel3YufMAPlyYX5ealgsSmnpuYhh936VYOqP8zDezkgMgY5/wB4j0qZrJ1JkEhaJhuKHgrn0NdEY1Jr3dGe7k6k5NoxoIH2ugCllPzgDJz3rU1CeBJoLaWNifJT5gcY+WsN7gJcXI3lXD4BJxjtmtbWZWiv4kxuUoufypSi7O5yZpFqs7hE1ujASO7R5wpDfzxWpHqCKInh+ZVODjnPtWVAkECi4JcqxK4Kgr070sTgOkkKLECeCGzuHvWCWp5cW0bhmjkbCvyfbiqGowq8IQqGBPIFPjvW8zyinzr82ajnuCkgQ7QzJkgDHStY1mnqaqo7GZpkS/aY3C/8tMZrfuI/MieNTyw71nWt4RcGOGCMBiTgDvWvbJ5kg85dinvmto1k3qjfDyUppNaXMg6LuJk3fhWmlk2xeG6f3jU18IoZJBC+5R3zU8RPkp838I7V2pRaue5UwlJPY8V8KJuS7wO6iuljUgenPaub8JHEd17lf610yEAZrnR4iHDPQHmk2jb0708DkHPSkYELwaQ0cZK2JpeMZc/zo2qw55NNlDGaXjqx/nUkaHA+U81yvdnVF6FuzZTgD6Vq26Erg8VmWqlB93vxWpAGzyufxqbFXLtqh243Vq2u/cF7etZtqjhckDGcda1rRHU9A3IxzQkS2eYanzr1+Sc/vW/nTEHIp2oHOu6gcf8ALVv501D0xXXFaHHLcS6B8kAHqf6V1dqP9Ctxuz+6X+Vcldn9yue5/pXTWsafZISU6oORTEix5jBXUAkgHoKbI4azkDlVVlK5bpyKzZHvoLkmKTERXgEZ2k9cVZvwF0rcZpNvAJIyaY72dzMGhakqjEIbIzw1V447qzvEaSFlw+ORxWnFrFgJbci7niWPqHTJb/61Urue5urqSeGVri2a4LKqMSEBORkduM0uVJ6GkazaaZ0f2JZbOSBWMe4FQe4zVrw/4YewIuWvA2G5Xb1Fcdba5e2ikRyrIpkOBIua6bSfEKPYzObC7uLtQSxhO2NT/CNv061omluckk0zuYlXzN2RwMdetTyugtpJN42gEbveuAj8RGC4XfC0sJG4IGwfzqe58SS6xJcrbWclvtQkfPwPr+FZybvobOMEtHdlXTfltpMjHA57dal43VFp53Wb/hU3Ru5oCI77Rp9ph9RiaSJjhQFzhvWqGrS6NfRPJA0iiGPcN5KhTnpznPbH41NfWT30aqkiR7Tkl6xrnTpbKZkmeNl5U7GGenpScmjWMIuN09SpG8GQUEbc92r0zwKMaEGKhQ0rHg142ojAzlvyr1rwJGU8MwnDAFmIyPeqbSMWmdnGpwfl71xXiBgfFmP+maf1rt7VWmiLo42rweep61wuusreLJCrZAVB1/2aL3QldPUqsec46mmS3DQYxHvUjk5p2DkcjNRzz2aRtFdPKrSAbNi5DAdR6Zo0KavojNvNTs/tWJFkVgOw4rufAxiuIBMhzEhLE/lXmV2LB7yQeechtoB9v84r0/wVpYfw3DbMxWC5zLcODz5WeFH++QfwFc2LmoU227GuHpuc12Ru6fbNql0/iCdP3aHbZq3cd3P17VbuSZLQq45Hej+1obS+WAxhYJAFA7D0puqXMNojyO+Im+62Cf5V8vUm5y2Pa1RyOoWJdyduc1esICIRGDtUjLZok1CzaRQX4Kk7iCFIHXDdKSLUDLMkVnaSTI+396PuDPbPr7VdpuNg5jbSJItPK7S3mDbjHbvWNPC66XJBk7lbKE98cjP4cVdaDV7mZXa5t4UXg7FzwVJxz6HA/M1BZabdxLN9rv8A7SWwPZBV0Yr4W9xxk0XNDl+0RxuAPmVSwHbAx/StzT48EDPANchaXDWcl1ZfckbO31+ldFZ6gsNubiUk44x6nFc9WDjJp6FTT1aNC6WC9tpLO7X905+Vx/yzb1rjJbWSzvre1mXEkec+/JruIJdPkt1mmmEe7tIdpzVTUrCw1KJZrC4jkuLfniTJYY6Yr1MvxThLkb0Z5eJopq6R5OMFmJ/56Nj8zV2CGFtzzk7FHQdSaoQnIzjqzH9TWrYJHzI/zMv3B/WveXkcK0Wpfsrcx27D5uOOelUNf4ubFPQMf5VswK4VgykAAYU1i+IP+P8AtfXYT+v/ANamZXXMWdOGJM+1ZslsZ9UUhBsDMzZOC2Owx3rQsB+8bjPGOtUWkVZ2YlzltzADnr95fcHr6g0Xad0dVKCbSZMsl8098XdmsI4FaIleDnOcGqWmEveQuAQhbqemcGtOzkR7K8tlGI5DlQRyrH7y/Q9RSadapFMhdtwByoHb61lKSvvqTOUYto0RqFxbQSQrM6Qv95N3DfUVUhZFlyQqoRkIoGV57Ck1KNHSNCM7nGBVBIXjlfZ87RdamUZbo55J3ujYsLU3UN4XMayZ+QOcVWv5280wLtyO9Voo3lkKxg/MCfXioJ3ZfkL7XX5uRk+2cVjKT7ESv1NGG7mt7fyHQEMeWHWpZ2+1rI8SKxKgHPDKfr6e9Z+JwvmKQxIwEU8N6nNNjuG87Y0JV24ccg475qGkyNwt42t523kgg5Pc56jFaCzGSVm27g3IB4BHtVUFYrplAJJG4nrtHpUNzHOpwjKpI3bB/CO/Ppmly3HYvf2riR/s0KhgAPetmxlSVCkjIMDPNc1a3IslctiSY8EelJFqTvvxM+ex44rehU5Ltnp5fjI4ZtvqSa1pZt7t7iBw6Sn5h6U7XCz6owiYDCDkfSsz7ffCQI947qXrY1byRfy5PPAJH0qptNNpmeNxMa8nKJVtDK0MkJBIbtTftDI2xVC7QFcYqTT4pYlZ/NUqCeQajmV0u/McFRJwoC5Xp/KueTd7nnGvFKjo4lOHAynvVNvMSRJ5HRs5x349DVR2nhtyj5GFG0gcE5/SrUEFxLalCjHjKkkZDfTvSSuUWrR0iuC6H5X7Z6cdqu+YWbAaRlPOXbpz6Vlxb41Be3ZdgyS/HHtVxbqG42pB/rCMkVrTaUld6HXgNa0fUv3Nv5VmZy/LEcfU1e2Y7j8qwmdiwiZm5YDBPvWs5G9ue5rvV+57+Kk4ztc8d8JgeVc9/mX+tdMoBAzXNeEv9Tcf74rpi4Uc4645NQjwUSADnFDqFHPbmmB0zw3605ipU5GeKHsNHFu/75yB1Y/zqxEeAc4qB8bicdzViNVKk8jiuR7nSnoi1blRjB71pxsSox/Ksy2QDDE8YrWtsHjJpDRbtwcdSSOa17VjhGJ5zjFZ1ugPViDWlCNoXcgPPUU+omeVXh36xfepnf8A9Cp6RITgzKD8wwe3pUE7Z1G7P/TVv500M7SbticNnvXQr2OXS5JegLGq7QTu611lmoNnD67B/KuRu2LKpxyfyrsLQgW8eOPkH8qtCJXhRiuV6e+ap6xHjR5QOOR/OtBRuGCc8+lU9bQtpu0HGWHNA5bHCXXykDHB60yNmVgdxHrg9amvUZJdpGSCRnFGnwC6voLdn2rI4Un0zTM+hraXp6ak2xP4Rk1uI66Jb3MDQlzN92QP04qhoVrLDqM1va3KgqzLu27sgHFaV7pss4Z7y5D+WudiJgE5wKFG7M5SRSiHnss6QsVkUoU3gEgcAjPfqfxrd0yTydFvbc25ZljO6fzBjkdh/SmvpItLOK5FwI1XA8rG48+lWtQjhsvDcax7Q8zNlkPJULz+OaGrCTRR0UbrN+c4C1oLGp6heevFZ+hnNrOMd1/rWoo70kdETH1i7isFhV4fMSRuRuK/rWPc3tnd3D3JmETsSWic/eGMAK3b8au+KhmWwU9y1cpqIVHQYHTpT3Qm7O6NSOythHBNNF/o7t/rEnyeOoxXomnahZRabFF5vkW8KLt8tyzYHODgcfWuRtfD4vvDtkPOIIG8DHUntmugitJ2tUtitsGkXagibggcbc9gPWocbonnsdDa61pSWkri+aNlZmSPLZb0yemT/LFcrOwfXrhsbSWGRuyc7e5qeDTozf2lrIsQDKzqwfch25J9+1RMhPim5GV/1h4HT7o6U0rKwJ3dwUHb0/OsvWbbdtn81UxwAe9dHs4xj8653xHMyXkMG1WQxbs9880NWRom9LFHTvDd3rmsCC3tw++T5vm6CveVgj07TUt7dSQihcqPSsTwh4X/ALA0aHVhIP7QuYg7iVc7QRwoqDVpr6++Z5HjHaONSa+dzDE+1moJ6I9PCUGldmTrM4ZW8sldpyC3rWvpd/YajZ4uXVpY+DGRnB9a5GcS292qyM8jBgPJBySc8AkdPUj2qDSJXjupWzyJWLD8eaqlgnOm5J6o0r14wkonfi2hj3GKGNN3XaoFTJEEjCHo1V7eRZYlZDkVc2kndkY715lTmjJxe5rFpq6Ks/mRMCCzY659Kr3Uha38uMctzk9MVoStvAwpOBnIrNmWPdscHb1AzUwlZ3XQ0gk3qZmpqzCK9Q5lQgOR3P8A9etPR7qKd2lll8uFDuaPP3j2471TldA5i2bYmTaT2U1teGtFEDC4nU8cxAYOfeu/FKNSCmvmXzcqaZbks2dnupLP7RKw+QzLhFHYBc8D6mqB1tIJFhvIPscmcJNBbKQPzz+Yq7rWrTW/mbESVBxsJwV9iR3rjbjU31K5itLOyFs7tjIckj1OewHUn0rCjB810c7ldbGVrMum2Gsywx38IQ/vFLZH3uas6Xd2Z4S7t2cnHMoH866d/EfgzTo0tk0uPUpYVCPOIFbcwHJ3N1+tVv8AhO/CAY7fCcRPr5UVe7TxElFJRbOGWCqPW2jEh2sjkSLJjqVORWFrxH9qQgdov6111p460iTD2vhK4I7NHCoA/HFTv430MPuu9A8pgOspjJx9BmtFiKjXwmH1Kalc5KxI3v71ieei6h9n82Rtz4VyPuN2I9Qehr0mDx14ZuiotNIaeZpBHtESjn3PpVrfYPKWfQtMaUsCsUCG4de3VRtB+poeJa+JWK9lKLucxeW0Ntoe5flkjw2/PfuKw9PvIb64Ta7GdQfk216rDpUl5B5L6LaW0DE5WVFU/wDfIJ/nUq+GdIsIWdkjgQA7vKUJx7miWIp2u3qZSoXd2zzC5g34SeVbd4m3KWcL9M5qEXdrYxzSSXKSE9dnzc/QV6FpOm+C9XnM1lbW8srs213dmdtvUqWz09q0l+H/AIc2MiWbRq2c7G5/Os4Yq0rS0Q3Tio6Hkej31tqt1FZW0dxNM4w5MghTHXdyC2Pwrd1/RLHSJrWPUZ440mKqs1mC/kkjgPuxnPtXeab8MvD9hK72D3EDOdxyc/zpdX+HUOoySNLf71k/5ZyIMV1p05RuZKKTOBtvD8CE/ZdYtpSTkJIpXHsSeBUB8OanHcSzmGKdGP3YX3Af1r0fXPB5vdCmtbOCO3vimEnTGM8Dnj0Fec3vgTx5ZWbi2uYZZFXhowVYkdueCKzSg3qJ0U9UR2umXUjmUQsq7inlzKyHjo3I5FV5W8iSTzBErkfKQQQR6jFaWkt4t0+xT+2o78T5JLBBIAAeAQM/WquranbSrEl5psDuzLkorRuVLYbp0POeazlTSlvdMqVOLhorNGS7BsvtWQsSC6Hke9RQh0cK6YDdXHRq3TaaOc/Z7iW2boBOu5QP94VQvNLvIkM0JSeADJeJt2B7+lHK+mxy8jvqZ1jKPPSJArfOV5HP3u9XtfEa6vcAOynPGOlU9LsHL2sqyLgsu4EEcFgevrV/WWgfVLsS7t2SBj1rS1oFSg4LVFG0mczLDIo+cZAcVpGK4mcJA2FB3AZ4rOtfKnmQOF3qu0Ennb/U1ehtZvMHmO21gcENhhj1FYyV9TFloXSmII2DN2LLyMfzpiyPyZpPmHK8/wA8VX8tpGLlirqMElcj2PtTLa4mlmYbljdeD3B/Cko2V0BqLdRu2C7MFXB3ngH+tQTXEOn4a3cHcc4I5XPamWqM4eJ4nIJ3ZCdDUk2jS30KNE+xlJ3h1PIrSC7o7sDOMKibWhFZXputUhVmBLOM8V0rsN7fMOprnLTQ7yz1CCcmJ41YE7etb3mH+5+td0Xod+OxUZTTieS+FDi3uCe7j+tWvEJZreCNX2FpAM54/GqnhbP2eQf7Yqz4iD/Z4cJvxJUnnvYx3hu4I5WN6yqrFRksCxAzwPSuus3ZtPhZiSxiBJP0rkG1K6KuHt0O4YUbD8uRt4/CuttMppseQciID9KFfqNHLqhZjz1P9anjVsFd3BqumSc+9WYXbJzyK52dCehchRgMcVp26sFBLAGs6Fx0ByavxvkA8kUmUjThZwE+bryRitGBnLYJBwKyoHOVOMAcHNacOAxcEYqU9UD2PKshry5I6eY386lQcjrUDEie4YE/6xun1NNWR+u5q6eaxy8tya8+5FgnrXX2vFsCR/CK5C8ywgBxkiuvdXSAIhTjGSTjsKpNtXC1gjnYPgoxJPXFGsMqWWCergfzpqm4AIG3HYhqZfljYIJuMv3oTB7HMXyYYHcpHsaqKrq33c45yCKv6jFESuwR571nvD1I29Om4UKV9iXB7l+wDm6tgHeMM+NwOMVrX2rapYXz29resyYABIBNZWn23nXdpE52IzhSfTmur1Wx0q3uUCvaRsFO4mbJYcY2+9Wrsykl2MCfX9VMAhnlLIfurgVqi5v7qxb7crxpHbsIUKBfl3AH6/WrOrHRILZjG1lM6wALtbcSxOMjH8XHX3rO+1faLF1R1CJExChuFBYYGPwoewl6GpoJ3Wcx9GFavU1leHwfsU3/AF0FaoPNSjdHO+Jo3kurEKvADZP5VzOoQy7gduQB1FdJ4jMh1CyVWO0hsj3rAvriaCTykZgrDkU+hL3JtF1E6de2886yyQx7sIp74rsLTXIZnW/Fpc/Z7dNhBwWzzliRx3H0rho1u3CMmWO7K8j0611VhdxP4TKGYSXMhIcbe5Yd+nSlclpLUlstd099YhkCTLFDAyIDhnLHdzx/vVJazpc69cTR52MzFc+lZKQQ2MqzeWIwO4rR0FTNeM68g7jkii+o4LsbqjeAcVNo3hUeIfF0Ruk/0W1hEr46udwwv48/kaeqMijI6dK7zwpb/ZdLluBgPM+dxHYdP61yYyq4U20zpowvLUsavcm2t9ySyRKO+zcv41wt9PPcKyjV4yjdEDkEjr0x/Wuj1+9mWX93cA8Z2MvDVwFzepLM8k8MMW4FSEyOMY9a8DD0JVZ3PV9qqVNmbfpPDfW6IXVC45DY3Enr1qxpWWnuGxwWb/0KnJZ2CBHeUzOSAkbKVDHpnP5UaSuFc9M/4mvpKVNQikePUquo7s6XSZ2hUsOU3YI9B610CzK0XDDA6EVz2jZMkqZ6gYH51Zkn8uTABC+g718/jqX75np4ZtwRpTPKy7Udk4zkdAfesi4GoSzBGUsxOAFHWr9kXu5PIIf5j1UZA+tGtrc6NZfbLC8YXUTBgqjiQen6/pWFHC1JvRHTKrGC8zQg0xLGxiuLu3hlmPLh25T2GODiqlxqKWll5cmPJVx5UgJLLnkZ9uMVzf8Awl11qlmJLm0MEjMUEiDKMfT1B61FHOtxILK5cLHMpRSW6Nxgj15rqpYWopOnImNSM43uVZ7qWRplWRtjvnGeCfWso+I9OsTcwu08kkiGNmgZRtB6gMeh9aS4W5vJp7Z7m302NHKOZ2+dyODhRzjgYqsll4V04EzPcajKw24CiCNSe+7r+leth8Co6yRw1a7UrRKqeJdMtz/o+jrKegN1eM2f+AqAK07bxJ4gnj32GnabYw/30gCgf8CfJ/Ks59UjicjT7C2tueGCmR/rubp+AFV3a4uZFeeVmZu7NXeoRS0OeWLqdW2bH2m4nl36t4jcAnlLdWY/gMAVO+raLYwLLZ2F7fzFuPtku1f97auOPYmsJrRycj5gVPYkfmaR1KQ7SOSvABBz+VDt2F9aqW0ZebxHfySK6LFbx5yIoI1VeuefWu2i+JmsooVEiQDsK88hUedEvTALAEde1X0YYHHX+dY1KEamslsS8RJrVndf8LK1sjjyxn1Wqd3411bWQdIkeNpL0GPbtwQp6/pXINcszeRa4kn/APHY/rT7K3e2uPtUNzNFcA/LOuN31qI4SkndIh1ZdzsTrcmgeJ5UsIojHp1otrl1zmRsM5HvjAzXV6P44v8AUL+K1nktbcyjCM0RIZuy9eCe1eYjiCTLs8jEs7MclmJ5JrX07SNU1NEFhas+GH7w8KMe5rWWFpzd2hRqSSsexPd65BC7rc2LbVLEGJh0GT3rhvFPxTv9DazY2cVxHcQJMrAlcbhmuy1O+NjpU0/kSTuEwIo1LFjXi3ju3a48DaBqRTDLH9nkz2Kk4/kRSlhYctugvaO5tt8Zbg29vP8A2ZG0cmQ37zkc1tR/FAxqfOtJY8d45s/pXhtu/m6TMveGVW/Bhj+lb8EyajaRhyQ4VVb3YcA/kBWLwkOly/aSPXofi5pLv5Ut3JG4OCJYq0x4u8P6lGwdtOn/ANlsD+deF6rpUkwa5j2tKo+Yf3qw4/tCgiJycjOPUe49R/Ks3g3upDVVW1R9HT6Z4Z1C18/+zzHuXKtE5A/Kubm+HEMt99s0zXbmwuBjCyYZD+WKr/DnVftmhy2EzHzrXqp/un/69SeNta1PRtGjurGby2jm2SkqGGMcda4Y1KsKnIbcsXHmsWp/AusxyRzwC3uj5oeUwSenfmuU1fTb+DVp3vbGeOMtkOyYrIX4q+ILCcF/s88R5G5Np+nFb+nfHV/9Vf6cxTvtfePyIr0OWrbVGE7TWrMWe1RJVZXJJOexx9fStGw1FyWDrujA6nrXTf8ACReAPEMKvcj+zJXIw8fyFWPseD9ap6h4Z+w2732nXSX1hj/WQnlfqKhXtZo550mlcyRqccrzRGFQ7KQJd2A319KqxebarsmwVbgMKbcabJImYgBj74PaqKXcsbGF1G0HjNFtDO2h2lneQ/Zep3L1xU9vqIeZmQY28HfwM1iWtxDaQAkbjJ+lbGl+VNcXFwSqrIoXZ9O9VCbvY0pyexo+cJEjVlKkkZH/ANesI6lLk/Pb/rWo7JEw2oFO3IIbI6elV/skPoPzrri9DSzPKPDOVgf/AH66JiXGG6jrXP8AhkfuGPQFq6IuxGW9MfWgroRiGNicgHPtU8xKWsoHACmkjHO0kYFJdKPs0qg5+U0FI5ENzU8bEDmoUQY6YOO9WIYGkDbUJPoBXO2k9TZLQtwOMZH51owP8p+lV7bRr+Yr5dpMQfRDW7Z+FdVfrZsPrxWUqsFuzRRl0IIWUjJJNaFscq2eFAP8qv23g2/Jy4RfxrTi8HThMPNj6CsPrEE9y/Zto8KALPOB13nv7mnCKTOcDn3r1mL4Q26ZJ1GcknoI8VYT4T2KH5rm4P0I/wAKuWPorqZxw0medw21vOsBeIkgAEgZPFaaQpd3gika8CAZGFwB+NegQ/DewjAxJcZH+2P8Ktp8O7HdlpLv6eaawhmNPm3Z0VKF4JLRnJW3hnTJod7T3JPp5v8A9asrUtDhtkXYk0uGBXfKePzr0xPh7pezaVuT/wBvDf41IPhvprni1Lf7zsf611LHQaskzlVGSavY8zgd4RswyDGCCQ1Z2q6ab+3ZvOjLem3n869jb4aQyA7YSn0NUm+EQZgVup0I/wBof4VzQqS9pdJ2O6rUhKlyq1zwOGJRcQoEcMH24Ix0NbJ8MifVFt5pgivF5v7tc7RnGDXqs3wOkkl8xNTljPUDbkUlx8G9aeczJ4gbeyCM5jxxXpwqq2qZ5EqT7niQ0h3SZ4WUrHgk98E4FakMD2Vi/mMrNKrIcDkbWGa9H/4U14ktoXht7yGSFyGZfMIzj/gNRaz8LfEMahbOzlmRUAwZVJznmtFUi0RyNM5zRflspveX+grTUAHn0p1t4e1bS7NlvNNuIW83PzIcdKQAhuetCaexok1uczr4VtasQXYDy26CsPVkRbiLLtyvpW9rvGrWR2jgHk/yrF1YOWVhHkUGbLXhz+xhNLJrDMIuBHtB611+m3Hh9yjxukUCh8tIhKgfwjHrXEabps0+6WG1a5x94IeldlarFp9rcT3OkyRPjfGmVAQZ4+tVbQm2ppTnQbxwiGN13jOUI3fh/SqumQxw3cwQYG5sADAAzxUNt4osLu7RBEEDOqgE9yat2EL4llkRhuZtqHgn5jz7ClGFyqcW3Y1Yked9ijljhR3Jr0IMLTT4YU2gqgULvCbsD3rlPC1vHcT/ADqvnBsqcZKKB/D+ddDrWmxXNjJHEQJwuVG4ncfSvIxzlOaglsetShGMVqebeIr/AH3hS4Mhf+4X3A/SqKXduQm+2Y7ugJH61Vv4p7nVBA8Rg8oFRuHI71FqNlOqwI77wTnPqa7cNQjCK7nDiKjnJpbI0Z7pIrmM+W8pV+AnVePypmk/NC7d6ntNEmt0jmuCyhuVG7kUyx8q3tXZyFVRkn2rpSaRgrC3etJom24ILPnhM9RWrbXkOuOslnubd1MfO3615nq2oNqF083OzO1B6CvffAHhnwsfCYm0eOSWW4iH2iZ5T5mepXIxjn0xWFbCRqNS6nRSxDhoZelXJa6mtrPizt1w0rfxt9ay9W1AXR2KxKZxnsfcVU8V65HbzHTEAs4oOGiVNpqHSotT125jFnZzSKoADOu1UH1qoUVFWRv7VWuzDe4j0qzM7xSSs07iJAfkU9zjoDjv35rk7/VLy71KK4lm8to3/dov8ODxXs/jTwSqfDmURPm/tHF0+z+IdGH0A5/CvB5gVwpO7BxnpW0aSUuZ7nM60tlsdn4qtF1PToNdtPlkxiT+QJ/l+Vc3BiVMogHY8/d9fy61veDNQE1vPp1380Uoyuf1/p+VYuqWr6bqT+YQxDYdB/Otpq6ui6yTipR+ZJCFkZYy7Ox4IQYz75q2ztE5X5UYchUGW/XpVaCeONfNd9iN8qqnLEfh/wDqpkmowB+SYUxyAMufX6fhWZys0nll2ozBRyCpc7m/AVXkZnVtxO0nCl2wD9FHJqrBqtq7eVGrxBlwHKlmYf5+tWIeH4BR3GB/FKw+vQUxCxk+bHkcFSOVx/8AqqWWWTHlw8yHHP8AcHrUAZVbaAMq/QEsAMevep1YL8oOeep7/WhAOjRLSBYY/vyHk9ye5rVsba4vZ0t7SF5ZW6Io6VqeDvBVx4id9SuJvIsAxiQjl3x97Ht2zXruk6NYaRbeTYW6xr3P8TfU1SVxtnJ+H/h9HEon1lhK/X7Mp+UfU/4V3MUSRRrHGioijCqowBTu/XNGapCuKjYdTnGSM47815f4os1ufhjqsTfftLiV19iszf0avTyfQ81wWuRhvCfiyADhZrjH4qjf1oewXPCNGPmPd23XzLdto91+YfyqbS7kxXGD908Gq2hyiLW7Rj90vtP0b5T+hpyAxTPHn5lYr+IrF7Fxeup3sJYRq5IwwzkVhatpzQkXloxXnJC/wn1FaGlvM1pECN4Cjn2rSCbwMgMCKSZDVnZlbwbrktv4xtZJSFhus2rfj0/UCvQvE2njUNNu7NgP30fy/wC8vI/lXmV3phs7d57ckeWwliYfwMDmvWGu11DSLbUYcYkjWXjtkZxXlY6PJUU0dWGleLiz5+eye6JhRd0hyy+pOMkVihWjkGRyp5Fepazoq6XNqVxb5DpP9qiA6bSckfkTXKalp0E0d29o4kaMi4UjrtbqD9MV6dKd4p9znlpJozrNhcwSQdiOM1PofibVvDF/5lhcuvZ4XP7uQe4rMs5PKugc8HirepQeYRKo69TVtXWoHpEAbxRAt/o8nlQMQJ7fPzwN1257r1Kn04rLuIxZ3s1s7mTyzwxGK5Lwv4hn8Oawl0gLwt8lxDn/AFid/wAfSuw10SXOpm8tT5ttNEGSUAkMGzg/l+RrCcEg5U0Qya+LZfKClG/hYjr+FNi8SrFchA4QkZJPSsKSzuCw3vHnGMl+cfjTzbrLcTLLcxIVUCPDg7iBwuPf1qOWJThG2h3FhrbXTyRkDckbNn6Csv8A4SqX/n2T/vuptIsbZLiZ47h2/wBEKTFnDBWP3se2arnRLXJ/4mQ/75FaR2M7HN+HCRbn3Y/0rot4IwDWB4ejzZAnsx/pWhPdrGpAIGO9aGqLj3McIBbPHYGs2712II0QjLZ/Ksq5unnY/Mdv1qlsQcl/1p2E5WNKPWBbDKWVuSB1K7qefGWqqu2Fo4x/sRKKytsCgd6QTQI33AfwqPZxe6H7WXRmmfGGvuf+QpcD/cfb/Kmf8JJrLctqV3j/AK7NVeC+t1IzCn4rWtbXlm65Ajz6bal04LohqpJ9SifEGqEf8f14fcztSL4h1YH5dQvB9JmroYCkuCkaY7cDmnyh40YCJCSOOBUckL7Bzy7mJD4n1tDxqt8B/wBdmroNH8WeIZruOFNXuGJPRzu/nXO273iMSbZGGfSu38D6c17fG4ktwm04GBU1aNNRbaRVOc3JK5654djurm3VrqUufXGK6iOytwAdgJx3rG08m3twBgADHSrH9oyjowwO2K86EsPT3Wp1zjOWzNmOGMEgIox7VHdRyiE+TL5beuKp2eol5WR8DjOalutUtbe3d5pdoXn1r1MPKnNXicdVTjuYF/ofiC+GIfFlxaf9c7dCf1qgfAOpyH/SfHGuOT12Mqj+VasPirSppikVxyPUYFaserWLIWN1AAOuZFrq5F0MVJHKj4ahjlvF3iU+uLwD/wBlq3YeAU0+5E48Q63ckDGy5ug6H8NtdB/a+n9Pt9t/39X/ABobWNPUc39qPrMv+NLluHMhEtbdAEdFbHGSKDpFg+WCSKf9iZl/kaz73xJo0XXUbYk9NsgJ/SnWGuW07fI4Knoc1jOcYOz6mkIuaujRGlxopCz3AB7GQsP1rI1TwlZ30bb4Imc/xAYP510Ecyuu7PFY+o+MNE0t2S4vVMi9Uj+Y/pWijGWxDk4vVnj3iz4Z3w1CO8s5sLH0jcZ/I1iw/C3xTrxXyrTyYSf9bM4VcfTrXpet/FKzEMsdvpcs8ZG0tI+3I/CuJ0fxrr97J5UOt7JlbiOeVt20dlwMHHTvVclhKabN/wAKfB3VtGhuVvLqwlExXOGbgLnHb3NampfDa9azuWe8sI8oVVn34Vew6VzMnxE8beH74Lqtza3FjJkpL5QYrzwCRj6Gta1+JzXztPqeiNdwhhs+zvtCj12nr+dNJBypvUp6L8KJpbyfUdkUjk/u2cFYx9PX8q6C3+G+svKZLzULPv8ALGGOKuW/xl8LtKIp1vrWU/wy2uP61s2nxI8KXhxFrNsGHaUmP/0ICjndrGim9kYN14ZudB/0gXKFH+QiMYPr/Squq6hJYpB9mClQPMc552ggYHr1rTvPEdpqi75LqCSJHBBjbIVDwWP8q5+fUo7ZIkYqzRMFyDyVLfKc+nIrOnSjOor9TeVRxp6lPUL6x1CR5I/OhGcOAoyzf4e1ZkdtbJl/tYKk9JB8w98DNdPFFYuHPkxbm5JA5z9ahl0+xuDzJIB6K/FetHDxSSZ5sqzbuc2k6ecYHR2AztfO0DI6/MRUlx4chvrZ4UmnjibG4hRzWubDSLIK7RRDHSST5v51Pba/p1rIk63mnnn5RI4x+WRTlRilohKbvuUfDfwUa4u/O1ybbZL/AKuKM/PKP9r0r1MWukaBYRW1tbRQRRjCLGu0Vz1r45jmGfOt5Fz1Bp8vjqzByzWRK8ZeXH5VxOjO+iNuZW3J7m/tJnaR4FuXU4Uva7s+gBx/OoI59WumeMad9mjXhN7BVb6Bf61lz/Ee2hbYi2DE9BHcFmb8FB/WqN54u1+/zDpUFjAzL987mZR7jgVUaMuwnNdWdNb2epLcp9uuLP7EyMsse0hnznpzjGK+b/FnhqfQteu7BMXEKtvikj5Gw8gH3A6+9eg3PgvxNqtwbnU/FLbickIrYX8K6fRvCr2UIR9SNzIB991rVYf+Yj2i2R4HYzzWlwF2+Xz/AHeRXSal5eo28Oo2yIzSDypiRkKyjjjvxkZPpXtUPhqWWHe8CyEMQY3hyCPZiM1X1Pwzo9tZmG70yNIbgjzFVdu/HrjFQ6SSaubU6kmuWx89BBaTMiFXRvlEhU4Vu/1/lVmPDMxjXzpT9+V/uL9PX9BXr954A8I39gWXURp6HLMhuFXdj+8rHdgY7frXL2/w8sr1jFp/iVLy3XLHZbu2QP7xVecfWsHC3UPU4iNgm50cMRw9w4zn/dHf0p5kELY2vufnYW+d8dSzfwrXQX3g/ULK+mjke3JjIWF937rH1OKhsfB11LORNeWgZsEF5NxkP8I+Uk7fpUdQMqJV3EZBMgwj4wWx3UdlH869G0bwmdH0R9YvoBLfSoFs4DhlV34Qn1POfauWvfDdrZBD/wAJNpc0rZ8xIywJx/DnGAo9K9C8DanHrFjaWb3C3B035y4BAfOQhwecDJ/SnFAzsNK0+PStKtbGPBFvGFJ/vN/EfzyauKcKPpUZOFzk5PWnA8fSrQkSBuaN3NR5wOKTdQBNnj6Vx2roDYeLYv7wkfH+9EP8K60NxXJ6mXaXxMijJMCkDPXMTf4UdAR81xu0cqupwVIINa1+QNUuHXhWcv8A99c/1rIPDYrVuWLSRFufMhUg/T5f/Zay6FLc73wJNDNZSW7xKzRtuHrg1vXdvE1pKI4sTDphetcD4SvzaakpA+V+G9q7mXVIN4MMhbPX5TTWqJrNaNEVn5d1amJ1BVsg1ueDiyeHpNOkbLWczQgnup+Zf5msLR7ae5efyo9yKcZ6da39C32+qX1u6bS6JKB6kHaTXBj6d6TfY0wral6mZry4WGTH96I/0rgbdXs7gyySbrW3ZreRdoyFbox9eK9O12yN1bTxRlQwKyqSPSvONThezvdRgnK4ltfM+Q5VivGQfyowNZSpKPVFVoWm33OMvYkgvJVjcOgbKH27Vf3C4tQMkFl3g/7Q603U7AQWFlMn8akN79wf1qGxkIhPJzGwYD1B6iu0zuQ39pLbMDIu0soYfSuu8D63JKv9iSsWVn3QDJ/FBjp6j3qne6NeXMEDWuZ7cRb1/wBnuR+dcvDJJbXSTQsUeNgyMDyCORQ43VgTPWL1J476YW2n7oOi+ZcAP+Kkdaqb5Or6RI/HJCxsa3NOkj8V2KaruQSyKBMAOd44zU7aARzv4rNU00NxW5hWVvBFb6lJFbTQO0ZydvDe6gdTWH2/4+r/AP78N/hXdR6a8cMqhuZMc+lR/wBlT/8APZv+/taqCJseZadcC003aTzuJxVO5vmkYnnGelQu24bNwVfejyIGHzXGPopNRzIq0itJOznAyo9qdDEz5bnpU/2e1ByJnJ/3KkQog+WZgP8Acoc0LlbK3ksAMqaYYzu5rQ83I+8SP92k2RvyzYz3xU8y7hyMpIilwpBI+ta+n26EZ2HPao44rZSGM2PfYa0be5tosBXdv+AUNpjV0aFrBKhUAYH0pbiAsrBpSCfSn280c5BLyAf7tbFpYWbEF2diee9NQQuZ9jn7HR2c5WSU+9ev+D9JWw06Prubk5rnrGwgeaNI1dhuHQcCvQLNfLiUBSFHAzXPi5KMTfDRblcuTSBIgueT1qoZeev50lxJvckdKrM+BnNfIYis5Tdj2IQSWpY89gx2tg4rlfEd1i3lV5eCPWtx5SAee1cN4slb7PLg5+U162VV3pE5cXTTi2YButO2ZEy59CarveWDHaWYr7OQP51w8lzKHZR/e44pPOZzk5zX0qkeMonb+ZpW3LOg+spH9akil0oAEPG3/Ayf61wIKB+VY/TFW45IFHEUoPqXp3Bo7f7Vpkfzo0Skeg5rrfDmvQ3CBVfPrXjLzsT8rkD/AHq1vDOqva6kEL/LJxz61x4ynz021ujpwsuWdujPZ9VIaE5ZsVyRl01pCGjAfuec10EVwLqwwWBYD1riNZZbW8zyFauXL8RL4JdDXGUI/EjYQ6dIGQJnHQZJ/rWXf6Bp7OJYppoHzkFKylu3D7o5WXPQ4rRsVvLiZT9ukx6BB0/GvWvc8tKSd0aFrLFJEbLUJkuc/KDIuNw9xUd7q1xoFtEtuitaxt079eh9qNY0eEWvmvLcPIPu/d/oK5Br+1nWSC4W53ngDlsn6UmludEZXVmjuYNSn1OZrmWez2CIhI42XjrwB+Prmuf0yFSjRzoDgDgj61n2XhXVXbzEs7r7P1yUrZtNKa0d2Kyhm/vVDnHZM0UJb2LAjQps2BVIxheBinSxGOzeYM5KgKBuJwAwI6n2p2wYBHLA1mS28YmnmAJYcjk/jWuHa50xVE3FnRQXjvC8YbGMN+FXDfsYOuGHWsu0XCsDwxUAmrMagMU7fwn39K97lR5rJtVudukzSOOkZJH4VwNpd+H4Y1Y22pAhR8ygD8c10PjXU/suhpaRn99dnb/wHv8A4UunCzktIsgCVVG5HTBPGM+/1rKesrLoaRVldnPy6joLvkjVG9AX4oTU9FBBTSJ5j6yzZz+AFdh9n0ojbIkKPnuMqfx9KbNHplku8wIM/dJXAP40vZyXUOZdjBtdd1BGA0zRIYM9HEXzfma00m8U3CF7y9FnETli5C/y5NNn1mZ8x2EOP+mhGaqJp91qUm67maQZ6FqpJoXqXV1poT5dtcT30ucAoSqL+XJqhe+ONX0fVPKhuJVuV4byyuFPpgg1tzJaaHpklyRxEmQPU9hXl8srzTyTzt+8di0jeme1Y4maUbF0Y3Z21z8VfFfkEQ61cx/N1by2/wDZaybnx94n1Ft15fvc7TkBjx+ArnliaZtzHag4GBjaPQD+tSTgLA6IMcZrhhSbTZ2pqLXc0I9c1KQSTz3Tk/wFQoP8q19H8R6mYZVh1C4iaRdsixysAy+4rH0rSJ9c1G10+AgFz85PRR6128fwnuIZTJaeIEViMfPbf/Xrjr4ujT92TsynTnJtpDfCmp2ek6213qUqLA0RVmkGeau+IPFuhRW01zpV7DNqkzFIigIEOeC3TrjhfTOapTfCfXLiPYfEdoynqGjYfyFUJPg54gH+r1Gwk/4E3+Fc/wBdovaSGqclujkHlQ/MQrKwCt2yB2+lbHhDxO2ia3HdFzsZsSKe61pN8I/Fe1lX7A3uLnH86rf8Km8XxNuFnbvnpsuUqoYinvzIfs32PeobiOeGOaJw8TqGVh0INP3/ADda8v8AC1h8QPDbLbzaLNeWBPMYkVmX1KHPH0r1BYLh0VjbyKSASCvK+1dMK8JdTF05IUOSOaTdkUeVMBzFJ/3zTQr9Nj/98mtVKL2ZNmPDHFcxeN/xNPEAJHNvF/6LeumwwOSrAe46VyerXNra6lrYmuYopJLVCEdgpICMOAfrQ5JLcdmfOc4xM4xwDVyRi1ran0DL+Rz/AFqrcIzSkjn6VOhJskU9VkOPoR/9asnNByss6bctb3kcnUA/MB3FdnDJGbg7UCs65UAttH+6PX1rg4yVyS2D2Iq1/aV4CpEzbkG1T7UKasQ6bbPRbWeNYoonlkSGV1LOG5DAep+uK27GYW3iCxgLy4kidB5i4YKwyM568rxXlEN9dyKIzK2zsK6bw7ealqHiTTEmZ55o5VXH+znk/lmufESUqbVzekmrJnpl0PNZMsV3ZjJHbcOPyIryTxgz22oRRlmOIvLy3Oc5B/z716xdnEMhB+7835c1598Q7CWW6t5IbZmDjO/sa8vAVOWpbudFaN43MfX7RLfQnhWQSiCRdrj+IYH+OK5KzcRzHdwjBhXSm11CTw7LaPZzmdmBXAGCAfXPtWV/wj+phYcWchL9srx9ea9xtHHZmvoNjdapamWytnleFgrFJ9p55AK45GB1rC161ktdWmiltzbucHy2Odv41qaNB4h0qdhb291GP4go4yPWs67stTuLiS4vYbgSSMSzSKR/OndWBJ3Oo+GOqSR6wdN3ZjuOxPGRz/jWBq19fXN/c6g93Jl5W2nzSpAzwB+FZMsMlrIVLYYdw1I1xLNCsRwET0qdFqirM29I8cazpV0j+ebiEdYbnMgP4nkfga6H/hYz45sEz/10riIND1K6jLW1hdTr1LJCzD862R4K8S4H/Epn/IUc6DlPYYvCGkL0062/74zVuLwvpQ4/s+3B/wCuYrqA6H+EflUc13bxL90E+1fExr1pPRtnvOEexiL4b08LxZW//fsVIPD1jjH2K3/74FTPqN074gjiAzj5607O6gAzdzKG9ADXZHDYmcea7SJcY20VzIHh2yPH2GD/AL4FOHhixY82EH/fArqbe90tvuspPvVz7dYxjhV/BapUJL4p2MZTeyicZ/wh+msOdOt/+/Ypw8D6Y3XTrf8ACOuwOs2ajkio216zX+I/gK0UYLeoReT+ycwngbTx0sEH0Q1Zj8F2S9LIflW0fE9ovZz+FQnxXbqOI3P1NaqrSj9tkOM39kig8NRwY8uILj0NaMWk4A3hSB7ms1vF8f8ADB+bVA3iyT+GFR9TQ8XQ+1K41SqW0VjcbRLZ+5B9jUDeHYTnErD61jnxXc84SMD8aibxRfHoUH/AaxlXwb3iWqdddTVk8Low4nI+q1m3Xw/sr0EXBMo9NxX+VQN4mvz/AMtQP+Aiom8S33/PfH0Ap0sXhqUrwiDo1pKzZX/4VD4f3EnRrdye5vJBT4/hL4eTpodn+N1LVa58YXdup3zSH6YrCPxOU3PkG7lV84AJr0qWP9om4o55YVx3Z2Efwv8ADif8wLTvxkc1Ovw18OZBOi6V/wACiLfzrn4PE890vy3MvPvSS6vet0uZP++zXNPNVGVmjRYFtXudQnw98OoMDR9H/G1qRPA+hRMGXTNHUjoRZDP864b+0b8q26ec8/8APSoRfX2/mWQj3kpPNU1sNYFp7npS6FYQrgGyT/chUVA+jWO7Iu4Bj/plHx+lcOt6235mOe/NQz3j7D5blWI4NYLMVzaRt5mrwja1dzv10iyUZOpRKPUJGP6Uj2GnouTqoH+6sY/kK8nceL5pQ1jH50JPJ+bp+lX2TU1VFvR5TsOh9fwrrqYxxgpJ3uc6wyu0+h2N6mlPlG1LIPB3OmT+lUrHwj4NS4a8uZY3mY5JNwTj8q5NdLuJMkyx899pb/CrAgltk2sy4HooH8ia4446UZc17+RSpRelrHqNvdeG7eMRxXEeB6uxP6055fDk+d7QNnrkV5Yk5Vsg9fepxeAck4/GrlmMn9k1WDXc7u50XwrdZ3CEE/3TiuU8WeEtCsvD97f2NxiWMAhN/X5gMfrVIX6j+P8ACqOs3f2nSZYVPLsoJ/4EK3weNlOtGNrXZnWw3LTbbM2FcL2U4Xn8BVmNkfzEGRhsAew71BL8rM+CoDcAnpx/hRbkqSx4JJyP6V94tInzz3MS801/EXi62t4cMY4jhCcDIBY/4VprEHVokg82SElXgddsisOox3/CpfCUT/8ACdXN3sZo47U9F7kj/wCvXQ+KdMt9QAv7OXyr+PnkEeaPTjvXzzzN0sU6ctU+p6c8MnTTWjscTJe21rIcWDpJjkSMenoM1FFdF5N4hnjj7KDgc+xBrX03V4daRlEPzocMrjlfrWuloIyQ3SvehKM1dPQ8yXuuzRiWw+0EbIpC7dWZcAe1a0ECwLuYAY9KugpFgsmB6gelUL+6W3tJbuf93BGP4urmrbSV2LfY5Pxpqasseno43582U/3fSuEaYM4AyEBO0Hr759z1qTUb17y/nuGJJkbdzxVPdzxXkVZ80rvY7KceWNkXkmfaB8ufWpHnaNeUU/rms5HZTxnNaWl6a2o38EDNjzHAz6DvVuoowb8gUW5HoPw2vdOSC7/fRLqDHLI52kp2C+tekRy9BnPoa890bwZp2n3SXLyyXEqHKlhtx+tdpFKMdev4V8PmdWFSpzQ+Z69BSUbSNmOXJ61ZST3rKilA61aSTkV5Zq0aKSc9amV89ccVnpJk1Oj+9axk0Q0X43AwcYqwk5AAzWakh9alD8da66ddpGbjcuy3DeTIFIBKnGfWsZI7kMmWBUctgt/8TV0tvQruI3dxUCWaq2fOc/VE/wDia9fB4+MU1Ih0YvVlvzAhzkj6gD9TUUMVvPdXcktvDL86rukjDdF9x71KsD7QFmA9Pkx/JhXEzeLDZarqdudS06EJdsqpOrlxwoySMjseK1r1XWVqe5SgnokdNPpunOTu0+zOexgX/Csq4srONAgsbQRg5C+SuP5VyWp/FOXTbpojZW15H/DLbzkAj8VrNPxZspiPN0yaP/dcH/CvJlhMW3dfmaezUV7yOwktLBG406yGe4t1/wAKh8q05xZ2g+kC/wCFV7HWLXVrNbq1c7e4PUGnFyATk1g51Yvlbd0HLHohxS3Q8W8A+kS/4U+G4aEkx/uyRjKqBVZZkZiFOSKQygc8ce1Uqk3u2HKl0Hf2pZM5hNxGXJ27QadbLaXMEC3trHcpH95JQSpI4JyOa426dINWlL/KI5BIpGOo+b05ru/Dctg32s3gDrHkqpJX3zkGuupT9lFST3I0ejQ5rbw9DGzr4c08YBOCCf51Wkm0Hy9//COWDKDg4Q/4+1XLu+0e4doYreQCUhVIkzs7fiOeh/SqEej6VLC0a6g7oFwVDAYweuOv410YdV6qfK7mUuSO6Eul0lE82PQdPLKMggNyo7HmopLXSbmIb9EsNo74OatRw6RhbdLt3crhRuyW4+lFnrum2Wjx232WKWcsQS6ZNZV4V6ejb1KpyhLRIyv7J0FkcHRbP2ITFYmnRWz6ldW7afaqIXBASAEle3OeK6C6vEmmLraJGx67OlZBtkTUPtQhfLLg527Rg8HJPX3rTCqcrqbYp2WxuRX9xpo8+1cx+X2B4rXXxrbFRu0wZxz81Rx3lrc+H3iuYLVpVXy1ZECuCehDKefx61z6aRfbF/0iLp/eb/CumLVNWuZS1exRb4vwSLtj0yQN6mSok+IM10x2WIGT3evMrWIL3/Wtqy2ocl8cetL6rRpu8Vse7gaftI3mzv18WXgXCQxj35rB1TxHqczD52TH92qCSAjJuD+L1WlKbmPm5B9zWjqNq3Q9alhacdVY6rRNcuZFUNM+e+TXYW1/JJGMyE/jXlel3Qjm25J59K7fTbreo47V4WNpNSujjxFOKkdF9oYj72ab5/bcapedx0FRmfHGa81RZz2L/nEd/wBab53Gc/hVLzz600zt2NUohYveeBzuoM/+1WeZ26bqaZznGc/jRyMLGj9o4oE2QOoqlEXlbANaUdvDCu+5lAUepxRy30B2sRtJnGCahld+wNV77x34Y0jKMzTOP4YxmskfGHQydn9kT7f7xIrspZfXmrqOhzyxFOLs2aUjI7YnUsh7A4NRiy0FXEh0qSRx/E85H8hSw+MdC1lP3KbG7huKrTyLjfbOpX0JxWsY1aL5WrFKUKiuXXnhXiGAQr6Bif50w3J9ayjO/VnB+lN8/wB/xFYyhd3NI7FufVXgHEanHrTLfV2m5IAz6VQfy2GHBx6ZxSII0AwqrjvmtFCPLawrO9zb+1Aj71KZGZd24Ae5rIW4ORg89sVKzzyLxDI3uFY0Kit2Juxf+0n7od+OwJx/OhJ1Eine2enIrPWG7c8QuPr8v86eLS6BBZAMerCnyX0JlaxtLcqyfK4JHomagnnkKEljg9yAKoZuQu3dCB6mcY/QVG/zHMl5bp68Mx/M1McPZ3OSMWpXHeeN3UUG5AH3h+NV2Ngv371j/uKMfzqJrjTkGEkkY/lW6opnWppFtrvHO49O1Yza+za5Dax85zx+GaLu8VIGZcfjXLaTfKniu1uHI2iXbz05GK9PLMOvaqT6HFja1oOK6npLpshhR3JdiXct1JHb/PpTbN94ZzwrMTj8TUd7cByzqASqEgdsmq7zmy05HXkqhJyOueB+pFfatpQuz52C96xc+Ht07arr1ysZmkSNNqDgklm/wroP7U8VxN5hso2VmwEL4YD6D+dc38M4mt9S1yJ/vL5YJHT+Ku6u7DT7xke8tt8idHV2U/Tg18VVxdOGJlGa07n0EaeivseGa1dajp/iW9uQGs7vzi5Ufw7ufxFdroXia31KOCKZwl1InyKxwHPcA/561gfEjTVsdfW4iQrBcxgjH94cEfyrAso4HtTbOXa7kyyR4+6wHUc8EjHHfivbw2K9xSjszzK1NOTVj2KJVeIkbhyMZ7HpiuF+Il+6QW9hET83zvz+VN8P+NSjrb6ofkbGJh/D/vVh+M5Hk8RTMpDRBQqkdOld88RFw31OWFKSkcuUctx1oWLceTj8Kn3HuMH1ozzxzXHozoFgRQwwuTnvWvp0/wBivYJxgFTms2FTntUkrlHUDPFFRL2bQ6fxJ9j0yHULq4jjewtluc8MplCsp/Hgir0Wo6omC2i3RHqkikfzrhdC1iS0ukZTjNes6Vq7yadbm82zTGMeZJtA3H8K+WxtKFJcyimerCbkVoby7Cgtp84yM4DqxH4A1cj1J1GXsb5ewPk5BPp1q9HdWbjm3VfpSb7WS8hQF0RVZ+PXp/KvJi4yvdGjuiFdZt0GZI7qMYyS9u39M1IniHS+puwM+sTj/wBlqzNsSMmOdiCcY5B5xmnLIx+8xP45/nUXiugWbGR65pp/5iFuP96QL/OrMeq2D42X1q2emJ1P9aaFRh8yRnPqik/ypr2lh5TyT2loUUZJeJf1OK1pU41JKMd2RLRXZfjuEflJEb/dYGpw7Z5B/KuLN/4SkuPLextl5I3mDAP0IxUiv4Q8pJFWNAwBGyR1I9eA3Fel/ZtRWtqZ8943sdxG5BGQcHH1xXg2tXCG4vbrd873kwJB7BjivVJdI09LFrmKW9Eaqz5ivpBgAZHGa8N84T2lm07TGEyMZNjZdhuzwT3Oa7MLTlBtS0sdGFk+dOOpWu5XmYgu5AHQmsxwhH3RketbU9rYMc2012B6TBcj8QeayzaOWJU5A6ZroUknuevWpynG7idV4Dvtsl1aE8FBIPwOD/OuwNxuYZOPU15t4VkMPiOAY4cMh/75NdqzlsgttyuM15uNpr2l11PIkuWTRpST7rk9QwJFRG4B9enrVWCTfcFm5+VifyNWdKtWuZMv90VxNWWorlSfRIr+czOJeRjAPFR3SzW6XMSFkIC7fyx/Su0VY4dqisrVIEe4YOjBpk+UFSDlSOfyJrWnOc1rqkQ3FM5nSdRvFvLaAy/uhICVVQM/U9a6WWzhUlhcyohzuJYHPrye3t0Arl0iMOpoh6rIB+Rra1O9jt7fzJmwucZr38BZRbRw4j4i/CbQxxpDMJPJIIKuDg9ulchczAvIMfddsfnWho0yMsxjKlVVQcYxnBzWA825piDnLt/OjGa2CirNkLmQ3LMEdlDdQflAwPetCKV3iiBbYQuMjmqSM7MMIGzz93OOanjsru5OVGxPU1yqT6Frds2LC5IuVAJOPSvR4tDtvJTzpYxLtG8f7XevO/DdqkWsb5j+7t1M0h9lGf54rEufEd5PdTS7m+dy33vU5pxw/tNWNyKFp4YwMvfRgemw10OleD4tRuPs8epwo2M5ZDXoa+CNEP8AywkP/bVqs2/gzSI+UglHusprk/tSlPaJ2RhWgtJHNr8JrJV3XXii3j/3I8/zIrI1rwf4U0WFj/b9zeTjA8qGJQfrkmvQz4T8PAfvw/8AwK5x/Wqz+HfBEX37VZf+Bs1bLGU0rtDVSunpJnkNvaaes++NZ+em+ZQf0U10tkIVA25/Fs12oTwfZNm30a33DoTCT/OiTxNYW64t7KOMDpsgUf1rixNeNTRI3hOq9ZO5zyJK/KxSN9FJp62F7Kfks5j/AMANXbjxm/ITI/4Hisq48XXDdHx/20NecqTeyNlN9i4NJ1R+lnIB6sQP60jaJqI+99nj/wB+ZRWFL4gupD99fwBNVZNWuGODNj/gIrVUJPoNzZ0R0eQEmS/s0x6OW/kKb9gtI/ml1WMgddkbH+Yrl21M/wAVw/8A32BVe41BBG37zd/wKtY4eT0ZLm0tzpL/AMQaXpUTbbiV2HpEP6mvN9d8Y3upO0UUrrCfwqjrN20rFQ3B96ydoUdK9nB4GnBc0ldnlYjFSbsiMh2OTnJ5yetJtI704tzxQCcdq9JM4W31JIJ5LeUSIxBB7V2Oka68qqGJyeDXEkZrS0tyGHUc1zYmlGcdUdOHqSjJK+h6XFJY43TSvzzgHFK2oaTGeEkY+rsTn8sVzSMHRck9KURp0CZ+teN7CK3Z6ntJPodB/bdgn3LSPI9ST/M1F/wkaL9y2iB9Qig/yrIWHPSI/wDfNTJaXDH5YT+VVyQQc0mXz4nusfKCM1C2v379+KammXbjO0D6046YEOZbqJB3y4p2iJ8xC+rX0i8u3PvUDXV445kIH+9VrytPjHz3ob/cGaPP0pOiTy/himkuiE79WU907D5pSaQRux++5PqKtNqNop/d2Wcf32pp1iQf6uGJP+A1ajLoibxW7Iks3fjbI1WotKuWIKQMM+tVn1i8YY87b/ugVTm1WQH97dSY/wB41SpzewnUgi7q2nXMVoS7KOM4J5rjbSMy3KAfe3cVPqGoic7UJYUzTZPKu4jnHIr0sJSlHc87E1FJ6HpN0syWuTgIVC/d69OlS3NlfTi0t9Othc3zOHWPsAoLYOfzpgWOeSGLzULFhuQZJGP8ius8OzJZ39zfzA/6PbHauOrE8fyr2cdXdLDOS3SODDx5qqXmY/gvSdX03UdUm1ayktmuQjruGM8tnH511hkB6MCR2FZFrcPLfPNKcu6nNVtVhs7Mzut1cG4ZgxVk4OeetfBqnPG1XLY92pPkWpn+OHsZbKL7Qod7d/MX3OD8v4nH5V5W07xXCz7v328Sbvfv+FdPfG4168aG33eRCCXk2kjdg/zxiuPKks+c7s819NhMP7Kmo3PNqz5pXNfVLeKG6hv4F/0e6HmgY+6f4l/CrVtbi4ZrWZTvGFOep4yjfivH1X3pdKUapok2nHHmR/PET2P+cir6p9utLLUYDiZFFvcJ0KkdD9QRkfSlXbSsVSs9Tn9Q0aayJZfnjPp2rKKc9ua9NlRLuwR8AOzCNgOzZ54/UfWua1/R1gmhNuhMkrFQijrgdhWeFxl37OS1KrUbLmRzsalecmkk4kxkEkZ61u6TpM1zb3NyUfbACBjjLAdPwqa5sJJY7hGUlY2jQELyCV6/ixFehVd1ZHNB2dzEtXKsPfjNbz+MNU011hjhikjVeCQc/wA6wWgktbho5BhlOM+tbttp9re6Lc3c8Su8CNgnPHBI/WuCVKEnaaujqU5JXRqWPj+7lj3m0hP0JH+Nba+LpIre1vZLMfvt4xv/ALrYz0rn9C0RG0u3Yx53Lnmuln0mNrawh2AiOIkj0LMTXj1o0ItpI64KTSu9zT0fxGNYulhW1ePaN5JORXSo2e9c9pNklmzlVCkgDitpHHrXjVXFy91WRsttS8jYxTbiGG7g8mdPMjznBqFHqYMMZqYTlGXNF2YnG61M640GGOJvsGlWdwWALJM+HyP7rMCMe2fwqtD4biuo8XelfYWZTmQSrkHrwoPQ9Olbqvg54/Knh8gAnIr14ZrJU+VrXuSlZW6GVdwnRPCepxLcNJELWRowwxsO09K8OTm1to498mV3MoXkHv0/CvavGc3leDtVbOCYdufqcV5z4X0Y3WmreLez2rh/LUxnHau3AVJVoOUnd3NMPKNKTb0OZUsFIdWznuCKGuEiDbuuK7/xF4TgjhgeTV9QuSzD78KkqCcZz37Vwmq6R/Zt2kTSCUMpIOMV1+yd9Uej/aEXG0XdlbR5Cuu2TDvMufxOK711cM2QMZI5NcLb4iv7FlGD56f+hCu1mkAkkxnO8jrXLjIq6Z5M5uTbY+JmVWQH5m+XI9DXV6bb+Vbxxrjcx6Vy+nJ5t0hPIUV1Et6NN0qa/Y4bmOL64rz4Ufa1FFbdSJz5Y3ZHrPiWHQlNvaKJLn+OQ1xsnjHUJpvNnbenoVrldc1x/tD4O6Zz36KKybTVbsT73ndx/EpPBr6CGHhGHKkee5ybuekJi6ubO+RspM5GO4I55rRurWK6aJpc4jbdjs3sR3FZugGJ9OQR9PM3gentWq21eTgY9TWlGmoJpCnNu1xH2pGwRVHBwBwM1hWNmpDtNGGG7itl5UCsAwyFzVS3Qi2jzwcc1niNWkXSb1JEjijUbY1Wrq6fdCxa8+zv9nX+PGB+FUgrBuSFHsP60+91Ga8Ty5J5JNqhVBPyqAMDj6Vz80YotRdyoZ/s2hapck4M2Ige+37zfpxXlkreZM8m4/MxP513niOZo9Bhs48lp27d8nNch9lA/wCXY/nXTRj7pnN6n0aL6MdLeQ/8BpkmpSbcJZyH32iszzjjhj+dQTTtg/Mfzr4mF1sfRcqJbrUdQcHbAyj3dRWLcT6g5JZkUHqTMB/KnTz9SSKyLi4GcCuylFthokSSvcfxXNuPrIxqo7Met5Fj2iYn9arPIxPA/WoiXbqVA9zXZCFkZORaPl/xXUzf7kSj+Zpn+jA9bhvrIF/kKh2IesyCnoLVSN85P0WqtbYVxSLdusG7/fkY0oEKjItoR9Vz/OnifT06rI9L/adlGMC0z9WpXk9kP3erGhx2jjH+5GB/Ss7U5JmUjDnjritE+INmdltEOO9YGqeILqUMuVUHsBW9CnJy1RhVqRUXqc5OS07ZHI61FgsSOmOtOdy7s5OSepqS1RHmVXbC565r2o6RPHlrK6IkgDDdtcn2UmkkiKH5kYfUV6DpljpMNqomny5GcBt2KxfEMVnuAhDqQM5k4J/ACmncTRyuPlrW0cQZzKxHPAArN8vP19Kt2hVMZZRj3rOouaLRpSdpJnax3elRRqBBJI2OpOBSnWbdOIrCP6u2a5r+0LaNeZgfoDULazCpO1Gb9K89YVvc7/rCS3OnbXbk/cSGP/dWoX1a9cc3DD2HFcu2tOfuQr9TUD6vdOPvqvsBWscGiHik+p0z3Eshy8rt9WNQtKiHLOq/U1y0l7NIMPM59s8VF5n4mtI4RdTJ4pnUNqNqnPmg/TmoH1mAD5Q7VzhkJHSjc2O1arDx6mTryZtvrhJ/dwgfU1D/AGlfTnEUbHP91CazFmdTkHFSLfXCj5ZWH0NWqUUQ6kn1L7was65eO456DGM/hRJpF4luZZnRBjIBPJqj9vueP3r/APfRoe9nkXa0jEe5q1FIm7e7IFJzzV2AF2BB71SB5yat6dPHFfQGc4h3rvOOgzzVxtdEvY9U0qGKzliCwybwhZnLfMx9fYV1Uc2/SLhiDkgjJPOBiuR0zWdM1O9e6hmSNmyoiLHOB39Oa2o7530udYo42yjFT5gxntkdeuKWb81Siow1DCJKfM9LD47xbZ0k6gAgge4/xxXM6vqN3rGoLYWzEzONrt/cFR6pqUlrAsUfz3bjonO33xWBbOYD5kOqT20rDD4O3dz3yOa83CYOVKLaerOmrWUpa7Ho+mWa6Rp62lrNDw4diUYFuOT161514qsI7LWJWiaNkuGaXEZ4QknIq2mra0i/Jq0cq9t8Sn+XNUdSe/ubFJLwQBEfbGUVgxz1/D0NddB1YS97VEVHBxsjL07UW03VYJDxGflf6GuySKC11Z7mR4xZ3S8oR92QkAkHtxz+VcFdBvtHb5exFdVodwmraQ9jOcyJ0J/StKq5r3M4Ox0NqWS/RS4KFsP/AL2CFb8v6VJfoItWsbuRJWjhDkeWm47iMc+2M1y2i3rreT2F0373cSM/5/Grc+qz2VyYXumVuoy3BH415s6MozU4nVCcZRcWbv8Aa1tK7pdxmO0bayr5LxvuwxYkjgg4Ax780+O/0QSs1u8R5WZg8hUljwMgjkjJyM8YrLj12ZhxcI/1qRtVMgxJBDID1ytaLF1E9Ykewj0ZR8V2Flb6fHdQXKSsku1yJFbhhkYx24P51hWGuBLO9skRilxFtz78f0zWl4ja1utPVI7WOCTzB86ccfSsXTUsobhN6zM4OQ+cBSOmMf1rphP2kb2syJJwdkeuabaLFY28ePuxKD+C81opGQ5zgkfpWJpviOzuIozufJ+XJXqa0YNUtWXd5mXPUYr5jEU5xk79z0Kck0rFxWCu2PWrKOzDgE45OFJrHFyrsW7E8Vq6feCCCR2n8oBlG4rkd6zw2G9tPleg6k3GNyyjkcHj6ipllGMk1JBeSOpQX9nI7Abcrj6n+WKtb5jLIpFm6gZXJAKnGOR/vV6UsmfRnOsUuxVV8/8A66ercVcjUMyiSygCH+MNn9Peqtst09yUuLFAnmYzHn7vvzWcsnqJXTKWJTMbxXYXmseHptO0+IyXFw6oBnGBnOSfwrlLLwb4+0mz+zW9tb+Sr7wgljb5u5GRXrehmC3urmSWRV2tsXJ/Ota41SEqQkifXNPD1vq8HFtblubvoro8Qvz8R2C+dpksu0cERrIBzn1rlNVsPE17cCW70i6VlGP9TtFe+X2qQopPmp07NXD6rqvmu3z8D3pwzSTdki91orHl9l4d1aS/gmltzGqSK3zMOxzXQSNmZyDwWP8AOtJp2knQ9ADwKoyxkszAd8irqVpVWr6EbGjpKkglercCofiBqS2axaehyttH82O5rW8OBY5PNb7sCmVvw6V5l4vv2u9QkySWkcvz6dq7cBSteb3ZzYid9Dl5XeWV3YksxyadbHEvXtTtm5cAHpRbLm4VSM9civROQ9E8JlpdM8sHGDW99nRCiSSOxduM9/pWN4MMcMDlyFUZxmuimubOWZHVHlaP7qoMLVppbhqyDULb7JpsshT+Hb781mw3LugVcDCjAAz2q/qV+ZrR0m2xRH738TfXFVy9tb5SJd6rgB3+UN6HFclanKpLR2RtTnGMbvciFvczHcz7gffd+gpZIYooy0033fTkjn0qP7c87bFJYdPkGFH41TnnD3sVooJBYM5PoOT+FEMNFb6sHVb2KOruz69a26DcIImk2jg5PAqElyf+PSf/AL91Y0GFNZ17V9QaRzDawlvKRgryKMgYY8KOOTzUiXAkRX2P8wB710xXKrGMmejvFCo5nX/vqs65ntogQblP++q8wm8QPg/vnb6tVF9fcnGPxJr5unlc+57jxkUehXmoWwyFkU1izXyk8GuYj1gyHG0mrH2rK5Z0X6tXXDBuGhlLFxZqtdn1qE3Ofesk3yA/61MfWozfxbeZM/QVsqDXQydddzY+0nNN+1DruFYT36Ho7Gqz3nPG7860WGbIeIsdMLhX6EU0yjHJrmkvXX1/OpDqT4xin9WYliE9zXnuABgGsmd2dzgU1JXlyWP60kq7VJHJrop0+Xc56lXm0RGhyDmpoHCSBj/Kq8Z7VJsLHitjG+p01nqflRjbtT3HWsy/uRPKeS7n1NZmZEwAcY9qlijdjvLdOhpJDuNxtGfzqs78nvzV25dNq8Yf+Ks5uTTEhd9IWJpMe1GOKBhkk0lLj/Ip6xOxwFJ/CgBgoxV2HS7yc4jgc/UVp23hLUpxnYFHfmkI5/tS4PpXa2vgKQkGaT6jFbdn4HsYwC6BjnvTSA8xWN3PyqxP0q3b6Te3B/dwMa9ctfD1hAuEtkyD1K1ox2dvGAAgX6CnYDym18GanPjcoQe9bVr8O2IBuLg4/wBkV6GqKvyhc/WnlFByRRYDkbXwBpaY8xHc+hNasHhXRYPu2EJI/vDNbPG7O0/hShRnAU4PrTsBXjsraCNkjhjROhCpiuTuJo9Ks2P3m6Iueprf1XUUQGJDkc7sHr7Vy6QTS3yXd4hwy5hQjgL64pSegGzoGj39u/8AaSywtezD7jttZc54BYY5FJ/wmumXLtFfQ2czqxRhcWwGDnB+YfStOxuopIUUPF5yqDh2AYNtIJB6joPz9K4GW1tY72+jWWxuy0zEJNIY3jwxOAenPfnniuOhVm21IppdDprmXwleQ7k0q2WV2CI9tcMuGJ4JHp1rG1hV8lhhdikKoC4C4xjDGsm80+cAPY6fIq7vm2SCRc4HQjnHWsi5nu3byrp5wqn/AFbZ4rpUr6gnZWY263SyeVEvzE+tbehaJqVpdpcogx0Zc84ql4cj+062iNyoDHH4V38cYRQB6U1ruSjG1Kzme8ivLWP95g7vXPYiodYsjeWCTNbnzowNyEc1u4CyDawwTwRzhhzSzgsFkJPPDE+nb8qi1izzlrdVPzWsikf7Df0pqmNDxcyIR0G4j+denxSedEvmojEcHKg81HJa2kv37OH8FxVJJrUm7TPN5WZ12tePKoOcFu9atjpfnyxb3GGyAobnj2rpLjw/pdwvFmiN6qTUOlwNsVAzBN+MBBsY8g/McYx3OaGkti4u71Gpp0thZF4kYjzdoJxjlTj3Bzjn0qja67eRf6zTw2P7ktbct/bFnsCoZlDF5Ecsq4HT0I96S18FPewrNbeKtKYMMgPGykd8cisZUITXvIv2ji9GQReK0QfvtOvU75VQwrQt/Gunwg/vLmEt2aA1Mvw88QHJgv8AR7gZ4/0jGaU/D/xeo+TTbecZ/wCWc61l9QpJ3Wj8h/WZbPUs23jPSZGDDUbUEdN8e3+YrUg8SafLv23enuZPvfvFGf1rnJfBfidRibwvOc+m1qzpfCN8HPn+FL8Edf8ARqp4WW6k0L2seqPQre9t2hEUcUTJuDjy5DkEdOcn1q4l8EYMRcKARx5xCnHt7/rXkz+HYrdsSaZqNuQeSInGPQ8fypiwrAwKapqVsO+Gfj8+v9Kzlh6yWkxqpC+x7NHOJFZwMb3LY9M1BPMTk5rN01vsel29vc3BedE+dpH3HP1pZ7uLacSJj618zWozU2nr5ndGUXFFO/m4Nc9O5Lda0L+8iGcyoP8AgVYkt7Bn/WA+wrrw1CVtglJJEycNn3pOozSWyT3jhbe2lk3HAJGB+dW3064jXdNdWcA6ZMm4g/QV6MMPN9DGVSK6lhXFl4bmcH57pti4/ur3/M/pXkV/Mb7VJXB43YH0FegeKdWij0+OG1YbI4tinpk159psYe43OCVBAwPc4r1acOWKRwzleTYspjXCBSAO5qOCPF2pPdc103iHTVFpuX70WBk1zdoczr7nmrJO40Z1gswXi8zPTmrst+543hQOyDFUYkCW6KSQoAzzSiREOETd79B+dMLizeZcKsWNhZhyTycck/8A1qmLRq213aVz1G3j8h0/GsuTUobe6ke5mUIq4UDqT3rKu/FTDKWEPlgfxN1pAdYZ0ij3TAIv8INcjrmpyC5cwgx+Yu0f7vf8/wClZ0WoXss29mMj+9TXlhNcWkmos6gRkLs9qALfhmMyG4TZuWRQrA+9dl/ZFl/DayY7fNXJeFS4a62dtvy16P8A2vpNv+4eZN8fyN846jiqsK54bzRS/lSYNBQoJHQml3E9SabilwakAJJpM0uD6UYPpQAUlLz6Uc4pgFGcUdfSjBNAEyXDou1Qo+opHmeQcn8qjAYjgZpwjcjIUnNAArEHirkLqTgttPrUEdpcSY2Qu2fRTV2Hw/q0+dllLx6jFAi3HbW0qhpLhR7E02draBNqOGPtVmDwXrMjKHWKHP8AefOPyrXtfh8uV+1Xhb2jH9aAOIldpXOBnPpUkGm3Vwf3cLH37V6jZ+FNOtQdsIbB6nmtOKxhiXCoF+gxTsFzzC38JalPz5e0d+K1rbwK7YMspHsK9BjhRBkR/mKkCbT0GMcUWEcla+CrKMAuCTWtb+HbGBuIF+tbQXHUjPv2oHB7cdTQMqpZQoPlQDjsKsiNAvAH+NO4Bx19xT+i7go5PUigBqp/D1p4XjOM+3pQME896Bu3EE9R6UwDbj0oX1wMA880Z55wSKUHnOOO+KABQScgDNPweAc89c1HyDx0xRxtOO3c0APGN2NxOKdcWk39kTXpPlQL8odv4j6CnWd0lhdR3ckQlWM58ojJk9gKzPEniDVdReKS5ht7aJWPlWxbeIx7D196AMfTLRb69JdcxpyRXQXVlDeKFljzt6EVBpcDx2YklyZJvnYn9P0q9uye3txRYDHfw+MHybhvpIM1kanosNtavdXtrbSQRjLuB05+ma6/jqVH51wnjnXNRsmbTvs8YtLiP/XHJLUml0QFCKz0C8kzbXLQOTkCOUrj8DUk/hyZ/wDU6rK3tKN365rhGwW9akimuY8bJZFHoGIqLIDu9J0K8s9RjmmktmjXOWUfNyOlXfE0gi0G58mX5/l5HpuFcCms6lDyLhiB2PNTS+Irq4tXt5grIy7TxTAi02+lsruG53tjd8wz2rq/EE90LWK9sbpwqqDKinjB6cVwwmAUrt4xx7V2nhKQavatpsqqzQKxwRy0Z+8D6460rDRee9updAiv7GZY5GBbHXODgisGDxpqQ/1kMEg/3SKktJJND1i60i5dhtciMnsTyD9GBFZmqWj2F2bmAbYmJxj+A+lC0Bm9D434HnWGP916xP7UmeeRLd5FhdyUjz6nOKynnMu3eckDFCShZUbOCDnIqrCOssbK/aGVJo/IR8FyfvsByFHoO/vXY6YoitYx7VkmRXXdjqOPfNX4JdkSr6DFAM3I3UDnH6VZjuGXG12GPRsVhLcn1qVbk460AdLDq95F/q7qZf8Adc1dj8TaqmNuoznH95s/zrkVuTng1It2cdaaEdkvi/VRjN0GH+1Gv+FK3i68df3sVrJ/vwLXHC7OfvYpPtPoadkM66TxpcgYfT9Of/ehrEvvEyXCkNo2mDjkiIg/zrFknz1NUp5OMZrN04voilJjrq9iZiwsLRfop/xqg2oyox8tIo/TZGB+tRzyjJ5FUy+TQopbIXM2WHvrt+WuJM9gGNQlsnd/F1yetRM+WA/u8nFUby+WOMhDk9KoRna5c+dJsB4Xt71b8K26MrzyLlVlHH61iXT5fHoK9A+H+k2mr6YLS4cbvO8zYeAygc89fX9KaQMo391FLPJZu21mG7npXK6TFjUmjb/lmTmu5lvNPutY1GOwhK2SSD7MJB8wXAHNed3wKXlyBwPNbj8aQHS3eu2duNu8SMOgWsO68Q3dwSI8RL2x1rNjhd2wFOPXpWjaaS8rcKTjv2oAzQsszkklie5rTs9IkmbO0+/pVh5bCwwCyzv/AHYz8o+p71TudYnuFKHCRdBGnAoAvyXOnaaNigXU69lOEB9z3rKvNVur8gTP8gPEY4WqR68ZpKBm1oWoyadcvJFjLL3p8lrdzyvKzjLkseB35rJt1eSVVTJb2r0GLT0EKf6LL90UxHn/ANnb0pPIPXFdl/YC5Gc5PpSjw+GYHBA9qQHFeUe1AhYjI5rvV8MIcYBx71JH4XhUEEryetDQHnwgfGcHFOW2kZsBWJPtXpUfh20RvmRcelWl0ezQBliBIPAFFmB5lHplzIcCNhk45FXIfDd7Lg+WQCeM16dHZwhgvkj+dS+QoOQmAPWnYDz2DwbcNktwOxrTi8FQpgyygk9q7JYk9CW6A1IilV+715zjmiwHNQeErJF+aMsc5rTh0OxiQbLVOfUZrTUbj83HP1FOCgEZGc+tOwWIIrKKNcCNV9lGKlCAFcqPqeak7cA5PT/69GQAx+bAHFMAK/NwFJHQgU7apwSxOTzTc4AOM5pyrjO4Y+lIA2qAD39D3pw24bIA+ueKbgE+uPWntljuyCAKAADcFIycdOeKGLBgcdTTRgkgcZHJ9KXrtGc/jQA7YC2Bnn1OTTsggc5x1pgAYnFLuO3GPmNIGOByTgfnTs7VJ3fMOg7UwYOTnGRS4BXGTnPPNOwC8Eg4wTS8ZJIOe1N5AOQPrSF1UAkkAmgBxz6YyOtBJxyaYX+bPPTAxzUf2iIXS2u8ec3IXNAE54AJB9gKd5nlrs2BpmwQPQe57D9T2xTOUcrGQ0g4Z8ZCH0Hqf5d6FQKvGSDySe59c/1oAI0CMS3zOQFyeBgc4A9B/nNYkw/tHWfKGTGhwfoOv68Vu9jnAyOajjt4o5XkWMB26kUAP+XGT7HApwA3ZJwRwMUhYZwB2xjHWgtnC47c0wH4UN9Bzmobm2try3MFzFHPG3VXGRTuAuBwOpIoyAc84+lAHKap4A0663S2LyWrhf8AVjlWP9K8wfdHIySKVdTgg9jXvDPhcjPpmvM/G2gm3vn1K1Qm3lOZAB9xvX8aloDkGfIAxgVHTjwcU00gE6966j4fakNM8daPO+PLa4WGXJx8j/K36GuWqaCVredJkPzIwZT7g5pDPTviXoWdftnRPvRNC8mcYaJin8ttYOj29xODb38LNalcPcg5QL67umR6d66HXtTa48Kwa1NBHeTi5Zj52SqmQBtxA68kjFee3uvahfyK1xcsQv3Yx8qKPZRwKQx2paWbZvNtz5luxwGH8P1pPs8enqWuwHnIysHZfQt/h1q7pGsur+XKx3DoSfvcY/P3qjqlg1tIZkZpIX/iPJH1pq4h48QXgbJIJqwniq8UcqpFYOOaMUxHTR+MJl+9HmrCeMlx80Rrke1HSgDt4/GVsT8yMDVmPxhYkDczD8K8+4zSmgD0mPxVp7/8tcfWp18QWLgEXC/nXl3fmnD2NAHqB1i1YYE6fnVabVLfH+uX86863N/ePT1pu5j/ABN+dAHbz6pbjJ81cfWqE2vW6EhSW+grluc/4078KVgNiTXMghc1W+0tNJuJwq9qoZxzUkb4OKYEsjFmYnmuw0GffYWUaIFeNHBw20tu6kn6HH0rjCf511ujwLLptqTuBCliQe2cbSO+RTA1rG1jS4muJZGDvckEHhQgHUn69MdhXMaa1g+tXb3yLJCWYqGJ554rp7fSLifTpbh3wyRM5DnjaBk151OcgMc5Yk0NgdJf6jo8UmYLZCV6RxEhPxzWJeatc3a7S4ji/wCeacfnWfS0hhzRgmnKpY4AP0rTsdHkuGG4Ng+1JCKENu8zYVSefSug0/w+ZSDKOPStuw0WOJVAUbh7Vv29qir06dapIClpukQ2qgrEFPqRWp5Q9qsRQkrxwf0qXyz/AHh/3zVWAopEinGVz1wKfs2j5UGT07U5S+SwwuRjjFKACMlyMdMUhiKPlwWx7Cl2AkDGf04pdvzcDA6e9B+9kseKQBgbjtXP4c08A4wflPbmmBwT/FjvxipCxK/KfYn0oAUAgEDgfSlTaQBgH2qPkcEZ9wKeAThS4X607gKpG7HTnHPQU7O3056GmZCNnPI9DShjnsdx70gHklVzg4PQe9ABOFJ4zyDSIMsAcDnOadgMTgMcHPPcUwDAyctnB4yOgp2crz+GRTflzuAPqPc0Z+YEDp680CHjgbc8daXeSuATj0HNM5znd16AHrR905yc+goGPBGAT26YpcjBPofSmg89NppwIJJA4Hp0NAg53YxgEcUuF4GT70zJ64CjPTrSjCgknJH5UAPUAcg49/WkYgDPf0pAMnAAAP4U45CdR1/GgYmSDjJGaXHzcgnH40ZI4BGO/vRnqB1HvmmINvBH40owMdDxTcENg5/OlUDOQe3FIA+XlcDJ7YNYcvhkS6s9295IIy+/YvBHtmtvcN2ST6cUbgcYbB9xQAJgLheAvQDtT2cnk59BmmgqAOu09eP5UnCrycge/WgBxPPTp7UK5xg9zTNw28fzqPfjIOQx6e9AFjOFYA9PzqPzCvQ59KrPcDJLNyOKqS3hQfdPoMc/pRcDQedUJy3btVaW9RFJLgfWqi2mr3iq1tYzFGbb5hXA/OpG8LTQr52qX0aQqMuI2xj8SKlsDPvvEEFuuNxZ+wFY91e69fws1tbPDA38bjbke5Nas2veGNKVvsVuJZlP39hZm+jN/jXH61r93qkzfMUhz8qD096V7gUbnRnhyz3MG/0D1mOio2N2T3xUjIc5phQ56dvSgCLA96TvUmKTbQB3ujE6j8O9XtGOWhiWdf8AgDY/k36VwBFd38OpRNez6cxOLmKSDHu6lR+uK4meIxTOhzlWK4NCAiGQfpzW5p2oLOhtrjBDevesPvTgWU5GRg5yKGBc1CwNpLlG3RHoaojpUnnsVYEkluuTTKYCdqTNOpOKBiYGKKXtSdRQAnel6UcUUAAJ9aM+9HFJQA8NnrS4z3pnalBI70ASbAe9OCEHimLIR1FL5px0NAh7Hke1dv4SiM+h3b5H7kgE56Z6Vwikk5rc0HVZNNkcoCQ4w6eopoDttf1AWHhafaf3twogH4/e/QfrXl85G5VH8Irode1aXWJoyU8uCIEIinP41gi3eaQkLnJoYLQrgZOMHNWrWylnbCoa1LDSCzAup9a6Sz09IwCE6deKSAybLRVjALqfxrpbOwCdFxjoc1YgsyQq449AK0Ei2gA9RVJCI4ICh+716kVbjTkDGMdSKVIwV2hsZ5qdAoGO/TNMY5F2qAFLdySeBTth/wCeb/madsCjAbPoOxqTZ/tH8v8A69FwMgkZJHGegPX86OAM569D701iS3IDH2PSncJgZDDrwf0qRjtxDAkYx170mcD0z6Gk78Y29wKUEld2cHOMAUAOBAHX68UoIx2xmmgDAwM/hxSg8kE9+g70AOGQBjPuKUN1ySMim5AJznrQMYyOvcGgCRsHAwfb3pAATyB1I/SkyoBwOR3FLkYHA570wHDBwcNjHQd6XC4Jwy896avTgn2xRk4IJpAO2jHbg/Sn55xyPcjFMzu6ZzinZzyx6+tMBQCOMDn1peAcc++aZxuzjPGMjmjIUn5eMd6AJM5bIXIxjB60uRxnOP5Go1ztJBOCOgpdzYwWOAc4xQIeHIYHPHqO1BGF7n2zTCRk4+7nkU7cNxwg9s0AP3rjJAAHamh16AgYOPakyWOT175oypHPOe1AhxPUDjnt/nmkBOQAMfTpSfxfKeR3FG47gdx9ABTGOJXOTyT70vG0MSfeos7SSzYYdRjrTfO3D5s8HFICQnGDnp0oYkAc1XEodsnIUdDSlyzbepbpjqf8aAJGkAHysNw9qaZAOCCCT3NX7Dw3rGosDDaMiH/lpL8orprD4fRou/Urwsf7kPT8z/hSuBw7TEnaAOTgAHGT/Wr1h4d1rUSGhs3RP+ekny8e2etdLca74b8NSvb2unCW4i4VxtbcT/tc1j6j8ULyRdtnZJCezu28/wBKlsC/H4BjSNm1DUtrDnbHwAPqaz9S1Lw14XiSOxiivbz+KTduIPqx6fgK4vUNZ1HUebu9mkHJ2FjtGfbpWZsBO0/LxgZHBoGbt58QdbnkfyvJjU9P3eSPzrjr64vLx2knuJpGY95Dj8qulVGSTlvSoHXIOWHI6AYosBivASPx5qu8WBwQM8dOlazqSDwcn2qq8eBzlvWgRmlOcHH1pjLir5h6n1pn2cMc8k9BigChtGaaVGOBVx4GXgjp1qN4zxgAUAaXhK5NlrkUo/hIP1pPGNolr4t1OOIjyjMzpjHAb5gPyNZq7423IxB9RTCjHkknPc8k0dQK2z3pcVNsJBP9KTZ3xxTAh20bRUuzvSbOKAIce1H5VLs4FIU46UrgR0VJs9qQpg0wGUd6dt9AaNpz0NIBtFLtPpS7TTAZijmn7fajac4oGJmjil2N6UbG7CgQoNPjkKOCM/nUYRycBTVmDT7y4IEcRNAEiSGc7FGWbgk9q6DT9LJUMUII65p+k+HXgw8xBY9vSukisyuCADx0FVYCtb2hA4T860raAmTmTb9TT47c7skDB/SrCQgDAIx6Y4oAdHCAxAbIGMnrVv7NtRZFkjYN1XdyKijgPXJA74OM1L5CBiRv5PTNMQ5k8p2AZW/3TkU4IgUHf1PKgHNCwruIUnHepvnVQwzj0AoAYrIWwVIOM5PNOyP7w/KnYB4BG4nOKNsn9xqBmKr56ADHQkcig4xwvJPXFNADYx1HXnFKy9CcgdiKkYo54PHoRTlOBuAJJGBxSopztUbj2GetJnY23acDr81MBQ5243cY6dqerhTnAAAIAHembgxzjHtnpSZORzn1oAk3kqV5+Y85FO3AEfKAOwBqNMbgT0BGTijK7jgZGaQD1J4GQQRj6UoGDznk9BTOvP8A9bNOTDHJH9eaaAdzgHG3B6E80u4Bsnr7DrSDBY4J47gUbhtDZ+cH06UCHAsTgZOT17CgnIxnkdaaGOOoOTkjPenK3POOKAJI5GX5gSBjHPOKbncc9/akJbPUDP5Um7uCBgdu3tQA4tkEDOB1OOtPByOD19qYrAjlV6dOgpd53AnAwOAKAFwBzkliOlPDgBAy5xk4z1qPcC2SRzycilwynIjwPTrQAmVCZIB549qXccjnPrxwaYueABzjnjoKVj8nHOenfNAD93QkKoJwDTd4yRjP481ch0bVLnasVnPzzu2HFbul+EoVuMaxM0XQqkZouByobOQcsc9COv5Vf03Qb/Vzm3jVYxkGSRsDNdPqN7pOju8Wmx28TKud4XzHJ+p7Vzc2upvZ4rcEkY3d6lsDpbX4f28SCTUtR/CL5R+ZrR+2eFfDa7I2gEqrnKL5jn6nmvNptUu54hG9xIyL/wAsyTtFU9w2nduZyMDBwBRqPodnq3xFuZJMadAsaD+KYbjXJ6h4k1a/Di6vJWB6oDhfyFU5BwQRtx79ahfDMSOenOOtAis7s5GwAEdBio9jNknI9cetTbnVWyevrwQKCrKvAAOOKBldlA6kDK/lUUh9s8Y44qy6llOQAepPpUBTeBgAnOevWgRVYNtJ9eRx0qsyH169vSr7xkA4J68jPeoWQtuAyf5igCgY+cDcQeophgOcYwR0A71o+WXXO0j696YsDcsFBWgDNMBbryRSCBRxzz7fyFXzCD8wTapOAP6UhhC9AcjpzQBnmLZnC5zwOKi+zlscY7VplARgjvzTNmckAgdvpQBlG0IJ7eneontcZwDWzscrtCHIwSRTDESc4LY646UAY5tmU8kZNM+zMw4BIx6VtbG3bgq4PAyM4pRalvXPpQBh/ZmU4K4z6ikEBbgA8V0K2ylgdvGO/rQbQAkBST6UAc99lZcghhj2pPs7YPHSui+xjcSQRgdAAKBYoVBKjJ6igDnfIYn7v6U37OwPQjPTiul+wIpyMgelN+wrgsFyBQBzXl46qRjqaURZ+YDNb509cEj5sHBFR/YucBT0oAxRbhgNmSccg0n2dw23acituOyw24Kdy9+1DWY3HC45zwaAMQQEjpjnFSJaMy5PFb8NiAVcpu54q1HpoVjkc0AYCaaWOEJI9atQ6S235x830rpI9Pwdw71djt1DbjjPfnOaLAYdvoi8MVzitm2sdi/ItXViQAZUAgc471YVNgOCPm6EHmqQFeGEKp2pzngkVaRAxLg/iakjTBAznjr6VMqFgeOp544oAjSJRjAGAfyqfZlsH9O1Iq8kkEED05qRFDHAXC4yQe9MBAy7MDIHoTUoCtFtx0PX1pfLKDIChf4hnOPwowCTkkHtgDigQrBVYKOB6j/PNKQST8uRjkZxSYAYDPU9RT8IBuwPTnpQBGBjAIUZ6nuKkyP77f8AfVJsDMAOpByBTBjH3TQMxA24EYyvTFKpG3BIXB4BpirvBIOB370bgDt/GkBI+CANmMfhQu0MMFTxk8d6axOcsM56cZpdwKhcAE9CT1oAepyGBYAAZGe/tShhjBBGfboaYMZC8cnrnigEYK+vYdaAJAVXpg465FKCd2SDj1Hem4IODxgdTS55A+bOeT2NADmO5j8oK9ie1KHyuMc5yM8UzIB4Y9c/SnZXbjGB355J9aAFBIO33zxSgkZBIFIqjpg+56nFH8QwOR60APB428D3xQSAMkk8enakXcACPlPc5waRiNxIGCf1oAeSCBgEjpknrS5JUgqMgjkU0Db8wyc9aXgMDtKgjgjvQABwSQAemacqqV4HzAZJzV+w8P6pfsptbV3Vv4zwPzNdPpvw6bhtRuguR92H/E0XGcQjZIXjP1qdbaeWbbDFI3ONxG3+deqQaToGhxmXyrdGjGTJKQziud1zxfpTkCziMkw6u8fH4UXFYx9M0Sy8vzNTmnVi2PIgUE89OSevt1roLe80TRot9tYRo4BJM3zSYHck1xsuv3kzH5sBuM4wRWVIzO2ZGMn1qQO9ufiJIRIkEAfjh87cfzrkLvWL27cl5XUEngHiqKnJLbSwBycjqfWmhvlIwABz+H1oACxCDGMjHOelAHUkFlJPIP8AOk3YBBOB7jvSeYpJYqCWHXtQAR4JILKeMkZ6Go5CrL8uPypz43bc5GOnemhN5+UfUZ/rQBGzMFyQo9zUT/N8oyeep71NsO4gFVzye4pm9RyxAbnGelAERDcqchxjB7imkFuCoYnvnGKeGy45Jx364p23KFjyFODz0oBFdgu4qRkY4OcYpjRvEcFhux8pHP0zVgAk5PQdh0qPYckA4zyMf54oAr7MgDeGPVtp4JppiwuDhgx5I7VbKnYBuGPXHSmbB0C4J74x9aAKiou7CKTgjjb1pXjXexOM9yOAKtbFUjjGOmewphXKlzjnrxQBV8ttpGVbuMDmomj2g5Zjg54FXtm8AAgEHrmmvHtDHHT3/lQBntGVGTlgR0HWk8o5GeR0+ntWgyNtCDA4zwOfzqNkO3bhsjp6CgCl5GGKgkZHPvT0gJbnIyB+FT+W/QAnIPbk1KARDyz7yeMNhcUAVVt8HpgU/wAgr854Pb3qf52Y/Kx4xk09EcLg52n/AGetAFf7PgAENz/OpBAC23I49Ooq2PIOQ0bbuxB4pilkk3RsVKnhqAIWtSAS6kelIIR93apPXJPFWGLO255Mt70wK5bcOc+npQBCYkClcZJ9OgoMCbSchgo7HipvKYqGJYp+VCIw4zknp8vNAEPkBcEDDDvTY4sNkAZA5461bCsSQRg56Cn7SFGE2jpweaAKbW3mOW5wDz2FSrYbkMihSO+DVrYTzkHPQY5qVYwy7Svzeg60AVEte+DVmKADKArn3PFWUjJG0o4z3AyCfepBGQNpxkcdBVWArrAduQAAPU1IkR2lhgKD0PUVYREGeQ3HQinqvzDAB+ooAjEQ4AU8jgmpoxsG4DJz6VIqLs3DgEYY5zQq4AG0g+maABRk5JbHcAVIgG4A7vXAOM0gUk/dOOuPWpEjTq6BiRxk9PegBq4yAGOGOTUoDKxLH8AKaqsh2BhgZNPRQ5Cljk9jzmmAq7cZPCnnA6ijk8lCVHTBwRS/KCcJgHg89KQ4BAHHvjmgBH4YqOQOQfSjkMGAyMdDxn8KUjnPVu2Rj9KCpBB4CkcHrmgB6kJIpAU4OcHOKcY5cn5R+dQAurDIHAwMDvS719F/WgDAXAC5GeOOetKSGH3RntUQJx1oP3j+FIZLkAcgnHpTtyg4A5PWmbjk09fumgQIwDAgggHpQPly2DnPOKD8qEDpT0Qep6UDDIC4OTx1Hen4bZuOMDpk1H3x2xTk5faemaYDmZQRnJPfA4xR8pAbdweuBzRGSs20E4IwaQjG4dl6UgJEYZGRnngj0pdqbSQxJJxgHI/OmnHlx4A+YHNRliSPpQKxKWKsV24YHnHU05Q8hO0FvQZ6Vp6NawTXaCaISAnoc/0rbt7O2aeVPJQKJdgAHbBoCxzcem3Lqjyr5cbHBJYEj8M1q2umW4t1knyNndDnd+ff6Umq3k1rJNBGw8scAFR61gyTPJISzE57dqVwOnvNbW3UQwTMuNpQ9wMe3SqMvivVigSO8ljUc5HWsF2K528YB6U+IAk5oGLLNLPN5srs0rckk5JpkY3FmYZ2jgHnFNxuAyT0NA4ifHqKEgHsAFI3g44B6ZNMBJbHTHSkYbELDg5piuzyJk54oQEjyFVZeQW4PPSk4VcjscfjTGOHX60rEnnuf8aYrDnOWByD6c8UzKngtwe+KRzl+g7UqoobbjgmkwsJv2ZHzNgdx+tBTkPkkEjnFSxMQ4XsyYNQ5xGvseKQyPaM5UHAPUGkKooLEtzz0p5+7+NJH84+bnmgCM4ZSQep9Of/AK1BQhSoII9BzUjcNnvTVc7X4HSgCNd6ru5I646cUw9MhmUE84wTUjuytjORjoaSZ/LuWVFUAY6CgQwgbQSASeOB0pzIAvzF8479R/8AWoU58zgfL0pf4CQBkjrQNDU+bjClicgjr+dJktvQ4xjBJHNPx8rA8j3pWUKy49aBEIhReg2k9eOtATBJVcn3FSSL8o5PJ/rT3UBz14HFAEHlu2W+XJPPHIpFjyOmSeuBVoKNxpQAFXgd6AIREWXaQACvUdT9adHAHcDOCT1qwhwhwB1FAUHPJ60wK5gCnyyQdpzn/A0/yVZtuc1KY1L9+lSCNQueaQkVPs5DEjbx61F5JUEsmDnPTnHtVxWJXJ5pE+aTnnr1oKKWwltwQjI5yO3tUnlcDn5gOmOtXJSUwVODio9oAX6UxEAiOckE47UGFSpbBBHPI5qcKAkZ7svNPRQQPoaQFfyUK5J59qciEHG3J/OpQMSIo4DDmliJDn360wGxpvIyMhT1z1qVY13FlBGOp7ipd22VcKuCu7GOhoZiQpzzg0wBE2Op3EjqT3qRE3E5ThRk46e1N2LwMU2FiUjzz9aAJlQcZ4b04xTtiMg5PU9ac3Ckjgg9qd91QR1NAESBcAlT/KpMI5wWAGDzjNJkuvJI5HT61NKoUjHoaAGKFXABOfX0qXP7tQ547Y5pjzvIo3HPy01f9aw7FhmmBLtYjdnb6ZHU56Cns2G3kgnPQH+dRs7KYwGOKcy5Mgycc/ypAOxkFmb5SMjAx+dKHwCN3HTAOaib5V9enWpGUefjsOgpgP2EIScqSOO+ab91CpGc8gg84oHQ++M01RuQ5J4JoAfvQNyD/sgNyDRtj/uvUZY5I7Um4+goA//Z",
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAjoAAAF8CAIAAABJw4Z7AAEAAElEQVR4AZT9a4+sS3Yf+GXdsjLrvu/7XPp0N5tkNylRw6FFUdbAhq2xAb+yMBhAX0TfRB/EhuGx/UKAPZaAgYQRNZQgUaSazWafPtd99qXulVlVWeXff63MZ9c5pzXGxK79ZDwRK1asWLFirbg/a89fPL69vb27u/Pc3Nz84IMPPnz5Ac/GxsY6dz8Stba25nV0f79YLK5vbjpW4P39PZCtrS0h19fXA6Rw2DzBLEZrV1dXP//5X15fzyW/u79eu7sf+b9YjEajdf+5Bdz3/vPe1XO0vsZ/v74GPz93c3OTH0nX1lAV5MDX7hf3dyDhQe/GWoGKK8ICqQRrhWotSe7X1hejjdv70Wx+M5/PbxfoX7sbbd4tFtvjMTxwBuwuxKfA64ov1Whzcy2e+9H+/v7Ozg5i5vPrwGxs/N7v/d7W5jYOJK+7u5vZfGtz/fDw0Nv92t2jxwcffIypL27vFq9evf7yq1dXlxKunZ1dfP7lq1evvjo/PkHg3t7eZDKBHM2Xl1c8s9kMD6/noWQ8Hu/u7m5vT9fWNy9nNxsbW3diLq7W7+6mW+Nt6W8Xa9eLtYVaRPbaZLwjyf3t/dX11f3a4nZtAe1ibXR9v7he3N5tbWxsb413pl5vVeji9uLqUh3JaHN9bQOPE7x4+vTpJ598olzY9+jRI+SdnJzc3dyqbhWNV1sbm5Is7m4UvGsNN9C8trn12eefv3nz7vHTJ5gPXuDbt2/nN35v725vlO7Zs2fb29vYCJWSHh8fX15ewinw6OgIAFRo4I5PT8SO0HR7O51OX758SUYkef369fn5uWCESYiSJ0+efPTRR+uje7x6/uwZzMqm4POrmVLMr29QMiLUmypWOdcvZlef/vrXQb6xDrN8FZNHQrKB4Ob8wcGBGkfJ2dkZIk/Pz5D36PBI4P1ogW8XFxfo2ZtOhcjr+fPnf/eP/+if/bN/Bgl6ttfHiql1pLC372V+o9hIeq/ms1//+tc7e3vzm2v4L+dz1CqQGtzbmSg15EqBGPRfXsyfPnm+vTX5+utv8FKrOFhbezze+ZOf/fFHO0/355P92drhbGP3enT+2ZeH4+mL5880GA1P4uu1tb29g6P9o5vL+eX51exyProZjYjt7sb13ugX16/++S//9D9dv341Ors/mC427//+/+qP/6v/7f/m/PLsl7/6mz//83//4Ycffv75r9+9e7e7M8XhIpIMbCGMOKiF9bXNs4vzk8vTi5Rilta04aFxIn9td3eHd68SPjo8UBaSpnT/4//wP6j03WmYfLizD/NkMwK2vT3e3plGjDfWT05O3x6/29iUyeSO6tAu73Dy/mhvl3rQWiMb421VezW/+etffnp1Nb9b39jcmKxvjM7P3u1sjz/54Q/Icymwxc1dNIk2iO1fffkKto2NMQw3t3cbG2tPnzz50Y8+IQYp4HrUDhWhKr/55ht0Juv19e3pBIXqdHS3+PDZ0zXEbKT5X9/cgx+tb/2rf/WvtHRlRD8wMgbb3/pbv/eH/+Xf2Rxvnp4ef/nl1yT8v/zDv/vTn/708uL6s88++w//4T9i29u3rz/Xdo7fvXjx4vd+76cvnz8d3VxNtrcuFexu8fzZBwdHh3c03/39f//f/3OpFjfXsqBwfsh9/IOb2+sS4Cg23N7cmpLPV9+8Qe3d2ihlGd2Nx5ulOReH+wePnxyNFmnRt3d0yd1obVMb//Kr10T60dO0oPHGplK/ff0Gf37w8Yeb441n7MX9glaF//YmTXq8uaXuPvjgI0qPXt3YIr2jk7Oz12/f3N7Mz07erqWG0mZnVzez2fXVDEtu19c34MdYrVhbw975fDbB9Y27/YMpjUn5YAKuHr87JXV/9de/0AY3peGUXx5qUXQ/lYFnxL60/SB1RAMMfVRg/O0AtOtXsQ0gkAcCSlROCka18VOHRI1dCnwBry1/wgJCLMtElcWSKxDMaUAQ8SR6lCdDUrHro1DOuiW2qImnABFNuQoDnmclXk+NSdNo1X+K1o5Ml0eigJJ4lFZZAK8TskaLaWIrKwUMl/Isq7+xHq5SzB5qhl8Syo7Uvvnm9fHJueZ0cXF1cT5T1J/89m9fnJ8V/hBMrHFeUaSC36somfLjoZJU+I2MmFZgrOTm2oZiMVbrG+tb2KBksZt3C6bk7k40V9IFR1UiSSmEef8NLvlKAjkwDheQEe6WE9ulXuhlrCBDTyEHFjYNwMu6WiaREBg3eAacHf79ZwNAydNoU4crtKuQUCStV+orz3QW3ufFryAAMATb2Cy4+jX65a4EuwRHvwH/mwxJ+D0lD/MLv5YpUAh5xnUOTk6swHZDYMLfS1bIBtDIG/5hqg5HeZeun+AhaT+t2Bg6uw4cbYwoiPWtDWpd9+jufoMtTivaGp9cnF9/eUPdTA8PxuPp/PLq8ptvtta37q8X0FL9453ttc31642b2ShdSQQgUK+PNmpiBH6HYK/tGuDhU/jw2rSppXiq09n8r5pZClKXRRIebkjbeJSRRzgpxHBKeWNzzMPYdFTsS3rYqU3h6gWxF4z/bHZ+fnGrca/NdGwvzo8XO1NqUSo92mRU8kOByrFritYZiEcnIkUJuU+DjjYCFqtQPYzQWqIIcnMrLZ2odZGqrnR99QKq4CVvzUPIeAjb7HqG87prtMG/+3f/7t//+39PG8yurpUSgKzZm90yQhqduru9u4Yt3NtYZ890CBZ36d3+g3/wD/7Nv/k356cnjETKPJuxMU+ePoYk9BkQ0ACVIy6l7CGfoGjL6+k2lQJEFb6noOUyDighlx0cug76vgze6ekpYridnSn/waNDfXw2RlodshfPnsOsFFTcp7/+XP9SMS9nM6Rubqx99MFz9S/TGPu79ZubGAI49d/kFYbMZmmD1VXVV/nkBy9397Z1PfUdoV1oZOW8prqbUBQLbGHyTHmXFZYydwLRKXZVZziyantdE57ckJYHcIDubmPzmCrNW4PLYEhebR/ST4hIV5vGK10AqQQFF4Usi8WyreIfMshb6EzWNRIquVE1mC/eQCBQdHpVAy9DQ3LyD8K8i4+YAoIDHqzcWNuQokKSGuVqL4hjEGKuGFuUSFOmJLYkyCrEs13hDNleEYEAou5VgVN5lzP9WQJqTPDNN29PT87n85vx1nTvYFd5r28zYN2e0CsZKMyO5/qnqiqYo1nzDE9SjtF4ewu7jLmQQTUj+yZSeY23irK+mbbDrK3huMwVJXKZIqf44cL9xiajuH4XY4PFiCxPeAYsxg39cCOppRYB/CGmihxULd+FbmscyQ4t1UTjKZILPKi4hk/eK43WflGdqqAC5vU7TlQVdGmE+IE1zkQlch0DBPKgE09aRDEWqs6oMQtRHcXSMCOvBpf6yBtaUZqN9kaV4DxUNIInf+spTaXq8RI8wdidZvyqecOgSRNdwOiRI49AyDvT7xcnQEVYRwF7CNzEC2xsorj471W6Pmn4jJhOq34XanpjcbuhG7i4vl+b34/m92vj0fqjF8/0Wgnh9fr9Nq6MN2+u7mc381evX+9tTXYmu1sbYz2cG6q4DLzyoVhGCGjZwkxktGuCB/8y9wc/opSpqS1/ar4FwXC2OQkcTs4rJ7SLBnJwnZHwAbcofsw3gwCzCQMhRlc6wDyopYOFF1gIwBx1NF/cLW5n9A4GTMfpXkDSqKoZtWAmOXo0vCTMXMtIjQvpWqBoZKNcTYzkojwRX+GlKyrrxtxgSAVGPIDxCGRKeTi07ey1gOUVlXQCA4DgzY0lPE092d1hKiJga2usV5QisdUJ2dg4P7s4PbsgqI8ePTGvg4xf/fKvT2azH/zgB4+ePnnz7q3xaXRPdbUVqjkjIYTh+Rp1NL++jV1swb67SelAcqV9w/kuPhhawZMOvLmdI3Jvnb5aO377FvFPnzGOT6fbE0aUpTRgYpBMFzFX4/EEZzWl/b0dRUY5ToQha8bNo/OLTOSkHZV8AGNSDL4lf/zk4IOXT3Z2Js0xjK9OCdJGu7v7ChtutsOadnAV8Us7IRBAP0WF+pU+Ei6kXSPhHzwdnoTELNowanGjOt+4Fi3KzKRrEssTSaRDlgOZ4KCKYM8ASC4EpRoqbBUgRWDg1A9AFCBao2OhCYlRxsxgAEXdlZ2T+Fb/s4ATIGWbwbKXSR5qaXg9cZp/XcqwogoFJVHm1CVaVRgC+CN3NRUQeiTb2mQGJbrVaTeIuxuZ97u9/VyH4vjtydu3xrXv5jWhtzOd7u/tsYUG4CoVZiqy58H41U3Kg+KQmb483GSWgq4yYYmCYh3qdDhv5JQg7FzcLHSzDbf0yCjSTJdSapCADtcKbeo0fnq2nv2aOqguVjKuWhZegVU/xYeG7PCOCsIC68DkVC7hVWvA2gku2OB8D1MC1lEd288GaDKKHN44vB3AYiIquacoVYEPPB0IwyrnKtcqU4GQiKUxsZpKo2KEeIrCeRjSzDY2NCqozAdqbNoVAI0TQNMGBkDDy7rzbfFY0lPV18DfeQ4caGKGV2D89RoT1a8wo11229sTNX57U7UfwWdxFvqDbJVBokH37do6/UNZ75mbPDoigNTM5f2tiZvNyfbhdHdtFvtkYGLujlZeN69mPvaaCrvRozT/IetwuMY0SlGUhPZmab+2fwhEctMpFpGS8zQMypdtpPiTxjKYq546BreqwWRTTvLBdb1oPou7TJPOb+dwpsu2vkbBmdpSRvWiIqIt1tdVk97L5u1iPlvMr+82t7aFgJS21fLNbfryW1vbqp4xQN5ksotsLFD5YNADT+CrIevVCAEgBDA/2rxymXlYOXRyYj1p26OjCIkkQmppYNkBQup8fkX6ZH14gK7MYRr86cI2vLT7R4cIkItSb41uM33HRednoClf5sEwhR/mDz76GBLFZ/bYJEikZceR0UZLUiFtACiHmVng+Xy8nT4Ep55AqnodW6WUaRRg1UiE/+4ecvLPrCLm/p5Ere0dHppZ3dvZvTi7+MVnvxCumMaE+ByMpWCCUweDEstcRcQDDPYhHkIiIIcmzKjVfLR8Ufjk6eHB/rTqaixtuy6RGejbxc23es1NZcpZ6ljWlHHXkCcpBiCuwVKwlZNk5Y1+55cTD8jS5Jl7i0nBcI/UsaiAlTarJnGXthleUZclBMkmdbR8xpKlzZR6BVStOgonOrs61yk/+wIoeMB7DZSf5Bw8dL0oXc5k0vCAeaosYGq2ICZVh2LL/431TCNULA6E46txRiGPZHBBXbWOJ6pIqInmmwW9sdi4MKOdBmaK9quvvjILPL+aq9rDg0dH+4+2Jltffv2V+oYcrfKC3yweV4i1mWD2ipka4doG9Bk9qAaaBUWRxK3R1r2mtTAjpKC6ADDod2fsRZ1phFGAzBf7zXqmZ6AfVax5X4Nt/hPKlbzGbJmVV4k4xvimrXuqNfYgUJ7QhtZvO0EtAyiPSBanGqRSVeJl9QUPV1AlBuXvEE+plrFqZMXnRthJVjnkDUDYaPqt6avkjcGTZg4MCaGGSsIAM0KaoqrRZWWHtH8zAYtxq7OMbk2gmWu/PDvXFBUKuy1xaVeaHAnPstXpmRao1tJKi51SWeGDRx11EbrsTYmQdt06+IXzN8zw2jBQaRVINstrrMy1+FF5otKCZGkpbmsjvTE1bhyjnRosrt2/ene8Nbq3onMZS3x7P55sTbb3dg/GN2vXZyTuimY+2Nu2lHJ1zVqZkJkbphOvm3XjSEs/yw7ZUJUhZuXa/zAkpauC4AY6u7AAulIwFuUY3k44xw94KGkHrnIIWwYkPHBeW1yKaC80E5MJ8LVIyBaAwRrFA0nnuDlaW2xaiVDXWVvt3KPA3zP8Gp7w4f7edBRKrm9iqw72d7FBVRN8AlVlyohNVYOPcvFfA6/5q73dnaPdneiHNE9tJc2Wh4SYukRtZy0LhPV4/fLilNSNtyZ6nibxTo9PWAXSdXkxazC8UudylBzZizKuTbbAlD09JE17/e3xMRhritybN2/kG/FIXmIzkjNtKJCnqSK01EYjsSbFY0ZBV0e+YHVflI1fXplSur3Wdbb6q+DAULW3Z4F1Z29/Z/9wH7N+8YtfnJCxLTpsm9x0rIJjKR2tGXVxWGUrfMUApMG9rFlFBoCwsl6b5C5tqKya/I2lFS2UxATJZDyZqpebZZcwaFaaouGUUwjoilkWQ1TaQ7kOVw1Dwg4H0x7Plh5qDQeNgiicNKvSmDSnpN09Uf3sDHjmR/KQqfHFnmXYlRSeGVVQsxnPRu3oRAMWkqk7ijnLupkaCsvTdGO0opgjYDGblFVUudVlCWMByuDF1EXLlF6tXBIXOjOnBSnP0nVL89KF6rmIZgLKQ3aJLDkmqbImVWSLTGzF/N2bBnz3Vg9lTlafPX6me7I9nujSGElLaAaA3gTM6cgYb3lVS6YpPGUqI4xnifSBbRiwRqUJE+n5+t1GTNft7nQyLqUZDZAOdAqPPYqsfCkiBvhZiYv39r8P4QvPl+akM0Vba+GqHRDBwzVTBH7fLeWxZTMplm6VML+dSkQHeuXp1xX4t34brJ8d0RVRFaymlpUCoIUPzJAFz7dwxe6WWFTb0D8FwFbhvJajdsRqn6ob57u1m3tpfSej6V46sKK0N1PVre8AyxqesKu2BcEmrdeamRZTrmKbmmWNFJ0Ba6lfvXZJPeXlKd9GgDz+20XGfBy5SpelLLHaBlMNx84XnTU643bNIMM+AK3Yeur9xs314vp8rh822d3DqZOzU8Oy+/G92afbs8wMwxmxTxNY39xOXk1b5fatR7M0NMQtS9fAXhpU8mYjsnmah82rjsKlLhcUA/ZCuKzT9ntWRaRuSTQFen9zzQJKrjI1L9hkYYJdizPIMJ8x0xW/NoicTydU4XvzKRfAEIJUy1BBsrFRpkKJtzN3AiYZ0WOWZ0vdg9Guy4VgKISTgelkOxWH28a4KQvcsWSiKAEhUEEoSRdECCZkgibdUFlkmYQ2F9v5NjCTBMnR0cHHH3/87PHR2cm7r169RrBymrE0roKQerETwej+L/7iLx4fHf72b/+27Uiffvrp3s60axBOYBxSEQmeLemyyzuGrQSVkIBUVptmQlNKHIczdNT57Nz8nsLb4iS7o8NDqlW32xo87pkSZ9LuaaHaMSGvq5p7iJYerakRtspGDFLf0p31iZUzEESVHJvn2aFSTs9M74oNpeH4Sw6MxbJopRozPd2s9JSYK+rFBpepM44HH5VeXoROiNgOl0Un8eQCvUIoKnWQARO1T86yCym9UKmZf12IjAAiOgCahiSOIuYyFMiuvxSUONijYiYXZAZnPYSCuW0p+wM7C4YW9k9u+C93wnZnHDLKPpaMqEhqTBohzLihc/SszAhc4lEmodIJ14OpHFP2wQWoykUd8Q+u8UAlOwxFvK2A9nrJeWaW5ubm7NQOiyvd84PdPXtyJtnQJ7/RoyePz2dXBHCeWYK5jMbTyeT25vTinH9rNqdDO3f7DzUDmIm7tPKa3c7vFuub8ljcbOtspssVFpicZK5UlgmeZi54rDCuDF+7yKtqT/HbqRX1VK7LBZuY0LmarG+/wBaPju3Uw7MRLvFUaIfwhrxlVQ/g/ws8ch+gm7aHcljIl4pGeEeB77I0PYRQeyQLCi1EFFPEVqkgTNaedYFbkeleaFGchg0J5NFBFg+0SJsYF3fWfomyQFxNTdVaY0l45Kezk7AIWRLTgV2KFdOXOkVUddyX5ctrKMd/FEuhKYXmziXNsN8j9tWuFzTC/a1utxWoaD9zMGMd063NLTpCKs1Hh/Xq5mp+cvbo4NA+U3M1FxcnlzdXm7tb97vja7IUY2B3mBXQqDOCp9TyGji5JO4//zMUENEo5Eo7Z/0Pqg7x7JriaeZ0Yau8XVfLZ+cjFhgy9Lj5Neoo7iz3Bp8YHBxQNUJPaTtHFapacUBa1gIeHhkIEa5TCDgTFPouW9u7On324Y1jYGJsaqa0CcPCSpWCKAnt30hAcg3TOZIlUXRW6CvX+cqIx/zi9Ww+v2duNdkxJl+cX12cnXfNAoeq4a3WWJH6o//iDz779G9u7/7D119/bcQhCwB0xYus5dy/OzmxuMAyK4uOVwzM6QnRkEtRtWwO/HBy9n7RQoi3ONsWS1nE0g2yVgxRxNvTJMWXX355+u5YcViqly+fg2fDvvz6c+VQoc+ePVEZ56enCrt/YNC1i+OyHm/rGJFG+pa9MGKP3u7S0ehNvxxhaxgh4cziukdGWtLtXEGz8ZjfoJpfjdUejVq7kpiTazvs4KCDqDurXgNQ7ab9MhDSeQuR0POhS1o23DTFrZmJBYOiC0jN4ksZLIMkybJyJRWBDAXx6yVNCCD0pr70PTQ9wVmEyaAqYzDpMj6rZ1oXhFZsashlNIvpRUxN6JnuT1nZtdr7ZRAS6yjTHn2VqYxkJ2f2KwMS2iyLj2n8uJ+pGCSXvu4SdRmFdEaeHBNR5EsSPhgzkYxqF2lpBlnn56cGxLLSUrMOaZZpbi9W5iZ4CATkBI7sYvvmZiaXOU1rsci2GbFy2R6n+49MdK3rszCIemcKU/NcNicbdxEjXRK5YFhUpY5YbDW+hPzwrSoatTgXzufxbYfxYUPqlJMMLrmXbAlYhse3coFb+TuhZyN5EJyEybfcw/DB32j6OQR+H09HNZhYDnleQ2nl24GeAxIeAA/CvcVJogOI1fimgPxqQQXguU66VOqx8ciiXz1f27x+ekbTTaZRYXoeRloapKiqvvRbYZYwJKWxvXeivIBEUJ4rgtvjCSChDzwN36VDRuNqGE+WZTyyd9jM2t3aPFvbN+8MvjfOz8/sCJ8wWkWDbaoWJiCnvkni6fm5sfieHYP322fX56/ffhMtdjNbrOlrp+VKpW8JfymL95z8Tu4DGTwdJW2SFwbUtsMWxYIxUasnT6canjyVOg/VwcE5iBZ4Tr8Tzq3N7B3gVIXd0sBuSp41EFp7MtkxCzS639SWd3fGB7s7KghyWjhNSv81NGRAZnBQJG2llW2YzEgDFGvfCWdaBngBZMwEniMkjLAJZGIjMBRWoUI8JVcGPnTe3REJ+UIoX05gWmrtlkqnMkqDgtOnNJhaME6ZzFlJKY+89vcPTT7P5s8fffbFF199ZZMCPNGD1RsohBsMwlevvjHW+fGPf/xbP/nR5fmZeMk5YMhAZD/B2PFlRx97qcciVg1sb5ohzBgbV3Vo4L+4OLPd3N6In//85+cnpzZ0/P7v/0xZzk7PZvPL8QRdOxCenpyQPeLUBUzy6nDrBimIuVmdO3PRGGjtTXLULs1V1a0QfY9wb/2+h64AmpmlcnXIlrNK8kKqXPJsCM1S8UTIFcUoEtdFBlAFSw3zcGCaF/wDU4A1ZGOXd2ffqGiBs1MzjyqEob/Tr4gZywxh8TSVWLkVOjYy5ci6ie4+K20qI20o0x5rm8bO3jOaNgK3wBy6ls3JL0wCUGiqWwc656b0fnsWLBYOhvUNu6QyoE5taQ3sSownKWCm0sPIpFnyLzYpY7CWRHahhIhqjvEroKGrWlFbAJqteijVizE5fkcadacscBbfYpYA80soM50jIfDDGWu06gfAIwvdU1moEVGSoOry6pw8mZrXC9QKS+hDK7KzzGJPcm0fsczFxmORJQvloqFy4smkPBZoVvdrGauFu8pyq2njp11UcjQfZt3aTIumpSlB7WQXlpoOCSey4zAT/QjWd0cPNobmVf2FyNqnACDYVvNpXQqFYqRxSdlB4gM/SFi8YqAQfiHgG+zm5Jjn5nrmCaG8RMHjlYfQS4g/QqTqWCEd65UfGI95If5eFdCrBSy7JFksbGzSpaCGTAX6E6L98NgLYw5EWp1KFfrN27f0DTDEW9oQeHV53nTK7m/93s9AoiTjs6vZ1cUlMJzHmfCo21sdMFBa8Fd9vur+Hp5quvdb4y3+EEn5LmkzirizzpFdeyPLA3vwiKr2B+edFaGb8+udZ5Ox026LtU3LOxdzh39+9IPf+nJ2eTO7evf2kki+ePbycLp/8vaEkE726ZpMmlxk+epmvLs9mU637mZmBWze2lo3zLpYH+XUkYxkh0XK7slPpGm8x4+OaGrEKC+PshgoAMA2xEsVYaiFJUgwwROkUQsYfoUVyS/QU3KBnpwogdZ9O0QsdT9fZMEGZhvGhJPwx48fmwxUEebMVZolOQBeM3g4PpXE2vD6eNvURvrs1rAidWmePM1AmFWLgTVWV2AIYzTIlCVleYGfaAjprGB4pssEoq1rP5ojO7EWjx49xjPqFh5u4Jih+cHhI0AyEqhaiW44EYNlI6M2mHG+brwiYymEkk+22deRQpFS9OC2HI2fbHN/+fKD12/fXlz+CgFmr7W9adlgxsyIyhoqCtH8V3/1Vx+/fKkU7Fow2yF/dfXFF1+g4fjsVBHUOJuSLTXlqkJUicULjcg2nSg9YM44UJDGpX/793/m/BOSGLmd6fZTG+VLNysYSjSqy8tzW0xRG4Wxue74lCK//PCDE/vdD7KTxNADkefn6YLv7x3hCXHa2Z04fBYm02Dr97b1WyrDJSItI70QiyNeEa9cCLOG8uLwEfjUnwy+77AP6eFsOWCpkGp4/RTy0IF6+Lr0ZwrdtupsTGOozASaDeNjt3Jas+qMwrQoQw+m948NWU2SaXX8WRv+UBgbIoFJLvBJHQ2QfoY5N8MH68tGRBlEmB0LuEG3dHQbW5cy9BBDTykipJuTvRTegsLMkFctOBjz8BOdmFRUJ4sa/bl0iSwXgBXripICrq60USHOctqPHoSU9KNxVBrkZroMQjotitNECw85ksRTdUaCV67yQUsatl4LCSD6ULOH7Mr8yphZGdceHx5Q9TDoDlitMDW1YXV9feP26hpbJGThJ1ub4Y5ejI3sGZplDz0xomRT15pgGXt5yVxIuypIWuxACQDOa4PxR0OtUuGhJF3MwBXl718LUtqOGnC25/vPButnI+mkaAuHHlQHmCH5AN8hADVCjpCRNZ70/8qqFcdiP9LkakeAJyZrKh3Sr9qVquF0qwELpIi3q9sITMjf/M3fgOHBTH0BTtalZ7MAhlqvkUzc6KosEks2l2RXaZYlaPofhqTr9S2Xohu6rRP/6ztTyXaJ7I439+42Ny5vz09effDi6OLcNPP1zMHyq/PFxva2Mo+3Qv/WppOzLBM1S2TIwOX1VXov9dqZOONkokqKb+X54KX5j84hTAjJxAGljD7/tusSPYRXuqGAD8MboRCxWOe1MWWupVaMAlzbAtWgWPlymgwep2mkL5gUOvQ6YabkU90rOnna3zhtL6B2dR1hoOMLsEFSLr4CS75UNqmggjtHGXFSNZG397k0QBvqWHLSFlRyfiIhtvONrsif0qWZ1MlMJ6tirowLzdzS+Aw2DY4wCYkZMHXEbLx5e/zm3cn1bXqroiDfmUw//viTI3tmbA6czc/O371782bqrEtxD05iTCyR3SaQ7iStOvCQk2FcqUmaTSd3UW4G5/nzZ4Z6sRPrm3L85OOP+b/64kul2NjL9Qh2kMHgEFc4UwtD0dvVlQkHTNiuhzZlljAc298zjXl4+Miu53dvTyDQ28C3z379BRV8Nbv46KMPfvCDj4z7JMdSRwjpP0yAxKuys1uy4udJoxrcsqLqB8Yq81KtwMUJxNcB/qEHRgBC+tn8wo7MwGWtoOYDmZmSG/tQWeOupDS73hMgjW5Xsi0gbyyd4RKIMmCGQKaE7VCEjRwFDKMyTFL9ND+BMBqPYfOX+VvUtLFh4hJ6Tx0znW19itRgbpqRDV8TH0xyqkjloimSVxEFgGsx7UAAQLB1iaeGGlkhYv/MXCAvfwoZPIbYsa6J8ceWdynS/LAphwwMgBC/tWndiydCLWn9gZGTzRc6vrr/dwDc22B6ozoBjuiTbAM1gkhXolHHx4BpZ2tHoWFKBShViK5lkKCjxOHMebUegLJpshhK2v4Ub+X4260C8osh0VArVxyqfJpByza/SlgLyyvY979B8p93K0z57TrD8GTUuQt6YAPkRENxdqHw6/OLRSK/mgwvvleVorTeNjyNSnLoI/C1N5ofgMYme03RMr3XxU7tkMZHPev5DPNJ31//1S+sHrMKOomIVOViuSHT5pXXDnlY6IBVWZjUtk9Cls2EJx22lLTEwZO7n25N7ArdiC6/Gjm9Y5R1c/rq6zeTH3y8uL/KkcJ1u9TPF7c72xvGb+OzucFTWQCIFhZPdbXt/7q+dR8LhXd/dbPlEFfmxAgSQBzwHEjl4VAlvP2eoaNCom7IHvhaWMJDr6mJh3ZgVVMPkcDwHTeg7RYKgyYjUDe+IDMqUjURA61s6Zamy0hb7RiD57KXu9W2lJWodEbMG32Kz2qtTYJRtPplRJjdKjfGLMsO2FBMwsyjuCxm7iTyOc0t/Gi3ZkRCWiZ1miThO7v7/MrIbnlFbbuFc2NWm1UMU3WT4SmnPgzIqGPTca66sckF8zFTKXRehfzyV7+yVgqA1USJ8P/4538JoYUiy0Yfvnj549/6YW6CePQjK3VM4NvjMyxxzNdTAbmr65htetB8BCkVotQufYAE5eiMwbvpoZXh6fTFBx8JkZ0VrHdvXrMxzB5sJCzL/7Y9k1UioLI3Iwkde3h0wIYjD1oA+Glfhp7c3/pbf7sHTPZrHBw9Mgq8cOL54kL1QaGlxASOx2pkfzdtx0ZHFgsSZls4Sv7yP/3HcAZS7qGshPEriaTShldC8X1gCQU2TKfqZyMM5oxemAgdjzIZUcFMTkYVGXnoEGmGGVbpQ6XnGwaQ/yiV7AIseZFSS82ZImjp6BClhu30q31B8SZhbGE5UN6cg625QLiZuAAHTwhTjl4WkwukjOKmyLJVaIxCCwbE0zUZmpSdGFA3E/q5zHCVa8qbvGVOOUbfkbkeepPdZF2TOeK150ylYV5JuYoBQBqE8XglW+2XhMdrO3cmmblzG4GlYTss6rwNHEbue+qecKtsgy2H2E0DGtVRYxgZLVjtHiojs4xfs8czrYsoSChrpHI6DGC8ck1AgyV9KaYusqh2MCS8QvkDVsaigcEISWA5nk41eB6CNXADfAcsKFZuABPQyT2X3EmDXFpcgegRTtI8r2a51yDiqAdFNO4zV8kNxRyqQCCGSAI/j9culyenWdI+2iE/zGnzDgRZxrC3Vz/atO/c7pjM8GjzTVWlC2d6iRZb+QV6tkMqx5+irVpTA1RhPTo+4F38lEMVZq3XuCgj7MXcSOpmNJ7acLqYX3721V8A3ts9cvx0sTi/ud1Zu01Fo0oXEBNUOH2j1KbYt+63qDOje/M6mRoUlo7emt3V+JNcVy6ElnJAXvkiLVy/glJkxRvqQ7gQT66SplJ4QEqFnhXi5W9FhT8DTrCqwKvRL1ld38p4JRMR5UILhVJTWHp7uuSc5WHFMs/CDnNdxTBwD7MTrmUjD1qpRMkIAZJ4iuXE8qtNdc0FbU2BqmUZp7BltWFRLlYaEtRRu8xPZ92TJd13KQpy2hmonlOpuehG1XF9PcumCXqqlrGbDIpAoMO/JvQuLmd6smUmsxZlmhqM5UbbO+l9TtTzp08+/uilnYTr6xckczJNBwsx4CkcubNkuG5OEm1IlZci0KgkFhMur05tS0bVs2fQv/zlL3/51RdfhJ9VcPCAS9OWAHtUB0I4Jxfc41Gpdo6wqTL1/OLzz8zv/fCHP2Ju3U/2k5/85N//+X/8sz/7M5w0mvzZz35XvkjSeHTgbdlgLphG5LFzYJBhfRENevAgl+ZKSRT+O9VZzI0gcvIuqpatBbDXfobEcl6HkA7sZ4dHg9c2h+rsp/dIzjI8SguNKUsXH1Z/fg0FNEfqpVAIUqkF0jbPII/KV8tLB6rIRFIS0Agqgtcj2bSUBnMsnRUxMQIBrwQYHYnmYieRExdJhXaFfNneiqLGyBtXwFLFY34IEl2nLPE4Pn6TaTET3BobHtKdWpopTZkoiV9mxryomgCmVagYtU7IlgWremnMAIiLilVRip/8Ouv0Ke7VsVRWrzjbw+yuubq2bnG92KZ8olXtzqDVWPBqHVllIQ0wygjmRt6ZphWF+bS21Qvax/q25dPoR7VSsQDiA6+drugIG+BpdB2ryFwAmrmVwUN/5+hZIL/hIfl3YLwK7LxWmjAGPsUx95IMe6sLmY/VaQe1JPU/uTQSAKYvjHbd8GNXgqfm6DX7V+zEtUKgY2dmX7ejQkwvMXQQykjFPX10RPvjJJX05RefY3LXHRMiXB7563yTZzKPexDSRXsIU4AR5gIkpSUlJc8d1UmaYQg1MeG5YdVjbXYxP3mx4/qaHT2Vn//iP2ng46P9rfna9en8emGobYrmYuvRE3cwYZEy6N6Z9NtYu113mnN7c0prbS4uRzmOQ5YUQRlfffOVHGXdT4Rxkrcnk4llD1ZsNhuvoafv+X3XxVQuUY1Q2jBk5bqA/QyFxWfEsg0gLbJlZ8RmNnPqenS+pDHtuyjEfBUB2BqfBmXtilMQqBqnfHgarclaZHQ/S2BAq62RIjhrT1oUuiTgG7PX11uvYTu7yD0OOi6SCExJm1Td55W44qHdOktT8SBfpdcZSHc1nYWMApFKT9nowb5k7WI0clgC8600m0YbLY7kRcZgo+6ddlJAvWz7uThnm/Ehl0fYPuN2jNmVCZfLcxdfzPDK2AuvDFNkYVsNam/mVxo1HYVRCpU9BLUXwzDNa1fiwYENR5Mvv/r89OwYeQxtHdailOYuNtAfU3sagoHzUgXRCjlqlvsts7eeydcDmLoRNKNDl4swS2Hd69c70z3DJjyxmiXENv3f+Z3fQb+bEh1O1XzAu3SS1H388Ye0J+Y/fnyEbGfe2K2oLMl+o1MFXRldxw0zBHp9GO4VMCewXfuVw2uqXy1lW2DGS4CynmR6MFNT8ERj6qlAktHPsuNBwnI3UsZe0YzgANf8Htmo3NkabVrfKamLAo/6jT6LlMUCAQWVXXQhsdYWaZ5IGJRiEaG9x9vDOkGyXlqmIn5Z0i5XED5wUA5vAUhjyBaJrAWZ2DMNXOvGxAUk+SPiybocogUaI5sCVU9Sq7CSmKhd4i4WGvjVKJxcw+T15toqfNhLwMn+2sipeIrHLjVrz8YMks80Kmc/r9lL67sZZWRDldNZ8qrj8XJBvVygRYCGqpeAFTqUyGiSunRVsq7i5XyL8KqXMH/gAD+HZs8hkEfydu3vqCHkIeR3EooKxnIPwfglbzY2nsHfjGqOebYDE2tmgsLKu4F+5shiVYUDgF4U5nNCutHCo7IwQd2BwU7l4kmnablraz+bAyeTVknUonA4eWgECbUumoV2gkrCZFeckCv/ULQuS6f1XL0GNCxecbKoxVzdiAwXVGl6LSo/92nVRot1Und2M9qa7NkLNz48y216B083Zhf3106D2q6+6X5Yd6yc2lrDBm9vEgOGx8gl40JTSXdrThHPvlqcf31yhiFyqbIsRycI4zAHJU0VCovAVM9Af5gcuHSt2oHn6SJ7cl3MXuBtf+H+1qNxdlCTwa8uyDr1zS8hhz3JvgjwxGfcFitHR+cBqAL33zY8YCEIEPvWIVvHbLMN/v70NEeA3x2funZVrIJrCpxUYXXVoNoEqakJmZk1641/29kib/8g8RIbgJoaYWwePX4qKgOmqnohafuZjUsXvZBnCR8l2qX+qvu2pUUgSu4uAkCusg9rYvu4Tb9ZB3389LkOrZYOcqZhK+w8WyoePzo0dmGf2BXGibmqUzNXjx4/B9kM2SqTbyWTcN7Vhj1ZyN2Tg8qUsB2Vz58/tfzE8n325Vfhg+07FrZvb5gcGWGIWURstj4OLQalvKpkLfcFQ3E1zyAV3p5SEuJAGMpns7l5xW9evanbnPf/3t/7e2b2Hj06VMDoW5NnGxv7+7t2V9gSdXKSM23YhQCU4KrYboCr+bNVO5FZO3SA5q/ipOY4gYRXCH8/KzgPwEPI4AnYCgNbVWufphlMdZVxyC1/OXuVoUZXdrCmAxsMpJr5SvvUf0oWhkuZqkJEqVR1e5uu7qo7TJRq1g6P7J0vLkTbhVhYjEf4q4+c1cDITJyYojFNKOajS5YYIVDHlCbqey4g5Yrw0AdEGhJDLeknaFpYfHNl0ZUiS2eEhlQNSgrUH2poysnOVELh2rkkpMHWBwmVMi3E9uM6yi4WmFzUHFbLlMIVRA2U1RN2N7tZXNy4pBz/0iC1j93drXcnZ+zdndvXFYRyY81M99imVSY7RFcDRkCwp5+UnVTcIABC+Tv35FuuApOi+ePJ36+qvAM7SeOHYYmksmv/8OQZMDSe7zwheeg6VkjnOKTlaScqOIM1JfJUARUiiWRqf1mtSgOJqC4y4IYfMEvLP+TFB1JbUllhWjRmeCKQH9s1zlqCzP1M9Ow4SxtxwVOrXAMqIQlsySkOB1u9loAM5koxuqLC2MEBjqRNxwv7hDbutnbX8je9XR/Pbjeun3y4Y//X+HBEr83vz2/X9tYne/a4z06uAI1szEinx0VF7nu38eryk5/9+IMXk5vnk29GV7/4/Ms3x9lZkLKs5kvlmxxL1/NHWxX/m/72KyYOpEgkbbVqJYR7CAxJM8TzYfIBpgM9EVl995jMEMzwm+kszQsY2u4/8ACG1lMsHTfeeac7d3J6Qunf7u8hWNTAOn7DC66/eGBfuspym7jLVaGSF+QceJkSDSE24HmdTnaEmGUTe3T42Chh3RZ6dbcsUWpZVFPiCVhbFoKZ/HJJybPhmcwsO3bAZHp1dm66T/9WGXf23e+fawzB21NHihDsVbmg4tHCHYYmhDpY0gqUb8KlzYTA9vplbjo3HNWjalRybwcVuZXQU1o8U1POinqiBM7zN8dGdfgGcnabbV/sqckbaIUgxrYI97wEoBZ0d8pmQ66blt3bXNWFkT/GGE7BqSCs6eX6zEoY61SNZdkANUzGAFoOfiyF2UjOpnk4nRVBv7Sff/GVS0gKe3L4DU7ih64h8EUg/8MogZxABfbkX8USIJOzeEK36uKvZTMKra1b56Cf5ivG/EGGVXEm/wSYk7+VjiRjZf1G36zwwwwkCZFRxwXUUwKVW8nT66yJw6KAP6hz4zIZDFnGWZJpB/S9sYkReR3rDUIFUAE15qoCZsNdFdMk2BIbkKFoQcaJqYk9ffbknJ0zeq9VtVpOmoQVgNmlIxS1NHmQLEr4nIThUSWecleFBIhTu5Shv1i7m8zMkDwAFkfZ67NLc8TZIyW7slWju2vzjtdZvsVGpj0DRsW0eq5kN65IYZ2F4mF2Ud5m2w8VBq2JIFebkHlDC/WGjfraYou1kUtCJguGFJE6B/7SHMuhuUx7Fbq4hMIwgL+e719LWobXMHrlYFp5U5vtBD70FLI8QK783Y2g+0PEQE9SZegeLYaZCqPupdIr5s9YGxIto6rYE6/if+BSfiPjchpJI2m9DKcWbsuWVzhFCcFYSTCHUxkwdXHspmmsciz5zZu8+mYaWQJL3isndlW0pXhVQsFIXK7uqJQQW0Sbm2V/I4ohRau5Xtu82ZvqBI73HutsOyswm+z7Ss79+s714p0u6/FkbdunOOYmgDd2jLENxCn/C5txbEUYOyF8+8tff7o+Orgb7bzbuD4+fec0tEIpciRGdycFKtOCg+XwAQcy5VG1vyxgDkVt+hhF6srpCADVK0ImMPVQSeHq5p3ySdhuwDO8Yg8aZM0jll+DctDKtEGrtjT2HJSOkrg2rVu1o1BGKm5NpPpPTt/tTLe0D9Wkbv2HSjlMWNKAu3sHm1tzd0FqVgYO5k7190OzLSitXkLzUkTVuCKjIa6o7ta9O9mgSpg4dhV+rQxt9tq6YIKpMNYxFtSozQ8rQupdFyMNtOSh8KTgddlbC54bsezztrvPrrC3r1/lOiRnfiIJ6+6WpRpsLnZnlmO5+/s582TVIVqDas0oLdtQFc2+Pl9dQQiATEbZQBoXPghwDhpFiKE4o3uz6j/anu72WoQDVaYQx6U3tqe5bJd+CfvYQpvZDcrp1zqyjTnOexiTkRO2zjIGD9lX93qKugKYeX6ZoXDfEUXzA3AW27pUtkHeXrsmMPZgfeKCDOQd7u+ZuzUZiGk0pxxZL3QbB2OZsmAixhHE1Ep7hGC7pyM45MXyC25kFs+hHaKxGvbC0hWAJmmhzqtk5ZRECbVmnyjpqEzWLrJ1Cft64OZDUxkRZbtpgK0DGuwAxmsIU4u5k4HQG5YZI1+pslqJjF2JtSllpfMV8wVOP+eOfY5PIwGJcfR2emfUu00w1Z9xxURGaGVCiU+uMUdHzeGaelR0aWw/Sg2GUOUVq/dEzBd2JWU4b7QUDrlQNJ9pSN9GDdFWkLhydzWjPV4b28SpBWE9O2ET+fZkLJ1lrGjNaJ+4DDM5u4WyJSnDXnkZESNrml19472Fi4r3VQHOayiTM98SYm0uFzMXUMY+UVfmTM3uZNm31X46o2iJNOaDEv6nU5aL2lVR1iynObClUb17d6Kp4xXkTOx0J7NESDJFwShenF1+8OKFVVgVQdQdsKhVPzwZOyHJaGawGyVq20fGGcjzR8moxNRjjQXJCVRmyEQQVlWNh5aI6VyFDe2uFNKK65JGrMYHxQcpRBJ8NQgw8zHaXs+FOkq6sTVfzB1vNHR116luIhQKm8G3dRj7qbbHxjUaP2Uq98gnNt85qyOj6AsU1zmKkU4iXuKInSlUhkGnZ4xQNQr58/hTvyUxqWnYvFM/OhSQRDLW1yh34mi+B9uLt3i49vjJExP9u7nZnVkREKTUb+orWiObp2NYM0Wrcn1zaHF46ITKeSAt895mXsWcHSaAPD87poZuc64u565aE7l14eL66uhgx7rT7v62qwe2fcZr6jjnqcWMrc3x1+/OjPZ/+OMn48X0+vxqfbG9s2Y1+85qm/NMteVp496Nk5vTX3z161/84l9fHm28G83eXl7+8f/6HxjoqzefcvOJIitbZkH0iujElIXC95MRe5pyrZPnSD7gq9uZk6RpwVkodTQ5O6WzKTFfR9PHyiQzEdcGdBtp9vC0nMJCxaupeUbn1OjECEjXyseT3NRB+wPzrTfV6aI8O+soD1UgqRZICl1EsXd0mJbrIMf62pPnjybjrcNHB8agUfiYX80l4qaL5szveGyP9dH+wbmvdJ3n6AL8SCc8JIcfJfyEyn6BGk+kpdhXgzZatSmMtnErUg0vyJ4TJpHX+9t3J2+3p7kuRA+IkGfqfs2tQpsajvZiqlZVnl6+3T2MRt7Zm+K21rdzP6ZIDg+mj/aneo8XJ2/kvmtvOrF3g9/ZiY6pNmDUdXZ6Ks+DvR1A93cvSIgmbC2SHd2ebB2tHbp9/w//8O8YOr9+/dY+PGx0lzv2O7KlchWHkTHdooA6Z3ji2MNf//KXSv3kiYNQGShjLmwGc9CiWAXZvUJaj548PiqLm0GIRhthuHdSD7u0XJpGqSfug5pOFe2zzz7vZqjdEaSzsxOG6rPPPv3t3/kJ0Weo1J+C0K00tgNayut+Fhp6b2f/Zu56uXwLkMdlQMu1K9l03Xi2R5IEljLiCaE9DjCCKUJVfHtEdZJ+HWIDUJJHaklU9YXBZvIvCaL5iFANf6L0amov1iLh33EUDIAmsqP4OyQJS6ryWn1nsP6lJ8veAUsh4qgcspr8RKcIaWCB8Wapi0Zr3Vukdl61FSQiTtLrmYShOjfBh05nGGozB/Awq2IzjlEBAHC5ZRozXS+W7/VoDxpTzHppQQnKvqvvhFRBQnKuHJwLqfDYS2Mg1g7jrLFQ/dcXU5OMjk25dPp6dGUFzyuTnMuXqFQ2SU9LD2Nt3bg6TKfPlZ32H+eo+XadqdQfZF2yhTnHvWJ+aEwXxRn4Sg6PUx1KHU2Ln+VSwAcDmtReqQAlV97UQDmwYVk5ni4IDyWLeZNFDqF3kRsMhZzAhuwGEKmtjdFe0Q4/I5q/rNsU40HXdpjiUzgIQ4GlCwGX1+QeA4HAbBTJkCQVXXUorvrCwVu9gX71FCJrybmgKjz1ljqOOJcTBSfKFTTqVedv2YfTLDPZwuGcv8YQROWSsFQzwsL5cpgH6wokurvsVHr6DO723l6bLuqDgyGTkduuQzXpdX128faMzblfPH+6Nd+8PL89g3Z3bced/5Mt52Wma1dbuGD23PxOGmCZdjMSN74NkRv9Fy7aO708twnsam2ugy85K+UZWY9QpWXyoqXUbkrNMRUZZ9bnSS0Ibt3fXC6ufMSPpQx0MVyJ4EGsygnb1CT2L9tgWM0luNxQfCzFFQwUS7fuzK58bJCfUqPMVKbuucYFzNHXiHF9T8RYAMVytzpLmGObGAkdjOwxWrLXKU2O2F7aym7S7OLqeHp6fXmlz/dosYsxoa4cipSi/ZZe0KNLI0SNiVKodCvtkQCBrkwNxYqz0yG7vlpCm4fCyS1SmZIIthVEfVgtcmH6MdtJWVq6STvmp0OCAM58woxwG2LpXqcCMrKzOlm7HxkeUySxEbcL4+TtXJ9oUJEOAXEL/vmtzs3FlVvMr//kT/7kX/7Lf9nH0snMUChMSFsYUQnZCKp0mXlKY8laeKovvI18GrKoayFJm4WYaDCvkYBuYlpETQKT8KpKl/tRQNVMKMmaN/KERaY+gTR1wcE0Cx+lpqSkmnLY2HLF7mTdZDq7K7afmClfjpQszRWGe+9nRS3rqf0oQJxYT/4iMn6uk/CArID3j0QV2kaCdkaLqJrTLFRLAdVKgQXV8n/Y0NhKbhq4BLzVDvDgRXCi1E2A8S0E6LIVbtVMq4JJ9z9BXLqEQJERhcN18PLpHWBCYy2WTlyISn5LNxQPHwR5cpKuEiz5JkrF4LhKwvQIOmdcVUS3tpM42NiUcvBgLG+jBd4eT4FJrcHLJ9M4C4PwXNtBjFzruXN5fXF1+vYdu8IYBt6Eh3Xy2p9YSBKWVlEmOVHZeagxx6h45eSuiTGKlFHcTTYaIF4jMuAS0GDg0QBdPCsnylKGNzTCQ0kJaZiUL8QrcaDhia0vKVIiUTgjXCqvnUs/A1QNphnSr9CKpXwaf0cFb7HIKzB4YOMEeg1ty5amv9Ro8LMqugAQgLHqyBNwGmetjcPGweNZObwvshC5cDxNEiQ6lUIUrjPHPQi5tMT0E5Y1Kwms/kBCSwdlCcUlhNkalglGes0TofBgPh1W5GesrDoyFmMJHU+Iwz2haLi+mJ2ckrS725dbzwws3FZqY/rVYm062tm0TGVSmWL29eD5HTMiX1nkS56ooFeiB2p3uML7/pW146XSSenaAagcU5s8A0OwlB8MpoWYEmAwAoFJhQP6FmIbp3y5xtUJU6QOLFZX2mQllkvsfe6SUEF2ESVW190SQdkc+GFuYDjkTqEpA4sYtZAhnDYVAWu0PEFdcgAYc818GGQYVzFXjqzF5qxcsi8nALCnLBxcUyIdEAi9Ig9K/vCy6O/U0okiFctUk3x9BlTxJyAoAiMJbDoNNCJzaGCNF6xONqNmZqr0W2b5ttgIZhe8TD2VGvHRiYu77UmkBTZP4VofABZIn0agvQy/87s/+9t/+2+7JBfC5jZKRJkPNA/CI1BUzUdkHJnVQgsHflBYI+BqQenmJ6GVFXyo/c9YLaHsOIEhoyhJwnIFn8kYtpulv11k+5hlTbd7J18yWJyrzRoLLaB6UaY/o500L4RxIOUCkosC5QRx7e9XcCgA2OFNUNMkS65SLB+d0EuHD7GZQglkiqTXggIjYOKbDq86FyvnAIBSQToG/pk/iKYut6yG1WuLXY6EkJHMSRTTPZtm48ewOmsWUEaORLBO6RIkiWaSGfVM/qV0c0uercRDXgZ6ccxp7Gr5v1XIpjKUxjW3Ousk7xbuKsZW0NoNZ8qhHCkqfCkhdajgnQFxlpBLvoVfxbRHOrkIF1IZ5lFF0Z+yR8UMds1xbRsQTRY71y+ePNVbs8HWzL5LgDptNfZ8CLvHs405Il1GAkzku0yRJkEjmKc2zwi9sZqs0aBTRlk08Z08jK0GPJQ6eXkZ1E0VShLSAgOPLDwlD55MTC4LO+CRNWAtUJQkVD9Lz6/svgX+EL6TeLZbkrRi4CDWwoeo9gdJpWkqHuLkl3sXB4Z2UlWZ8hDSSPopBJGdRJTSaeTUaeMEw6NEwMCsKF1WtFeVH8jikuQ0ZnZmW8qt8Ri9Ji38agQYAEk81Wl5SQlaMzzNKNNI2EmabJnbczGLK9+cX/A9ByuS6WRf5OgvdXz91r43RyDGo8u9jZxJsN+WUwxj1ZELXceu83xgmMmtKkCAGukCoqfJaG4gTN16pgOJPN1yLFrLGT7fH1Hqdg0MsGvzPd9Ar8oll4GZYUu5wh8lwIO9PDhsWCWv7A4hTuu5r2FWm8dId1hdh7hFCSfttHbMWy0IQMJBElrjov78eDZJ/BLiifJ2OOCQWNUOVu5KBBhbPPWyIOyQzC5r/ass4IHE6MdQkyeTPJYA7YHpglDvWRiLkmaYLPTgmPkmel++7eCSBbbIC4MBI4Z7WAQAHUJKgGm2bdEFqxKEyUe4FSNbG377d35q26etIqHnLruEfKoKBmCaMjz8Sm/Csv0Z8GWhL+1UP7Pil20BACKFq7KmR+nsGEBtGMitWkrHwgNSjjJDj1mhLhpAXTRJ8Da5VNccLc1xsaKaQsl5OMmFvx9dNSmC2nV+7YeFE8IlhwdKtnF1FAyY6iEQjEClW0lg1gAEJjWodHkB6mt3NXg3do84Zv5NiyoXtFBUh3y7bv3o7MJEVV7ThoaWga0uvwyKvNhIyxkUg16J2xzMX1AbMqw+CysXItGRf0Vf0V8S4bXmZEJ9/EtX5HzrIYt+B4EqTysAYVPUSVwaYWlxfTzAXXyXqaArxFe+Ca8BctHjLS44VlswOryBO5csw4R4BQ4Y3KlQK2iuBxxvu+FfTV9f2lAUp4fl4gWr6TnGWjebAbaMYHVBe9Tj0RPNV35SLZpkHBW2t713Xi1ZLhFxFRrlXJo3nIsjxaE1PehSK1Uxxf7ueiJZs4lYg2n601nJtMOydPIS1YUNr0odQEO4uVb3YjtK13kACCnVle7k4Xhl4TnglJBLHZdDQGiot6W/6AcjRyDSenYUPx72axWrBwOC32MTjgbwAiEBP6BtbMjuEM8BP72av6VYRQikTe/ex6bnWVfT7K06UD0aJxWfqSfnO53YW7vbf3ogL9VRF6tmRJjbVrdH88tz6R4/OZouzjZGs5Pzkx1st7NiZ5usmexbEqCk2Vmkum1eiAxqF5Zxtb/FyBJQWjdGWAWsKaElK5Srnb1DXVIF5wGs+DzdfPDF62RnV6ajU9gzcYVCYFHEd1nP6CSS82BI80TxLeVK+zC8AWBgkD3VKSQKbq0dPHPlSY6EiwUsLScw9BQlkbra7k+lWEHrcJDtwPA0WhjkDiI4a5mDh4hKUi71Sw8DiwVS5NKCjpzLAlWQmErrsjRamGFArVlyz5zqi5DY/B0kEZr++E+N/wSiXKWAEa6f1irDKycqOs7CGOMhcVqrXXk5EtcAGIkMYClCFYogi+InQn3cSlP6F//iX/w3/81/+9Of/jQcu7lxE6DRmzGDRkzVAeZQIqEqA8+C5PxNfaUPRTUrOSJtMupSYEJ6Osk0tNFvEvqifSEkY6EO7emTj3IgB8Epgo4V9Zetj94ITJXX/cw16+OZ8rqI3SLZIuJdBlgfOnpfXpKj8725QspDB2Vcdb1lL4q/PMuyhaiV6wKD4RE2PMl/zD3rFDuSLUY+NxVv1EQuIDBgB1yzO75oF/tsQCKNsFAflzDwWOxFIEe65QQIUUZOeSmOA02HIX0r+3xy/iM7unXNjKxiD1MnrKIJWrWvOcRakpbKfjmeSh7JtdthfP8Zp3Uk13JA/HqizcA2FHYLTHNOsFgyKUsaVGV5BcCfVIWmwFJUTiCnyB3Yrx0uREI86QWjrBshQ0nsYqAdYvSjZ1W2HTUm96mhs/Nzy572/GxWt9RyNFrUPUF3lwEtRGjtLoJWKpRbIDk8PMhMgru/oijSJhEDbUpSyr1pa0IHwgDwp4xlngEDk1wgTzhTLltUyq4IaRixQtK2y5FvMxhWtjvrMKpcMBck4HbNmQ4c/A3cz+ZtUy6vhlmmLaoUrfiZKOEDgLwQ2+VFp9eO6ucQ3qk6YXNGFAeZ5GK7jBVS+Fd092/HNntdq4ULiLkfZXVaEmbMzk14WG6voTP9rvXaDpI7NWRi6YNtMq234x6H2ZVu3syXnmyy2M5A5y6r+wTS1Iv4tasbsw41SMqireagLWSl48qAev0q7aAcptlSxMDIAp0g0cPfLG1Pl05Iq+/mgygiZAeEm+36bJAePTIs4HOqHwDXwElbrgObRZ7licIT2ZAtAF4xyjPMyeVh9KiYHrwWaRaha2QjLxogWzxGPoly66PqwkEQR8llV407GyiMa328Q0l1pa0Bb+ykypLvKuvSMQlZYiiRboKl4vCh2KMRLQ1Gx3oyMF1G/tRdpTUsCc0oXXZxTL/v2F6haFjHVDBXVfbaDnhDDIzMsn8nCUorAjNdDOd4mvNPMRXW6bqjHI2hSY+1IPskaQCDZMX0SWUNyrdIjLRsrDQUi7mqyqUka4OIMiZf/YPcHGL2qnaXIBVm4WSDH3OQQUmjh18IJPwm53lAetLuoniCDTOLnyBBeHLA8E0U1yNCoo29Xql1OzsUFMO1fYG0kCQ8ngLhjPg+dLLnRLRHFEReeTokGwWKlOHZMGIDWcAN75Vr5O0XnsFLflLCVuaJqte0cjQpamUa059SV5sJJzuVJ/ukmWSIJoklnOzFzAJpEIfx2BdG1UQAI8sfEaw+pWDQy95TkVuUBXWTtfL1G/AEfM91XoIr9bfKiLOKpn4gxCnF7a0JwnWKGEsVJlXMaLX1zqEreEDIAz5gJVWdXefF7oaFWn3YhOdqESNdTXaVLWuCzdxvJy2Hn/sHu7d3492bO9tR45Im0+CialukO/mxOdJm4UqD2T3cff7s2XFWwuL0omRAvZFSf0lVtRJSq5oSg+dGd5VdJYoJFUbazHGlLPmYwEr0u1JLtUFVNMUiamPwSC6EGiFOrcd7Jys/PASXa3MIUki5eJoqGL7lqvFEdlcO2shHzRbDKa+UcVWilnCwEDb+Icpr4xjy5eEEtsezqfEknhJ2+CqwFWvjyBy4gkRUor8yn+NWbwpOkqbKzrLxONc4cQgUfjN/Z88wSPtkeKBFrRZ9uL23dbd+eTK3LX37bnZkJ2l9DOB+e3N0tb5xca3fu3O9tem7uvrM2RVLYiI0sJLRtgA3a+n/Zh6p5smNhpgZIpGBRjnFadLb00UTw3xWSTOKMpq3Nffjn/wg+xqq06bD5BQ802XjcvNBwuBZ2SreRtVPr8DaDy3V3GLTPLlliAEgMp/MXSYkaanSqlH0sPGEx9fi9FPZEJUwnWRJcpmvZHHLuqTKSV1EK33JwKQw0tSieBGcUkdlVBcQMfifWrPro479YpF6a4KLT6l3CYU71IZ+kPyApSqE7zUG+KUKL13snC8eZk3IDuQ6CSOh4q6owrcMUm2Otz8uUdmnd6vJWxCyZU59RYp6KOCewN0JbAJNA/75f/y52ebp7n6+q3IT3Y7IsCTHQMfXuTBEIw15hrJdUk+zQMDUAA5E56QD7S8AYaHA0lE8aqBThc/d4qoSvaobpGZRuE7ih3XVLkRZq0Nhs4uOhq00tCmgu/PL81evX9UJ4lxArJokNFgEU4MbuZUrMt4/RMd4rFQnjzjvYBO1EqxOoNBCOnbAxmygrEqrIqmttay41PCWhqNlkVvqIw3ImKdQtRmK6KR41WDqw1g29mEVZQ2gmhwe1Kdr0jp6TNRUZfeCTbdVIzn1heC07LK3IMxHFVx+UhLKmhsYLVB0xaUcDfrwuQpcxuannJKGP3VVIAITVsn8ClcWT4LoJjPVWznme5W6gfzfxp83qULWylx1TXtVx2Kz3aDseQwz/q67MSgbAbtPYTuQvCAgvpl+6x7GffaS2bCjGjwNX9Z0t02XmCIoCaTXJNzZebp7sG8dBUOM10k8J/fYiXA0oEtqvaxkN7VcNFdUyo0XsVY1k75Tl+chvsF4CDHTCC1IKkM4B1slT7Nsp8FraQIlaSdJu4b0REIDPAhZEobWUFi0IZtrgpNXdZkVSqCEcHZUh8jL63cQCnnoxMI9hBT65WtnNJRogOFJVOo25opfRrLG4bSrmu5wu6ld/o6Gt46mf21ZBnywdzge20eeunAmJuoym+22d0eXLrU9+/p08+J8b+Nm78XRfLE1u3Wgcu9+Npod3xlVkYPRxfqd2Rr7KEgJ9ZyJurqfHgGLuYkIMzX212QhXLlXagUNXa4q7LLqu3TNHEyK6hxl3ZEzkei2gv3DPYaKPiJjYp27UMXb9WWp5gDONNpGtWRLuBLXmHFG2g6RnBG6vGJTHfnd6YnhSKvtRCiuFD3XXTXLdppIzHJAj+hwLBWaRaYW3WAV2BnFg/tVkA5sCkLbe5GuOmtqVhSqFBJe46EEgUcSkK53xKcINVFG1Emy7ELGMjlmhk7luleyGvRI6BA/tPqT23ZQRGMkSx4qw4yapFD5UFdCQqXDXOsuZWvkJVGOCiRCRiTkzedfsQE6fC5A+tHBEbAkdEuvSc1qbgYBAnE1vVI6K+f5sskeBhuGPXGu6InZ5qEujICQ5LVz4dGJhU2OQnrhJp70SfQ4F4Z0FzOn4HxBZnJcp7YN7yxc0WNM6bPHT5CEXPDwX7t4aWtTdSOYfZKhKXFyFRmrxpKfsKSYQkdILKQIrZ02RZkEAJrXHevZrsOb1hRg2elbagHvyFjC6F/HYtkQkrrPad1o9nQSU3XRZQg27bCcd67RplFEFDIkjEqtLctE1zRjpq4YS8JhHk1d/I72xmT/t93Ol8+rJsRgNr3/7BaKi3kLmv7vR1iIYtlW4YLQFyUSxdvhyQKXWyhFYOvLZ8+F6CA3T5UrwGWGcZIwCclYrqwppqOV2cz6QZXWU4xw2AASHcnVsRB13Zapc/cEgD+eBSxAwQQSscwKu/VLQHjCepdhgEd7Hl3fZ4KyemqSWzqx2reRDwq+PL28Ygzcm2LbsigfBHX/sYu8CDo5xnP0zC6vZNQIlUjuXXwhYU1m/P1SAzl4J9D+VB+Lo6dE5eoxH1k3rzW78NR+VYtywgMSvNYuX5A65ijEQ+GkmbKrViQmbYafygMpFjHY4tmvQsw4th+YV8+W4ZAtMVdDTag6uXBh9g3TEfzN9jbJCOhYkHBqDlW5oZanOW/SFarOQmUPkBJy2KpQPIDhhMTkhwx5hNQePF2KEM/wiHp3/BrBmarNZcQMVjab7O0emBosgjfrYzKZu3MmEIu0Xk6/DvHIO9we729tPH3yyFWmG9cXB65EeZ35IKdk1xY7G7O1i7cXF99c3G5c7G9M3dfuhoetnZEb162rGOgTF7clEiEtj5Tafod0Jd1ay+KZLGTrFUmy1tv1VF6tSVlEeSqpeiTDGKJ5muOgaEwx7rui7uDAZkQ7ZfR51Cm2YI4xAI+GhDnv3r6GLenKycUvnJgjU5CectTKsEhGdJxqP3C618W9R0fyRQMAU93SuqxFCLT8iD/32ZQou32yhGOSp32nS8CiULlbRFTWknvmQGFdlgESDabYu2jUCgBXQqLf6Ic/u/Zo85wSyUgLQu1Y69GxE+7bqS6e0IJccHdRc6B654EfRVmnDk0+9zxQwkfzfMlpZmqD0vNnKVITAeaQk1JHW+qClmZDFelmss0EUv7ynU5MGt/4TKjxlVI3izQmw3V0QoJdGvLJ8Rk6P/3VZ5/8yHVIv/tnf/pvsCFTylYad/cdLHGNk8F6vl23TqFlHCOtM0DNNHwY1Z0Nihw1VseZA8Na1tS0RUUKAAZFIxpb42StHdlAo9JuznNj4et3x5obhLgEjIWGtesCJI+P4EhFnTF8VKHColnFESHCwCmgAb9U7ycDhUqTZOVgCa0r55VQepNf/A9igUuFR2I7eQPUM3fRZtKdiTDLTpd6r8GjQioxnBl28UlqhGPnCvOUA1KRmEwXpgsY1gjRjcokG9Ot3ZcVRFNaTFx+JVkSlikfY9hg0BClwupSLQYifCENsCRdyErbXsFBAldgHhQzEb/JSVvJl3ED5gQGwZJvjUpNhJjay+/pn65nb2QgBI1iqAKv4BvhgFZIg1W2KbKENHpVG0GLEul1uOpLZhhW+toosyaVHPywmOk4p053Tf1Y0N++z/mqnJL3ednJNnrkYvYofOKtDqRcErgSj9CwoiT+cgOR3hhCht0XaiXkyB8TSUgYYQorOrHsimZMjl3xojM+IJERNxSwPbJuh6lktYGHJA9f+VEyuAEGL6Gioxu/J8LS71kxuTPqZ8M0EiEDNp7G32gbeAgRKyHWVKFToQ8TDuIAJktVK4kNzsoCryURi1Fi/VZJwwr6K6nqgm1LSwAoI4vSZ6N7I6jJaN2ZoZ3b8ehs69qIeWYHwN4tc3y2WJzdLGz+m+qJq9uRbi2dYx5KjzJZkcEyP7E2OZaWPgHkHA83FLOZH5pXDaXoX700XJWXDqIlqBgqNj2A0v7R2tXplkqaFLka4ID/O6+yC2Q5ZOAnrzDSwnjQ2uauheAPMLHg2VfavzhWtqTagrUfsSG1uA1V5Z+vqrJ5k+3YJ+bKVA/9BDkyhMAsCVnhsALx1n4Snl3J9pKEfqIrBLNLJy35IC/1ItbJcf7cTpNbM5bfdQyCtMI0Uk4GyBbb2XVgPUOAOUcqwYU4/EyaSxrUPsZiHpKwlya25SPXUpXqblJLlEoTRmfGoncxNDqYpfJUnPoCXyoXZ9PGa5oHdic5s55fWsWTq25JjSQUO2vmUZsdxRPaqirxU6BzVF0jKBQrIyw9MDFqQYItzvYKq6o6Q/TPvHulUjVC7MrEW30CUBVLC0CROX5dC5DL4Xa4VnVfxZM8dDSWfgLtxgZA2ULjA4CGT9rCI+NlrFFPvgWY2wKNjlhOH0VMdRWS0hulL5Rfx8fGGUCRLbPJAhiqGKY0DxlEz2Sqoqo8VRySMs+Idxo2agVwUsZXw1Jiod+fN6oZaLo2QCttYEUEccEnfTyK6Zkypi0rR5AE9IGTqPRSqlkwoPhWGtYromNrtQEAwRcHG4xxhdAz03crV80s9JDIriT+gi7ZXVkLe4+FmxsI3RF7uSV3nKkuckjtVPmujSvUri7BJEmN2cPUmOs0V8rOdnjLTNXL3GSt/BEUIkmudDKXmCtrOL2mFNU7ib847lVgjGKxPf5Mvw1dnzQl/7mcglxbe2QFeKV9lFRXS1TP+EVeKxc4O+tWmkN4l6tkQ/ySmGZvv1buxZHELx36ICwXT3Os48Avca6wDfLfWQMDMzwfpuLHiSXiYkLHFsIoOBg6rfrxx1+5+2XGKM2eZ4M/jPXj0Wl19w28UKLg8JAmjLKJxtjC9KpFSipU+NXs8ppYr413TmaT8c7Rzt7G5q7Zu8zp3U7OVN/t+v3ldHt9d+qKg5GbPu590GkjGwcpqGpB+F0NLFd6dLvRz1tJHUOOhqH4/FyKkIJXpYtbOcR3kCKwrE4b01N0qiTW4cTqHosqHHXhdTUcrxA0Ns/2eB8CG15C4soMGJzwwxYdW0bIiIVSZxKYf8DA6Djg8NpapQaEqIiQV+XikSdIPXfDoB7F4og7VDSNo6M9WcuCS9YRw2QECYPIow0DyIJEDfqFMGAIAd/E81j169rnNwbitwMKDUm+MlSQBI92Yg0lU0ub2p1cKAvdOQnFhh2lgJoGmQKOucqdKmGm8IJZPryqzl5SgdlrShBmZrhp2IcSp3PpFmDogYpYda+kiREVq1bdFQaSTKIcnuhdJJWOhTAhq3YRMlYNpJE8JIn/ydPHuwd76VNkH5hPk2/uWUWbbp+enJl8gTorZ0Wn4Qr2+iZF7lLB79wQt2P/pYnm8LlyXJqrFXdCCj/Xnii5cvXqsXSo5DrqPXC992vHMipR3ObiMrW2bKbmw7DBKmRGAaBrFEj5GVehWP2zh81umVU2uZtI7fEnpBLxZeAU1xo4FdyuRxE5RlGlUCAC0fVOMFKN5ZbQ3/4Rs0oVIFzo129D5Q0xmNgk9Ss/BpQ0sEuRcr2FRigcDIqjFKpQBG0Q+pUoR3y5FsqIUjVmCWFqDJlMrc/9pdAuNsW66uwYTOMmlhCqmMTaRF5Zs9PJT/J8/yuEokSd8oefwSysTm9QB5q9p4+QJG0GwmleOnn6BDIj2SnFyklYeutb4gtAXhwo2MzFyEVRsCUz9FZiai1K71hGgLthd69WeaUq+Mwrcl6hepgpfztRK+97kr4TMrzy4CqiElLzLWF0OfM6nZeYVVhkHv7Ogl94k5HkEBRhYpH2MJyfq3RhbHhbyqJTQUIAPNu+CqzYpTwktsoOectDcJXM60wIvM8R5FASBVeN3PiYtt10gcb69tH0fnY7mdnIk7n07fV7M5Z2iprByaaJ6eTA4ubCLf4kUHmznLlm1T15hymsbhZdSjDCbQRwYshVhVecvFcC6R0xw3OAgU+Fzm/y5UPjKtOdxdtIGjLEGotIqI4r5xRH2vYLT9SqWhGAgZ0FD+tifwO5JTaxEctUEenKYj1XS6+vA9uemPqrPmZ6CdmiKbko/NUswWOhxkWDm9/TnSaZ2s22vnSmyGLYAHfWLp8YKFQcSSCqoMCgVl3ALqzQLrtlaRf1bXhPeOC3KIGMRlVDlwBof0JQApfIKldfZC4GjuAH0MQwL2iRHTJysUdxxisAYGAg5JECxzuwQzxN/XPmBs1hMIqmMcBr8ab8kF2pzDkhuntR90qUymL5xEbScj2p0ZgiaEM4Dicn1jPk1esy03Sal11VIUoHzDW1xlVGbtYdUne+j6HfkevWgCxrUBddIHFzjQYMjbxpk0U7gcvq8V6ZJvt2XkGD6DTlb5BvPRsG2HdcJ0+Pi+ykP6l82X3CE/Pk84xhh0nL0EyEWhOqiGKGQVUSaFb+8EQuJaIyoXZLxOPli2SGzAeCvlQHcsGQWpEkp2mUmZZ01DD0N7UStm8ZtKqDBsjTX3gQojrJ8MRpfoRhrmI1HwQiR38D/Hs2trJ7gFx848EHQsC1/DXCIaHX1GdVv7qMJ70UaTMw89T8g6gwp7Lt+AtLcFPd2WIT3upcpi/N9SinCPPmGhcBpMduV/0YztqV44bUm0+m46lWKLPkV9204EflKnkQLtVbMWgpxPxLreqoDEFmsTRyafW4aTFracfHViCW3+RWUoZKdxiM0tF0hTWnNb1ii9cq1/sGKVxWMDQDi7x4O2FT65WH67pryH4Ck7KBGyyarITfK25zEgIQ2Ek6sJ/BWQ4AN+DnB+DZAIUyPPeK4A4seI+45FinoEQNuZMiKEvFZXQlHYrk1miUSawKaOslHGe0bks0N5s2wrgR8e7q9JrSzZ6/0YYLQrP6eXG7vTFfHLrEb3zFVGxs+iQaC0d4bP1yd+PaeH3mEMFirjajd+pjOrRV1wVtrlxd5KEUA2c6fHhKzd9ll0o/3ahEJbZe5hFIk4EBCZtXrrF12gFV4ylxC6/QY+Lu4BCBLlhCUgYrOSdvLrdaB5NQ13/cgaQZddCVLttSaq0D8uQSxZp2mvEeLli5TP2JzGoil+a0nDqKAKBBIPz4DD+GZLxYW8OpXZAdxQTmqiI3OJUTSO+CR6BMNS9+DnwDRBem/WpcYLNKl4mR6k7JyMkED32LkLXkUin09CpjCRJr0jYflMralUCugYskXwDIwEug7CD3FKt9aYD6KTby3C1OXDeeVlkT9T6ZBS25AwiYXzIXKs7nZ00AJNbSdkrWAaRQ6T+pC7kAUZbIpp40fgoX6A+F6EWGARu2qwC6WIFK1ckoRfdkDUC6WQWwLoZVXYQ1/SBMhCpUFVDOYGoysEubnFeuCRXN8XsC72doK1EbAjt5Awx+mSVtTcuWrdKKqv+YrlW2OcduCUn/NEo2I2L2pWxRI2la4ocoPb5MT7dGyQCrgkUmIz81amlYswLJGo+CMPNtXqIfsqC1VDFNbSFedZYrDQyNpJ8dpsQN2U9puRJXmUeA1LQoVHltagf4FXA2rXYgzIYt7ExyWhZu6fdaVRX6tUn+BoCkM9LdkyLJ0teKlOR/UqluUbExsUDedWRj3ZSZ8UrWJfxR4dlPtdC9skeIYdDHNt7P0rcRj3vGBhXAhBoFF/L01xAALUYIKWwRbi4crfJ3uCiv4OHhBPJzAS0nI6+Esj2UWt/W3CGeknDSAmt/VOdOCWtNr8miMfNwsDaYp9f2C0zyHsCW6IYnZbZrYsNbmvSQkKfJk+pheAf2UzjH79l5VUD84UyFN6SAxgyAeMC5zK4ytQGHLnOWtvEMkNI2Hs8AxM55xNp56sn1dELYWhth0u2zwjgxb7KZ/sZ4OrqxSZBMpL4uZxe0h1Y22d+zu+l67fby3g5MO71caUsqsJfIutEL+tQOTemUHpYh3oaC2iGSfKESO5Q0eVfhhFT4e2FoGIFF4bIDp+5InP6HYoriBrB+be55drhnM6QLzt81Eu2/4aKQ0fXcBo65o+6SN2Sm2DtTaw72BZD9uDwpDQ10wNk5esIJiWWJ3nCPKNkZwaA8KatowNpDX2dMU2NcxQHZMKqJJ9goHE26xKBqMOZKNaBZXQsfooa0iIPcq/GxcS4AFSgXF9M0TEsCw+eYc7tCk1QtHnA3hu7D8lc2Jfb4UciNqHwNwm0gyehubf4syG1rgkULy8FeI0rHnkybGnH6CvDV5Zt3JwRjc+tY0vC8JNZuTJrB/pjwJGY9rtlYIdHKSyLrRyBH8vEhu5EpYd8GzZ2I5iGV+r2VbYZTIckLVU4bVQ81rKg+K8wlcqx+DMpyiNoUDE8RTUGTtiSlJM38Y1PznsRifb/CMKTlR0HqP57VnzpeyUTFAOjZz/QJUaRkmR5ccT8jpGSowW/hUDbtpFXjQP5hkupORUVGk8h/QigBFQJVJv8Ym2AJBUqFIrHA6lF13HJWEE2SZ2D8T2BgwLfrtO3v8ECtWo7wrgAhEbsYyqhzz3aZF13aregmgUu8D346sMEGbC06Mb0o98PIGGiz9MiLiN5RWsqhjOlDxlJjhHzJIfZlw5uTg9Gc8kRA9pVOb2e5aQl5GqFdSdF41ktr6yr4llQA7RmoFcWFjHZ80XHLdZqEpzeSXhK0UqENqbjR4Dq2/EZdPR8oVj/XxLodRAI5JZVQch7YPOPPZHDYKG3yK0smtl1zbPAnoxJg8hHiV/zvyvYE2cTAwz8k78AOwfkucsd6tpMkOB+4VcwyqF8fwghpVHqTkrdgdUjnZdSEY50eDQM80oCpTRmarCo9SQWrQrWvA5EvA6yz7zqzW86NTiauC/T1apM39xsMDja6bufp8yf7jw9OZmeXJzTbrd3toTBFSG8A/ogJnWltzHxjGkp4rvgowe1ieHOu04VwMGKb4IdPEAP9HV70pxYUnBMIxnN4Dbrf5Do5MGrLyMCEWk2C1aeE51fMlaimQWrU5sh/dQ7wjxS5NdHEJ0k3EdeoUpASm07lCQGuEnu8d2cgSiL/VbSHpIKkZ32FDmQuvlv1P8BzSpzGVkUY0sprspvPalBBUMV6rRoUGLDNO1GweUG/LoLtr1zadakRDZh/mgto4hoPK+Kgl3Heybm7u0zsneROyJKMNBy8vcksBYujneGbVeHrm1OUjCe7Ghr8MNigiXK1QS9md8OKkzysuE0QyCMa0GgEqG0ZqMIq0LLeO7AIKwVUSLT5JhWw3HtlGiRp9Y1GF9WzW/5wwziVDJa8aBHmeLK/gfbyNQGlHpAXXyNUKIc55irsWzVpfqFeOR7i3AniLzpRFX57F5L/dGSkXutZlgfGkkuv1dzEx2Z5oXMy8C37TKnZhJEhifdgxJTc12KIosmkBUqc4oBP1lCkGssRzOSlJWcI2vN9wSAj8YqCp0oVkvPT6Cm5ygb9IurZ2DpldG4KxBRUS47020ZK5ls3iWqPRDzJH4taqXnh+MPMdH3DwHA8i25lr4uN+nLpzyEJF0p8pSLtSwKK7TBIyBULZUMIkx15sx8s9mmUjdTOlGYjMu0jvcxM62UYnmXb4OdK75QnlIMIRWF9uguQusFaSbQSEmbGf9+eQMcMq90tq77QpH6LA6Gjyix3rgNhMPlYi5LNS+xL2b0Y2HHKlArIZn27BqJAXQntWlE6iFBCIlNgkBNuCQXimECqQaAQe7d4klE4U6mKvcv8SknxIzYrgy20AFBBUnt1hjUo3iYMQOQi405MdhP5UhkUQCdvbGhrt8qohKfU7hCSolfWIENApA32gmzuxZ/XTtIFxHcbgakn3G7gjk0vbSliyER+KghmrAOo+PCYG3d7qcAs1VRRhLvleDHNiVHhqZBssCrshCuqLIMbasjnPzBEPVi9KlZkK26Wp3LZd0YD2pxWaDIt35WIUZSBSa4QE0oKfw3dS12YiFzSnR/JAcl+WVR0sKXlxKpTPSV4usjV0uxAkyKFklM8NdsDOLEZGMXFKDveZPbO1rKcae4WSZMSpDp1lCaQeldGN6y7Xl2Mj3GYAafg+vYXOBUFLXiankG1EEmI58I8lB3SNwv3DGK4aE5Ufor5nl4xKcpGW45GRV1cMOSiKByPLlAeOc59xd2nEu7uHj97qtTX1oFn+cKhERpULlnneOpcjaImV4rNpTTHJ2+ZlrOTU4gP9qdqUhVsZi0yWkVnD9qz88u3xyc+suHOx7biloJ38+URJ3SyK0fTuV2f63hilHGbqtXO8IRRevrE9hNKJ3UK89RHdlCTQqbeIjFrme3cm2ZvpH6+VS785zcZYyIE7iqzOotaQxLXjFIlqaT0I3Ej3OkobRlDbOhXIvvgM17PyinBsie+aKl+hvNx6pvool/PyU36+DYZT1WTS9s9nTrA/3FJdKQX3jC8FA0KdGTcKicNFBwiWu5o0AhwpJA3m960nFSeeq7GoxCKDgMuSKh8cMCm7+cjgSN9/NuZubPSljIFvGDZ06YqBwlLrLXk5KvY2gbWoCCvacvmPpeTABQRBNm4IgqEYiGr9AW7rVBO40AbWtBcINGcsmJC0qcQBa+GFCOF19VLlUHKuyxC6ic6KAmhAK225WLz1W0mYZWlDiwhW6KkCg21BtM1nVqolXxR6ekVDD+YKPKyWGk7lGsC0tSjFCLM0SROg2pd1w7lMFS2WI6cJctXkcDpFRIh8q82MqFwvXADN0tfpUuhANBfMG9vmq1WS6TB5w3qw4GRzU3takZdr69NdiZbO6lw3Rs0YLUnCpGn2HAolIoleQqlTrtqPFEcABx1M1jdj2kpWpOn9R49eqIZGD9ZqY3WgIYkOlFQH22TwsVl9gXVRiQ9vuhTJlM2rmjVRvZ23UZjKRhr1l99+Uq4uQhLXFbXsuSAb3aa5W6HI13F6qHemseI3K6Zq7kn68CUx6gMZmRaOsjkZ3pUdiLodUeiteTlXFDaZAxwBKr+QCZElZXIMLOaGz87ilr333hiD81IiZBT2FCFP5BoTfyydrusroAQGk4IGL8wYBom6kFinfBu1XaTWTZUierOSDf0kwItzlemHEe7H/nkgmkcF/aYmIn6m7vObG2yMZ5uTnc3ttUkPOy+j1T4nsYGwalujA8tuhLJGvvkYG930xHUfDXnfn7jsMLY5sN7fFOA67WJ5RIS4yPuI8Co8s1OX33EJIKEh0jO7BDJQXtsoKrMAIYsah6Rej1RbRMDSIRDpovbo+rCuwPs4OBIZwjxOODgUjqY2s/9vY8Aksuo+9ubGopnuQ6f8JpuUcfYZeXTJxZPTo4n0z11op+TTZE4sxj5hKEPobn8TgumNzx2dg9ev/M5wHOfvDKsZABc+VwngfKJ4VR6WtzddMvq7LEjFnr7jya7qoUtydGK+ezwaFelaAyMNCLZAM3NQhhRp+IMmDQ91Wm8B+wHH32oNikrNONP2WMfKZ4Z8bjMhXxDObu6ePXqa5L//NmRT7emQ1KTIcpPKvQiXn3zFXYxE1999QUKCItdc1fzi5vF3D6Zze10LiMwKiYd4q1pEYxcoz2KbffAqTK82S12pS60PmLpcilqlrp//FgzuFTttT87xm9rMn7y9Ojq/ORuduHKmzMb5Y1Bs1KiddxNpjqyxjAq0S4+VXXHwOi+OKtpj7G6p6B8r4Qq9NUxbFdhxoNRArHodILf6AoUW9LzVPtph5s+c+WTWxduzsE04r23s+dDVjKi5QiG/OkQGNJ7ul7sTnclx6JNd0yxYT6cNsu4M1PknFwDWhoqzCklFSJCOCUel1Dcy+aQqPBY5RQqUVk4aZ2dsKXiBq5FIiTKmSmKgaOO1U5UHlmPiYxMJn1hL+1YGjDGCVhhi40pSpJT2JoetdhYovSi/ZdleYrS3KSQZYuANwBygwEjc7Wiq2WYUiRUpzvDDQqnAPQOgmvplBqt9YIQUICaohWAhCu3SoS2MIcTk5+Vw0khWBfdzeEDdjhnFt1b1AwGrF4DU2R5tr9QxpxA6ZmD07HEZGTd2Ko6p/om0cVKFzVbVeO0Ini5ZYVQfTrKJ3MLIet3jDocpMcIK37SV9pVdqEpffn1nmbmh6SL0CKRYlWlWIQKCXGxirAwPNozhDFX2dPhxKbPAcauaJAUG7HjSJ3+FGcQRZs4tomH4IUYWnEAlN1SBUE3VQjg8Gif3ItCaVvrCMSdM7LOEqXXhYi9SXUPq98gPTKVMewqSU6rLtluoZedUsPJDTUoMOqvXAemsEPxWyIG6JbfCEYaUTlSX/LE0KMvl/QkjajGKUf0IM2rG95kzdP4Qi9C41KWFuE0May+rZNzSVjQpKnGtSz0uqvj1sySXRzGGudQlldTv5IbNrFk+vyu1ncppw/sumDQplzXGtibwVZSD0xD8rPELkE+T6P7pefS/byMWnADAFzNFv0jgE2wYi99uEqshIY+tFWRq9RRF9UjpAnos7SiuAiqZ4Mvn0nVotetW8J0jZt7OKKiJxsTnbvkThuutjVJZtx9SkkrqS+NWB91Peks33WcTA/JJPxKzKZRAdXLzN4H+sjWA9DVwQ+7NZBWedEpxWZywqDTs4jwiUi1iSGXZ5dYEfudQWh169N7jW5CofEEef75z3+u0mzf9zQ5qZVVeV2dFBnUFQLMuEtn5tsWJwmj1fMRn8yTu+mY3KqWFLQE2PKkD0mqQbP6Er15845sESpKILZd/WRwiPDcbzRx0+D94ujg4Ne//tztybAcrD9mes81p5sZshkaV0We2ZuzM5be8ExKbMSn1I2uUJoOPkeivYbhdKpN9BlkpsjCu9ZaKrS+wFT9ixXFX90P1KegWlVJtFKzmGqarq31GlomOdLdUZ6+Csio1mvUEDGJ3s6XgbGsdkUnY7VTU6ipgJjx5cy1ZBUbyposlAjhllFVLP7BDbEEokhO+5MGBrnr92f8UKVqoS7JjjeupHxAxVOjjQSoj7SZzrh4kcDKPWHVaHg6ZAlZ0Hko8PLH9Bdb1voimSXTcsmj3PdfBQtcRn/bP1TM+7TvUa4KVWmR1LUy4Gm0Att5bSJXAcsqb3qaAADqIaLSQDFXBtpWTTPaJlX1EaPYwUJltBmHPUgIh8J5iiCDBggYBhM/DjdotD0kFdIZeQIYsuZr+iO5pT4gI7zN1IZFWsE46eKS3EOK2OfFycz19R5zZZqD6pTKlUJSlRQBz9objcC8qUmxmrQdX04U+iP/UVdV6WYkskPkfg9CmwLcxcGDWu2ZR0JuoLw9cum0qlkI7J4KlZ+qEc9qtxDEtQX1lFCUkOaAV8ih4oTgnT8hHZ6My3lttwpY1qZA2IbIzhoMVBwChGiOMjBWFg6y8/JsFJ7Cy3gvqfpWRsbtmWp1+dvd7dadD/6pVIogNzX4AHwuBWWnouGlshnMFaYypRHcxkAm8DBzaveus8igX1Y4UFRl4zzd5dYD/Q/aVixgUWoN5UNBmubmqkBRxZ4ANJ2KhxJgVa7W7gWlFjIdMySNfihuSRo8nFpotieoFuGRl+m3VW2S66bc+Pvd2TkY6p7TMRIOQ1crzAjy2rxVFpbswr7q9W/enWzMzJddnhquSRK2q4VVcwfJPjE/voslylYISPCzssgYQmDUizWj2pHhFa84VgRHHWO0CR/XsK7Yi6VsJ4NFaJORAkJlKGb5lj9VU/eTeRZzzIekJ0HotF0tyzzVYmaArKayFJd+PjPM8pnmNa9RkzCKPN6ObWFLzUba4mB97PLqHFWZ1ptsb/hMvDgTP3UlYLEwhrzKshR+1CqR0HI5XKywTTAOdMG9cvxDCAwd6NkYqg5ZR9op8iAc8NC4SptFcSVVShUa0I/ngM0qadykEip9UVMaWVMFMdgqbO3sk/7brgmX67eDl9ImtsszPHlKIJMOR+pNQLo5+jAqjVSk5ceT8CVA/8ZQxYKq2YpOpoAVK4FJkBhSEpMcRoQogZ6yK67FLyTZr5wAUw1GVw3ZwEUC4PctZ0DF8z/jQkO5ARtgfk4wfxpJOfnjeKNqAFR6Fc6k01hDlBAAXpdg5WkkQqpc+iQkU/LOAhMkoVvTdxTcyDyVEp+pwM7FT4RCSykHm5tXNBWDlbSuEsHqBy2ZM2QKUkEkgmeJvVHUk2ypFiSlQ5FiltbLukZy0+pMKUwyqRO9LDuzJdautE/GDE8MyWgDG5hYhzJMrEXStlmJBbzPWeb1jdxNQCXpp9IddI3JJdPrMbj5eEEOM2KO1tikeeUUoTi2JDf0P3ANIIAnLKrOuyaKKmQPLaqjxPJwsA44OuQ7rwI7JLGZhHSsO5oa2goIIoR19Qnnmn56LC0jMv4thzzvkvMgTNpgrlxoPc2YETMxOt2amD7Rrq1SmUFJQ8b8davuroizYpNTI8ppiEvt4TB1pDRZkVG9hMUANLy/n19dWydAVegVcrf2/Plzvf0QmfmA8Ets7HYmfCIWrRIy1o+oRBwJTJONTsCVSERkJD1QJYqqXfKkyxLMKydEdvaRGTvweOWk8qTWJz54vZ8xdAXmKY+zyzPjbzcWbp4cX5sZvpmfvTtWng8+fAmD4QiKNJIY5FH2FhkbvTs9A6jf7zp2WwHQT7RWJOQX5RxJ0EaYlIjEKFszzBZyPMZAbinTdJQQFdA6y/Xo6RNRsKHB59/FGMeQ/9gHvE6fp6pi1f9WsyhsBV12KEXOcgPgWrgSqJFZrzJO1mnTXlS6GTkjRN0QU6NmRBXPCCNcH7nfdoep0R3xyVYXS/KxDzJVx5b3TM9eaUBMWIzf+Gp+iVTCZc4TTzSrK1smAfeWq+pnjA4yTUJSENZsb87wd6WkCsq1lPI298ArijblR5tVRnzzNBmoLUOiJRRwNZmkskHjEgD4Qg5fWk1j4zELqf0R1xK1cNLoCRMyaA+J1VTglQB0MqjZj0ZRGEHFwduvMPBwhSw/YiOi2kxhC56FSov+gjRtMUij4ZIKXGY5WqvmqUUlpOgisELSIowqTD6on9rpV3sMAAdeiw95ISqNUEjpab8r+7HSOEFWCAs+AO1C2AM3vAZjRQ3PKmMK2AyJZ6XXIFgO+goVSLHF5iXyrnIqhNCV+Qlc+8MUJauBrCdJ8VevS750VJUSqwyrU9TklzpSqnqLLoKi9Wz6c6ZiYC6bpPH06eBJbqnxQYHsKsqQujmGEsQ+9PdrirDiABrzoubSD8zEW3LLdG2W7m0JoRozAZOV6Mw+a2C+ImfgRW6ZK45cZinIjVC+e+Fu7KwRpAT9F2Ywt1vWzJlAVoTQW0TJkSB9RB/g9ST9EszmDorlu3wUyn2+oLPswXmN6Cp1Ycwzx1zSdPnbdb1I0q9dcMWKbqoqE/LQpciDeOhVRx7jsMEfJPGnq4AfeS0agls4w8Sjf8LfVjnNkc3ukTdOQVKuMomcJC8Wg4UwGVhOYLtEBU9OaNhHMdmbbsz01l3XdMkUsAyxWOnM4Bx1bA1Aw7hze1s0p7nTdGAtDoxv88VGc4a3V2axzL6eXWyiMHsFmaxc22M1qz69rpHFwMhStfnSROrngRvIU4JSnGnd+SsXDbByytuocCOtoBvssgo6UU5WqIHmW/Td4vL+ak6Z4idzC5MoxOAmMZcGGsIglXUjs2GRSawp11XZIcm6PiPpeky3Q0wn+5Od7RwRuJ1NtnLfOeDgbozqNwtLO+6Vf/z0KR3qI5lMUToBZcaYt4JPPSmlgqejo0W5ITD3BWc8GiGq7hcAjVB8iMe67DBIKmhNNnrCSYw9lMurNp9Wn7adhZO6GjOyAq3isn/al1Ki11oeXohwBiyz/q5btOJ9vZzSSJXVABxynDRLD1sMwv3d6eWloSKGIA1YRpz6kvN01ywthb1lrpQxbj2kIoZDNvY2hz1TtArk4Tq8AHOxqjGTEHWnGsGiIYtYk3SA8MKrWC4SUtsUzZsYcArBruoHZxVpczfHN7MzsICTJY9nh3RmTcRACowh59uuY4O9nMgOqWfUX792opilEoaMDWi57+FbApeQ8w8ubUAWRS1UUZI0buXVWXum76J2sac0t7SGychKVm2Pa4eKj2jAJi1COn+QJADDh+z4CkBqv3Gi2jM8hcDDVfKiuHrBalZNC5QpZoJvCh8iEcKF1SvN2Ug63LNTdZKISjnqQ0zlWOoxBGwa2kRDavOeFEpKpTxJqtwm4srX300W0ZjqlgHdK028lrllIQ4k17n3a9PDPzjpBeZVBrq/6dURochxpY6N4YG21A3/UrMoLBCVsT2xrJWTHGkPPnGyv6s23NxMHGme9EOzhCgyDbiUEv9y4cQr/Kgto5Ub2UStX+RG2jJ+N3U4JFSv6FmWyKvAonAZ4kdgF5yn/RpqENZ8xUOeNHCDNZJgi0J+j7PDwTSLecSWzcov9xBJh1QBQ6q8OMxaVs9KqEShMjyv/WwwdBIh/DBaYGQ8fHPhZueRVXZXsJqUurmd6SBkH4Cd7eonZzBzJNxI1+qOQ8F2FsIEd2ZZs4Zk2f/avrqL+43ZTdEfuaQxo6wB0S+oVKfqo/ZbpK6JN42CCR5pA0qRppZiVl83MF1qHg6AjISSlwyrayosxckc4Hs2Nmdioig393OsJqjVCwJ0d3YmudwPu+zAw94WdYbKUWIXTZ0Zqee4iKNMRmC5LYKj73xvUF6QoEMtM1f0gB0I8JgZ2HTu1n0YdcWtVGlmRTyayRi/KCQRTRkxV8FTXx/WA+OPeSknC4URJYv4U4+Z8eMUG5P1CwWyAorJIxwYs9cIo71K/MTyZGNmmBy9p2vnQ54X1s0us0cKYbZb6Hjs7dgYkn3Cfb+dpeGLq3OVBYNlIEbC2pUtFOZGFeEP/+iPfv/3f7Y73Tk/fhfMdViz66VozGzk2CmI+hxJSCIoNdmA1JK49/JZIal2Hs/2LIFWda3uIBSIN80TNOhvKm8nQaTiczzp4/mvA7U6TlD9V+nCQKjC/07gmVwzAPIVJG9sXWm70raxK5UGDDUJe3CsXKAfSJvgfg2YrXzRadXVCUGrNC0KS8hKLwfgq3iFaW/IWDkhXmOgq5CgB7BBvARCpzEEQY9OCpGiAVaLqZWlxhfyAHmKGNe5rd7y2oEVuQRof0M2wHdChqj2iMWNYl5000OnMGKFDBjaMzwbGNVhvg6O4vPWlIJCJSg2Q02nL5HGUbVeE64RBbMKUIGKBPuptUNW2+Wb8JhE8pe1K84mMHqm3FChq7oZyPmuR+UGhkKEvLvJmcmnL0qUUzKxIYAGIbp9f3Y2cimxgQaBXl+fH+7fXudy0qvLfKf10UFOKzvWSsoVzaAE/yyyRFHYC8DsVVaelqZdML93vYcECWFoghU8aXsOTXMv8YaKeig6Q7OSyMUzXKqEFZ8hpkD+oZqE8Cd5tZF0A4lTFTyQaoG/alBUCVqSiuJwptiiQaZNJpzhMbyJLMtafcY6BnMlScpV2iSXJGiqousVtY0nYNH1Oiiuq7i9uD5/tLWTDTgTOWnpl1am8yFim3PtV7enR2m1RkUdXZvEi0BReTX3mK0V1q9u7Y/bugzPsSUjAF04nzr+8qvPz09PqZhH+3u4mkkqO2+X5Svi6tFkF8GJS6svmEhp1FBcxDjLPNloA6b5nwK3IxDVFLwVuAmAdZ+ZMJze2Ny2GZMiMxk4rhVaGXGpEBxEM31WTlrTiNiW6ekyigOJcIrFPiH277hjPp8sZZXvbFAZPTl69OTx4fjwKDX1vVZJV+K8hDig+gib3LSYhOcsEcpJIFOVrQjAADNO9i6igbHUOZO7tOYApDXjkLhMa8+1UJwOWvfjZ0dGbnKBNjsRShWXtGcRUVpkc05oKbUsTDYe3O1Z5O1bVq1WFZWmILbv7Wnf3rhk4250O9wiFIeZeoNnxyfHr17l21oGbbex4qoIZ5SIORnfpS8rQLi6i4mtSfWSlwSG78VDxeQR0uXtQK/dmgRKqOAG4tmGWSaZ7bdpE45ioDsSq0VUrSNAEmlxd2yjic8m+MBmIS850V76Y74raKEcOPwaKJAA0R2ep5opByBUF939FNKugiMTFAUVGM/KSUpPVQsmEdUUVwCo6OT9jJSvDJJUHQhNiWcRQW+lUO/JCIKaEdYfTBT0JCvsXSJO7hpMpkxFaxlpHFzqo9rPQwL+//o77cOnJPC3E64vxkEu3KBYCApThJUTVYpuWTrBQywPJ+EKdvmL7gyQ6wo0/FGDwWHXDWNkKdBFnFKkf6DBRGyUOAUJo+IanQASSVjT5Oo4VNPcpHa+SfVt1wQ9jB38MMMAuRRy9iQ2HL2XOY1ykINBU/EEH3gzBpVCbZiHgc0EIZIODx4BHo8vNBWTE2fnp3V//JptWXXoyN1u+YAQ191ACaFqcxUCGrUub5GR3T0V6FnZhTbwnk1n6Fi9NiQMTbNXrv2e4c/39fQSbaC+A68CJVEXQxTMLa+QhUHlErgiuzH0a5PRfhi8thOSzCrECvRo7N7AzZvRzHKEwyKb20zS3eX8dJJTjndznwu+m9ln7TKjTBVZAbl1ucDCTKpCMmXXUYfm0dILhhkr2oM9svv6q2/+8q/+3JFUnxd59ignB7KNtE6DLgnDxaSLoSYBKazSFCcIZsLLwZlbtXM3RxqkXDwFinwPE56ATxKMoYUYYk8KeuEjM5czylTC2y0r0FGjhQHCTIcK18QMJhgh+8cpKopfPvsHeyCzB7ZGPFnr00OotTH5ll7O10NcelNimUqJuSoaUAcGZhiUuf1y0cyM2BgrV8Vq3rErdZMIUo+Pj8/6mzv3+ZhIfzv7cH//kx9+fLC7xwgxtbJQeLbs4vwSTC1FhRsI0CHzrFWe6xyx08OTa/ip1aunlNNs5ywngsJci2cL+nTT7Sa5EEFTo9uMqnGRAgSp+aEfKz9+8QJncNLsP35ZpNIpNGJjHcONutYdQjWSVYeqAw1KzwS1XR3dJmALwnLgOa/NT89+VUylAOLVHn1DNnpAiHAwkYTVqKsv5A2Wkn+cb2who8C8ipK250pDkA6qatYDQh9nUlsJQCf7aPYSPehSpszDiFLNytAwTX2Hd8G6MPwY7BpODs8oCUyobksQgolajfXKCpSKubW3Gg0+cpv+RspaTVsXMs1GZ0brSueRFGYciE2+Jhh9JzZl4so05cOMZpbr3LuOT8gI30YuabQ8Kr0jcsXQdVtC9cvsj0ksCmj8qrBuMbKSYwlLknNBVdmFM8VfepOM4r5wfICkJ2q94qSiNZjX9qQpVPcE62odObtZ0xJWycWaVlb/esbykFEoEFu8MBeIChM4s+tsfDLcgDkLCfYR6aTHwGfSIQohdJAqgxhEadKmz80Mb+h8QelTNznLFfuxpQOqt9tmNplmfSc3pHWJdPd4ws9yyiNfTmCEOseY4u8tTcpEHhtSOdOSlxW9hs/WiD0zjy9pzmA5/JzxkHD+SF3kxVHKDSf5OavE8tEWbK84Pj6FiceWX/oiG+Xzhe7Z/v7Ljz766NNPP42SuskXlcKKVaeh6UQPdeMIFPyRnrqLGgxqo/LWcq2G1Q5giimQJoIEB9Rsm0NTYeCRBN6hEIENQ4gR3KmUQmC1hZJex6rSZzeDsZzub/yAs26hmAY0NTsEZ4swJWCiqKlt8khFaDBE6t5XsV2hvHIh0nFYwzesvb+e7B/ZZjEbzfen093tyd3Zzdn18e7G1uGzqd0Tt+s4NjLetNdP2eYUeu413Ux9bU2Mq9SizZxmz/f2DxQEq9AgdwV89+bt+emJwI8+eGnbBSL1lEuphxIbXlxEQBhwTPG3J2MW1Cuu+sags3LoRLP6xTfiAy3P3e31m29e7+9mgSSDlMqOPx2sLFlFuGBGmBoR+uvPvjQioW3Duo37jz/8AzjViLKrUR7fROFkimZiEJWAxJVZEmgN78KF9qxgWlGUBlZnHTFGNbsgUAVPAtfWKXrOxJTsiNYvf/lLzUiIxMru+3E//vGPf/e3f0eh6Rxzrtm8l7XgLd9N/uzLr0D2DOrlxRkW/eiTT372e79bBZ8yV7Jm3qy4ogpXjXROz8/QzBgjEw0KHklWYc6zSpb5SyefxibxsEpLsh47u47xNkmyPt66mM9s9jPNqJdgD9vVrcuFp0hypfnzZy9vF1870kTNOPPkPgCKwmL186OjX/zlXzx7+nh+kx2PTMPVeTzmWi+uYlQIiVcWsIVBJaoizNHAVE2YUO1IEcL8eq2GmVYsYaguSwOVV8NBkufQmIkchseKdUuL/o15TBWHY+YN0Q+hKWuozLjm4Ne12oowlI43RVAOdk5oezw7S+9DINKFd/YdK5uO9YywrF4blUBqyGiTp1PpKuWCynRGdGgwNkfLKgtNOLaLouUGkvilRZT/OBJhjjhHuBJatMk08OXHT6aN3NDTTIVZTQOO0vchG6+xGBNwXfJKBMdS/xYh0i5d4/fCM/i9dirP9qzAl78CH8I3zBDYiBCcMq5QpcBVzAbu5A3T2QkRtXLMVlSuqIx5qyehgGLVRDiDhzEGZr1TI9nkjDd4VYThgNgwoWsq1RNX8hB+clChh0d4BeRRNKYu+FMFba0lzNUkILOw0qmSPPHLjjMTSQIGPDzJb+UKTSIb4UOwlf/u0aPDqjSTGSNHDjUeHXwIAJhn6JuclEjR2jW2RgiMp3NbFSpFLjlKlznaLXdY65AyZ/kySztI4OxchHiVXIsihHbN8bQBy1n/kqWop3JQ0XFQ+RHAFpNGaVGxImDZVB4iBwxPcqmq7By9ggm+kvDU7KosldXyYcdSOLzh6431zTnnqUa2t91PDu1lXkzXt7MZzvE5naK9LJtkjtD8gr0wY81o3U0DC9tC1XmW3BmATRuro0pK0aNZkZWuipARDH/6KNWaBErSUcRAoFPAWUXf2c6ckktUDd0YY7vyqveWAkYD3jPKelhdLoFDefmbLQO8HAWqdOtS2RZixH1xYSDRbE/eaUqZrKH0AOe1HAxkxH+5xNdj2oLP+GoUfWJkY5JsPMlo42oxd+lBSppzhEmYVEVwoyV1ysJcgXGqyVM4R8BlWOAoWYq6EBJZgekt0rtmRFBS+AKDHLRQzfB4wtP+FgMAEkEQfmSSkBVy8aIeUdahnRQDdniAJUf2gDx5/FhDmMqCXnRz8c1VFETucBg/2ju8/+B+e2vHaa1PXnzoSx5PfL3XGE0Pdz6bZLf7vb5CzSdHXAfWIbVYpX4jmd2+stL1wIHvN57mVT8hES6w2JOaUjy1JrC28uofx1Y1c1RRJ+/X5rsQSCI51X5LOrOPJpQ0iQ2RfsUq796J1OlLJQVvgxUd0UlKBcVSIL4ndkV9SXPtWE19+EpTZgtSkUqEGFhKqGjeKFZ5ND2eyUxc6XWeVKqePJheFCmZ6qwFUorRublhRa85V/NTE0leu7Bc7gSZXqrLsnSS5Rzk5VACyertN/wCGFxHN4UCvXouSV3xrcMbpsqQRF6XSJBV2am8Tih8IEBIh3dUP4dMOwrHZAVwmVEfxct9AdF3YVdTkkYazDgjxPSDMZoD7k75aaDZB5itvRWvBnO5D8ActeGw2rPxN7Z8Xq1saqHiLUBlHy2ymqR82ZqpTUWC/UcUQxUKEJNN1FhQcyYJSq75TeTAoXAS1PddLOKGYy6+7miXsDP8XLbFy1JPUGtlsVqUiSIHD+JDRrlG68l1eCSvnGIyV5ez7KCjELvIEjakz+BCq5PrCRxmGWu3vr9KkeRwb1mRtAX7nawO5e7OfMutzTM8XqFKnaCHpFdNCVF6fwCLnkxYQg6fV4BFWqKC6YF7wKqADDH6CTidObP7uY72vTPXI/sEs2MNhTvMT3bWKjTLqZPtpFV16lyxu3nrQ+OZr9eNRr9pja17d4WsH+xu50NEIdszKrLmVCBUxZb07e3hmsNChukE4ycTNbnFx5xKWbjeyWMWEVuSJpIvRTqO5V8WU3FSdNmVrBZg2566yN+QqGaCMKo99qvxhL0lhhL70x/nGCHOxT3IJ3aEpDETCOVZZpPqCA0w6FpZt2OuYFQigS0AzWFPr1x7wMMD4RC7AlA5YQgAIejHN/44+9FrxCwWNz2ceBNriN147I0x1dGzExHy1cAdJSpOr94Mj563Xvid7TP363vTPTrNa5vwQ/dS0GpuFDE/Iuu7+721KfkaE1J9jNFkbXK0tucbsK6Zmr/67As9E+3IVU9Gt/YuOkCyvZOzH8jD0rbB/DL3yskaSasSBQbjUqzi/5K3JScCu0Se/HB2LEiKRSM1gccxsbs7O6ZMp9PHOVYVyZRdhE0TINbuLPRnD7AQZGibMOXjAiTPhH/jxUEe0TwtSbC035MTy0HxHc8Q2yR2bEOKor5kwAOz3bG2xxrf5rSV2byMQNP3hjutN//Tnci+41iaRGEW5wlhkAivoCDTBgGvWCM+YDXsCELUm2aLL13m1uL0DpcLs6jVKov4yiG5QCaLLqffLmdCyoFvB1u7Idxr8+o7AMIRPQRWFnnrhIktpz7UEwycAOE4yY9jDSOhJPwCPaXL/zgqkidZZONy7ZJYvle0VCEgVFBpeJf6NWnAxaM7H6UR16+BD7b3ra4zEv6dyi309WCVOstMoxZhQqo7kld1qU+jGRX9sIlalv8BZ4Rz4IuAQlv+fqUuSXxN6uZeAJMh2o9uWg64PPKtxyMWRREAK0UkvshoXqlcmEVxYMLh8jekEOVyDAyGahXJunu7DS9fr3B6lbabKFslpB34wtePFF82/mBrkoTQOnLhSe5VWfzJqehsP2AIw+QyDNA1wBJvQbYqF/4gx9QvJZmtyZlDvl5s2XGQDeisl69MOE1kGJUlHGezqghmYwnN2IpQPr5pUmluXslVSzLWWtShp3seMESnkE6Uijxil7sk6EdENmFCuqeP/naIf/fuZLI72TvYme7lJF/nmLpLS88uA/NRXJc7vWFNVE9pyYxGvHxKCz9tJK0q0KvIOpDhVRl1u21aKgiT3DHLs2skGZQtRHgaR7mmEBgyqhUwTykaQXIkiUdwf+skVVDYHiYUmzaTHSihFsx2vuWbAxXy0lrgV7Gdiz4CRgWyGquxCzDKGkgDJFPOLN+aBbBdhwQ8c1Nd0UM5SW4SFQbwWi2jxeBR1t6U8WBvPxcU1bqDxee786vry5vd3fvJ7p5pwVJiNSizXnB8cXt6tZhdO5KG+beX1788n1Eu072d0+PXujG2M6BfjCGE1YC29MZd1ctaCjyBVnSUIDn0lGTyIKBDMKo9beoAPITk14cwHIdcwQFLqDYVRAFTVSXOaqWrL4VMFtkO6qlmeFCoS1iZEqGqGalZKmlA0/uDDGVcFRxdfdUgQZRq6KdcOw5lPEOR2l9ZBi0bPbkfTWkrTSXfn1e/9pKlB4QCOGg1yzUILAksUZZLFamJIWBpqqVhQ2BlK8owg1iWTk7rlW/BAYzpzaCNyyJU5tY5K/LrdYQlkFKUpuP/X+qUVBKlVk88xbrQJFygPm9YEd0VsWvkCQ+leRPIhTaty9VJ9EkmRBGcMubXCUF9Yd02/WOX5qRUGhy2aVGZfatefHheMpp2G3KYh3AwoWmvDHNlkrkISx0+DGFJ3adTUyfZF5Q5BxpOjsk0S9MoIlKSh/LM28YMINxrXIV3LIgKp4BQr2ZT3BI4DSaXvrGhlkeUBS05gmUeV0V7M3Gf8kCWjIaBV/xFfJWlXtKG3adA5SFM8ZAGkc8OrjFURleWshDV8EVfHl47RFlg4ecJ78t5BaNQngI0Bk9tko4WRQ9qWuo0Gqoaqiw7CZYJsdLNmRqSytZn26u4YGttrwWt+9B8tjAKlbDY37WjcKliQYhBEkmBpIgEtfxrwtDWxAOAo/kspAPb0091RPNoSdk04V47daA/5jrBvanl9NOrM13xbA2Y7GZofb9+cXE2WrfkaY5+06DiSnO0eJk1D19IM4GRFXzCoHL0gYhrTBi7YWdeKWjEUFTYxyYicqAT3z7/9We6y3tmoB4fPnm2oKPt5cQ0SfATr/hrQimV3sQ/9HRJVzGJx9jtEauQu48jk9WaMD+NvrTnUraKPyQ5Ml2dP7VBJsuYpWFiqTGkthByZVNSZ2vPxxa9tnYUk9QaZ+Y6ploMLpZHTuXrCaeBtVsteFQ3ArLqXJMQvKX0M7WQW9Fq1/vRUWytOzJoatdfyfPp06chQ+MtRaEs0gvR63pSl+szVxCSLvShQVTLBYzpl6+tZ6u6DkZWsNyMDPpmumFQ5cMw99PR2uF484kV1XtLPRgThRhhn22uWdJaGBstplt3m3vTq9HNwbYDAFvn2S2+dXC4j3P1oRnJKmWJpVKg0zPFj07NK7RNfHhYwtkAYNqJbee1PYqpKblPisBoQ/bfv3z50nXvs1Euhh+SFWYSq5ucsYrtVKdnx/zZmHAbuwUYHtnhfOwT7P18SIeQDvwONR1OAngaHoAsIxPlYBPu6Y3SRnRigyt/KEp7qM8SttExEMQZPf9YLM2ICaOjo+bSTpJFFR+tyTpatViom5McpAj9UNazfAXfNMCCMPt3gCl5AkNoKORSISvnDclBVAg9ZeO94zuwYxPVdVmdBazsutSkh+Sho1DJBQYAjSeTAFG7eQUQGlbZhaDiG451bKMN/SvdClhg2BVDtMwig6TcBklIE4LBopZMAU/gnenX1NOcS7mWeuXPkKvcgF9yAU0ej8pTx2KbnmBfFUosUGyFeKmSWawwL05z8Ae4Sh1hgLNaaXoq+vwVnkcwlpNq5f1uyEMwcShH0shH3et74dFfhacxJGrVuhpRx8odQLc/IR0IQCDBYKtgA5PVrDqBz2NJQBSYzkKRqZKbuoORPlIiV/KIhUo4RcyB1MwyLTWbmXVBjPmjJuPhsyox0id3jqd5zi8XzwZOXPkb0lP4EMgDNI0silhDthfAMGmeXekb69SCfvK280SbE+2KWnW7weX11cLWa/YIuaYFzQDqnCifDge2mRVLp6N2+K2oQphMUdXNp0kVKISTe1NFp3zxxReQHFwefP36690vvzJP++L5y2cvnu/tZe9Gz5E4vqq65Fppscym6ZSXG/gDIaeWK4c8+KPKs1Mqd+tZe1nGQmM8mJ6u0V7oxHCQSs3AlZTl1FQ6GfZ66y1Vy0K8BSOotqY7+3uPBnPFWKe6V7IJW1OCABg+/vhjRDJXqv52fsvawSAn2/IBiurJXhiYaVJg6YG7m0bqWDuoVB1UXUyBTeokzcIxBHWV3MV7FnABVukVLFvVa/6QDdb+Nxejve3x3qYuwPru2ubhaHowt2EshxWySpDOu8t7Jvv2gIzXz7b3ZvgxHZ+vLT58/sH1yKbycze2A7q4ZLmQFD7y4GqGP7oD1T9QClqlBcDTABLZXEPyCEx41R2yOwTdHYJRZv9OT8+tPnz44Yd//Md/bEMTIfnyi8/oTN1NWYGVC4T8xcHb169f/+rXv0ozqg2ZzY3MylQzXOqUzkCy5pSn7uHgbw90cUmR8vSTp520SBcIVTvhmQ8i635js8jMba6srO5tdN1StQJZSkaqNIXPfwiXiCrWa0LKXLVEJdkSvn/TepNfWR3ATQ8PLe3ZimwJWqhBVnZJ859zq/Llt2GaKn4heJpKLR2a3ZrILkPOM4A1pCfgKK+VlRSCJJXvidSmUCpC03kJ5PHKieUXS7qWmFNWshKVJWeB6Qq1xUVb+seShMj0vtmr2n+s+geEoKEtF+sCUoZse2cEoew9Q2QNuTw5sRziV46OSgMRKBYD6i/jFa/UH4IVhGikHahxgEKz9Vg3MHGp76SpAgaRv/Rk/FHF1JOJbFNxKWbTWnMA2Oaj2sqCqdA2W2QDpMhYUlfE5iEKMPZ1SAh64KRq8egCqlODAy3KXA38mpDtYRzdtz/tewszT3h1l00fABTW+BGS9KFvU3a4O1PdE5LPL6Rp63WLKvcqBDWrHkwT1fCQS0KTDCV66OHn5Gm+zcK6nWXOhLvl1frT9u7Y+I+kZLuZXYIutXC70s3cHTwbU6tNWHpjOsiuaegx3o3kqo43g2323lRWlqlqraJZZ3Ukeyqro1Ak8qO5mK++MiWTHDfX5t9QnOuTk1yJ9OUXXzmN+8mPfkxbUfSMeoYKKnLoxZaWbLYMBe8KAqYWWH2v1L2KyIigew/XlypCfUFG3kOw4XZN24JkqifGSiTNeKSulEz7csFzhDOumH13cWUHnFvFY6f1X819EndzFzZVIjCcDXzEhpOKcfLEBEVemE0s5rAdtuZVVQdSjLL0F15czxjAqnQE8AuHsrFBNRRTOYw6wchR2/AEnNjSGJqfNpRxbrWsTKi6cclHFNa3pnfrO4uNnft1R9Luzi5ydvh+w0pqjSNtnPVNmSgmX3Ow5nPlcv2JjYzr7qcK8WsG1tcnF+eP9g9APXRy5ywVMSpW3hASXtAG0dwZZ/C3JHSR+YUruFdObKqmXvX5nD949vzlP/yH//CnP/0pAfin//Sf+hDX2Wm22oIsdbVkBSSSE0LtXXLzcdWvjhkixuBRVcaniA0pK09n3+k9OTH+JwP1LRf1ZclPRExE9E96oeWENVhS6Xha/jXl6ONqLiONEo3NUSCUQUhQMk4owgNtskhybCnllYk+2svkof/ZWiN1do6yMqlXvaXamOSV3HamZCdjSlKSyTXYmn0yXKqq5Js8Ah/iCxRRco09jqcCpeVRuG/rkY6smCTl3gPUYF9VCdQMPRs42RUDcQmwYP9ThnK9u0zDM+bQ5g2HkRHOlKYqyWPYu5UXxkoFPNQKKOaFqWFB/ROYmJgy1l2WpklClb6+zzeE/TVmTZKVJBbOJhIq7OZCUn5DiSfKiYsiVRFSTf7nL3aKAxNfpciDEEskA7UmXCpOPgUFEo0sR+cwJPquB7zlZzPX6GcDPIUEmx1duqJajnFzNhCFWRKLyijhgWuSPJW5kmdQnrZPovxlq7DjDH3SM/OVFskUE6l0pSIYYPHb12TtRDg8lJDFNB78oYLrPKOC5MNHDkgcHuY06IvnT1fX+zo9k0nRuiSOcCl+KinZ257mPVQv+eNH3cDMdQlSsJVriRUuQHRBaDnK5CsPJgB91WRvdHtuvcoNt1PfV5mUyvbNe3d4X86pPEvy+7ub1zbB2d02X/g+cy11bxjhmHdRdMgVqukJE2rprvOVqXJhiGc1w6VI4BJqLXilOsLhCGqWPwzkrm8uz2YuDncpONv/05/+3vOndrE9Nn9qlkfXmzBtu4cXT/SMU2BMrJpJ+4O1hqo2bjo2/uiRj2R01WrHs4sMszJDrg9OFWeuP90aNYU2lEwm23h0t8FKq+Tws12YXx0hxYF2fnJmpBSyWYv1kZuex+MjY2bvtaMYUVDqZ2UUSFnwk4Du54QN6SOqw6rCFCPCGeUWyc+xH1HISA2V3PZTHZfmC0WWGEGy8WXJqMSws6pX+WMd5IhSZLRMwk9gInWM5LxurLmYjW+M4G82bhwFMRjIKfpYrFjArISY5WT3aeeZ9a/D8Xx2eTk/N+VrxsXezVk1rrREIh/B53LkwGw4ahPoPgJykm4Kc6WG0gRCRQlD+0EmWTgTXqdE1dZ4hDx99uKf/JN/ot5N3evw/f2///f/9H/81zBIxUWzt1roVKM126me1I4q49euU0xR3ZkezGRgrLaOzMJkiMkNH0/RLcqAt1WJBlXd7VRAOezPsoTQ1Ea1HBmiF3FgqjmlGuuVZnCnPjvtzjF8LHl2iJwkGWSwv2yLtpIOb3SXIW7WeqMtBaSLQxSUJ3a11F5UlfYktPINmBabQb+/yIY1ZSxjR9MpyLlR1BZRpd2cnEC50YV9a9nHBTiHvaPEjfSiLNKNjaOpUysKkYQq0l+mW5BDGsoJF6sFW/Qg5mYrJCBvMlUybQlaKgwrIsXacN1jjTwhIgHoOep9+NaUCW7DBHpZAQAwYBQiLNlUxFpE6ETE3MguF4Xl6EmmuS3kQq7jG1XjV1CNmsOnmlvP7NDmujtbzEvRrL7NZ/Lb8RrqPpozs6Q5Jow88KjWcTN5fH52xk8G9E/3D49St3f3KEy5wv7l2TIcVBYJ1Q+GU4LNE8ehLHPoIukeab3aARAh1pkIje9sWUMjPtUaU3+uOLia+ciBYy7kKiY2JocKojW0FU7HN1vf1AkNm4uX0JzDRZBu5yYxX1Zds9expnwxNrLE1MbapldkgoxIqUyrUmln7gR1geHE9QU7jy735vNLLEkxUszMWlviudmyJSVkUplpM6IYqrkGff/0hSMrViduj9+8ffP1V9YRPvzg5YsXz588e/zJj374s5/97pPnzxwle/3qa2My8/WzKzeHzhxdSl3bvUlbMR1jGmc8u12cnp/74EUKbgtEMVPp0hdRnwRXwRejOTVuCFV7jjFH8nStwiIbba/3JtOr06uT+fnnxxsfbu49fvnxbc5UTWwONNy53R9fX8xc4eoDV/cnl0ePD29sqtiY7m9PR9fr1hA0iAv2VwENIDamX7w7Gz96QhRdyETUEab4mOacn5v7wzh0qTStLCJh/il6f7q9a5LHLoBv3rwe7277vpXjNcp7deESw3X9gbOT83dvTvemE+b8t37yox//+EfvTo6VxYnPy+vFXsqCLUbf0DG9vXsuig/yd6/fshb5Em1tGDl6dEDMxGk+GAcWQ7Lktpbbb4mEJpJ709XljTnDdVThA9GgULMHxd0T463Tswu1ub+7h5VkiYIipXtHuwpknU1FRNDZJ/3qtXVbSBT2+uqa0Y2ZvB8dX/iSWVoltDQYxRHJXG2YIqkon+g9qEGiMMtxQKpZO7L25StoWEpjuDufCpq7/dY4IlfIG1fd+z7WxHnt8EMRs2f17irdse21DSPTs9t5DqnZqmefzOXV1fHFi8XOk8nho4UFXiNM18PcYo1+nfulrnRKCPX6+uF4/XRzcfho/MvL1ww5LeDIg0Wiq3dvXftovw0W5MbIi4voExPCVsfKPX38GA2mDrWFjL81otyJxYzlpKknZYY/FIVWJgVpEaRKTIgopu3H7gn5P/+j/3bPt+qOjuwWsVa4ayvO3i5g42BThUSC+mzJn1+6tPL8/OwYB059q6zuEXXSDmNxzFDvk08+SUcgbI3See+gowW88wyhDWPrSIeQMfouAKVU0iNFfrR8kqye0b9EIaPZDGhjrmkRfRUftyM6xlvAoy3oTFeYmHo1p1rzkDDIEV2Vb3AWjfCrzfgrPE27jFaB1gxv2cx8UUOHACSNR1YIrtWbDOT0GvpkUJVMsaXEbN2I2ksUPmRXcvXSvZBY6i94vu2kKrSYGT0OgEMczvYr+mOsOGq22CI8w52q13TUiLoNuG509q2coMkYCEOtEvAT7kqclRWvjV9RvfJn/s3abA3M7WvFM/MaDzvg0tIUJCyfS0FhGUgZRZvHHgwEL9nY+ENn+ar8WFsupX/vwLx/SU/iBq6ySWLiwj+5d7GNLIrDFaE6VDexzvCuyhoRVzqFysxDTEb61HgotlCtaroybXIQz9HoZCfIm+LKJfPfaAlfl1RKglf+wQwy3Z/SBabC3Fv49NERBUcH6cppN5cXmXrSuWRkhKBBRkJIsCdByrEk35PK1B+h0Ojv3YLz0YvnDo3+8Z/8XTvi9g8o0003+7hpZuPJ6GZ/8ebdue9QTjfHGqdlLR2Ra1siDOpCULpW/sgbCdJXQFuxLsKW3KmHlKMFnlLGHCYkLSqsSEdmtOOc0A69uXk5m79xB2uWcRZrt+Z8MvU3t43CkWpaRJ/+0pHbjYu77HWcOvjgs4S6ght3zvLkW2jac5HCDPgWJvaenJyqiC57sqt2jcJ2w2vFLOsx/TbOprMtp9MIMANBOLPqfDs/dVH6mzdvPvv807/4i78g/767aPD64YuPGGPljUwyzKkg3I7YUADqeJVdFEtxo5szmS4xQ3b6EqVn0jrUjqvyHKW6vcoeE3iK7qgZzaGWYrJrPS69h8x+uv1B8sgMkNBgHjGbWm1AzLkxvUl9n4N99iLnoFnhmqKMLZGdmiTpJFty9zBHjFN1xljVVXJWqtalEN91Ckq+1R8xIWlmLjcXBpGe3DxkIKyqPUbQsGq6MzHLF6ORr8dfRQbvp9aolGx/svtk49GTrUeTk4VvBvvAjvN11syoUpKVTqVrFbT39JjvdbCIKxluHqSVUMsKmQU5/M9n5PQITJBmULUc8aS/klqIYkM/elRVGoVX9VK/UKeKFF/gKjwrnbv7e7ojuneHj598/fU3WEc0mPw/+IM/+Oyzz2Sn6UGlXBq85GqS/Khjl5KcnxzP69S5PkeGi64STkO26lmu8xv8/Roqvu0AyFUYsuTktekTskxbP17FLp8B/w0OAPHMM8O7DG2CqvXPCvkSZ6XmbyxYydNRxBktA3ZyO/iDDp5ITnR0dJy+YdZmNlw/3WRC+TCLIe1Dz5AvbMIHeB4hsKV5ttmuZNFCPVJZrUh1mmWrUdzCoxQgiebZmVsvIfguHmjh8VTx6rVz97ycZ08a/nqITbi9XxlvLWWoKAwNaheNxmSZsirXpCazmrEMnnLg/Aa6nvzQpmbK3vdrE1Dg33qkIMpbCh0GTnTqtlyHdKAAHlmLLRLS1xHStDVJzb1OBR5AOyk6UTNEEigGPCF1JYo8nfXwhEFgMFOJuguBrOa0u0tZHJTFMrVQmC9cIXpxucvWFnoJpQNldiQbalxwmk6QaRcjyPH4ow8+/ODZs9//2e+6WSO6RRfVYdJ5Nm3bXejDmA4ChX4T8Tt2xRqpzN3nZ83ANQS2h+cCSCLJVIRmIkprhEXMV9S0xpGJDTSoligOPC6+ZUCDmCBG39X87mymNedrujv7B+ub745fffr6ze7BvgFJxmf5mFb2A8jNcOdsfin59V1uMs2NDlub84wm1wyRRtfuwB0fHB3Sx84HkSqEKL+kcpdds7Q9nu1BcAuz2K5WtUNiBWLC0PWmpxBL0Z+e+YTFuW6+uYOqi0hao+pn5wKV2JYj/gxQTNCsiJGFbXARsvBPTzj9CbEaTVSe+6WoXjcMVa8uUOUaM8JihHwKYDzRuqLb9bZqVjOZZqeK6nCnTBp4tQPkoTFEyoJ6JRBesdEzoxOcKeaIhdlAHx4cAGkABRh+WTejPCU0+yytKGkB091FkoAMI8Cgh2mVG96jxPyAWYF8edO2XrQt1gyFbR22OGxOfKoLO3Wflux8bDvTp9ZOwhGnx9WCmzhGN9+8Ob2cmJpmFErjphfOZf8k2thgk2rnZxc+mpbOe2Q13RqO+U+hFHDZpsPMLg6+NktlJVAxpUq2tamkefVv/+3/9N/9P/8fruT40Y9+pIPoxJXdNz/44Sfugko3vA7UKjLBmLkwdJ5vhaua6pbBo5VnBwdPzdDX8lNn2RRUZikIVEN4Ry2fResAjMR2kgzFgIRLSNFdfKFRBNSWIMX2ormav6JzMq+gJ5D2x+KrWfXXqLzAwy9lIlbK9Fse2QJpiSyxDLfKSTU4AUWU5knFd58RmtIOq6dXYAl94DC9Rl+pDLFem6rGBlBg58ITmFKrQ748dI9wyRoYedIKIZGwaW8Kz9M1zcOJJcHg05EvDmif2NJog6fsTdcRTSbrXFC7KiOBkSq7AU0oZphp7jCy0RiANYNQMrjOxVPK4P+2ewgGBlCHBGpVNbwCE6l6V+aqQ5JkhRatyGhK3geWvDUGJUUqhwnhXrEXfDRUfSGC5uLHaDCFKY8G/n52jdMzMGoitEevRcIwTS6uZutvF9UGYlGQa71qh4a1jV5TUjI1Jq06kzf5VRl7h4eP9w5ePn1iIEUzvv76lX1mB0f55paq1Bv2FWV4THb5Qp6Jd7TpO0y2p2Zbrs+ijzJCg3k1PKiVlnUTtTRJgMvhQJkrJpDK0LExchBm/ekKjJkzF6wfbWy9ePbyJ4+e/dbjF/ujrc/GO199+bkBk2VjGo7cZyuBz/eN8xXmxweH0m9jrfkrXZrx5q4FgJ3x/PpscbE+3Z/++Ld/5+TsdLy/69oiyK0zyUgSrqlSyR3iGZ6UJLe29YpqkBiLD7kaqVqNfI1W3717A0BUdNPsamd3YnTVGDwbm2c7YAJLb1teMpU9VhZME6TbCSHLgqCIX+1fUHGQamRspUmtFZrlr1QAkrbaCL8q4lfXYroITSp6a3ZRg60RiFANdz0nHAJsMIWGGr5nrHxz21vSdDvk1GMjzY6/dwPOr97rky5MyVIKCyFXxdloE4h+yEVhneIxV2I3fRam7kL0LeM3b99ZorS4tn27fnNxO3t9dXB/c/V498nkaHownq1ntjAzojtTk+QuF6dfLOpc5MzV/IuTL29fTFcKlYyZy8JI94DNySICTJlG7N3y6v662giqCmidVkEoqSpCXeno5bN1ekJUumfTr754zk8vPv315//X/9v/3YKC4ZRJ0T/6oz9ktP6P//V/Da1ZJcVniDGwpcXYUaWghJNZy5sQfjWlyrjVLNNK1zRRovErpJUT2M4bTvN3rfMkpBzsAtOsV3alwRrD95/AMtYvp0rVTKRJaBZ34iQZnu1phJ6NLZ6W1Fpm89r4JAOQ1xVk0MWl84pO4bJZRQZSXJUsiPk7gwT6qxd+7iHCUFqV30mauWCWJqW5UWQ0KaKKRemQSNipPFWVKYimqqtEbalsT2BiecgroeEH5ugUVHDy1/YTFimc0xwHnLq54vylaMx/tAfNlv3N0g4uRX3olJRYOHtTDIEexmAuBxD+dgJ4AHi2nLRfQdjejsLTFLJclHIxUhxIrrHBM/Cww4FTCly0Ubn0cdPJCqM6SoeP5TKSLjzpLQ6FkHzwN5F5hlvRkpLAVcxKFeA2PtfciFk4wylnvOxCzlcnbm4yvW5OTI76E5dXB67DdhWp1Ti7BNh+K09Td+1t59W9cOyYPqMdeaabLs9NwJ9fXZyBN/lMBVzZJFZT4SFD1Wfx1zGpnNPPpKI5/u18OlYxo58yaaX61LUCUtmpBOXK4LCnshzsNXK4dp8hCsYXJyeHewdQnM1mf/Xpp+Ob+4t3JwtWSidle1w1TufTyDRqbg1AE7Ggi2WWYUS1Ax9ucXfIZG9/8uzgkT149uawDXe3b07e4JLcoz2rusPP6n5lqmrlmpkN1mFdm51EWj0M5ur4+C1IjMV2M676V5QRf4u9cPWUZ1WiVB1F+FW35R09FlGMRA1DVXqWHhpYRlBRf2D41bW3UJ5RcihHtqw5r7Lw2nrQq9waALyhUoxNBmwhI2myoOk9k/OxLhnIRTXLolCl59bIUaupqm03MUubL31kuJC27FWS7m3KnK0kGBGScpZs7OUBIAQFTDg/l/GRmwWtdVmZU/WjhU+BnJ/Pjl+d3Z9ev9zaP7i6/9Dh4BoDZ+naktTO+q2BcQbOqMjFFZSIC1tvN27PL88mVictoSmT7kskHiesqF3SLWYX3Aa5eGy8ZsZZXjmbUVSk3fGnIZRd7wpSZK7qKsVvJypk5xnUGIVjk53pV9+8gvLJs6emB/93//B///yD5+B//s1f1nX1d/oW+dJNvrDl28vTX/7Nz53NstxbOnJ5kTGytXqVG3PVFKR6ynWuXr/vROn6fydcICewnyhGaMPAx98OxW57iX0hcyw7YdJYNJuSjMZBWGpmMKkGnIPn+/lKaqUjjV57xr7qkCAFu0moEM9OhSpaW6OFramKHqthRgM0Aa0akmNXRRUqScsVTKqEg6Q9noEvx1MsfP8Q3Cyg4xIKcUF2WpWEzKIiuMULVzeKD8pToyLS/CA7F1+/5tE1jgEz12ecUVbTaEzaVW7Re3idDJ1erCUraAEoPxo42strch2cQDVS5ioQ5WDg2g+wRWQZV8zpoieqXBMzYP42ZHIU0hnyAOYaZqCiUXW+/RSC2BJZbGg1sewWDEgGyAG5qKa8o2RdpY3hHGpJ7lldLqr4Sz8aedMvd3t7h2bXZeeqs5ubR5KYo9Bs3WOdbsCc0lzLThKE1f4gHvgZBp8bz4ejfGbILZd3I28m44ycLiyjX/pw4n13fkNO9o5pq7FYfFlqKNXWDHn4VAQqg8ZUnxSoV0nUOIP6J3/vvxqdXznec/nGjpOLcUT8fnqw6yt725bcs8EnvRefH7T2cnM1N1+YTWsQRWcxr7Qi9Xl9Mp8dPnuy9fzxu9OTx3cf6aQbY0GILWjD/KFeiq+saKhHpCcHIBoNNoOelXloe0NQuVZ5Zf6jyAy9Dg72DEH4ua4jBetcuuz8opQaYsk3xzvU38lp1hc54QQoLcFU9IpZyGAajUAXTqOWE8Jl5bxyEdZpuxe4OQaWVgYbanl8OSMgwaial4FywZDzi1PAvribWSOjkKwIT28yf5UpU2mRZ6XLcou8vHIu+gPpVVmKT1A3XRF+hAlHT1s1hlkDE5KiIYLxvL/zGS7q0vhLOOek/9Qm9rWFz4NMNH+7LjZu56MzFC/suNy+Pnix54RCCnuJpti5fPQvc8UjtyOauRDFkGV2iyyuLcgfMqyPEHXdLwtZ2ZtUM4oIVl5P+fKE6avJ/HCnXMGkgGjmr/aSdtR+IqqbIi8hzgj/o3/0j7xK56PPiEv3s8bQ+uO2VAg3LraBUCrTkkZ77CrDl0aWvafZuEnjVedNEwyr8kfm/LUNaJpCmv/F54j4wPIKqVLUZGuVrMLyCBjrxNNoKyL2aqnZlvmCCPp6A4J3EoaTOFIKJqyvNrPEWXg8QtvKLxctPrLbYmFqbNP10nHK0oDJdzlmh7LksRAk+gEBK5S/4bdL2lnzqxutCBOFeG08SG0wz0axDK/XRBVwx4pqKPSUP0hwEdnFy5RPLilFnZIDdn55mbQ98Nq9RIAlE7JydLBXtd9WLVlD5Zme8mphLDj9L/kr7dpvxaCG1h0tJyEXalduGd8RD57kpP9CeQGHzzWMk1GkCPoUbumaPQ8QhE6QiORRkFWGyyIIj7OXD6vZaiORcsFrjqZzTOsmZFmqWOWzlNLEVzkUC1UwBVB7LP54NY7LLhxhymFoSdfcumPS0N++jZy+9n2g3en23cGeZjzd2Xa79ttX37w5+ZpZmBxuHu7u7PlemM12W47j6iha3FISM3ZbJ2/fvbs8nV1c3m7cmY15eybg5MJF2lP3Pjx68eIlm2dKhFLz5XpKVq8ibIndC50I9kR+OsOjLMmYLfEqMpVeAsMa7Tw5emML3tWlSf6Dl4/dnnR1fnm9vnazvWFrtrsYQtHI3Mv9xWL09ux87c3Fvc3ud6OsHbguwWWvZ/fX4/W9l89dbLXz9MnG/s7B4R6C2RJ7ID//m1QeSlCFurCz+JktCeVrhld4jSGyqvjetoklljrvihllbhNNfXiLDLYNg5ZrJEQhHCingHByLRIABLdF0UsQmBWr2pVAE+tfwBx1v7ZB8WHh5emJwcrUh4K7gRXOxoYMqhAY7YpVcri8OiejnZGFfbsYbMtRTsIoUKaWTuCvGkFGToZ0dorQlGs2clBwIXrNGABAdmXSMtmFVYW/GRhqQArHGeA4AHmw2bxTX56Eiglw25NbSAiGGjfqenRh9zpx3bZDaze6fXZnXWnz/MZKoM64A0PTxdb9Hltjy4SbMEy73I4cUrg+v3X9u16v4WbOU6HF5ksST7iyBphr5jPQM4NIlDnNYVkjNfREOUWFdJauK0LRuAfVFevbSXjAK2DDTHZ3zudXLz748B//439skEw5/Os//VOxe7uu4zC7ndqH2NZT3Tn7RfTAnj97YRPeN998bSVYB9GCXQqnRkxoh3PfczIuapqAtJ+mEiBz03Q0DD/iuMqVGa8m9wBhwv2vnyxZxVGiVadUjt6dKiIipIBzMNsnLUpSk1fxQxZC1F+T5Pk+KgWuG4xKVrJ8qFg9+ZWblWmb5aBEqmDJto4lHxvJUC6vv9FJ1LXSkF7beUVSdOg4nyPBgYeo+KukeeClVxDwM8P0cTEs3T1u210q1Uj5BwKkqsiUmt8ThgZQDu3HIn489bl3m2GFvPoqV/1bbvFEFMKM53BC6uw0wQoqfzUZmKEVjCtxK++ylHIJr77dyB++ItLrkBa84niiM8lWtdMAA5hUnYtqaJgubAcqoEYiHJKH4V6FQ45yfG5uU3/gs/LzQCwbfzpi+Vs6gUVQHqFwWXySFioBmTMRznWmng8owbMVovq1ICJjN8QubLk9O93JsaG1g53J0b5t4b6UsWcpTJsm3DvjLR/SuNAzzGlLE15ucD/LeOX8JF308aWZBvc9GIedvjumJnJm6mDfDCPReHx4ROFfb/UifEbSfZMrJqtlm8ZoOUQilc71Lfb/y//rv7u7mn/w6Oknz17uH+3a6jbKFrYt1+HZIj87Pd3aySmGm/PJtY/HXxxfnM3sPnORoIkh8mFO8jJfxrzbejtauz59cnf120e/R57hh/zk+JgHDQ9ZHW5yzdriMAaGtqzG3U/sBSjXqVQfS0wpewpWivQOVsJMVhvYU6CcZMd1DtCCZ13IsOkym9vYGMNXSyvCY66oHeTpY40yt2azwMbGmZ0Qui3zi3OLJY8OdyEZqG0/hHiOe6T4bnSOdpv+ESgWGS4yd9cH4SpFvTm5ymhN18iPZof5LtgyViGK4DFKb2ZZUoejJ2NGxdS1ENxVkAyZfdZ4mo3seJTiV3fEOE5485kZF4sqdKYrVVZZCACi7vSFCVCFujg7t0/BTggflbi78LXojLZnk9Hd9q57bdcdErFMPd88+2amqzLasBnkzoWpZhdtr3kzOzm7ON5htoyrDNZMuFAMaKtP0WcV01ycJczprsueDepskVHAmChFQLCOoYaZDsqqg1hcpc8QGZ220gB4IgQ29N/P86EfVWzA5OScEP2JTz/9Gx3G3b2pi6ky+VkZPXn02KUhgLHlz//dvzUB8GRxb5Q/f/OOeaMD0tFcmFx3xm55m2RwMeyRubINCBXVTggnpKQ0ItXhoamcWH5F8kwJSy4FOi2juVK9QxIJI5n2YeZwMXNvtBq8urKpq5pTBsyFQZWRwgtHmJAO9Ao5f5PBADR52IsAjmqj5wSCBEY7V0aUbMwAySAoISp5x0WMckJTgrBbeDecJA/3l8UkPc0fMDB47bEt6QcJT5PE0xR6cl46xBN+c8pNWDJqllYxkN0hXfeiKjiPDimaQx4nI/D2YCuLhgfganF3cny2ufWanInFAWwhBAdHjyYbPouU/gcw21wj17bOO/kITjYyQmBpcDBpIdV+5NKv7elnU0V4RHEQ0qKS8IvCZIpY1kG6no5c02kvb/oQpkOrvA2Pk4oAUHaBrw6yJ/qFc9IWWmWhA80FRLUhA2p1J4pgaLq9NQtO5UjAumvxLpAFIDe9ElFd5aiPnEWVaeZeq9hgVETOmmiP6ccwdLUigxVanbvLHQ6z3ZkqmTm6ls717pNHb1598c1XX9p49pMffmKfxccvX+zbhHd4YDOcZaEIVqYPnMF0oM6i//jm6sJ47TrbBLO2XBy/Y7bcir07nuhVvv7qawQePHmEe3obl2fnhkOWxlK6TR9jPdQXcnuNaptMH2nqNA4u0Z7qTKHYbitV17b2PTmwP2dGdrfWL5hILBotNh4dXI0WBh2bTw/PX7157Vpbs13TycXt4mx9sb8LyaavCaLZ8NCC2/mnn/7wd3/bLJe9kOmw18Yt3CvKw3xMIMNhZlkBTE5ITX3x24IKhgB4ahTmuNQmhQWelIIT3tXqF5gQZekQftUSebrNFUdyVI8UNI6+ffvuq6+/NhkIkrmafvwRZbWbD0KRROYqNQszo3h2dmGvPPpHtzdOj+ESJkbSsqQVJztHVvf3X9kcSg9ubE3x01jYhUrdlqsCkZXjXHYXwpQFy7u7J0+ekXfJDcAzmN7JhhqZIh8PUK34iiwvRjD8KVV2cXoGLT9I7cny6zBAAUlfK0j2a1QLUnatUxZYofh29kKIUarexcVGw+emZ88viKUDYn/91a+eba2/3LvbevJs9xnGZ+3q5vhm9/bg8htfJnSsxXlnU7P3B0/2r3715dns9LcObE8l2DbezUzlGsebhfMRLJMfaodjFMf5kF5mTs15qiAF0b3Y0aUuPaYMeBh/NeTveLpBpR5r9k8Bjc5/8dkXSvGDH/zAq+uXdDgmW2N9tjSu+ppXCju7Uk2yU8b/4g//CGNfffW17Z3nZ5dff/Pq/mDt+cGh2swJWVl2rigonq506Oo1bC529xP5DS+8kyjRANMhnkol0IXQ0WHlSsOURWD3aQeixrpkt32WfMuAx9y7ezeWqxqGJwdbY+in13ZeRTRMBDETXSxNMTSZU1F5Dyml3LU+U6Gxcks7Vz2ZKmYjlGIZtMrif+a3Mlg+IAwxVWoNYohaElxNOshFvY98kLZCh9J1BAmOrEQfZUdcCUFsrV20jWqgbUBEXCBR2f1kFX32zdK5GqhOSjoqHCQqpWdaByTtaRo8+3WJuX5IsMCUoZpT/b4XmCavhHnJioHIxgmg0TbOLhp/h4ek4huYBuhXfnLM79lJqgRLvSm2kQ+Yh1RdTLIAM8aDFELIVAUY8KjBLkpmnA5bXIcPCNsjkBOb3F0Gv7WRrX4u7pxuP3504HDwoTnYZOPynjGlr/cdrO5iYH1n+z4+dXK+9/rsrSQ68VbFdQscgjHuNQaZn104O79j/eTWTnIxo6+/+uJyd+/Hn/zw+Yun7vwzxf/2bb7ypXNak1c0jJLQzjoEVGSKUMuz99eWx3w42Dd2s/hIDRiPpkQ3aqPaor6ew8MXFte200x0U5miO+sUltpHDuAujk/e2Ac4vd9jY6grGt+ltDY9Ui52NLeB78pqbkM+eMK+4vDwbKbh+VBrHdXVVwl7U/6yi/YQGz8nL2l1oKl7aNTB+ibjOppfZzMOPA2T/uXI7OYdsP3TC8YxVxRuT5yVrvO5tcWugMF3nZLEGINorSDhNBnSAS3j6qsyFUZOsA4VOirhz7vj1yVLRGhhIovyNTZneyjnqI00GfFGUC4IweH0mMFgb65KKeFvdoVTJWyBrnCviOlYnmZaBL5HWrlWQb+BSWU4xOZAfEaqu0ZHN3ebs+2DzdH2jc9y6lpkji9X7eYQC7G0QGJmZ2Z3++3MoOFat8RUlONW2r9TWhkf5AT9quORngeaFQXdmIB4PVmMCW0ZRIUxEblqO4ApvCpDHgFeOa9gFEQpnj9/+vjuiZhf/OIXJ+/eqiYlsZPC+FYgHefpzGg7ufvIgoHX7/ze77/4+MOnz1/+T3/2p4zW2B0tthV5yly2qRyNPyO77FkIReUPASE2pPrDWUQ0NYJ5wvtid5PbrxK1PLEQOUVn/qQ3HECvW7bEGLyFO5kMTkKB4UzRkyxLHPCjYby+p6e0myTWSDzV5bJ9FBcGnDwhnvXKgDkuoJpzI6/fAXnjH16lTEhR9BBhJV0+hLcPWo2gX1OKZlGJQ0bUwJYKfwkvlSQ9rByQB0mJb+NsJJ6rXOQgBYEcDEMKxE6B13jVnR4oJKYf9d26sJ2WnwOmARlUrBCGMK6zUI+p1ip1k9dkLOu6Vi5Bch1rnB6FUbJPR8s3cl3dheAc5o4riZBO1ZQMmTbyjvVs1/lq9pJalS2Lldk4aQGEB5nZjZJo3jxMFYCITfN5yW0/SRd57zGBpN1UA15RChI00ha9y4ejS3qc6s67DimL8NEHP/A18Q+ePZ2Yk7nR/mOElJ2OcPof92wHNk+4dr93+9HL+89v3h4fWyJgnLMetnAnzvr52+Oj3f2jyfRSKr3XG4dofVjv7nB/18UNbn84W79AhuufKFOfPDRGacL0tZORQVUUR6oYsxXEjvMcw7Gs4c6qmhIQKInaiYXb9AHHtUsF0QrMS6V37S53Xxc0AaIDmqUyz5iyGs3Pc1Y6R1M707SslYWoVpv2JApDPDmpODAcTwfyd0VX8PtHxYZdXKULY4dUPF5FMR4W5o0FdNhSTy4WUHk1Yu6Ey7wrd+KBYKMrQwTXVVAzjvfuTjMjx0nYTjEpEmrxm9fvdOgtTcrt+sbO240f/fgTrI4EyKREGnsp8OxYMFpxuUhN+Bcb6nvTtVVghfgB/jqOo+BpSqVKxUWEqozCusieyy6pj0LXuStGVNYSNisabL2NS+E0aWmZ8nZhp7mb923juLRHxg0lei8qn9o388qq5Xg21vQZ07v1i6sctrtxnaNvwVTnz0RCxN3XajxKr+oPIIa9ntSVE5owFmEp1nUNpggFuSznqt4BoFN1COdf2v8VWmlfPntuT23NhZ/q9bio/ipbD+926gMIWTB2ZABT9LFsYr++/X//f/6/bq/4gz/4Oy9fvvjJ7/wOu/bq1Tdav/kCN2IsR1fNIPkN7iFZJcpL2ahGEj+AZuiQpJF861n9eXBdGMmIZ2GuziEdwAalx+kX4aYETdQv8cHTWRT8MveO6yyEx/JVFwm/4nQ/6LIYowzgaCvIMJLEaY7ggSdu2UjEx8EWhA9y6BBPYYkaYAq+H8FWrslrnAIehuObcEE8PZpp4AGmkQ94vIZ+NK+OEAqRlugI5OGEtOtUDeypuofw9kBVIpjbifCd2rJkyWbDHr25cgMeHoSljWVa5n2pAYpKoLKs/CCb1I7tcgHzWpoNbCT4AVODfJVnELbrEMBdNIFCOl1HdS6eDx0wWsxTKm6Ab5wPs+X/FhEN8eDZYxT1M6BKCTJvE22E892eEdOJfF/e55x+8sknjx8dGmyZBsP6dd/Ouzo3V2ESyZfor03aUz13pujunx8ZGB1/NRm/PbaDjXjTEYxDLkZ/6uPIJvQvLp88fWqBwl00Tz/4wATRZ5/9+u3r13LOKC0nGa7Ozk4eP35Kj7HVKqFYYc7NiNMS1XLR1AhAFaeCdIxIUZpAy3xYivj0Y8Bk9kz2GoJRXjaf2DCWb2xbMHMHG33lRnHzTrUJuy0WDuSbS+Wgwm+8UssPuJgsOCCewpvp/EjtwCHEayV83xIbPgBLHi8RC+GCF85VLbJhejDQlpiIraxrmteU6du3x1qPj8Tb+cLW7EyyIqCKGzE8csdYgZYSTTK724jhv5q5XSLiyqhkm0HplXSIfJB8Xdkz6+NZSpVGiTlRL0WDDmK60UUp+tOsqsQl/EWzHBmDdmIx09Orp7lKSHZ2sXyvFt423HUkqkWutZRGDDl59ySNNr3rHU1GNxbM12Zz56rou/t5jkvRbmu3bqAy2LS8yiRkSUD36Gw+OzOBbD1VJ1gx0qPWOJXTCkiqkcQojk0N6LGbHL34JS85FrX4EBK8oQ3BRc9SIUiY7mmprIR3DykKPUyGxM5mk9Ckmq0ySfDFl5/ZXmSXoFgVZDCqeiTnSB3mOaVuhvQ//fznX795TVR92u7xk3TFzr5+pSeynArpBMOzCfKEVCAPh7+eZFUIv1J11PdTDSHA2nUIf3tCK1OS0uUgjI6e7l46NjmDvxLQAq2cl7kLkLDz5YctPOQKq/BlZvWzbE5Ze4oruADyd9qloFfsCpvf3+A6uYhOC9UA1GibS2LRoJbENjFmPL8P2UlQ/jCKvwhZPsAMxRmiGj5trzIqUJK3NDzZjZCyBm3mUbLJwm66XKYgJDRXbQazkq9Y1cgboAlrOZODwHYd3v5UXEnCEEXY5bp8lVGVPS05d+os1QSK/aUbEVUZWEiaafxKCp5kV4mWtdPhoiCExuaBrDS0JsilnzJtNaGwIbBpiO83OOCtAjQ7/YYlqztfCWHO+gfhM0uaGbbQW5s/0jeHL+o/BLhYgMUfHT46fPb0cfrvsyvzUMLNvt0773K3BdSJojZX1o1ty6IvD8abR9Ptr7TXuxt3EmiUpp/c+31zeeF79AcW4Z0PpYDsEzg9Ro+NaudnNpZbHKWZswVAu37z5huzkYxKcckqUbYwmNAn2UrFFGFE1t+QHp6RCp2UHN1J4VdOvMXtzBjRgrUxOP0YJ0HSSSQV93Zn2Gdv68eWa/dsbZnu2HwYDqxErjEVDatKD3/CpY7CDR6vyG4wzw4RyPF3SD8bvgG6YtrfapE0GvFk0ANaeWpE0qaChYoIUUjawIoAep9A1WWG5l+Xp03lX39pnpKgAdpGki5yKVb86JBN0xMpDz0Pq9NoJgktcfk4y41BmCfCrq/3dUfS6ViYH440po4KD79cwFRGkY0VtYHCG1FdcKjIfCfkt8ATnMVtoO1AqhEG0SE4CbmwSwkMEK+utyxiXq0vjqlMg0Szyxt3F+uXJyZVDI6MwW0Nmirsu6ub46ub0f7e3Xh7bjATutNxKkG5ywJlVa4cEeOcrhJkQ281GexPprlePCpDWXiA8bcDJoTz2k243rIg7TUlsi3GucPrG4Zwf2/HyqKF280PP7h0zyeHJ5kCoZ3kzRjPP/7oBy6Csq3z6zdvffydKd/e2TWdaf/Fzu5+aG3WeLYw9XMIHMJ5AlwTLGgawhvDkHZILjxUBOu32kxEMKeBqDMMClC6gWVQdAkyqV7sa9bIpWu0PVB5be7EX9LKk7ySy/uy4LIkPpshqreKho+rroEoLlFV/DyrXFG333YN8O2wvCVlpUUPN/iJf8W8f+DrkByRS7cKDFxF969Yb55em8nY1YGNZIgaAHg47AJZbFhm1+FoI28xWuLKWKi5ZmADDLS1p1sd8ZNROxgESpLXDFpT9qatAYZXkEJE6ig1fOPkVx32H4EcOYlZwh3/CpXYAFSpeRphheVTTcLbL5xrnO0RJVOuUXkK6SdP+xs+L6mmvEnbCD1zT4TJlbRJBojFigOgpVEi5dLwBlTOAj853Lc9Y+b8jRUoOws2xtczGxP28gU99iD3Wc9y4tT4Tzfser43Hj8+PDh8t2sXoL49VWEKz8ZpX8r7P/3D/8Pv/+5P//W/+7NfvfrS1Z+/+ur1J7/10snKuaPFccmaiyDXFgZd45qbyiVA1nWsLdnjl+M1G+v2s4AkBhqFW9hspkez4qoSJcJySQyj7uaLbaotJ63pYZdi3FIc6tf2cmDW1ORqRJl73JRhOccuaQgID1d1VAqt2naEIvXerpstmW0+S8gjCnLPcL8cbH4923XUg/gAdSoVYZAnpa12qinntV21EVFvhBKRkehQxYfNOwBbLewdSIkybjQ7rV0SpIBxygg/eFVF9xMxph9kxm23c5WoitSdfXPwbY3pDwtRjINSpHUjrMnuIsAQTVbNBBhVtvJHbMK75l6Vtye3rQ4plL0kSL24dPfxlqEhnM5EAPYayaSTsi3PVX+5TdbeGfzSYaoVUMbBQouL1jfOXtnn5XsOqnTz/nLNn72hmpp1IR+PvL2fnfv02d1od+9wc3pwkQ3KRAi5+jaZcso5yxpL4Qk8BMnTKBxzlELR0ilyrW11c9HGw3UBiSU6MbwgY/ipKqVAaIN5KotBlb6AtMquP3EzdwV2bpXTafLHg6MwZLfk3f3r07cb+ZTvKMfy7ZHZNvjPaXc56YAFC9fC0XnwcwILUTLm76cQgyGxDSmPhmwAgUKSecldJY+m49JrLQUNQDu+ub/RVZZ4QxeZdETHZ9XSs7dGdNbQgm/HDw//kGPIoH8zInufqcCEFyWSwJOn//X0GhS/qeV0ws53aFX92s8G6Cf8hTL4hxD+oeBiVSSXwJWKBznA83CNBL0DksbQ9AMQrtSdHT8PV2iqXIWk03ZeuAleMDCJ4ecRpaNs2tr9CWa4NATaL9X4IPmAvNiDqe+1TIdA1ZSAVDavS8gS0MKUTAWyBa2zitRQhwAhmV0JN/Ix9QboTAU2jCe/qIdOYjibmzINhqV08ZvvSn2uMgrNjW35rGbDzxVMMqq3PGFrpx2YDdMI0ijiz35Cygpuf+4tzaoQIkEs3Jc/trTErOVeho07q1DZweNGm6uLdWddaqOjfr2WFiuiBTpcvLHhq0JPDx+dXM6PXXTrIOn8xnUFL589/d0f/2RvZ6KDu/OL3WtnIXf1mKMjdHIpspC3vCZNdwFRDktu6qq6G07rZrAyH7i4981aXE+S2oFpk0VtDDRrYSUzRQasU6gIPlRBJ5uB8maK/A6i3LJkQmbEAsg5Tcxkkq1j1/Nzl7jNriRrLoUD3bJSyWZFljMHGFsBCeTUHXge8FynlbBdh1RdLDW+EFFC2tNgXmlzSOhQww77A1lvWy0gZ0quHh1hrx0HDRwmlXDS/tSDbr2C0PEmnWAoAmDP6KQb0JCRWLKjT+Ccme2CFpCcX7o+swUg7FEqfwQnwuELA4s+pp2Gn5DYDToscFwXAfdi7GtDbDiJCavYyiuCKnm3I0Xg1LLMetJV6dirFv4wKubKHeekjwxmpyfVn60KNoLng9DTvcu7ndHe/O3d9H7LrcrW+u6v7ycuPd40ybkxT0KTHNPJwZMPpxvXvrx9+MgcoR2mOo768UyFLSplYcJnQquHooMiRHaIVCglZVrQHKatytKFTenqsFqUSekoz8FcVWwW58Ic/y2n+2zphcXTXEPt0rL0n20WobvJTNkssw/qyDDXMUTjenxPIwgh89Cj4nMev8SlKSh6wvowq0n0Uk5IB+JBg3UFCGwBFcgPVji/Kg88wdHuK0iLyWAo8y119byV57I26TWQi0wGZvJdt0PW44ULo10qrPx2AaejZ7dPVuXkrqEQwszKQOCioM4uVCKhafM0tLS8rBOiexSiRMIfsxkYS9KBX2m3TJ/w15PHrENKYA4hwcQpNrJLlwBBaFipuw4fYlPqla3iCXQm7DLhLVVP3angIO8WTUcms9RpgMuDYTxQDYH8D16Lt6X9gYBLsvCjkWQLXFQvFmUNI1+StaXXgRGy4GMB+jTA9aogrFzez1gmPDiWzitfV7RaVhv8CtUu1bnclBPakraAeQB0CD/Psk9Eq6+t37j1QC9JOzBZZeq3pv5T13Qoi0CGM+fn3s48rR9pskOm2dqXtUgO4qV78IJpoaSdaDwOJeFQsWgV4y3VWy6l0wVrUFlmQ3xUm06lNgNEqU2YkIis+5Wj16IgNUP2wVVGlro3ttxjkeMZ9T0F/URRPoJoH6ejV/q5dvLZOri/vU352t3pwoKvv/js4u1P/vkv/uavP/2bn/6dP/j4ww++Pj/+/Zc/pS+I7Feff2n0lpmhNNJcTIK1/z/O/uvJtizPD/vSnzzn5Elvrq2qrq5qO93TYzAOA80AFElIgviikChF6FEvMn+TIvSkCJEiKCpCIEUwSAxIYDB+Gm2mu6vLXp/2eJNOn+9aJ7Nu9wxCCq26tXOfvdde9rd+fv0W6kxQYEbXo7hgN9pbnR3KPbtksICaaii0PDeWSpah7mt/WeiKCRuBebfml5FTGIo46T+xZm3Rgzd1ESedjmenFjCB9MrJDIX21L6rQsnGxNwYYT+lt0BmLgcbU82on7i5T5kUqUxfVlD5NZ9IXF2U57CkVQN+6F8R1+I0JOrdaHK7hD9INFi15xOTIgI5o2OaUSa6MEaJEoLHSTC8sXU3b2FdIvFqjpcpvk1RpCesELc/gSLam7ZpZxft9HZMlWZc2NHjumJQjPXc0ycAEKw277jl4F5n0p8svzCX1K24hrntJ5gE05OEP8w/5UKIcmoxacNE0b+WD3O8SMS74tJZ8is8DFPguGhBtzrbG61Oa2UZuVofXTV6063mDhlr6WrNSWeXzmUWWMkOB7s7bsYj3iErl8vt5aOH+83Og58PTxNgzOwLzQUxqszkcq6xwjKGRel6M1kQxT/7uYX4CpVyhJvJwsNlzghksSQkpf11TbmLaqyOQfBmoLD0GDm0hKiUFSeX7aDmDuU1/vZ4Ffgs4wElh4M1FUHTno8G/cB9GDIE5NpGM8NCVlbwfHMS0lpGKipaX9bh06B8UFqW8Q6XmW0oSgwOx6ytRKaToH/3qTyLpKgj9cx5IKAlgBvGFSXP0hXCiovPomBrsPUy1WamPlUABSrihQlez2yixjdTaC6wGPJ26/CPIg7TqwZZy2OTo7uAbUV/sS4HmEhb2klVstZogvjS2OjhefXTWFPd5ggoLk91raRxAcB8qbhKYOpklK7lqSHLk3qnFTn7CsmCTmHbi17XRFoCQNPoIZ9Vq6U1hi6pIFdNspnUGMqjr7UiDTZi8+U7h/v8BLIQ0IR7qoYhOrCUgy2Kaki4BJ8wZpS+l291WPOykZbmMy7vIFJFQKtFbSXOTdgoYGRogJ0aS6tyQA6LkSmbASPdcw/UMJs4x6qMsEq1UIOlMtaGOuYc4wFjmTI7zp03oGuGqoKNGxk8QR71UWN8ozGQKM5eL1qtJvJV0GnIWAoxM4qbmZxV/Fc7WyyY3JyD5ZQLhDfCmY/jzTuX01ZYWyAeWJpGS9vESxVvTM0OWtTm0UhfClnlAwfL61txVbKBX2bx6SfOuFrPgpFZgxOcpgFOfHRZJrdIf2XfntGe3PCt2KCDCrTfMhfvofROuVtfXQ8ZKycNTkXVb7acUK6x8Tjm/Ye0i76Eu1q47o8GQHhd+KXb6xbbld27uMvr6cvPP6ZSWFu8mgwuxv2uYJBcH5z+EzfaA4ipRR85cKhJSRcXveHNePvhI6EtEMvx4PKms9xubC1v3ppVMdQNe1BKHDSiuRXGQBAQshO8A4ioLpy8ZVRsJY8keTnBCyIHPgm6KAmyNQJBESjmwk2nSZYjvwZ3kzClHMGOzjmCl3daK8pGEwOfomzCo4IGVD/gkaFMcmN4g8dBKMR7ecWqxKGDkOe3q/3WNrmvbG2R+XyoiuQHMStratS2/Ir3dhgeuiDzJcSR1ZNt0AAgsiMPPO7NGNkbhydd9Adapb7x5dQUZ4Vad8tr9JpoMu6Cy6aQfjaw0rPptrXd2mx2dprrG8v98dl663KtDbeg8UsrUy1eIGA6Yn4yu3L28ObmTsKsjycAlOMkmwosoK/FZWNhNJzaa7ezjZ3CmIeJDz68uszisiJmE0FEgGo0sisr/f7EVtl33nmSthaKq+OSflIF48+xGNlIdSX2koly1poj8dY++MqH0R+KZ39z83R/e+1sdP1mSDm6vfuovdXsntpud3s2GB8+3Fjf3rpaWB4vDCYLg/0Hzf7gdKNx01xbbKzcft49A/Ag1Cw6XxieYeycoiLN1f75ICBS5L/pOLGeE8BjYdkIcfYxj7y2zClLlK6B8wTVl7loys02ZS1sZRsZFhPXoWHhqqKMpUTDYoTYV/BAa0wTkhJMAyMFWG7XG62Xr09UYAnptZXjim2CcBG8o6MDmDRwIPnU1XgprhRk4c1vPKxP7p97JWV0CzTVn7oRkCyoWWd8XHigHKli5YInZcdkDu2F31M66SJYG822QFSC9XYlPt6XnJaB/tK+imNdvQ1ZQbHcg2FWRuQqgoT/g88gN1+AiSAOGx7DYcFX2Pj0wPjLAZVrgSfWnJbrAuG+FJ2OKzZ/fiHV+vMoa1JXa6mlrdazpA7lq9KzZCsllx6Ugoo1CK2NJFEelPansymu9qtQYk+UpQI3CqlFuanJ8khliYaCb6j3aZtO6bFvFI6CIKlpZ07zM9jhGUwB1ryIZGmhlxH5cp03+L4NbmpKtrukyjws7UEb3aaZGlg6WvNra/RggpAmPmxbk3ylVdhNGdwYDYqmjIn/AwppRik3TfWa1lIPKmLyCa6flGw65ZdXfg+LfBw8qHw/3UgpkyY5xHgOhF5JBg34yeCmQkB5WkW0MvXFET9Gq5RdWIYy0KWBzKvz1kUvk3osSIN+y7Y0ZmsHYTjJfEXpQlkkt8Cwzpm3WBGkcoRaON5oGaoahOEKmfVP+JHpsIfrgMVwaeiCGSVZoVnh7G2tiiklG12xRKIc7+3tGlv6KrHrtBM/ARFIrc3G7EpUipDetD8pc25EAAA4L+Q6W0kKXcc8j9ZbTgCkeSG7iMsRXYI8tr7QuwQecEuK4botKur5WciUNs8LzRhlGMw97YXJryyZ0SvDXj6v7zMjdYb9dpccMJEfiiipsIn5lSaXZML9grrCHhVUCGGYZdhNKyq6E9cXINXs0VkX2AATaLpsHdHxy/ZzoSTkCRNX5k0hEpsMaRkKtbGbT2CkYRq2tYWdvU0BVB32NBgvtJrUX9mXvjS54qKGfpsw4Of4zcP9I5N4dnKKA+BHh0vgQZBFV8YEiW212tybzD/pJA3D12XrOoQdhOUBDQhUVYG5DkvmSCpKC+UYojS7FKjBPikkPKeExD2CgZE7esGgxAErsrHo4ETKtLXlxaYThs3KcDQ47/euV6eXLbRROK5Ra7Pz7tHji88+LdEOQAqYszlLVUI6Bbzh0GZ7fXQ5RmfJfjQG2u3AZhAFo2qA6TBSd2swLaztJEn6vFjusgfCc7AKMKD00J9wM9mA7N5oZAKItRmuGzoGGxbT0ayeiHxm3kB56wRKhCCBl64X4QpU0BwR6zTG/EYZWAeu3txfVebeVUqb3rpJD0vKFGRW8lYHwt2V5GX9Ah4HgF5JxiLUo2A62VNsgVwlwFNlkfidVXdfl8JSAagv5SvWvYf1JvdFFQm7FVTHaJ5BiaDjWrxdVWhAdKV+qH2lbbWZf/f1/2sGn5X2ZHxUpOQiws5dez2pJdRe6HhhEtGyVOfnL9UqszVUHxqR+s8f5Rgjz+elKUdNBipahHJz91XNI78kd2osE5chvps7MCddLcb5u+LdFFXGs5ZWv/KotrC+leE+1RbWq2I9d+/GnEJn7u+fkAnwgJpQ0YqicLVQbVGo5MAOa71WWj8x49o2dEJrdrXPx8e38ugRLjPZaqPvupx6y9vYw0vyEy/rK+2vT2rz8pM6pTTP8/rQtd7kCdAKgGTRVOTulSIgOk9MlwbXf8Y92A/jf3vtwCoxi0QYtW2nlLU8u+iyFERhZ7GPL52FSKS1NCF+57r27YocxxijLEIGYZKc4dRmTzZ396j18RdQGzVMo90S6I13BZaDSgBrr3nw0camE7kvtzubaJjTsiajKZlgaU2Mhq2rnLU7yUn2iCfMjQ2L6oASKkfb+QMdmPxEjupdMJc0J8wbSNWaxtB0yQ5RbG1sOfp4s223WBu/AFFZ0jCXgTVKrvfzmw4qNYxQBeqAgSSDbDXn3c185P30lTygpI58Qd8lV1lB7rw14q61fOSqfgI82OfJKHEUsfpJS07ELUtJjSCkFi7Do0ePcAxQITBA5iHZnPtc1LlkRCVDflouPwvQ0WHHiEWJunTV6oixr/0Ug5fXwyvo2wG/0USoJ3sO+NMB5uX2pph+y4NJL2YN5AK5MmdlyVxGr1Sd9+iA1ZzzggNZBfDqyGgqlBvUm24aiEA3iMJKlH8gPZgZ8Blr/0IrYtxXSbaBg86UxyqnWRpNYcGjfdE+By4S0cHosmI3d+nf+FtM6VmmV5PupNtcbHR2HzROW5YTPSTgouU1c9TKijMttK7b+5tr9i+sLfcHozevjkWndJ5Wg3hNYl5ChLK/ODi2rMosEzWFEczCV1CdtUxcwW9G2BSYOIyG8GPeuvewDr6RMSBSyV9QRzDWvBB5wuSCPY4wOdQgR2mDUp8LVBY+JVUWwpCP7pIn96/u7z25f+h75Er2fFyhJwrAkgLGqT5qtGQpecoNiIazI+x4VTBvsgbQS57Mb+rV3PuSU09JeVfSl0/uave45vEKFEjJA9ZKwahVwKPWUMYijDDyiniWZKzmRb/1567SX8Bx9++9va+rchm1DR7WPLUXpRmpWP5Scxat+3k5JKTyqv6UWWW+l4kMOM9T/mTa6kClIACSp7WbIMMzV5/70HMV5XVJ8mTMy0OgUKrOeIJRVyktvGuPe3lqC+tDTySf16u5cW91uJYMach9TveqU73MoK2OgCuNlo0XKvG8KiqBOKKlzbXZvnJjvWFR3QfQywyqxY3yC7/xZTs9l5QWq2apyE8tryvBfa3aDGcoSpsVInlVr26kAOLdVNQn9aGhD+AY6fCOmbf6PFCUQwWdznAt3o5TTIrbZaSiwXB6y0+wINnpyFaX4dLUVtzYCJijbBnBdIvJpiNCL1+tCEAL2Tmdna1ojYd0pe7Dq6nQr8AfQ28eREoPES3IISO2th4nK7vBuPONEip3Y3PdSfOkIE2tE6TjJRHVUAgwE+oFXJRot+hw1I00Jd5gsXJN24hcUL9xg9l1U8g7Zu6s0JhshBFIIIn7VIuWrVbnav3kbe7SgDqb9b7M4BwOvTI7Pgzo3w34/Se+klkxyKQqdNATb6mA4H33WuU5ciU8Ff+Pyu544pXMqpcN8HCXABTYeaVVcsUiUKoOnbqyI65E0kLCbS+Di7G0/DFo1bPxQCSkNSYIOClmgkC5uWssUU3fLovNOV0W7WthbFgWHLV2s3y5cNVAOqjfY/8iEoYBzzdBPGV9RbXgUX6SqgLCZYgie+CRuA5of5FwI1iXHf3yy2cUs2siMlgEEdcI5g4PmbKTpgyxlKmhxUhxDCUETHs3msxagiNq3JpQzGuL4XBW+4vj4UX/ZHDW6C6t29/nmLYcKmwSgNUVRQuNLJyR3zdXYiy3tgBU6+JcKLeLgbDHdjWs88ujg4RFneaZSSmqQXNZlkYw+FxRpFmmI8oFSWdlmVz3hoPb4UJ3NMgaw7SJrTGbBgVF05Ykb0DCzBrVopiR56Of/9y4GEqiFSuaYTJNav/1X//1YIyKnlLNHOpSUIa4JGX97ZvkeCvJU7N5lsnBg6YpaU0Gp9AP1hi4VIZamqt8fiePq5eFmmA+ddlg+wdLFKNj3pcP9VmhbpMQJVefp2614CrLSCg23c9Dkqrlmpx5WL6qX9+34W/f1DLnrbp7rbB6W2/qtZSXS331Sz89vP/KfbKVGU1D75IMhdx7NR/tQgjC9qD1hvK+8FIU1AB3xb6M+CoGoQDKcWiNxht3FfJTmASGy1XA6CEAhInyhTVQxsHD+6bWm/pEFZL7iv3vq543/q7Nb/+VX4V6ZPV5nkkoDJdOgez7nB5DE5AIBt89UTgZRQS3Egq6USMw1WYTWJmNSq40OPkNR9b6l81Wcp6U1rr6XE43Zslz9/VtSiuz4Mu/3Wt5PAxeUlSVq7TeZIZtmj/Rq/RIIwpAegUZFdaSFBVX7z4POs0w1RwD8aD8fenuPXR6x3jCQMcds7XSCkurPsELotBYF3Xpcm087XZb3IcaMOq6XZxpNWMspFqwtpEBvelIVkqGszDeIpXccPCFvsDBxtb67sHmOrTLUYIBIS23pLJ2YGRbmCMCRd7OP9NOhYlArtuLU9Q7TIUagyiaHWHcddIsBKUtLNvyxZSY7TyJ9jpnezO+ZVFn3O6S4c5s3kG7Br+dzJRZyPiVDKWEOVzUe8XU/HVO60+9leYll5NTQD3pPGxU+QlxFr8iyt+QK1VY7aMhy038+9P7m5A6zyVPqgygCs4jYr8AmHkjCiBZHPh4TJazM/lncIaM5ZbJgP9Ma3W31VnfXMEcZPk17L9dJtSuLlIkLtOe8RBM/ylai48f6hp1Y6HzzXabmY1aQQtjaRMki53PPJikrNIg7dLronJiZ7Jbqqx8NMzCMI/mXjZ9JWnTHOgLnUuaxWqKzR0oWexAEbOW+sPBTmszHh4rV6OrbkcwD24C/ORvB5NbA3M+fTG9aW/wCwmwxgf72kGQyNAqhmS1gZuc3o4at02UcaXBDXJ5veWUUJYtTeGNSgq7iv4KBBWBpE6ZgS3iXwEwbBXIwV0VECEasXU9f/7cKSAWYTTaDb5IwxMe9TfitpRAXxVmgE5JZtYrU+NMr2mf96uBzPQE7Jdy3rpt1A8fP65a4HykEfNPyx8/FfH2k5qnPrwDs3yiGuntnKWofF47ZpFHQwd0zVTBbnqKaMdn1mSVhMQRDazNWsvb11rI/ZN5/oJudEWvClZKdXdLC2CaahRMp0rVIVfYt6DtEtrSIskol/8Lwr3FmLNIezQfivuep79lYHJTh9ifkjwBQ/d9L70Olao3NU8aX773t4xTuAmv6tVNeV8q8FBfqKQ1tEyenuZt4ZDl9zw/71pm8ODBmmrhxjmVhvbnzppHEqyVe3IVri2p0O8yYz6UfKR8yU3lQFNOSfcZ5t0seYLYy1dZevc8xR0khPNIsjTns6klhfZEQKwNhk2kWiMsKcSAxtL5cMYTvxkKl19Sgg6b4vyX2UuqUKUodfgJxNPHu5+l6vl43j9UVL13LR1NT2vOWqif9ynFFuVDJWOe62+tzJjSxxv5maXJ9WWCZec+Fl+9GVkoyPCWLAXGgTNjgh0k650tTOLKZEqrgpXF4zpacrJ22R0PN0OvOPitCtMehxV6Kf209ZCEoQcoDb471EeLQPS8U0rHJHB5aayTIRLKWe90qg5XXUHa7BsPXenBgqUiotn0uqBAmFCq4IEjng2DHfATcK7CleMKTRjYOrbMnh76pBbrxrCnGZ6U0Sy4NAuh1ng/kikHk1KK9er+ebmf/3QfolJmo3igKXWe5FdvgCcqXkJBdqHF/aPA1X1j3Cgk9CwnYyWZP/dKseug1FWYGIAT8pkdAjJv7e5xRTEDKPNwdGFT10a7M57y1RisNFfWxF5fct6F+Fhr4gYtNxfPzy76M0EjONlykmgheeJLcJ1Yp5q7iQsz0hROgh/ZCgE1sgj/BVVqRmlw5MXcZpIzH1YC+kOwipKnJGrH2DXCX8cVxVTi9LTfCJk+85kppi6/uhVxfXm2IOZrU4uGV6PJcHY9oUvEL90sj1YE9+fI37taaDopZnm8fHU2PGf1FPEZrYIIGdeuLyd+LizPNuxTF0DX6C7aVm1Njldaiyvi6y5do1sEG2XF+zotubYRvg57nYK0Jyu04N5i37HC86piiUJ+coBWORvFhyN8W9kaKE/pVx0eIxJEUVlVKAsjiDQXVnaV66dPDO/r4+MPuDrKaLSSu/wziP6BIGBSAUq53hr1XAtk1Jt69bYCZelAWamyh/AEdqk9dSVd0jFzFKhLSMhkJiNghOT7EoHU8n2Rf6X8NKosuhCYmnxdCpijcmABkSGIGaVoTspiTJ9CHnxUYAQNCOD4Vzs1L6u8dT/vY3kq//3bf9eN/HIZRAArEafNnIdSKi3tc50nVd+hDxnm93d0UePzr6TauHQhw5JUuz0vBw0yqBnb5K91hWKl30CweFLcNV4zslvVHtXYzxUz73ctqpQ977UnfsqvQPeAozbStd7Uukqd+a48DIC692luypr0rWk1DibWTdFNBihl89A0abo82po8xaKgLvViu5Araj073u189eTo6Mg1lWlYLTzTmORz/3lr8Gvhxj8wYNjBwF0ra+b4rUX6ScNqgX66kdxIstXGuKl1pfxItgEpRGsB/BrcKHNyclhUIo7HpE2hQIpBecbXMA5qYvdhpNEcFmN+4O1WM1JTG+qk/cwMsUEss3nFZOWoef5qL4JP1WmDagNyvEUsxlMsucgXTlpfWsDv07loKccOvdDAuidsyT7luG6uLfNLrqdrWeEkrHgq5tCKIiqmm4bEMtBxHQ2jYL0ZqPhxFWDImuE3a7qzeyR7aCeXM4i+6jPhULonu158rBFGW4rF5g6APcwoFXgozzJDdTDVVVNaX5Jv7z/0qty7VBCag5/n7GF1Imoe5UuyKTb+dVCIjct3M6hM1CdeKVF25gt0DR8vyYP6Ksr4lEah+YYyQpVXACbt0TWejGXPEK9Lc7K/s21wREjHP3FrXbkR62itJWT7wuXwcng2eCNE0ept43r9tr2y0W51TO41kYkTH2uLosMR4YoXiz6bz20kLtuZrq+bWaB1slWfXkNrsZOQlfEGWRvhOeY2+5Il6E8mWWN1000b6Eo4KCMOwVkVa8Dmcpnv82Xv9PJm9fJqEr5x9bbTWVnfXEiI/ZvF1RmAjf1zZcJdjwEqXs2J34JHmYxm4153vLgxGbIJWTrhevBArVWWvIveJaq70ly2A6rVbFIOkLYTOTGOJwAozoTWsC9MUGWgU6gU3sp6X/HZ7u52Z2uDNpzbqkmxIDptZP5KfHf3BuR+TKJsCTLRYy5KObcM4Y+LM3dWTAoovLkRDTI0TH2ppaQ6UiVb/X6Olerb+9Lrz7c/qR8GFjIZ/vd5QX83l2hrhj5wZ2d55Nu0i0bI4sU4Q7687mEUmMgXsdUllXIqdUtL/Ky1u96n0gAlRdmlBDUEVcYgmCQbIAkYRw1cbN4eJShAUu1xzVkyB9Z+Kcn+S0/e/qlJyqmrsdIWT7S88HDzjH+7BHmkt8up9/c5va33rrV5968CCWCDp1wZz5rT25qU4yailRdR+2ZNogROYjBGSk2GYhIICShZPblvjJt6Xwe/3pdn8+cak6bWR1lKScYYGFt67suSA8AhV4r308My1JnQ+8RIUPGFtzLLRiUtJQpg9UEqppQg+jsWTE7NV+acdKX1QeRSqrjk4pCf4Y7KFHhYhw658ry0zrO0vfx0Scqju5z1vl4V7vN0pNyE1t8/0eD1xuLl0mx5gtoE2yEi4SLEXBCB9YpDfHtrc3N3p9luRfd0vfj65Rt2O0uOLzJOcXWjTdUTxROawwVqaWGj09q6veqT1ISjbrfp8HkWJj5BPCzIQwSd7L7QBjYG20r1V2Rqa36zs7G50bacyubfcmhO7Cjpl/YHVnLjiXXmF6TP7X9dI+BunDX+JlyrUUG3uBo4/hEZZgvxEGDDaDwSry41nqunjyARKOy+/PuxqoNTR8yg1ecVTFxLYVnUnstZ397ncVPH+e0nskkWSX0VKbzMJ5CgxeKxXudRyW7kqbBt9MBSbYZ7b1VKivJQ5f5j+/GxT9RVc8qNxtAd2lDcaGw4CGbRdplni6Th5ZGhtEX72sbv6eXotHfOW4W3INQ8u5kAKUO/sLl8PV44eX5sCLOdAypfQBGjxwM7aV7xRi6dzzCD0LS9sCnaVpP2aLP26AgZwWvdqY0MrjRiIQ9YFspZxypaypUpZzZbw4MjR873vOWo7xgUzaPBayDLtlhPrh15JXA7f501NqlmX4An5SoyiFjk/tnFsGujOMPn0cpD6kpmKEC/2lpeb6+JxRL3hrUF9wyHdrU7BoewSMy6bzYkkhnNTGVIMxHYKwNfdFye4zBaqOB60+Evlrw17okGkDwLfOZbizIFzremcaOJXQCr4eht+l9lsnfBZCrYvzyUP1KzwXKV1Yd1pt9GFqWPaZDcqpHcexiAqO/KiHuegcjbiLiKqvmTBwc3E+7zqnqEeAAEsUWF6w3vq4cmxeINagjL5l+Bb6WRXT0vQ5N6Qwb9MODBIi5BZHB0CBVgSt/pM7I6sJY2A66ESNu6D60w8puP7KwpymwrSyv1lw3Ft7LpUxHPsrax6dqpCilrv1g5a3c1o+S38a3pWAcP7V/BPvDgzPPiEWcAjTUc462Sy+jNC5RHykyBs6TsWpOrVBTmqVB6DcN5RYmutclT/tncjbGmy9Ac0FQYnpQgc7NZGLQCPcAmwEPh2mBjjflCJs3QWS2pKNoDzfAjTShrWAP8NDWlgUvQU2NlHRYbDWK7rnky6Kli/qGvU0gZq4xqMY9jBo0GJRm48jmU4VsleOJaTtsNUyZpkrcqcgWUtWU4L/nVIoMSYKiUjG0ttM1z0BJxpTTJVSEWA6ml0Y7mRwbdrK0NpmPQvs3Zd1ZLkFeiQsRrq5YPfylBlBdjxO5gljGyPpZZHg2o46MNJtS2OZBmuUP77c0taAzkPRBAsNVwGOB5twsaHXWIdTRjX7x4ycmKvNg97+FoQS3F3+6mlT8baRXOmzRcXLTRg1/73vd2X7z47OXL04vT7c3mZHJxK1YBWkeUU2MQg32KYGzj9mqyu9UGePYJUFkp5+jhw5/+zU+FyRkOenaGcUew+DSeUxUlGg5YJ1QE4nb3D5udzbPznvC1hsWY8EiE72jDRuPR5TUvs+VWZ4OuAK9NPai/XBPJlFdT9o+EC9reaEdqKZFT6vQZejcxetkwZDdPUcGZ/W73WBXq9WpxN1NpjvzMdKw4yX2KOJgCP41wcJkpKHEjlQDmPNcGNarOt5PpxFlWpITxoM/pn184s5BFS+Lw1dTmpKXsTILZNjc61gwAUK9C+I8oHCrHxHpYY/g45xDHpHCmOxiHX0yLLNBoZQPT9nZi1l33z89P19qWUHN8OVrkgnFzub23vd5wWIxlvjSZTY7PjteWmygI0qUiWIoZK8ZyyBtILt20t9r26mHA+HNqjHB51nkZhzkp1TUYSvOsZQMiCJNr21maq9lKmCsUyasBUl29fnP64tWrV2vNDhLgZOnZ+ej97cfL143D1m57c0OcdpGixHpEtzY6zd6025/1L6a9/oRQ2H8xeHk6vlnfPvhWp5WxWlx02Nr54JxKEBs/cJLyyWuH1HgF6A3oxmbrg6+9D6WOZ6Pl4bk287qYzEZCMdoCUWJqznW8lkeWEthyzCliG/kue+CYn4CsG4axOoOyGCWAcX5+7gxLbTD+GbfQZGQujKaH1l12FtOFBh3iZcsiFJR+efnw8BCyjUa1rkk3NdWfGnmHZwNtXnl+n9AXb4NES/K8/p1nu38Ik8Ev0Jl/oSBaljK8L+x+nmtvaXIuKkkXimx4X5cbr6T6Ya0ig5iZDBaDznn9Ym5zTjKLIIRli4I3pRmhFT4t+DpjVvqS3qS8/19TrfTflbu0LhdjcqfyzHhLHoZRRCLuBrA+rPKdLnhVx1nOWn75Lv3y1n3NYBmHtRQKRvxsirXMSb5dniUOjMzuQ9bKIGfR6F8+/YVUS/uFR3/rR7rxVkt+6X19Vfmp+gq8kq48t8DMK4DzE1ymIRn1MiZ3Bfqp4xBHxWvaU7uZzgRif2FK8vutJxHSS4HAp1btOh/buyfpYNoyT/f5PK+P6lCrTL3sysJE1BJqS3QhBLJQO8tJNu1Ui8y6mbW03uK2iP2CYybOeBWigugxbdMMjG3khC9ub0UMenNy8uLNq8sc1XpNJYiLquCnNMlUYejoCgX9dMofp4zG0sp3vv7NX/nmdx382tnCYplrMZC6x+fHH3/+2cefPz8/v9g7fIp7IR4zzayvLKyvLNFK2vh5ezm5uRzxRhfJ0E5x+wEc1rDQ2gBxURAWTwRIE4XXnWwMWltrIlc3CfzjiRmgeDG24Q18QxAvq1Wvi2InPHLwbOFxAt5lkbqBtjL+hWs0esanDI7D2J0KGLLkYSk/3EMd0jr44TXukieSbB4ozY1ktKUgwTJrkDhkKgMCD2E5UjLwHx6YNT5EyL1RVa8JksLuFOHew9oGPF84YSnKYQGrQq28UqOv4FND0blqYr+5XD5++KQ3Obu0rfdyYIsbhdjWHqOqfeKQ5iX+TxXAJtuLsuyEpWA3MS8ZbFz0cNBXpheGXGtpCbd3OpggOjRdgpY13j0G7fTiHJOWGdUqY57tFrbxoHVxpMn+7bLM7JNzwFqvfzqa9h2z+ukXz7oX412HXA1na52jxfYe6Xza7x0fv1k9PFjNRuSFy2WsH3pfjGgL1w5FXVu62trZjpNq6PREM1jXrhfW7eByColT8QiU+ognyCpeXugwH693ut2e2peGTlhuFpaZwZanSoQRq9oAmjuDDDZMQYYXyUCs4SZPEa2yk4/u22iYIoMsRkadZR/6PCk4zLCVxV9wBQUAxk4GpEoPKFqxikbJluQsz+gygEqVWbCLIKD8zLInPpU9KzidSgA1C7umLDeSZqoslRbUWeovCLrc5dUcnxQATe7yVUWmZTpcSg9139t4vJWCc1FGulLGwn0FPjfqKsXnJnSZsT2xRamAE2VBp8w3ps8Y3eesFWs2sCFllefBGTWV0r78OX/61h+Nuc9ZbzzRUve+vX9yf5PWl6Gvb5F2N/WJPGp39VMLtdasRFwoHa+dh/xJd/j9+o+gF78yQJ01V1apFV7q9RUapjRdVcd9A+qNT9zkmq+T6s96f9enmvfLq4bVH/f57995Vd/WHKWciKqgXx6NMRn5qlZQILH2S09D1Yrwm9A2ZTbrBBkNyRNXhddPvapv87MUV5mM1JI88xZ5WVqUr3xen9YntZ31SQq5S6micEweeOuqYXyxIr9HZuRkmZ2BWR8B+kQ9cnPfGJ9Dywwc2cS6vm5DFTb89JTLn3h21DLBfYIF9C+wr70plEaA3jZpdgEvyxC0SgTQpevr7V1xBCMn9boDPuZH+4eNtfaosdLZsmt1vbNNskUlorF5fXLByv+jn3x+c+ME29VJjlyw250t3F7l6+nqIovKikAN/TOayk5rQ7wF+BhwIaSxekhlxQAxe5ihW7CJKJCdYorLOZELw3brrNvTX3qajEUZDmjTEPF8kZGR1ttgIeARnjLD6EmGrViDICMQal9S2mTWi8sGzrt+Ik+FhALhGXnf5vOS0sKair7FbX0OPRlP3+5U+lRoDGyb431pM0lLGsK9nBFoAqFfrE6i5CAI+ur05ARhoOXjHIs5Ap3yawxBR5LnZz/5qX0A6sJeWGF7O9uMB0ji9GZCHG832xh7qkABxdfo1FaXTocXFKVtm4NB8k05q56+yyw1c+it3q03RefYwC0MRl1iLnLFcNVsmeKE/lE7/iHBiG6Q2ATt75l4PvfFaoVd4FuvwZVdUBrXengqofuvr/ncN1qNrYWNR+8eLqxxaR/zsJ/OaJi3jMa2IPSNJjO1SnGKAoWMFy8HN9OxCFX2/7Za26uNxdktOmuuWIIMgoFtrrRsyrMxCwzQVBueVcbPtnMCQoR4dAjZttS3YUP8FscS0+CLQhJ9wzLZyNSTa9O8zG9Zkm5Cuqq61V/wcH6O6l9zTNFHZMY497sXVgQ9tgVVZzllFHJVwSOjVCgZwMqUCS4GvwUkfYCwF2MGgKipQomrn3V2laJcrawZ0pOYnWtdoUY11U9Asmz3hdQbn9QErLIlJx4BIB6UM0XUD/KdOrU08HeX5nWUUv52sfN6M7h5mU7fkeiaOSimUCwLK6XP2eh5i2Wv5b9dS23wL11L6Sn+l3LWWjw0OK6SHBmoYhm6L0S2uvjcmEXPa37Xep8MFnoRj9zrTR1E81rHzUOFwteVelHaeq4qn9cM9/JBnhQirEDlu0+r3kp+3qc6EG+9zK26anIvZ21kfe7BlxnKWxk80U6MghvJB5qkoQoxKrUo2SwPb8Gst2z9oNcrAKbXnnhVbtKdFFKSqqVUoe/1UQhKkm/L3+TMUincgPtUetffuy9KaSDgfo6KFtHb+yfRBBr82IWKQaewERosyaNJbhr80Yp21xNzQRBpWoSLi5PBwCK8OHtDwBz3B9C6ZdbutAwH3iK+Jdi1OPxFLrJP35yrJaypE9yFRSjoHr2cDccLk2uh0qazPuSy0hH0LYEB1prXzb31/Z1DO7j+0R/87vRqlW/yRXfK7DwizREArq9evDpprPDOQOkEXxDzDgqZOvAJrIWNo4HV3MT5BmNAQigmyshspAWJq4VYU0AZNz3UZHGMbPnRa21kbfNcPN+hwO05hb3gpuCyOegaDGMBqhEARHt5uQfbcn1uh7ZFbWNgySL3U5bRC/xnujVAypOSZM60+r8QNgLK5bUDZ8effPKJzGfnXeX0qSR7XcrSkisw4FPX2jAPSTOXsy88BJNYe4RWR9ykTGStRDZSsgxKU4MVyZ2AbUZD2u1oqFDB/kWPkm8FtDY7HGr4WdjDBFnH8SUh66J4LzsCEp+ICswGbeRTLQ6/2N7deuBojNHk+PjY0Ax6fUSI2hYDRCCPYTHmBuILgABVa45TMzUYIH1UOxAjoGOajL7xNx26RyVGqN9/sN+etY6eHG0f5Gjp0Zvhk/UHm7MWt/uVFv3flsgxrJPdsxE6dXbTP78d9tZvrrbjm+rsxpXiYagKFeGQaOQvF1aHlwJcmrGG1mNDyqBNTIohNW494DUbAhheQjQITM5mCLeluRA3ODeMDG2WTZpaYIOIFvAWIaXEmz8+Pbno9bBAT8vhcLSdp8dvQMvh/h4J2Dr21TwV3OJV5si0mlKaiekMBoPsmDToYyOJgBpzWafclxUO6pN6ra9c73/WG21NTYVC1LeeK0k/g2EqDSlfqVLynLgbR/ZiqNHXioSTRfaoKjWDhjCGRU+0v17TKxVk2kJ1dMRw+Ff0XdGzWZBWKQjwMBgniDJwDPIUUtsZLMboF1FmnUPX/9+pDm76k1qSTH/+FOJRi83PL5Fj1lJqr0NRhqV8AA9mUEB5Y7lV+NSMp1HCmWZxUQrj4hKQFPDmPw8zKhFuEYegDPmtev8MQq5pQ51BtZVqCyF0l193qb6rV890xNXP+6QN9eHdF/PGZ0YKqNznLNlKTZnNORRlQOjx07x5/vty6ppEy1Sh45574kPJItEQ8FqHThX1uats5aFJTWt968l9GzJihQkwCPd0qxZSPswnhreWlg+LmsjP+cQVfJfoX8vC1OKqr0ooAebyxMiQG4ugbbAbth0NaK03AV/wLQTXWdl98AC1onwTreezz189POg8PnogVM9wjPSMrtej5ooXA4wjzHSxkeKsYx27uqQ74qklBoMItWevT57uP3VaheBMx+PT1srBVruztOB0pd6CDTCN5eZq6/j5D5dWHRy+c7DVOtzZDfuF5F9fP3qwBfm0G/bQrI/GBKqxkOXT8ZVzFo0cFSDgobbMDlRKnua6kXeAsIaRlPiiNRbJDuFctyj9llYog6BkOJ1tAdZ3aC7qC9dz8TB6ajTghUzMZ7xOhHVHoFGgOUKutMqG6DJThnkZo80+p0YouhCo+ZTV0mRzU+9NYoGEMHaG2CsUCwrr9gawJJMbk1VrlVMmhV6+4mmgfNhV07Y2OsOYstRD3xmxlXbLVxWotFP7QZIne3t7uqD8eIWLmmdRLQllidngaDETN4RLNwENHcpG7QUHgqzE6XaB6LgmAq7oILxhUBY6vIJery56FwSUFge7Dn3siiC0T548Oj0+uzg7tybRiwJ3IDn/4GR/bNoFAMuXtPpAnHM5cqVR0a1C0Mxv7ni/aBhg6Y8mAms2lm/OLo51gnJyaXb79PDJ6vHVzUmJfrLWXLRb6WJyetZb3rg8vxl1l6fj7eWr9uJs5XownnT7g61deObWWSDtpn1V63ZCNJ2Kcj3pnYu4MkZLkNjBaIAWGjp4fDqaDIZ9TjarHZ9Q49kRTSFO+i5o1dKweMtuB2AYBBj0bFqsT0MNTmI+tDpM+8NHj0wKwLN3ynuDBhIwQ2WZz1e6e6+oJtEknq9jzF7EtTkr6nMLkFkrMJEZLusWBJhdV4Piew8LNGSm/ZT8BCZ+3j9xI/9dSk73X6KT8tUcHoOG9SV579qoh+UHTJyb/K895aMvK/XTJ7WFqbik+tD6QLdwsrWdBsLnYDD2YaRLO7KnwXs9QZ6zL/U2MUtUlTL/NgquVb99LZnTIdW+/bwOjnpTdWlyLdZPr6Q0s3xQyYXG1Az3hdRlvIEtikYwbfOFzywinyf+CYa32CRd67zoneQ+PSvoXnXmNR+WGcwI1qaWojyXK1TurVQzlIy/3Cmv7htZv7hv7dvP1VCfv/3Qff3pw/pWk+oTDTY1GEw/aS+lbDkp4FTz6Ht1KkEXDIVOzWu3gAvEWsb3xd43yQJRVOVRPPyl2u+feH7/KrUWiwUc0R/2VQQsNBdBqhUoUIY6HbVtiM2N/4ooYE3EwwUpiz/kraNOt/d3Kf6g6oeP97adWNVuH+ztHxig24Vuv2eJMukox+zCQL6KCRLHtngzuYpsJMNsMHl99ar74GxjdeNaNKWFyaw7nHVpmgZXy92FVdF0cubSqH+F11ppCeZm51Y2jGax3iy8987eB1/9937/d3/j40+f/fX3f/z5529KwGDMzdTx0WDI8rbsBDKYTAeXsyXGdGdBAQh6ZDplWYR+wuiR1zQeY5zQdE5xhVFvF1trq/wch6O+MdELw+XGYLqv4Go8M24lhZbxshuSNhIzmKwjV6w+elqU874tJYTmmTUPfWcCPCSSu48msiQ5AyXX1wcHB1AeOmqCVtcbjnJGEuSszVCIe6XV9kBo2HYJV4ri1jypImsknJBhd0mGoILITDbBgjUZCBVGCfpRjTteFvbQiVufaL6ok7OeeU4SOG9t6eYytrrVEthiFgngVoHrcXC5nNEM63KrGQvQ5haPoezyUqMqIPQC04xeGTMqODt0V6b8fqwLXknLG+t8uw0yp01nlclPfgk7sry6fnJyPhxNHNF4cvpSv548eufo4SFRsxO6tkZsay2uI76z0XVzeXN21dfYQBFPrMm16n0SX3CKOSme+pPoaZq3cVFfbSJIho2ER0XaaK3t7GxDReYmEZCm2K4pHeN2Z5tz4TKussTXFgg6ApDm1uV0t/QMeKFVmZ28LRTI4AAYcK6n95OrQfVjWKiuTZmT39JCgCA0NANwgzQlhSomkGCmyWT7k7ms9O2OXL39PEUUGK2NcA8w5Ueaci0tc1OTn4baYz8rplZ4IYDlORpRUtijOZWKwBUFUvk+rY9SR3cY1fKvVpL7pC+fk5iUlaYX7OadViomDpll31UKKUOpuSCHGO+NfknzylJgHa/AUPn1d19qUfX61ifzvtRP79/+nUWUQQuqXipxPv3EfeBojk9PrYTCOhS9QLgI0J9T8rQzKy1YxYINMdNuDwndkLiHeFELw1ryCvooQ1e5h5AvPytOmU9DGQ05a6pNzycleVhvPHn7YX2eJ3UuCztirO7ypz34k/JRyvITs5hrmhAIc+OtjkvuS/559hRbypITBpHhnk7U8l2TSqb75pkx9/Vbpfnqvrj6vP4sLcktcJdHFVrtp3uiwMLk9rx7pnngJ2x19B3ZcGMxG1IPA1dEkNKLLBUfQzTXN4nDbsMjD6sYFda39w8w0VeT8dH2zmWf3WDMjsLBbLezRY6iroOYISErT0mgENpAKY0K/n3QGMDTsALQPH91uvWwba8PrpqYhZpxcFtp2ChjCw3jzHSD7qjB5Y9JYxSJm0kbECzctrYOxFTY22vt7X7z6x9+9a/++ic//PHHn3z20iaqwvuRx7PTg1bDOOoYxBbDm64t3WANcLKXLCHON7hd7KzDXzlkQQdJBBxAHOBKanlTQMtQGRkjbGDL2GQ9Gk/Xu5+ZCD9BnXk0nvrtk+wbur7Gvxt7Sjesl1c8hevEyX8/ybWouwlfxOl/5zvfefny5fHJWdypMd/j0fb2pgz3cGUyzH+6U8BACQEwzASppOy6K8CZefeqzj6uGSpkEIqiNjawNBt9sLaubmYrCWh7kzESwT3e6RD3tc1TKNPIHituELcLIpQ7/YqQpxsC39LLKtEH48ns/OQ4BA8DhAIaZnoQW/Hc0NEmKDA4FJ0QP4SQt7I7e0L/tobPOdw/UBoS4luJig15yTCttLB2573+9YK9wERziGG60l6K4DLtdK7XGMA2VzZZRllANzZ27GXmnGCKHII2sd0KqAGpOnFxC7rkGHk7vl6aOhlrlb2KdODYAfGrVlcPkCtsVRR8dHozGyJB2jhhUwrDz3blzJqbsQHnaZSlbY2gAVlojsbm5uLgeAABAABJREFUbl5ohKukC94DA8xBnR0/ww8V8JDhLX4+/ZXHAsvMRm6jKI1iCY4DumoK9osCbSnkSu4KIu4lZflp+n3glZ/uPVef53CHtVJyGfYgINsTSIIpOBitAF/wdxHSC2PBpVxDwrDEpUZ7lO/M02gV6g4/TaIFzXPrr6DNkKz04stUh6DUXx6WnvgJKlR6/9YTSSH4F5ywrqe1AeXAMc7W1oVUmvGMllhtRbkYHWNq9yyduE8KDjWdd6s8lk0K8Q+jlK9Kn2uW+nLeHiRdcRn0cNb2ZWQYDWYUm0VZHN8h2pKlpQGgLhiNlWN9XbAeZs8WumW+YX098gQWkNn2wMVpooyV6Ywy7UrQ+XtyNd9ZkuCBQZFx9Ip4UibyrW6VjtQLJs7nmVX/QhBL90qf5r0r+QpLUfqqPYGKTJ/MmpGWFDqa/CW5AUSueWcWSiokICcQ5DSRjFAldWUM51Qwn5dv52sgeTKEpdhy48n99HAXTspWlaRMUymn/nQ1Amad02igi3924C2zZhMUW4RAcNhFnrU6XrjLbPgwOzAjtZ9hN9p+QhyKrRIwFt+8W6P4IbHMmq31hd1bFovp4ILiKXszr26JxSbM1bbTra3Ox59+Yu5IDyQTJcWNJssbP7XC4N/goY7DXp4+e/Zsp7UFrZ1fnG1vrz142GyvMKEI+56zYjEjS6vtiN1RwIzET6gDZcLOnp2urW+wr8CBhwdHv/vr33p4sP/9H/78X/3xn/OoptYEdPaqCvf2YHv74e7R45392WBkWqA9Ad8xRsfnF0wgnnDKery93Vlc6c0mPNnJOpwRCAFemUwdiLUmI+wSZ3HzYnb8qCBU8ESMMUV3GnSj1e12c1YCFX3+7FSBlNZGJ9jwTqmYOEbBezGZKKnOfob95nJ/fx8itgnnBz/4wdXlXi+mqemDvS0shXWRVhWGTGYjjMegspxM4P/0TiLYWUniMVLIAro0M0wI0TEmg9IAUJglqf2c39AbHvOJS0dVvDTKzm+HQtsPoEN+O9HYUF5dZ2+2aLEBZFrTy5NXp7qVfXUgJaHPckjN65cvdrd3VFY6FMwJ6kqv/RW3i1wmHJEBhEHYtGylvX3weA828Hl4m+xON9F6JtR8wjidX3DTe3PwwCaGrXFv8urk1SEHFG2fTS/Oetudpcbahr32q2ubg5EtDCHgoXj4ngT3zxRxC5TEDeBuE6HRCSsIATi6CqVHPjc3N1JfsR5xw+t0Ns3u1fZtc83pbivU18xg7HCATzwpI5HpggGsJ1OZI+4tw+AqQB4pCY0kGPI/AbQE6PU1OxFtWsFGCERZldLQ4lW2FfoaR2OpBpDsfoMCI/YJwJTo9UrNwkby8w/qNNR6Ygo3t7d0rKJnTcjaLkinfJBbefQVKMCdmYMgrjB/dskZ24wwqgtHhVYF9xutwEWRQy01XhrycOMDNxawGx2Mb5LHuCFwU77zRcDN0ojVkXxoFAoVyfjAOcGvEe4MiSfp75zdiz6aOOIZrfdU0DZjFfUNkhJsFiJqgYs6PKSJHY4um5Qd4Sa0uhYXHtq/kC61ZhbKh0ESvoT557w8hAVNUrMCX2VTueC7vdNFcxftYxWG8iz/NDRk1VujVKZZabgvkaFZBZSdQYoylwtOQreZe8vepGSE517CReyiZnHeaKAiY1KORka3HMlGrxvhzFQGalcDlwX2LIYSMV1oH4cp2TIZdBnZkxVBpeBD53kqGbPEcLi6xJVTnJoXgePEdjYuypFAHT2eSs2ibzCdRsBoQUDehpUs0dCzMOiX1JoDWTK02Umf47RzfpX5xDAqMwso05u72FcC9OVkJpZoUc5pcxuam33+ps/QBhwygBFTFOket2urlbU3zv5PmKIQlYLCwkkU5q6MfQ7cIph4UjayhHQh+WfdM7Q8RIMNCbc4u+32L+jWYSW6EQHXRdZQE3uz/Pu7e6H6+r1wTYUzHiRQG7cr/sJbeztf//bXdtqLrz76aFWA0eIJhqPc2GwPj0fj2QAnhvcw7bAYq0BruTUe90kJW2xCog4K/5PIqWvL24fOfWhnm0Ln9NVgZWXwzoft9u6NaTVErDaJn6tBCUxAN3VZVEuW2GK7uX55fSEcQWN58/LVF6s3a9957/GHT588ebj3//wv/2vstUnbbmyM+tOd5ebX9h+PX53cnlyE57+53dxba2wuDidXm82c9iIO8bO//H7v4y+cuSSYLj2Fda52pxUXBdoKAh/+ENg7YAJ5ZoTIEWuI6fLDxw8Ant2dUfYuXo9mI5w7SDbOZE0EZjQd7e/sOqiCLIst4D9HrEG2ABQ8pWPAGLQbbePMbRn5Ojl9Y7m3mqtC3J2eRA/GRe7k+Pir774HS4FeeFyNGnBpzxSX60XeFuceghYri0VmOu41mi3UATBahg5Ptt/lonfOKnx+0TecSjHCFF+td55gEhftvrockQi2t/d7EZVDKjaIPBtcV+LtRnS20vZ29rc3t/EZQr9uNbeZHWbL8U0/616cnJ2AtvXDg/6gy7HtYPeg3W6N+lSI6Fwz8nk9KHl2RdP2ycc/oXY8eniwstacXQkEdWXt7O62FsT2mnLyQETtO5wKvf7o4QOsRXN1rbXUmJ0PL47fLM5621tPIhDvNUf9s4XZSECKi+E5Gnvau7hu39pMNs5ei9lCE/YJERVU6Xp4ee1EqsVZd3C65Dy2YGnuMIkaNRwPgIQGoh1InI1o0QHurCd65M1S26HX6y0GJ8h7EUcdLxA7D7nsR0TjXeJGaZAvtAivEAq/+v43D0Z9wze9vuJDe/jukwePH7aXlh/s7NBvRKpd5eqR+PBmExof9Xtsw+vLW7wXGQ6duc0zc621BgxNPZB4ffI6eQvSmF/9DB4ElUVPHYwWcPyS94HRIWufZO34r3C1BRfgCEpEZas66AISDjyUOzRy/hdGDjmBoUBKmHmyqi6Gq5fHWpQqXQyxTgGEk7Sntqog6iDD/Ayj5OiWSKqAXdJm2M1NsHweBMH5VoqNFy2jmgiuDpqFcksLE6MorVN/hiL/NCntCL1KY+5T7U59oC7F+D/cwVtJR6LwKuOWxyW3RniOjXaNwGSnZFEcwfiWbtkqlinTEPIgKUGZ4wFVchM/SyeADUfMY7FvxS3KDeY99ClHt4ULdk13ywjALMqHwdVlsWlJmmFnpWZmMkvP6p901e86W8lViHoeKsr17eTzDEedHEWFjCanb5RYr3Wg6lfujThdS/2ZstGZ4tKd/IX1qR+CBDfaWQmSe5+U3sR9JtvJI1eBqnld80r9Kn0pLYmR/76iWoKrpISajImRxQ+BEn7ZmCQBlBSZivAsEV8Ko5XhiIGNwKHBFjlo8iQokJiIRFmxWJloBPFWgTJM/OKD3fNnS04aWmqsjwYXPuQTdcEzrN+NxJatIWAVBRdfLiI+RlHrLUm7YCAgJU04K1yOKPwsY9GcZmP+fQvTwTXRJhps/hH8sKJ0YlfBIwmHCrVpz4qDSSI9ODGPCut67ZYtYupx4zvffLfR/Md//Gd/9eLZqTIXr2YCFJDWvvf++813Fl8/f3V+1u0sN3Z2oJEn/enQDrBh98KRknbrvOZ5eNGlS9o42g3WrGNYRjgrqyTwb8pcgSiQ29reZCJvx5V/vNHphHOyC9nsLzOHTaHCuASRSJeXKb46o45v5XF2cZm1Onl3U1geyWConj9/+eDB4XvvPPn0008hTATDiVZeAFR8cxqCJSmTqOSRMytjD8MI2n/Wx3AY76hgk5IX4qLf617wehOEiGUqLLJ1DKdtb23EZMrzxNZmKrOrK7wFTn8suNHyMvdIReDtbIiFX6hJPRS9+KixERNhwhlGQyaAU9cOXf0dDr79K18HSiJrjcZRv5JaSbLDwTiHNqJ8vC5FmF2PwknU4sH4bDA0bO2d7W2HJmP5tIqmtjcYxAMJ3cOHzuI4vcIKNboS9ZYa8WZ9vLQWT/TFNWIn776QkOFln2/pcmvV5ke6N5sargAFfWSEWImx0J2zpAijOL0x3hXCWVjIVid+/8YEm2x/uH1X2okvsVJotJFuH2+27XPP6tXojDwslxIp/QSaiERnKWOBsTnmNqo/iCiW0vDr+FmcCh/a8OBX1sOyFtuUwcEI32/t8Uxt0CKt0JHeaBY4IxGjf/CzqUNgp1EW3GEcN9Ze/emqcQUsZM+9VybME5lqnvI2QKCvc3DIr9yHkPkf9639JRG/McbxfIwQ5gs99Sq9iyhZmPx8VwRXJdavrGu4KyTjrpHKTRXYschAsK9yi0ovaBe9CVILWJarDqkgH0AuoWWhWVEU3qXSkrsf5a8n6vqFR6VHtQH3L/ysGPWXcqZ5ekVacGC5hmm9/8sKvxsHAEBxUxIWV5sk0huYNxDB1EGEVPHFzYLcA1SLRdr4m90xn6hrGJT+MH2hYWa0vGUsXbfr2/qPqlARQrPwPM620JZiDaCSM7pl9Hzn5y+l+qpkSWZJOfWm3tcm399ruZnxkJKjZksJaGKZTANvaizX0kwd8lxDogLCZchfq8MiqKPM7byFCvQJcMdP1Lpq5vvm+ZlCChC6r6l+Veual/zWK7ceRq7VwgJa96UZzHxrzCMLBn4iPFDIJoBb8ERWb3aMZaYkmaMKId6uZOtPNIXX5JvG1oODy68+erk4O3/zCnJZGQ1fvDnFiJ5c9A1/gt8K59ZYEzaDJgYWaBBVBRGfTuhY2u2QpClPrFn3ZsMBdLKH+xwNhWwTqywTcYnXXiGVgh2Ia0wCEHrVCdnT0ej58cne/oPGAovItLm2aQPY7e0QE7W12frG1x49enz4n/3Tf/b5x6+5g03GXW5/Jy+ev7t7aCPyTlzpF3igr163Lk5fL26JKXS1jZtdXwM8mrl2M3P8cbieAjaGUUvuxjUbGEIb7lQsoBiwNW5x+02HH+KT5CWk0ayaF9uMFGvSyGGkjUs6pWyogiDCLrxdrPvKjaqI1eqnP/2pYnd39v/iL/7CDQoUIkS2LpaSopChEqgoxcm/U6uLxMZASDT6yvsfALCobYFM1HgAJyG76NxogC0V9v9Caq7EAgn9I7UTESLnBdchEJHaC8vSHfRNvrJoxuJrw+g1S/hHQgnQsMCnrBxE6VH3vHvKKDkYd9/96mMrxEmINAsGZHtzy7yhSjQNlypaXzp6dLTYFPBpdIkZuSKVTtfb21s7HXJYFoNxsMMvB/5ikXLAgsbbwCCs7srkyuGSbIz8Sq9uRyuNNibIoVxs2vii0ay32lm/Xl0YRCnIE9+pi+YyRkdJ1+AKPhZOH3HAtYBHJ2fnmCa1mbJ2Z4MLq2OsSTlmBhMXFm3BASqiuw/xcCJ/iUckhGA08EHfADL2XQOSZWw1B7nwA+IhYqt6c63VwPksXtrsu5g9EuSyG8zEup2NPocm4T7Tv0a7AEs5pGW8AHRQxxVcPe4W4hbs6FY4qeUHzW2Ws2Kfr10pQxRoKcvbjb65d2POTPX8SabyLlX+unwOhpKh5HeVwwWViCt+SQqjy7HEU5RQDMAohErGwvjDDrBbMTNYz0hdqi6IFZjIVKA6TZL8ASIlWfY2SaiqoGNYMfrDIiKl4XNCi7IX5gLoYFDS3NKB+c39GkxT5rjzS6LlSc1fb9y7yX2t8a4grTJAKVEGy9AiL0sxP/PfIuCH7zw1GB6mF4sJvtJubVhOkNDkahbFWVG1GaLO5jb86dTthP/2tIS/A8o6ojwZkmI7FQcmrWV6RfNUIS8g4zrc2dyUBYasImZp6Zf98jNtfSuVJ+anLOvyvH5Sc6bPBSTqjYe6qxewwLwMfa6MbCm5flVe3cl0d2Wm5WZeKpKugZBZURrvGvJdAM9DJdVmlvsQm5r8rHnqz9owT9yk7JLqJ6mlzukcQubTViui78KJZ9CYtbIAA0C1HA8NhV6Wt9wHYNvwhVFcCasOMRgoLry3N/aK7mxtvPO7v/HHs+FPLs6O33x+s7Bxs7h+fHJhy4zPK+zR4qKDtFYmzSZMXAg0m4oBOcp4O2JLX1zaLPtkLsWd6J5NDo+ORPAhVTFzxKuQiXx65bSI6dVsb29H485OT45fvRDHfrXRobzGkJOuxtzfr5v97tXhk/fEePiDf/Dr//nx//uEpnF1Cxr/t9//q+PW1uKY5C2i94qwHK0Dp080f/infwKhQGNADgLbevoUErdLa2ljjukyjPfAn1MSk2wOA3WVdBV71Dx+FRoP98GL3CXqeCISeWh/E6eJeLTkLIlM8FtpPsueOLlpbeXBg0d7ewecqCnrvvbhNwhY+Jjdg32LGXUJlijt0QwNIIsAz3Z7QyE5BCS86SrtHeSMUQ6PkNBzgRBfqTrTLKCeI1RWLundGxvr2F3ch+jm9lpDw3xDhpPh1s4mkfrNyev9/V2bz4aLfb4npC5DHkviWgQu0RfW6WpH6JbzcRabG82t3U12Z9hQPI0c88h/wzYyIljiRlnK4uY13tt7791Fcm3/9PT1Rf9sVcwn2W4c6YueEaMN6xKtnXiwC0JIApPloilBCBpLnZXmDrdA6qjF8Qompb162Vgc9cY3U2R0gM3BVA3Sk2VxBqeCGFHqFqQHwIEaqTwuuO0YIzZ395EibiNmR9eQKmTY2BEWIV4iBp6MuBkbAX6n37NVDIWGqIkzCsIIVIeVYgAypIQcGMHuKyHEeOus2uMXCc1QM2/ARFTFYmBmfwj9fN2Ea7NGw/ldi1do2NrWDc/b5Q4T4FIDmQu9XF6a3F5u36y3btdDriTzVyfyF6czU+oVgNBbCw8qqSCrJk8k31b8ncm39spDj1NO+U8+c59sQeMFtcYIALMB1jucX8oBR/V59NfBOfKF+Y3mkKEoBmz0i+Ys2r/8qwmUGapo+4ygTIhc5sbXUb2XrUuC50EZYRM0pqSyVErj5w3+5T+lwenZ/YvyJL2u1abxZdxc6xMjUPP74x0NY5SMRRsJ9lQrAz2eK64NR+NDHPebN8flQ5Ah1K8BjuileaLpWKjMlNiXYFHzo5+lnKCN0gwfEqTw+vCCf6bJh1HCTBMABvp3D0lqj5w+KV34hU7Vcry4exvbpKYqJ24Bdx10U1Mel+RnBYH6C2WtA6KhUIl/qa3+r2it1fY0v4pksY9qR/Xt9Vc9tdhCmDNEKa58V65fXjyXs149dSO5mX9+R678rN/UG3kAbzoFGAskEwKCa3wb7jhsRAFeU5h4ZczJWpKi86EZCR0tzRdQNjwXwzotk2i12521B9uNo63Vztp14+bXxufHPxl8gQ8dDAcwMxsYwc0ZCgHAnNytBXHuAgukPQuqnOatEVO6Mvqz1bUp+nY1setldvy6941vfn0y5FQzjurk9qbXP8Ogw0K6MeXTtbxy+vpFA/hfT8VeoAIST+O82+ON6NDG1Ware/5Zq3P4zpNtFOuf/if/5dJSc3rZGw8u7Az6e7/56/u7B6TJ0+7Fm/7FzsHO+4eHO52N01cnf/oXf9k/PXvy/ntbh3vD1trLy3EdSUNRb1wz2ncIIXrUO+iybhHjWGEztDbhLnHAA9PN0Tp0D8Hv7G5tbXcmA+ca6z2c9SX+ybwoNUCXRG/GV4LHmlh5k8vRV7/29eOzc6TOZ8SgKHkolgqxNzucOolChoXAI4MtaE4W3t87TPmFncr0aVLxkYORhe6VIhrQUBEoHMNiuxhTMDUd+Yv/9ijCBO+AzZ1t6OTSxuBbazb24HDYSwu2It3QXcGsogjCT7ZQrS9s7m48WjzSr63d7f2jXauPVXhyNe6OFqhDeRDsP9zDbQy6/VF3zLrZ3mpBZ+uba5v0tI3l3riLqB4dPEKHWJBIXWtt3olICaNbSA5/89uV6apzTLjq67/jsxu3q+2F9bUbW46vbREbXy+fs6CLBHENc0TZun5jT4JwY4QqI6NJZ2cXN0xpt5PtrWY6Hv2cgGJ8PsTLoGTmBk+gI9Znbzz5jJHYaQPGW57z3vlmZ88e6rq6YCQU/ka0iduwFIbFHELewW4MWwQp3j68NDUt+y6C1sF+tXo7a5T9Ea6BcIRVXrtcbC5tbK87zqQVhRo20PlZlHBLiPfNlKBvPzQ6qoYCHnOce7/OPfSqJovMzwqUnuRVae88c4A3v1NOfVtgTqWgz/PyPhnubtQVlW2YV8KQ5GU+hrOAa56gd/4HT2Yub4pIjjeyrc5DufgY+qlMAqapicjoJW4DYomQghuJmte0wRHYK665SBW3GINa0Xo6UZJ3kir8rvf31/Lw/teXN76rmdOydHpelOdgouZTVv7pTohy+Do5Pcl6K6oMjOeDBw+++71f9xVCQ4eQgG+U7pH5h5wqIALgBb3pC3ZMNiggns3FzqyW+6pNjUVY2QLif50vnCwYrU2SoXw+n9M0+svpTePvSvtl6aoWJbcbad61gndDNaP98++efiSD0mqBNXNqStb5c+jbfVBHeVKGa1678mWun9cSwqwV2fvtAmux9Yn8Un3imvu7n/fP5awlexImKRXH2ZoS3XNoSxsAjcdiV5Mo/JTTV5V2shEavYhWhdexu5L/GXRHDnp02HnnoPNoa2V/g/ZwvP7uw//Jf/AHw/5/dXqR+T7tYkuuBPBmctRjfYvPSfZUgt1SHY1OtjXEU7K57vw8O3iu2k5kX149Ox2fn/S6ZywSfA1vOC7HL+P8BO4L9MNMgwEd8fC8e3B0AHTgb7jf9mCRA5Yaq9urLQG4sZn9s9nWzpM//Ae/9Sf/8t9MB7aUjimRKKDOzo9Pjl+Lh0WJ87p7Aui2Ok16GEYJK5O5gTVmMuwLkrBEvLgDjzqkfgacCkIwVlJ+ljyGqIKInFIg/y6BTyNJtsIowLx3X8mQnHLVP7mWnwrEbka/F/Sw/OTxw1/73uX+wa4NAIQhLyupU7UCLRmkhyASUrUWheQ777wfv5blxcm4n/ahnLRftg046l5IhaLDGE1GjDQctZnmxTlO4xcF9m32Bg4gG9rDtdaM6wCNnBhIvWEfHgY/vcG5HWz2jNtQfEPMimHxcsg9avFqc3vDiY6WKY+S3qgPG5s13qKkFYuY52FT8MO1m/51z64pON2JuajgWoupqU3cnI7xJtOD1UNhHWOyFTdjkdZ2WYyv9a2WPva7vd7rk8VLJ1GFDLN0RuEWc/b02rFWjSmBbufANmdYiKDZWmyvTdCzawegzMM6q4TN0pmNNpPdXnZanebt8hiY4iQMOI8JemBP46gikmR400RCksH0zCaw07jV7ojXHlFVyyirWGWX+Aw63qVgu7BypCnrx+YptnrMXzQDwcfRPwGaQBjyyWvFIrEoYPI8uF7aMIHrjXbi2WZ2MXlq5dLEQ2q8yI3RImhHg3efUuQd5HloGMJNlKVbX1WocvXWtWIgKzv3Jcl8n8BqyGkRP3E+xj9ceykwbo+FXEFQpXbQCtmSPyKRgTxFlufF/cHDpUVRWbSBFZzkkgOofVlrLDo3zAGrqrqoUYOdys6GrGr2VOSfb6rHy0t+zfALxr9oEuaNfuuPxs+79tZDt56XB/Wa2/uBKs9zqXnIOuVHUKGiMgCRteYL0p2H1irRm3BsgVkBYEVE6M72VpUFASKC+ubNG6pC18urY7XxrlAINGJKob10X8JZ13gurRYaZZ4NIBmdAN1q4007yJXo35qqxrThy+bft3p+k7elC/WmDH6mtY5G/en6djZT5GdhMnw7F+DkmVcXy1aKrMS15JxXbww8l40+KkgH/kY2ZoTLIJaSLIN8LKXqcp+b+bP6Jtf5OLzVeAN+/1ql9Rs3FZIzBKWgMiBlDNHDiILqoLVLpHaf64SFjVUAwWui1JTY/uatLB8qDNHqpjud1vuPtp7stdoLo1WHoPbO2632wfbGd7754Z/+5c8JB7QqvZ4AeuLPcuakIMnqcygpQz2xDPNMVyDYN4olNK6A3ZudReHftluUUysUfr3u8NNPXrU3l9o7GLCFYb9rX5iwORqaIywIaDTtg9HiriBIE7zaePECQuOCt7t10Fi97HXPnV7Oi23xagRX/i//F//kP/tP/ks+Ga/PXjuDcDacPjx6vLW5x0v2rN8/G/Z2tzafff58cNEV8cgmClvKHCVpIwVXGQNSp8+1DE6mGIzWh6Ygq7lI5HXSLDTTCobDo83HMzCPTgBKkO+hRRF+lGrIWBvwAhOAyK/6rwD4wsVFF8ViUEBFHj15IugsLn5le1P9Vk2EYPZ5gubt4s7e/vbuHpMY7RQTlEPcB6OxYAzclQpKi4sjZQ32GNWM2631N0aploh9mGdSIKHQIuJjW/wBGf4jKvDJuMLfhxleaKxgee0KEOcCJRGJa3WpsexsDSra8dXIgUhoXgnJeC3kBW9BlWAtoSW+GUR4+6C6Q7IPnS1sZV/TeEiRv4TDlkdwQmdSZPsbXwlSCUUMhhUTdTmaiLm+3kE9GxxqeidxPA72uLy2ScA/q8f5UBgRMVlsP9adFyc9jvILi2yidKrLzQUunTF2mz0jFu2JkXcvQCJlaYc1DiWFH675BjEioEmG0URTJyCIYMB8E7EwTriM8/4pNEznSBA0hCwThDC8nDzZ3wvH403tHyTTQVq3XCR0zTHHHFSi0OQjcmMzyAovTZgcN5DJ4YIDu3GBJVgRWtdgMrrD22z/sGb4Xzp8ALQ1BXYOQJVU0ESBr7ufAFHyC6hJbiqAuqlQqy434CDXglngj3Jb0ERBFqBWz1yjHPO6WC+pfyJmojjgQB+pNpEZsMBlsvrJVXJcyq/VaYAWxr/LDQnmrlJNkqHm8VCiBVSUzRLWjFVhfORJ73ypNm7PIZlWYGnpW5dalGtddW+9+YXbUolVlSLd37/zoaSFBs1DCAomlCe9Muh8zOKgmGGE/rShf9H9YvBCgBl7IqKsZKwukWMqOy/4GLaCGy5tBZZHXyKo3ZDQKemiy1CCZGC98q1Omh4/AZsqZJAQPLtp0lDru7bqFxusmfftv7+pHazXdKQktahOBxVVc4JmQGHriSGHNbyqmUttcGk+1PUMShHOyp/sBlGOp2ZDmTqb2ecJuTD1YfpSIM2T8t28TEXVSus1P+/mr2ZzrZ/UnL+U36vabDCkWSYhM2TJwkjQ3p3/ZM1moLSQLdA1jHcZAQ2TDaOEd7IJZXnpir/xo521/faiIDzj3vmke351sTa66D3Y274cXbTXhHXobrWXerz7eGkJfCT8AHzJWVrgAzU6GykBVG9EUuWF0G7etpvXPGM6Wys3/OxPhXZafPni+MnyweYOixSnCqH7cvYjyZuLYA56tfVnPF2a0lmJR7rCW/r0+FioXccejfrnAkDwzOYA8OyTn7z7znffeXL0D37/t/+Hf/6vj54eTc8mrwdnv/pbv/WdX/n104v+r0Rlt350sP+v/+UfffTf/ouT8/PVna0zR4qoYLtjHupg/tJ0mCYjI3luxOZvC+ABQvj0bVqlBE+I+5Vc1Vk2Iz6MZr+sI3nukyfK//jjj20tsPcLd/bsixfeeizk6s3Nhnp9qyIPIU2gbpbIBPg5Lgdm+/T0HP+Xg4ARlsLCyFnaSyGY+klL1odRhK8jaxG1qV6uZogBkYULdW/Y5Wkf0WdxaTgbinLrFWSGU8DWOEoj+sMbDn6i3tqAjeJAv+HPAy8ri19596kucLvvXXTtIUN9otQbzDa2O63N9c64FfGCi76FEFkbnrV3xSbt+NlP1y4TM9nZLrMx9nS5IdLgMi0ZhwPUfnl49bC5MX3+EvUnSt5MhxR36A+PSB3HoY7Hr/vT7vIGLlDksI0lMSEdZl2Nr4QhS3VpjSlCcIrJ7aQ7GlwxdVqHiX2cGTCYwjNOhonbu7WxGx+uVWFwZ/SstjY7HyuH2gQP6C/cSgV527idEEeoiJTAQ7D0JTuIHHpwLjaIGLk6KZ5BQoc4tAbKYJmCJy0KHopogRfZmy/Kbxuhmhk/voKrVZVUFHAOH8EeNOfkysQDJmhRbysYmVJNN+KBpgJPVq8kjrTMdKlabPrl8ce9G93LsBcnk8BxobVe0WSSkrA81/wJrjDRUdzzD8FUwFu+gpfNuEr8U2pGIoVGtR1cYomXwtOM8AHxVk/WAn9MgoT/YL18ESUPc45XWTClfciWVrJrF7qYndXe+rS+15fsE+LcorUmoPQoH5Ybz6u1Q8dVgTcxl6pABpwwpD16J2mS/PJorKsMrp5Dva7udV5R3uqPtacQoRDsU1lrtR+/85RCZiau16BfUaQB8cnB/r4l++FXv/bVDz/80Y9+JELzwd4eW+9o0M05B7dYKsdd5wgZQ0UBCLg7W5kay9fnV87wbiTWu/FSHWdSrQWpCten3K8EBIO6abQnUcqnszYxOuYqgBvKtyzwSkFGnqiijoknkntFmbnSr+z38gQy0ncQoacGM/nsa7GLte1mQdN5CMtgUWqY8mHejH85lCuZM5I+j7ZWNoktrsg0qU6qedykF4U3d68XBsEn3vqE6iINM5kl0oHm6aCrQXClhQzk6LTlK9yDWYu9z4CrKLNZs1kIIKxOK5lAsZ4TXPgPPj46/Nnzn7/7cOcb7x6t33SvzsfXg7Orbu+Ln30E+k7PRv/3f/rf0EEvNTqHm2uvTs43myLhntxMVilnbBtS0y2TPXlodmWz5EZLVNm1w53G0X6ntU5zdTrGoCxutzdbt8ekJUqmzdFwzSEPnb0N223EzQP+IhP6HAywZzs+a31vbWtz90/+5E+weu9/7avMW6RWtuvB2XF7Y3Gjsf3TH/71Vz741d/5h3//5OWb//aL553Drb32/g8+//gvfvYx9tA5Sybr0YMjYcAnEPHhwXhx4cxWpMauwKI8Fk0TU43RM3RGg2odtGC6DYthpCmqIw/i7fYTM1DCn8meVcmL1WHzl5edzgYdHcCwAMGYKTP4ciqK14J7a6/UYNjFXDXebHsMcBuC+fqxttYV648FQR75ZOJrrhaLkIUI1qaAeHNyCl83N4SsTQJmpZas3N5wBIbI84PuQF0anMYIJrxpw9OMnnB5YoNXw8SNxr3d/b1nL59djM7tiBrOnGR2rlO7e9tO04hEuHAjtp6z5K1mXvsAb4s/39YGpb2+iFWqhUYJTnPeFU+NnZ2ttF+Yptb6yzevHcR59PjR9s3Om9M3Wzs7LBjHx69DeXOmmh6Hh+M6yCnm5PwNTd9mp9ntnVx0+/RkR3sPjra3r0/Ha8PL1uZu7/RsbXGyu7pyPUQosyvLKhN4aXNj63Tah0KF3X31+cXqg8MEZm+sn5+eoV6PHz8dint4NXBoNfOYDRzY6n5veNkUK51rzB6hULAdQ6c7bHijzz/b6mzxedlob6I/zleOXFX20ugX1EHVSUN+dtrjvjHoDceTq93dvabYXcMx/LC+uTK5HtrUubIRPgBvJprG6HaAIME2WWNxSaEvJDaTprinxtpD8Zg9xNwxoNZokRajrhCm01o1eb6yvAM0ZXmX6Z5bQT2vr7yVYAf5JTmBbx4V5FXz5KHHxeXC49oeT+RyNRW0Y+gM4T3faSWsE5k7xUiKTWsKQBImfeNhcE9J+hH0SY2QDliseZr60hA9KpJCcW3wNEXlSQhfKFvJExyWvIXUyRHamFQGoTSotKF0qL6JSPh2krlU+2XV929LSYhTiIEC1a61/pr16LZqVXks6gk+ZSPRmnd2dzjm8i2jprlll00QuZxXOJn8/Oc/Bw2fff6JXZaWxIsXL8DQZDQ42t+5tPdvNrNBsnbT5m4ogCXM2Xpy0uRoAKFeFUiFVtUWljH48lK6XJucDPMxKSby+knN6pWbmsH1/pX7OtyZ08IleBD4Hgzqh1w/AFVRMiRiGIhap3DBoYUZoZyNS0htg7e+1YBauK+kee13gJHq/h2pfnX/srb27atXflYYiEn0rVSypQ6FaIx0//L+FSqmPWwfUC0Nxemr508P99876jRuh6OTE3r15enk7MWrkfMRepM//6sfbcRQtfrNb399NLt8fLH50adfkOIsL7G2Cd7ACasgLg8mkjKJxUQUBS6is1GvxzSSoK7TUX95OhIOIM7EJycnNCUHD4XV1nY7MPFrgHsJ88vstbqwstFoX45mH//Nz1prLYZcr/xzRiz7Nq8DpDGHSDSWu6ev9pcav/ab33nx8tihxyvXq+srGzic7mjGy42Vd3tnW2DXPatjZbWH6mxtZousEDB38K9t4SVLyni+Ja+X8aHJosi4tnHYXMuQIS3Tqhi4zzVBMcryhPTvx7lOX73WleXe5/JTVTlxCt2yEOhN262tVpsFN8ZFGVzNm5uCwLIqhWCnXlaypmpDCwTyQHCWKcPvOme5LE35w8NRQV9diuPAL92JV1xtNhKqKkPMow+HKYACImc14Sy0h3JKi0EsflG34Ep4vLYZzNsBDYVn4ESevJrHg9cGdJp6FikSlml1i6fFigAoHDiV5qiO7ettjv7BtA/jBvns+Re6rFLMOBbcyTNiLSqcXkYb8C08FfvnF4Jwta7XjlY2GHXHw+uLyVi4iI6Ig5xVh5PT07OdrW1SOw8IG8su2yIl3IzOuoOrs9aHW0/e2fv0s+dYAdCnLuuNkWjkDJEEFjF1dlNMUXHilFCNn3z086gcORmGJl2BQ+r67Z1Nmw4pjmKGEKCExzq/AUrW26uNTTKDfdAsOiNslJ3s9t2If/jkvQft3Sal0MYez47IGS0RMG9IyTZ6yBajse1WhBg7prkQpVwzCAZMhtZTh+KK7ZF1OB08Y1hBnjk2+kbHDLmvT+qN+wof9YZrx/3zSDkFXhRSJ88rqd7XKwxAKOHIKUhYI7QjTcGIUXbeAf/8k/LTSMTbRqmqA5PIBS5SUbjhSo+SOzTEv4C3qAFKYlYAQ7Ihlb6teNw1AB1mWkkKjA+YGUqby6tSVIA7XaLoKYtIIbVh939qtmQp6f6nQupA3T/PDWqKBqu01lKv5ZtQLFOU04aW0KrV9sqOAKlCxzG/O3t6ZXFjvYHjFl3ERHzlnae94eDzTz4lPj9+eCQYgNUycCrA5XRi4w1ZgXk4p8papDtbO7u7+/twATpnB6olQFHnlDPNoTk175VI3zUqbbpvs6b5WUbbyp/30duqx8vgWOYFSDy8H4T6SekWOSyOWiDHHo8vvvjCw+FwzzkHkBR8oam2TxIqsMAWwLg3slSErHCvOuUABlUU+WbejDIX0TWYU1WXWv6OSxpZcdVb6E8+ZQYuSrr7mbLcp393Jckmmayo8mMOBmZh3iUlFyAKgCmmomNHjRBcp93Bw6/sHW01Woum482bF5+ziDpIURScP/rv/pKF42C38+E3v/ne+1/Rth/+5KPb650pdQc9SfrJYgAGkaqFseDeVpuqHMhwvcpLInIhbyACxG27s7O92TroXUzPzk9We83Dh0c2gi5y8rq5CoBfLfZOe7YFN6JJWOmd956/ebVLKmIRmF3S7DGFXE+yP2wy7DrEsbO+dXb2Sp8ef+Xrv/F7v/Gf/z/+q53WwRenF52tw9HVQquz3mO2uZwx5AvQsrW1uTgRIiI85BYBfWAw5mOWu9zPhyhTU8bf7wwRRdO1A2fbOG/jZiwzitmWusJJEkyK9oCBycqF7ZjZq6ibWZmr3z21/vOtWsR54inNR7yxQWhTkiY2OBk0iGWALUSLeR9oRkOzsNA9O6UMhO5BEluOiuE950k5ztGKA4TQyJJ9udF82PqsHp7RDYipK8iFQ082OMczS42Z+NEY+iPYhP6jP+qTWfUUs6i9gDbS9pKA5+N+H0fYTo3ZPUDqXaWt000eIuI0pdLrq9Pzc0tyb2dH57GkIIn33cnZmbWCsaNN4ZeIi7NnGjNnXdDHeEVoGw7tIeORsOR44DatX6c17IlglAasX3KeuOnEm2ZtdD46PR/a7bYmpO7KltNrEkcezue+c4WcrDq2a3x5Y2d0YigaWx0m7IK9lStaJ9hwwb5NcGkQec6jkKNsMjC2vMBcl5cafp6fdknY1qN1i9XEBRkB4AzxFtJhx1doqnVkZEU6HE/69N/xTGGa7aw2FxpjOwtv4g9PBFxbNEek+sAB8GD8sZtbEBvUAf1r3US5OhsTt0A6UAAOsSA4k8sC+dIJNdimBM0NFMpR9MJ1rabZdyQNsk8BBcF5GHj0f3zbSvyCiixKHR7K5hbwFXykjSnZT0A+L7Dgj4LigyT8D32EEJVUMwf3lJTq7ihZvDFKS2r5yvQznGXwbF7OM9RsBVvLkBIKkZMtvbhLfspYq6nPauHuvZLqw7fvPVGadJ+nvs2jOlw02BSZBdfX0gxsTRj1IGKq8cm0IeyQxkNVeGvHUReiK9vWwaF9MFyOvvjis4ODo699+NXu+QXQ+bM//teaas00N9pOCCVahSVrUobM7VW1Pa5WjnrNXSh5bJ2odubRw6S32i+zB9pvEmsvcoVwSjJ3nltvb/fUfR0uzKCgu2EmolDNmUPJvLJSzigCefa+2DYp4o7DXkULWxf71acRL+4bUOYOt+dJmL67Ia01uP67kjbWFoKfmtLqktLBkvzy1/O7YsP6SDWbq+eSPDVn/aoCfFZjjKQBS/9iM1+4frjXOcLliyA27lpV1+Ph2XF3dDH6+cc/5Nonys8/+vd+n56x3bp1PN3Tx53Lq+3BcNZPSB/bONNeAM6WsbBAl3tpPhDxZpsKa7WZjVkw3cbjhx/s736lfz4bjJ8t8AO7Xuv3xuKEQ7DZccxIML29OOnBNsaZdqs3GtC0Q5WImSBeOmeouYqjgNb8rNFuib99M+pfvGxvbX/jVz5s/9F//+z58+M3PYcJLra3qMIG49nHb47fPHuxs94+ZKaHfbg+L9+KewjnanMdnDrjMIgBDH9R5K0ynFl9GtOAdkpAfTp/KMY5tp7rU7y+rYoo0Pn2zkc68Hg37Iq8v89NjHqQ6XJ8NVfXtMATWLa/OGofbtbazZrSlVVnU+2Ax8pjBwawBIXcrydKU7iUcPGJ5SM2my1EG8wg4rmurdE0oneaBj4dYwWb8+RM1xjBbi5tG1A+gYOHH8DeO9h1RgieRcUkPjC0ublFgSD/6FqECMZXKoQWb3uqDpFxtXDYH3luRaBM2g/LEEQqagot7Pf5SmxudU5y/tkaisItipvD+TnyQCObI3SJfEyWnMhJmfa1MCPZmtU76R12jh5sP7y53Lg5G10N7F1f2tyyy/jo9ckLjYX/scSX/BSx8gJiLbJuNhwZamPA6eBUxBU+kpsbXE5W0tRrliDKWo6UwDILhCS32d7QElFKygwGx1imnnCKYMYzIXpt/igGjawOOvDaVR7gg71YR2wRkevL47Nj0ueQi4qO48TXW1O71KbX2+0tP01R2YWUkMJk4Y3l5u7yzvXabHCBYwJjYE17UEZAjaLWgE13y974mnK1aoqp9VNy71qBKZNXXNR8mucluDhYALjyeDvHhRUdwP+lQLbNhRzFZ+mX92gV1UZpAmRSAU7fsgqUg9pGs0eRhtkPtztHtYUGKI+4kAylJN+GKy49UXg6lfGunxRgju7FTcE4RXwq9dZL1lLtGrB3YyHdPcnikZRmUbpK9Zv0tDz3xCeSm9pOGfIW7yFH1lc4d1cZUhSu2V0wNVEw4ZmxV6P+AByIxyUwjTOfSavwl4G1Pt989jmW6unhYffNq2mPSLLy6rPP6PeYVa3MuJrubDthB1dWxx+rQd1RXYTVZbTtGpHwuJSSofNpay61X5mO0oXSqFw0Xhn1pzxVFKv5/bwfN9lqHvyp51IRTo0kCoQqoF7iINq8gYeicZnxNupeOHjQ8jN1Cy8taakVJ3uIgBqTpgbmqvCWIrP9prAdKioiUa3ub1/rgKdhd+9qI+uv0rS7wb/L8Lf/lkGZQwiCpBvQvmyZOispsIZ/IkZkWgQcPXzQfrjvUITB6ZtTrMaTh0/GZ+NXg2MKl8nlwm/97jebG6RelpUeP/PpqMfDzjERZANKHfiIIIDNxXqz0IE4dGS9s7Kx3dzeQUpyRFNnY2935yFu6+TkYnp5fr1Ia7L44tXs4fLO4jJHLA5o+PYFO4NyjMXWFqzXHfaefuUrInMviCjZbJd9h8KewyQiCbXs2xl031A9OgL39OTzB+/v/ZP/6B//X/7P/1fOZqtbDbHhGDGu27aIbg0vpw/3H+1tbUOW9ssIJrG1t3/y6mUFb5BgRdYB9KTOvYeYrPoQWAJgkGbwYgcGQaaSkZ0ScFWMc6gFTxONT3ofL1BLvVKssiul0La7WYtLrRnAtusXwz+IWWsixtPlh3tqiTxgjZYFhsR4DsC6vZuLHhKyORpTzV6gVUxTkAOEpl6qunxVbLSe7Ozt6oQxskY6HcGXtOoqSFnIV0cts9WRwBZv6Fo3tjrOdDbU1pMPLVu9ssSEbA/k0+5QmSV8DIGULuGq+pSyL+MmTKjBMUpiUV5c9GDewrM5YrfNTINcCDBvIYiGN8SR2LLMLj66tOvucmyZo1PO8lg5Oe3DCE49g4venJ4snl/uXJEzb4+2hbx9et0ZiyIY3/IBg6WjRDrXk1cLzky9dbbIshgohBocEYUk0zVshbowOI2Q/tv1DRHEwD5S0XAK6Lb16w3GlmnqzavXqKndoVaocE4mjwbRhFrRBvFy4XIYu3hxLygoLvg92EsPZjYb6LJpslNNEgCBYOgwEzIc7Ga/GB6sXyZCzSxWjjBrx1tyhdLUdgeytGNoJnZjQSWcXhC969myIFnV8akucpUFdbbbZhHa8lCNd9AzR9aG3luvLBn3kYWKMuc+M+jL9FRyiCxFWE9+D/MV9xHOUX5FG1AfVxxeyo/g53EomGLnFKPIB+l8SZ7fW6JSqHURopYqci21WFZ5U9L8T7lXQORPOCeZZZm/9DwKPCUXclWf53VJMku/cF/66Eltkpv7PNqBqZxLVImnFS9BSZ6U75OCiN1h8k5fv4nNfTTiECgZfBp2iwdkKNqvSX/t8ePH0Plnn7FhfQwxvffe+0av2WKATVg2i+dqkmmCEKIWuskM+okKapIa5xTyrqelf/MBl63myZiXDH7WxVz7Bc0APUl78qqoZO9zupHKJ3oXwc69J/oAvNwoCgQlpkkCJZrWcoD2lBcvEBJwKHRRRXqBsdJUNxq/tx9nB688kfxx/+9Kiq3DW3mCms1D6W9/V2ch4FUKvy9TG1JRSaVOa7rMkqWVRHfnrSJ1Bzt5Tc2z5BCFGw7TYo/C9AtnF/3j067j6v/R7/32zn4HK8wV6uTsOYVJa8Pez6GATcKFJ0wgdx/EnZkAn6jktYVGa6W1vb6BVu1v2kJbydX56emb12ei+Swsz0TDceKiiCWdTSoh7gM2V/oe3qWpSP8FysM38CjrnZ/sbBzAqsQCKNX4Cx1jKypHJ1rlzb2jlpDYi9f93puHD3d/4zd/9S//+qdipTswg7+H+blknkG/HhywVzmR9tJZTtSD3S4eSOcNT73ej5vxzOiUVF/5CeBZI8qSXSQYYVni0ZJVANthNKuAHl4kzEBJCijjX8c+V69cE4UvIISHJHMmhoR7EdNphMhvPvXWtx4CGP0FqMYXX79xyx2ahnCayOmtRFrSIpuI4FmyFNGKnsBfEgaa4ECqVju+A0p2vKt6Nxqdy/hq2qCfTZ05QqJsO6FvA9h0YjQcTuvQAJvvLpxuvJdTGUkn1i6PDYHTEyjZ6Y5jJ9HQyVsdRW9ZDlHTZkISdyvDglXj9KiFRjIbbcPR66VFcGvoeGwUci7Qw4qYTli7/cOHy7PbTz7+6PpYrI13xMDNmVkrzWWu5st7N+NrKB6pXLwlm2jpjfOpr0UOoV+7WRIXC7jxgPjZpx+rLoMZ8xibcRtdX7b5bHUFcTKM/cEFEEIpoSZDyi/Rusw4w2arQS8iO9E04w7wB3BNe0Nc0wbRR5lGz1jpL9bTTwxKmb6QDETSYoH6kQwWJMYqlMIYFnEuEgfOIPYwchuGTDRseDQhA8PyuPEv8fSE4VZihRjvtA/W8ERByVqSG0+kmo2e0j207yU48JAoYBrgpfpV+kb4Ame+WAzlI1srIo1OwyzUNLUU+AvIqDzJkg7jVUAfxqxluir27ZTMBctonm6Ub/O+3FhI6WQWAv39XUfINWHvs4dYtoK33sJctcBaTunrvLb6pNSSwmvy7sti55WWtyGcN0YWYZZnWXz8klJWGdXsyio8J+6Mmrh3fsHt7LLXn5xfWFcQkCkI4VlaIbbbe//Rj35sGk7evMGqfPDOOzaFRBxBr9bbZkt+EJJJX1pxfC33PAdZa1jvIoK5JUQsL54Qak97qrNeGbY526EfnvukTnbaWZIH/rre9Th/65P6MLnyIBob6nTyeBW2hBLYaE8AcZ4AQkGieF0X+UmT0C7lBBAsqDs+F+OrHJl1jSeY5/KoRcoE/rtT2lRS7UXNePekNK48qk/AqAIDlHdlznNiblIRXgf+Y0b2TQiwt+4CiHdrwQp0OC2XTOcA9Ydno7Kf+8XHn3/x7BXK/h/8T//xxu7G4sq0PziZXo229lqj7pAHBSql93CiXs9s1Gc1ZnfkEbO+2GwtOeN1e6/d2d+0D3SxIf7y4ss3L18/f3Py5nh1qbm1s4fxPz+mHer3umPBwW0XCttgYBNT0ehenZ2dHr3zEIIIx5+Vlis3qsAZ7QlzBDbfahYp6WrQ3t7sDs6h4N/7nd+gk/rx529samJpYjhwDtdSc4UnGyHRQEFMuP4yFBlEo2GCsDNuwEqw0h2PmOdvwYZvqUMwIVBi/NEaTQyPvsPFoNSIug8NCu6AByLil88z427KfWoEK5A+2kDrDYnn23Al6EGf65oM6pW0RH9l6w26eD6fUOvlZ6/78OFDKBjR1RFrKpFfmu3tvV2hZD774tOPP/6IpcbmaEHpB32GwyEX4gDz4qowVKCWcEbIOO114S9eMVwwHOKhkWhMlFwSE9DVaJ1ckDGn12rwm+eOOLzkAjtEmLrdiR5GSEKo9YF4eD0770alT52LyClt1B8HU90sttdjBvM5+0+zQYaOOhSRsKXq+mplNr49Pxuu3xpE6laatRInAWPMUjW53bQzghvT9ZhodxEvmwQJG9NDbiwubDI6xGfdiIH9OsKsesaEI6FkXfBn0HM+iQAGUkJXtNnYauFmexuZiB77jjnQi0WGpOyFA1cUEUHRmdACePxL4r0shMcaiTPepOAmLkTRl/HwxgOs0M9tOhJMvCq4rtFEnjhfqFSh/WHvHKV1gE2s3fhE4zcHDONJEx5sHugoqQDA/KInJs/bLxNGk4KLD0pZxgHZgv+0W9uJfXVhVyrlczcUSjIHR8stf9j9IgosrUZ1krf+waS5+gToGj6WPJXKb1lk1am0cFyuNszIRZdQ3QMBOIwis1oyIXfJk1JaloJnCtG28MJRaICBUnMKzVt/JRQ1LS+pfJSnKRlplgqBnpdZM5n+kvKyJk9KXfX93TOtVR1P+uhDsQ+MDOUodLAZxbxj1NYBS2OVaB1VbSmN7t3RjVbaF/3h0f4eMr+5f/De03e+/zc/Jn7ZRI5DpIJAw2DQwowu8nGwVkGARjHUWro8fIz3dY5rYyrC2RDdU76xUUkUyfG01OT6EOiZoQxw2oD6JL5XUlam0A8lAEo+974Or7HJERvOWY/DjmRNbu/uuEF48D3iPZ9edGHSKScl+2G4+Ii2AtncGdU01Se6YYhAkefxHLqbUIXb7l5rrDBKRaZKw6kN5VpmWR6QlYzziQiclPv5pXC4WqU6sAToQo5Kv8Ec0Ay6VSwlco44yb4/axBExG8nwCWByAW2nI3VxXX81uzq9OTs9OXpm2fPPvnZJ8SHJ++88+DJAaA+PntjP6hwCt3TC2gm68XhEotMOjj2sJIcoMybvkIWeFoa4MiXHFUub0jPtzf9l1+8NtqasrR23XKO0UrLUTDs/CZ362pjQVAE0lkCKIsXINANm8HC1769yWBAPicuMBSCaAIWM85M0NyLPn5mc3cXLet3TwlxzPhHjw9Is/+jP/yNi//mX/WfnUwm/fXtdSdr8b5bXGuNB+eCZNyy0IBUw5EBAyoYMIIW15Ao8O7nqAxO1pY1HmeLIAR30euYFDgxlp6wUzTghrIsLEQvIBfbvpS4aMory9DXeVRAEC+OAp2dde3OoHaDToM8mxuD/mRnh42zxLeJlZ4eWcFEpyE3pWzsEb58wgpFkRbdo4VglqGop08/+OavfNtBJzxK/pP/7D/9s7/612rd3mX7z0BhFAWUtwMNap74Fx+5tsUw6o7Q+cP2AwzFuE9ii5xHhOLRQHF72N6P6zgXwOE5AWBln1+kGqnBr3d2Dt4cvwrFZQocxf+Fwi3S3eU0RoBuj18+zhTY04vv7m5HYZZBybqEdy2LAOTNwmarc9taFi7gRz/+wdHW/vuPn2wdNRpnOYWH8YBFCgNueZuXur7UQtzqjpYFyZl0r2eLawN/ppOVX/3e2cU5N+MTO40TXdJCLGqgILmrdnOF46WJ5KUClsoOCu4qFn3TfGhk3F6IotMphmZJWIuCmX0ZtB66R38QqyT9M6YZPTbsxlxnNSzog3SlkbiLBSBNh9QhvfFTlzxqzjiJLUxtX7yyhetywWEA5QgKeJFgxQkICmE+gCUcKTD2DX1r87aJqpJHDWegkEqPIGJfKoirmyWZdkWSxiAHVcDuUYO6TcwtuGm+p6eQmXCqIT8ayLzeY1MxJMi4AkRGmyBsl2Y9XHb0+FVhCIbRrbBLYNu3WbS2R+hPIfX0JzFqWTzhgYJsJHJd5DSaAQH3FqL5tchMpL3oMIHRL+gv6C1EKu0OvyxQI3YtUqGsMX5aYUFLFTcVoDEy3I7DOGQpOaeDolZ8PiA3Q+TZjyaKxj6g03af+4SATLWK5bOunX6mdyi0maNKw9mBWuQia0yFRe4mYn79ww///F//q+WbWQ6vvM0p3OyoGbcZR+NQnen10sH+niCVXJGpoF+/eAnaXp6dMX+I8QwpA4e09ubmRz/4sc3/kjGhu39wdIS13N3eE/JSfAKRfbmiDmY9XbL1IfuxCmnRO7OvX1klfK8sgOV1xmhssB5WW7duGhbUEaXJiBurgnM0TyrTETWC/rK/gfLPnz0DXNpApXCI0m7vCZMwazAuzOwh2tndLu0NvjK8Gg++edMpn+LICUCUMMgZPYJxgLxMH3DTPIBmKky8LyNeUKSBxcXFfrePnPI68RhhTeGKXrZCxLXOpPqQE4uGikOqv94CpPAtEQ9Cm2ZhovBtRI7FdR5PPC6jabOlcW1heU1IA/pKw7F8PW1crRyuNR6tr1yevVi/XLt41f+3f/mJmBYffPOrf/CHv3cxeEaK4hwjdAwYsIXlctjTCzgFjDurJkHYjaWN/pG/qekIDbgnG+aXbEfsT5w6keBbNgRaj1u7bZy2A5Y3OzDw5tn5usEx+K9fHR8die69ud7cPD09ph168KhlqH/y8U83djsHh0eTcQRriqne6YW1sCJeSrOpP7jDzfXGpYCBi2svnv+40d7cOXzyT/5nv/t/+y/+mxcn4yVRD6Yre1sPbpbbp6OzKWeu6NNodVjJu7qvMYbbWQ+T8YifH4YdNjfRUDk+mwDEXI9/UjUOV86NdtNWJE5vMC5lMMoXadAOSqdkzSYWCexqvq74SK44VN7A4I6EYxRlHp3NIoUkd3bjT8iBI+cBqmowFiN179GhczEfPnrU7Z0OhuejyWBl6XbLaJZVttvaEBDoYHv/vD9aWW6qgH6Mook7Q7OztrXbGE3P/+Sv/9XL45/vH22gpjZHhyVvoExbAlI5OJBxzSH3HMCHF8ONrc13H7xnzY7OJ7a1Hm0eWST+ddbpLWjxR6LKbu901pezZ2ObN+fGBokL00Cj5GDCBw/2kZnTCzsgwy9OLgcoP3qX02CWFh1mbZn4sNs/2zvcxCny2OcgCmZ4UEJfUUCMtX1qH1WjeWj/OPeQnYdbjxu7rfOF20/5FA9aTr5faeLqnHacvbX+2YTeXJmc92y4bYumsrp0tLbV5Qq5uODUEuLqea8LU60RBddXueKQ9CCHm+su3Lyzu3lw+PDlq2eIE4uyhU/bSWIX0rez4eiQbJQE5JYPv4zNVnZnFxhIGDMqUQ1mZhTIicyM+YVUTGPkVNLi5RUPz83E6mdO3SbsdbY7Xjl+zFoQiHeJw//xmKsJ7HT2qovm2igr9q1ovxzc7QFobXYENsIVgYzgAiAiFSxU7ksI8IxrsaVbKsHJd1wsRCMFb9wl37oNCpPupU41lo292JugQ5/kHwRUeCiEHSmAS2jZSwWe3isAa0tkhCaVW+vyU/eiMfRpSgmyTguLQjJ1p5KQMrNen6c5JcljiSAHuWD0YcxSRCoKIots9EtJ9wp+TvPyeUn1LoVgE4vLiQJqpRpp34RceeJfGQcYFl9qJHXcK16rlqBgZeiwvcDDk+ckRQ3DuiLRcDRdM5TJ/d95iKbFMp8Ks0MCn83ae9tNSmPKAAqCsp0Fs9s9P3/9+jXBLYUXVj1LezjmQI3zucVdJAwuFKAVGQB26sL1izMSrwLTr5deI8NcUK0UP6H50r9wErpWO5hxStYAQeleLvBt/BIdfnjJar3+ta9/oCU6eHbidL1TZMxi+5sf/aTT3tje3KRdoZVWhkmRp3DcEbDQqAxm0e+Ttu6nz5M6fcScknCRoEGn54y4RZ7mFQkY3ZFHI9POelO6VqcCjxFaoa9gxACnOK3HFMZF0yyjWJZGKDBvXd4pXrDOt/hkq5AGW2jy6611kaITxg/T7ZBG3ML27u5v/97vMBZfXo2WebqYPFgbQVJ6+KpwVkWiyhFGQu+QVALzeR1v4FhI8De2wsSqlcPbon2IwzNaecsaIiz1cuNme6fxRd/Wl1cPDvcMQHcwlMvWH6c0bWxsIwUGM+MZ3QSLf3hzUKeuSPaUrVhJnC1DzO1liwcan5GZaAarne2jX/3Gu2s/P/npz1+vrz/E+uGinSw5ENHckQ4J6lHUGLhxrGQGVYooW6c7cF62ixZOBp6PkjAM9Q0j/7TbvV5vX7LPGAIbcMyqebHgtN/qzKx5kiDWmQwVmMiAmgxFJUvvbYMtYhbvS3YUhfMRGMFoVzzcoEUBf/mnrFNLiKuWEG9XPAFiGXTsL/jlbRSllu0fQgEvCMj5/e//xU9//oOb5djt9x/sbO5+h2XOQhJpq73e6rS2OKdofzgI4n7Z70sSfvrovdNzfudcRWzMwhmTwHVXSw2FJdg4O7ngpYtjoMjG2EdFyNOIe8ugR3rubNvQtehEZqBmkaJe4jThSzQMU2IwiWIIM4bv4GBfe1iPYKYilWJf4+u93dyCHwnM+83dSAULo9MB39DWegSPLOAcCW9OQE7ZJzScnC8wNtnfyMiaOOhmkr3Y5j2OIFAQnn6JQhqoD1DWRDagfseFaMMQqua3QBq2ItVFRwKIEGZzFvlKIRAJ6hLeQqNirMrzgiLOSxQYc6fx1rLn+oi1Yskb5PyRPqhHrpQcffpo0h/GVGYJEHQOrpsPrlvtS7tEbVzDfsQkbByyM8JmZlIayldOysqSMvB1hQcYS/KzpvrTFYi5Rk0dOLt7XNBxfVW/9VUKvHseSKT7gKkDqSmhphQzn3KLAPJUfoHfWLNln7dHaXdf/B1/aws1yXhBq6hE9OIaWT5yb9QUhpTdVyxnMZrIXmpUZ1II9n3r8qA8frvKLLFCApVZpMFUlEcZkSBfH+XnfR4lk54JAshticCEn/FJnUifurEN3lsIEhkJhodmimrTYGmkbfN4rRyJxFcTHlrOKcOtBfLV9mA2CZnAsTlTICpjWGqBx5LfObFC6IRFnkhTrrUoNsiy1HJ4O31bwhzje6wzq1apGe2IGTb+LEKl7Ns0EunOfZp3EwIoHfSzjE8dt4yT/pMaLVBeI9rmGFu73/383q98O7G04xB18Y1vfA2YOmQIxhWl1CgpHzS7Kg2utTYigHIOwrzh48EEJAdwbKxNbD3ZNMtnGeFwLBpTJ6lASHkYuPEV9SRUD3vpmvEEHaXNNOOi7eUMH3NSbLuWD9esxcX1Ju8bpp8Fx8IVzE4XEzFigYC20GmsXV4N15cu2ZxJKZz5h4O+Azs+//xzEQqevLP/27/990wla8d4Qj5dTsAb00gvsJA4I06gg/60SmepTALieOAQAhuIsuGGJkrjjRIh0FLPcYLOWLTbUhMgGvpHs7Yw3dptnpwsnV28fvRkD4JF8uFXeFHALdtCmTdIEv6BBDYGDTWeWYZZCBA5cyZ0FpFRDDbH6jrTiWfB6MK+2r3vfPM9J6a/eX0hZHjEuiXbcQiCgFxIHz4wRl4baCBstzDA3B7gxkQmlQIJsc1QnFxutBiqWgbg9OK0zqzxR33zzd1cVFgCbb7NxJe587Cm+5+kT8MHwdHKxQ/YKRj9kYl9sL/r9JCR3W7d88+ff/781eff+tbXnz55sAZR2100mRDKYToKD7p0pBraoxn0MDt2MARsMLOl2S0LcRQh1AxaYk2hL75rLbQcvuEIW0OH1Us0kfUtG6j2Dg7Pur04KkNhAMrHiuPxRqsH2XN1KRp46ISEki3eMZ4pOO7vnBEkI8AfPXJn9JlbXP4K7AfxEi+sCzekFpKWzCDBT0MLyGMtYM8K77fGSmbB2p1pTPihXw/XoPjxTWPkPJHsSV3kU4eiU0BxH13d2Vgbt69u+o5mmFxeC4o8o/S3zpdsPR7BdvbwwRozZz5f4YQSIlfpNjQLzs55E+AABNNhCZoIncGaaVge8DW6RtKCvupyM1zuJRmQHw8De84NcYTXyMnLceuHo1apDeKAZ9MufYUVfWWk+ImRIqNMhLOuOC4aQh6OI0GBr5ccgw6zRL83gQcx63xrI7PdAY2b+3u14sAy6gAgcDlHT2luRIf8vAOzgrXfMnS9DXyyKQT0aTHuCV6ND68Swp3Py4SLcLtqsZpd4g0xpyJpT54X7Jav7n660ULZXI20a7KWlOelaX7JYBx9bphrZg8Blu9KFRqQD93fp1/66bknNdU8Sqs3mboyEPd56is1EuJ9phJPNLTS7sBraXMG0DpxSgQl8Ux4LmfEQV4xyYoZnSAs2C0sH528jTnxl9EIWGcBn8J3a+fJk5wrXLwHM47LS87feff9r3CTZR6j+lnH5QkeAQbILEI0aVC6GBUZSYFKnPRE15Z5ReBZt7BcwkbbX18MNsleAFMHK96R0cP5sNbO3w2LblZ4MOx6Z1lutTa2tzbpCMAuz18bn188/+L3/8HvMczgLakDrGf1qsKEKtbnvg21KxGgywNvYtjQAMmKQu/LJIVamb6sIWg4xKiwJh6U16XZIspkN2WR/9LWOimuYRjL2ZXWatyeiaeIj84PrMNoB73OeTzUj9QIN4y6iCJfZOz6aHHtJn734vxdCz7RG13PfvjjH/O3+D/+n/53DiiiXaR5g6ToNvgXYEAtSsNqHbIfU3UKPUpg4haA5MaRtgAvR6pEg2tgGmlesbSQRbHLr9r0GZOMt2KkzThRXo8Y0h883v3058/YosUK4rixsb7VbDccrdda7bb8XmHWXnHg7OXSjaAmFpSSM8M4H1BCqEPD7XGhrnPGOWOH0N8s26fPW1uPvv7eYf83vvFH//KHnASbq7Pj8TmRnD2mubeZIc4YllUMogtD4GqaTI3yYWY39LcUv9gU+h+ChV5SHrS3NondOCTbOX0iRSzLN0EBgKvyExW8TYGK6tWNh52NjV63a6uMGZ8OE5P38d7etqPQF3m333TPXj//7JOnDw+uDnegV22w0EMBEsau8CURL+kygynUKd3zo4G62c3sghZTyKhELHNIhxnHPUDT52e9YXyvLx9TIApC6JAx1IkEDFpLlHvOh1XlpXQiOzgFvfbhKieig4R+xJzjAHgxt0SiQF/6qFfkEYRnEScqJc6ZtaDJTlTRcXBFY6YEySvYX0kO1ZjcjsnEF4NzoWeb/FYg7VMePGsbS0cjLjVB/kTTpTbJJATherXT2n5wsGenQ28BWesPJ6PGyqUDEUN3bp3HaDU7jRovQ5liUBiYaWHL2+hvgG2Ww9ICIxYGACaApRBm3yJC3CO5KOD55dEHDArihMoWoTC0Xx1ksjqPfurC5lY59mxv20DhtIajbmcNbK9wVpyMBctsLI8XxY0XiNG8+9wRX45iaTTtcl62g55O3xZsGoOrZUjKYqr9CE1K8lNykwm+uy9vckEX0J6CpQt4lQwAUeaa5KlfueZJhqPEoytPtQYH7UoMuC/TF7UmbDC8Y9BLXHWgXeoJQ2r5JThtnNY9zr2pr4QWDgiTDrFKEITpD/0rHmu1DYYM/Ie4UO/4F2G/pPBLX7ZW5rd+omfzVx7W7Pdv3ailVMdK/+VXnudViTZbq84AlHHQZdghLSu0Kzf6sba4c7DfG/ZiJlheGsf1xSlvC2Ip8hCj0wjOi0Mto3q0PCAYfG+HmUqXdcn/cO7mzuoHzRYTOiS1t7P78NET9sLxhIU/2hZIwghEj5wPE2qGropJ0hm4sQ6iFuk4MQuVMnzptWaXQcPYzyV9tUVJ83cmHCfhjCXPOrPq0NTE04wsd7S3p/E//cnfUFee96lwLk4vzvD5RbRNacqXVEeS8FMtNtLSULt6aGq5OCEGFmEFhgTJCbkyfKYx6LImw+tZSkjPIhkkfxnqwiL5AT8LMpNwgt149PUhMzMFYHZ2DxUIP5OwTE+0c6FUmA3RTlnIgBrsTi123eQRcjvFD/yz/+Kf2TL0rV/52uHDfcFxXr76zDoksmLwJo6ocQa9QY1AE1FKuww65MlCCU9rJQWsEYhOLT5jJjnUla6G4hGWu14YC5jBEL6Okjmfk/cEp7VloSnWNndavA+cqatw/P3u/uH52Renp7YEOYpmm7rCPIMBq8GoYlcyiepDJTHe9KB27XIEvhIDNkK2+Tx79TlXgO2Dr3zvm+/87IcfjejdRqe3Tk8nQnAa9imGPM3GECio8HZRMRZGrGAMw41PWW+ub5VTg/tDNviyyy/kyJqL5sAcGc+MRJkjUyCl+3err6ybzJE1auAqCFoUKBU96XQ446Mtim9jcaF7/Hpzv+0Qv9aauEONg53t/e0dWiXcP42RZUkOtOuvrHHk+RJ+K/gKH4iLZFFC/oxRQNlOEgAjbGAMMAjb7ZSbRLPTevX6mKYdcbL0Wlsdmt9wOWJZ0VeX+GgkWn+BmXWTCTbOkbE4Z6CNwTF4xPXFtZcvXz99isIeUPFxXyBnoIpnx2eYDWjIrCOydBzYU2fumi/gGqCJXQR8RLVOPcJdotNiD5udCKBMcdns3A4ub8+cgrKxEEMaxbrI7ukWzA4nmn6air3d/XeJyWerw/MXo8t+QBg0ZFCy3TMLI8CPc814McNz2zJVdA/FrQoQxSIOeHAeJj2TFawPCWHk4htC22kq0aqQ3bhUzCNup9/FeUrmgiHX0D9yqgEkJIIXp9JkL4FI82IyNSkhCU03w97wpjvBNazyOUPgF2gO1kxE1v6yWE2Mok5uXl1uRQCII3tNBWhy0ZTAXDkNqCDWPLzLFZyiY/pTU97NASwP77O5qRmCKzFT0J0BIUVWKlZoQ/0wIpcS80FMIoHlrOZUJLn3Rs7607Xe16tcWR13lg1v0/I7cuVLtSlK5prfW+rWeh/8nJaH1pY8wXdvp7xOhlxrvblzX8hVmQ+hViIEeOtDr3KFUCmkrHcsNhRimss+NooRA5H1xOWEvKzIVeTqoM92TZhP2LgxZQRohWYI0/Z2iOVsrcPfmAu4omYDHHAqnQ8fYTpm/wwfd+cdAUCFqmbM7DgSdKPZSghQPJQQP0xiODBKqFZkLtQ+Y8osglGz5mLnQC0W6YiFR7OJL0KAolRkBVo2OqVq6ODtwamDZsb0nZ03rg/LNtufvfjo5xZN9EJsQOtsP+3ZqP/T1y/e//pXbxa3j09eQxjmUFE+RODUov3GEC+mlsB1CWyhAZ5HIHe9E6R0pxCh8DcZ2+I3IaPGACJg4t4XkKNknvJcKmCJDSSSwp4rIaY4gEy/l+cnp5jHMTZ0cOFDm4UW13lLXLc71FsrM0jMKTtCVlNKEX9vZx/9/KevX798+s6Df/If/YfOOZpMe+2NdeG7OcpY51HHOZFN7SAefjCxTGA5H+B+xwiVjRwqx4z4G/aYoCGuHx0e++Nw0ldOtFP2zw0nNsly2KFnckJeZ3dz0J3R+9DlO+p2Y3Nva+di+KYPDyJ248thgjKFSiyHZs9XDfXdEsVjoVUBVLdUzBYKlWt3eMYABne1tx9/6+sPP3sxmA7f2LM9W7jiswrzh6plLWayzAKuJ5JRYS+VryKTJTGgQXXkA+GF4nkEnEqsZCOPBohWzpiqhEw8xuuubWAuRZdkOMrqyY8yYwukEuc/KQeR2Om0v/7eB4+PHr148WzlRvCgW42k/WIu4v89GWDviQJOpMAdRcKIkS5tRvWXCadgG0wDMuoGb0ZTx6yEFlR4A6VlMm7P+mfd/sXYyYWIBvS6eNtqtxtcXpqrmydvZA42v474CMyo023yTauBv1AjpfWwc4IFLeToGYPz4sUrmPrw8IG20G2CDeFpALA1he+E3I2bYrGhhk50CV9ZcT5EA7wNxZpOxcK2BOwLU6nTRrAweomFQ3JBsCjwcLqNCGKimAge6ZNpl6PNoSDsa7d9Ifu7Btno43mzeoI9I8PTL5KjmnFxpx2E0cOBoOkzpqMMV3BaYiTqsOmQO9H6YvlmkRIT000MioQq8+W+rmX6TAs/bbZPcC7+ROolm1nmqTQGD/TAnjRWcoHk0fqN7FS1YuJ7iyEhY13RydAc4KAnQJOzDK41XAC1hw1qZdGq1U1ppaojrEAGnqSHwS5Z2AGluxS84JOCrZKh2Nxc56mUVvPWMvVQCV+CZ0E3EE4xQRTV0B0J1LH6oTbUWvJhIdquSnOtGWqTys+i0rK0UDttrbVDGDUjrkOKYjvt9JVi67f1qrTStHxXPk2uFBsD/pxevp1fOVIlw+XbFCh/TYqX2czmVWmAzGFw6kiWUZTBNjtgCiDe+eBDxm3KnyyDhNCxPccZVTDo9POff6IW4UcpvphFsYuYPl0BsXUbhDJVDaSqBhkD6B9FErsWsRmbKQwPeRtrbwFzKWjYim/ZWrrU2b0hKFKmo+fwWg6M6/V72FSt1fE6zsrXi/tZcC9lKO5hISwhAsF9w2Fs1/YHvfzkk8lAAO9sdoYRYKnmlhPXHHj7+OyNzfuvnEZaEB1MR/jjxM6clNhLqGt2+rCwM6BQnVn14em0BNZPve5iaFM7wcrUalZRJ7pqklR/yklaymibu/Kde4DDPwJmschJmDzZskZ8gUcO0buc6D5tjEUl+tDqypXwfP3etg28yzdr7zy0ob5THCxF5/6zP/tjThC//we/0xYKoZxlzzTZ3LAdlYdnvF2UTGzL2saNJiQtVRwAQMSNqyfFsFZGNVuJME0IeJwAQ97wrT6H8VpMWDerogNQz5CgU9biAv2Jdc/7AhrB2DChbW0fjM8GoEgaX423NoVI4Gtny054iwyK+pQb8FMXJrzgJv63EWgpYnhmTi/OX0wurz58/8Ht0tmb41lv0BeBaGk1mNT3Gd6I6XEZKXrujHNmwVKLtwhyzItkqds9J0ZAQ3xPyOwZ/8KOYBGQD2AcWhVwyucpoaQ0sCTkxeuCNjU3XKtIec5QAbwLq+vjxZU2p/+ID1fnx29EPhCTHqLAmmVzRjkHkP7OkfKirPNlYDQbiJ4eyQ+oFrVBgr47loofnHzs9kRrfrhRTmBy0toVSqfYsZpc3m7pU3Hy/GrHlGx2AC+t7J2eniZsq8kR1pF8lyKgdbJUu+JrwsfNkMIgLubMZ/atHb85Vc7DR0ebTrEg/LVt1N0m2aND1r5sNixC7raCMHotLfXVSeEGcvAnXEjWWvTP68cvjzVvUalhjRfaDhhuO9sCwcjRmo4BFmeC9rLBJTVYh14zZyfSoa6vrO+2t/mw38yGWBLa1EVHSimEoB8cIsQTw/AlmZ6CCsayvMy4lWjQ3KPBGmkTlcrzkLyR5ZJNA7BNJaV1fwXorhRDd7JX2qI2/NFkwFKYRxCCUw8EZfWqidAPAY5pmxoUCeKebi6IdbizMuHp43g5uyCCMKtgI7+6srLCm0bin4sFRrYmnZGgzAJIeYsEeOUnkIsW8y5FzioAlzyFEtTSCpbO1x4aAt9CwhL0DSiRglpAWVAFK8kXHZ16lB9EX0D6y4o8UY5rbeF9XSmzQvwdEao/LQJ1yJyhKyKXa82sZPBdVpxcRY2J40qjvP870l1Tf+GVBkAQxhGEuPoppTr9LcJWZOusgTBKwRCJ+jp0DQ2NCL7oJAh+B7w+Nw8f8Y/wmS/4D6+ZXXAsa0zGt+K+xM1vNOYgHk+yyPpr3DkdH6JhJh7YsnwExReQcdWwig1YnJdA7oByCrKIDgovr+sgFTj2B73YnOkmNppahdk56wrd3DU+VLVq0X7QBxI80UdLO2NbhuMtcgWK0Eay1dL6wjJjt+O5eCrwg+Zlz7oiOoJzmB69++6bFy9++qMfXZwPbXcF/2ZTmw1FRgz7j5cHJGUqrSc1Vq7FvGB+zReMGT1uBKaoJWW2Dai0JcxZ0Cd1X0Gkmca7uVC4FIyY6/y1CeJNjL7CFJR44TKLeGelUqoo2TphTu9Pes6VH68Pm8uN7dZqZ719ezk6fXPcvbj4wz/4zQ8+fBpT0awn0BxfjMGwz3oEBWpNwDwAzj4ihgc2QRO0r0Aavj3v0iR9jJU9Wxt0RxN1Oaq/OJvYeG0P0HILdNGyhpajH2iM4xJtr7y1005jNxFgUX5i1hZUfEQdNtrlGuJNnB9iEcy4MW1D1whGQlNGdw1kVBb0tMRhzRTcjGZDUZqOHr334HCD9u7jz5+X02BW2Z/MQl1e6UNZa5otWfhSvZEHHNIECH2UeLRsTiS2cpoMt0Ci4TXDfmYgKXNRyil/6wW10H9vMgqSTCrTfshSOMW97a2T4aR3dnrQbD86OPjzH/zFh9/+5ve+/Z1Hj58+evepBbG0dEoGiFM8DC26kaPDHEkZt7coqcAwYqypBRWYs2vWHIqN9mabVtCWVruRrKGEclgWIbaVzYwzAvjSeDr4/NknPQLowHEhjUJX4h1AOACgZoSUY600bIYNvdO3qtC2dpBGtp8JmyJ5yd4Da8T2eU+E0sDKVKrgC+OmWAuBXIJb2t/fJ53ExyRnPo5t87cn1+LACoh8aDcVEOcPsr7AwX6LaGKLC7unzDSJk2xg40083mk2MS7jpavZWpzR7abCgTo1etgfh2ITnLOFCgAU/s8+HIe82AZE5eN8ALyiQ8xj6QCunmUlmghPtJZBw0MNM8Xa6UbjzT4q5W1WU0nyhz3LxiVnC8Y83xZjHt4jZrHuzmatHGzJ274oA6k9eazgxYKf5EFpZraUhOKGIbIoMtRs+MbQAg4NUC70ZDSNI9BXm2vgpsCotxV6PC9QFeIsp55UuV5OT7RbBp8UpBMq5X3hzaIADIgakaLR8hXMguX3MCVHyW9IoCT0KWtdb6unQNCZSqN3j1rWBymykNkygsFCEHba450UrTraw5yiRn5eEXE1CSelVZjW6Ft4mJSpwL7rGhBLmwsuq+1XjCZ4WJPCPUlnC512DYs1m/GCe/bsGTHCPMlpABVbUkwyjx49sk5evHrpydGDB+7liYosaIlFwf4SfuwrRub561fTm1tglQCCw54YAHuYZOc08liDqJwKzEdgNH51cmLNqQWR601H4iUDcYAHZIC7WoB78/Ly5PiMViFb6m5uZCA1iAKEQjFGNLY6VoKwOIyraEpnexN27k/Hr49fCWbnLG7bYpBIMKMWnUJoC6LMCVXKNw6umd2Cbuej4zfi6kCA2ZVtILZdGN9IbIZ+eWnQH+Jz7c84eflysbny7sOHCwuvznu6G46pAowxr8o7bCkj7UX3XcsAKFrz2E7oT0fEMetsbJlTQMKk42yeMvsx9mICKD+10FT6qW0mC3vup3vsmHbiH1yhLtmo2d3v7e5aiM+fP09UkbUG/3sBRjAepol3rV3YmB8WhdvJ9cHm/iL78drN4/3Hn/zoL//pf/pP/8Hf//a3f+WDz7/4aHn1av/AdhTyKsmolb27VgqTSxwFWfsF2V7FaserQ9Mj3ABejlxhoNjnUBWL2oAaZL58REHWD4u11dwWSFEo4J/99DMRwOl1QTD3r7UEUGxtHG1//ulrpqJGk+4Ie7DJOjK76p2dn27tW/+X9i2R0V8+fylEP4zsAA7cKscLgymKKTKsMTz+WGfMQQytDsTzc3nt1fOfLy06nKn57ntHl5+ex/vwarZaNlfVwQTz1glgM/iVTzWJNqXqzsvXr+psfvDBB2+Oz+JkUc6f84kKs3CsqcKOeAK06vQpluUngGRRaLoUupWgRG4tgilDB+X5evNwb/flJ6joje1W+IY//eM/+e5v/vrjd94R6qi54eQdBpibje0dI8oHiYel/fWIfBQqK9z8hpxyeZzjv2Gi81M+kCOQ3x5PrQLYJfR0Nju/OuPyIPbF+cWJhl3frIzG193e8kX3WNdAYOaIreh2Rk8lWUpc4VgNvRVQxjBaNXlRxocIZRkSyMBn6d8bCA5k0i9sbogueEWEAeT8/Y6OjgBqgHx5cn5y3njQiIA0ngmQIdA+mYy6CIRjZxk60dT99k7rptUxKJO1pcvGooPNNmzQXDhdFFU0EecdxGfnFyS+0BIB3mHAi3uO/KR06+yQv9AUyDKbf8UPMMfOkRoO9Qp9QqhMpakBkH6aJgjESBSyNIa7trY6bNAcvnQZZbXcrBfZSNXuLTizRszRyM7Giq3WAmZR9lAhxQ5oV6WVML3C/8L+/A3ABGqAVjVyNLydBuONqw2st/pPX5wJu2lnsVPCrJT2ese52NYCgSyY6O1kTA2edruRyljnWm88KZnzqn5VbwKRBVPkBeC7K9EKvX8e0uSrrFt/8nmhhqFP5U3eSppbasulgnVtjDHytuZ1LZ/7rrCQobvzOhGzysJZJyUGWMqRUkihpm6k8iRUFmlE4bQgyuC7VNuc3+7e6ld9X8qLgAw0Kx3yHLwGyDN0y9ixTz75xFsTAgWDS8pcyBEEs0763LIiXeGYIOY3x6ejq+udvR2k2fI8G2e1tJ+22Q1+9snHo+FQsBRl2t8XGaKxQm11NhClJLrsRlNAQYuECJ4YFvI8+9GPnr/44vGjp7Qco0H/ydbO4OyCW67ttwgmL7dXp8dGQmxp0QjPhheT3vVp7/x40B1ZGbcL9turXXfqENVRddVmzw1FIU8Yh8yYh5lDC55h327xiH0QcDzIEzf65hoPxg6c+IAcnZvb2dgbq30BpyCwJMCCv4i4W5I8PjSqKA5IQHFy+HhEKnHEBB+IegFiQzxVauOCNWCRGIlMIaJcJqsohFECwBH9cJqaYIaZrMlFtknac2oh+cRuR+K8+QIRLO4IgoWnFlgYWDiwiFMfJec33vvWxZuT/+Ff/JFTXX71e99qtUUddagPsaL6YOqT9VncUohThOe4emNqyMBcMCjo1yxR4xeeJtagjKdWubH9ElXQC3BSZLOrzsbuenNDuPTDg6eff/Js0D9//OQhPe0nP/tM6E/SF0XUr373Nxtr7QuHUzBUNDeKXnnydPMRXy2AQdIi61CM2WFtyCg/xVGxNUvMcSBEmaV5MFv0XyaP3k3DBe+56Le3F0eT0eHh5vNX3UuCxOUYDcBmh2c0QNHCFrpTJxANLniWOUdHEqPBEoD4onZbyJEfMdEVnaNlVjiefBAme45evE0JBeBivgh8J4E+JdCk4cnG3f5PfvyT7374jV/9le/81b/5U7uBnzx+/Pzk5MXzV+997WutrfXz/sDu2cZGC1gI8sM+b+RBMn0xNtcCtEzhYNa/MjOxgYBT8M1/kNLSWlCjnfzYI9izTE2c5SIQ2lBoCVN2xBh5PRFYKEEISePc9sZ8uzV8QBi+psqONgSvCSahdWUpB5Z3U9GCKiB6ecw78kBa8tyoQAiukg8FXZMH06nSdnvZLijuG3CCfihNYxBdIQIJJmRl5PmUSGyLtO3LtwlrZDqLPHk17U5GXBZ9uLk+bSz0GKDBWnOt/eABzp7bsJFYWpnerHA6ji2Oq3sAVhSuQplc15s0masPHz62Dx3dTe0O+x6PLQ0z0jvt6o4lI6cnOiKDbJaj9SVnIUvRfKT7/BVpGnPgSxC7+FXMfQlKWczbJmn5mgNro3GJfGslNGBH43DheryEahMB1xt8WpzwzDpAEei85blYUtePOtRXU33iWtPd4/yt2e4zu3n7XoZKO3QjPm+VYqXk/D//abmGIjIbhsGxGHCXfqR0/ovBgklZJck2r/H+oQmu8+2JpVYolIUXo079KvgiRkJrg763VFDkWaXVpiZfgZ48CXrL71xqGyrBxU2VJZlv3hqZtLGQUm0AW+49qTBXepe3r4/foFIYDU8Wjo+xJDJkZRZiML2eshAw7lvV7e1oxpSAep3wou2duef9ufXoaW88InEt5vhmPF0L9y2UQP/ijAXFntY65XAwDspZ3L6yX8QBPO8ffuXx4yfENaKDk+OYwajBYTRiGY7TicM0HgcPDtZg6tnA4RKz7hnoB0zPX7y0kXHFidwFn+pF6c6872UMKsuhqvSxXoPop/zv41uPGMH19qQAuwweNtkG26Ydp7dXdp5yCJLNuiqsNkSJdamT7jbmPZh4ZdneL4p7AUl53Idz4vwrmNviQmJrEmHqDN3QB2SdaJUnxra2ybU0fg7GkGHudMT5GcLoFS0oVn13ZwdeELYHVbENQIQ+Cw/TjQVhXb9xEJTxnE47DBcLCw93dx8d7P7pH/1XJ69f/s//yd9/8ujg6qZrnTnw9Pz0amV5x/AWrqV/m/CnDi+NuGljT5p0vTzsjfCr7BHC+eHA6e402YkhXlrPkBedD/EOOsgeFHzPcvOnP/7MxtNX3Yuf/OTnFv8Xn34BSj/66PV6Y6F7ni0NhwePHj54h6aHq9jS4mA6PnOGK2Z543apdyZS6QW17mZ7i32Fq7yNa9jSJfoXDHR7fdB/UdAoDJs1aHBJWzzvm+2bzt7e0UL7cnFrYXnj3/zZT+NAPjily4geErHKUPsoA67xfoFA68uVaLF/+MAsgGcCsWVIvrHyzV1OcDI7iTvFNzXMeyYItShsq/tgZAtYS/wrSDz5F1YHAmlOCAnO39r64rPPt7/+zccPH5m1h3vA+/FnL59/8ezZh7/yrcsBo91ofUtgZSeMzC4mA4Opm4IKiW/PmeF2YWyBF+fGEE1kfnnFFoGlfr9rVGGNmCBYQwHg7QrDI05rhp0kHZOlcsJckDWdjpnick29CRpNM+qoCzgDGtpWu2n6Ts6O5dQZogkLIi4KVBD0C0DiuDJuDw4PvYUE3JsFKTKrb8pZJIiHrYqAUEIAQuvXl+kktQZfbecfX4Qb58wzQ1xfvey+vhHceHzZXl7vtNoAK4dkDUbnJ47KsuF5sTEU7X/VoWos02vN1tPlb8Ym2tm8mSAYXBKFO0ayhUaL64uRIBqVicXYmN8bmM3Map7W6oLp00cN45dvRrwNrM+EJM3R6npHNSgP4d1BykDaqcSo78uXLw/iaRIMb5WERRLDDGubmcaFM2wytq+tGoNB4ujQ6DbiLhhGpwS1BSv2X0EtYkFhIAuiNHaKq1CoaMk98HR9O3muWeX9PI/P5pnLZNy/qjfJXPivTFg+JHRSn2fm3AMT/5UUslWSeiHuMPI+ke7LCay/VZcSapKhZoNH3XjoW/dxdS/5U0p5Xq+GXwZZik5E49KYLLzY1gqxfKsPXpAC5x+WvudJGRyF3z+vTbfG3MhgjwXdrjhPVWoGtZ7L/NWvfpVQL5snEkjFUJvC999/X9hN1urnr56b0MMW9+9dy5v4hUuyuZGTElW2hW77gw9NDJvJJVJUxB0saeh8sXCQv/9X/+v/+O/99m9dOfdzdwfo/8W/+FcPWjFQfPqTT2yzZ+38zd/5TQGcnRvjIPpz4G3X4UWX6vhg9/DNybkPVaQXNdUe1S5jKzws8xjpqqZMXE5zQAc4SbJ25vTAuPTcXLGLGGUCZGthTZslitPHD9b6kxcok5/GUCHYxrwTCw/V5uCE7oGNKHg1Nj10v8qWR4PKZA9+4BaODDdh5ej3Ukj46Bi1UgxvBZtCUnYx1RoczynEFxetMSPmE3LAg8MjNIaBxyEswswY1j5zCxk2dAYZXKAGJcw93Nneaqx87b0nXzis92f/9nd++zu/9uvfGg6/sFkOoNl31evPIC+H0oqBQSBjIV8Z283DxyU7u3osgd2+aETFEGWiGJlIUlHBbTY3dIG2pNXs4OhGVLHTG0QGSHz80Z999tmbhw+Onj97LbTa69ejnc0tOM649Ads/QtfeffwwcNd4i7QkGHhdjBatu+KC9lYoJpiO8vgOWlpbZm6hsST8Ejri+tsSKMSqIy5hVebRWahoLScBHHabWJHe02Iucn1wrsPd5493FLXZObQISb6zHgWf7F7ZZzL9OmCIaVk0GzsVPS7MoiMYDEGVjBxWeJGnVjvlylEvJiUMmXpQPKETbGmqswNHopfDQyOUFn1PNK++Y1v/+BP/vwHf/393/+t32PbR7E+/PDDk0H33/7o3+6/+1CbR8/7zS2KrAaGjFK3uS1U0QZ5Q6hyO8JuhvYVqUEtauNUC0ti/BvTFQHSkEjUnMg+sw1yKtLD6lIb80cks327iBTwdKBraeHo8NAuAk0CT4XGgM4r7iWLS+saa9s1kCtcyyLJAza2VOFxCBjsEbkMlEFr0s1x0IXRCwbQF58Aftif5hDPJA8Vup+XIrGtrgpVPFuYGaKNZptcdblwdTHqOu/qhtlqg0FI2KiG4OeXLSidN9OK804Gt5xc6T0vnR9l6z9OlFJjed22vuzlwN1OroB6TMHI2K3N0YImCR9f/HI1Wy9MAZ3Fs2cv4LMSakto+VVt1hGN5NOoncZBF+SXTLUBkUGzFRwctbgYU8WVEJqn3mYXs2XF0hQ1v63BjIxcgh3fhcdNpAP2Khg/2hLBDBv06vwfKaiBHQCKJCBQslZhc4r9POCXJe2qdP/Pb+rT++d++qhMXn3j591NMETelxJkAcql57mxUpURXF7e+uunx5iamj+6QT+LdJR1UaAXY0xBF4qRz2tetVgy4ZldMWrACOmRMAT5U/QJMW/Fjlg47kLPDI3FIifWR56SM0tFS+YpdZbWl0vkLal0SAa3GiB9mfmuI4qqgFjzuNpXwKxFzAe19VvzVI2TmU5STNEVhNLz14gtPTudtc1bFi8Lf4t6ezVRtkThw3Ow85llEjxNHf3ARquzI+5OOWIHM0ttYTcDNF7klJuL89O/+LM/fRWm5hAIfv+Hf9nfPNpttM/gney5u/zBpx+N/obHszCTzdfHx1YaU/Pm9naCH4ymQo7RmdROabwuG0bz6L5e50NQhBadNRM08Ba8+3gQO4jrcG/lZoeaibKz4/jwrhdModdVijdYBCzaKCWXAQgPm3LiXmGDrW7htWIb4WMSRXaZIohBxDzOdSzBzp8HwNlTbNwLW5PPg0gLBzJnJhQfDFumzntt8MAIZUpxNGS1vZ1tTbKdk1hiZ3N3OKqaGco0/MLteCi6w+Ll8N2HH+5uLP2//vl/3Wnf/MP/8W/ivDHcYrHbEENcY8BwjBAabwFz+pqszFRaxPrMzwYistyZCRU3tHKxajBwswLqcIBoGdWVl69CovChH330xeFh5/Bg5dmzN9/6+ns//emnO1vtb3/7W9Pxv/mDP/z7r169EDIcXG2Z/PbO2srVdDJotnZvp6Ql49Vhsbo4Fznp/OjRjsNNHLSOspFoCbL8IDfbnBBWHG1xfHF2+PABpKTSrBJzg2E1F1fXq22+MgvD3untMrFs8Xu/8pXPvuieXDA8zHAMUbfj06lrsjhxETh/eJ+r6q04UM6yduQU2qwEJouq+kMMohgUKNleuqtLjhuZBYov41+Aqi4qxSJu/nllQiE7hUvIvo1l/ZOL827v69/41t/89V9/9tkXT548+umzz9Z2Oo/fffTxi8++ePnpw688XnU4waq5vtk8aE7Hyw3nAvMWXL5hGlqYcpJU+t3aZjGv21gWVjfbezAkv4ngoYAKXdi1g6bYMpmObhO2EyYOOWcDY06yQFBbIwYbrXDaa20YPlbaAIQzYhaXRFHCj5KKXr985aERxvooFSzqI9KFh7CXzuKi8fZPTx1llmOo8CKLS29evXn69Onezl7loc9vzutobOw4F0sMRubMljFxHs1sJMQVwto0g1YS5eBYcy1WLFYH/K0vDKA4cljQqw013PpWNtaWmsGVXFWj8opoaAs8YifQRkeNEppkX3MINb3xNAY5m4LRCXgpr2L7yLYTJneZdVOPWLCQJSdJ0hRRu4oKgOUkhr5+fVyMZMsHBwcjYTxsHOOMTrLCq4n7Z0vMFX17g6UEEeM7CCQQU8pYnBPVrHkhPsDBWnmpB35YK6FeJvZuTbsxlOZgjpIKtvKzZAhOKSloK+ilYvAwRvOkD/UuXQd8JQVD1JwgBlQAHSBbkGCB+XmxqReaDIscrHufapNqUZX8uPe2PqnV8UvRPaCFTzGkKSrOdzmaJRUx55aUXoCzSJPVi8RiyXqZt37ezdrZQHd5lV7cd6reKF/97r2qLXEPsO6zmVfP1Y6dl0dLXD00i/KY/5rBJ04hIk9fnA8wn0wpG1sbGKhotruNzVabSPT0nXduH5lIkRW+ePXmtS4oSlxLZ3Q3V1pmGsRHp4tTwq1cXtpw9Zd/9qdn3XPZChiBo+H2V0WkvrrtrJ13zymvz559yg8IqdauHHWD5jMf0zuvPtek9lqLhF+HvVanKN3Raz+Tyk3wSxmBOOEQ7OMIFKlo59FRe/WdNn96RIFa8Gr2yc8/Mh1Xx+FgwbevXLOCFZuB8X1K1iRbYTZuBGMFuvmnANFTvbKek+X6esMZvq0tQAyslQNOgnnKCKcXdy2Ef8tjRYfxwrPorC4YVkyDwXcay7Db29ro4Cden5xsHz5mJohLwvJWgs0OB22M4WzaEfL+avTtD570zp6NBi9//9//7dbe8vFnPx+Nu7pg4uBwVOfzz16ynUGjJCcO9CAQbmMFE8NJQHa6LkcKWnDg0V96Ok21Y3TC4nZ9Y7VfnD//F//dz3HYrCR8Jj/46v53v938jd/8HhuLzZ4PHjy8XfgN278ODnff+8q/d3zyBlmOuWsGroUZFKSxNRQebnGTARFL8/LFyfbulsOqcAEEXt1HshBOiKrfP+06H/70+KJ3JozpowdPt20vX21kdJBNY0WptngpEo6wAkf7u1vXzenw8vjk3LFemAlLLjSKQFa4UremwLCaP0gZ19sfObBiSJUKU7MCSXB5/lnUWS6ZsEyEI/uY1OpD17Lag1xlBxF3dCWfkzMGIzcf/ezj3/qVX33n6Xsf/fQjqw7l++GPvv/gK08ev/Pw9OL1Wnel0VnuXSRAMOS4vLCJ9RuJ+kDosWuD2UMV9HPL1sBNnND4WJLhF9cEYXZuaL8/s6ja7U17qOzC7/fZevg9In/MjTezCTOq8J42iK+9On4VbXa2KIArpcYUu7WDBkV5ruUVujQYjBkfrKUuBCkvKlnIpkskzhMIAKaS4dNPPwUE0ALChgxAF95yKQIhGE3PFdtsr5Oc6VwTsVB8DR3L3gae7hWPGn+gfy2aE5WAcCr2Zt9ssAVHkWWXNchD4bKvTgj1cq6cPnLEZ7GaXXKPvLE5Xb0U1FXZo6nRLhSBaWtrm1uMNnjihq6IC4UEhUEUnCZ0SjsRIb3Q5frTcRHy48kV5Vs9slaupgOHQVLqb8NxG601B3ET6CZDwIntakxumwPerigdwyBvkKIUjKKSUdwEKiUBwaAIuyGz8hXtKs2hsMCi+5rqW/clQ4XXAqw+LOBVX5UCcqn5XXNTkJ0JMK6yAWOIA0KhdzHnvF1wLhAWMqUk+EtOv2SrNEbefJUv4nhTC/dTNskNSHSNkpzP5jon6tB/n4QsyRZEivcsuytQbZPRbC1cZA2UlKZKOuMTMpui3HhS+1Jefnnx0Nv7VF+UhkSM87O+qhK95whGfQhStcoyzkQW7Tw1iLWNp8aVYD3gLuOw3mnTjFAjaQZN2vrSqnPiHWYqnvHTd9/B0of3WWk4EkJUlBzNGHJAQVhW5BoQJzMtv3n9ykZX2hIA1Guszlrt44GQl6vtTQdDnFmx9Hb2owK0zMiqMKljp7R2Wh3h20Wfg8H/5qOf1u7X/upC/Vl7N/9R+ptXSwtjsv+a8CpXJCqBBq5Xl/B6GLiDg13Wnd2Hh3yf9t4cOt/ENqwhx3Yxp6PqkRRg0AoatLiy8pYdrAyJwXJIMuQIu3DgxDtCEbRtG602gRKCMJLcVGw+MqpWRSktsnDuMxuZ0jJbcckDJepxhJ4aEY83b14dv3wl5K6FOsTuNTafffESuTJNnOMXMIKjYQPTfTX59nc+ONpvf/bxX/36r3/t3Xd2zo8/6o5ewcqN1RZnS5I6Fqt7NrA5hqmRiGx++C7DDq/fnH/x7PTVSxRi/N3vfvuzT784O3PSeeSZb3/r6bvvHvQHZz/60d/8w3/4D4dORhosCAv+6NGD/aNDzGxnp9W9OHn3nUdmEPL5xtffZ5kXQEAcY7FzbZYcTY4XbhyFtXs9EwPu5uHRe68uv8Dx9CcjzPPJm/M2Y2ETBgRYlLKLm9sbYO358UvnWOBpLHt7zMRZJ8FnNzt7gzFevBXyNgbM1tbC+mT3aMei+toHj0ezm//+j/+tkY2GKJTNgsusSfwrzJeRJ1yTq3SNNQKAse5kGeKIy4owGfIgENaVex8aZ9NT9ReeKCR5MRbWaVYrfWFUUj45efHyYGsHLvjo40+e7B+0Nzbpt1sHHeENXx+/2Hm8z0ngzcUrckOCtg9HN7Z324XMUJqTKnjjg0lOm8E5aXuUYVbiDXHJRK2vtQY3Q+4nKGiLCbfTHFGQGoorlhURGVvxhLqZOpGp3doE3gf7hKoE9xNJ3bA5pjFhJq6v333/PcVCOKQW3hbA7+jBgcXCVQQ0Bqhofcc8XaVgJ+TAVxYa/gnK0ms6AuPAi0FmrBgNIXmFV0KaDSExTo76gmZcsTAqjCZ1wU6GJfapfJYBZIti52WHZaMjD1gCXBdwBirGmOZsFB42or2LsC8uMIlFaBO8oE1U5NDWkj0weH2cRkdTTZoytRDDHfeToqJioiNOwaYe0uO5djbClGPR9AKhwjat25gYnSFbcA6rNNF8yZBDtBTIqdsWYDbFrXbnViQYB8aN+jihkSMChlc7s7Wd1d0Ev7DBKrbwSETkK2ufC37CsGf3Nxsbu1eBIXUHBguE1RvP71FzWf/lZ70EHSTVP2gNbI8SeZBv7zRF9HPgm+wYsHYXsedKWDYmVwKBHyAT9jaumEBAVeAV9KeQrNViV9MGbav3tVLX2sJyrY0MqUh7ioBYBn3+pNLH2hHlqEKbArpJYUMswzirlZ7UbJkwz1M6A3Ne5NYz661oLWLACbsfiaq0GTtv9CI6SqHDVHzLK3BrzeY+OeNUYmnocg5E8WH51kCsdnhkLNxe9C9y5g1nf+wVvcrk+rT55npyxbj1937jt2jh5QcZpxfnMKXRs+RL26igDdfK0eGBgHIefuNrX//Or34XAHnLHfFvfvwzq9a55o52GIynDoFbBpsI56KTQDfFDmitt48ePj58cATCf/Kzn/lKSo9LMpj1p8HNOJS3USknhRC0IAQKHzr6TP8yHYFIDKw3zY2t3mD408+/eHly1utekEhyeF0Y8dL6DEathamMOmjJWbqdzsajo0PMJlyChDcbVjLngm6EgOwQtRYTaCPwcn1DNMShWS34TV8GvDIixr6s4gIJepAmm8MyKWzBzt5ovv/Vy+GY7xxHCp5ms/EAjZeNrZCblDMXLs/Pd9vLJ6eDb/zH79zcdp+9+Jv/7f/mH49GL4+PP7NYYa5Wq6iUr50138bxTfqTZ5+9ePDwoHAXwrxG1jQ4WCx++H/6Jz88fLDz9//+b/Os+f73f/jm+MV40v/kkwvc13/73/3zBw8O/w//+/8Qi2OmuFy88/TB+eln/QHbmNOwbB6/eXP8zOJ/9fpzQHTpZArM//XSztYT7qLdc/Gu2l978p0Xz0+5CPR7k42dtWefvvz2t7/K8c+BrHaroE+s8ItM/oSnywn10HaH3Lgw6vZeCWExHJ/xcRTFcVH41zF8cj6Y7D98t7n5k6PHHx4+/ODxLt5+JiYTjbWFIw5wRKAgwng6hrqIbJk91n1YqtFu8rA43NmDUJ3nRwwy/NGzxCKZtRn0kL3GFlDCW1hNhJJsqcnMsjZH05NsJcHsW1th+I6ODl9/+qyz1jh4+AAFvl69efTkycfPPxYb8ek33nnVO0Z0OrtbsfVi2fosKxsESpoj2D/Bx6MBUA0tFAaPlDNtZWfsSog01lbEURN2u9wQfMtB7GLIs2LRIcRssmrk7RMQ4oocZr0T+ntW6ekFQUoUEsTFVt1XX7xod9oEu4DQ5RDiAsCq/vZ3vyX+unOtGGzQOaKJf9wy47V4uwAYyFidjfWD/V2kCxaKMhvJX1u96J0T3r/64H3tZavb2z9UOWU4O61+aJU41kbQOuNMBuDRv3hH0OEHKdmKErd74+xoNqtSB0WFCMmUHA896DWdJxnEVt44zyExPrg6ZJNluIhsmJo53BJNEgdye2cDeAC8mxuA0yFntzpblhM61tlpk+Ey0Zx3b6+cdm2iSZP2rkSGu1lw1tmj3cedaUs8GNuZ0dwcJ0zNK6gHVUD2So9Mgi3FGwvOJt1kbFu9SliWCV4aE4SVkgnppCMjWtGyg8O0jyNDEWjSB9rJbEs0OIUFLghKbysYIUluiigSpin4qnIueNgEPqHmAYnZVI/tlZehIewzbUj8lbO7MBHZ4O66aVnAKzFreEyprBAv3zpEFC42DZYQBJ0qsvYhnKB4dC4PpWCgADmn3OgccBFRjEbxjRzIgkTmiMocOR7/Fr8QwLiWLa3YBM4UxK5uBapI71KQpYgBsLuh6KHC15j98OYOixr7looH4w+GHF1UWoKZblgi7tPWeGVy4WVFSxPzlWm0d11Yo2jx55QZANHcywHiVav1RnAqYB12ZkVU5YQ39qG9FxtOtOIos7rw/OWLN//8n4EendYm/hROfRWWgA47MbYb4uwJeHbbojpmW+Y0XdyNUEbln59325uOuF2iPXZ+wbe+9S3za/XilXDLbUc4fnh0aEF2Ng+OjsAzRwkcox0YwMJIOLRJpZQHyrQQQAV5x4xoqnkHURaHPrNdGS3gji09PT8/PethjB5SWaw0h5eL5y9Pmrw7Vnjdbw4vzls6XlaLkhUIJlk4xHk9Ozv/wz/8A34QglHx3eCW5Zxc+3ii5UHIFzhIfpe3SG846Wzu2LaGhxTe7YsXz4M5GuJ10Izl5AIsmMGHgxw0ZS7DYcQT3pZJLP/idDjiUoaf79iZP3K4FI/a9tFu5/hNt8klGEzgWa/iJfE7v/3o6EnruPfxH/77vza+PNXEp48eW7rnt6M3xyeWGV8ypvz+9Pqiz/X2ZrzRgZrts6Xog9C7/S694F5zt92J9PxX3//L1mbz137ra/wyqDm/8e1HWSgwefQwEyqTx4/b+vzZp391cODwJNY6mkZuoqja+mjSswvBLh+9woWIPcSzo3t+QRU5OBs+OVwU03R4PdrZf3R+8VmrsTo8nextt8WOInEYjcHx6dG7D95/8uT1+TnHx939o739B69fvfrzP//z7gWkGbiCz3b3DlabG48ebqF8zkC3qftmMHr07ne+9+HTP/rjH1xPBqIsWN4QILlfaKUw84AptqCFzlZrfbPhsIp1W9KtJ/EXsS+6kS01wvzb2nSVHVr8LCY2/+heApY3gaqRyrLD41UMQz6MOROZtWKYaGwwOXr4wD75j5598vWvfsCx/mLca201v7n13eZee4x/F3VvScDype2NA3L62vbmYDA8eXPaXGvu7R4IaNa/HDS5V3CnRnKXnMp3RbJcvN23zTY+NaKkb27wrCOX4KSZiAaiBJow6/wGCt7mOvnJJ5+Zd5TQZuEWn6jOLj8q291ZErEPAhCN+rNXl2/4SaXNvLoTffxWgJhR1Ak9K8UGOIT77AJXsXCbLUwtlIaRaKfTurGVZDpykN7x6Zu1VvvF8evR5aTVFDb34mbSZ3ZutZe6a7fx9hOQFhESFJaDHWvU5qZWWSzQtPUljAxRbmzL1pglaSDaE3zJ9nS08xSHw6rEmyZbOBYX3pyecBhlu4J92CUFN9EtlPz87MSMcaEYTSHIMRnp2fMeUs1iutJ4uHYa1GSs1qyThk0yYyE47aIxsntH2xqz0QwxhiNY/uIQLI4iZESq3LQbMk5USy3mRC4gth6u7O7vnb254eWx3+wcHe5vzrDQnIGwjAIYNhfXxGHukZSNEUdYRyUDqqBKaNRKlgpDE25XCgWCfQuTev/87qYo36DnrLXAWRFVTEI+kXDo5Yq99FdZYW8lf9GqiFShCzVFURNEX1RwYbDjOJj8WuNaM9XmuQbjhw4UtrxkSJ5QhZykFRFYKrVijXDi3gZ3WRlBWboakqSBhTbN+ztvSPlTe222/KKSTG049pCUfKY0wKjTMGPtbB20wkdr0nywVGENp5pwoXEYxeRouUQ9kgampLu+lXo1TXboXlWGwz8L2ANMmfcIKhCYDq9wjtyCDUA87px8KtaDLxwimG6J+hMNa/xIi8xHHJHMPRIOpnf2dh14Ycr5qdf9y8fHJwQLYaSh6ydPnm5uQ1I3+FM7SksZ1mAUa6WB87lQoF6oUy9EoNMJNlFmQyEDxE2RrCTtsdBBLfrv6ChGcnwX+oS8ic4Lj2PwRAvjPGb0MuAJC4QpsEt1jT9k1KeOwhsM8QeOfKDc5+slKBxny/fe/+Av/uLPHL9Ms3Dz6s3m1s7zFzFoW/nCfiut7JWh+7BMCkNvBM0NbgakZnpohWCn6L4kIlhanHA3s8ZyC+/PVT5uJiHSGVCBPt7/4GFnZ21nAzIzl7ER9s562h9KXwKLrpS45vog1sCwm/g9S42rfm8k6NzKavPDD79q+y9o2tk+JAVORl3hzzZaqqHNt80clx9nVyhU7EY3hiEjuno54Phuh0lCkQA/yzPLuwwVzkf7LTmND29MxcNKeHx6tiYwyYQse2z78M20f3Ey5BzngEQMt9nk1n7aPe5fjto7+0+eHO3uHX7++Rcff/RzCtt3nxzxkuBz3NnaaQos2tpkWxGmln9Gwxl6s5vX3ePtxs0GWeXSIUtC/4HMhkEGl3YawHRAEnOPA0X4TSY1GzkAJTZcWcl4BcwNiYO1yLBSUWDfrUaSGQu788FIaMYloJzN4l5aAWaQGpjej4VEHHLe9I8Ojy6v9j754vOvfePDkT2ww8X3PvzKxs6GjYO9VxPgciPYWKcZbJSxYaor2gtzsyie+ohEJ3KRMRuMe7z81xbWHWVzsLtPOcbiRtDadI4ALa5YCpyauhNCKQSJG3PKgWCEF6fnYGZzY2N/+wBmsR0NxTl+/WrWE8XD7u0Vx1QNu04+29raFYeCbSrWKRuzfFWsOwjMOqbKIAitedwd4Hk5xVmtg+4JYsumRfA6bG+c9NhNhX5ldZvgAG6bC9gz6jvYE/EosShEpmQEXehenCc6umhlUScaUiQ2RxTwZzmenUI6Tl5eWXBUGN0aZEAc3yUbAV2YmBe8qE/CBsMY2sklFzAVzJoNCXi/dRL1Db7Ltt+Z2DdT3kfTqW+t1ij/h5f7+3vC+q23wuhY1iyClNXcJi0pDErpdWQ/TA03n0n/gsWKA8t0MLoaTaACe087zezBH16eL10KlWs3FmUxCxnbMcf9SVZolKDhYrJGYAdqioIMo6eqSd2S15InVaniSXlb3uV1wTIKi2p6nvySp/yIzi9fwBSwff7GWzYSCkgkkUMF90klPgzFSpI5utcgaiu4llarnmeo2BPE18ylVSmZrOtKmirP0wo3yVyVdVHLlGXiEVRbkKP3oZ8lqVY7tMK/4HoLLO0WcBFsURCPuQApUHcga20jZ2RHIypWUgarDNe8Pdy122wkfA/KRpN48cYPStL5Oiy+k1mZNRV0Wu3iaYDkdcjbPCgk5QmRLCJRXOJKMpxAXy9S9bIFg8nBvqR55HEmmV07/Bk/OVXPZjs7uwd7B69evHr04BF7Ka3FNh6p2To5di7t0TuPnzw4OGTzj0yWQ5BI/UkxJ385remqh65GIT0tgzRvDDEr+wKi7dRDvBgfeoTnYG+/d3GmSQCAUwnTAo/HvYP9a4qpzJczaeM6xYBHEncQH7WY8Lx6CtGalNPzUw2w95nqhkEobnujaWuDtUn4DOHgbpTGjdA7OFw3ZdZlimdRnwBEGllgMkJ4kCm2xUULE84F5Q73IHIMA7iRc4zeJscpdlRFTp3z9+ThwaPHe/aAdTY5bsXgBjwStsrOlfU1JoSYEZBltq74gt52h9O9B6NtvvViZzl4eu32wcNDO7PH/JBtJrP1pbVmHFTrO2gFg6NVRiz2eg2bp2LW5s6HsQzPJmwg1RTUGdREB0Tlgvpa8PyUR2QWsTNuFl+/+vzp069BT/3epqh4veGY885ojzPgmmNtbxYmDHKjm7E4e+JcOG8JX3Hy5pjEyo/jax+8v7W/J3icUeqf9dSLGUbbX79+9ckXf3H85qw7W37n67/1zuPd/sRBrwIQYSwsKM4XElF8heoGa1/22BYAp621dZbyz2JhQIq5KCREf2kkePVai7xChCpEdHkQWbSgyIKKrj3RN2KmCGMbfYcNRlMxKTiIHB7sPX3v6Q8vfkDTsPf4ccPpttu7re2N2+Y614g3n/wM3eOARJy1IOiyBBszWgtLzoJw8ouNsVCLFWjC8Y48FWcnp6+QAe3e3tvMqcdNUSLD6KDu8K+DMQSwHVKfXl3tNNqPH7wjp3PaeJNSwAKw6+09YuKbVy9BE9AhquiFXW63s4U++mefYed6j1Ncb9JbymnXNhLprq14yuE3gLYIm3XNJX15ce/h0db2NmnEiQXjwTAHfOYEBgFe15z51CPqsW3SVTpRo+5MW2sIJnAhdNY4sSQcT5klBkPMbuIXbjsInGM5Jm4j3xKaYzotdJzSvoV7NrgJw5gQmvQX19Z7I/GFMp/kYb4dfLwMY1wFGk4Jv+HiTkUE1my6QDfcE6svbELP7gUUcIPLydnUUawn5+cXWiJehj6il8XpD6FZ5WG1SAmbE+GmlhoXJwCMV9t3EoL4cPRclzbJrk6dD6nd9uWPb66H2V9PjXMpzg4uZhOCzz4ZKyscpWokN9J84dzhUz/Lwzx3E/0fiKiY7D5rufF8jhmstVJmzeVab+RyA/kCC2VZkPIZSpnLTRaoagK+GKSSStW1AXP8nm9LOfPK8aZ4/UhcSb71ifIkoCYPfbiHkeugwCTyamz4KkNAikJepdoT81i4dfsLl3I0nCZYdcOhdSWUZAr0cYgJic3Xd6j8vtLaKs99lYcFB/mZZpWGZdWWYXGdN/7uT5pcaF4tP80tm5+89yYDUqrTQklb0k8PyyKByOQAYbB/7AWi0RQjbVnv2ViOB7NbAhtFroryrbhK0gr+yz/6I5o39EAeD/VO4QoR6fauXald4109MTgqRcLzNpMQHOSJkn1LxlJ0tz8gNtjWA8L4Vsj8jW99E4/8g7/+q/Oz04cPEYGjkeMTbUTCQ0LuZfeGcDvf+973qOBtrrQJDNLC7aJ6GvOVr3zVmV1ffPH8Rz/+ybe/+6s4cl/x3Ov1h9ZqtJeSXYqUKTxSGgn0YsA0OBSqzHjIVdiTcvwh6OXcQyThEiLx4WByNqsWQmio5YD1HDVWxocP9jhE0MNEY8XayqPWudj8koWsFVJOeL5LcQKHBcYiQlAHvj45523GZL+1ka3+usN2RIAQLNywU37jrMSTZZAPbBCLawoCAZlgFXhQqCJLHV408eQQKSNuOILUKccGf7FyYULyzJIDjWcjBnjmKPRgbTob4nXFDqaDW1qGH6973eHO5iqNFrbMPDXWWlt7B9tbe6S9f/PH/9JA/fqv/ebB4Z6Gnbx8A9d8/uwFWWoyvW5t7r733td29h5+9d13IJTJzSom/HBvY/jsjcJtrBNm3246jB+xIDxAHFOFsNfZRRtF1Wid4GiiVuA/bS4hzWwjyQAGKcKkJOBIWBlz5oM8NC9WKHJWKEomb3nJSYwaL56PaIGfffHpN4mr3/jqzz/+5EFrzelujCDEN17mBwcP/+bjj+FFyjcTKSY42kOpbhwJ/VEqkn4uxrdrjHabtijstTom3KQkclIcvvS6vzJZWHdARaTwpVfPX379m998752vLn8l3j8i9pKvzdXHH3/87LNXPF1tMPj61z589LuPzk+On718sdhc42zP/iT2omCCWTM5EHP60ZufMa+ya4IF5/PcXNK8RXIX2p8AQbeOxyNhsTBD+a8EKJnckI2oNXBBxHmHbjnuazgWNxmW4iybA9msQjSeeXtru83Ymc2+AUjRrCO3WpGAiXX21fjYtw4PTmBIGP5mYdBE8zAKcWfUHXsK+Aqz9OEj60KAmKMTMVUOTBGn0CnGK5tZRkHTWe3uvba+mhttWCSHoC4Rr6M2RVq63R7GkU4EPYMxCEzQoMxosJMi7NuGcoF+olyUM3LE2907eLB6sLhwMVm+XL4cXi30ZoucNK9W7SUgckVRtJyDzSYcS2A6WlagRq2kdOtZayTNkvysN29f7zL8wqv6ietdCRjH+eeK1T3Jks4fZet2OPRQLDgwQxwyVQpGLoKwfQQbhu29T7UNfuadVP7WRnoYuQo7FhVhGl+zKSEYyv+lXwbOktWEPCwkBxSD9jTVamHnD+bNFgQ89M5Wh4ZaCLSN5jqOPjJmqslUwdeWd+YjtraCtWvj7q7JWLYWehskVEbSfWhLqEtZrqWRXt0/14L6oeYFdEhXd33Mj0L77/qVcEecbH2u8YCPCQGHE9SYTbYrAF1wmE9//vGrV6+tNJnPzi+I2PaWh1Yl2sqyE3eGFwMRXwhV/YvuX//lX1nCCtFCowORudE2Xa4p96Vf6QMRswrNkQBJIkks3HpoaHF4L5+/oBnnN0W6Qk5MxJHdKLs73/7ud0TX1ub/D2P/HWzZlh6GfTede3K4OfXt3P365fcmYDIwAwxBAAQhUKAEkEWVxCqrpCqVJNKiZFfpD7nKLpVKf9kqu2xZLNq0ZYsyDZMiIYI0SEAIk9N780K/zunmeO7JN/v3rd3dMwLFKu/pOe/cfdZee4VvfTncvX/voEe9wEk1pE+dID/6Vzl7Z3dL6NLBQRM/ofrwpcvL+lTRUQzb9u4Otm1x6QKDrUkzl99/8IA3mh2xHRG+YNiYxaR7iU1PkJX+Gwg1+BEgbb00GhqR0Q4Np0bifKjiKY1pKDsUFYxMKL3T405pYqjRGL1yeUbBXomxGFgj4nNAlDn3SEQGyV7Bn7jPXAxD0FQUMYc7+71ysz/O3DExR+NHG6rReH5YnIyDHYvKMBAmGidACLPgTQjfR0jJAYRAjAUbORovyRVAZ+DviJQJCeuUXjiSMaIFyq16fZffYo9igaYN+eAwMTY2Xa5Mt/Z7+fFJ0MxcX9zZkxO/UIrMLtEpBUyhhk//mc9+gSneWq2vbcocgQZL6aDSi2Bvxj8hGCqqcAFbWFy+sHhpcDbWHa4OFeiKP1jbbYWte3SIUYdQRFigMrGDpkTYdI98QqLKVVT34n8cacujGj0ilGhUKOqDPMlWgqiyjbMsOyQ8O4Uhp9MU8o0ceWAM0J0VSrkaNaTMPaX8hx98cHb3+LOf/szy8LKA3kIFcQolVLx/RATVJK+RMSXf2dXGKrJrlQpjUcEwZ/EFFAyHKMqqA1lLaCGvO6Hm+IwzJ/GX+BHBdwVJxAJ+7ClZqpKvMgYjMZKCPvxnf0xGAWA8nmrqmFx7Da+xv9NenJ/9ha/9EgXgR3c+kQ+Fx2BYcMeGuelv7UoNuK26W24oP1Uje4q2KqJYg45dHUzV86BoiptFvbG7+XTzwYPO1jb/Cz6Z7YMO79JzoU7VqliIIfNgguS/3u1JqEss5B6MgXGyXIUiLvaI4tzxIVZh18R3AP5ioTw6uu8LlGVyoJVlgxIGk0S6MholxEj0TET4DKOlqWaf0wkotAIuhnEb4HDpwBe6CD866eAzNvBUUHPBAUeGOTY7OSC7XpPB0pfnpAR2DGE2dpW+tVtnIC0W6B2Ij5wVSYrWhOPEzORivnB2vt0eOmgP85nvRl7b4UESHxg4Kcz0Z2TAt5CXcwNgh3QVMPeCShlRDOqfu7Kbmqbf46+XD2ZtjTU4WrDrRL54PBBuuoCge+Yfau10ZW00Tegw/so6jEVJeu94x/MryKFufCYq8KdfrZWfYnvS+vrTF+fEF33GIkb53GAeQsiyJPo3fq8JMYv8FCQFujcDOIRyg4idL4xXBOqf1MVGJc+a6NOVxpD69O3FS33RscsXdMNLA2Ompfbp8mDWIPs0JBcI8NLw1nyxqtmvWfuEyBJjk2ib9un9Z0dYwlChxBicokadNTZojB0NjYEQ2v7AcQGm4Anw7R9HccTLly8zYuGAdMIpzul65cY1WFpII/W4+ERKQnNzP+3i88F6RcwlXV7hen4nyS7Zn/CdWVhcW4k5SbJKLDWtPbe9/d3dpaWFpcV5BvPN9fWDRw8b05j6Q/yXBobk4LHEf/zJbcaD+YXiwkKJ+ALlk3qw5fR+m9t7Auy/+KWvSD+hgiFF/MFui7yIC7LIZMfw8KC25R+fMjWrB2fPgxVJg8wODVSPGgEgEF9t1MeG69IJaHl2wGF6zBgQ23q56HwU87mbV6ffeedapRIVdvq9tuzeSqIM2n1gIKHZcZ81hQEubJTB7eEZ8lT+XNCGN/cGJ2Ot6mS/1igiccqxQu79ATrNVCOAH0CGRh76BmkWzelz0eMkAAhLWn4k+FBnwp3gqEPfi45Fcjc4zvtkHVGIUFwozXCjWhgaKQgjkkBjoKrwGIF18tByEv7aO2xa+UK/ejJan67NzS3NzC5SQ+7t74uwpjwAQgTSQqQqiMB2r2OWiwLDh+1Ob/XDj+7w8794+frCpVeGKkMUOAnNncLXpcrkiNrG45F2iMhE9LT98JzjRYskS2RjrtFVPoxWORwJHTjKGNIUcYwUCZ55YBE0VdZW3YMUAeeGs0CAGE0IvGgowxy1bRU2ovt4dU1ex1Ilv7q5Nvvs4YWLy3JVHB51PEvVKZCSfDk1Mbt993a72wZ+cjyy6NRDtXtC/6muhJwTbHtgM8/pib+lNLCF8Xphwgs9zqAaNjclqqwCmbV7KAb/4b1Hf/wH36TEEB1kWD/3s7/wta99TVaat998HYvxR3/0+3/zv/w//e4/+Ec/++UvfvnLX6SPW1ie5zmFXOkDZIjkbXU6+pdobUcFsH3RXR22HHfI9jK+tDaauMV33njjdPni6soTJ52yu3t09t7d+1zlwrGcKk8irEKdOpSoDlgMVnJkIbeHgBYOGDmbmKzg1fhzUNFS51Lx4TatsCPsIIh4YYtFpkMeEteQUpVaWgfToWu1ezyRHFzHWSfQRmAbfrfJaOREY9m1DPe0UBVJXBuZOEItMTbGl5iHBydlmcU8G+QeAPDHOgxjlTA1lwHoysONWhVjR52L+FgB6gElXgwD5rMypSlDk6qDyZHb6zk1IFtA8rKLo2oNxF1SF8g85fAGSCC8hgV2XXrJPn1xWVyXL3Ez/ep7QkrO2/OGvmRtUls7a+ODqHjIo3rOiAQKFD2mPl9+QTSCCmVXegFg1g/30qyNdXL57vjqyhX4McNBz9/3kizGgDTw+fyR1Fir9FwSlZNgpzeELwlV+gxbdzwCjEKACr1fW9EjaUHZQs5OmyP7hmT1DUkzvWmf4Whf/Jl680tcL0bEHzQf4w+M/Xz6fvUdWjS+eCo9mLXXjynG82lxdK5lIvlhxohu0go/X77oNwoTZFDFP8fYwqe2EtYyaq74/1gugitTRFc2KJkyqQcpizSeqIffx8jy84XipEs5oM9rV6+iWPxuHz58EOO2Vqh52vSX87Lw2US055nmM9tcrDNGghIt/Ak6KuV1Q5A5Df8o78I0PFmhF3xCs4fJnF2c10Disnfffddkb398hzmNWvvwpOVEYfRQCzXo1zc21jdWoSsbIen1frP1gx/9iNk7srPxtNN5u3318rXwAE7DsCDwuaGS1WSpwNs9F9YTLxTDhr0yDsYOBpSe0Nwkp2JRj8UGuBo+m5mqTFQnLi/VPvupq6/fnB0+awmPEX7P/CplkSxGJ4MhCE+dMGZtvOHIOW0bfQXtTRjtFCKUA2Kntdk/V+JoUs0sx00VM34mvDzSYjr/sb8cvO0cXG3HuLpin+LMhM6MBS6KprOQcsFzyxIFhxGzCzcVyiJPke8ITKHv0u3IMEdpj4hvFfTWqM8wi+z1d3N5rmjBq3b7JyVOaHkZEY/WtzY29/dK1YKMkaE5UD4DGR4MaIRv3npdLcGHj562ZLUIT9qTrUerK2tbkw836kuvlqcuPH2yevv2/VxlYnR8M1I9CF1OU2Azp31ixpisVCYnpidm6qs7T1VA5P5OEa/2ComW6z1TX9hI0LTTw/HTwfjZ4bjyKcQvCCwdh4RuIGWBR+HSgaxLdN48wE095n7An5pH3KOVJxOzE5eWJweDvbEcR0rTH5FKUt68095Za7utJwleuX7sFceWeZFgOMdzdYJj/pRASQYUdEu6ojwjkCMiQn8G3UNZy4+Hcusbuw8fP3vy7GmEQ0HNueIF0Y5XL0t49dlPfW5+ZlFNeSW0Hq483lrbXZhbfnj3wbe++X1pKZaVQ6tQdxVgCae11qjys79264oEnDON2ZtXbpkLB77dnf2trW12xbvvf39vrVs8ye0utbnUXZq57CBLYSWEXpTYvrSBLY47lL199FweGwnJbQeBxIIndpOUiLIch1pYjq1ReVYIvbF+sEycRGTcVehLXEM1yywBNwAWYyOPBmo75bfVU4mEMA1GjVyyeW2OuuHlj8bU6N7GZFLvxYNANF1ebZB+PemHtxEnGOOxoRAL8YcemGU0CGvKAyBOy5e4zjm5FA645vcOUVBnmQGOflsm5dPeye5Ivo+33O+VsJq97mjncGyk6HzQixPN0eRDtivO7YR3NlFq2/PjIFfZlU5UvMLM40WJxrgZC5EwV/zmS/zx4kaiF1kDn56L/0eroFguOCJrmv2YgDKQviuwcvQYGDlrHEIQdTh6nS5tsi9wp04sWnruOcHQoT9D1RA0LlponN3MHtQuRpBIhTeZI9qUmtrurOMgv/6FfTfRLb82m3s+Kd+1FxsHP4qI891B01X2Cl/sU7w9XVlfvmbvBQ/umEt2vWxmPBl5Nko/xcjS2DTQ/0+vTFLSRjZ+PwU3bjDp1b5H4/R2CFqHMePwkOfzxjVOpDqv4mTIigQ51MqSDNIAh8LQd/SPjzn0NDs1PTnVyEqrYbU4XKAlZCw2DPPKLrPJRvjTc4w7aVb+637WwCHh4sBt0EhAPnsADw/dkrO0cTgAd0QLna1jwaMWUSSwOEJlEUhr5VcjNy9HSwizdBI4OwPk9s6tb2Vjs9npy+/wo/c/WFi60BMQ8nTFPNG2G9duOpUERwG/koAADz1wV4OJ7G/Yh4LAhooDuIbiGdrA7eAVhZXsHzxbXZHMw1VMLhsUbXIFTtZLl5ZnXr3O/SS/t7bGR0GuNWhRApyh8Vp/+HBMHtVm9xA1Nv1hZTjOewM2i9GBLEWnpWY7Urp1z7f6J+cTnPPkqqDUsj02LXE8dOXB8BHKQjdjDcOcEFcMFfknT+HJSPgUswQQerFgLxiNRABL68ZabhP5XFIWhEWCRISK8bQcHe112Coqc1Mz7Za8diPVykSvt0tFTGDYb7YfP1lBPegJxiuVS9euzy3OeYQ6sTE1Q26T2X1rb19gwLUbr1y4RAG7v/JsY3isTXvk/H78ySeL1xTGXXlwb3+ssN+TSPA4nDNUFxCugu4SfshpYRRhVKxXChNsVkScfFXMjsRvUpYztREaRiQu5Wt9NHx8MHLc9j0KxIYOJAhzKJy4Op5JLITNDrcUySzlJb5wYSZKKnf3SNV0XywgvVYzbF1lXjZE8Iji2V7dlBOhOlaBmrvtpqTOJ62T4oULk6W64jUzFT5prWdPNra3N1po51GE55N9x4sVphH1NMYpf0cr7d6xkPwbl2+urD+dX1zY3Tl4+viJGlELC8vk/n3OgXSgg6NPPv6ouXdw48qNO8K8b3+0ub7ZqJQ3nskIcxx1vNXoabbWnqwa//TMrEnJIFypCo2tLc8vL80u437evvHa8HGfOWtEVcXOXrBnmJre4fe+973JpQtKfuyvbPVQa65PtGHDI6u7q/ARR3FcE2V+eM/C3bSWhz0G4GqlotCVHOwScMCk4QqUF251Juy9OE6ZRN/JdyO5Y8RSSV9zSg1zMlI8ZCMizw+dTqezhlVS8a7LydLhpJGlcz6SKgjsYyfCfB5QnBAyXJEOfhS44jmJTKdiImX+gY4zPEOlCrC1B9GhEiAM0h+gmjnhNIf9Jhs3+B2u5autLmesQb511BhgO7qjJ0c8CMNEKvbEYaAoOh+hylX/yj9KBZnBk+YqSSFQAFRlZLAnKsqkG+coDS1MS88lFegvoemERv3ovsvgjDVQHGoTvm3Okm4CV7hoqSB8D0ZkGnklF8EZcIeHtfFECiSkOIlQUPgwWxo/+e58GoovGbnyLquWNfA9dIminYAvZJQub4enNHAzodbQ3oaXbKINaYmbxiMTiV/N0qefDN7T3ujTixjFITLKUq/wRZvsV517xMa44xUx0+TEEa9LvbkTuo80cv3oOTBi6oGrtPtxM3nYQ9N+9SeUmsYcwwAr+qFhTz3H4kRmDmubSBeJPxp4+dgImYkWLJAXrXduHIwE81iusu7GGCTF6RB1OhpYpHxxiqbcFASkV5S8KBUjXJyeUDxsYwLLI+OCX+PVKfGuFZMkRIOQeHo9i6BP3JwRWlOfWsZG+D8IESjD/0jyHrUFk37P4YwxC8MPLcEwtfVJN0AQY0W5wTyDA7VrHJy2d3ebLUIMqBuRafMzX/gsqKFBDOadp698dBOTkWT6oHXx8iWHv9OKhFU2ywkBbKigrUSMzRSLajENWO4nRAnFEg+A1ljDKJ/N14rxXUVz6QZ2WiaOHqTFEXhwyitCJP3+7sZCY3amrsh6Y+hkH+NfLpVVPKbW3Ns52Nvca+33HZpes8UROF+sH7T6e82T2cWrzc12Y2qOBeDZgw0eDecj5aerHd1LHXMUHquHp8Vznn1YGOIiukVWMztsRkqOwL6MYYpgwZHxsjUXoIZ5EaZS4BfPg+pEtN8Q6o5FiiN2Er48JiRVP3H2lN/5YKTI2FKeMBPzKpcrS0vLO9ufeHu31601hDiQOE+a/d7NV1+bv7Rcm50Qpw++mSYkV3Aien0OYgPyk6hhCcsLRQGbxQlBWNWGTIK9zfba5tNKLfdzP3tF/VDWCn7ZkGDK6cC1guVJNkqaKv8cov1GcYJpMBzWRvvHvY3xSm15bqZea3gRaOl2OrWx18QqWAKcDfIzPTcJTlbXN2wfxoMTJFwZXNjZYG6msb21wy3cwNZW1m26kINnj+5Tei8uLBfLk0TMwUh/tlY/POhUR3lCD67MLk5OVURbX7+2HLZIceR765trT370w+9uboqID8vv9PTEp99588cf35FEuFyZGsvT+udmZpZ58DMObW6tPH50n+54fnb+s5/5mYvLFx4/enRhSTa/6UcPHrBmcZ8VWr44v0Bd+8EHH9y4svyrf+6X//7f//vLEsbHoT6lbt0/aK49XZ+ancEvcoUXPED0dHjwJ9evXsfB1Ipjexsrc/OXG+XcxtOHl6Zr0CQzWGmyyLLaVnJB/PnI2M5Bi6EuEheN5boyHA+f0osyV2J3Aq1RubcFKWJ66GdllLavQ5vrWxBptVThVsPqibooEk7hycrK0YHxShwAxtdZUF7GcZC8Q5nO6KrPEzIwPzAT98IJCyJEFZ0yxwpKo9u0U+GkUa0jh+gZtY3Nau6ru92AQMzPiQfJIS9GWVrY77i5t0+TAXsIJA2hdu9AlyK98CpkvQLF0AlA7amZIsXV9sFuVcqYdHAlGoOjuyd8VKS+PKIIFW4cePZ/8nJygBeU5NcMMaUBhUQf4kkgruD6A2OlK3Mu8DU1C/zu+xkd+wspRE/ppyAJaEd0rEHgv4wmYoEtWqhVsitDi9n36CoRP29Ob3veyCjCnJWM69Ey+RkFZmTXKUbhOFZES4xcedyBQujg2ngqvRQ9NMqX+DcNHtoIVtfhifaJekGRBmxBXBqnn+Ij+k+z82b3Y/TBPGcIPRtmMCYvB/z8ViZOJS0Wfzoj9Lh+AEoiPynlR6L27uswkZ8gov7UAxWWs8wNDvXCBdGX8RRA/hEY4gjGGxk4AKDiaqs1Tggpo83IQaeNnzd++F0nRgv787/InAOhdOSTq5tQYoaKlwPO3vjTf2Z3rM+LKzgSsl1aRKsUEpXLdLzIypPifTd4Rj3g6zunBWfNU1AwlRSpLryqhoe+/OUvI7fmy8WN+ZANwGbKUsXpi3kImiGqExdYyh1Xw3ZtrW9g35BwKgvGWwuIe0C2jSbklTQMJxOIGyPtLMZNsHClXDuf5VnmBHRlhCJk8AkeOe01N1pv/9oXP/XWDeeoKOjxbLLL/2NtQwXh5k6r3ZRDSsIA9ivTHFpbX0EqGtPLdx+tKX11be4mq1D/RDRvvnhawdAedCNnT7FGsyLGhU3FKkAaWKBQbmPGGa4iTAgPk4FvOkrWx8qAKexsOF8EXwSkNIl52DOsaSgEksuf6ZpwvlJD4Ti1Hx52hocKXFuV8BjNF8eGFPikLovqkF7Cdji3uNCYnqTHyVOK2RG8sH2U+np4tHd0QpEgD5hcYJ32oMJR+/jszp17raOznf7xr/z6X/yt3/yXuUaKe8tzgShw8u4R4LHg+DG8qR2ipbTBhpvtOPrlYIb9MXgHQmKUhHbht9m1MLXQWVnakpGh7d1NKJVmFvDHWDULZwtJOmTsHSfl+Nt8YOeAZwko4ODjIVW+yqWJQ47jncN3Xu3uNYVlt2DJekNgQ+/4sHN6NpDLqtfdPdhf29tfn11ovPm23GRXpqYngEGnN1jdWld1feHC9XJt7mRIKGtxY2tfmOLszMTZluj+MXGA1Yqs5qApsH3ksITOw6B4iuWin8BFc6X5+te/Xq+Wfutf+Vc5FQla59akWOUnH6+avi0pFNUrGW/ubD++98AcBZV88ME9trhqKV8v5qZrhdr4cLVAuV5ZUM35wjKGa2bp2eOtnQdrm7udHrsXPY0BW+W8kKuSoCXcrPj6w8Ou4h18HwPpB2oQMSk+PcIW+0WqiXy5ddg5O2QKkg1CgJcohVCYu0JUSBGcxNqoOLLbc5ScRFpQsBfbkgxdyVs9smqhXlz+AhqhvrHh+anIJ+DQ+VQRuD5R81IyleoFCNthB/fDbsdFkyuJVFYlmIdFy8YxffG4qDWGRlmXz4db/bbogbHh/PD42YDEfnKI4Riv5aTQQFr1iS+DhcVtjBTGhI+FWZz+3A//k1dCMUGNHKHMH8JkgpagM5BTSD7BLGgQXxIGTD9Ge3czLI31jwbukH7g8egqGgc2icQTUHk6n9lDznE0ej6caJUap/7i+5+6sm5iVMYVA3l+JdoRxMPfnoU0M8/AID8hToX+MJGrGIs+9cBli353dJwHJSwSSA+AykZBPxwwmtSWWe/ZGDyiW+OPmaXLHZeXIiE+4/lEhNz0xbNZM1/87SYi5NK5nQNDqLqbfvVsduk8vqSWsebRW5aAEtsenp04W6Udu4zsm1ueNFFImuS3dyCFChDBHdfoWmZnpz3oRUR9NvYoI8h9tswXbHxqZq7RqDFfq/2j8DFDMbz4cpwvh/3TE//pX7PvBpNUWs81lm5aE4NnP4rPhKRsrO2PqA83SPjImOj+lE4+cqsPjYjBXLpwYXd/jzpRTXPct6nBEIuSPZTrdI1I0e7uHpgnHNKHXFxeTuq+wNxWURRX8poJIPD2ZLsKGPPPLQTBPafef8ydtUyGAnvAN4WTlBxKtWL47/1b/85v3bo629vf2uj0eE5UC8OhHl3b2F7bErp7SHFOHjk87+wdV8qs3EO7Eu+dbu+0Ty7c+NTU0uW7W3dOcrXeWb5/XgIdSj7bkEoJ5SX+Uzsh16TeSIwJTAAJvJtYrySMo0tp9wEUMIDEnQxUTFxS+FqbiBJZqjYIYNVR1CJg0yrAYGgEmYxakgqwe3oQRq/wVKRgKvHzoKjzCgofsM3DZSTPPbolMLe5vWWFLQXxHJ9LGh7Pl69eqSFRve5xt3e0t3uwvrWKzBnw9euLr7964eq1Jd0kkzi1+NGErFiyjTut6eBRaQYewV84KcxmVEug06T4WRN07Y147BS6q3JJtVCJZmYV+UuHLs3P2kLtTZCzgw0MISA3vrS4KOtBfngIcp9eWBSFLgiIIq6SK/XakSYXuZV0XcmK+anq9ESp3SoGiadnPOB1w7N/WHBxiGEXfkHh5KrcYyOSuTTpIw0Hdfvcz32RbylFL+fZ3ebh6Hj95pGiTX3p9YhjihzIn1jIV5F0PgKDnjx+VBdYlzWHiFNkvjC6sKQQzYTlvXRVCexDkby00Zub69/51jdv376N6EYI4rSgx1lzevrk2YNHj7sSPEkwWW1wPnrnjdf2O6Pd/e3J8tiP73x8bXlRXBz96uz8zNIrN2eerDaPTj93fra9v+l4osah9VVxVhrIsDSM5scq8AaME6wLjwkcRFuOEjlmZQqTl/B8NPKeM9IOcKyTjcnwV0hhJ4SuEIb5nBwr5sJGIPyjjyuiqEddHC5iGMTDm0niXIQNDDh9zm4o6E4iSaCd0tLbMZrQGx4SZolMygG30CJlTx8bSl3ppEeSJiwWxe6A6hhHMX7KdBn+hKAySBhdW2/7tHXM7zRfywv7ihMiLMbY6RAP+aLygKFPjqQkVCb/gkt3Bp39mKHXwKecXglk+svQb0JGAXkwgzG9uOLPdNMXT734/gIXpmbWznEIZYm1RyMcUCjtGGIN8cullZsu3zM0FJ8JHbnjfryFiTwUcmG1DvpBvxD3A+9bzRh/cn1MtCPe6j5+AYZNYlh6PLywgkhQpOAXnLToAEUhhMoZQ+eOg4rRhV+D3YoegtAE3+u7K/r9qct84wqSFJdfsmYxmPQNBdJP1oM+3dWMRtSnNnHBVAl5Zc/6dM8dFRcVpuOtvra+bv3NAoGheKVstu2kFNIVOR1VqNTq0zMzYJcqDzsswYG+W3w3GJOcZYxL1JWUeSyqvso64TyqTAOg+QeqOoGVz97o8+XMDODleIISpInHMELxGwusW2sbEAJmbW5SgQZxjk2KFfbNXxIByObpJJt7EJ5Ll9iHcdYffPARq5L7cJt3UVfaTBz71s6eSOepSmSk1QNej4HZYUDgfXeQkDI8r+9WVfZeKo94JTwNeSbOIGQTwh1f/7zqBh3JMoTyMHdNN+qYqbEzVcSH/51/99+cm6IUPNh8+nTs7OCos0N/KjxHDjqolKNS+GQzsOXGlhZnxfHUJyqHQ+2N3WZxcqk0Nflkc6uLCy9UCcvHIxVMTu9ESo+x9uHIRFn1er7B8AdfRgbjGA5fQX56BpnYGmuT1tBqJq210cJCzOl2HjTGukXOHglplFpwE6sEJCESkJITm8VpQabDZMpisQz1ABIkyfCIoCnkYWL8wpWFhYtz+VpRKp/awuzBg4diA1jTMOrHh5tOioTxc9MLjFVbm/tIz907Dx8+XllautjZ23r95s3pipoUB0OCg0eLPB3tNYY3lEuGLSgxljlBQZTyjehhniDjyBZT0iixWKIl5CwKP5ufHaXsNs1IJQxjjIx0d5uEDVQXVJbCMSAy8VD+KPJskNwTdHn/k4/4hZLSJupTvQOHdBRfTyVIPhSMYPVATq1eBaHSOS4ulZVMiRTReHQSH+8bRqdY2RPaJGyaZK6zly9ysStGUfXa9OLoRR2qxjLEonHCxw4eoBcfSHDLl+2c86GYDYVCTiL5RSWnZCobkYzhlI2B6MfOSd/CQqozUwtDx5cu/7kf/ui7j5/cX1nZkz0T9TITXgqEVwned7a6pzlJRtR5malMSE8uwWF+9IRrwv733n+/JiZ9PBWeqdc/uPeIr/+f+eVfevedN/b2ac136eIkLIyA3IO9kGz44ASPexqJnk9pLAJH1auN5sbuML/384Ek8+qatLabYEzyb1gbqnWmqA3FHRZrxcMjkzrkCeQ0gTGHEcYI1CSnRbmG8WXN4mYc9Ec8dX1ScKdTti8DWUi6ddtxerIbBmPy2/GpODC8Ji5KJknbaGVkMqNX4KCRoFqI8VFhNHJxcZdCK60nxWHQVnCQH+uGuQoaHCkOF5yKMIQx2HDUCbdOKhoKiShT9C8kVwknR3yNZXDATANYGIdDGwgWEMFS6XTFF4QkbiTEEIctsJT2OklnL86oJ8ArjOV7yAfuBRnKcHhQIb0FG5yueGl6dfan7774DDT54oo7IY1lHHUQqiBYYQTQkCdYUBQDMPJAC4FeodLQ5tGDGUwIet7opgETcRgEI3zklBdtIrKBQ9zlIaplyC4xr8CkL69YkOB0no8q+2JrvdQ6pZFE5+4bqp0zBl+c7Og6GYqQWaugDZzoTnZpZi7ZW4JAG3n6A75+4603uckJS0Ra5C5hvZJgiS6FmZfrkeFPUOOgE+cjU7NzoiKONtdFAlZr5YnGpCS2loLOJBlpS0R8Rn34Ax9M5059LL2TmaRJxefLK5vCi9GlySap1J0YV1rXkFdphWIlY6lNM/tFmxi/z6joGv4qIHBmbh4BAtw3bt4yU4kNN7bWWQWWl5f8+XR1BT3jliX5wsqTxzzFhyX8HVYk4gDj5alLdCaJp9CxF2Uk3x3fs3fFnnpTjM8I/ScunJ9jhLbRowiTgUQZvo4HnfOz5m/963/py59/M8+/af/ZeeP0/LC0+vBgZ+WJ5NO876SCOFV/8UwsBNww3tmX/G2rMtWYu7A41OoXpxbuPXm0P8gNRmuczGTZGUjURX2VkxprmFfG0Xkqi0AxJng0vHNjjf2LGFtD9ncAInE+YMzOGzFVIS1x5BWFCoLg26NYOIooVNwqxmLHo/JtRqVgOkAkTP6D/qDDHlStCaSr0Yl1els5aQoqlfkLS4V6fqjAwfG8t79PcUdVE7S43d3b2d/d3pPbjvBUqU2RrqQ9EvQjq8vBbltp6evLl2q1yaHuefvp5onya/1gC3h2HYt8JQtwCYoDHYdXJLRxSXcZqkyhPFGxM0gSKdJsZZ+D7BCY2JXYKSkGSYF51UxO6snynfymlbR8+OgR2Pv4k4+BrmWZmp1avLCEo5ctqZA7ayxMNmW6bwJsiVIHYH9hYW6WP97SrPg00QqyHWWJQnlBk0V7x+f7otf7PSpSmjQxUjt7ETUvqx6v+qER3E8+UheOSx9erAS2wxaE8MgphEicL1Qp7NvdASHPuX7z8CZCxcOu02lyb5GCHZ5T1mN9d617qApaW89f/soXtrbX33gtivjwehXkrsy37Ea4Nt6IQyUVfo8m6vlOa+e4n1ucm6KNzZXzfdJ8c1tf3c21fGOCHPfeJ/ekL7p+5TIuHGVTTBnWQK62d/YYnCSpYtsMg9ap1JciwYscR9p7B4Xz0WlJ1RrTaLbYNAH1RqnQAwAUuTFoy+KpLqWTHwmwHBn5ISE+MpYDi7u1QyyI1PK2cviAkyblXPhDmddUedJzVOhJqDqvlBvOqU3TkkSPXB3xmpVZMfLQEL8o+1W3pgrHQNkWmp9zQV4lpsJcUZaX7nkfISGnyY3MoYJ/8/jxcGmswFszmDH5e3sDMgdngd7Z6UGvq7Iohfq/kFy9OPmBEQIcEw4yQZAUjGtgqUBXPvwUaCtDDQmnR4NEKjKUl/2oXdbITV8AvecD7RDjAtGlJxMez97lM2GlrPOM3ugjKFDWIL0avUkjibE8v9KIsgTDTnr4knihl4ZkFc4cMIQVNoMwJnjY6QFzzgPEBxf45JAJaZgzDBccYBI04Q+Xt8ff6U42ZP2nlXg+wmxBEqJ8OR73ohcz1Tgj0KZGviEVwURUEBzB9Jx1GAgtW6v0lJtZ/3qgZeZ4DXSsHvba4+rh8jWQQ69Wn5LmuViotFSX5QxULNCnQTxTlQaxrFStTNYbggup1h89vK8k48zUJFFGHnQiEd7NpHW4d9CUYDUjldk2ZW+PCaQrRmYGz9VYz3cfwg0XzVjj2EcNtTHa0HCGBJ8eSY8Hl6LGREq/pCXo9x1GkxHxK1+5IlGmYSiqS2KyGKbw+ptvT01Nw6rIufPZbjUVJLl0+TJR97DX45idSH/YhzGb1tObdGskCSZoxrMrwMa0HEVWIfydfIm2nNEPQuPodGFeloDwJ6kvTZzxSWjyVar0ts95YoXvOHvJ2ag4MOEm/eMBGxUfRb00BwM1D2lc7j99PHXhVdRQmIhFPDofo1StFWvUMcrEIARRBpWaDloKeA/bFWYsVicWyulyOpOQnQYLGxp8iIvHA6ckduOEbSAgGVWz1PhZrA8SEFJMOIMhwHCKhe1Ect0+hhWqqBdLNYR3YrJQqNiDUeWtpeUXAyFspladmKzVN3tozTllYL0ivPx8r9k/aG7BM/s7nEVn8blSK//lv/xb15dv7nzy9OPvfbjzeKO/02ltHXCqJ9Z3RS5EfougRrbcXKRRsMn0zJEwxn1+FICbDpgVM5ff3t1nenTKgCvAq9Zr5WIo/TqD94PBGhpavLBAH//BRz9+8PjBzVvXGxO1a5cu33jlOrd70N3qtt9//0ffvnf72aNVIc8XL168cOlivT6LJNQbNUIJy5f4L3slNQSx5vCk74y2eke7reHd/TBrLS/NAza5dR1tu9AWkB6lkI/5e2Nge51WKI5yMjYBb5SUw3tJGUscK+VkPVei3KQQs1zSYJnl9Gn5/HSWw4qIYJwSC7mcTKGBGRu6du3S3/gbf20QfuHQRdAAA6DofnD/UaPxyf2nTykyS6NH60/vO/iDzqXy2MhkhXt/375LNi0CWvyRIO2P7z949vBxa3vLe4k7jakpTobMUguzF4ksly+IKhbXtbNV31ATB+EEHBSeAiguTi3IrkKUqlbKs/Xpdqc/WarilwXqEvIpQ1W9Cc6GNxGTUX+QoT7jpKpgxGJvwwf4k7CkqA2WY5csnoqh+B4ciBAp1Ycj5lj6Lqd43FNoGJUgocrB16GibgL78JLd9Q0oV2pkunSR5DJWcP8E1cLFwPtJMYorzy6W5qcWuHcmXj5SLA4dRiWwdv9Ims7zCvIW8anw9r+QXOkxCENCPT4SFogPN1+SKxzrc4QQaALqoOVIZCM+0peEvBKmig+NA7QTaQmUF19T0ySKOcehTUpvyrrNfvVGixXPRg/RSeDF7E7YpQMfesidGFo0i6eh8mif3CUwsjHs9C7NDEo3/kyXg6YdNUvoXzQJyU8PoXNH0OU+id68xae3xB8R3fhc+vFo9uqXnwbrXUnoer4C6ZHoMGvszXrTQ9Ynv8eYQkbP0hx9zy73dYsyae0OGLKFfWLRUXh+E9QJ4jN+hpawgrhvzveH+KcOeylN8X6rhRmnPZdpwQRSFoDIyoy7hLhZrfSD9ba4O/t7geDxx3b8hfeNYXvpTz4zEpVGlt3MBukpAhM0igMAT/HPXiSHFM2yZXm5g6gX0uLyrJ/gqdNO21wucFien6MTQY/5DT5+8oiKHJ5668131tY2JcGZnKg7/Hfv3PaUpUNfcYDZMNxx6VA/2aoGMwIUjT1BQlK4ZduUWA1AYTlCMeJwj77+6nU58USDdA+2OXXnzjr8jPk/NZR0Du6MORBT6HjLeoizPF++dKtWn9042Htyb+tAcN5+i8apOFGRTGewuiuHreTxgaZHSwCufzy02+yflkInUYkollDJ+G5hAuSNGSNo3CHBE6HYIUKvkhIIux2rH5Qs1C6ofhRvE+WGF8baQBkcWP2PMfo4soJKb4oRIKzzSG6jHSjW3ML04nLldKyFBBIO9Q32+II6OhALxo24yZDIp1vGcNn0d7YPENUpdS7Enh6dXr184/qlGx98+4M/+f0/+uT792cL5fJZ4aR1VC4qQYIonZHIkFahUrSdhjF6zgFd/uGVUAFGNcDwgGRFYxvLF4qfevsiQ4idCs+gdO3tdLoqvfcHm9u7jFtbl1pO9trW2tzchV/9s7/27s98WrrUbqf57e9946PbH7T7B3CPgPNf+dWv8fUQfUFxjTgQR73IKeF9EBpW2WGPpfloJQXK2er65je/c/fBw7VLyxfeeP2VajF3+dISutjc3RDBSrOKeRpmTQ1rIiGAxux0ty0Gtjx2Ilc7J+pDqaXyBWkZykAaR5AOPrW3lbTPp5iQ5UtLsBa70dVXrgmWCq+fPNx6ykK1tram2vd4YR6aZa1sfa69tr4q7hCxr9anN7aaDx884bWwu9Pc7LfyIycXFmfq5dL62entD36cqzb41bCX1srTaMf21sazZyucTkqSsjSmrCn8xgf91RuvvfHq648fs4s9cHy623s8EYf56A4OrAXRpVARKc5VSbVKCD2V5BWYTaTqnqokQpuUHRkIgYJRchuGKMwu2uNwWV4aHTyE9QGu9EbUg/AnsYmCNLFTgS9Dy5cvUnjaVfvrKQDtuz75H7P/uw2RsfzQdFIADofKgOEy0EVfMtERJUYUn6n6iZ2Lb3gEclNi0xmenCvtrBoKR2InJM7Ac6Tzz/3Hi43MlQ6WzFryW+ovECvU5rSbDxTp/xn7bDL6MgINyCsJW6AxgWfTuYuW/On9lfCI0fPqd/MnBM+SxEtDb+QJLKnhJXwd1mUBmmolhVCXen6OSQNN0rvpMSOo4TUVLw08T2cStjGcJYiOUWUj1X82Bay3u/FHQsq2zZdY7mQGi5vJTwBqiGBOijPRJFIVJ8oHXcRjqb15ZV88G7oP03InPgIRuRnYCDdhEmk99etO5lthU8lKTvV5+E9ARcFm+tWzsHN0kfgDzCm2nDpWCPD69hZv9XK1jmOhSySGs00RvfsMo6GB8ayE7YxHHgZYpYya4232JVwfGoLovRRPSmRxEeepmymvfSdfYYvAZrw3TSr7ks3C8F/efM5zJEhwEwKOHQCC6QrrfrocazPGgXKqEioaB8OWQljG6mzUGwoECoS0irV67aOPPgI8JCqaBwl5eS2L49nZ3Hbf4o/ffIV5nROJB3F2DI0RwpPSGBqetcKnon2GH85jwTVlex4jDeLJy5uxVrIqJaSwvJHyQ4p9ozm5eWPh8sXpbne7WhnrHxxLY9E7aCJUjXqdhp1Rhv8gQlOtMBLzzkaWJn/43t1H62sCMur1ma2N3Vduvjq5fOnZtkQXPMrIPcmDxvtHuKQXmx3ZKDBP5mBT8jnspb8p55P5VGOrF4uXgMeT1ioSCaNMPHoZyyJLE0cG9aocCwxpLDGSFufW1kpvLLWaTOniMct5HK2kB4eHe1zThznZLF6WClaGccHv1Wm8cpTwwLvfu/uIArBGZVSf3BOjdKwgk7iZQQMnrmhWufH40erS4vJv/Nqv3/vw/u/+d/+9LAzs443q7NhxbryuUE19Z4+CrX2o3DogQ2vlYxURHKTjfG7uRqVRBVe0bd5ANHEOIITN7S1CIdDd3NgHbHCI7fMFspNkwTSP2kPi7d64OV2qjnWanf/+7/3djb0VhHosP/Lq61fnk2x05dplahMBH2ZPudrvNyGMjDF1h+I/rQoNULAr29t73/nWe3/n7/4P1JMzsxf29np/8MPvvnrr6m/+xq/h3zF/AZ5DIjS4htsaKqSofDRRLfO/IAr4FcCGg5DNEadFoeXYH2MXeYj2IgclH5/IrlflnCpG25+Sm3Dfy0vaWq7D1EuLM84nJ64owQkjLM1evDBVLkH6cqQQSsc6n38XtEsIsbW52trdVnmB2gP/afu5eSzNz8hj7yYduDwdldDARCL8zdVnSpOi/TNzsxQtUpepZvDVn/0azun3/8HvlMcrY5xiVDdWkrVak8BeFhOvKIxPC9eSETSSLFFVB7pTCNipeZ4h2uwcKwz6xNQ0XQVHdi4ehgdEUS+YRCJtkRWEY+wTSzl0RErm/UqZr6AdJUToyBDAyOKJ5IPqCPmamZoN/fDxOfuZnP/qlXN4g5VP6lY/jNbjkZKDnCb1dVRqplsW8YDV8zTgjtIjJA29SVlsyaSCZDlJdrNzwRMGbYfCaXNYISInX0DMAIVYhzl2dgkOhktPKhgKJkJmaWBkiwycNTp66eJFIBioGgqxuxiXM2fYikd0NSdQqETiD4BiP4C5UmW836LcUShAQVuwjTA55ObYw+iIsuOZkCY2NxGxZD3DW+J00IYgVVGOgBrWpMNd0qgsGYbaqYYXrB9TDd813B82DC2D7KTiDNSJljA+4XcTyfSQm+ldEsO46ZRFYZmov8NwRY6ke47KzE4E2sU5k28MG1VyFaGLyNnLQNOBPU/kFZIOIcwquuE+bxzOqq1xPqBdIO1Zab7gWRy7MArGT9KPxfQIDGsW3uBTh2Rza+ALTPjNb3y7c9hHq9iZA1mdDd29e3+6eXDp4hXd0nWEqzdWkHqwVptfmAKJlB6eFMKIFAG7ZjHfyRVpADDpb731hpQE8ke4T76Rzo0GoEhTZ+mH+cFXQZ4xxEoExY0ldYFJhNd4XInyW3AhnGhTxI2FBZieDduNO4sFCI9L5U7UFrNZGjm9t2/fwUSNjW6Q6tgSPve5zxm2EjjeaFnWVzcUDZHo4nxwNlqyR2F39V45Rq0PAGNzoWywdHz8qpUa3ZRzAozpzKUutaexoTK+JYcRbwQLiC9Fh5e39joco464S5XUPujcvDbxc199Z2X9dr2cP3Q6YPzhOkPQSadblBX16KzWaPQlVOIpMaym7ZO95t7m9idPVnZHy41SaXq/Tyk4322elutY+kFp6AwqHRocRJxBOIBEQgwu1Scd/gDH4ZlbV/mlaIRYMbHUkc+2QHgPLaWTRUcYmkf6qZjRaBRbUi44yirKWcdfNSxZkGAEmJ0UyEuRafb0+OCsRRVzMuju7m0gkMcnVrw+P9fo9ZrHJ92dvRF64ObeirDo07Pe9MKMZHYffHjbgK5cGZ+oFprd49XNJuGcbNHa74rPax1E9NXbb7zd2m9994+/e7x+Mju65HCJ4zw8H+0Pj+3u9frHI91RiLFCVhMcXKaMloZyZpZkDL9kLAVg2NlTM3dLVJcTijLRAYAoYFMYFvl3ShVen2ko6cE8Kecy5CvzSbmW29h9cu/OR5//ubff/dzlydlqvpIXu0BeQ5sV0xnu9ePkxy6fc8gPmUEcnMzoBSHGVvK414eCpDA+67VGf+e/++OFC7cWL92YWbq1121//8f3br32OmrEC6AqqZCIWq4rYT0ecyKIDtX6FE3BoN0uFetQrYoujjoETOXiYOMYI3I8d3LQ3RZPJcB59Ez+6BVcEOsNaEQPgKjpB6KL5GSBjeOiTggPtdHpmZJDwxFkEjILbRCAnwhx+WRpf2/PkSH1CBzcaR6oj7PTpELcRa17hxAs/bC06JYNWhwTAsB3bvXxfQTG4ZWy7+ZN5cBe+5d+5TcGj1eefnJ3bW19el6uVHURj7c2198efwftsfLUTxwzOJ4QYyQQAmzQOQzp3Hk7/Lu1s62qqmMFjfNOIn877ywNCquSc3iizc0uyQsKMQisZAifmy42apWuXLb7TSKRkuQ01kFjGIlPKTjbpUapIIaPj6x4T3o+KgbBDbh6UEykDd4R1aLXhm7HChM1ZrbQviT7rLVynlgYrWcxLLi8M9IVqCcx1L5k35NOK3x/oUo0FrjvHxxAKIPtUGsSMlISbCg7MuVAlFMRcFpHBCB9neokJC04KpRvcaEh7ocmMZCvpPfxosB8YTImXEcsKihMNAObBkWmUF9UIrhRWk2dhrQSTyW/OHTE98hFllhOz5K4vTa0LSnGCCIg/QbtyYSdkLrQrcDFLycbXaQrHQC3qUcM3EtDKPQPSQjfDG+Ektm6XwhAHkrdpDEkechbPQGiTdZPydsx6J+pRL9JesveFX+H7jQ4EZydv7LLr0Gr8NqeQTuDUsSYsRUax7M4AHuiT5MK9vKo0+pystjb3idjwRgIvBfV+vUjxnAG+6NjgeO0yN2DJtIBOES9xEIiHhTzRU4353ucsZtt5RHwAyiKIVFP2ot4W3qp78ZhijGAn7rcNF6UyySNNNbWNiVKFj+FEGGNws8TZxqhsFl/wzIGdR/ef2SzWYxp4Q3YeiXxbuzS8sWN8fzT9ZCuBGZKfbu7tVudbKQBRHCVMH4+clSFvLQMD+xZjUjFZgzQGScXuxAieuTV4r0WkZNslMl25bAhIHyIB62Nk+P9xWuLFy9Ocg9UGBZLt7W1K3WEZHMwCg/bze0VGeT2ZItVVX6g4uD509XtTiTsG8PQwbBbu53V3cO9QxHI/fbReGV6GgsWdDIqa4S207jOojqUHZMnSCQrO/NwkbJIsUVQSlQKUTggxB6jYYGMVfsjigWIjnRbYluiQC5wsneUS5GInRuoRL/0XnQpwP3kdHKqppQ4HDG7MG3WKiTXGouV6vQPfnT30dN7N4qvTsyq6CIh5ODRk3UYSGql5j5VMcT3tFw6gAHZsBRJRRXHy/WmvMGD0+uvvF5tzL33/p1vfffe9FBFhCYJjSMSr67J2bnZ+Qtztdrl6zeovdRL5MJTm5xk/5EdDyTuPNtgH3325Gmg72RSsyGhdx0aIloB6vrkhO/ATFqTV99849or1xTIblQbDx8//uDD9zkHFKrnr7x+YXZuYVgBFnFanf5JJ6EzyiSgcnwISK1JHHI4L8V7OJhnXQzhkEo1yg0SLlW0f/qU7bYwcjR+5cZbl67c+Cf/6O8XK9Nf+tlfzM9eGuE7UK4e9mlN2akx0EPStVen8zTpdgdrgObbgrAXZoCvmNxhPzw4zpXfatpPOQuRYOp5u3B2XuxLTii0LHywD+V2ViLxJDwoA+I944pTDGroc8vVUJNieNPg6WxSFoRhGNSZpHgAu5dPzt48vAUY2D5bvYPdJklhe2XlKR8T7DInfrgI2VdB/mBbwrLdR0ePH3xy7/q1h69fu/Gp5cv5YoUHPbYVaEECjhh6zscuoh4QW6xTxPvx1Ocra4wmQt0ghw7ZnzkK3gro3d3dx3OViY0x1gidohiB3yy1JeIoCCtiuEEmLIQIkM5HR7ClGDDel0BYAWvcPdVCaLFRbtMPDRLBK4IbWABlFAuPI0jJ8dKClJxWoIuopQTQ8S7LLkcbHIx9x7AFuTI4E3O9/OJ7dt87AkRS3gdcA94B6NoDJElzoC3LotlCWlYfdsxFuTDJncN+o5kzmD6fizv6cXmLK34LbBd/Sj4AKqJlDCEu9+OvNKRkyg34DthEsYJmxa84nviUAMedIIuDwPTcelKJ9fCigip57YM4qEvtuPC6Cmweirj0iphzEI64/+LNQsPTOkB2/htECzMQ3SK18S98dr3eGOJP97M+HB6QaeRU88gQFJTmkSaSMDg66Y4BG629ccV0sBixh5pZ8Bc2uZRPJMoYxr5EG0M0QmrIyMTGFkyMw2xaHPYIaeQZ3Y4OdzbbkqpSuXgFHQWWzt6QV3kWuLJFIwTqE2PlUkPo23/yDX0r0RuJsI8k49lLrwHIsbxGqLG3g0WP+55daa1erNaLHUyLEDDj0syfsUjpevkUvoSui7WBPzZ1fHAkxBHmd/4mh/3d7a3lpUWz3NreELaothAUTiLEIU3UGzgF5gHrMD21GIojSctrkftDlDAGmIOZN9oP7/JaCxMsTtggE1VHTFV37e7NTEzmhgr37+5VyvjcJVq03/rNvzDONyIyZUT0/sHudntnC1tYG8sdNrutnX3hLPtNbwkSJFaSV/TZ0Hh1qpwrTrZ2EC+UHG5TpSZ4nKTew6Uhl4njCFSHAwj+FL7gqdHNDVXtAZMvYspTgmEshW0ElGWyIP4x5Fhakcj9TxGQkgVKXnN6WI2yelTyCCZEQGlDr4Ab2GlxmW9euLh087VX6VdHpV3PVY5aR5euLD9dWQ+722GPa2iuuLi+9aSvOsOJ+q5To0Okr0H3QBGjAsVXDIPFjPAkmcLw+OF5/slWa23/sDA9dTRcteY3l5bm5hemZxaEEhXY7aUqLVfpXaim//Dj99TbXdtc6xJtofC2Irq2Jfy+yIE+gQRgFRmbw2OXyxPz86/cunHj5k3GJ/Tm9r1PfvzRRwd7zWerq/tNaXlDebbZ2Z69Ons61JYYBIpCnZDX8NmI4qgoOpVNnMeAushaLw0jRaCMXybCzh9FmPgcPXi6W5tYnL/8ypXLt8ZzpU/uPJIqZHe3t/f7f6yQFlcP1gucmZQxfM1DBKLPiNHuoPnoCx+CQr7G507OFqdA9GuJj+cQ4Z5jIRxgji0KMPkQz052ASpgzzAk+BzOkxuCbbVJcKGfngMH4O/vB38CNkDGcFDLhAzGSEi+BBxE2vjxUeUZ5XQYsIBMDY9dA8CiKZWMabUPV1d2tjabW5u7Y+dHG09sqMSvQ/1258mDj5Hr2SjaOD4xNweNMW/Lt8vLc7e5mxcI397rdA6IMlQz9G8qkltD44QPSYdcVylmsbiIGFwja6JhO1BOWVEd0KBjuI6Tne0IjpydnjVapFoDPzmkkrrFNFPudsaI7NQ7sESiQqhVwxIWOffdAmdDYoSOUUdqNZvnQYJWuMQL2IjCMxpFOTmYiuAJhwsEYAeBtZL27AUJsftmkL0p+9RRNEqpVMO2D9/IjsXmGkk7ulTtfqJ3ZPwgW2WI2NZmiDsWIyhZiBquwJiBR55/13/2rlAQJegIkSKgJNBc1kybQJQhXT0fWKbgezm2QHjHoQDNGoSzhOzXkUiUlIP/8DOVpPmG7Q9n8NPkMOvEg7Crl3pReleGiEP+MZwYEQktyWvxmailgWvpEVfWycvPRECfK9DM3dDTTzF+Pfoer3uOVeOm1dMsNLMkRq6IQRWicz/JGJe1dw9+i08ci/+EOwkI1FKtWemmc5zXL11cTkduTKKHo0HXCOy6zdIPpHgi/DJtRJgvhOklGZEf8/pTCiIhFGWG6ynpjlot6ATl894YfAwmrX827Bf75aZLxy+/WIdEirwwKjtnv4IN9/WTYMZ/g7tIs49MJw4xq6MVrQoDpg0fG/vi5z/P4ME6zX99+uYrcTxGRuZmpr/8pS/A7BABDEFrw6nP0TFOS2dfgzZA20lA9Troz/uSJY2lOZY//D9iZblND5/wlugdDJ1KK9UvFsf/2r/3b128MDNyrMge9cVIsdGQ0F7yqNbGFm3MUTOKgJOC6hPCP8faSL94IHXtFP4bGesdHhNRek6UrQhmbAzoJYqVkcxgQUBVaCJpgA+TLt6Dp0dNmd3PR+jMIuMDizx7cMzEQgfHGQvv0Fo2iyd/KA3XWLFz2uUtud3aTWyN/rEpwfd4jurQak7OK0015axv722fnu1I0392zhe6tLkz9uTZo+299YnpyuSUYsIze7tNNjBVk0ZP8xYo3urlwV/y7yjJhlijLpxeHB+vDxWm3vjMtauvfbk2PYNSQBztTudDou4dWYmbvMAePn5Ky6L+CmQM2FxAIo7uwIjCa9VleBDZnMpaU1M3b16/deuWdHyekZmTy8/3/viPP5SCr3OQOaYGfgfk7JkKAPZPvvH9D89Ub+G9wZs3+RmGSj8YfxgPq+pgB4ABNqTKxb5IxcfvHG4U2CH6fGNj62iodO366xOTCw/ufnzv/srFpel/8k//ZGPl8fLy3P7OJo4Nuws+q3DXWCjq5WIQ1cTG0ZcohvgxXkQFOWGRABQWmJ6Z4Mn0bOUBE6ms8Oenh/SgzDlSO1+5ckWGaGJl+O6q5Tg9bUiojq5cMgdCm3gsmSWcbAuFUAVDByWL+o1AurG93Q2fsSOEFDVE8kUkmYNPY2KGWhENahTGZmszUPflucVms7O2vvUrX//Zg86vU5Lfvffoxx/efvQwMjs+dpaxFFGzo4iUEp6tRn2qpoQ1iYCvPw5MLiaZTfIhOak1GslFsSykLumHmeZCKUE7D1zPJPzkti55f06TcqVotZO5ceAhFDrSiSUMZmp+8pmEBBtzYgDQll89eGL2di0KmUCmYRIIC4624d5uxijWKe7cRiBPkQckvM9iPNZQU9NHcT766LYG/yPpyvZnl05cYM8DBgFZaAr+sEhzVy8aMQgT0paTzT+uEs7U2Uv/bHMYOhGtDO3am9ieJLMnnBusimk4jt7lyGQNonFgaWy5rxluz0YRDdwxmPghiSY+46Zf6I9PY2DBdlHEBVqIzjUI6YMQBQOEcIM2vMQjegpyGPq0IIQQbOAV6CWaPX9njMs7wvqlxwCh8M2FbQNLp89A0aFo1HnwAsHGpxnFpIIrCcLJ4KE/wZh65toZk4u7DLfBO/uMtwUlilX31acFjx6SUjD96QmDtGb+H3pPRIydlNEfunMCaAWYglXnmlYg/PjwYbkU8pZEc9yKkkshmTKUTL575PgEnnX2jFDGSFWoJ6t1QAJcKNlki9sLeh/jz64Y3ovL/Rdff/JfM3L5Cd71Ck+FYitd7r9slz3rdrBnltFKUS0lFYRoKoXYbSIR6sfvvW/vmNOAXHN3b7tUfvzsaYTOcEzGXHU6vBn5DPkVRuC5C41ksAQ+qNJIH1hvqg5ILxiARG4tqq1DBthhxXl32zt8ueWK+Z/91X9zcY75+IwuG15VaYE2g2v1xPVrnUZ9d3VjZGpInkDptzuIve0cGZ2YmR/KV7vn+d3OSQSr0K2U6KaoqYfxw1RRljzYaYJ8/AMWoesAGDgJKl/ZbUS5tDv7FqvA6iylblAsW65tALTlYc+VB4jsAvKsnl4CI5THcqdjzb2mjWNF0dZLYsnB2DA3+s7nv3hr8fJFnlq7dEbb+0PD+bnZi/m8eva5ZysbA0hoaLC3v1mu0d+XIBVFQoSWMgjQDRId7ASjl+LpJ6PFwdn4ASPe0cl2q3lyzJjVe7jxh7stWYT2ZFagnQzQTpMqjRbSEgdosnVb/gCAY/xEXTV3lgGIe3Z6RqKvq1cu+bTdz/b2bm+scDR48uTJex/8GH5Phq6IWy8Pl7EsIPwwlDSj0HH/40fDwgTCBGkJI71HcItqQJV4D9ldl8VO51Gj4EnVyygNC5MKz7chDknc1JcvXq/UZ7n2/ejHdzY2mpcuXdndFx41/ODRDj5pay8EIGogHgBvv/Gp6elZyufFs2NHgfO33lm1GLqZlviLb+50pueXN3c2/+APf3TQ3Nzf34FlBQ7Dksb1+uubAo/u3FmTcpahEbliGQHmhipbBEMyrwR3pG4XeEKq40lhM+yxZSF+xYk4o+XMZnWuOAfLGTjnQ9hp78OwKAMKJ0cfZcQRHxeevbIXjR2NlIY/+9aNX/zal2DclVUBmd3f/70/nJ6p2VI0phNWlsOd1pZkYrligajD2e3osHfaVvM6UrxSicll0TvvEXEwf4Ua9z56LDTcCQ0SAllAFbzWoaC0xta/vL6+9mj/kTM4Nx0FL6V9CityMnWDAMMeUiTu7CzyHvNsEkSsQuuxOTHg5fAigSycamiQ5lOwmNIqeHX/kzHs+Oig3axPMGPXQ12qOE7APG/PSOjC+yHwacI58ZFAILCV74miOOrxBSDiiZAETMREtXT//j3r/Morr8Is0IgFz+x4Hvc9OqKsSqok0ADXJvQVEAbMAvFjClNEvB8d0xhAiA5JhPAfzFk8EneyC+rxRTNPUbe6AnlrE3SDyg/DEoypcSfyExJRLBaRy5cQ3dKJClY+yFdg68gHk0G8XuPSm45itulyEtzT33MKAp7CTSNQizEn4hK4+3nrF+vmJ1ur/+eI28/YxcCUGLcz4XDRPj3lz6yNLaSE8D3YbGkJYLyMdAkNSTpYLS2pPiyc737EfHI/IsT7jubErKnU1JPuSV3dN2NwLTW6x3lz6d/jVi8jIvBbIpMhgNISqDeFQ7IoQTyyugMqD+TDiSbGnhSnaY9iXWKZ0nJkX3ymm88FzRhb2iA8jJX3XhvtDkj0nQxuikHUAxyCL7CJ2BYQiM/+zre+zRZl3fwKr8nc4fRiVLGNaID6wjqnPXMMaA65Ah9hZ+XELObZmXVrpl5k9TSLU28kMTJLn+1R/OI7jg19r9XGJxtFKS2++Ll3Br3N5u6aCuMwttClTnP/uNcmlUtNA06wp5cuX79w4Wah3Dg6z+0c9Jr9wU7raKt5ZKw7vUFbnpjh0W5oVgesPzR7AWwhIcfl/VbE36T8ELzcDvW92Cz1pYRT9qbGK86WkTsWVjqIOJkBRmFsCMdOioFz8zwbO40EtpOl8ZG8s2aLQQi2LHBKrPn5uHpU05O1qQnTjCC8xtbW5sExH8XhrrQJ/d6E4mFE7Pc/fE9qV/F3so8On7eiCDC2Z0jYH4ZP8XEZT8r12alHjzbvf+u2nE1SecD4eObjHOHTeRkt1ieqM0Wnl/YtZksQYhqM+IqeCDYINZzLp2evXLmBDMLLOGJ7TJ/50aOHP/zkNmz+VIHp0XP1Nczx/sbq5tZmIeJJC9j2U2k54lDwpBjg7ujDulk9vsRBhicbXSWXpTN6LTwKhACI0LBgix1z11GHF2VpcELvLXSvQ4idmZlfunxzfunK1s7+97//Aboljy0P/2J5Zn93E9mTzEnkobzot+9u3ng9f+PW59bWVt1HSIQgg9vQR4U8NHz37t0f/OD7l66+ygfzbLi8s3eyve2wnq+stRzN6ZlCtdo7O6ufnm6trZ2USqebWxtvvjnNzG1gqm3s7DTPh3bjIJ8f1ytKLJ9F9VeBkDQb5SLndVrSmakJjeE3n46IXPuqZmHUeKf7dTBObXAkObfsSf02oyW0XBhIRcn4XVZosZbP165dmR++lv+lf/lXtlfXHj54zJHk6bNVmlVOnAuL07LDgH+GL//AEp87FWbk9EVKHNhaJc+39qApa/8RD1iRMPK/QEomEClqHFXRMlHEhqklbBZ2kNByRBZT4qfaUCjcSJ5fyfU21CHAX1GC3DhdttLXgOaYUIEc9nGG4igkIGY+smuKXtRFgMCFmm/u7EYFgl5IeGwuXNaAnC2IhDukq3RgMtQTixtnPuFhIpCfoLnALIla+LSFQsbanQMk0nnmVrC9vekJiGN+Zt6stNGJB32CLTsUX+JIJlKSkF4gk/AbRGN8jVs+gsP0zRszUhSi0/OTn25Ey6x/baLP6DVIVvanFyUFQYCvn0C+/FjBxieCFQ/HFYKUMTtrXAhBefBtYXBCD7xdjwYS//wZX5CvIIKM2sKH462YdyPF23rMTF1pVtEUsqB4jB/T5ac0ssD72QUZxVADKwVZxUzhMUwtJ2DF+XNL8GBBDo0g+dR4jo3B4y1cesBvGWP4TvZgIsgiKC4OXeO0PkE2tIQjECSozKsAJK+8MfSLGBwmTd7ewaw46/zFZTyDStjJiY0eDNIcHVKrxvLqzaet91SaprsxoewynhdfDTwWzKdnjZm9lJbAdzJfzDTFXzMaAutwmHS6AvWQOCNmz7hsiQx+rHP1yQZ+KIl6KlBGtOnm1jpbtzehfmAd3FNMsOFHvYazY2wdFTSLs0F6kUGGbpAlMOAoLT7KEYMGZcGWsy7VSqWhQe7ihbnJ2kKlKIUOvg2fF3Xg5GEqlwp7raYaksetLugQF6JMLc3oSK6jqG6LIjBfinq64+XiZG1CeaOSRIMjR1z/zscmp2Y2draDFyMBp39BrSMffPCRoM2+sw8qdlsq10YiNZ8iyJB50gSGwSLZLcFw2B0joSIoAUHBnFno4JZoTQlnGJXcgLMrgfgUu5wvV0u//Kl3VAGLmfDxGQpnXfvf2eeTxR10SppbAUIyqHf2j3a3njTqU+KLiIv4SetKocguE5sh1fpgaH+3+3R9d2Wnk4xxhfN8WTSx0ks6NwqH7Uix5RQ1xRIBzEwVvuXyfvXSRQo/28cnaWNnl0wQQIj4HEZCBMZRyIt8zK99cnpiTXlNwmkxN3/jcgqoOGDjonW1HNIZwJ5hh3Z6q5OmgzcPTe/QKAwttb5lVBg5Vjg7XsHGaRHAKPJqbLzC3yI0jXstfmuvvnFxcnZpemb+T/7km2pZvXLztXJtSkZ5e9o7GUPPaItOhyvmttfc+Wd/8N3hkckbr9wcHI31D88HTHZc5igqlN4sSeM08t0fffSLf+4v2HHxC6O5yeFRGt44nbaSB0qrVSI/1eqiyrZkGjD1UukKtGsREvqkTY1FkblT6tjW/rYanw59tTiGNPLZRbAX5+YwminZrJQvDa69Q+cF6dM++PCHV64uFmcn+VZDDcc8H/menJxL8Y7rQzwgDvnfR0abhWKjXJvYXf+kXC1/6rPXmDkvXZn56s9/jli8vrn79NlKWXYwOYX39/CUrK2ONrqj5jKskxfwK881b/GzI4ZvGeBbB6LUzZ5ClJM5pUYwvpwVugDlLHwFYY+jgbQavVqpgWKhXkPkt9DNHtlxfJX5+jMOJkLHTSiQF0+m0GSINrN1VMpQwmR9kkk97OUQ7shIvV4NQIp3ceiDQ+QRLjtN9PixmHqEa1yx5T91+c1N5weiyfCXAamzd/XiBRHlEB84Z2nA7SpHBGNqmXWV9eG7y/fnuMN3qCu7+5Of0jfMBl70xauzJv7y9vR4dPJyeN6SjUqzTLpCQTMKF+QxKFwQPMg2xhNOCEEWfY+u0v8tRAwqzfqn3+VBawAhxAkxnJDyEFknJPh0krjV1L9BvSCjQWytb7oZ94OKDId3QPY6t+yrV7BA2AAvd7mRBhDlqey3RQ5+OeQnbjMnmA7cnMeBO2CBYtMjTnIQE3QF1qb3xD7QD8BcGtgUYCFco3IcYRNAkEDtpeAM0eDRbqc4DRqnlvLhIsE5mvBy6cq1qzC+MvPcsW5/9DGdGEQp4WwxHJViXkZlCtlcfKIGBpOt2MvPmGP8izW3EUGoYq5BgE1EM1/chJrNdMDJxyWrXTKFeha+C+82xgMnKZejJ8dDvf76677zcnT+v/P979EBmot5mTsKmM/PVoT+12polc7tQIwhnQp/RvariO0zpLQvwYXDfiE2kyNxrpVyfmt19zd/4zda+zI4SA9b3eluJe8sBfByag4Wc+OrD5/trAnL7E/EGaQUGWsfDR0O5WqzC73z8cN8fazcoOcYPW6GXCVXwKncs+qAxDmybobhCkAK2BedS+vGoCwD21E9P8xFmMWi39luSkjKc5eTYBie6TLtOibmtFyRWAEYsHiPVeps1qOKIbW6fYqg0mhR/Fef9yBSMXwudypT0GihLBdJWfm+0aHt7R31tlgB5DhWqGR8tDR8lqfSnF+8uDB96cHjJwf70vSKguHWW0USRKicDecwbydnxbWtre/98AGeeHJ6Ep5Ryx3REmYrN5mZRQRjZIHCB50Wx4SE5hYuzoMfojAXTnhW2RfWLIUzmGLCKz8QK1gMBgXPRLcjY6FMFlzP+CKNlfKTVeWKjiVHUmsyNO3YnTzh6WzQD8t/KV88H84jew5uoOSwBYQyXJAiizx1SWhcw3Zlux3QAAAJnSlfeu3W4yfrjET2YnH5IlrFuhZO/OdnM/PzPEOJ2aLp6B+4s8sZLisSQ93VVxZv3/6k1f7df/ev3ZyoBcMXPrUqsAzkCBkeHxo96MrDj0rKcJQr1SbHi9vHZzuUU0aNF2l15N4s9A7Hjk/LZ0MVFFGq2OOzwoDrBwE8xjI8OGT1Yb86nZ6aO20Sr7cAxsGoWO+TsdGeNIqrU3StMnxSTqi5KjqgFusmYVHlbH5pKuHCEEigodOzPomdAwQbBdUwv64eB8VhYmX7fHu9VC+1H7VV72ajKamNUijwFK1XKzevXaWU5mIomfXaxtbjp09W1tYGESl4JoWmnOvwpZeXJ+qkxtbBLlGDUsDaSufrgDhqXknVR9nHB4iEDSE47gAe2pFxRpwWOKfdNae+SlUSdrEES56ZKhBBaI5i5AzHukGuYliF7iR6xpEQ7u0KGFZI7XxkenomeN3kOg5VRwS8Wlz93n5zF2p8Tq68FUdsQDbe4jpvQdiC1wsclOlq/AlHyO129dpFtUezR+AmZaEBZfCyz+nT83Mbw0pckN6Aru/QLUdc2BYug5ICfydMxwoQv6InoWSIK/7+yRUdGp4byIYrw5uwAUzlu4EZuS+ZJkbjuEeOMlMrHkmtY6UJD5Ri3kskNST9SJftWTysz8Bx0XPIT74hENkXDElozMgu3T7eUq/Il+noAdpViYBQj6l3eNwMlBqL56cgokinPh10ZMzwrBLMK9ulkhXoTSgN3QkPb5GzkeJHmBT7TzYjfdJ2xFN2IW0JXjM2SD0l5aDGB0N8PHmOnUe9hKdrq8PDGzpv9Tp8GEj0WDY8uX/qcdg1HVCd81/m/icmhCDy448/ksmmMaVE30ylUecWctDt0NNqCQNka2/wVia9HLFMS++WC2lOl2/+a6FxxoAPay8VqRW3Mlbe7CAiIletrIbNMAc2kD3eiDV3xYGUumZ7W9gQWCcXcmg2SLoYkIArlzLOU3FI5LEO0DhGgOEyb0HJQIIUbWAOGSIxUwt7IZZDgB1WkdYkmBUYRaE1SgYcOh/SbpuPx7Url69fvqDWE70577yJRm1Y4j2XJCCiQXORTW5cns2zbVid9arVPxwtqRElQnbm2997/7wyPVrsKTbRmJznN9FToyE3/ujpM8hXUQsbThHVuDAJn0Cvie+xpGRWUxCUA4odKbUjhqQxknP6nLx7rOAWKIN3wn9AQWaTIpqF6j8/LlFCu99xX9lHqEPEf1cd2PrU/MXLc/OLxZnp5upjBHFrrzXoHDjWmAJlYXXV3m8ddZQ4niiO11s7g1phdnDwDJaWQ7QxO/XJnfvTi5f4vnF5X3+2trm39v7HTzp9nOwI3p34RRXjfzzk5krTFspGODdAWz2tKzida9eghb2DPfan23fvBK4hPeOgVaetEvUgctg4FI35Ujijbjd36dg6hx0+lAExjLCsfkHmub2Q4uPgwXT4Kbqqqck5uxwBjnQlYdGSLDe0XkAAJqVh42BGh8bgFF79h8LXeGwzyOdlOVK4Gprunx4qVw3AZJOS4u73fu+fiOsCkyJ7hPCRLQUL7OwejEXyuvGDTl9c3fzSJeXY/19/9+/95b/0m3gHhFHEEuUq+438SVMz047M1s5mvdGwS6xVNJMn4acthlLaMvW61i9c/BnBUpgSP8JvO7v7b7zx2je++SdSGloBNX1U5+HKMTl7+XS41D8qSFRBECgVsTKC5fsWRwDTyuMDyXILldrTtQ6IkppmavK81dlb/M1fZ1g9Hpwyt4pucES5JvJ+lBMkyusImCjQuYVHUmu16ZR02ypSPiE412sS/YUKV+orruJXFxduXb3mVOyJ197e2u8cfPfj79x5cA8NlL6Pco//Yb5YnZmfFddx6FyPjUhaa+WhSjhO8PrOli1z3MM2waHGqd9pRQ5G9khHWLqsYE+Zco/kMGSGiGYwIc/jiCBUBWGMPBi6bjpZSGZnfXt1dWVpfsmuIVegqLm7C8ZYDpKXPX59pMr/i3G9XLGMSVWa+NPAQv9j9tmbAs/TICZ2nqsAoZWa0rkxSuI2RCN+EPpwMjM/A524AKRLf76bqm5fojrfsysjMM9/CGVY0AdUwku9DtJ250Xb+DXQVghMqWV6RZCrwFIuoK0Le+hdOGnYNgQsNxN/4Onnl4dT+5ipDhEYn9mVhhoDdmWtnRkkmBxMVMMAByoM7jkT3yx60CVnAAUMU2nqEHrXRXpF9B+H0pImCpRcj86oY5E+z8Jbdtdv6YkzptdiX7LnSDGZKC8kG5xEbHnSVXq1IXgQuZJbC0K3HKFalgUnmPzD+fnFyEc+LolnOEDPzs/rSqa4Rqn481//BTNVco0a9Cs/97Mcjt/70Y+u3byhwcbWJv2b2MCpmUnow3Ri18KO9pN1fv79+dr46/llaoZjmr4ANJIIZ9bQn6RCjkkhSWaImoHd1oG16vX5HrYU4/EWW0k7ZACm5Dvi5DuikZ+dRXDc4olsiVAvJy1Ghdok0YnyxOs0TvgLx5spq6FWfAhjTGwET6uAFB4JgRjpPyD/YFD8YvmuXFlWToJv3Nlhkz1AziI+TSLZseHCHske+ZH8/Pyl0ZE6jUXrMH9GsSR86nTkaEhmmMmtjhrqim5VRL0KJlMzifu4I7CzvyPnN/BI0BhknpI5af/DOwZYHJLEzsYZjs0PZwr7BycTeP0cBwlas0Mgu7o8smDPsRPx2u1Kry3APBDreLG8s99Tqb3bOv7RP/mjz37hy5N7klDQCc5IZhHBpJKjhLAqdQUxo0O/KcFAf5j4fkJTNNm4sL67OT3d2D3olidmZ5YuPlndW3sqbqf/8NnWhUtXVdQlu5CIyB9WHiMs+cWFhUVSMfp/6crVazduyOu4s7cHbFY+Wu+i/+02Mzj6FHxpgOf5/nbL2GMv6HYEbxfD9CEhA14qYncIpTTcyC8dLMxAk8GUowmwC/udkoTBUIrz4b2O87DBAfDP+d5giFPPgQ06nYBz44nZFQof/vgjGoKJiSkAYDvQhh9+77t46+//4D1ETQZCA8B2e1yH2Bia6z4Er1aYAoj58qDVCiPBCAfr02BPcyNxGE86mAYpX0k7fjxod5aXLnKzGxp6zNuu3e5TfaMbzDGHSLwyhpXi8C6+LnSYfMc7/S52kI3LEbO7tGoErU6fspCz3mynr7hiB30mZOfLZeC/2Tyaml7c2Nve2ns4u8BUA2UXN3Zb46Xt+4+fcmuUvT0BA73P2QFPUYeP8TIvK//R2s4zFUty+bI0oOY+MiZePmfMA1wwbyx5lVrITCirkZO64lQSR1avDc4Hi1dm9zv7inTdv//gycMnJFm+DxvPnvLQYyKoVyJVG34ZPKHTNhiEJywUSCA7++74AkIgGVpA608Uo+CU7T+MAXEQApmE6IWQ5sdZrFlNZGDBre7v7MJg6tokBjSsToq42f+UbO4Itxfxod4YHYZfYuBEL3h56T3AIzBRYHbjgBm18cxzwWdomJsQ1ndsdJf3Mx1FOLM6zSlwxOMezJ4l3/gzpLSAuERYUlfZGyFi/fseV8gkIc+4QLIbXpd+iA/NXnZr/tEImrQE2cIlbJ41jtcFVbMrQbE8Fy1T4+iEoQPdgTm8IXR3Wcc8UuIxz2adRM/pSiKEnEznuF/4JfvVsid5yRplDWOcWUc+PRpSbJzG4CkiGgeqgrnBVYovtmfpRYHoQ79yPlqQaTr8JM+7JAdsUowmBpChY989Hp4kaVSCYtQrs1b2MfpJ5BPqk/hSNlgWKTcZaDkpiA3UZyjFywUqI2yXUfjz1muvrq9tEt6lcldKQ5YV+f5xncHZIwMR9xPvSoOMeWWziy8v9sqdP3XZLIyvV3CgMkElRjUwBQsgjwGyxCAROIvnb1KBQi7kHhk1vQWIj/VGscAp1WHx+is3CLtOOABNNX6OjNP6WCkLgru2FQYThbBpa4C9fQwKFVQ/EXA5jcLhyneUCdKPDTFyqTFOBh4rjJxcv3pJnBXJcyAD4BgvIXqzQ68XLr21uSkzabVYn6zNLCxcbrYOZ07KZ8V+63iEtu8kV2nMXnzaeUo/JJVMt3MoL1+1Ninc1Vn6zne+ZT/YCiMLU5AsQwjZnuMLXp6ESBM7PNQQKhbbFiaqiL+CEYL0RgVkCdNJCFz10H5Cq0jUyOvPMAZmu5Q+Q0NPnm0sXbyxutniJnXv8e79Z7/75jtvv/Pum+zkPPL6p63W1po8D1wjt7ZbpbGqZC+Y+gT/5dmZuRvX6itbf3QmDJo1c2xka6enq2cbO6KsSOyPn27Ta0WaqFzu6tXlz3zmMwtz8+g39+O5uQV+Xzt7zbsP7j/+0fdonkVchdxq100zNFLkn8BHAHNGYdyUvYJqCxMjQYd0UhTdA+iZ7Y7vj62K8xWmKtKmzYuzEBqLsHD4HrsJJVD5Bf8R9kd3wI+vzhECb6vpDN3hedjqBAXa3tj0T/VeXgnIjAyTfPy+991vr61v3nrj7atXLls9uEy3Gg9OGS3PpTMkdgfoJHsHOOwzdjx5Qi+SDjigK4hzA2gIqZzjvNh297qv3ZpaXLj4/siHEn/gFulrpAc2ZOHc7c4ulbaMQAAV1Kn6sd/cnp0N4kGwUCgDV4MbaPf7DmxtcopTL2Sp/AfrHEbzoLcj70dFTZvxyt7u/nAxUqZh6kin+wfH9x9tiAco5kRzs54J3Qtrrt/hKNr+Dz96+I9/70/oIflAEic+/uj2pUuXbly7ySzE4lspVenYQRk9h7ru1kde3MzJRabIK69emz2aubRw8d3X32ruNO/cv/feez++d//hRK06GeWM9+EN5IoWmqK/uX/AqqYrx47Ego9xsqyjocJKbFmAme2KJB3qqfAhCpcxS8kzlvmLzsM/MAPRQTtU734i9BqS3yhwQuZgS7MceWFnoW/AloY/s3y7hMiflq7s3MsLNIXiMl3ZTXsQT56fyKCDqbG78sypPmAJCFrYlkiLkC7IK/jZhMRfdpihO8M0TzezXwFKNAgMHXxVQKQrQDmoUXZFg3gi49cCmLNfU6v40Ff8HGAXuhTYK4SQIFaB137SSYJLiM4Kuu1Bw/RGY9A8dRCNsx7jM10Awkzx4GzLgcK9Ax70vEMcjl5oD/6cIwuFvM06xFfSaThUCKX+I4kJVM4m4aik12UvSj0lGhagYAxG5UDLHuBfeNB6qoChtndcOfWA7CY7VppOEKqMh8gGbAuo9SAUN4sFusYKR6bVlXWy78z0XFVy8WSl1Cd++e4nd1aerYXqS4m6A9FyNQwXJOtFCJXjSUOqW2+wAD4NLHBEUOnnexovTWvuZjYdbIPO/Wmt8JsBgHGF3w11gjaAOP5O0e3+1FIn0STxZfp3xSE361KRSoDPIo7bmnL+xhSHZOlYhINoPEYN6MGsh+hKj0HVw/yDgFGrxUbS6Edj1GJMdAPKQQjhUFAtSh830W7t9STz6eyNC1nGax8J8IxYUUFSZ0Py2skauP6d795tsxEMFY+Gyyfj1SOZq3oierjeDVS+HK85+QNqwwQGzhu9ZfBDwSd5PZwa4zIOpEnQI5CT7S3sf5TfmDfrapkwNdgkBvvAzaZEnDhTFijsYWGDk18jn69MTvJRPpDq7WxsenHxZLhy5cZVaYY+frC/u9f69vfufuv7dyYmq6/cuPjOa9ejXuT6s72NzQgdtUTkNrltR85IWgsXzmfmrszNrzQ7+42Fxc3dgx+/99HRcGF9q90/6RZqkxcuLUuFwHIwMdG4vHxR5V2+J6Rh5SpU9Pjggw+frDzrS/HESq/2CmU+teY4O1DkfQAlih7xRTZqIhevB5OPTY3jFjp/C8INDkoyzfB1ckcsXYr4AbGgyZYi3CEr0NdxfTkKzhKeI3lBf3Yw8ktoZ1+PD3Hu+HTdCv3EMf/gRz/kR+oIhPPY+ZnjQG/hO97o4qUrkvjVpItNfkMJYgPP0ohAZkDOySJbgx1Ai+cAqKHezZ0po4udZFs0TVCtwlm7ddg6kJazsHzhKi3c5mDHeeJI44ojrnhG62Bxft5ZYjJIdKhP2XDr5nUwEApg2Hps3ALi3uSDBdJBMMrVA5n+yWVHXf4aBAWR3QsXFifnC0ISkN5u52xsEpEubm62JRoLgxHA5uaWG99WlHWoU64zpOXQufsPCKYHZ8PirU83tgcPH3/w9/7eBzyslhZKVy9dxiBakIkJ2blmJqYatVrVEKV+Z/kgNsCAMBU/mNduLly/fO1Tb35a/pFvfPPbD589ubiw9GR9rVitAGHbFW7rvUGhQGNBwD1vNbtWDKGyvBYzwthxXilKJ7aO1MBlhvWMr0Z4Xz3Xi2AWnVigBXogTJtFQ+h8B/YfxRYMBDLzuyFXGZiV1CVhq1FrOE/PhQYtvdIVByxhk+df4tgFU2M0xqFBFKFJ4rZdl+gwHC47/aCN4fEV+pbUQeCj6C5dvrt0Gx2nFm5nN0NaSm0CM2oTW0vRnzV9MaQwxEar1Evc9EV7KivngMu+P6GDON/ppdFV/AkFhFQXAmVo8YKwZZdh+OcO8SbwSnoKtsneCu/Gs+muYxaiWAwtLt16uwYMTqlAXOQHszhWxra5vFHgrj/d1BstjmMQlN+Q0qZqa1chKb9i9PATAhyCgrojY2ZS42vsNfwugkZ4HZgyzRB/HPQwREPMYUkKpUOshgN/+fJVe8EXZ2ysrWceogm38yQMn3Uzl9vi3ta2rEtepJ/dnZ1QnB1DCmcinDjL2mAtg8K82P+MJJi18aTZ/+TDS70l+9tMISzfMzYq5pvoHGSTgY3GrgCeaBKmC3wPgGKxt7AWTf/e5UHGBodKanY6TFsIJ7IBsG/HBgTGf7mB8WZLjTKhZbG55BeaI05OCYQiisMSpZ0PnG3HSI2a5EanpuriUc5UrR05lm5TFEq1XMeB4pThWKnVK8XB/nZ7bzdSlve4BRbyZ2Ol49HC4fA43fvQePnK9VuY6kZ9wtnBvW6sb6oh2Go1Q5qK4DbAZjUiFidBTfggGV5AYmi0QnXMJz9oSHA6cC/mMXPiGUHPyF78iY1XLIBcQxG+yPJXnxqvjuVLDeSzWJwYktb6eOSrX2/8nf/2t5v7/Z1Wc2T14MM7KzDa4lR5evba9lZ7LD+s2LGkpAxrFEFbB3uPn21UJi9fv/Xut97/9u2PNxh57q3sXbtx/eq1N2sI+AxvjMsLcpUvLEAuqtfeuXPnwx9/8Gz12V6b/lGClREu541cWfIP564yVrBHajCGTRB6cBZDVw18YnNxRSXZKcpWN6Rhm0WhhALZxQyo8CK4Dntl2dH7YO7Q8aMztJCrPbkHfNmO0A5CWLYTP+vERKh/cIIJRuOtvDZ/+N77GiNgN2+9Bsn2Dg4Em2tD3cdkuTQxJQErJobcGh6O4ZaNndFpHHccCm2lyynG0nF6PFKvktWlWHb0qPAifOV07PGjJ3/0B9+SAaTT7Pc7x3Ozi9PT8x9/8DGGcqAMR/AjwW9IiZRfFnpbVQA+GKyzke2N3Qtzy0OnY+xsVkYWCYYbnuOmDvOgRpIOkTZ2tnaNXAiHpHqdlV6r08F6DucK5Dqugfwa2q2hza3O+vrB1M1F9JrlGeg4y+1OzzHPi/gdF58QkmO7c07nN16ea3W2TkQxnQx9dFdS7I8DItHfEXhgSA2tGaHgFxYuXrrAZnz63vGrr96ampzcXW1u12p8Z64uXRm9On7rxqsPnjz+4+98SwIuDh6hOSgWmwJOkupVFLNl5xYIjOVccuSzw+6YoxRg2nEOD9kwdhYhOgQCGCDVfsS9gZDT465l0Iy+cWpyyuPmoj1Isde8H4N9jDt0yDym84QBOC+QiyvO/wsE5DuoAh2+BK5OV6CcdIXFNYKx0CdvpXgOYcIdj/g9+x6cptMYWCloiUuDdEEhQWNcz++9+Emb5y/QTbw0/tIsuoWYk3LM9xhXGqdfPWEPADauVttYoCDXeg+89vxxreOHQMWgOxllYjzZpU02O6uckStPx8uypW/r2pAAAQAASURBVHASh9grsJFgPNmuYuSWlNI19LBeh/uzIKXiGf6FhgogJv7RmeWfFqx9DNkgIV/5cJP4mL3Rrzphi2dDCYLGr+u8wNTWl/U9TPDnTIPOajgyxTCcLx5vkVDKSDAd+JFAbv5PTzIyIteDSERRGrIyIwBXL19lHHYat3c2L9Dk1CIHxCcjo2qegpvm9r4IQDZ8Xs4VJrO2ZBbUBIUuXVCsdww4m+fLT/eAQlrzbOXiM63w8y/+Y3a6iZYJfnyaKQDI5utLprazflljQBzuJOlBbkKsNJA5jo9nkmdkS0uOYYH3g+WIXQn3cr2JPoJfkHMzhW6M1rD1xuFWs8BshhDsiPs0RwHb1g+XMDp0XOdrfHaEPYyaOqxXvXCqTeQYLoz5Mb8XSkPjXY+Q9rBC4/I9iLvifECbiMTXKwWBo7gUDKm6t8aAb8OYd7pNcGgFPQkC/T+YIpsXqiEDsjDq0oYDF9gZHi7QPQXqhVZ5+tlZmk4bH+ZrBxuNGzs5HN1vd/d7wwtDjbml5Up1ZrggYhrvkyfMV2qLY7mJphLSuZne8cCifvfHj3ZXtn/28xcvTE5L782ofyg7+9FpWSKESp129aDbn5he4ir87W99Y7xU/cy7X3z17bfnlpdnFpc6tLW5vNymf/iHf8xbQSExqlFwJd+gMi67B9vSKhEL2ajUkQrzm7qFXDGCGQO/wUo4ChbBoQBIsY48ASIQPkiKiy3KOlsSvEUo1+j+NYqtkQPJnoZDv0wEKDvFNnsVoAaDxE6bCc0i9wJK7YYDETIQ2W50zOeTBw8dNFv/pa/8nC88tuGB8Kyh8ZPla2gEDyfnS6vVBn4Go2VCQIEWvdGOWHDbx+yKx19aWJiYmoLDHDV7Vy3xGRna2d37+MOPP/jxh2YRVthul83/8vKFP2GLGh8R2Us4gVQNWPkpKTBo3nbP99S6RJlb+x01w7y6oFxWcGXnhZJiLXJABxjb9DGVCGo1X+Af0gYqdfnKtfX1VUXTFhYWZQPUmxQk7c7h/u7gx+/fee3asiwnAuE67bZswJ32oNvqng3Jc1hu1IsH7SBQFLyzixdGSyfHzU169XC3HMnt7PVSPaUhXui7nc7j1c7oR48bDXWwawrlPHuoMuoyN3zuuBvPNq0w7MFFa7Ix8xd//V+dnf/m45XVZ+ura5ub/aO+xbWPVsNo2RmReVo9mylxhJvOFOwUBy4JGObuuwYEKZl1KSGsNlSCQRxjmOSOX21MMFs1GsGaJQmaHzUr5+HIsQSegTxyQ1IJwuj05Lp6Tq7icL24fHfBz/GyRDMCFxSLzplt1o1foULESMxaQkcBcKGLT/KcbgJeA1sB4z9NrtwPgcrrEk4MqpiRoIzIJPOduerWfZf2YeNJ5AqEAdz4I61F9iI4NhkLEu8aE/Zykmmk0gquWxepfRoPB76M+vorLr/Ep3OD8KUxhyrHkELMM42YiClnfcSNJHT5AtB9xJsSw4gGeAaugmfMnCwbj0fP8QqQ67vjpSunHGtJT26E8DdN/Pg5NjoMR4w/RC/ji9ecnQsgjOmrvR2qUiPCFpzLpKKmXpAraVIJc8nn4vxIuZ3e7OQ83N2V6a7bh1Sw7XLStJpt3OLmetsAJLfd3dwCXh9/+GHE2Sb/Odiat3FD/dBCcRPxgHtiHWL62axffqI8bv7zl0lBTu57EM2GRDwCWnBhbtqybJHdtBPaMFdwrEd0tYHKLQjDOADjW+XQvv/++xxtsTlQmWeVoE08Q2jCrQkDkvTe3X4XigfvMCAdt37x9Uwu+uSKFFpTQII5Qd+DnwFpgR9TcsLzqek66Ihg8VM5lprylR628MJj/FM6XV0f8b0To1pv5Hf2olLn4KxwpEyGdGpUTxjHQXuv1QuNU75JH8xzy4zEkVy5fGF/P+0yEH2+RlYyQAjdJIHE7KN4R09dYomuufcfhptiOBaADuxJYL2AHcxVaNvUAkzqYwphEQrl06FqCyc9WuJGQ3F1wCOxKxH7wkTr7FmzV56YKebPLixOXL3Yerb2oL1/sDg9MS4lroRIysjbykIRQVIYUKmTxYWbs5N35y9eeOdnPiv+uN8/lb/n6QYrTxT4ADMnh0EMSPghu44Vn6zfEawJlZweMwFEfgL6TGKs1BVEFntEbMYwyq5TQGyiklbfsbfTwVKIuSYwya6RywvLQt6gaRgf9EVyOglOnidGQz3GEW6xSccVpALNLujCkoB858WWAX7kird+2LRGc2yu/LDdBDw8k7VUNlf1QkClwSF6fnRYo/kNitV2Fqwzkmk7uJ9h8ghGVhOZ5aHDqeTihQuvuG7cFBbWlaZr+JDD4dBIWR3ee/fvqyZFfJqdCR2y8C4mt4uXFiYaxZ0tLQMAdAjP8TLwokqpLmN6QnvYspGdrTCX8Dk32cAeomED58CXWJUzCyybzKyMTUenuISjvHRQ3HYa0GNR3NmkwL1jvnZD/N4POrc/vLf1hXeuXpiMGs6nQyrV1cpHwhboYZcWLi7NX9rceszqOVorE6yJbcWJacdEpk2+Fjm1Y0Zo18nJYM7JcpqGOhu9tfXeVGVo5cEztOf6lauIll2jz7x569b1V2/S4VyTDOLma5/+zOf+zm//XTN4trGq0DCEzJqAwCMz8AbjOqYNBToRiIssQKcvqEksDj4iaeboShjquDV6t4ERupJvQ3C09N/jIIaimBKYEZcoVpWzIweCgttVkcTrcJE/Ta5evsMXl16CBeDDJokwD8V6PUQQyDfSY+Tw/gKuiYS4FiyVdNFQVbwmtHnPMRRQDnYmXbCPZ6nrAvvEqQy06Iq7iWI5znErarrIO5ehy7Cvxs9JPehHD1EaZBJAPOtKGaUsR6ADV6heQsILVKGwEKzFZRbdCpRlXfBr+D08bODW7L1ekRBa8DvxqhfkMPXtFXGi/HN2SHEjmNCjM3ZOfHL+/Ji2C804HVh3r5RWQiDb8XglZCraasNJWS2C94w5CNiUaUIAlslJiJ3Z2MO9nmAXGUZOaIEGh3gEVrfIVdJtM+eRqFTeCRFDkgrHiCqgLN2x4AV5bqPgi/ERkznYbKxsMGhubW1z8wP65g/9VeuVe5+8j7DyDpdi2cmBaxR6kxtHyG230zLE5u7O8sUl0Ydy4tFohQQavAQsatkQ8lhm2+BFP31lC+hO0GkzTBrjMNNI/KYIb3FccIj9xwcHa2EjQkK1hErn9cpKSxEihfhLrgBsKhVrtc2B9bhKTuc9DGygGzBNinGQ7EIQfi9xftn4wsbbk6PSfgE24JepdAi9w6f0d+Q8v0RNHb7SZoLm84uWc104R62M+1DV3JtDNpV35lDqrlDn0AINq52RAt5UJxk9G0MqcoMjZd+HuyenEkV0BufdkxM+ZmJjK+WKI7q5uW8LnItwHghRO6Rt254YlJQXMaAMy4R9UW08x0e8WhhDLUMD5hkAm1xvQgILZ6M8NpRTtf1Xz2F0vDw/t1SZnC9VoPoJFerDcHE6znDMjoKZxQ5fv14+XtvdY4Ocnf3Upz/T33/26O7HS1PzTGMb2weq7lanxI6dr+/vtbvNsfze4vW3X3/zM882Wisba//s9/94t9c6YTkdG6pONMisDizTkOPLHa51PNiUV2h/ZXJGEELMkdBr2Owfgff5rNKkmXC4cSpmGYyOIr6OXjgvK3JdrgZgZIXP2ViOOgw50IhXcA0gN9txTJ5qg+Euo3BvodwelfZJkhC0CrQwXQAWy8KbQcR5+PIBwTAXHZ7fvvsxgG9MTS7NL8wtLqCFzjvSCBLAIUiLI50YX4vvjXia5GnWAVc05+4YpqQP3sIl4Utf+pI6W8aC3YFJPCLOyBdnQe6JV25cl6vDMP7r//r/hpoK8oQKFAsABqvPHhlhkL3ExWL8dBtsfSSQDLxhYNC6lyYCk7g94MuiEqErCJizLwN1SYImhJvLj2PCDapUK6EZqK+xcf5Bz86OxoRWw/QPn2xcvrjATMYYZIT0vCK5HA0ltg2p1/nkiJ+hpTg+ZWQKDkwcPaABUkK8odURfINTFPgxRKBQ+xA6R3KNCU0+uff0zv1VaR+oGxaWv335ypWlyxcuXbv7uS98Xvz1X/wLv/mP/7//xEzL1SLzZLPTPM+dlavBotAxML45iafhJ5kMWLDhuSNkY6OaDA9Ob0PJnDiOcTBtqBEiJWGUWm4OHzAeV+VbGRlnvocuHQ85BcSEySpiH0eGxh1lrgG+h2ETZzc8iH2FCGybRY/enOt8aNhtAssHJbcFypAUIQD0hlASMw7y6A41KPkA8onzCsBh0hOlR2WxBn0hZ1Bc6S5Obzichworvvt/yBbBnBuN/kNx5+zGIcd7Mjc4PoGt/R/TFzgo2UqAZoJIcXaIQ6TwxYxJQJUeDCTh7AT4en1uPFytRvj8FwU3wDJR+o7SJg5DXIGf+RrkQpoE9EZh8N6efnRohhyzw65YzWYN/ZeOY9CeKOWrND8ngwtTIjNOW8Kmun2TFiqjRoeM2Y53KHeiwLODNx50lmVFvwLohk7bzQMp4MQ6LM80FiqVicJoLRZulF2lTObF+fd6nmgdHW+3emvN9nqrs9Ppi/HqQBKtc1WF7DpnpMCDw6Pts+5HH3wckaE8lMjbytIgEIjD+dDm+kpYi0aHtkIjTHcsik/B+YK8JFAuvIPpgOzpBkknImRRQZ8AGpBJgMnu7BXkmH6EQD1fEyBhc8zEJqW40fBys+CwkIzaFjnCPrptd6IZRUDIQVYNr8YPIdA5H198caRRDzHinIYF7JU5hszNMVbbcJBWGs9XLyyR1SoVcVrPkymUynma80GPL1/SxwpXStKbVJaIhUzgdpnGDHGL/PsK7wWhFYV6GGGIrY2vffFnyiXfBdAqsTYxdppD6UfqFEeHQmqZt3rdkc0t7sp77cFJeXrh0JOF/LFjoGwkGnIyVjk95wxbLBn5WKlashSqtyxfuFCdmj5+ulKuzUg1p6pCJO45UbCB/SoUldx1KBnpAdk+iqWRAjQl/DfCaMTWRG3o4z59UTk3XgN9PVojWqLG9MLipWpttlydZlERIjlyHt1Gh3QpVjZ0myfCNO3ig63Nmxdm8kNjq9vUUEqeT6LVvASqtYmj49wjlWa3D9a2u+PFzqtr69eHqzdvvvbJ4wd7rYPV5sZ5bnhidnJw2N3dWrWnuFK2k25PQFYlN8G/mhySky8fdhAhRDkAtChATdwBoRpKLuzwSRwWxJFqC7cSCDrgEyTKAN6CUtiTSGIBECmjSu20DtVA0L1Wk/BEQhLEgD0/zVOa8fYX2NByeJHCUB7KNObMM8UPF4ZPc9ubmxuragHXL124xC/TmVdGI8ych4ehKmRrZEj23WSS0gJaaffajpcOHXCQ74wY7fXr1995550333wTgQHtyAtghuBEHcldDDEiq/zX52drGCN83qfeeeeb3/xG+KMOn2Mj5ucuvndKQziMo9I1gqB//v06dALUgYeDyKKQbV/xHlmXqpFdutc9yOer0o9EAF5ePHgw1nhK+gYH9/7DB5x3yLgWMJyhDjrvfOrTEFW1NHr39ni3tfoH3/7RV7/2lcmFQr+5cXbY5TDQqBb2dlbPR4pvvnH19/7wWzRf0xONu49WDrgBj490QprNMGswT0ofwrdGGoVn2KoLI8WC6MzhrRZGZJiIic5NjtdFvNx+tH1/ZXf8e+8LXPvhe7e/+KXP/9pf+LUvfOoLr1y9+X//b/72tRtXR4+Gnj5+0ihUmKPsIwyJlktEYStJpZEMPeXzDCyK1xFprxDA6EijVFfOwE1QZM17EW5q63Z5BQ9qEsKVjWtsqHDU2UUBQktOOW9kQ0ejxdFmv2kxQ+2Y8HKQCpf5YWOyC3jhGzK0DfdlrwFVUXgwYXPLqk1wwVFtM4FjYoL1o0/A4dJDsDqIgP88f1X6M9oAErwJUhOXu/AMJjqIVUC2Nz5viRKZdwa1njBudNKFtng1ohmiQDoMUARQ8/8AVxry0P5lWpbUf1IqUmsh7+Q+08wG6Yt1iUEkIcIWPx8siD8ZcApU2zk/1aAHhtkh03qjcNrdO+qPYObVY2l3jpEzAtPpyMm5TGPDx2PhEBXJ3cQmYxC5Gew3W8iGFeNb7jdkEB3BNI7ID4IlPDsKbe7ZQBXySN82fHzQ3a9BTfnhsanSeEF4iHw5ZyfdY4gjivUx0jnFZhbciDnLSViAAsaL+dq4Mmv42jCr2N60h0Mi3C2oBcn2xBSsm8FYJUcRkNlWW2zWltGHptYQ5xg304b40xWrnH7KvgCJEGSD5GNOok93oAt39OwKliqYgGB04nl7EybGYEPcgY3m52dtkHwHGetdlaKXl9XgkOX5Av97mTELo8JRB91wdaW3XFU2t1jkY01nRZ2OWYmNSz3H7sXpCCelcQeQMjwWFunimjlQo4lCvlxUZaXZHpyF8W/Al/1QdUrROdvrzX4Hm1I9Oc2rWJ+vTZ4wjxdY98q4l1Mk61xFdJ568tFEhkGnFAdEHU/ch3BBuYwJmIQwumA02FBdwXUbVIA3Yg3EeMAc9E4UnhXUWZ2cae+F4SS8YofH2j2a/a5Us61DJQaGX3/nVZByPlySGp6XOyiibyOVkEusDr0u7BP84ulZo1p589ZrD+7d3994kh8+fP21t9nS6eUt+177cHNn5/7K+sZOf78jF+LoB/cfzE0sF4rFz3/+i3/3d34bdXm2vSqIWkAqyz9ZgUmTo9YhDefQcWWiBBONDEsHGIKIVQ20nspkGPalK5dtt5NCqUIKsQP+lF8D/QAD/oSQOT1TFvkO0ozHszoBli5/Whn3Jd3RgERgs4AiYZpQYnltnR6AVFrIM9ZZwfUSGMncMdmYXFiYB7G2Xoe6EjwH42djCIBITIzXAXhRT+6biD/BuUxJKpFy6Pm5n/0aUw1aZS7mZSR41swFA0uHrTJITDltjS9WwOscqtD7jUY+UoEBXABEIxke0dJcHAGE0HHgmIhcma17/PikNfKwtGLkUMJrLjcFX4ZZwssAayA88s6xaJNKrfqjH79vSAagW6ay7//gBzdfuc6hga3x+LT+8MmDte394Sk+ydQqYjaga5H43tyfnWnMzZRGW0P9zoEC08xv1DmiktvyccQScdECQlpiGkNLRfFMBhCFhdwGBA/nt/cRjGK41NSnUBs2mF7/8OmzDQHFv/u7/+T99z74l379z1u9n/viV3/nH/1DVPlk7vjhnQd2+Mn9x6JlbLoyY5j0fCkKiFpLy24RiBxSabO08b6lnFYtLrxJ8R+Gz5fU5OHM8+F2twV9WhDBitjo8NUntvgVdzYayVRBmv5eWFnicMVl78MGkFCMXSfNBTAlXGNAFjG7fHdl+I6aPYaXoftE8FJP0ZULskvkKLrJuvIncGYyTl0l/Bi67pheOt1hUKUrD0cjLw/1HoEEV4n8GEGI2QhQWGGjuQ0IhJpIlV2yF8aFmunbTWfCZqEpfgmnyXDA9DMKquv4F02Dx9FVeiA8lAIp49JjYDhxfmSl3FEVy4zwQL6heMiV63R9qqJHFQnZjYNiSDXB1C+6fKxqzBgXmj/IlBYebsYyIvfhLH16jM8r5cZ6rRbZZaIwPDHUqY2fFCSDlQGpt99hD7QthhTpHyU3k7QiBeJIPXk2yIPSIj0VjaSjBVZjDSk/ONk1qhOiqeiyuiddv0DS5+N09AWxVEHGCBTqe1KOhaLPFNR/6pspvSLpCmGi7IcILXw6PyQnX4Ke2jMHyxeN8WaJjscSuzQKU5upxXkNTOQCBt7uV1PwhO/Z5Y1pu2PUrlC/DQ2RyD/7uc/RXNNdOCoiVCYbNcLZ2sqqP2GuMwrRsVEea6AIT4TlBMr2bHpiklmOs74NNIFY5hxNmhFZEN5cwDeskdhYKlGsFcTlFUZltfSA6+81D6yjMoze7iw1xw6bkqTi7aVwLLJcz/bNPSdEiWU5J4doVLQV2Vjg273DgOO4V6lpitVWXi6l8cN+F1pK5DLA0iKEUAU4Qw+K40sOHwB4NB9VkronDOMo2Fhert2h1jEtEF/B0AfI8jBerV9/5Q0JBsmjT+58AjNPTMzh9LmkW3xWyYhQ63SCM7CRcRqGd/d2EPuLywvnZ515CYLPj5rNfav98Jn0ijtP1/dS0ZJxHPWDR/e/8ObnSrkilP36K699973v1UZLR6SgbvvSlYvWTDqfYqVE0JBIqVopUQKAU+nzzIjNCadmX7wLXWG3iGVOlzgWW+Or+fKWjINDKk+2AOM0WnhcYz0gDO4jG4EZU5HGvb0dq4oP8CxAhUmkIda/B9EJZMNT6IrOPSvpm3w8Vy9f8XbwDOosimauWq6hB09pGU72od3xMy6Qp26k8PeTMZg4Un316lUYxDgNTLfZgI0ZGvB42MsSIfTdZZE1MEhv0QlK4lc9gM+W/HuIRkJ6mnGX8AqjFdmYjGzYCYU9I2xImW0uL8DY65yaUOcnlOcpEqrvVtXn8uKSZ7V1/mmmRJUhV44qxyhuI3t75z/+8OPJz7+mzjGlkWSzgu/p93gPTk8tX760dPRwZ3OPt5a58y8vSgIf8fSidVnTiYVAMXAxsAynBOufTdzZAuykYYk6s5FI+mfMTnhy/D5uTI7//u///ieffPLX/+f//uc/98X79+8Lyka62MmxeoieHcb6skmyJ+tTjD+c5H1EAoaOfquXPx+XnMLxktFxMACcuJyShE7wDM9nflOck8fHe0CGfp6jDJ0tkLDwzg4GMAYjdj0TRLJxWzhj9emy6DbGfaJoTDJNzC7aUWjAHd98ZO2zX8GHp7I7Pl/+6nuGImOlgigkjjNEpXguKI7F9JneQk2o62QoiXOYtYnntQt0wGYdVrB4ixtOayjuwlYQDDsSFyoAX2NsZhH6QWxC6GtRU0pGu5vNJU0qWv3kygafvfIFKdUxcuX5k/ywYu1ejwaEzp0/Dd2iwoXnMhtLa18UIz5ZqTawYJPFGi0QXXwxV2JTsZfM57iDre1dOl+RIlG3QSB3ITc4GKuMnk6wHKh4SjM5gv89yp2y9gePYehMYfAYfyjSI71suASZV2mcapNXEodm5M+IQlwZG97a3uRbbOMdqUq1jBJYNGM/kG5ha9s8cYqOcoyHcB3McnilRTSTtOL9w2azNZDNj4o1wAOfEzxDbGe6dJVdP1kv30IIs9jxYaf06XVOtYPnO/hxqkGjO46obuJPu5sLFwmrTW0owf/rr75K5w9/wQUy+njWyCUpBaBq7WCK6/kGXOPxeOpcDL8se0mxHPkRTgN1yoiIPRQPFLwMHwuIKlxQMObS+UX6TgljjENR856TbN9o4s67CsHxNqJwPzpt1GdyoxPs92ubHb4vyPIR1U6lJuJNpSsEDnuI0thHRDlcKFX5ECkzgkQFDMnwJijE+oR6NMCXgIxEBq/kOMkUHYw0z4VwKB2NHNvdln6mpB7MGWaR03mNPtZgD8/L57mrt94olhtYoe//8IfIYr40U6Rulheu24fiLSwlc6A8llR67tHTyXqFG/0br91YvnpZ2vZWcxu/3OoesV8+frxy0DnrHLLeDol84YqsIHj3cMCnnxXuZ97+1ON796h81/bWhWMi2yPE/pwKjeIxSKQn3VZbxuJOn9VEdu1Eg0l8EjLU5P+OdPiOmF2OK9LthH+NvebZle0+KsU/G7Hxe9xPl8dd4AR5Y36D36E5f+rfFoMB/ZD23QEh+vE42AAMGgAPXSEGUr8jbNqjJdlTWvruDdZfGzf1kyiNqoYdgGfACMznP/958WTgVPseT9R0ZU95MLV3oMJSHP5bCen51Ep7zTTQObOBm5HArNF4+vSxw44vgWv8I1SJGmR8NXhPQzkexOPyLxDjGJ7E5aJVHSalRzBy4kod4BT16AR5BXsVKvjJvbtWwEkGMdtChpVhXFvtd7frlaHvfu+HX/2ChACj9ji8Eolvw8Ot1l6pOn3t0vLDJzv42JOCemxWaBC57jlSHnI9zYlyCdSYwjf5OECeqLc2KmvRFpiaaerKyH2iJVY+fGSHkQrTglR20KS/8R/8R//xf/If//lf/fXHj/6Llcdr8KPqWfPzk+XwPaYZkNBK7RDxvVRuCGpMX32dQXtw0N8baTSYdY66R62mZJsnSpJZVjgmgyInKTc6oLbz6gDsMb6aFcyl3VdcGCxJTmbFnktXxmqPDTSwfGKK/el7nLNESOLT/10ZitLo5XbClilztDueSr/85CPdyUSnn/zqZvDtmPZ4LxoRFCo9CRcFl5pGEa1MONbP2/Wc/mnBtzk1j4egwLTOqZFOQ54Pwhgkh9wOksjLSAY9Y2xHyHxkDMGKADKMuWiz9wUlzAA0Rh6OFZ5IdJHu/LTfC6uhMRE9GRvDZzqHZmAAZHbjG3smMqAunyTt/riCnISqtCQkiKCsUXsM5I0Pj59L8aLekNPX3dlc7+w1SzS0wlNGTxVOyg+dlOX7lqKQGkvw1ulRXcnpyfJkoXIwlFtVpWevdUY+j9AQVpURHtGMYyRokgQeanJCytMFg797/z5Yl38a3odZ/uj3/wBqsxiQDlCQ/wKisRCVGivj8NT0rGxH3IcYxsAwWzq6kxY6hNMAauOPlUFBLUiSsX5qb22hd6EFuBhEBVJw5DKs6j6oGD0ewylDQ5bdHdvtPFtInD73QIHM7mtgPCA4gFs+yVTqjbrm5s2b6g7UphuKDEF8FgOc7Q32jaQxMbV1uF1mK5mYzGPTzB+CCFUndxj7St1NyBqSrpdLFOWooryN2mI5CngfdVrtcEHr0wnuba1vPb7/RCocuzpenDobKR6dj5NoD1tk0nB1YcIdzknJIebD3MHqKcdfFB668dntdOF/kgjmlzorFgbrGmgWo04xGToAkJiEAOdmXMO9/cHW6rOH94++9Pm3d0+60sLLvyUgh5pPooS5+eXZ+Ut7B71P7t9d39ifm10aL5QRJrJjqRTFOBTVxJCE8jtM1pFXrXU4uLA05wzIW7p8cXGn3bt9+2P157a3drf3z6ihikyjVMi5Eo9Hk1nZ2BibGwO6U9WJL77z2R/8+AfdsRK1zO72TmmmLpjioNti17TtOxt7SwuLdBr2EY2xTU4KKAK+NstlOP6078AsfhU1JvP6YccywIM2xW66PKuBRXFTA1QK0ve4n2B8ygZnJDvwIMflcT3rVodwt8aeffToEcRORJ5s1I3HwQf5JCeAwXvbK9hdzseZCJGPwGle5XEtadj0//a773CpEFWmK0xe4O5kcDUGsKc9NJGgPAQspyWUNsA9XfrxOilj3GFo5BNA5TU5PdWYmNAb4HcE/eSwOIpEXwRVn86+B0GNBfTForEnIFcGg0lyeanj5WT5D07LclGBFIYK1OCoOIGVh5mAJy4qUAcFjqgTXnjvf7S2srHz2tU5+hOW3ThTo6NiYfu91q1Xrn3w8cO95h5tOUdjSIarPP9BvOfBvmKSjkQR1xZnJLRKgZrQJFZ8WJDfvwVncnaEjd2niHFpi+0L7sE4JYVgaNrf7/3n/+l//r/4X/6Hv/Wv/KXf+Qf/8PHjh2++9narfbAws7S4pLaq6pCP8NmAE9ZDOhyGSqFid9Ux3t/YZ7HD7RVHim0JWA8GAqXpZayYt0hkkROHNix7M9LYdXJKpS50ZKHKhRp4kPrAQgXD6z/W3afv5pDd0c4XHWV/mmFGczSITUxPZY2fs9jpjk6yfrKnNPCnz5CrAhwS/gtM6Io32qigWwmthw8XWHEKo2n802UwH+GaHDTI3mpsGLjFGHR0xkEuFJqUewZLKafIXKI7pgS5eCJ0fuGsEYrQoOTZ2NMA0iDSxKMjAwoaFR17v8ahOMI/hBKK40y8hWDP6DXwn9N9fiq9keHdw6NdSYP5BczMNKZnK8XKdGWCRdxZPAuvqSQpJd0nXa0IaGaL0yEV+AjoXNIPmcQH0khGwgM+ebCsSkbsoPFojgzg/yXuXQ3osVeosH8rwH7n6bNmq4+dzeULApDQGL5IjDbCSZcvXq7XJ1rtIxiBlMBpKEpcDIfuxTrb0Jn5BTW27z98aB0mVfrpdqdnZ2qV6sMH9wCJm/3jU/QMk2LutgORczPb5WxlYtFtTHbF+oMrGxI6WQgIZnFBSRk4WWqPO6tu+vRQdt/BIMQhbGwwH330kSERmWkynVikSIaC5t6eQ6sBcuV+s90kaXkWkUASvd5oIQ7Bh95Nh0pCgrMCuJHww1PBFszcnKxr3B6U+Ds5LIyezU3X+TxIHYLxK4RhiyGRq+DIazff+PDje7sHR8JEm72RzunQbvd8n3rs9FxeuEJVjm14eRfJL/BjU4pK8lm2qbjGD05aW1sbu1vbFIxQpyUKEAMqSesOeBG7KFCSGG0b2+seb+/2n63tH/U7c/M7WNJGtXTc423cZEWbnRpvnI9uIjiD0/c+uMuVeVSFkNokCMCrwni7u2s7m1vEEYYBK2pVR4t0ZW2n0VIrFvzeBx+tbqw+frKGGnA4zlVGCtUGv47TdpQMAd9Q+e17d4Upv33r1cLw6LWli88ePAie7WBrV0oVUb3lcS5xdp6XKYQmsQXMZbVtrm21i2AGACAqhFob5HvMOrIqh+uEi2bVI4ANAUNFbHpGumwfPimJUznUC6ECBZrBcT59108GKoUC5UHkQfYWnu0WmlxlAHBZ0BupjaXkSao5bZCrQiotbSSQWpZUxVC1MQz8kCyCX/3qV99+++0MAjWzbnqj1PQJ5LzX2F58+j1wTna56fIWj5iLcWLyp2ca/jQ2U6B/BtbJ/ZSgbJ+HjSdAFyIOIzc/x2PaZDouQMt9TgBJaXqKIVlXGTn3BTrMxqZbHqfWkNZBgjSEitOrAcikxdSgSMegvdEdDH1y59G1i7MSr2FTSxXGOZFJ/cPewfzc5SsXFz78ZD1fqhdPxyWotfLlSoMwSgtrHYNEJbwaqng6iMSrZ4TKUM2j0xHVixuP1QBX0Av5vSsYOVL2CaYWQD1+7+7G/+5/+3/4D/+Dv/GLv/hL3/rWt5g8D8NwqKjOJKUIZTWPpwrczhzAvY69Sl24Q9mlexhEeNjOWW1IO7IdDI3xF9ve2/W6yemRwqiCldC3h1SvtYdUuAVU0xLZKXOxNT8hV55x2SeffgAl9imZv2I/42ZS41FXOxtBSdIVzySeO6L1U6P4TJffs133e9Y6Oo9eEJI4PBokAuHPaIKboUXlQar7MFoFIYt/wdukgXrai2OA6YvHQ+QONJjeFBbEoDTYXreMJiOqRuuKxlFDBccHQILlSf/wqZSE8bMhG1HWEtJJ41M9QE1spcmUpIvjJO8fcqLRYUcZFifqRACV6nSnhZGQXI+lJx3bl3kzIn3HOAhKkWWtjQ6Zaw66NlFyhRFxKCPDk8OnHPzUPJiQJOywP3LSy530R0/UKThUdkDVRSqLPg89iYyjhIban6O5qgJ5o+ObTRUESGnWLnwaiM95KTgnpyYWwyVsrKggidys9JE4Qr5kYidjTZLgEjkjpufWNzftLEbV2QM62cmPrRkdI3SAaRpWf8BB1tOa+seKaItiV62jNydBE01DrnCaVLTIlcNmeUGZK1Y8rfnLm76AqIBUOroQokYdS1FWIvMBpbcDR6nGtufmxPl78907dzZWVta2N7vHfakCzNN7ueMzFPkilzSuEhRgK09y3OrQMIOLKHHur/lI6CLWRS48pr+DYv5YsXNLyEFivHCsjpGDS1W0MDl7cf7Cj77/UaM+1z1q35O9qCvgvnaWb6gIG47n5RqsHGDDw8DupuhDNn+uDqoWWQMxPZaAMpAQYJ3TlANAk+HqBOk1U6g+js+IYM/e3lZzS5TmIHw3PvxkdWl+4nSR/MdRtc5fvSFGday0utVUAiNfmhgdK87OLovdhI/YMWX75q0DB9oXUCu/rjHhJ/DyK1tbZIXG1PSjP/qjBw+fqiutTXB9zGFRqu2MNIRpzQtLK49t7W8XR8dvXbl6rqzR0PhrV272bvcquRJc0mFcHfRl3JEKw/SFzeKpMETsmi575KhZBMSGA6G2iIop27isCI7v7kv4ogGgCkQso6vpDsLB3a7pIbI8qQBQqSB7iBAZAjPjT7TNr2DDrLDziIEGkJQH8V4Ij56RSK/AzbF5oAeGtL27hznNiA24DQk78UWEnamZucuXLwsk+qVf/EWQpjej9Qp9moLvQfMDRQRcZZ9+zS53Mkg3GHeMwZeExyNJ7vDwsnESCg1bM1yIA+7t2uhnZ39P/4jk7sZWNmXYKTs6nuq2O2O1Kt2LiDYTAbQe0b8rTBkwntznYuhOTjkTkXezgdEFc/vEPIPIfElavyd/9s98WcIw3jY44ijFeXastuJhr7m4MM1TK0JLjgdTE/WdFpVn9/U33ja01ccrPJgiyxosRz0VMoN3QmkyhyX+HK+fmEs00vYRyyz76uoa+Q1PKvc2xw2bVa+Nf/TBw//y//hf/tW/+ld/9ktfffT44cyVKTlqAQFTMfcl/wSTjlAlpbT6faoL0VTusYn0BwoFWCtcBV7TupIL23zQAq8Ms9xGqaVKETeRQQIW15AycmUw1jNkUq3TA7Fttif7UyPP+DMapDYos4ezPbCNWTOf2rj//M/nnQVay+4HOKTvPuNuonlZ4/RX3NMmXuOKcIQIxEvAhLMIsgUcGCORQ+efxoccCwACBuIKD+l4zjDCLhekyp8vx+YRq5btulECdQTREwCCiYYfhhprGmdsR5hrEhWl9aMMgPIso8HoUVM+EJFLZCSEFUn7GSgaYyMT50NzRP5CsTQ5Lfw1Qqi8JhLKqOSTaDyVEIbOmayF1MIuIH4AWxSpBQ8Z0wCsgjhe6NyFq0+sRIidNvJASN9gPFzre7nT7hCT1djJaH55ecmu4EctDrkOFQNbTrtDgqMMmzyWqlzONBKSxAiu4vCqR3k20QEFdXCP9gySBRXOPBD0iCVyhvnGZ6vxcgGzxfT5p64MMHxmLaFQWCO7dOVL9JMuXzybffriEUTFSoo4wUahb2Ji3PdIp3PWzAdzqlYCt4t70pR2W1MLc/JsamDZGZ/QQiLsxQvLdpbuxDH1NpwyNWxEZ52coVVFxIHXs00cdA+7O9MLJUUTFPOiuKXD6yrPs7a+u7U7MzUn61K/J/Wn4PrS2VqfmNaJ4ODhXKXOxEsFByMkhBiWBpcTwWreizjX8LvFX6tG2ahNWPBM/kOQQaJ5BzRaAX8mpGLJxfZS47T2VBCksKo+erb7bH1zeWPm9VuS419TQ45bNvbi7qPbYrvlf/qFL3/5wsIFNjN1UmCuBw8f0cdJu0Dj5O1cfKmUIB66FIIONzC5U197893tVl/C7Y5IFwzHMauk/aWXAZZOxikUAkdJqWvHxZjNVqrXl6/+ybe/UcmX28PDO/1d4FmfmqDUo8iZm5njrNzmuZpYBCjVsTRTs7YXU4U8MoDkkCfMFcEGhyZOhZDhcYKUBplazyPG7D46ZA3Z6kMqKhQw/ng+C2v3feo8g5yMVgFpnXjQfVCB3QbdcD1Y0on2JG9cV/aIpU4EMizojsMbb7zxxS9+kSlIhKmXagPUDS/QWormAXsJPKM3Xbn8CTwTs5XdcFCeozttjNazsfLpcgcy8NXrAusk0dDJNXLvQrBlBgl9YzD2gaBcetO5XJ3V6clcsXQqYMPGJOSZfuJNMCKQ1mgtlw165623PrrzCUw0MTlJfyEUL1+s7G4MffTJg5299uIEggAAPCrVmz0Vxt1dmpuulsdawhK7B3NLS1LsW0BGAeEIB/vNgzjpIqaNVs5lXCiqOY6Joy0yNcffp/2yEtl3i4wzkQ2Vn4/UZeKrCFv4npnpxne+8/7U1O/89X/v3888rCZG+Xmt0WVIw2FASCGAw+AKHueMSVHj5B7sUSoIcE7asmO5DYLXZjWjObDsHWYvkfD53OLFJU/rJK1ZsC++IAqGoX3yzE+6ZotlR+10tn9gxX7gnS2xJTcBaN5j1td+CNPRPlvrRCDC40W/cIcXuB9Ln/RCPrFEiFRMI6UqsIUkHaOE62w3rJZxOvRa2ojP0AuXN3IlzsO7dKXn0PXhmvD5LgqaZC3E/dPCmC2ggdf59MhtIMpPk0g0GQZ4IZ9hOAE6OAuby+hZ5/p0MsTblwOFKMSYEa30ACBG8pQgb6xermCOUY9Q3h8Lxj/sk6f8zvKdHykxnNpw0mtDnlRF1jrNnqqpSpsjraNj3eASSvAysOMXZRlpaZmj6MxCw60aWr/Hl73oj1qpcHYoomT8nOIOVnEO6T3Oj7j0mcWQqpxDTQhyOD/CoFmWbaE7PV2JTcRujUu8xGLJ8H8wNXNLTdu7d+/LijA1RQUUQvB2c9swLRxuTsDjl774+QePHtarFOjDMl4szs8uLy12ui3cLakFSMV85SfvsXNWeXyXajWShAWxqqSZ2NnYxGDM/AcEuIngxDE2IwFtKQDTF+fNmgN96nWQA9045zbRUlMRxaE9IISi2VTWxZHjwC/gBLxBCqHSoQvN5bDh7/7Mp4v1qgX0oE7ggoAxlftA5uCQQCPF1DlmzA5HALxgpJPDdnd+YeGwsw8w9rdXuwdrn3/3C+PcO7r7fSVLjln+1YE9Yz94eOfeQXPQ7uYOekOX3/jU6ciWAnl9AVERmZqbnV5otw+8rlquYg+frq6xuk0YTKUITPkUBgjLfZzsEIadnR3wjDElUrhjoew+qucnDqKPnjzd35NiLi9iWIwXzmhLOtKzXfWrmr2Tn//FP7+zvc1Njucw56jf+sv/BnniYP/g8e07W7LxrG1aqAvLl3R7//5d+TcMrFKv5SullsphyTVmanpegfrvvv/Rk7UdkMktjg5KpFT4b0rNl8f+n3NKzk9Wekf9b33nm7/x9V+mG+Ci/YXPfPGbd380V68dCjs7aaklgfg7wI/bj3F18aIkRthBEQ/kFbtMrXewEl5wNoLARB9rBzWzia39lm0ycZcpcHDQw97eXkaxHjx44DtsTvTxaWXkHAr40TnhOu0+JOMOsNEPMBCzZe6ggg7PGx1KHgyKirlAuAZLyxdIYN12VzPInT8FMxXg8SubJiwGeMiFKJUvsr4HxwuKUoGehBRD9e8OTQKSzqtN89BWYY8TMwbX4ZJ8rTbqNFf0mKurqxIlTMpzRvGSDJVe5O283Lc3NvSMQsglzfsAYiLKkQsddFdOsQ/Jt2g/jsvh6RRMTbDNThZ21oApFk3/+KjFSUKDV1995b17t0Xh8vET7HHUbU7MzO63tx49W59tXCqWaoM2haE6O+LZ96h6JiYm33771b/933x/YhY7d37r1q2P70QhxhuizK5fV1GF8zJN46NHTyAjg4kDy2Sc0J0VluceW2ATraqMt3IQGjMgpzU3QiuEbuH4xMuZ9T/+3X96/crNd999WxYlLicCtu248nmhw4wUM9wToXd5BduFMfGdJwJCLaulcC4QwBpj+/T08N6ujjPiEgFRZ8cMb7vNvbnZebxIe6AGWN2CAA/oNADDGhlHRqIsXHb5M87Yy5wUKDhClXRldjZrHBsc9CkkE3dCgZbwUdaD724i5M+/hKCE1kSoL3mDoiJUGnHpwb/gxDmRJ62gJ5LDBLQUircXDleY5wQ+8G/yZPAIJWtIXjpCVex16p9o660nvjMiYm79aq3DDya8xQSs0sUkNSKKNzjQKerJLF4M9s4jPoQw6y1EK0tjDSjJCLL6C71kzEnufz61TweniJMkN4xOkgdzwhhFIlR3V9gNmMLymKt4tfGonjQx4a0GLECNgzTfQdUU6AUuTtdHFanjbX/cHTnq+6T6MVZfGYsHQ73BMIvSGNFqSFnZox695DnLfi8SsqXMD2ejnNeHj+9/9L36xJSymb3m6uhJ5/4nYTRq7u0MOnvWFj9Novz4o/c02NleJ9t02gc2aHXlsWMPfWK0OLtFZKZgMasp2UzGd0JypE7MGPDPTnWsU9rx+DM2Lu3jOdyEoujTr/AOoHcf+nDH5WBoGZzG2Tkcx79VFwAUjGEqPOho4QQtGvlP8VNtgNREfYJXA0xhI6Abial0Tu6R37M33JZQhzt7MVeoVgrjvN1iW05nqvVBpy2ObG9z5Uufe6dReVttIBECR2ddit0I0uCNpCi70O6uswdHUF8Nk2Y44Y2VJNIqcgXpqh0illMCwfFR3g3SBpmL8ZtUZN/Fz/JrFEpiMpzHRzug24CdOsKuEWYLlUCeZRI0DdNrcrykeYb/RdwBK9a3Ur120Gv92Z/5yl/9N/51mfwfrX7yjT/+1te/9iufevez4fzSaj9dWZV4e3d7d6e5f2Nyut0f7B4QNw5HDZXSZywnTBd0SoI7O7f09qc/+/GdB2KsyEOVxgSvr9hGi0wD4Twknw8fe83dofyROhaPnj291JiDZGGoq0edvdxhZ5cpSAIjofQjp6U8jz3LVZ8WCB9bSV53KriSgytLMTk1iSpbEBPPDAwUZeFo3ukjMLRh2rg00N5CyZlrry0RQqUrtM2yEs50YgzAA2zgY4JZYZYpFlFE7bOfsk6QKX/yktGbnyBH79VPWGqHh3Xr8/Nf/DJapRO9ASptIC47km2KBr5knz8Fy+nnFx9m6tIqPhMVS3+GccRMzSXrwdSyMSdJIG4aFXCwREaOYoUiHawmTzxP6S6MglG7vgu6yKDWBQ+tli7/VE8GgvXGwHcegg2TYgflm57Z2N1mw+OiJNnxUb+50xl67/1PvvTZ16QQw/BRFYW5ggaQGu6wd/Xi4uQE9x7egOJ2wuvS+ghihObo6kqV0uzsjDvb27vB0AT36fwGHxCW/5FwzqScNxgMLozscbobZvo0PCgxlFh2EVtItf///H/8N7ayVLiJV0lJciJQQc0CXJc40bfeeuu9H/xwf2uPt4XD7xUZEtCJ3cEcYFCGdncEkpdrVXdMujxeIpUqGnlA7434Tc1k2wKftDwGjWhkmdL32CELl5RRL6SlFHcVy+1Kks1LATbbRbcTraH9SHv7Ytez/8ZDwQyFLQruT2QAQoyt9FgwNUHjPBkKPyYQ0PR8SikNc5w1vYbHRHiFWiu0CgBACRJ+8YJ0J+kIiWkxakCCXeDFDE/q36vHx4ycIBckw8X3nB0k6PMp196hSGOs69BFGEUiThE7R89iGPGFkldkDHmvOHoqk0FejctIOitu83xmmUsF1x3OHSkyJ7wFCzJW8UxGmWm6xBnIXxWASCqNOAmVfmKJwpUH/eJOKEhvbOS02x6SyUs60iNK3i6PYkEIzufQyppCbnniHz3o+UjhBIInRLQrCs8MDTdPj3tn3A2RZZGwrdPOYOXu5m654qh0tyMpU3/vUXp1BAijKXx/Os2jTz58nwugmrN85FSLCJxyPrSxsi9LWArV6Ec4JLdvPIXY9/SJI0jLGJrhWKx0JfJhC4OuWVWQ4IIdsvMMst3UMFb8xQXMXP5iSKW51mcEfI3mJiemHXzP3rz+yo9//J6Qolq1rIAFTLSvPk2nNT+1UDgrslfI3kQbG/B5rsJpYfPZuly/ctUSHk76x+rY47/kNsolT07sfaNWvHJ5cdBfV+RWHFG1XpIpjDcGtWtXps/zwlGP7DsiMLU3fLrrdEizRZdvm4ZHwiN5MJjkajFSpjqj9CdRxiKRJ3NjkjmQ2CXlyBUUH6SHKzKAkgzhYheBRpbVCAILs0pOjrr+4PDOvQdY17AI0gQ4B5Yid/rmW7f+o//wr928frksR/LJ8Tvn43/2z/7Gg7uPiImtbu8pHj5o1U5rv9mXz3z4HNoKCiFHgBRW0LqMUNNTR1wtCvn5CxcbEzOvvs7WVu8MdvfkTHH0IqunnYQDA7fChQqPi7QdOjqRHuvOowcL787AdBj2xaPOnQ9/YFaFMz7Qp72TAdlwTHBneLsQqqp2PxUzC5FXVxgLeI0MoWdqPZpbtMeWgqjLy5efr0PscajgIEdkCYQgLR4HJG66g7zhmgkQJoVnMmD4C/BAkYAnNjopCb0C/kkoKA6uP7UhohkSJr0qCmBsnCpy+dKVX/u1X4M3AxRlu6BHOeSRb37IVXSVXd7ii88gSf9Tl8ez21mbbBhuWgrDM3J3jMFlnJF5KDxdI8uRETpojrnVwAGkxwOvIifiWEA85ErLCi9JkdPPtwGSX1FW2JCIjtQFnx28f9yAJOyZBFfXrl/ZOXCyk0uhetW16frkzre++/2/+q/9GiWBdtg3zgDhhAvO+p2rV5aXF/Ib+4fVcpHv4uzs4NnKlr0jyyL23Ny5wkzPTlOr0xOziiEAvLzQqmzidH0CQ1gs4VLbZ9bmFTgsXTEpm8JVEVQn14m/+Tf/5n/6v/lfgwRCv/2lr+YqBQA4RXmpPr0UQ+iS7AN7SlazfbRN1dHq/r5U9HuCvYiOZDKsiopHPJOuXb6C+FlGSaupxGiuuRUBFQ/+JKvFy73Ttc2wMQACFXL5KSaTEbP03ZNZMy2TBBVkRht/aO9LDDBdTjgCk1llIrk2NRLKFg18RNhPguoQWtKCkJwiz1/QqGhGH8YRi9oJQZKKVD9YYZGcASlJH0nIjsA0hBB/gVgowaOxITGqjuTOZCIBFuATn2GETBvvvBb1BRxjGjCOXobvjZ7i9wDkcBTSaAYgakEgkHVezpxRvhQpjXaABkmMxSki/VBCqXaCUNLY08zltBoV66kVPzFsk6mZJI0BDAhkscIxcRPjMXR0zB9o7PyEDkX9mqGzKr81gMNvPlMH33j7HVXkFBFgG+2djkp+cBT4dFTUcGdwGMZjeTzl1WJpldI2coRHram5Wv7CTM96eFGsngywOR5Eo97O2UZKcllbGjUJjybfeOsdflYSb+9vb0ChAvtkyeHmOnx6RD8qAlHBePFhJkwSSpwfMMgErpeQEtNxOWU+M4AB3GADKPsCfrI99elmBkUaW1bBUPSNuDfwzUnXUqdTEXkNlEVeWlqenZ2GV1QC1J09pvrjd9So1nUVw+Br0DvEomLHBu2emtjVQrVWKMPdNJnCF/jaqVyoRN762t3r12eZjTnEy/GNVrATwga1xmKxcryytc49WNbglXU1R1viaUero8Wa+CGglFxvnGPoKQyZFhXfWZZMh++2pVJXDJak3Hekg+pvbATnFnCAVgE5ErqBjgxaTYkcode8NBloFIET9zA89Nf/xt/4i7/x6/Ua30OFVOTX6EmXvtNscwa89+iRqi6PHj7e2tyWrwtsT87OUJ6CbFtP9oZ1pNujfu1u77DRX718/Y033y1WGpWJmV/+5T/3D37nHx60hfTygnbA4NbA0LFJcQpwHzxTD08LlYerj9+69Vp9eKhM50uKVdprNN8o1aS168kuD644auZy+IatHf4hHfNCaewsrCTYNvofGoKSEB7soCOD5wgxi3dScvPziFmj+n4ibwE2zyJRyBvU4ybSRTGVmU7dCWSanNc9YpcpD8EPoIpjmGgDtIkoMtJrmeKF+wuLS5oBmF/+5V9+651PCVn1rOHFAc/lxFNLyGHfHP+fgOz/f9+glGiYPgwGeOsQcJovQI1fKMNTqMbx4cCJRi2gYXANlWhDVRBz4ZsL94WhnBZBsF8o+lABlRzhtMpEHTYLh/uRId54fD+dJJglTlS4yQSXEanvh0Y+/zOfVRcTXsS03Lj56vqzu72joXsPHt+6Op1SXIYpBLLhmzI45Lh44eKlxZORPdkdZ+ZmOO88fLT6bG31Zz7zzqUrl7Y2V7mnz83P4HwfP17n0kCZYWGT3ABQQsA1Xx0aqmU3C3cMJtB8wioQsJ2FO93kYlMaHP0X/8X//j/7z/5TZwPPwZSr9is+Z65avXfvXrAm/NuOB2HPDYHE7IjmEQYHWe03d+07jzMbGkNiITnq14uNr3/9651W5zvf+y6Tm8MlrCKMC7h+CNPgvPhPXQbqjp9tvL2Bdt0J6mFdElny2mzP3M8u6D26yjBy2uysz9hs5CdEqaAiGgfGN/nA+9GJG5EeDIGkQ4to/oj/CTnM9OTskLVgJNSrWKSk3EtKRSMKQQvnqF9DMndQLWWfpGFsV5BGlEMLKSdUbrj4qHFt6b3vs5+5AXkGY4+MsghGmdhQlnBRIE/HSLEqzrXD7VKE6HzA5wj65tgbpu0w56eMIHpLYlIi5o7uaS4Cekd4zoC84TM7hIVHZrFO4WXHJTXAnD7IC/gZKlsTC5PkR19iTbDu8U7o1CoQ5bW3FAzc8KvgG9RxSHZwCxORJeEXMjYajLxNkh3GhbXLWE6Httlmo+7a2ocrm8HgHx6jcPJm2o0oPHQyKBecpCPSXb1akAnNUpbkxuN8MgiTL/MZ+VWOUuoLi8Y3jS4Eh5HO0YvDn4ZvWwPMBX8kjtv4HWPDiAG9uIC+CyS45EcLP5HkB8UzhAiB0YPpPG7YyxcWoSQxFs+ePVGUa31zbWd/VxCJ/hjuT+YW0pkZblQaUQIHO9npF3PFhYnZ6nj5qDNQOojfsJRLeJHxUmG3tVkTRqsGZR2eDcc3fpShAhkpzCzOqDN3+2Fza6+/2zva2D1g1wJhfA9nZqcD9Bi9STHSMLaPQIUxk6MCZcg3xtlfDhMRsRHuyQomCRtTR2RSZzQKgMb4BGgDoRFqjdVV2TeCDYMWHDqoAZBv7u7luZPyhB4abalTdCKN1jTMcO/uQw4561ub9o+zPsJGIgTfBu87qLfr7HSba+tgoDE7feHi1ZuvvlWfmkElQNdv/MZv/KN/9I/Y3muKhqRdsEEoHLzvi0BE7B4A7p32zzrH91Ye3br2KpdJ9pjrV6493l6R8DJXn26r5NJVOfYABmUDgJ7sJGStSo39dY4cNpmU7SnUrOfpuYjwAzZ+1ZITtvva8KSgowMPWpKxXMgVVOU+1bF+LBFrVgYz+tcMcuTq7Cd4yngpwbTRgza+gB9tgraFzmBYLvZf+qVfunLthmeRRkhNXlc7QEsMZvFDDNLSzIBqXXk8VsBn/A8uCqb4T1/p1Ae2Sq/zayiNQg8U+nzuiET8QJspMAsDHKxw4ubNPTqnpTwfQo+NH9UkPXgxTOIwG1UABjBB0SK/EIyTwrHROlm+Qr8aZwL0RO5C2nkgF656mLtzFaFEJW9ubgN+TMLU9Fxrt/OjDz5+980/h/5nKwObQYDq4UjkcfXKRdKReEpBTosLERKHpXCm33jjtQ/OBjJ2vr54gXOA1GM4yhh5pOKDbEJKEVNjQ/UJeOyUTfTd5Yv5WXwhayIdQaY5xRxbB3vv7/2//z+//bWv/uzHH3+gB6/rdNs2iqgdEBjhh5FcKCYXq8+9bEg22/TGEFp2dnb1/6lPvcus9Yd/8keWwtEeKbMZV0JzxO4+OjY/i5zNe3vQGLjGA94U43qxT27G+ieVfXbfkxpjwn2+3CTNnKCsQTz7AiyyO06pxkYLLwecxF2cSOA3PEdwERbJ8cW8pkMMl9K2SI8HEgAnikW6Ci19ZINitFamSD5bKBpAq6YccpDi6KAZzxVB4/wsCgrCQA0QaPApBDMDdIz95qJICnsQUjAmu0EMJiA5Xm8tiThQCaULDtyjQVyifkuYbsKOE+7vsUJICD8IpIn9GgULkdl/IgEvPd/ICANDrAgzd6igqbCDYkkKTxrjom8kes2FupFyU/MIQcg0lfqhWcrQcT5Y8PgeoV8ZgXZcQvAfI28F856BslmG1MczJU5yKKDcjwMgF3nooz00VihCe2bJnY1TsdgZnniiGjwFLhXyHH77DfhI8uajPmvQgGeBgaEc5DwHx446e3Fm0XbSg97/uSMeu5rwlE+LrL25GE+6/fzDVLPn6FTsF0k0lHrJDZrHl0YOOeg/OFDSok8hCeh3g3HfoG3npRKARA2LPIc5cGh5/sJhZ9Dhoz+9tDAz3xAir6ZGp5sXehCJoBl3x5qddr00Vp+ZikwN1iLSi+QK5Rr/fublYqE+OyjMLe384P37e72jVq+vnJ9k2JyokbrIoCgZfL5I6QEfdyy4/Wdyi1yNYgDg5wWDN1QdO5MW3Nk2Czchm8BwKfAZB4blJwowkgVIaZzSEACJb3/3ux98+OHF5SVKG6SFnwvTFoq0t3+wvrZCA2IHi2X5D5RROGRvbDPsBeEaR6t8wXPcvPXqu5/97JVXXpmam6/WyJ1h7X/15is3r12XL4d8D0fw7EmMc6y9IdlFlcQdG1YOUQGP1lcWLlw6PD8Tdi27+V67KXOhZOrU6Ynz7dNJ7O23kQFiU7at9he1MKPV9TX3vRGrAY+gT7HGo6M7mzsWwbtAF4kT8wFtacN2ZYn0Q3FEKjUp+h+666UlLn/hzqq9HjyrE6P1pxXzOp++uwPWve70JLzdmPD+7X/73/7a134emSSTZO29SwyWxp5yf2dnL9jiuMKErB/NXl5/6s+4nyia1vH1eeN4OHvEHeM3zuwnn95iTTpBkCCSpGHAjiRqGkJDrcZCBKE4x5FQC8EiYlCv5cYnqjVBk11u5aRAgcOZmFIJr0gHHqGKtwbe8O4or9zvtnmNilW7f+9hv3o0MTXX3Hl85+49LCHMw+qcw3DLtzM+zhGT8zPpavdAbGfkMMxXGatmb9+9Q0d37frl2fm52x99DPXUo9JW7SCwM6BIdDEwtEMaGY+cPlAdXIIXpChDK5l5x3ERBKtu2gthNtrYtt/+7d9+7dWowfLBBx+oxyhpr72oT07Y2KXlJS/hHBdrCqHQpVix0VEj4bcS4MmbSY2DdBkS1crasxVuH8TSUrlkXrrCFZIULHhAgweM2GV9/Ol6iWsyEuZdIOnlzWz/Xn667zttiTYQvc+sk1jyBHwIX9bxy0fiRfHS2JhAwjRyYRaMNEkyDZGQGIKsKcaEmaMYIsTY9FQdFmNa4XCHcZDwRY1J8IL/oBvVEjpF4wjdxCC8C5plJPqHsmPwwyxNMPixglNMZXE/LIthNg9/QC+iggypCCcEsn0mcqUsGNNUcEiGik4EXSOLuSW/HqOSyIfoCjrHHgfFHatOzHAyjg5iYc3fPwMHVXnUI7jvIFe4MkufqGSJ+2NABYxsCSB8rp5JisHZ2xH/0itigTF9o0xvmukkHIuC6UMjIdPQwaZ3IipBJ7wdTATWjUj1QZR6CYUQSkQjek7YQjacPStDRvEpNxCMA5h++J0feJbieG5uHl6wYqZMkYk9cPa8MAijSQC/xIrG7NMFfAO+E5r2mYGTFdO5n/ypVfBHiV9ztLAYF6/MYKIz0dAJAbW23Utr9FOVKtsxxQUNA38hc9S5eu/GZn4COMCoSOflhcWaeE+G6MGRdEY0gmqU4xRkn99rtQ28fkY8HeG0IiyJVkLZeDoiscL5nNQWw4uXbq41z/qrW/ISq8TAfQKWQCqkyaWfKaEOJMVqRZKqNpqKjyrkL6CPM1Ozs/NWwIqF0cXgkpyttUMVHGVk2M1jD/j0bW3tcItKXPhz+u1BCHZ9a+23//7f+9Vf+SUZ8OhGeQDbI5G6y5cuf/TxB7vbW2srK5AH2yFsznYNXKUt4ZOA1Xjj1Tduvfr662+9JfWX6uJoGMOrMiJq/Xrpn/n6158+eeSpiEQPPXQQAJddY30jWqG7tNeypxz0u0831y/MLZ4dNBdmF3ab+wJzOicdikEnjFCLHs/NLdg424c4qTKF6phyhlwQhuwnJhC7DM1h9pU9tkf+hDIofdwkVNl3ykDIyHa7A3W6AypgUrZ6dMumB5uSYms8SwjzitjrMEkHxPluHuCKiYKd/8/8mT/zV/7KX+Er6MHxBMkWVf9gGwLwHNFUb5S6vJMy1lMPusou/fzUXy/upv+mZj4SVxanNa4MenVoc7M7WoDkQKOONIeupCHMmvmO9+I+gBr5Dio0JpOZiRMu9zxlQVi3GTP0WCxip2BtLbGhOF87FQACL0KLFPGRWE91q2Kr3b/+ys3WHl9fUn1xdXX36bPV+QZZLcKYrKczJVQ68gdOTkxONA+3I7RWjPjCwpJkEw+fPC5XCn5lKEQAGvVpTp7CSAQjQj2JalhniGQEO5uZAOO0pqqbpix7HIcbiG98NI9cWRGTcmkvk8He3sHf+W//23/1N3+DAMoLyV6L/u52O/606DA5vZQVh3kTjx6cK6ZwEEl5jqv8GnO5JytPLMj09KRR4XLsrOUFcsCDxGjAUHiMJ8MsFtrlu44Ahy+uuAVBWzPGsWR7sIKW1dJq4742EFza2ORf5yb8n37KfgUV1HQ0aSFBIRnoQXwDPzKsh17MmAJxMfGny6melEmgSJSmbqG/E5/gJEtfEhIVokENhibpNiSaIHEOYVA+NAY1jnUJDA8zE2Zos46JOKGliWWNZpQiLAsYNCMIMhkuGI5BuFSE/I0SBRsUlkffcQRhonLeDd9FaLZJAVCxNLKTEubRp9gC7heAjsuZjD080mEFSJkwpmvyV1i5KKC4GBqOdMn0ShIghbMw+VEFCDCPSqVBhJYvHFMCDCKQKALAnFVLnXFv4Fhw55hQQKTSUvo5wEBD0qO9CXAbZUqPcH3Sqx6KtZlcrw3PEpZw5agkIaPMmj+cq9XBzYj0rGBIyg12YCP+8he+bNBPn0bFtsdP5J17rGQtvMzqnxEq1D2Um94U/jKWB+8ow8uhYCmLD6SYYeS+DpBEL61A4ZyjhOPnJ16U/U47Rjk8PFGcvHLl0sLSIn7L8caDM2YgFQ8fPIjFHo8zbLpwIKOwOwSyowN61rAc9q51Ls9ems41OGI0FVI8OuZNKyRO1kSCq5ih8WK52Tnotg9uvHpZFkNhcrvbXZEr7T4bHhgdF2PFuXzp8s1cdT734e3D+w/4qJ2pp4CHZ7k7V6lrqE8kppRS4KV92OzuW9hSoQJ9J+qb8XkjdMlwEaByqBAtqEsu2gJn9dxI66D39OmK40JqtKvAl77HrjlBtnNrde29H34fyzX8tZ9f+NyimYoCdjihpK8OfuFv/1//VhQ67g8wanhSghdZinbr4qUrooC/8KWvsPvXGpNgWzAtxmR9Z4t5zwpLjs6Q87f/9v8FmovzC+1SMwQjEwnm4Fq1drF1tBCyOaFzTzZXli9d6h8fzfK3zpeOuocbm+uDkUORaCwQ3Ahpa4lE0PSTJ0/QBhvBXytRgkKr0wZmIbRLTJ5MO6NYB1WqI7VSgcQukYEhQTpgyWm1BNrb64zgCZmy47dvfxSYOmU5gXC1Sa5oASKehe/diXOUjOLwrzatTu9Xf/XP7+3te5BixdjoDh0T6m6heKgsDITadTH/WDH8qPMRavmwOkOb3hW9B1II1c6f+nT8/RK/uQJtZO2hRUc/Yq4hFD14kMaHOkTTbGxaGqoDia9Ekq1AHEwZ0s5VgQq6BWlx78Uv8ncvjeVqxepYuagXZZLHObJKjRYZC+ACQ4y3OpXGd8bflXrzSGQ0F/BR7uwnR/tQXbM59OTx+uSrS5gopg1OGzAkDHdy2C2XpqDM0XFxm5yYT+pTkwoLsM0+fPC429xu7Uta2V2cv8Jd8NmTld5pG4AEE2qy1JZ4u8gfEbwNbOmMuIwj8goi1Zink0P16ozHhYDYGjKKdM/f+MYPX3/99ddefwVhQ+TEFLe6ElocNVv71qEHy8g8mMxgVsxqwJB6Xt/cOFl9glwd7Kv3OMaW+WR1RQUTqdyAQbFShSxVmXm2umZ/wQMoioOXcQ3QHMJtR+OfHUnbaRvoRjQLvKnlobAYSrmgc3HnNDJ6uaQpi/9QNCaLnHB4ga6MbP3OPmHDL5YA4LHoR5K0sWGqSTRJlTP/KYUPsNhJ7zybmaOuiT4dCQrZAJdgrUd3dnczSPLSdIUtBFqjrKM5I4WHs3Vo80IqSgsSIhQU4eGYpAsjgqREdqTIcsR/lD3JK0KNSPyRR4d2ESaONPVYITXpT9EWxptM2wnkdSgRYwATNCpDNkPIEPoUQqB9pcGij3PuIlsQkmTKrFHhzY7pRpNEr+ZU/AscHLWQkJzE1ozFOaBA4vFlAton6Kc3FCtEaCDxp/Mg8yDWSF27sfCQsV/2IsaTzp2NkcLZG8GBZm6Kjbdu6AT3IQuOlkUU3Emkmo34JBqAKHtjB2OfnRahxIyugccsxshoZWKaYf21t96+futVcIbzFWZIr0U/9+zJUyk7vYs7F29FjS0ef+G9zQ0yGuM4RYw3GkmYW86YEgk759bFdLrENcl1KuXd/Z1HK4//3K//Kmjek1TqcLDV2h6v5bHVm63QZTMUD1fGhwu5m9ffau01nz58etTG642XxgrXL10pdnI3b17rFDsctAVydYfbBycd8z0vcJYJthQnIPG14LdCfobIsvqM4qEpoRG7dqE0gR3ljdtD0FHUQmX54vXzXL1N4qxOK+tELNvc3gJ+qnx1BsfYxZnFq/Up2v5QgAw6h72WqqwnUHCrqcmR9HGObi5fE8WJbAOZUpEa5HB758CvcilRoOJTLGMUgM2PkjZCw3N6YiJvvfr64tw88cKG1qoNoTOTU1M/9/Nfu3jl8u3bt62G+2CD0/zU7Jxw0ZmZ2XKlhkqBgX3FpLqyWUaIlSzWmDvALZWUGJ1f/5f/wn/1X/2f7bUzpNqTzVIDpCuhd7FKd6AGMj8AgttJfkRUx4/ufHRt+TIvRPjr9/7ZP+W/c/nm5ZWdNSwkmQ84bW1sCxiwIE6W8B/6PynqJDeCUHbFfh7KQT5HsuFbb9PnZ2aF4knxRz4TNINsLCzMWR/GKiI7M55RXbhwkfnK1O7ductff2Z2igL//qOH83OL5C3yaDAuQuuPyOWhlcLaHTTbckh++tOf/r3f+70vfulnr16/aYWxFs6+LyzUqHWGL2A146RAgzsw03B/oAkA4VwFfx86CpxeuEDESQvClBEtJDE4wDiDwV0kYhOWgiBoQ8NiYP2sfNvB3gFbBKc61hSYnU4ID220yJbpy7hxXqo2d5qMdjCSqt8IFi1QdDsWYQyU//dXN25VJy9cu9hDGMZGqvRFZaqBqsyWkQI7Oa0IueFLxQaJEuvWeGhdpXLPFWpyvk/NLj5rNr/z3Q/+7Fe+2G2KkWhxouOPNDVVpoEUKnLl0tLK3oO9w67ilNi0N99993vf/COY+fLSldn67N7m/lZ1Z+HCFR31m022dUc1EeNTzoVRynVn68a169u7W4Mu340Z6JlyWp4wWj5WrRMQdyrn8qCQF68S/ARrA7z13/3D38Vsvf7W27Lx7O1tV7pFkaL7Bzst+d0PD5fGFxl9wSoBkJLcabWzpTmRnTTqJwtXApFxAuIGub670233L1++dOnadVp6PIulI0QEGQI9Cb/7b2Lk479xQRnZ/eefmtlai25zEzWIRkkEji8vOnGKfM+eRYFoeHIOWCHSciMGTrt8QcIBcQNAGdEi0Wmv/J60QphvKJWReXDM5UT2IbHZsjIIkGF6CY7JZddN2JVeSIgi/SZOAIkCZGSkAMG4Q7rxCSgBm+8YjYivCcAUTEyoFbWSVHIRVoX6iMGtGph4Wf+drpcnysXJemkKUR1XxCwYAXDJRIW3ilJ7vFhl6R4rqrnHGxEwC6B4Tq64VjteyaBFjoEPST5kLPYyZm4Sh+XBDwPco96J7NewSdRI8idHry58rmhAWNlxtVJUOMw4NdYdZ9Jlg5v7HVYNawWI0zpYv/iCcQDosUZDQ7RVkqS9++67y0sXqsWKOC8e1yXie1QcQJAZMEefPd3gWxA5GvxfqA1dt9xep8fTUoiGsBV+UDBySLbRbQTGXr526Y3XbvHQUyJPndOnT570B0db+y2U9yRtFyoKCrGUClKUOP4dRTiEMYvkj5Oc0hJy1rLhjp98UMgkZkUeEK7qMJTEZ91+B1Ovk1qjbkHUDr966dr6yPr20x3pWtjVri1feefV1y9euHh+yC04oskhiO6RZAdRqRknQSd/dtjLj50wEI4N9aUuOuq1+PiO55R5rs5MTJ2N5XZ4c++3eeaMV4sT83NbLYX4JhqTVRG7jx5toAGl2gQXj/BJOUX2iCylYrmCBQHYnqTnOjrpdKP485BisDIEyZdbr8+RMwQFESZE1ck02myqecoo3S1VgE8k3+MOwARL3+Cc//X/1X/yM5//3JUr1xiuSZA4AhloQDfAt+IXr16Zv7AcBkjIzjCFDItnTgEx29ZfkEMkVmeEir3l9cFIoHZW5yQqM0nz9tWf//m/9bf+FoU5R+FgmEalgOtQR4ANEwm9huS4FWA9zgTbOWqvbK6dT0WGpK985Sv/wzf+B6G+Uapqunw2uvDxhx/1Tjv4WpKfkdhHQDJZbwBBICpVArHYT+AK+IEZ3IyftLRWWOyUdSLIPKsGSEDhaHuq1Tqz5O7OHhJ75dKycGxCPLK9sLSEOuoQRUeVvSmYTF48nR5C9Vu/9VuhRTw7/9SnPoMHVQPO7niXPgFMAvznH0GU/Av65P9Bq/zw4jO7E9qvQA7pM/2a3c/QTKbJ91h0kP1qOvmxxALSUkgPYA2d85SpLmn4LWqQNRe4dYqN3Bo7/XE8QwBO9rPAjMbOX3lsojE1YQi4G3oZ4oCYRX7FWZk62UkjabJUB+BWmAQ5zl4nZRCXwirHmvmVex9vbojWHjhl6gSx9wsOZNHg0EuJfaCUhGROh6fMn7xwU4Q1pUFuenJ2vb96sN9SF5HGj7Vpd/XpoNeCRPDhkCcklaztkml3gu0jnyRboG2AY+wOqYgQOMr7jekm6eEsmXIzqp7xcgR1f+Vf+0uNGpDu2b5vfesbM/NToWoaHlIONF88nJiEYCowjkzwFsdFMgqO3jpQUxyfb293ao0Z7oWYFckSYX07vrmzixbY5ZCZPGNYLt8DGqOTkGksvZtpC4JOuPxp4V7+FOyJljEBZTSCqXnZ3nfNbGe+PlGgKs/M7/L2nwwddkMX9+DxOoGAysKFSvnEqvgP/AYPe6336xtxAlNAI1MmG0IiW4lHQoRC44YkEAiCXqEMUAmmxv8PoRogG6QLlxWcVOy2r2A03SdpgZM4wpHNFf/SdCecJ0bPSb/5kaFGeWymUXrr1lKjXpIKVqBSVeGQqJ5QyY1L68LvF4RVbHRo/3JlcMg1xFj1SKYmRKV/vniHNOpWFv9FwRGSNdYJ70zP9ujZI7kkITIHmPhCEOb0Ra3BVTStd6y/ExuXnQ13kkhZHYxg2ppYf+9MilwTzjZQAHn7gHsO7Cl4aMKOQeURCxT6C1iOVWx0emY+qkmGtzMOw4rTagEMwefd2IsoUcE1hEfJELdix5a1nTMDZrZYrV2p1WmQZucX9g84WneePFtdWV1HXOFWPLEv1RMpnMOdLIMZPhv6tPSQKSMq4HaKLly6ZD5M71LJx3EbG2MQxpJPX5ohvaFMgyKfi5xSdjYMVZubnPn0m+++8crrE5WGw0xFuL23fXTSVx9DPUxO3JGP4PTYp6LSmETF4MbPB2vrm5y3MLBK69ItUF0PhIrnSntrO7zGbwzJoTk+OTU3NFJb3dpb29wRlkbk6nESB6QUuZF4aVjot0xPrCcgtDYxD+qsiPjJxljVyGkpt2U0Gj6tTy9CWHxMucU/frq23z0kDXIpCiF7dJxpfbxYwq7+wi98XYTQ66+9xrmbESKgFzN3XLa3A4q1TkceAkeC3t6sgZPYy31+gOcj3cH/j7D/fJI1y/PDvrJZlZWV5c2t6+/t277H79idnZ1dcNYIoACCIkEJBEIhhkKv9AeIfKtQyLxQyISkN1IQCpEAsSSxwAbIZQBYM7Mzu7Pjenp62l/vypu05bJKn+95qntmCYp65k521pOPOed3ft6dJJSbgpRyTc6pOIdq6DQJ3dqEagvz85pLwYzPf/ozwhWf+8IXv/OdP/UnSUlcicqx84It2v8y2o86etjafxcL0tvrpNN/+ebNjc0nzZmp1UuLtjaZmK0923m619mXdrpyaRm41zefy1+/9cJNvFjMnx1NMF+7egUeMjAYhZYbGjucuXb9KpIXdSektTyw+n4V0iCooAQ5x72s1SJ2+dEH7xDSHkVfgXIO1psRQmlCjtyiMyk4/e3f/m0dlb7zne9gKfpWeAiEkfHoejD0Z2jirx6f8KJPvph+9d0X11bfPznjSzmd877kMyIvRzmTXipeijTQkpNG6EzB8AtWGdZbckwMG70av9A4r7zIHl0nY8ZWw8yGqOJSluuNJpMBAgiNdHe3SAHGqPniZt2D9jGn3UFfrMQF8b4XZisSpn/i6ODyzydqO7utd9/74I2Xryg60ODJ8x2UCarn8Kga9OYHz56PHLQ0G6Vksw4fP34qRVgij+yfxbUrEhe1EJpbnHvc2rU69AvYTo8MZ7F3V4lQeiBjiBaiuFA3ZevI1DDxau50Zl9KdOhUOh9UfOed+7wlfGoQTevqr3/9G7a7YR7pDTihS3UKwBUySr8/2d1IK0iribWHVwaE2CP5Mr0wt8htC25LC0sa+/a7h+1Wd29nJ/GfXFUA4bOMM6N1VCtanfyrnwGcUfoMCzWuctCifXe41yT9yVtJ3zzT14Z1kd06ZEXhqAUlfRT+DVNd7FEYpZgiDklflEhSDcDT/BSpVY58L4fF87/i4mUYifqce7dnpF9fXPQXrNxD3Fs+rbYAkptzU0kfiLvPn3GG5e1AlRIJUNPlO+0vBCQ0OBhMtfsj6qmmTydOhxpDY3Pn4wujtdkR4qrW9GkP9BhPfNIgyX66EKaeSGh5fNoeEoY8lhRa1h5uQQJjPTQSTmmTV47DKdWYOl1Ztu1mc+3SVbkPpnA5vGxCWaBtsxtT+C1NNMX/Oi0BO8FTgB13OWem80G4ohOUOGNsXDDG65kQUMIBhEAZYBOYgWzALkWPUhHNgEs1wzlbXbnsP/hFlii9QLJRnE/eiWFhj4AWfGiLY3Mra/XZxam9ljpTHTH18253+8N8Q0PnghO2JqnckiiQ2h6PYqfLE2JS+rIJ3TUmGo8ePJbYyW5DD5B444lks4XpiboISvt0AKH3tndeufYSc21xcd7G26+88rLJcBdQb+7d+whT0EerplynMT47PAcNjFk3ZxkTvEToFxM/PD23a0L6wo4q8ua0POfF3dpvaXy+vr13/bbakfOV1au16eNne72xyeadSzdUqu22Dxq9tioQU6Dk8hgyoxU71cebmyWdCUrOLUw2pmYlXjIr6o2FS5dumhqJjps353WZuK68t9s7WN98qKqKWSC2x9P1t/+tv/Vbv/VbMqFYbABlX6IGX3h9XEJqAF5wmOdOZ256t80+MIg0UoJCMBWGFo/T3kHraDNmq3V55523Nzc39HL4L/7z/5xl8zvf+q1XXnxleXFJAdYf/P4/mxd24iY/tdFNWkMBD8bjRrteoRR7hE7Qa2ep1WMPHj9YWVxZu3rllVdeeuv9n+71j7Z2nh/JVZmfk0mBkL1LZPHp08dR6Y96CyWgxTl+6ZIam1l7bnH0WZGpBv9JjCrTAQoOQGwRfko6d5KjT8NALFcl1kxz1jVusbi2oZJtCH9kbBseOQ1j/crS4if4xjd/k6uAJvfDH/5QeIN9BsEgInSFwz6N7YJXVEIoKmk4mM8YUB9LJl8uTn58JheU4xfXf/xndb5cf8EYiR8kRlyNzMz6FUFZ8eoyn57gMGzjMTyDdz18yNk4GK1dYpaYDP+8Bnp7O0mhnByeFmtBzAIkkiPpk+gFcWvd5jn0bmojEwzvHhk/ppALrBLPo/MLN67f7O89eee9D7759c8ppuJjoAzBCFopa3VicWFpged5V8/iYRg0OvbqK6+9/eOfaGaBHfFJG95Ba5eKcOXKlU2baalWLochea1ZOwP4vld2Egq1KFDITBPfF5FTyTNIfDRoW9r4mRjV6J/8k3/yP/rbf5PD74MP3v/mX/vmpz79+jvv/fzgvQ+SBjeus5RVGW1OzjRq00VWyaSNylztcoBL246AwTA9zees/9oc15q93whxGbveFXFlcI5PIG4ovleH73765IzvIJLQQEmzdP6TI4RtQUp9GYTjDKUCq3ugMEaj0LmMFy4BvOLQKzE6sPB4Smumbx19V3UwZL9eXDUgMwafOYwiOQUZWHXC0B2JsTEJTDdHgSKcgDqET6Jl8RaSqm6p7pOKXQxKFVyRTkk4w8gID5xMtIksk1rCdZgtSgYjGqemivxKY7ZWb65OTK2O1hfHJhaHxmaGbIY+3OQD1LpHdF0uXzqheBsFiu6U5IMiyNNTMN0EzDGWFrwjXeVayzrJdiI1Kv+1m3dKdOoM6hMtZVpUHDudH3Kf8lxHMkU+F0tS8vSRRPnInmrKmV75M/Av4TsF+NVDrAXjtfhDQAFlxzRl4iAYwtNWx8UELARv5MlaT36XFj7YIv4SPW5MK3R0GPDiw7YyARuW17HOqUTOlOZTNYEUqc0v3nmZ9fnZzz768O5H6nXYHMwTPD3Omqy8hkYT9sVdXl1xJyyQlXv7zh1Nw6SEowQCRmxDXJMtTJMbXlhT6K60165i5vnFX/n8yuKSHS8JDFDjOMMH63ON6wvTa1cuzczbfXZ8cXUREZomq1SuVO9g52B34+yoO+jr0iRlcNLejjqS61fU2Wl/9y++LXRDhj1dPxiMTe91nxydspZmV9fmpbFo+bg01bw+rRQsSQFBZsYWnYK4nmrMjkx1+Dod2rfbfvfkWIv3qdlLclUJnum5peasc/pnnl27OaEKeH39ox/94Hsbm9svvPjS//w/+J+98tId2/6CqoPAAVgBCT00PBPyhO0SyI2pSvNgtReCyjYZ0rIFiuyi6RYxaNhC9qvdee211+68cFtdqgTlF67ffPXV12gSWNrrr3/um3/td+/du8d5CJ+ckRWRbKfi6R1HGOkWH/SAvN75wf0PL1+9gghm5mefPH9meywuPuKKj1UmLlZF8AgA6jjOXLt8LXsyETk8eEDz/rs/J8bwFP2XJ1STNZq8m9icGmJo6STGZyJ2jJQpCbM0EmROPXr4+C9/8OFXvvR5KSWMLYfkEfOyFYlXyHFHtt/61m996UtfUvDlLQ8ePAL0r371qxUHgFmIyvWFjfyCZVWw9VkI5EJcVSed8cXtFz+Vaz65vnxJsUZ1a678+DfXQwOjsi5mhL6sr+eYS+Ez1fPycH8iMmOjn0FsmJLnFFZWPcwaewfVbXdzS25LgusarMTTw1ikJ5Y0Asb8aGo5jhpSReCE/tTHKdORAmp/Gu6a0dqLr7769g+2Hzx+qvghIXPqcFg+k3Ri69ne2MyaKv85+YTHo31R3PPxK2tXH0x/NGvj1uV5NXP7ne7W1sZLL90RRKRGiJ5+AhzwNFQAt2SG4ZOEZvORo4CAN1fwBwQu5WpSviN5fEX/F4j607d//pnPfGppdZU9t7y8+uF7D/7iuz9c39ww/iRrUr2VNGiPwunAC1VKO9hZTkJdeuzhoTJQht8UOci4mK43bt+4ZRje8gtxVcG0GrRB+DnD+u9Ag+CBX6tPE3BUf1YiCj+tzlygkfLhlNZipVY/kg7TTKaXM3Fe5R826WnMJWQVLRh/drZAooyA8kFeEQA55//GFYg6ks7CUknYNIhW8vwgMSaH++acb9hyQqzYdGSsu2X9klcUHvCVaJZfcqOIVNL+JLtIZZR92lBiqk2RmEc2Vm+OjM+MjM9pGzQ6ph3DlM7ddva1+ZHMQbcnA9BnOHsaC2bF2TyJWjGwON8kJRZaMTXTIH3sxcaYm7DjMJPF7Uk75CsAB3Aj73jJqu+4ZdXoxQUOsqQCrF+9KzAo6OUPD4ABnuGkPwMfcTVLaYHKNU4DQABZtv32VuhIQsehGtFvm8ARgRM5Be4yKNbwJ0pAc3bBsirjJOi0VjXLqSaHnG4ynekZDTWmBFEU873yxutPNUnF2ra2UGx2TLDP1sKyyPMXPvf5z33h8wWYIcW5hXl4E996KfugzX3ti1/VxNfC6zvX1IdXXPr4+OnDR2/+5C1tXm0tef3qDQKu7NE8SrwBhSYTwKm8HJ+NqzW2oO2sLP/JOYfrwe7bb/6wJ4DT6lxdm2MNo9yOviAj9RfuvHL3wbOfv/fwmUZPvP7DtbmFS8QOu4HzDSw0UQUoXHVlZU0mSr+n58iI+uC5weD51vbu/ke2rTo8fK5eUhCCrfT6q6/1ttqCDRQzmSbcnnBzv6XvauOrX/3aN7/5TXWUVy+vNaezIlKJKz6b75ThVqvUyaXEhAXW2enuPn5saexehj9q7SErr9PuffjhR9g9/vKlL2ZXXBQh0X9xYSbq2uDs3/+7f4/hsbV1wNtrr83l1Sv/6//N/+E//A//w539N6FCtw/rI7g7hz36j5JnxaE0KLxPY5SEZSemHj1f39o/uHJj7dbtOzvtLRtiD457+nhQbaHP+saW+AGAaH6qecHNG0sIV0tlPWoNldFjTenUfpcprfjXBK0RVuiwuLKTMfqFhaV0xDg+FcpqHbQlaBSdvcXk4utbu3KN0ILG9G7nv/zlL0dW2ZhydJSo+8EPfsAUYGwRhBA4GF4ERmE/xXUCmuXwk8M1n/xZfbm4C96Xn1zjfPVZ/VTdUc7kp4vLyjVQy4wMzCxycXmiP2EvCqsudiPyiwA6PydujZzc8hMScAZhUxWsVHKwhoYFdC+tFG0SD6Qsxr1EldOkyK5XMeNYUbBLRNNAwimTNxBiL3lSI6tr1342Or7fOfrg7qOVOWqurIeu8WiUwQQT1x0+1w6O/DuUWxitPgF1NXwnM3PzGkXsvfXW4ycP7360LLXRMjGbrFHYSwFBeUsqE4go4/fF3B0mAmtiNYoz93r+BJZq7sCCV4jLajv5Z9/5rizB5vT8THPm7Z/+nAy+ffNFuGCSguJaMKm2vvveXcsKDlxAHiJSU156/vpnPre9q6ohIcw3Xv80zeaoe/zk8bp3uf6/Q1wBrBFU4wjr/3jZqi+m5AK/OkDWQQ5bFX8yZvEvYbRqkVzpYB9EQCQDGRDTHLDU2J9QAS0fL0QSJCJNwm7Z0kIOXuRvgHO7GVWoRcvwRdwsuPJLh8JL4tAzCB3OHzYEdh1ZlwhWEVFh4BFU5JJPm3dAQ6KF9MSNtVFiHvnTf8kutdoYzsC+6MKkkihqejXJ0pTStWiDtBpBNVyXeCM/nyPtbEib69zrX2RlRlx83iytjCBPJrSyaaRvKniKFe08hbp0Oo3P84j/N/YflHdVMDv9WtL8mK4VxyZW5LkUGa5tBzzxq6MAJ5LHd8+B3xVUEh1zU8ApdphaYIISopTB5UpeJy+TKOpcHuSDzVUZqBGcGQzguNAkMo3MbaR/mFYgXJe5J7A9nZySV1mTooDhshknGlNpSLgzsKXW8solLVhk0ywvLfECXbt8DZPl3ZabimtGMPJY590Rir7Qp7RTQmzaJTqp1u386HxTtOT5s/t33zeFl16+c+3qDcEPJJAb3EYts9BnycWKO1T1Oj1zWFqWvXHNDC+bUqPEF6BWjQnTY9RNSFa0/87x5asvvPT6r2y1fnjwfHO3fdKyY5la1KHu9MkEUdbphWVYME+VW6fko33WO9jXwl7x1el+p4Mn2e/KaJeXLksJuX7t5tzC7MMH9w0LyLA0KXUsLaZPp7X16Tdeeu3lm4tLC0LJU/VhaYqKawQ/sC35MpaPh40OjjGJfleSyXzxAkREj0ko9ySW90svvnjj+nUYhINwmfq0XeSVtUvHQsFF8ceMNjclXga3jd/dN1+4feuFV+8/2bLDHn43Pt4UW5TkrxOwoaLasbMky261uUhtNHy++fY7isAYaK986gt//J1/OXaspEY2wOibb72Dl83NLRK9xIk2UOwq3+nOkjJUKHNYcxtA47VLV7bViGmfenqKCRK9MNYJsopkwr7JG3j1zjvv7G1vX1FiduuGMBixpzxAKZsW+3RzNhtXx+de+9Tf+3t/n+gSDJOy+Oabb4p4/cZv/IbnsDUr5gWGDq+g/lP1CkL94iOojpVVeFZO+/MTeslPhXCqG6qfyskLgqqu/ORxfkJiaApfDn0V6woOVA9xcQRVIcbqjMg0toErOmm0uSWSRoiIBo1rnO1v75xc5xXH0Uasx8RYjZqfQGxCTxIfwmatqZxDCmXR58PBUqBF8iT3fery1Zt76x89eb65tnqb57TX35fGJkldPia9cm62Pl2vbe90mUPULB4OFtLG08e2iLtx+wZn5EcPPvrZ2z+xnWw1R2MzTp+G6oxPMsySwT0AN2vTMVj1xYsry9KzZMcgN5cVxpogDpajfFGeoyH+09//Z//u3/l3cBp7L0gseumFl/CKuLVH7MHdVwJByWAp4CQmDFtk21lE2D45NYv40ruTlk9eHOvTffDw/iOD8fYLa64acVmt6uuFuIoCUw5n/dena0zJCyKpRDSqo+wW4bw3u8ZzY/GUixGeXIDiEOMYK8Im3FEHPAzSQ8ODXWnaWCQBk/pcQievyiPCdYvN4U78v+TjxFz3A9UBY86GI6RuEUkQFtMvzJSyEvQhwFhdcEIeBA1S0YT4lolErBepl1d7VoJYsfBgVExBrGpcYL42N6taNFYq1kCjREWxjDwgelL2B4wBZ309LUIzT8SIYaYXhjIc1qd4I+GzQRexgJXqPREZBg6sX/8CVQEjf6fUxHNSWmuEmXzkOVBQQgRm1I1NZKhxJwJzsQstuZvS7oKo8X+CzRVREJiYBB3drDzF6xKbDpM/S7mQtxgg+EuWi5cWSGQGiXWk/iMrReyCeC7M0GMeB3jxKBoUK2vcBVIzAimpDHKHuz1J6pIsNApjGdy5c/valeuKeT0tlIDZw0sN7DkICzVq7ewtWcnE2OLCJ1axe17J3kGHRXX/o7sCd7xJr732hqIHA4cYvPkwjS7jmbQd9EXAxvEphyKbiNMrk6HPVWdG2fF9SpXF2c7+weFgZHZx9Wzk8OnG9tT9J/3j0YnphenF2fbp8xOq4djkyXBNRbCtnScbc8wsu/O0nm+cHD8DJPhgNWDG2to10fD2wYHer+B4sN99p/2eVyfhjet4Vm5pdhagK1s1DOL2jZtLCwspXxwM2zkzVYiANzKkEEUEDgm7Ui6oEl0TIGZEQKHc0sKioBG7RgI3Gi4myjJYwWGrrAYGZaM9KIDadHQVhUaN+tko3gJ5O99rfrH3/TenZhau37jDMptktmJAvY76hY6t1JRKHeyhSzlCHNhDk00Zp1oUzi5febi+p+ftytpNNebtfuv5s3X8cXFBk/VZPtDQx/m5Dl+bz7etmHR2HG1hPgnrOFpJVV+H+ZRizD3s5+REDpHv2XrqSK/LNktR2PyFl166tLr2wF7px0ezc83Pfvaz2N+PfvwmMCI3MzVl/BFb9MUbBf8Ak84OefwJARDI0Wkq3CVdAvV//+EWF3isT9+rL//9t/zyr9XtKMWNlAmQrMQVDCw/eWAIBpX6KTzs/JyA5031Z6Vm8o0jHpRDAjlpFjLOu702Qg510LFLnmFTSuuQjFNdQkd51wUIv/v9Px/XcKVsr0wdcoRghkcZ6Ndu3Hn+5G6rI6taxgxz59AOz2EaWjZvr9+59MLcNC3kIL3W0mb3dH527vGj+7sH+y+MvTCvvnV9Yndrq721K0RkPA4TBM9MocDK2pmv5fBSvxon3JtqTlNWKKa0B01TnHSXK90IMlUyg2R+dvZffv9H/9F/9L+698GHLGO+FmPmpJbw75nNxqygFJ5dXlTp6FxQQu1nOwftpeXLFtdPlTnIIv/a177O8RBAGYofUIgjNIAXVFu+Vqvr2R+vsWkEWNkEAXvx6KQmw1HhYgO1POH75fBAD43NMXTet7tF2G7kYhFQzocVmpg3FHEY6If1ID4BIAwWOyzsslwWf6Yj4cgghWhjcWH5kukyce3aAJBRWnjafBaWzUDAq3Le68gDd9JS7ZnD94O5Q6tMmKPZMwtCUTZjVOCD+tBMnK8sza0uSorWGG68rvgwxRWKhwZ1zS/U42oJ6F1BNdYxV5o1jrQza3wfMWGYhHTZrFHrP+dlYbiGtOV4w/WYmyEeW84cd50PFWVymHgFkuFR8e2UdxbZH2h4WJh19ZSgSOSmIQR9/S9GqMeEjBJJizx1EARxI0SwmhlZGe6W0kV/qNSONWsZ6AsmwuFJaOVRHlnWD9llNKblySBIYqUcgCggubIIzHO7LvFAS1FL40UxvuXVVe3Af/LTH7/88quf++xn2gftnb1ddEJrieO/YOHEUJo3Qiu83sOjhJ7YeNLeEHwCI3vb+08fP7YxYBS6Zv0b3/h6uJNUzyMuu7JZIl3V1MvQzEeCL7zCu8EzQvHsZKI+ddzuTExNPXj3g/299pXVFQqd1qozi6vkjpQQttVEY+7GnaXVK9feffDBZkc/QSVWZ8O1oYmGLuzshBEhGOONOEkmZ/oI2y9V2G5v9yDCANrbzQt91sbn5vhXZtQpU3Tig866gfCpcqKb11auXlmwSFwysT7kCqNsUun0WP8O0QA05TSJzhbBFzwNqVNK6CbieTON2ds3Joh4L8IgIGwI7vh0Shx1adW9OrbNzi08ffZcXEfAiatQNSjrR9ZzozlP0RqfmP7c579CzZL9HO14YnS/qxOgIZ4nC3F/L9oJbLZ15KNnr3y69vDe/bfff/C3X/3U17/x27/3e//wowcfaK64uLSmoMJOXbduX7GB+4/+8gcszbXLlz1QhlvqzZvzlN979x6gLCf1WZpfmGOH6aGFLYh6MIt9McG7d+9vb2zcfOFF4k3qBByanp1VLf7eux8wxxniDuqOtAvuRK0jX3jhRRKOiuMMlUVhMQZllX3CKLLfE+CJz1i2CIkCWQSSCyp2QUErxOWvUJkjdBrFNFf+a4eTcDPo7afqmvA8pJKt2uIAwCR9lp4yaTdeHhtWVh5fWF5hatgrv6hboo+lBy4PXd5maVMvfDYMAiWPcndOdwx73iHOwYjkJjDkheBVC6kPDdsViF/Rlh70QurFVK3pHXt7+3PNKZv0Tk8vqKEfn6Ar7EvoJzOEA0R/J9q9/e31JWky/b2jY4g1iYLn5psmwkG/u7cN3+yLLa+XfQylTMSWdeHYGAlGhxsntnrsJC2Bxx4bMTAzopEwtn79138DHHjpMU9k4hpzSVOYwBV7GNKD46dvvfOXf/njb379VxdmFzRuX4nRPGh3uvxtdsxCVkCaVSlCiwQPw5IUIoaXzbF2AVmra16u1lF7bnb+yqXLhoT7VLwyN1p1R25DsYVRhvUH3hkFWDhQLlRAP9WRulBSi5mFRKvDndaclp/Zh0Ej1DwwEamCMQRNhERVJBQzp7wwrkn5adzo/lsNw6fwIdjlERgU9puL8zSesXKXxyvdC9ONrUIgpBUTR47E+lgb3u9TtxPLIO3ShlG2FeCU84PmXY68SIxyHFPgeznVpWBkMDk3MbQIQs2Zptj6lNRogaaEFSW+2+zK/2X7JR2D/CLj0iQuDyxvM0dNnwDC6Lyb/CE7bFONKxgexmXcTEETTKKgS+IndXvGGvqI4l3wWvzFVR6b2cZaJSX1a6BEc1gWVh3h5WvoLxpdtexuiKQGqYtPb4osBxpGFkop6rHis4g1YjeXwgG7o6hc9xRRW+gTN2CBnufHli0YFQ8mL7olMHLud5ZQsMJNpIUYHWKO2/P0KMnip7//z//gX/7RvxLCAZ/UaY9kP9a11VU6IxpmOqCQRTvzDA3t73fm55u9DtXMhsIdihgGxHONnomrKWVMHLRKWwGEfsYA5ElzCk83Gd2C00rPwugdEM8CcMhJhaZ7u3ZbTE4Rd5on8Udtbu3MLV+5dPVqqzu63zmTInjQO2Fv3RqrX789MtNc0MTJxcYgi5FWBCWUK+WvHjUuADPhzfV1xElxvqFlFAY8Oa62gVGlcZQt6kUZudk4SRvTE1fWLq+tNtNDx0oZFjIqJIIq6FgkCvuPdlSvNSaWG/AYKNDXwaCzON1kype3SyrpQBX6kvwFnIFvZGhEAypRsQ7vyX6r/b2/+MkHH917+513pSfLGKR1oXlhD3Lz5s3bUmAopxgZ35F/4ovrey2prosLszduNuXnQxPPFGL8xoiemcOH3R69UH9gcHj1lc+SebXpUb0JZGNM1Oz4kO2D+TMXllY31rfHrtRuXLsloCPmJYJFY9B5lr6C0VhETI1ktpWG4L+D8eSM/NDL17TbX5EQiKEvLS/aNfTd937OZSSpXaqlJk+mIEJJPv35n//5tWs3PE1aB+H02c9+HkooS4R1CKwCl+9wGNwqZ2B13k+fHND1k+++VBf865d9co2fqjv+W9fgclbEi7DpaBxl3xCE6fllLBcPKHflja53pV+5ojhicOLkOqEF7QmSgiR3WsaSqo6k5LnME33BmkLLAitHqciCIZi7CnAML++J8R0VU+0EJJqZXWo0F7q9k3anrywU6dIk/QqV6EWa21xanrm8MvPwiSzKPg5JBhFc+xoutttEFzJEJlgUqDKYjBbdGQOuaKam5hPY0anvviBiG1S6wGXVNpum6adqsgUOhR9F4qvdPpYX86d/8p1f+cznrCDziCKVuA1/iIwMbaj4usLoQAVjAkKA8pmwDq+QwzSctrrHPPj9/u72thddWFe+eZ93u8inI08oR3WPdaoWLKaVug2cwBGn4C8iJW5wMS6b++LF8kg9ceIZK+CO2HOuzNEyWz+Ha6r3Vg6oCC3pZ4SUL45I25heCcWZm4FZtup8+Q4FIgi8jL0Q3dav6tew1PidYmUUo83PNpZWD3B02KW/+N02JAScFpKKXDWb8FIpfPqhjOhvujgzsdzEUGemlRtkLxGC4WRoYNsVzJyT0a7V52olcOpCLKbl7wio6CYjNcUDkMkWU4F8jfpM0ksDnLTXsBUCMcAp/oAUgVKkZDQYbFx6ZFOkRADor2JVWoh8r+DpZ2/XUxBK50I/ZYFxuoAW1udiN8fqin+SFZntkg0qEoM08e7ziE5erVEqtmKh01Sa+b/BR3bCGvK4/OUVFgnNGIzYHqMtRxAm9BTXII9grEaLlECfPoo2FB8ewY+UW3/nz76nwlRGny6uS/MLQmXbm1s/G/n5xkYSMVbXLhNIr8pqu3NH2Jan6Ob1m5Dq/oO7ypBFv5xfzH6A9q/vTNgWLG0AQZlWFEsLxphrhnyW4Jw4H8Bkx5Za7aTb29veOukP7KXNuPCodisdnoSsFX9wBUNxRC9cMz45HQofnWrMwzL+3gbPYS35f/WJfjyxaR4Y/LOtFTaCjqIRfOrVVxM1aiYN16Ih8gKPMww6vV8MSe3X+Jh88QSaZ4Y2nrVpSqRT+eflyoTZmcIttoG21MKBkskRXoghwqg0w6W+8PjLALRgysSRqzPeL7FKm17lyErd3nvn3bsPHv75D370+NlzdW/n3X6Iy4MI79HazOLSk+db2OOVK8ciRhoM0CHaO61Ll6+LkG3t7GMfbG++y7XVS9LuD9t2JBheUpOgnolO3Zj+/Kc+YxvIVn///qP73MuEzT/+x/+oe9C7c+cVIuqop0x4nSxngpa5j9qmqDnX9BPWZikFby5fvkRHMSh/OhCIPAuSnuHlV6N641Ov//THP9JwRGgTx3y+uYXHSXDXEBQjZ4opuGEHfPDBW9QO8gwSI5+KY/gEeQSI22cJCtcJEMtREZHz1ZePTxcG5ey/dv6TC3zxq4/q+dXDyh0hcEc1gOoJxuOCcmUuzI1lGM5AS/LYBfIeS44CXdPOCdSuZLhhSlCR7SKjR8iXzwYHj6Zo19KSS4XHkvEmp32COXqpvhWZLadWmEhmzaidbs4rfNTuq7lkf+3AwcOzY93YyGG/tTJ2Zo/i06N9fonGzAqESpD14cOt7Q07CiT3NjvCHNLHV9YuSftEIN4g/dZ+V2gJf9O+ZPp0Bu3Yz9Svc4tqAWekKd67f9+7sAMDi4atT7/+HcWBY7kTNFE4dHryox/9+I/+6I9eunOb/rH+fBNzYNJh5NKDmf6uj758AbfyzRXFWUr5gP+mHJYDmhwfJDTGVF3t3U5mNcrhpMPQw/HKlygUrChto0rzN18cyDU3RnmgMkY0eEjht/6bw0hSooOlFiEsKlUeXC7Lg3+BPZ5TiTT9QEtrBFJH9XjIO0kG1jdylFqa4ac1hM3d83zdFsZskIDF4qH+dE0U/qgpebgJDJ3Ek+VddGSpTVqN8Vth9IJeQIDp2JHTp8MWeRMjZ/VZS5kWq7oCNlxEVkUtIprDy22uZl4BdPxw5COAU57Jv0IYYDE+mSqfpAvY8fp4guEx1tQ8hUYcyenSSJtA2XMMMI2RSqOOCgKJaiVcZIjZRdeFPqNwgbOniluQG8VKTYwvs44Fy5Zie+WiWFwRiiyP4kxIaC2DPcneEcVrZuBAc0rBQy90F31quC91nMrgIvUJp/yvDBYThRYZh6iaVG5YAJJZWu/zf5vvjstisM9UhxqDTyFRvJXIQWbTM02IrsX4hx/e7Rzs6+sgko+///n3/yJPKAlgX/ziF5n8YGhHJO4OQ//N3/zNNz79Kd0N7XFhGy9hMFXAVFHzkgILbnH9Fb3VdFN/WwJvxkd3kqKwsf740UO90fpLs4trS2t2NrRIVW7CVsqyW9vt053WUO/ENnU6aQ2OJFqyls+GhQBYypqVsbobIw3vobosDiX8wCIlmpPxfcZ065ObjiyKwwJp6ZHdV22bYsMewXMawUB2JA2019l/9aUbHhtZBd8oXvYoEXTWCB8Iqzq5s2zvUsg+TgVUVuGGMwjOy6EUFFUExyJJ0uX2llwGtpQk9WfrW4ZtoSWmji9d4ohTiAmT8QuUc/PmrZfuvCiTWM0evmm9FCZwKsK0hZkFzUileNhmmgo3daK/TlNzBI4B8KDM91pAczyhfefYxBc++4WioAyk6slFvP/gHj/f49ce0S3UY3kbScN5BgKMUX0zWGB7+7ukkfZqBqNCDlaYr+8+mbnsE+5Bkuy73/2uovgrV9Z4mUzn3sNHvjgAQcADNLSW//znP88bJiGQUUvR8SLwMR2P4kEBH/hYmEJo3NSCn1mYHP6EvdXJ6k/fq6P8/q9/+BF653y+VZ/VMwt7dMbYvM6vcAAPNIzy+8X1ubMcBoYczFGmSTYxKv3kUBUvFKqh2AhX2UVAbw/m+fLUhOormx7ZVVxwUAEQiMX6KSkWjBBlLVMoTm9icQUusQluoLPTSepivXOw0+0c1i4tJl9Ij/DwTNtt13btftne1tGiPmG/zfbW9nF9ehFTw36oDgxFY3OlkTGn4upYXBQgrIBjUibhJxNEsLQ9g3GXP9WDu4vMM0EXO+NPKyKYgPAhbVYnIma0VON1mMhrq8KuNEmuLP1cTCq97VFXiKg8JUuZFzI7AjvobH1dUwHZr/5kAvopq14dXuNv767+dGmeFfM3fDn/KU/XD0hcrfRMystcbFWxVIOEJv4szAwLzXnMOUmb2G8WleZP4484RemuQ/DhsH4s5rzAhFlJcjeShGaSdA8Rh0/G6CMy2cw2yZgBR9FLc2e67xpXEgeoleDrV9+xYiPKe7wzUD3GjxAJgz7FytnPIz/ggSMj9vc8BA73Dp8dz9BzbDs7ZT91bkDqrRanyAyc2V/nduwkqjItLkFWCP2CgCwTjf8sL0JChIcEGxOoSyEg7oBGA2bBD4nQ56MJC0enLxsdBaQ8QgRICVPFBWet8vdAfNWdBlZhQ+aS3AGSLhAuYspfJEzO+aSD+W8srUiXck1wbsA+5AEFJBxxRDbOwM4gR6M2Le7vIajzQd8LbGc8fNrks9Q9SJ5BzCXZH16Z5xgZGjnnqLHe1T7o7APr2IG+h5zRcmB76oo2t9Z1iuPzEecQ2eE0s0w7O7vLGpmVODzaUjtE99BEjnKNRbc7GrDtvvTqKxD9w3sfUakkC/z83Xf+4T/MptqvvfLKnZdfvHbj8sLCXFYife4M4ZRblh2lwgNtGDHwE8neBVa+7+3u9Nv6Vu+tzC75c+v5pnVm6yDOk+3j7b3tk+GGogVtvvY6G7XG4fhMg4FDlAIebKHmiDuBmIfCvQqdgr7MlvRTHFWVHF1XqlEpBImuhtOMCgkIBYsipM8v7cAFuhbMLwoiUOp04NaYMft/0FJq4/JlaqYc2oGapzZEp7DiNsF87kRsTlDKA70jawD5Cn3pw0TZUnsFk2HF2vWXbrz4GWYiYUZQSTc3R9sJJ9gw3VheWAwtm5Ucde+TOHqKbI/27n5A2b+ytnLj2pqswo0NFlLnYG9reI77SEumc5NsMDJ7Q4ftzkl3ZHlpbl9LLRCcYCdNvXD75hd+5fO2jjXZjc3nT58+IcAgA5XJFs/8fj/8yx8QVwQYHmePTbOQc0/M4IYug+heJ6vw1Vdf5Q6ljvzK5z5PXBk/mfTp/QNw0IlLvOrrX/+6uUMnjBJtciqCRthLsXsAKtDDOH7pAMzq1wCtwDYEGQr5K4eTjr9y6hd/OF+JN0tefQmH8nvmSE8qK+/PIADtpCxiuSWPqJ5bvc/tGD3ML7f4MOKsL37BwxGV5nxwoCZ1e6uhL9HaSiHpUHd5SJA6hHwutjdHJLR3t9s2iJmf463VMjeNaRQX9o70IJUaRPrQV+M1idmGOIalwh+gwsP91aXm7duXnm8fbe7Bms5I7Yw+gzkDqWQ3xh6zFdqYHQ8tUMM9zAe2GLFPU3DG2kGqDKPdJq7SDnEo+5FSTQ2DXHENDSk8P5aurvm4jb63bjnSouX9jz60r82Vq2tIK4hMEadFJxnMawPWsGMSy5EO9MlRAihsHhRcAvFEYwgd5yuHUwSywyXVJ1j7rVoeo/clzyqHSZuJr07msvzLpeAU+eDUhaj0h5eFr1eGh0u4cd34Cfp4QvhPeVRuNezhUSGJjCnae2RncblyB3L7nCD2+MVsr1fsLe/H2vXFIkzdbpUcTubFFwPJ2nt+kQpBOOchECeOPyQNeEvRkcEQ9hCW6YTVqHMP2dtPdqAUuSICw7UcOJYhKpWAHGSVfYK8N2lpDi/yJpzJdZBMkvDgXHh9bGA3wkFE1NmxqiZSXyR+VH2yl/Eg40qMX45VeB8RpWkPtpByueyDZYBVUpA9wDw2ok1KgkQPHi2QI6G9tIhlw/ITdMEWnSqpFpYlVlir23JtuC1LibIu4eTYu7p7u89Gh3i0YxboWxyvIB/bxNBx3K4SLm2hiyQ8jc+TSB3mgBLhY4sR+pK5MZdE9U9PPvzonrbK2AoBYFQcaEHxbvfps/U7t29qLqfb0K0bN2R1EwnSwHZ3tr785S9+8NGHspmfayW7vfXW2z/D2micNttQBkG8KTT74Y9/9Kff+fbly2vdw5ZtBcL+lhZLXYHS4Mva9SuM5f2T1ISoJPqQo8DFCFZbRJurj0zONqaJnRR+jadDtsS2+q6ufdu1Wcl1tnjXn2nv2h2bOIOJbAo55XQP4GOgB4ioASJDrUCD9WLVEjK0P54AYDyu1po5jlwxCLISW2FlUZT44uI8tmAseDHUUi/BgZPOyYKRNDa0SkeuNUtnTLr2pHutHfsJZR0fdlHAVHN8dkHLohmP2T9oc9/xDaxdX7v9UoMHqdVqI4PGpP9NrayuJcCqOKmW/FIDBRBuFI6EVKwjBI1ZKeG6wMYvciwuptDLnoV6bbAv11bmetM1pZL2PUBdGi26aG97vavnwuC4fXb0ZPvp2o1rniNEL52MfBIsfvnlF2Wi3X7hhuWWpxKGUOJyLC09O/7s29/5p//s94klaKxLxfr6M74gNGIVgJFPT6q6Y3lp5d/8H/6NuBCbDRyToFrfSs+LJ4+fQiFCmgqPJ2KRX/nVr4OD20m1drdjmlmSwqB8qUie2lCd8cml5LM6ApNy5ccn/v/81/VY2l+9K9TtNtOhEgnxRDEyEzGki9TWPNM1uaxwTn+6wCwWF+acRNpmJ6hA0dZPpGb9Y0nhQye61ttJdf/gYOnyWnR/WqxQoU2r0KPkNeHm4CBVNZkJUUFiPOETyuYY4j0NRJQHcpkWLh2Kh7Yc/QkVa9A+OFxaWsw2EWdbL77+qcfrrfuPNnCpvb3dMtgMTECzkqmki8OYCyNKfbrhuIzQM3jizXwpH1WCvowYJ8kCZhlZImuG6miNqst8L+tC6oxhFN/97nfkxy4uLpAkWKZu4Il9lBTBMjPnikXkxxiscV9xFXoCGPvNqDz2r4grVzhA2St9MUooSNA5yoszMTPxZzUUVxp9tTZo3DWg6qQjTjh/+CgrGK9UeXhOFcnH5nNZ9diKG/jFGeRNbHgFAUBuRg7G5+RF0S+7+mDRbyEI94SMoCJs3AXROUuweOfJsyrSVamV5uItPCoYgYOSqQkIVp3ND7VSTxeLSlzRdsrcz0bxtNmlqdm5iano3BRkr4mYMgdysBg+DDXP0PeudCXkiTbqqh4ghtFAmqAUjOQnAvBJ/ey4cz48qaWTCh7aj/yyPi5ni4FjTdi2nqw/x30kTxNXRqvXA4zkDDEpzjHaRzIMGXVRvQBPCsMxY4+Yhr3AWywfpMme05tFe/gLosmvQFqimP3jbpSCo/M+JVne6vbGUWd79PxgfLgraqYTtHdNTui1ezKYHJLxHdlqEx84X54KVLa5sWI+tdt98mxdtc3WdvaVePZsnWiSuw35pE1j20YZGz+Kx9DtOy88e/b8o9YBjkO3evnOi3OzM1yCstKTR6f3En3sww+ePH363nvvLF9axWOJNCWoCFm4Qmtdt8NqHrAP7n6ATuJIGx2l6AmG+WKGsHtxfunmtevXr167c+v22uplibjv/+xtneUnRuqS4BsTMiCmt7bX3/zxT6YXG4TiQ/vQ958NRhYYCvvtvVVbJJw3oizEXpFMkx4Otq2hDnV7LXRADQhmxtstlYOMYL1CQ0tgK0XJyqHkQhHZ4ohEvLSyxMV32Dvtalqv68lkDbliEBBzioNGVMEjSvQC5zUpOIL1CGbDdd+JEy+3ZVpThuTe3nsfPAK9jq0jh85tCHk+rlrhRJMCHaGaCzNQZSJGJ4yQ/UybCfiRrVYcFH+NZydgDuwlG3XrJz2jbdnfpTs47ui5etxXK1yb0sF5vHEyFXNNhFBFAl392c7GUW+fv+moP/Lh+vOHTx8SQp/7zMvCB73epf7hyVtvvfn9H/x5q72vTxX2jX7VTck4kX75O//G7ygZ/rVf+zXqiNgV6DGeNP1jcmEgQlMkqwQ/2ROkkYxINoG9Qc3dQtuWyTXsRHd9+8++y1cvSQQz/c1vaVslp781cVpVPoQdhV8VvhHGEh0ttU1uzHGhsoYBxffwV4/c+P9TgLk63K88++LOPKRcj2niM+ZbMUkT4QMovM0D/9uvMUK4YZXDJ9N5Mht28w5pJU2X4X2OwR2v7TiiFjd65/5dxZ44R2p6HRAOhdggptsX5BfFWZyfe+2VV5UZulvPSKa2HZ/rtfPtZx/Iyjs5uYkn4r55Udojye/gPerVZ+am6mMirZfWls9G693D7Aot1hixlOB+aYtua+YgeXIuPMp8QbJins7708Xm7ozvtAcOTDFpGqQ4loNh4Xj33fcNF/f3Hb3QlEkatyj1e7b+7O6Du8K9c825NHRLUjQIRyN0JGmLbmztsr+NuUfrQt+YqnMxXIrrS3mGwRAHocpPDpf6y81gbeYIyHcHMiBmFTPy41f2kedllZJaxMGWpAs3xh5EH1QBnNsAnDDJsqR58C8ZUp5JfEGMmDVxahGm1lUOZcwVf0ctZFK5zNkkE2e9dSDSuy3Ao2FQm0dHsv+KGJOVzqYsRhsYVHG8MqmsfZlTYAfmNgQyUDB1SwyociBq42H1LM7WlxZkWfCt6MbICo2h40YXJMmPRM1O4oeCx0yxEYWpMRbhdq6wQFTTslcWVDEeqV/sibbiFk1XT84mD88lVYmamPBo+/h4c2sL05d3xkYBPauC9YExuvU0LQw8HAdBIQ5TUKmgKqDyfPrTkbFHk/S/hCJdj0gcnuaw2GqiDzo7Fjg2lRDTQWv4tDc7OTQ3NbQ4fTbXGFV9oUf+2URnMNk9q7dHJmfqdsoYaYyeNfTsoHFwI1tHEHv/7r0HT56qjDFm2gGWLcWSpKZES2CVEgbvsnD29qMTci6y4PqdldWVdqf1X/83f/js8eMvfP7z1y6vSUx6tv5cXc6Lr7zMxCGE5Ctvb6yTJQ4boQL49HR99ubVueV5i37n1Vuoi06nXoQSpz4JNMCKVtVttR89fPbWT982P7HG2elZ297P1odnpxs3rtw+2O+/+MKLn/30pzc+3Hr49v1rt69de+EWK+D51jq+v7D6YrfPFbaxyMNL2dWWYyoYjTLpd7AXV4KZtD2Tio6UbMRUax71aJrpFmPNMG71wiicfvzw4T02Tb3std3r2Na1j+iNs9INWZk8Y5iXYQdKI0PKNM2OIoVavJPpwECkl3BkojaYEIO77Nu0uLyaLbPrTUE8PSms7Oz8wsrqNZzCWtuHh4tPfbbHwlfwZCXL2aBxn2B4jA7dL8dsaUPC8hIdv3hTH14jYZiNI1w0iJTcCykn/Pd46GD7pDmlpfdJr3tAQ7x2aWlzf/973/nT3/vHz9a3N1ysk8hP3vzR8+dP1KK+9torL7/2itZzX/7KF6VRyOt79vQxjqZbxWc/+2n7jW1ub9+/++Hbb78tbf61N97ATX/6bJ3w5riQgHNpZfn3fu8/kxlY6LFGGSKgyACtBXd39l7/1KfbHTVaWx+9/0G6eOBiaWkWUzfWS3RO7IXfJYyicLoQezkC5nLST4VMckOO6s9Pvnx8fThZeUKqQyrLGGl9LOvyWIiBKkV0aSeWAOTHxqZIVi9OUJhak9qp8Bp/eVnIkDIkpZi4GomuaaGFD0VziRN3aWAxwbXSiF5MCyG37ESUn4pt564y/iGpNayyBIknpqh5ZXODc7U7i7Nzde6As7EPh8ZkW8QRyEWvWdpRX84fTddcLZBusuyx+Zn6z9/64eT0mnbol5YWbSCCV5gRzPE6BGVZQQbwzdGrMX+o60z1p/l+8h3S4gD6mNKqhUWhNGDiPz9/9z1esfRbixzAYBGIFsrQWEfgIR1JWNhogbpHOySCiI1wYfd4dHKn+NA9iURAjiYTzwD3BjlQ+JtGMC2PLf6pc62ydWqwrY5OHnr+xJTL/UGJiBxS65C/gH0q1JMCG79Eu407JDpuUjAzJYHEMEyXsVfZyyUBLr3jMhrXVIe3ejRVGTRgmqc5U3CFXHOdcERebeWDcUmbQ0oEYNR9jbA42GGEi+TysaUi4xJzPQYqIM7ABCvsyRLng23nYmYyKiEYwAkr9w5ZRX4c7sJ92BTkiZl+2peSNLk621xV+jhrR7kp+4agdtspcXFxzuGJCu6khJ7bT+G4I8Meohpi3CAmHS0cqArqZh0AtJEWpr092ROn51P7HRG28fbhWYuhcz6mS+ijZ5sSurR0M8ICgcw4gCh/eqLppLlGaZoJgUiyMDhdN37piLS0EgXFM6tyBKaBfhyq7V4rRqFFVzk/OtKcHDucsqXp2cLUgpCPtnHDh60RLsARmQb7g+Oxvc7Do8HY8WDi8HRivze20z7Z7Z30Ts7W7Zxrp4G2xq9Ho0fZEI/7zjpFk5Hnk1zbrL7iYX0lVFRr8Lq0ool7nwuaf09k680f/XBrY+3Kjet42aNnT6XNXr16ebY5xYNOWx9baF65snznxRviLlQDHcenl6SoSG3ofepzn8LCfvyTn1KXyGxZZFLL/uzPvje7fHluZloUemGmyQepOwT7Z2uvA2yPttZ5FN5++OG9rcf2oJFmvXPa23H/0Jg+1pL5ajNXehIjTo+fP1lHeeSLaihW3RFy1+jyMJuXh/Ofl3KLwdhRD+yjVuNHliKlEMKTivfEgOunj+7d/eDdn2k9KqsC5O3SpCOozHgkitFYX7W+2x/dI5OMs8IV6+OJUQqLY8RJeEsp5qtOZqwutzOzK8uXrqibvXqDuNKUCw+H0uQTK5zg3NmzuUxnf/99WEyCBik0VhKjhs/jwyf9Fk2dKCSotC4cH5J5Iot/rlkbajYmUlNOF9chbGi8c9zX0TEO4xP7oQzZsVXJjr7dzKwYXEf1k07r0frTnfZBT1t9ltzw+Re/+rVu50CGJNtf2dnXv/qrX/rSr7CG5U38+fe+zU1ccta77N1f/41vfjmdt6IWU3Z/9IMfWjI5aTD/Vf0TX7z5v/vf/xAa0Ejee/99hcOXLi3RIXa3n9oA5/hUdc6J/Sbu3f3wg3ffu7RyCVu1NujfxMwUoQCbwWM+0ZSLYeQkHRcwCinQfSNQLIHzGI7zgXNILL8HaMAWKop0IAtpp3EQ5ef8EqGVh4Xf+IfvdNuiO35BRCiUJ6zB5UzxjnchLhD8jxonPDrGTcoVPzs/Q6WD0t3jE1W74eNCBUSCQR7365QJjaSPj/l77VWWKNHMjGR9mEYe4NUcSY3Jur3N9FM+7J289aOf4SZ+wg2uXl7R8/3q2uV7H3y/rwarPr+9dTAxPiXtF/lIe9jf21+0+zg/+dCZhv8yM8xjZnLa3pvv/vy9119/FQbCedPHJ+2pdvvWnadPnnPzkl6QHFR9QeDCkyWyNWNpLOXeztafPH0WDW5klI4C9xx2urKFq0iBPmRkEFQGDG5vO1hgvOrT33zrzTsvvchxXm+Ot9pd/W52dvf/m//qX2gdSTlDLy+9+AppwtGiSfz165e0ThPRNTxUKztbYSTQFv5ellDoWJaoT+uJx+NC8f3Jt8XpUWrZSJucwD1xQ0se5eFCj6fIp0+BRaVBeKgv5F1iARk0OZ91j+CLZELPwSFChFQtZ5x3bzyVWW/CtUhK3/PEoGGkGNEh94DBi0OUTL7ktPAFV2kLCWG7KhiJffuUPMa/ZQ6i8WI8Ks8GopRk1f5BNxZJblOwczJuk4dxWwcN1dMhQUzPlufctMASMRjjL/VrsdxLDELJS294gGAkrCVD3YtIiookCHcuGekV4p9+YXfZtXYw1KGR0Z5OegPp1t3+oHt03j0b2++f8ox17NYVwnBlpuqLo8w63gMY2Zc9/7G1FMCqHa6uD70l8GcAFfkhD0vjQMbVZ/kyMj8/E0JOonkZ0PBgSnEb1mGljwQrTmwdWFrJHyc3UHhDC6KBGPikcIYU3L6W+l2ZRZHAmPDoxPhszF1cG1VHM7D/ZpAhG956r3Yv2RhMsBbZG1F3bP8kWc38PV35tutb60J/ssLmuRAlGQ7OVBB/6Quff/H2jbv37+lvbFcLParsz/J84zn3DqPk5Tu3qC/Q0FPISO2ddHxQjRTJYc0ZyJPnJMPQNFtw1r5bs2ziGh/vCOZ4JIekJyu7K8/94ZMn+/YQGqnvtbX9P9HJh6m6d7A7N792KsU7+J5WEZxUyqwAdaoRJ29VHShBz3K4wOrw7wWZhbIQf2FbSZ+37/jR4eTcnI2xQIP3Aj5j2Q7ISJ47PJzF6wny/ALMUjHtOZYJ2pFvnAS+LC3OEYBUJramc66UCopi7z1IeIC91evv3Lv3iG9tf691fHbM1qEUq9OCicgePrClQGDt0pKt2Gy9dPf5Azvav/bqC7WRlw5bY62tDduT8pbOzE+fjzEQe0pFccCxkYlHHz06sD1YO+nVwycq4lVwnPeeHcrKF4ywPyeDcXpu1kapH937UIN5DllmJZH5nW//6Y0b14jd50+fIApaO6RERqamAlpk3mSVglGxOW/txfOzn7712U+98aVf+cL/7f/+f1WtKmUBkLReVZXf6eyq9rlyedXuGcx3SQTqwGwysjA78zf/5r+NIMMp1PiXFGoU4TvkBlUT/+QozAShhJ8YiT9DXSGcsJ3qe34KDYXowjLyLfIK5fpCZ3ZBTmaxPeSTu8r15S43whCEgbgENTyuaIkJW4ag4zoOUhFURfx5UFqnlqfRdjhmo/rbBUr2jk32rl6/xhSSTWpbTgG/Vc2gu9qtDa8/3+bQ1v6Pg4GWxuZef/x8f2aGVtXaWf/Mp1+6vLz6s590GaZf+Nyt/VZdf1OYDzHV9h5tPG95/si0JhcP7u8vLGmVW+f9wLuNkBFM9ZH+AOfpVTDNwVriL/ApWazi5OblS/ke11fFc9hJEqwe3n8AD/k1CC33RqA7GPQly6BKDQMBs5YgJPYhMHn91g35sfXmpA5rf/DP/+sf/eVP+KopHPutez/+0ZusLPzXMhDbn/rUp+hAV65dXVqJ36h32I0uFkuFHUYlMUCCKeIKWPGfUyLKxkGMKt99Oo+Hp+5HcrgYoNAMEpZnXJAmTVKzzLGQsoyR5MbOmqve4C+SK+eCAJCafpgIW8GVnKn4fsyuzLnoNr7BB8Ijkao8DSlyRHG5xyriUvArueElcIOEMgA9AbWw4O0loBycYAUH+TqIzngjg5bkpWeGmhI/LO9KgTqFmoeU8or7OA/rTMM4fZiNEWadT+wrExcKi87jCsp7ZqbpX6aVFvmk7piwvwRUuzSQ3IcpILU/+kja1R6RdTSsVPzJGxSoCU0U0vGS8iWf+LhFgiU+sfVApIDVIDzfwPxp4UJQ5Xa6hTGXYSf6X333iXe4MiEwmijXFjN0INgw3hUmtU2tLA4wGBvo1UgImYE2U2jT9aNDR5SAyXF1rKzbIXs1ck1GJ49j2rOkBhiLDVDEYyDkwMI5rCK8gDByHLrz7S6XHCe7UPL2bkcr1077e9/5nliTvUolRMi99PLGRI37juONE3/jyfrNF194cO/R/UcPjex3f+u3keXP3/rZ8+frujYszC9Rw/trl8kM8kWvCP8shKATMzTwOYuVl2YuA85V/jucYpCNN1MTORU7RtuK+dH+IPksuDwRCAP54jAUVEUqyPPWHJ3YoNrwkaB54LXNlStN1lFWAT7qGWP6sa2DlnpbrK5euWpG1FKOFBwII4hTBSuj9LkdNlbCiZoF87zOkJrTaV9UDcaf8cbEYZDFpflxF2MlurALYFzUL3d7VSDWSLxloi7DkHaf6gIml7Z76JzKBQ817/zeD7/XPdiZn68f91s/e+uH/xmP9GF7ZrLWam1znNcms3B77T0PxHFvXn+hd9DTLFP4iqxCQUZmb07NJu4+fqDWefHS5frCYvv9D2UHJCRoAxjOz/qo3nRW+97992S3FkTgx+GqRWCwlx91am5m0QQxR0Sg2TE3jS1OfuM3fuPb3/72D/7i+/zx/dMe9w355zaBOjtzM6D1Rum120SOhSa6PvrwvadPHghTImM8Sk4SzoPl5JXhA4rWkXeUVZ+gEcmRahA8B+vOqlUno2mFA6EwlxUiCj+q/s4XTv5yJaKKYl1oK1e63haq7BCcLwkQHOQaYiWtgUlNrIc75MbyItwPXlkjOoplMrRyvrigomSWfGn6+8kJIaTgb+3aFZY0ccWFi/nIQyE/bNXaPTxcXZXlPqkTdv+483zjySkN5MyW4rNLK4s2EX66/rQ5zZU9Kp+l3V4S7+TwYx4ZL3QyZmS4tLpE2QI2/2CK+CU+ADPVQhi8pWH9FGmU9HFyCEcP+9a8La650Lh5wV6T0wFOuFYF1c0X7rz44suLi6tMAMjJwHrps6+8/947/PM8Eyr5zdcRIU6ej3Pl9bd2dt96+x3qjpxrSq1N8n70kx/vHXSSL9ucaM4SwMfIjZkDAtD+O3/67T/5oz9Wkfn3//7f/9a3vvX+ux8YXlqQ4cooJPw+qWeVqEqiRbJr/aecMUVLajVD1hh2Ufl9sVQYe7WnV54CK8RtypGlw8ZKqhW5kiWHSwVFwliwddgRg8hfrjWOqDTZDpMXOIhnUTk5RxKQxCgJyyK6xJwECRzw0eEqTwXS/OUP/pT0cPI6iBnCAXkDYdRybMT715jDcDEFD1X+j/Fkk48RgZwJm/DywhNaJCK3ot9LFWC4dEIl+GJCDZi0kSvASmIerPXuIncjDAmx4LeRacqXjns+oYIcU0Iz/QZJP0MzIFTISxS2m0qrimxiLsEbQhZgq43qvdVEAuJy+JMGEXgVwogwL0fAVQjLjQFKCSW6mMULdJF6kJQkJTmzZIKYyoxOVcY3apzj9D+W4ondkWkAElAKOJ06NsTTSTlCBJiu55yogp+eDglZn5yoQcrC52NlYwzww0KaArSxJXx0tIV5So1eLvC41zpgYmxv7sCgKGXZqFgccWBIJnjz+i1yQtXkH/7BP1ezq3WsNvL//J/9AX+cmYlUSsQg0jjFKCq85/HRhD+CcJyxRpQQgVyoo8Pky8YKt/JxHYOfiZH74vz2fJ6cbJwejxshVYGgguPAD7l56gAMiPA36KTPHrmTUoLxERzWZaAQkTPUZ+QpR1Y3wckOJxA/AKtJWl2Zs/uV6UvUbkzNSM6CtSentrmP6uTBMUnxznJQjYrcsiVE4sTkGYKz5/ezzR3mHebOg6S7Wbk2axyBhU8mCh29ADqQeAYwSfWOpjWHx2lg4UXbz59vb3HmPVSFRU9Xab1/3NMMd6o+frC3aY/sk8MlJeMWin159P7h5t6mAb6VdvKn0xPNucYMzZ/SUdqPjfNektpUVtCrNefW1i4fiocc9vVS6tRHl+anF5eaPNYMIWtBZcmubCNaSeXhmI7AXhWLtcPT0sIc48DJr3/967SQ/+T/8//GsbUNYVXqHSukIWAIo6yvhCTNDLRVnG7MDjiXJuvtvd3v/PG/+t1/8280F+clZHISy4JBwkaKysI5kF7wL9iC9It88CXYiBwBEMQCx+IYD42EZCrvTjmdj1xGhAerQ3Y5EZ6Xo6rogR6IyFIiUWNIMzCPdb2nWanciL/l+upR6VBslY2hLFncwhbRZaFgunV2aKMk0WZPVJ1xQJAWL9x+0U6+mnqAg2QcRvfMQlO2gxt5FykK9ua4eS019dTAja2HFF9ZD+QiLPJF7p63IEjbW3oaoY5brl5aHpxOCX+aDXESlLZVe7drtGxfAtV3fA9ThUuKwoi3alKFr1RZ+4n4CLBNj9WMMwrWVP3GzJzpaxcTXmpTuHpjjBKkXQtDP3o2fs/jTRzYa1Dawcnz9U2bpUmfmZ203fYeJJGhwx3u0sKNtV+AAnFjQH5P9kb5OP/gH/yD3/u931N456UhyBg0I1rbKUE9k4zPCSg+IQUFkaaIGuh5WbkhsCnsNv6GIIH/RKYUeYV5AZZVykLECeRfshiycupqmfBZvhy5OTeJPOV7VKFcFKTIPwtYyYCw3AQILKmjknQRfsRR+GL0++AUMyHWAeqNV9Phe5yF/C2SwIPM0DQiCzLxUeliamtVEgKHzpWaqqUjA6F2NjtVEyDhiOeKIQqJK2k8xNX5sIiFQZovtq0kU7KynHQSC3mQj8AhppVfi2JnaCJC1onCxQXFAiPYUvdsxfDTeNByU+QJQKPw0q8iyTUGT5wFsP5femwHPsW6wpYykTLBjyFftJ7IyoRwXWg6eUSgFbKsvgKnpQr8k0MdSETRjAk6OOh2GAhTRdGnPAE+xhxgqnA2wkLKhj4xfCoiw4BVAjhQuT08xm8kQ1uzRk4s74ylXZABmTIbogcIGef8IL0uxqeY3OQW8XN6vEyxe+3VMb2o+90OpERjk9aqaMeYudZE6cs+PLa1sfX00RNLL8VZThSb47h/srezb9noE2S8qjjxRmvMx2kFWIJcRgYQY8dkcRAUYhFwFcuBvbH9NCxT229rj5m54SO+gBGPtSvIYV+BRPo6YscyT5Fu3PXkAPaAy4z12VjmF/U5eXVnGgdy9qbrU1GTsS3KLBNoYkIfKbUxqa06HnKOpzzVLXKVLecvr5oHm/vD+3eRDBsOBwcHDKIspeBJTdQBM/KrYZgLPPVJWiuRsT8AxPY001mQRKrzx+plqYU2A3NSaS1B3trZOT3pz0wza7I94ONHH2w8eyQ4Sygf9Vs3rq6qSyZBLfoM1+XRSbPW0Lu71z1pD7oS/Q5O29pHxqbpqyg9Z5maOHLmdQVWpYpS5O1WbRZkRivtkW0lY+M3vo1w/3DzqL/p5Uh75QhlX1IdzoeOdIgxhjsvvCEV/z/+f/6/DEZBhBgl1yVtR6zEM4NRp6e7+v+LwCisUGxH4Hd7aFQXjzc+88ZnLy/Cr1NNuM60UFFtCm4lEAfXo3KHq0RYREbhEPCw8JhIlAsKKqRKyBVjKIRSGJCfC0cqf8X3V5RnRB2OZLGRUFCAliTlzUsxBBpdockQS7ko1+XdpBuVOP2hFfyCG94ZW6UoghWp5pLYWHm91deHXmTCih9PpBdGe78Fi8Zmo9AQ9jpm9ftdtifLX/rEwtWbUL82XGtMr4yOUx22R/dHrfvR0Strq4t3t59rVdjpiZamvHdjc1eC1vUrlw+7G7qO4fRamugpeNBRWSjJo6Ykn1FiPxcjhvvoV+meMXAwGKFrEJmFjt0SF+LwxuamtGnbPNrI2JQWl5eqJkkffnQXAUJCjgUkbwM37Eg9PAQgQrBTHaO3tvfu3ns0O7c0fz5sE56Ddp9EISOtkQFXnI+jxlvof/7hv/ABBBwcoRFX2A7ICm9EqMlXATJ1M32R54R+YuFaQEoB9ImBhe8HIcykWsXCHKMv+NNi+uJMdWRJouSQJXikpXELNLCyPrFXQjjfgz1BJJeG33q+ozzNh+mPDqQ5qFkxs1JS4NUpSpA8QuTFbIq48jTf3ZjYDVcexjkUTbk8J+czCzybBUk30qcmYwhbz1Bx2JEhsT7mc6NsGGpbAETodVykKIx/i0Wl0CoCJs40CZeIFYtnyHlQjEHkijigMv+jPxAtHz62rlctx5Eir7jDKQWkV4R+5Ce/3Bk3UfxuERoOwzHgjLZsg2RB0tgAIytsy0XhA5VmXRaymnIlrtwY9IoumflWzyGdqAWBLfQnRzjH7ACq1Q/XElxBdMxRdtG0ElFmlhJce5IquE8yaa108hgf6Mh7bhMwu98ckVWpJcYjBHAn0oVKLxk+PG5jPb6oCUd9swBgY9ZMz0hwC2hD9cF0OGdAgByw1YhVo490+0le4A0ANdmRxo8537xxS2BNhwsbLA0YLDcRZ21pfunOS69EAZwYo3mJCZlPJpoYYY4stHlih2HlRY2lg4faopSQ4AZDI5Q/WcFH9IsFs9fWTnANbABPYVN98oSAlCrM0IHInkpqeHjBzGjWaCkhTgTs3VEfIfCAurq/t/Phez8teaZ+IRpVWSIW1U5JWVXzgBSDEoVhluVVxtTFZo02UCqHL3DhEHYU6zkrSG/I20MSkNOz0DYglKQsW12uzczPd45OtQrk2BEGd9ADFLlr5j5eKHJne+vJo8f91rZo2nio/FRd9om8kcMuYT80w6HKY51NWLC/mfrMYFx8Av1AHG7vlJG1+l0kjTKGUilBrogi6MjT10lGyoZmBdn2Uq+nSQsCiUaOxGZLEvYEoT5m7/Wd7d1NdvREo7bx7OntW7dUG3/329/+4MO3+U5b7Vppo9o1WddAG0zWSy0aJxNkP9K8cWQcK1OcgAL/8i++d+vV27NLrDTpMpQ6n5AADIuKEWZCZYHu/peEPZzLkArAXeZXn0GUQiDgXX2/oLgA/OLIBf+tAwpVpAdj3elXn76XhxVy89wYBN5QWFjeFFFEZpTXxCBGoNVa4ztRWFOEFF+0hWNU6QNij+H1p894dKnOHDmoyf62GJRkDHuYHgi87+43JtLbJa6CseG52YlBd8BxenS4y0gDawNDXC6gBsGZwcmmDV0uX3tFf/2BnbP58I/7tHSrq8UEBsPvagCud7jXG+FY5+CAIWACRutM8KMEX+NMq8Xrjisx3C9dvsJWJspcxhyk/6FB9gzsibim45QtVyhrVkFnCW7DJ8+ef/FX2GANTre5hTlZJHz1dMy27Un1DbDvq7SU4YTJjc1bJcJS3eA8r6mRUKlxH6Q3lHhziR8YnJxnp1hU2LGXU42SnXix2CYV6eI/jqxxWeZq8TBU0jhdR1MEAFPOkiJXRBH0sn4fE63bLa1/zlh7kApTyC3JvcqCQwkvCRSLRw/fs2yAFw9P2GACeln7EmfyQ4VDkVvyoggcD688lvFthWeyNGnbJkJweUjZ2VKQ2p65BnwGInTXsBcT0Gwp6pTJC1zhMhqeSHno2gRccaVUC/nMvHmIAXzIpoyXapkRYGEEVXEL4lAoNsZldEtCeQQGECgkP2tF3z4Y0O9u7rY458zSVMLe8wCMMEFan/E6RIAHDHqXOoDIXK1bri/2MnA5uLWcCbRiPgWGjnjMOLssALeJwpQRhVXy+PpSkkYOO126cndoMK8Bk3if6PspNjxRAtfMx9HTsRE7DxzJPCWph/sHrf5gtEOgaSilYceY/L0k3dYbNeKK2930x4/gZ4rbo9JijiBtXYt2LHoDTrFXXQgK6I/n56A1PVVfmtPN1hbytaNulwExGNaV7iUklNayvZ4NeoVb5anL67TmV65e5zmBwUqOzM58wYeOVabIjZyED/+gRzF+/DeKPmzyJ6AVJGG0Na3J3BxZERcHtmOp4/iWKk5nCjZGMYB/yYelMI7j1DRMa0FAe0E8B/SSLDN7WCaDTJLN9aEpXWJ1tDhB9MltGRprWaLoZ4mgBvPzqrKKSYuNYJBRWa2pWXi6GocTuCsQxx+dBD99g6e07+Oisfm38YMD+xIHNHF+lfsffaRlre3sktORIGupgk+l7+k3v/n1+x+9++DDPVzPw4bP7Ag1JDY7O99oH5xPTYw165OQRhKi6ZqalC0obzJw3tvlbiARiZioH0xo8vamBP92MicpZCxSTHOUgxZenJ7VpvXanEp2InwwF7pYaVQ6+PGbP/zo3ntQDt2ubzx/6YXb2oHfv3sP98Hprl+93Ou1q1Q0Mw3zhzvpZsCYFHPlSkrsh/jbN+apxk9+8oNbr7349W/+OugBLahaLGtazHtInxRyK4VVFPaB7HKBURWbBzZWbCtiyrI77RWIt2BFdRF6Lte7rygNYU2FmvJzCB7uYmTxj/j0z8/VP8Iq2ljx/eTxxbBnk1jIMLgglhSk6GfAU/GrDKJIPqJlb3+HhsfW5qQrDoeoYlLLvGNnZ499Hno33LGxg3aL11eaKLtUdeeDh0+FXmWSMn7CGyZqjA1XegsbzOu4FjUpECbu2KFvyObXNQpHolcn5wxmhgvO5S6mici6lNS4BSZopSBnyOmnC/UppHIrPA3ppVS0d/i5z33ud/4Hf/3+vQfkEETl7Vd+/v2/+IuHBwfIyZXQFfHwDFkUbmzKC2qUuddUdzk7/+DxEwqunrmyXqGUNqvCbKNHw5O6Pcl/7bZNgQPFc0hKDye/LUE8gVbMWJ2NQCsZUEjUdTEWSJpIkvDLIkLCkLNwH9vIkVtFLJfxZYgOo/dZ1p+qWw+UMXUstBQfBKE8BiNOBMdcilywmmHLGE68je4tR4U6Xpi4k8Jesb7y8PA9Hr/QO9szUuyiggpWuBCMgZULh4O5uNMiroI/qQ6eTIi65Bozium/MrJtCTU3S1rp268WHALH+xPk1H+CyntOxZa7rMg8/bazU6dmuBAwDsCIkzKLyDbiC/rhT/hYjEapFqnQUjUMF4jKcYkaNqug5XT8O2jt7+5vrm/zVLkUlPIJ4uXwHfY76SgnPNCrMLW4lauTEcBlyUyOEQvmeJzPIFkRXemVKMrK5xgVlFEX/dfFQ6cn40N2gTvReWNCT0MNvyfPD8fZsIP56QbGZTHOtLAfPdONmVg4klk+FncAN1J29bPVwUS6+GK+9klKHi4Ud2W9fjZF0eZMitwN0mAQdFxAzNjDF3iuejpId9p53OGxOiq7ZK0sLc6K8Q6P7DufeqZDvV7WbVXQav/Zd/+cQ12NDo3TpDSR09LCcxcXlvnlSSzXZ1LwiCwJ5KNh8HO4mIwoLNiCuCOONToAF6RwHbkC04icuCD4Rou/IyQQ8RQ0TZ63zTsTmuITzQL5HuVNMkrRKvw5ph8lthbJdWhDiMurEovrKAiy0qjovwzB0uI562gR3WKAuLyR0LuhavkXNgStKaeJysr0YenrW1n0MJ/m67F2DHEXeBoPXo/LrItR7baebu/ZSMKi07dkrPABqiddnJ9hIO3u6C+4QZuO9Xp2zK2q6FAZ08He7mxjar7R3NndsZzEuVg7cE3WpwUkivLFBaBMa2xybFqhj7a6AsiYAB4d/prhA2eyS/E8baf4S8XsdfaJIsazZyewSB7taUafPH/SeX9fsTO+gbj+9I/+crJO/Zcaw6o47x721NMYqgiC+B0dxdtBqN/vENYQBn1j5RidLEjLPTUz+53vfEdnZGKXml8xcStJV6uN2gcO6YbJx7gC8iLJQCyY8TF9FWliLdi+PrN45hMJlyMEmP/kiF7omnzmhwoTMJO4Z9jt8KL6BxTl+kK8+WYMWeugO8WzuG3LBXmF8z78op49AyxyNWonD/zY+P6uvJhFTImtDNtu335BH/67jx5YAtvYQw/tNDzho7v3RcA//9nPvXDn1u7mszff/IupWkMzlCePN5YXbsGETneXvpFFSqpULRFP3eBqmsaSPycL89P9Z60w3VLrqR8NSFp9yAl1cVeY6V1GHtCEtUbJ8yvq8IX9u7i6srO9pwiSNinBfXZh0S2Ma/vF3Lt7V2Ouk6O+OXpCOZJNrv7GasijYQjq0lLf3LZM9ASZfB5S4bNO8TALj6e4IEjI5gpLA21gBUGOhwiep0DV+iX9NJHAi/oe485yfQz56vVWAiG6zDh8Gr35CMmguwIciEiikFXO5ozEBlfmsvBh/49cpOf6dAseJ1jG1VWEWZ7rqYSQJ+eITcb7GYvSYKq0CyYRayh9LZCCvr/gP65f0DCngCMYwtwVJxxKgjj4ensiNvF26j07ztFFMUxbNdkp4rviS+kyMbKwODPXnFZqJbYxWRtIhZN9KoUDIQlrsUcHJ127SQjkDyWuqwZLmk0wz0HZsvQwL9MrfBlEwt+CuM5TZOgfbrGJmdBX8hqSUmnyJZisTuHoOF1HzdF8nffdioAgb2ylPZgXjuypJkXHcUEFf38CMkC7EZQqs8MZ93pCgGb8RmhgaNLih6vTAFwf7OzITjw8nBwem60PzdWHe5BlcNTeP5OirBcqHybGLLA3OXIu3U5xsXazGs+yjqgxtDP4DPLazCHhgCIV1EejeDXepXo/2+zgIKyWY0Pi484Ez4fEPWbH5zm4tzY2D/oHLpMv+HT9ueYUMBBfdTE3T5UCTnZQOyQxSnxQSw+Pvci6RCjHjB/itoaiejfbYMmCRIfJSCyZxJBszAZUvGBejcc8fvL4QLbH2diRzLLm6vT8mqANQAEIUiXr/QNpmRQ+u91qw2/ymssuXJS6xLXPFDdCxCuPD1a1Dg9AeW/j+WtvvF65LG7cuFVvNLd392wHLwCF2+LvVhDArRe6IKadjOfESAtzNDywiriSYSilWEJQ4RFelJ/S6T34QPjJJpe8wI/vkxouJsfGFWDnHvQEm5hwDAhpqXLe22k/fviAFppdb85OVxYXKGLyzrd3ty5dWplvTAmQwDwqTLYenZw8suUAfB+pkY3qhVnMns/6198pEYizgW3fkCuTjmzgJsf+OCLELRhJQCQ4iXKw/Rhq0iaVSMAheyvXGgenB8wjVpfJrlwaLx7UuCU4F7c2dzlLYSaFPVxCSxjuZdmzCeCmd9zRSfyEzF59WDl/RPmePHz0j/7T/+x3fud3XnnlNdqaQM/09Kzx241sano6C9dDpDHTEF/KN1jLYSS4i+cF3H6FRf45CcI+nfaWoAo9jfpNf4jjJ+zIAfIOs5ZFixvhcPT3CaKcN4FZcJqijTO5N3HaY/FCbl4StsDZXqUM+owSbNeMtEEIAaKg0C36TG8BBDti+7ErVy6r5tze5K095JrvtFrQUgMuHS3tEtvORp0JDaB0MsaWz8+ebiKVK5dvPHnwM1vuSkjqdRWGhid7LtzhUWeUPHr0tH2wT49pdyR4nozbomHohHPV7OChvHkNoN2iboW+bpCwgfiBM8ojzE4iIoRwAUBhPuahKSj/hD+l3XNgbq0/R5iQW6GCrqGACRWjNYBf8Uw6I1kfVAB4d3vv//R//D/TbwTb0sCH2kFWY5zs8smJKIopmeV6iRNG6StvkC61ACooU5FFERZECP3b/yjv3iTEgDnhRVLJwFbGm+8GgOPFj1FW3TOy3qDjvxbVJ15IZsA1zkPLVo4wR4PJrwRQeG6MhmhBvBMpfyJk/QUMyVEgJy7MOIjinnjmCj6h24oFk2e+V38KAdtdKUIBfVCYylG01yErYT2cR+jUg5wE8rGa8k0mGjTN60TusINa6lQ8NJwuGX0eNGAeBK3MPLuKcJvz5PjHs8cTQvZIPnMxpPQK0tctwfQIdWelivk5U8IqWGYs83G6QpVRSBdnEmTMJb8S9I26iFVTxdf4ADMdy+ZkdZRphZacT95UNPRwQH+G3vx/ZISGkv+ErV0c+dO2XvL3QncxEqNmRYpGR2N46bIjitUYo62PdZsymAlZG84mz4oMM3br4pUhNg38VUyPD/E+HIl34LycgtJI6B5jRYc0UAAKNSl1sn80JAnZeFHFpmGwdoigjREERGMjtmexRvrmSROfPB2/+/BROqVRL2AO446WI+qrdoTLzeDPk0BlysYjXDx0VuPFwyXRFfqn9vDjQdQQW1aRhoRkzXQUrOAPAk3hoIaH4s4nyuia3iXMA5v1fkqosogHAw7ky2GolYwxcq+4EDZByGycRkTx2BAv/fbw/fsfYiiY+1e/8hWF6XsHB2ymhaVlFkAZuaS+8GIWkofHM3M+MtWYFLuyPt6YZSpMs/rkISk4yRbi99BoWL1gNuH94N0PQAsDAgdHGErRUaams+9isuEp0snzAPNTXu2nD5/t7W1RurHV2ESpfT2TD3br+o04nXTL3dlnXc/NzNDs9/d7MwvLsdB52kfHIT1WH3kPh+EJ46pRkxcB5o3GSGtjTyu808M294jIHWcxTyOH6HEvCqhUASw4Xuhij3a6RKT68vTFdwYuVdMsPrb4wAXKNbOOtcGeLRZtmgKIno6la1yeIpOG+iPyarsbqDUy+oM//97Oxvrv/u5f/8rXvrq6dOXAVoQ729zI8UnbIIpQKZtTiG7QaaxnfB7QvnCd8BTjg9Fs6pg3iQ2U/+Yv6Gqt0XAIJTwr6+MOf+LIhgPyMNzPZAbEEHrxOGsUIz+ulzC4IipCO2iZFzSajaboOBsvC+z3FgHsRCgB12nS+QxfATlrZNVbe3vKFPe1ZtftaXS83enpFCOyelAbHfQVRYJ2iOsP//APf/VrX9ndfqZfjHghs+ztt9/52tfekAQRmF0I53zzRhozzUxV9+xM/dLK3JMnOyJQ0ZxHJ5luIE/TqlDR7IJdesIpxAvms2ek48eHSZ0y39Zh23cpPFIZK8GJIQu2SeF7/713d7a24gkMT0MjaTyP1kHfgD0n3osSi/IE5GCJjbO488LrXIBp+gKkSNs/yxOIJWoYiwjhU9sA1lUprwr0kpUbOMoECmuLPyWH27OG0TKDdpE3hX2GDCAVhpzoFpdK0IIQr5DDSptjrvfjBbrkO9TIJ0z0pRJeWcVIPWKFM8p8gldFyhWUiQvLGY4WVGDyxphML9IYpudCEMkiuYZzg4ij4XolcKtPBFZfqk+Px77ABSqnm8XZmDYCelnrUjch382QmJtkdEmW081G/EKndoJK6gQBA7xkKt8AUOS1BS281x8FPIBHVQAoA7ZmdI4jACtxs5ghanHS5jeehOJcIpRYs73QACZF1ljO0BFOJKEqTwzEA4e8Km9xZXUyfwZINKn8urS8AFCOcN5qqcu91r8I02R7x0CPmMW54taXQ0Hg7A71t+vDy7MT09w5p2fKpbE8ai6tHG6Mj6F/lcRDkrI1xcjmWQm+EZhQCQPxNGlSsQItUOBRziBf382luE2CiwbKnSGCyn9kcUWDuL9SmzpVz/R5iqR56W6GNQU74ZMW5pwXnc7GjomaMm2KNI35HjsZI4mPgsxge0uQoZpRhkqgiOOTOKcjew/ZElYFvyXNi1+fDzMUmFbLQ+PN/snosULZOOhizjpAz4sczsCWirqsi5f61XlvDC8bGsiolRLILdRp7739szfJQa+yx6AeB3Nzi6EkWZeNJgfw7MIqqQwangJKEz2Vv+PS4Zz0FodnuresXMaLWeBq4d2pDiaoFIdyoOz2s8d5irc8ymU8BNhHXOHN+boIQLOBz6pbZvFIAoSfH7z/Tr/XklWhQZlgweCI77mVmuKJic2Nzd5Be7rWIDUlr7PvRyTYTEwjF0SKQ2SDYQw9jvQyROtM21KFrHexxloL9dPj7eG4x/EezeQH+0fbR4ebBK3l7nUyLzzB7YZasR5LIYTpz4LLwRMiAxKiMjtwxhYI1/futDTF9oGTFsnH7IEu4kwxNlm0WonFdTs0+PC9n8mTl6//5S9/dWF+pUHd1AvARi4nWjbXoVfqRO1EJIfQLbG1zIBCGbcgFEZHtHUvTKwprC0Er8ka0sCR4GvhZglB+hNjMhkY4D9i2/y0wONdEv9tmJJ8qyjc8VwVXT345v/ol/En2Zy7ipN2e28HruJqoglhC2Qw1SJMVRaSTCS5nClopzQTbyhMB5Xu3p6p2mkYv+i73coIJwhOjack/OCg/cd//K+Er85O7NezS3fS30PleGBbQR9WJwyBkCWR9yanjhiyCrEX5mdwCFw/fNfrRYbaLUqtYQyf17EmXFF7bWMN1aVwNeYE5Arj8MzaaL910OC6Pz3+0Q9/aJsyu4Bub9mAYX1vZxeD4QuIpziMwJpb9IgdGrDXeWZETdZR441JMaoWkXE+EB3gcMJR3IaLuIHeSFljgriBVeMLuQ6qkLyMKkwth5m6GlRRft4TTEoKXoR0UkXO8ZQApBx4iv8GO4t1VL7408plvG7NOMva5DoUfHEb3PRThhVZ9fGRBOlk1lUZ39VZCMZuw5iodU2TLXpWiNn3iyvC38ogy9+F7UQ4GTQWwHZC1VhPYTrssxphwWVEQXcF/qvOVAmeaPa0mshR1voRIEFBAhso0nndZn7ElTS/s8N8kSXop1RsmGQmEAiU+QcG7kxNrWxvcQ4KhafBWl+gvEkEj2LwFnqgjuFfDmyx0toKsobFe+YwH385TCt/hp4j480FnB05U+JV4XSjozLFYYMvOY8sPz5EUMJltc4KcXhyfkUtFpyvRHK6gp6d/e6u5oFSZSfPGvJUpKLbu9Jy5GHQWkxLk83a9Nn49KHrk1rI7qbqeJjnZinK0pbPIDULpeL1VsoutoBvRTgQGBw2uPXQ+BPDDnWHP9zUiX19QwKQ9DHclsOFaDGPKb7s0VE2mUf10w32iAPKNU1tqBPNqWM2IMk7xwnG+25GNDlcKIDBIKMmE/nctqyuAJD5Mak9m0rY2ebJ+WQapumsYa1YwSZRgOy7L95rzL7jl+wYygNN03lC2RISjdqgkVcaEW1tPDtq7UqPkKnDYJK4L0+3d3wibqXdkkdz1k9OTbs9b6EYzcqFG+wedICCv4v4qVbNJ8znOeW5hAFaRXgaPxuj2UG2UWxxRVjt8DQHfT9RroUlQks2IBxk9NfCYUeePX3w4Ufvki583rbD5jewvT3ZoD+k+qfOQQeCTzZTINXr0gLsdXRJ+yyUHhNMNik4wm7+kZCC/yuC6k3Xk0h93F+fXlmbWhAUmRpYPJ2supr0U026x4fcxSF37CoeVuydl8UTS+5RaWgXOqF4gHEcHxDAp/6S1gtw3VWWDXmQGxh5mE4WlEYma8CqUBlOj/r7a5eFLc/vf/Sz/R3VZR9849d+8wtf+NLxSZ9pAm04SNJYRuGK1KbiyveH5S+EUcxnUjHu37iTkEb07fL+QnXy8j0k6myh5jA4WI121MINj6gk4HZuoojCT22QWFf2T511xgaiJmeYSNz0wqLIGYt91NeI+GwjCZMkFJkP8z01bbA5GwwFWzDTkTM9zuzqZn3jZZH/7cBE0BYMxuH1yFGwwYesnUPqAsnK/ZWl+cmJoamZKdE+mzljDiScF1m/YHJoPWECCRzzQ6cwgbNyfbSlILvVPU15CgIsG/HMxI8atySa4r85HGI0q6wcg3Us5uxaYoFcYNpn5zbh9HDOYqF/i7X+/CliIauErPDiKExFE4DS4wKjVIHM92IFrCqOZ3Q8BVypvY65KipLl2S3eX163kVJigfeElmf4JKXh62k/CnoiDv79LLw+CBN7BJTLX9FtaxOui1aRjnyyKi9+H+BDXsHYIOAZQGCguGzbL3qZPVZ3WoQ/vR8X/wLlPLP0klrTgjn4yNshAfPL3ZWNbHy1GJehpLYUTblRGUZsBGSRgAn9uC7F+U7RTy88kJcuUyaETurUh7wbMobhYXOWTyB1prPNHnqouwJtPmi8zp9IJY+NyBlgUVhvrHoaPOGn3mJvae7wYVELjPNNfmXClTOQ0wkCU9luqDtV6vviH0SQVRUs4ix6DJRP8WBAKESyqBSQS9AK648X8r3wlaK8bG7veN6r8nnxwds57MzDCqrKXBZ5JfoBewjtUfoUkrrCNzd2e/PszFHxzrH0oelfKEbmlTeYopGiAdZGC7EUQws1qG3CnaM25Yt2lSYQSr48nr10JBvZtYnzMFVGbi+EFd8DuDKY+mBFptGYZueWFTDwwfq4+Wwng2YXYvMAb72+sTQ7ExvTBcFhoZkzOSCNEbjtJRBPUuulpkakcfQ3mEHzKCFgDK0iSabNK8CabM1OgMycOwp3nDJjyp9hienYWB+ABjA9y1IoqnS0FkqrgQ3E1ZJjwDniSvEpvkEtQoObe3v3rv7PvbsLRZXx8+5+RVp/w28WQXD2YmKSNkQzdiW6bpExniUWisLHQO20HBFYkQyxaLXbs00G7gDEUVWkVJeh9lKYo4ILUjuITQwnx4oZ4gbkF/SIeEAxdGJpZy+8/O3Djv7dKz52YX62Nn2xjO5rytLS2Gfhyeq4RlQErE6p4fNmaXpuSU1PG2WW4rqsIXS4ISqYsE5t86Hphma55JEB5PD3UsLY/Wx/b/5u//Gl3/ldbDhsCr1mTI2CK1k3u7ttIhdMj4tz6Sg6X1iBYZGNDYxawzYT6ymUtlJcdOeJysE/CQDrT5ashU1k0EnBZK4UowU3abKQrIVJodsrYYB4gmd9uaf/cl/tfn8/tbG/U9/5gurK5fFpAHtdNCDVCU+gcOmXCNoW6BdDcZySYEpCnPUlFBffg01y/O0RtwuECLsPIZGEuTEqtwiqkfFZVnB9BgedgxPt4goMUVp9gTyNSy1YqdYAognm82IE+TGMjLdMI8UkcZDGOnEcXCu901yfjw55AEi53r90TEOCzM7BhkeL2l69CQPwaboUIqC6S3ox/vuPrhXmxrT+hOi4ujV4Y2yyfp7e0ydmo6QvcPNjWcCk4pqnbBZRCSbjHnsF/8PmNLojhoHX3lpeETGTBATtwx2L8L/1cmnvtgE8JlSJ3M26KDeTsuY029oTJAhGA4nXWFsWAXJ68PAvMEbQy/FNJFyHeoDPbht2PH+MaRDE0WlDlVaMu93WV7HZMY54w0l7cNB5GbwX2u9g+RyxnfjpucAuWWxI1HUHvcGpL6E6Xp1lijKRYZRZo2ZBRXQm8/q+Pi23JzJ4HDIy+oVRapMDTRwXD9FjBUjJvSHh+wf7JSHlMlF6YmYKtRkcnH359DsUg25jT/K7pOKq6L/o6FgFowKKQgQk+/OOSnfRXLB1Eh2+qFGjwxrFcy2K3Z9HF1EF2wLs8Th4F9kVeQKOZ+pGGHmXz6hPuU+ggiYoy05KliDUYRZNLSywO4ovxpQLqiuzX/dXeImZggs1tvJ4HdAFFhUB0zyIr+W60NjlKlyTaAa4BWoOuPAlMU9vc/iB3WKgWYU3lQ8ev5GHDLRj1odbShP5pvKaMY4YMTLQQKGeAhtS25Ot40skzJM51EZ2z3pU0QB+vy4TnSbkZcL8aFtwPfJPWMkvkaBJPrVe/UOO0PDs/NzXLhIwiLb2olS1sbITk5p/dnE/tjmp6P8VmiMC5XLRcso+pGiEQkBiobps5Kwa/BVqCQWVLzadJboNJp1ROup4F5xkOjURh1AuJpDkqmXWpf8LdDTOcwedMZZAbOsS7Qosy6aRNS16lcAD0CBNNhBXJPqZ+vPHj+49xG+YxTCS/qRay+wdOmyDaxqk0PiFlLf7ZXcVuO134oXMY5eOvKYrolaANOfKaTOELN0WFBFLHvbe4qOddMpVl0ASDJ5r+QUEIbhldiD7EaeoCtg+xecC+2B8/b2xqNHD2RJzs8mP1CGtNomW3UwvPYONGNNOg/SiJOcD7UxLevWniRcZpEVYtRxA9gCkBLhuWrWVFzrHyhM2OV5UmL+ja++/mtffXFlLsiZnjB0mDBYZAPApQZLlmNpEgh6UDeYejbU6nTBkLw3S76EZB/FgayFsVRNnjA5KTpQS5jONcoiCO+QUDHTgUIfvHJ9HqBn8aEu0RP8eWP7rf6De+9ubT1aWVb0DBJL6Bq1ybTH+qRsxE+Snp+pbQjvQDHmiE8rQA7PS+574W4smnwjS+kF5g7aRp5PAiWCxnxx/OHpKStCGWtaJmsmDYFIKdo+Kx5byi2WA7csVibf+WF0fGcMKN7aZANU/JPh6UbfMTJzjf83HkmsCcPg9oyaw00TFj+k5wA6CzZTzXjEr1+9tLWzQ1NjIMnVssno0emQXrSeYxBEbUiSuspampigDInaYub8OCrhYroFn7OvtbVgyae3Wb//bG6OkgS8PKl6WU9DDTA7PmPoq1nHN5pNUUTB6kQuoLOE9tboaLW1hwVPFhNxYaasRg0y4pA40+Elr+j1RJczJHIiVBTGVaAWngiH0RlsSYOSJBLGJ88pWqBEgsjfGSo100ITYYtoO1RZHod1WNnz424/2ioZXz6xet+z+unfQpBZv3BmRlvEnpUI1wyph39Gl/E0I8niXdgIGVgObylHatmMrDrjM7eOjPZ2MYIYP/765Z/ckjO0vayHXylPngCveO1jUaFejl9wpD96LAllnaIXhvtHnkVlxkAb1KT4KegzUtj9wG8bJ1RYLUtrKPwsreYilmAYH5TstiRH5L1gHQFtDv4gYTIkQAAFij0B5BtuVpT0xG+YXMUVJbMB4RVvVZU1e8ET3e5in45AwPdCIQjmE/0oE0/kIBd4vVlkLdNqMuvlPMBf3O6a8h30KgCm0IpojTgJGtFfirjFylBsqNFDyQ2acYvkOOgtTNfmpmpJGDw6zaZOIPULIzuKEruUaj/Wo8ofcZOZcZfLWz5e8r69RU61m/DRsV47O387QInzgVdBRkBWpCy6tQu7CqOSdWkD5ijR/BJYtrYhfb5siWEKgEbPb19b0/RVD2/+LkZwAJOOgNHUQIAKbVjh1FgSDuExMTjjjymqOfjE60tWFZKRM2YPqFRHqvwCOVQMnpAoJU850KCVdFfQ0mU+43WkUfb14TZ7TbOi+vMma9n78ME9jhI4pIWe8egp0Tsa6Q+Gp5r9cfvUCHjK9F241HOtRMNeF6UYnk6Jc/PzEnPRFPGsukzSh8SzSjlglSBv6Cb9taA072AUO2LKYNLRt5hW1gVKi75mpUP9ifEgcRsPvPvuO8w0iYsSLuyMbh91/WHxSxmFsgTsatRr9VhnK4sr47XpzmGKN3ViPyF+aWdBargdTSCRX54I/VjsnZE0od7U+On80uRf+8ZnZ+v91u79cUXl2Cu8CoOnlqjZg06Z5FF3+KiDHSA4TNL4KT019rxc6ulmsUVpkq5ldNamQjRJ30TAGOik3iKuV7WdMWjYmE17uyQW+sF+Oz2YK2oqdRODZSWPiVhxrl67ujAzizqOi1mlVbyoJIJjRnJbxzuFGtGPJ5geLi5mnOfgZJgdjkWrN1hymhCMP5m2ypDyE/qhSyTNeGRYl02Stb2x/nRkZJWDNOxVCnHh0clYzUNyFJU09hZtgkpCvVH5RvGB0giQTyPX+CO81mjCQBx+LpcE68Ao5ob/yFkIIJOoTNH2ZLIrvIzgbErlPyJdLi9T4oa/+Lkvz803tzefB5HDGzJ07yFg4Blc8zRbst26dfP0fH90jPSYG5+YeXV6WsYp1zSZxJ1gG+KrV9bgEY1C30It+wiwBw/vmT76vXL1qhiVrArXC7M8uP9Q18tr127QrgCh184soCdGSm5FsA1JXLzsyRJ9deNkVwdDCWDjw3siTbGLsKWiFuJzOeOHsqXSEO8l6vNMM/nWt74F4fVf5DdEpWGy5ohbxvtZiNJ14Aq2HlAdeQVKcgaGlZM+gc9ncLxcHOKhZ5d3ZBmwUMhQ/rkMYwoUw55SsxLrB4UYgVUr0CWRrT72B12MiGWUgSUjVrWdc4RixDMKodmr9hgeOipGOsrVnjsUhp3ghrXhvqYx3BlhZTzLWC004Tw86VhuAFUmqfpEZoHS6rnG+MTwiQb7kpOFQUBTUSneF4YSlynZYZYUSfDklyNyMjBsy4TgVYRbuL93lez/SHJiNeRR4ACqVoll4n7qV8hBDrThy+3QqEg2MbbgpigGfkrp84QCoDzB80NGDqhM7oOzOioPicgsAM/p6shFRWNwS8BPGvHsZNPos1pWlY1jBKBsFgJsOi/gQZS6c0GW/d7JdmdyrmPjqIgBaxx/qDpFcImxFTdo9FP8KO0LQCipVbQH3ChijKKB2UVY0GT55eRljEr9AfMA6Eyy7/lkTPVjfdbknTO41FzXho8WZ2v1kem2xMnVud3xs450Mw/BRcZH5SxcWpr/ymdfv6zmaHkle87yxbDSSnbWUwlR6XFuEumNW1SBtGjQjoXRnDXDcbh+MUVV4LQMhT7Fxj0f4U84Gh+dnpmut3qRBdaTvou7BIChhDh1gRSJQhgWCIAIFPicmhNQ6/ED6cmx9fy5fUOiiwHvVH1mYe6l12+xne7ffzwytnXzzu0x5V1n5x988B4hbeYKpVNXdHZ2sL/74OFDG4Mko8+GHpPp5rCzh57zinqBmTQNYulCXJWmmfRTS36x0gX/E5zFDfk5MV8BjRJhsvWivUzsebww1zzqHhx1W+S8dAZxEbuLcbrMzqR3C+1Xl/1h1TAWsMYNdTQ0TipDqArl0Dc+H6sDKBpjI/2TtuZQo+dHv/rFz0zXDkdPDieHupAqv2fRkQqxpn4cYqUkEQ5DS8+CIcZMYh3Rm8KKIgjheDkZBn98GAsszGtkVMp/iCtdYlzKtIve4xcxtKm6Hd0kTfLzz9GJmtMzCmO5G2nygEhoYYbYiQIylBGvV7rVyTjkKoit5U/P5If28CQg+5U2kT/z9l86OAO5zSsHJnyIri4bimLFYCYhjnvbb/742++/+/3l5SWpmz/4/l/aIQgAwIumG2KADohKJqqUbyx7TBBhjx6gOShlLjKquDEx1RhUCC20HD5SxViit/kT+5XxBIajdv+QdB41Ex3xBDItQCPN8s87y7NjbUrhRL3b2mqMT3/rr/3G6tLC1vq7xhzlGSFBbLNLvkl2z8C/Fpfm33j91dOzR+OTHLWEqSydxbOzpbW1VRLFitEJIF6oqhzS5tS13r55BQ5j0rILb9z43Msv3+IbcOY3vv4lWpMLkRizV1GBmZPB+mhsb6/LHhTl7nVsEd47lnJifx98JFEA0+JHAnWuvzQkj4gpQgCL4Xyxh7jtpu2bo11Ac2YOufMpX758lWth7PI4VZUeYsVTvqeRTPSeBH4Cd+yJ5kSViwKVpbCxAj8B+4PHldrKKPGywL4ipOix6Aa7DtjDwz/ms0GJ4G/YQZiCP8PbCmvIOf/PL8M2HMKnDcBvORPulZsoQRlW9YCYumbuwuNmfS7SETsaOwY6nB7s5GjroiRwI/GP3kd6kWojEikGw/MzTc4VPecak8NcX3rSzdV5A/t1tROjeh0k2AZfo8gN2WFM12chd3VqcIBN5jurPGooNlVE6YUqZFxhGgE6xMzknQkIKFB4yVAtLPWMhCCVJMnbRu14uH86Pzq1e9IRHpVhHXEVhh7f5+l5tQkADhqULbI5HACQZV55NAbgs/qpgjzFtEAzm9P4wpSmjOA1aqKB2moBgkQ/Fwd/HUM2A+FLsAwno2fjzfr41MrS+XRjrLHA5PY0G82O17nss/IQffRwMD86fWV4+vaA72hCqsJ4zc5y9fB4+gVg5RWVPZaeDsINZTPblApAHz6QqDUEc21IVFy9lIorMsunFoJ72ztHNxfv3r2n/7cyLHaFDWcvX7myurJiI9r5ZnNhPp0vICC0hlFCC7fv3NJEVZs+QgUisZMocbb3JRJsMtY7bLHUSlXzsIQAsSr3aUeYPa4GqVyxWPawxUF7/f25xalet1NvTOOa4AM3WVGMnMmJ6dR1nI+oIJe1SZzQ58GcEXDW33v24f3miLW2s+/0iG3oFxcs7Hxj4TPTy7tbu7vPNoIv/gn5NKaQtIol8SpllfaehAyPnj4DOY2ABZ8EZC5dvw5Q4s/NyWnI7kUOYK1NcR4wf7PRn1UswMx//MNW6GiqA1TaEhP4LFvnzZ+9NXLUW52ZGj87fvLo/p3b16ioDx/dc8dEY5rOBH3RkwAbwYA4g7D0pQkJQZpy6asFNPIuEV1UL32ZNAU+GdjLozU3dfz1r93+1jfeYFyf9w8iq+S5FrZQmoNIWunDp2I5xF8T334EFapPw4FoOo7oEVAw7thCI0aA0cBsPCTnE0/FVJhEOJLLEk+PGeJ5LOrTI1kg7h3f6ft0DytqvH9Az5TG7N0aUMom5THqGT4lxXNgHwZCUxtLQp0OPracH9/ZPVR1JovNLYpkAZxtD0UIhnhconflppgIY0OzMhhS4sn5PXRrbfrv/tu/NTc/LQmme9j9+hf/x1rwSZZiqxFpCQ2ewEG2oLYMHdlPSuLmF5bE6p5vaK7fRpj9w074LT6Q2Ho8PaZNcUh5HJAWp9FYksAm2UWBGJIBQQpKRFqOMILhbILl/vw+OrS0MH/96ppGmvvbe+quVWxSdcgPiZS833pEaAytC+PoxGnncJsmtLoy/dH99+3fKdi09Vyy7vlH70fpjFPt+JhBg4hkVstToxFCM01bJD+RRjB2qj63urSsOkETZbnUNojBWFjhh/2EYFxweNSxqWa3t3/KkBgeef4kwUi+EqnF9ZmIhOyHjPuMDE83FouP8Xx+QVZqnwfk0uX5WzfXlLvPzC42prUGmLh8bc1OpLX6zHvvfaTqbOxbv/oyLpjit3rJOAhzi7bEP4ZFh0GgDiDBNEGYbBzjqWf4QsUisSL1C+t0X3gg+GHcXGnwLfZBTBAMLTyNNPUEWOF0FKy4HQgkwsh84Jen+4bKy+F70CiKQrRd0M9tF4ItPzm8LL06vTLaWdghE1o8hjyBnVlJwjs5OmyucOrwS0MfFy6Oyj0+fMR40PnT/ovMAUOCpIkD8rlr20C6orjYI3WMtaRl0pXYsvGHkzBFEYphG9B4dhkpBpdRZ85R3YyE6UTp5smSV0uwuv34SP6orhFGNn750pVwwcNOBHCh6AIvHfvMSBgxwQkKd7A6FuqIbGzEXYpHcd3yKywx1KSvjcuac42CZ/hKeQeTylzL9REbeYrnAx3nJ/XQWRSSlF8mApCNDU2fHk8MYUPp2ZROh1aJiemO5L3TVcez+8mZ+l/wicvF/IIVMVyseZbW3/6o1ZuScFRDhTiT1CDJuJ+4c6driZTITmhAKGFRc6DmSf18+IP3n46d7c9NjzSnZqdm5ufml9CYbi2tziHcnJrWX0PcRqwGXRnb8FxtycMEVOK7wh6FPNQTpvGp/O9eu7/d6x/o+NfrHgHtEfZ1Nqp0d7Rz3jnSkmP4MHnY4EkaYxsjcsqwOkY9TpAIetpI03IqH3o0TUCjnVn8udk5znt7xj/84OdHB7u18VP2ioCcnWVHx9nz2u9Oa77Xx7BYfcMnG1vrqJ33kXOfl9+RBAnvVvHd6WhOIWxweCxOMJ29P/hObZCd/e01yKkbAsEfUy/ZQZDgQhswsE+WkpC2pr2D7vW15d7uhlzFmamJ08OWLcqvrC0TR0IsBi/lIanhDGuqXvQLdBF3hSpvymUV4CVRIFyKF6KT842T72oO032jPiJZ5vhzn/9UY2K0q58vFLClZzDVM6hO+LDghsAWiitIbHrxNwdnI6GqK0OpYQKh1cIT/E2pC29IAiDaj0pDn8uZYGq8hfRAgSfPLbeEHQjsYh9iZsgwftlc4bT7JfslfhotOwjrjtHUixfykHaZzAL4PJgUdGnv669KtkEC6qFkNXsvD59OjPLiysZSmk0TSJgpm4Zj62qE6USHa0vTa8uTv/4bv3Z02kNMgzMlUtsSOYkrmIxFpKFp9i5KXQegWCjsRpPx3uEtXIgkiHZldXk36MaJ/CG/tCTVcCrpx4WnjZwruGbAU445Pw/09Yqdm58KIMsnkw8aeAv6ol+MnFFa1BEfoHyylipN1iJA7Mg4MYqHj57eUurYnGb0X7268Gujn62lc8qMnSBF2bKnR31CWJhponEyzdqGpdik0bqXb5nLvH/cxXlkvGqbIvulvb+HrnnmYaamUO29rjgoBwhoHigx2H22f7DBrX350g1yNg78sNXR0Ga7zbSdnVlRbo4T8isuLTePTw86vXW7TaoFx7dsx9htPdtcf/rw0d0bt1+7duMOtU1t4divfvUKUATFVOlFxSFRLDDy5g2IRUVnRiaRhvhQ8twijQpO+TsOdwdQuhJmxjEWoQCPSKyExMbPeX5Y/WHgLs6V5fqCUZFVEVdhmTmgXDKmivwLKpcrLZNfRadgZfWTh6CwDETEWD+38nf+EkQto4fOKZSORiJtBDcXrMlcMvQiurCiSKVQUnaSjqswcazoYgZmoC6WcMXkPjmej70TS4qdJP4JEaGXBCJbNbJKkQd5Fp7ulclfF/eXPA2CWHG0TLKL1lTrsNlGG415mbDNq3dmzsdmRkbrZ/6NTyZWOK6H6STLlVAJBEYEqFCu9Q3TNOSI2sJnyEtDczLnszohyo8P8znjNQIeA8PRDEsACp04XB/pUo54LtXYU+XciVVEmU7M17oNKwM8kwwp14vWaNcK006z471WkCzfyNnwIDJYtEMyvi5TsTWLQ+dCFYmU0xG/sCqLUDQaQxHzJqq7gtN0FfJe9oXMZGYBmvvUq5duXVsgC6dnVxZXr83NXZpuLtZ1ELPPiL4LpcGr2XHWGLrRRhlMVirJGNTKskcnluTLzyNmv2ePVxM44hzsqTuJULN9VPuovysoOz7zdOu4d7J12AkMHQWcBUPQC3P4bFhlCWwjqCqIucDSsKgnR4+BKAWr+0/rw30xNR2PFpYWZJ0TVAqU5DVnDe1VrqpsevLq9Su89p7DeeIhwGeccrqajUs6UwgMOHQtwmmU3XiXLX+FxTFrVhddxY0mZX64RsZZkgA9J+IqIV4Rp2HRL3VXdprf3d5stw64r6QWMuEXFuY31p9BWjvESaznAxVeEh9ki+hhnH4nkJQykdoMlmE9j03sSZqPpjAaWQFy6gAE0/CHf+9v/R1KryrlodGpoRFxiCPmGTrDFqPHAhbqg8qfqFxZlNB7JZzKGjkRVL34jy8oJ6m27gm6h/GE/CJ54qGh64UxhCXl6aEBssp/C5PKs1EYDYkUjn/I38E0NFhYR/LVIxSjhjLl4gCHgWie6tTtQtyUsXoRUjkiPZK/MDU22VC2hcwPXRNmzNvC9CG07JTJ0yxnnV2ezKTuniQiW2Uq0B/YXtyWXaULQCykUbvapzGrM9qOmIT/2ObCROz3QqNDwVICkU9kktETcjbtG0nzAWvtjNXwq2BTDFCV7hHD0QgcfjRj8HBl4OB2zUyHRvZ2EbEg46E8+/TnFOwkxMBDO2ot4SdVTw4Lcyjr3t9sK1z89GsvvPLa6zduvjQ01ECCHqP8jsbHEaFEQbGKHXBEeRlo0F7sEG8Ep2xOFppJiYNPZXhbm5uWaHVFb4st3FODD5z/5LRxcrai+Bl6rD/bCNth/JL/RKkUfF6Kw7Pdnf7G8322I2d4n7Q/OlD4t7w4029xSulV2RmxjRDL/qjz+OGHuzt7X/7K1zm1WVQ7Jo/mLXywItgQnEIP8CQmlLJd8okWCqOiPyeNMkgHdQJa8IuMgCgwFbJEaGErVsFlZyMKeCgL+bVC1fy3HCMp+3J3rIiIOlfn9XSY4BgJF/HIEs5JN9g5L2icI8ZdQdlQxuh5LzInfJfREbd4RpDQ9FTRrwgq04gWk6fJRZaeG3vLUocWjBc6+0qPKJjghfhAhIRY9kASx+RcuTcvcYQ/FuuKpp0jalSa8hW08Tu9XI1Coi85MHdSirA7H5taEKWfGgxP2356aKQpSU2jWPZVY3Y+PilkH/OveigUDPgiT8M9Oc3iEHCNTy/y/+qoAFmGF/eR+9GzV2Y5SFuVQ2zsPo95bgskCxmXu7Sz1NcL50flJyBCYIcREPcy8WQTlcyUOIsp3KOcfkM35q+GmMwWdYU/0dMzisjpmPY5AC3yMyaXLmGYR047SY20ojgCRXVGOOtcszko2zo6bNu+Ev27TGxDR4LaxHxjdm26ccm2lSOjTTWRjIqPRw0fLL5Hpegp2UJUC4pUGUUmN57mu5pe2TlmYgqpTkeGonOtD3Gqs+H+0Q3G7f7hSed47MGzzvPtH+yIlUULDlpXR9CkHAQkh49fG/WkPBCBJmIsh+2t5uigu/3oyuIEU5EHcWFqaHL45Mq12yeDRnu3vdPbm5mfUcV2eKajVXupuTzJD1ebQh0SpEQI4I80P+5QKIeOl+aaa8tLaUthq6HR8fWNHVRNDSepowLErxtebJAXvBsMosQArHUDm2GscWJqrn+w//TxfZWXZzptjJwJmB/2vW6XUcXyG7EP2NFgarqma8noGOvtMJUa7JEgGqVe+2EBeR1L0s6FJmFjv5Gh9tjIoY5D0mFefOH6xPQC5ZAOzAVUV5N9hEG7mxMbPaEgUHNjRa+BpTU1eJ8W6AKm/lO++vXiTL75fwi7ICdOQsGC+fSp5B0VPuDHUCgOHgiEU8Vqw6mT+RtdNtYgRMRwoh4W9wxScQtadpXoHDmlsyU9EkkfdofAZfiY5Cc03GLbxfj9NM9saBtH32Zyls4aIugu0rUoO+dQU8QLRoZsCLa/vw5o1kVbopPT7bNBO72KtBKN0ZSSamPRbIu9ZYktHBUrWzhA9IFID2WIFoDRxQtq6iZa6mfMOHlhjoAi1lWMewQN23My2kUBE0WNVLQ3aQQ5W7givrh4phLcxYo5AsRrJsJ6iucNmVPcbHGvKeTQhBGc9A62Pnrnzf2NdTCEWZQ/qxn4nZ5NTk532sQW7ADYsEo6kxF6d43jxQ7S7S1Ptj+nOdjYg1XHltDDM3w/eZ3SDuW7Qgz6EQ9NSr8BAUexNQnmIOKM1z5+9ODn7zw8ODhZWlyxe+rI2MnSiphqtjQSGdGHK5BJGxoy8dgOpffuLusUY5m2onvHx5Jpe0HBmwKccBlaOV2RBRLGYwaFbIKDwYWgWvGMpS9R4f0gm0sq+QecHMlpRFEdATMAB+aRfTmfhK7glecXGwvqkl95eDlbLvYSNZ4lBlMQF//KUSExYilrmVeZQtKQLJyMOAatRwT7i6TxMteNlqqlGE9YeIZhBJGTKE4/FcqlmUl9pAVL5FDLYuL4ZuHG6CPDtKSmCEoIUiliJb3ynBgyKYmkXhSiwWdQb8UNwUa7ztNz4aXJwVD5JwI0UBQ19OH9e0ncpcmxzUpUODCKH1BKTL4EVBlgUQzFDqemCmQisA3W/80aDHj/WFDSnqNnuM1v5ahfamZcRdLnRAXt9JjIvsEuStKRx4cLWDftdLpAw54mCaKX+iMTwndiNBshpYk+iPLxRM5SGeSWx4MLZwmWlAhE9KkcZSG9Pn4b6ck8qEcdbNuOUDLNxkZ7gxE9e2SlZb+4yYl56Wz1GiZyaOeWKHDwDfljqt7BB2CmXlVMuTTsyZgqMvaZWEfAJbWEPhPiJTUFYAxIhnDGMjk7Y9jA0T4ab85f+pM/+wkLrFEYI74AayNeeZH1ZKpaWfdsX3AqUAGkeL0nsAt7rf3G3Pju7qOVmWHN+U3h1mpj/7hbHzlemWsO5prrG7vbOqQf7x7VIt93nuw0atNUB2Qs+Cxqh9SxH/VVHs5d6bPEpLJwalQn6k29JyQBswxlUhkWzA7mJsUFnCB57CrLHyWbEdzrC8YeKWI9P916/tTOIEoA5qZnONDWt55qsAkTNPIZn5iOjo+2rHERgVnWFG3A2EhCqYkggWkl8Ghl4zjpH5319HW2/6tMkoWVG0PjR3vb26eT54psFuesu+GlyYraOUot3TTuVQpgoTxIV/RM74vGGFzOu9EOQgkpmZRLcICInMggvwS1rRH6KvgIQcMngqUx0eEUni6/A4akCDASipICWyqLI8pT4e95FtzwvFEqI8hg+9YqUvm8O6Z44ex0d+dgYpyzjuZEmT8B0WHb2Wiyt7aSvCEJQCP1uFX4sxUkHPbtlHJkz7XtZzOza8f9XZkXgzO50/JatQIYiBpmYh4f2VNSqs6EhI9GSSAbd3Gw4AXG4IyrItNgNT6OncT/bLz0IbgbPA93IobhMzxmMFHH3RH2hRFVUPLJUYsYgStTtYCBKCBpUxImxHHObok4jJvcm3RjHrR2dyQr6cXkJZpjPX+4tbf5pFB5omKwAswpyuJ5uzvtmSkpGKgo9p+f9GVijChhF1ptdbZIvxaxMDLMrZqsv4POpdU17w8zDzcJDfqMvcIXig7SqSe6Pz4rwUvaUHZFSCr86URt+vatl5szArFiicft/XWxS1E9UPDCw/NQzeFh680f/2BheWVMalZwAZDiSIvmHsjEPIdiIEkn4BPIDjT+9s7smhZlhz0D6+BELCD3OONGeJPbXXrBrmA+PIYo4WkFovkAfiw2eOo6QtHIMMZA3nxlizqRqF3GBdQwjzNQfWB4bb476WL3REKGbrOaOZ+7Aqf8Cp8zDCM02hh95b06X7FsYgb6k5fSTfFZqaaemsmL4HekHTmQ7TaQhHZUNIRQW8GIiI9qogKUpnzh/PSYMgb0klfR8VwIFDQ7s4SsQI+D8yMoZ4IBWgGNSpMRj/v1X/sKeyVmDpW2wN+UCgS4niBEDgDjiOaJBTeAdAbjzqfXGL7XsFHjOQw28/yxzvyVT6sSyOfijDDLWsGKdcWKMsEycqwalYX/nU02GzGYvCk0YPhhEz7PaWfepZ5/SPWi6ns+JZMs60oLCID8Kxe7kzxL8kg5DUpoL8Jbodvhyd7G4Njmft3zoe44oXVu43O+x/OFZiPR0yZPOCrLu+ObxpGG02ckMMwnDD1F2ZQ4k89KZFKBc/lShsDHEunEsebTT+5G/IRyhKvWQfV6k/u+ubA4JRjkt4J+BdVBK6gYqVHynbhVPZzIITcomCASRcxiyevo7A2fdKdrp43mxDe/8vqDzfa/+O6fLK6+cuvG529cI83Ot3qt/nEfJY92a32ZlXmITAT24xivS6tzoIFQ/NtsAblt003cLN5iyqM9q/p99pyXosZkDzYFvcf1rwrGlsMowSM8wDZsms+ODQm7f+/7P9hYf4ITyq2YHBt68uRRu926fPmK3RT399sLyw3cQrsrUbAiyEEpXA4moZiCURNcXxxaCTmBZ9yEmgP1qYm7nZY+He+8/+CbX3tj4YXa+fGTpw83Fhfk8Lou8iN5CeUZua/Qk58CLDReDCyfFeU6nyNI6S2OOMsK/8izYFDFJnyH3eUiLMcKIU2LG9OJ6QJmWXbfoQge5Amwu7gQwi5Cov7ENbOcRTiG+FnG6knU6KklW2jWb6zeHh+bOR+alEnKHgDXEq0aPenEmxqUsiTZ+QWZMjQOrywsbB/s1ieEedRdoa2OfuKnJx1GFXFlOJlgSMJssJMhvmbqkrAzicvFwm4CTXqelQ1S6qYG6aPkZyHwoeJINbVoXZQAHx4DAmn5GSwMvMincjKAYwlnmsXuRLiuDPWZv24j/PXcKr1cDJKcKJSgtdWr6qt2tzYrpzQX3OrCtC3nt/a2PSMtoHllUH3GyAO3peZDwZg+xcAAOJ2DXaOiqt64tSI4OtIotVy9rliyerd+u9XUUdT9oBB04lQmJ7Bum6nb/0qyJn4fZwj/NjPAqNoHXYPVVn1r82BhqUORonaMDKlDb56d9HSkQr2jE2ONqaYdOHmndfWVLs/XEvBl7YnVEGs0Zo9GYGW20KA4HqJ54kpplBRUSuTZt5BvQatQ2sdHJIGhhFeFw+UL7b76E+t00rMiDzzA/XlYEMssI0XspRQxmZMZjdsq/LuQMV5jrS2v1XOLAj4OQI/Ku9zh/6QXvE79YwZAm8lJmORdcF/SgS/uzMWe4xV5vgt0rQvC+TTI1AWiPIPjCLPLtXuw8CBOEdH+xOugUOREXuNEYfeonAlcDRGCJbJSzud+2BtLNWWV8uzHuYcg5GDocDJBAsOx52GmUQEVIzKa/BlJE0I1/HxKrcvbyp8xsxNe5o20ZLAF0iUllrtbhpfrzP6kZ6oZXig3i1RxijiSij8vXKD6gvwtF89clNTQXfn0OznhD6iMOXLBR4MJHXgXgNohizhPzY23wPhKPJuZi41Ny8TkTemjpFBRz6U0eeZHkoc2LPin4Vw3xEk5VzQnp+jk+fmZtgjPRXAHpzLiVJW2jNRrwleDmYEnqg6ultdHc3LaXxkZY2ISRmYP65S9QprxsbMkNjIfMyt01Jg9GV3QgOawvTfhZw8th2sq4OCtRbrQ2fPeFP2oES/JR8wh7954vkndprPLp7uyPPm516+sXeusbz/64Zt/8fzhB6986iurl28vX7n2vLP3njzE03FdJ0WYgUBObU1CJeZx3th4/nxO0xVJkLx1Ew0rYDvdhDlI8vbBEYmD1ZUGFtqPxaQuBBbUqmaqwRdMOzly3eCwZaeVn/7oL9lDS7R+oRWVXN0DLhOClc6DpPkA7ZxFJl5weqAKiQFUOfSElCVNxeZaIFtFYni58djYql459O77H77zsx92D/76//J/8Xfe+/m96dl52w7rM5c8B6wba4FeMtnCanPGQ8sCBU8r2szy+Cu0Yj2DyBd/BptDXiiF5upr4RQW2/loW/kz1+fT0pRnAJRn+JVEwabCZfH9KHXp/1J0qPAYX4LMujvSfcRawpJJH0750fP9zScjIzPsIiEiBA4F8rLByVJzyn9ijsWaz3bGsmQZW7LddCpIZlDkh/rAg1F9a7mefYSUCpkDlnHGEyH+EV2EliJbUFVu4gGeB0q8EqimkFowWSjLpCiByXj0mTCw30PeOcA+DsvgbkHL2IeBXbIyA2FUD6AWuGAFZ8Lw0KSNibxXOVo4W4LuR7duXuMSlvITmA7ZD7o1eV6HI7t7W2YXbZxTCKZS1XgF8z6jVrZ9YhIA7d70puAztf1190hekjBU9AQZKDJOqX2jNic/Svs0e+CkqZCHeILN4uinPYJZoiMAGYn+ydwc3Z5yxunLl6+3958Tqwd7h7VasxBG+kXZc4q7OdmewxPZr5G+1e5oEGNJVLEFX3FlgWTuhugGgXKUvixBkA8iXhzADA0z5xyAQTcN3jFwKp4Y8PoHx1jXNB1/JXbLQnZTxIBXpWqPpJUWCrGKMRLWb4WCgsRhmEv559G5vmKyhusJ3ukni5TX5594xWRkCghBBhzHyayIwyXlz1xW+H5+Cspn8YNk/iyqTcYcTpuZxNYzmDwr8QyXEgYpmDDUOM0cebCPUIWVzU1G6bOCEX9OyM/YvcWPhb/7Le8FPeOMkhg3sfsIxDQkxdnjH8rTyrMJQgse4BRCBhh0UP5VzwsozTIxqrwoTCB7wgZpkbNaNG43vu8sLZB7EclhDQtTyDplHhFs7krUjZRDM4aE7QwO6VVFIOTBFGemjEqUUraHk/rbCAtt22MiGwlLTz3XwB22DI+z/mL4p2PnodCsBowkp76LSap0rbDX4KTXOhDy4eKwCWgy2hWU6jPG6BCJIchV2o9N18a1ZeM0SFrt9JTHUnJDpoBHqlXOelNzGClEw9kLtaJNfLdBn1XaCT5mKhV5/DxSSQkkc0c7Qs3yTkaW+iezm3YVGky5Bo6ZVLWCWK+Xgn22b6KQa1Esp2DorNq586QrK3d8c2tXph25o4KrIYg92lpdOPu7/86v9nvrH374ZH/zrU57Y2bt9p2XXnvp5qtP7u7ZVz4JgNubB529VqcXrBwZeeHlV2aaszE702NJpruME/H8xsLIYrLUxid5S4SvgFpLQOKqd5i0scjcgmnFpiF9pOeBzMn3v/sd+qtCLXpQt2U7sT2Vy5jz9s72zPxSsznX3u8oPKCrSZwJN00GAUpEKTAD8o0cj8inkGwcmmWiwTdGG/6lpYvMU5kaNif7oz/543d+9p1/6298afT8+dXLoHY6LjQdFGRjsWqosVoe8TpEyzbOi6OI2FxQMNVVJlL9Wc7kStfHEx69E0YROWJF4RrVAVuTDQhPSRHUDw+CnQiHi4fVG1LzJ3aRjJo4JyL5xBk8OBGq5M7IWVT4yPWnnEXwc2xlccl2BSNnfDkQSoqTBvBpoC4dsDghCGq+U+y5p83wyVnn0toct1qpKxcyOPVYxhGahY8AaF2QYhh9YIpuDT7MRa4lV6kBwCuDLzAA3gTbrEIgUZiEMcdDfIHTYQJhluZEV8RISLJc6OfwZ/fhBdx64bkFJuGuRRM9HYx9qKb33nOuH9nzmuFiCSzK5dUrxyfDdEOueykP9mFVDgye+9022inynZ7tqeaBedgwmg/YXpEn5LULkqHJ/ew6bRz6g97R2dSxNRL20ILGXiHAzhfFbIijC6nHCZiUYLE6yBFeqvtJnJ9Jb+DTAW1xNJoaGZYe1DqBrV2+RcTasQDmYxIC7nIz6WuC6sJaYju+u3tscelKAQueB3Je5C9IEYbo0+GJQeDKOklpUHhd0CXwc0CdaLNSrrEOK2VY5QwNHD1Id01RlN9zku2Soqg4h3NxxpIWP0mgTblYJJw95KJolMOrsvRlJcJk/XkhgSLeyr88ECzLODOejDiHt2Uw1R8XnyF2bl1EALsjf/KECivyvbKTzKu4ngsb8wi8oJAfceia8sAgZQxncMgAHW73Y/X7KTeUb4BJZvghUM1nvqCpj2eUG4NuggTVr1G6nIumSG2hZ5laDBeyDSdjy3DTuKFkD2kzw77RzQwCxDNGnMiVQKkxt1A80iaRTdRfA33n0hFA1MMbUQ50rOgGl6kS7RJ1j42V0UrALvm4CRozpz01Wl32OmFkGZi/cQJZ3+oEJrI71VDdXqanwzVOzmGZ3JK/ibij9pBy7EFn5JxtJ9ZFLPViDQyfHZQw7qG6K152AwpczTtdqHXGm7bJel3KcSfZpBw4xt8Hv8QAo0ly05EOBS+pVphFJqLAq3DerH5iltmpTEmC66M2qSoaaOGEHQc+R/sSL6aGan37IHA6orAZjWXC/jQlmrD32ubW5sraZWCUII5XZkHSGx7tCNUEvJOTM1PNpc7u8/X1reVGf3WpeTbYORm05+cX/u6/9+V//J/+y+29B+sbT7A27WzWrr8xJRN0ek6N88LyIgvKhikyjgFT/WOmk0yWKIrw1QpQ/jETCaIlzsQT2DQAHmNTbzbSZRxLjYuyMHy9jPRVcv07b9u4wZ54XaH5dvqWywrBNeRV25egQfpicaSflxb8KqwTqwP3krKB4QKVNBAYO6oIu9cbHdYPa7s20VfBPKXkTK9Yjp3RoY31vc7O0L/4l3/4177xsqbwwl2ngy5dgIcGDE05tXTqH0JaoZzqgDGxCdi3WaGY7NDOVwvkgNGOojgimpwv8lJXGilX9NpCouAeAVQ5711O70F+ND8rD3QQIogQfC9kmXt8Q8eiy7bd8sKoMFpw1dlRWt4xBLfX7yl7VXhUMjigLTM7qrghyamT7ZKuIePn41MTej+M1ObtZ3K6k2JbxnC3vy+F3V5p9Ad2sz44hpIcNEll0DONm3Vuo36wvUI4SZOmVcTFLesnSb8mhG5RFObqNaSIZSVUgSmMtTAOurlZSDC0+vS0AiaMFBOCNsqrsTLGgucSwy4kFuIrgpyn57vSfHWsqDdmOdC6O3vDtRnKKLWSRuAtaeg1IoDU13Raws/SpTWN/6Hr0kIzvRwHNiA+39zcbEzNsgVsPtA9llEz8ujpExTYH4wvraz2jsOiMYSDnlnj2Qubu/sapKlvWZmfNZ9+hxo63t3vN2bnCL9OW0ML0saWaeKbh3q28K8btpJ1ddAbG1u7ey2s7PU3Xhwfa9QkUDeaAq52TOYElyrcOSQiJjjG9dRR9GK2DtAMJMv3/Bn2WURFdQZCABkFOFiX89YIiOhXhIc9KClpaTjrtjQxpXsSy+kgE0x1oErCyWv1xJeqZ+iRW7HPSK9CrpGBHv6xKCJsvOhjcRU1I4f3RjkMizOGfKbuPTiehc6npxj5kY0MItFyFKpwaaEggpIrqSCFa4MSWWs/MkF8CUnnKKyKcpNodOwhwPTSPARp5DJWFLGHxfup+lfdFSxzJgQWieWhcNMnZn1xhIqqr65I4l8ILSOI9hz1JOJK/SvgmGxED+mI2cb0o9JlbxzdX6jVCWilQ4z0eqSR57u4yBYsogyTYXjUFg2m94Upq6XyrDRETmgiLy2ilG0SbQLJ2h9d/4DYkbyLSclNHoQyLMMKkLSCZrQZ1dTxUE9ztUMdJI5qh9JGzsZsxsEXl+ui8h1eESzJ5imd49PW8YleP/3YD+cnHRupeX8C+hK7kw3JSjTo5jS32GgjnvWsXhQC9B/1CevFbIqGlMJJJV5RGuyWaPDgVcBWVtpXU0Re0UTdDjsQOWfgZIRB0XapAIpfOdKku5HqKa8bG48gPZGZLqUTDGw5SCrYb69mU3YgYrF4nbxk+iyF8LRzhCcwXzVDOzraXF6aHTnvjI+1+PCak0P/7t/+4n/9hz85keB7/2dzV8/f2+lde/Hz0jr0yznL9hq26ZhUVGZaHphR0dvMKH6NZFH4r03K61MSM4Ak/QWMxJoblWoVQsU1abzLDqCgcGxydZ30tjafaWJL3a9NTWRDj6NOOgmFQq0vlEUmhahhBxziLUDCxY0W6EUDi/cK1xC50hYrFIi36yOcsivStYPOIRpTc74xZOvHpcWmEtUYtLSCqMxVawZ5NGhUOnj8g4gO0H75CLJ9fPziWxYvf/3yr/kzFAfpkBzERBXhORFsBo7iCBUnQ+c+SUcKKyK54EsQpcw8nCIPOuNzzou9giDJnrhHuiWPra2u6Ydlr1r5bvJrcmQRbKyszsyjaAlAmY4KnNdnw8ezCw27Yh602jxjp4Om1Bs2VbO+TCuXycMOQ8RoWXSJ1sbJKyOEn6Nko0hI4XAQFQIewsyz2StWHaKnEyLS1Y1dLhzOmUEWY6Cw5ASfzMZJuXwX7I65YjXxXM5b2n/UVWibGSIlHBVbmlta4eRMV1iZjKOnshbOhurqHaAZDJCtHHbJ1Sw99fhkdm51Z7vlNdeuvkCW3H2wodvP/NKV5xsfNudnj88mnj7a0gZldrZ5XpvZ2NnpnPZH6icStfgePMbiYRrn4/Wjs30b+dx66dYrL97RSCVl08cDOes2eNvZ2914vrvf7lGjyTb+kJHBmIbWKyuXpM1v7X5kTd741KcVgQ4NM81HvvHN37hz506nZ1O2zof37n/vz7+/d9AyQ10AAO5CDhScxgEL9siOYCQWJlAkBCwP14QrfI8x9Cj0VN4ISPDX2RfXTJp4OktKTmMw1eo6GlFKYQCXTKl0TZckSygaGHM8DZh8iaVI5IRsCk/EiNFPeXMlroJzwbZqYFFAMCnMx/+zciQ5mo3tFV2lfKJB9e7J0CvE6A8D81kRDCrwImy6GBM5WX23/0Hw2mMriVV9UglcABcr9l9GEmFz1ul0XRyY+KMcvoCh2u8yQgIiLraPvwMW2jOzX1xAX4e2AAEAAElEQVSccbiINPSgfBjkmJoMWRgyMpRJYKdFZzQNF8bC1sqnPqZFt/bMQkykCCS2EjZEzubWGYVpeXMaPvkjZ3oH+6ElqMoCT6uPeHodkDu2JlC4IYp2tHxv1dtS8gq9MhWUarAhUNJJ6CKgbnhKSuREwUVZVKftln0ENIod6TL8RydPElcbUX042xj58J0nM9B6TLCnS8yh3DCB87OeepZMB6lxZ8SkiK5cyptkD+s/faqnBklJ00e3Me0bWWkLbqygZdL4ZMZSFrGsKWzJ2qE5Xq2Eyc0wpE7WYEax8PkiAg/2PJnT6BNP2qIfM0mzMV2/zWOoDRRhMMztRpB7Uh4G+oULgJm8B7y5MSHNyVpx3QSGqrtn52SmUIw6Em5l6s7NTP/mN17r7P4kTvvdp2svrI5Fi92kPtunWm6xuiVIgS5kE0dcRT+DvFzvbJx4KdJtjXrnfBIzY/bxOZgvVii7HQzpKu3Wriot+XriDu//9K3W3mZKTegsOHH0EspfbgkyF/gEcIx4VBZUi+4VwzripczQAlgYaq8MoKMjb8GrdXixJ2W9ngCgHlJTtaHl+alrlxdXFyeurk0vL02fHLfoESEs4snyhMiCR2Dl+UAXCBaKzkujw5hv0XL9YWi+R0tzb8RKSL6M2Le4DPydFc/jQrmCBdFMrUgZe9w14foe5M28Eq7IRGNvGUKZdHm+K0iVwCS6dc7TVPLSodE3f/Kds/O6iCQGelHOJrdpZES2dPE4l0qOyZoeOMwtJCBkxUQ+fzK0tS5QuDc3W5cQ97i1vmCbbbabSly9B8yb9Il+Dsy8ZFEoE+gdOdTNKJ48ncBsQAwWeKgGm6mt9gXsAzXeTEPN0vmvqdJQ4/sUA8sW41AjIKU+BxbREoovlOzyL7CKnTDQ7ErNwkl7X3h4vDk1rwpF/Peju49XL9W9TI7d4lTj8qXlL3z+s6SShG6Ut7N98LOfvw2WX/zS12698Kn3P3jw7OnO0qUXbC1wcDjUlQl6yis901y6XV+8TrTUZpfS2pEjlt2sW1ANYh2O9ETrxuZXFmYXZ+AvDbCv3HBwurh0iY42Nj47tW/HgWTCCopajcXlhb5UDlpRY/L4uLe3v23zR8gzOj/7lz96W3cO3gg19V/71V9bWFz+L/7Jf/noyRMOPuXpCSnnKFK9+mrpC3EH34JFoXwc0Pii9avgFh9j76pr7B0R13gbP878WH28oQ3fbLNm81EKWBopxM5NBEHpawlQBbu5FagM0YbiwvWC8JqgqDGwfOOvK39Gt8rJYGJBb58V0rGXrJDH+rRfjttz+Aya5CtBlv/QCiupc4GqHoWTM4ejD8VGj2KfE+GCECDaVxzU2utnC26YhCqsiYujcYfMPTsOcvgVtg8uSoOd8UyfHs+qDOY4EhbKAWrls5pFNdQ8JI/ClWIxIPr8w1XxlBHh8DN+No2YlKkGSlY30TbQH+6PjWltIgsclHhZmUEqOA7ly55xP2A/xpGhVeoFIA9R+SUmmT92KOMNvEzXqzkxcqHf3OODqzBbikTvSi8FimaG2E/xBNlivKarY6cng5IXiAXos9QX7a/Zpmd973C3d7LTPmonEjuyODP+0s3loTnsn3Emq+JYHJ9c7p0kO66A2DP6UTapPuJdJ2fSjYQN6rVhu0TWa1o8AQcSZZtHnof5+J83g3OGA7pgD7ZBJWgBMZBrEVRJ4YtZHFXcaZfBJ4Mvd8SX2ddjGqlgCAKiJfXmiFGX8mtJ4qOjPRITlLkLmGY8AhlHeIKRSApJeY0cZa1Qel3YyU+IRZ0PH/EzyQYni27fvPXv/Fu/+X/5f/w+v9GT+z+5PTe7p05laGx6Zn5yeo6GYJWsXFHj4v3GgEIlTKvYDBkqn6STpgTFvL1UeI8KZUH6to3HO3ti5sLdkzUtG7pPnzwQA7dNn92P7MyssJ2D0VC9xiqHEsKePdBn1Dp+U9SYk0We+S/dM7pi3mWyjIP4f4DULn0v3rx8dsgpdKZfIzvy+uV5+yth2lMTQ+qvo2oGhVM8hFLxdGMOySTAHVUpf/o07tBfWElWqxBRoFqOsF2jjGjDDHJldWPW+5Oj3JLLArwgc8aX1UU7GDv1wuW51zLlvsitilpRdXl7uLrzUrGFL7l9zr/wxZcHZyRN6qUrEvNy7oednbaaoaCIImHaEd+5MtrB4LXXXnn/nXf/6T/5g3vv31WF/fKLd+LzPuzcuLrqP1Zzds42amklDIjeMjQ0XWg2/OH4ZDKe8OhokFSYFsfO5gNwP2FpBbjI0ISK+y8oUeICka1BbySXNHurl+nhm5AEz8KWEhkKr3SEh4QDGsba/JyWEDtc6c3ZhYXF2sLRYryH8XaO8g3qGTs8vMKRq6uYLRCmV67PHJ9/6vU3VD7bCHR2bvm1N+TRvFtvXudimLDJrb6hXB610fT6Gj3X/EI7NN4I0Mo47SwzdtxtbeAFNrvAOFpdoVM7wbX3tg4M9q2338VR+DlYcl1daPiPLR8rsF7f3NmtN5uf+eyrpSweAAbN5rRhtLsPPL/+9An16+btG8y4udnGhx8d2P4TYl5kQGWxs+g4Q6oBwAJ8whwitLE8kfvwwf6Bncp4uvlMxo76I2oVBjTu0ana2NLE2NzE+fzUyMxk2A6Lz7PQAVs5akukC4ypXiNQ5M2J5FgDHrNweGAvLq+O9fsYV61BlqPc9DH65kr3Qkfoby3dXgRDtEVoG9mAXJVhRn/EW4uY8Wl5fUisxPIiS6LSEFdh8C7TrgcyhPXl3SHvkHNAAlcvQv2wA1KFIr3JMxDNx9+rEfm7CIOQSiioGnnhox/PInTm+bhReXoKEnFQl2TzANoD/ehYGWdNxEWDOgHS9JQlSyCp9APaxXBrYrTHQw6+46O2KNKyxhSwfOqzURlC9c+yAb7O+rbRAZ8h26wKKfvRCB1AgW1GJJcotP2gTukT0ehxLPH2xMVK9nxAYe2KAzWsAcPAisRna2Onk5PHrf2N435pfKHPvx1cNbelZSikbT8/nqjrP6fLpz17CUuCGN21WntATDfTFrbRsIez1oQ6pGXvxGgPhIEwsVQuPEJY/FgXCcDG2rIQQB/wFykUazVfg1lZFMCLGBPPC1rgGFEFUkERfmaVrIcU+AQ9yKqBrm4hrXpjipONwVOoPQwUVIALM9UqAuPhEgwr5xsrTSWwp7FhrSkHjYmhPptjlP8jPW9gQm10wqPmGjNyTCTJ//v/k7/+e3/w7Qdb9x/cnR6uL9amZjpqmA67DLCxUXaz+rmml1ZZ16BeivKhTTQX/0E5oEQ5pTmAYIT08DkmsLP13BJoX6saTGLA4/sPs2WhrVn6bHrXKJ7m7JNoav0YHACXiF0QIpicBB/PKX/gntC3eCOKv9lpBp3pqNSaSg1f3T6sX/js66/e/EptlJtUIsaRpVQZg2NoExWdhnD3ypAchssQzwLkZEVD2G1B8vDR4FAOuF5WMDKpnIgi4MjYy6OKyM61gUDGnCPDDjxC96GpzKL8EHYeyqv+8mP1BTlX5xGa13iyBbpITcJ3BW6Ku25cWJphAjeCXwRD/n/l1jx0dwvmXlm3wTJ2er0BM2anZl+98ylJQlhIq91anl199uHOowf3pVmLdXpAiR8lOVcYVta1JJm6jV+V1Npm1Caik0PNmcHC0qRkT1ks3DbEDW4X4F/MMgp6ABkIJdukTLqCVVlhk3Qy/sRwSbgZIJkdqOQ43dvZ4HQv3VzOtgZbFDINjrnmhs/t5WkXxwNuvbXLq+TX/u6eLpsffPDR/NzyvmzCdmdotP7zn9/tHo689MrnbfYIHcYmZg5a+gafTjMzZ0kb1S9iPsN8+9zB9djxEpF6x4M9xTmiTdvbLdpWe7fVbXUPdlp0rfWdjbRgGZskotOQnYoavfmss4+ORucX5o+ORnd31QVSFM/anX2Zhy+99NKl1aXpGW0Rx/bbB/fvP5mYsJPWYMKGRbwWUCPyKSSbaA46JyIQvOAgnpC2mMfeREngs6GaThCGMgdHJ6cb41PZfWikOcFonl2UdgvHJXPYjXZIJJBbRrnOSRsHLGsfFQyBRG4VnmJJPpEoERs4SZppw/ssD9iHcItp4j8ZY/keRI/cyeHKs6qjfFYX4rmhiCsqKqM7irlbq4NMyq9CPT49IW+JIMmvzBCDyr1R9vLWfIfDwuwYFus+f4BTofHIKX/DsByxfC6++QszSQZBOcpZgPRH3pBJhalWkiwCD5wxUdtfD+kqVloc2T5tpHs43Dsc6x1qXXrWU0jMNZ+ohihjbWbqfKHWnx4TR3FOclpa93HRpVXMmfpAPNmYrV8SYzIhHgbiPJ2i2GOG7H+kM0PJMpuE3eH4MXKXP/wPr5bqRO7h6p6KgAs3uND0UQV6gA8+XUwATU0MXnlp7aB3ttYd2u6ebbYG+4KwQ0y60ZnaCfxAsyotjFBuqt1HpkeHr966DsoRGwEEhcJ/onhu7TyLuJanL/xkurI2tMPRPLWDyUaNc6XB+lZ4eZphZXDBitjgcQkFwnGPBoPjMPRbJE0JGrhI7oGwFL2t0zub0eEBUk5O1bnIU+cKkHzxo6MCwHGDlwMJBG+LJu+Blk8rgeHDVmOox+k7PTEqwRyK6o92PH4wPVCYMJ5+S4fr09PXX3hp9X/6H/ytf/j7f/rP//hfNpduXbv58uLyNRWlGOlkY2xyQl/0OtZNNGY1AoYyRXwnybon8M1E6aLeK1+aJ/Bgf88n9GpMM3TmmKL3N58+enh3Y+NZe3fTdg+GLSBMXeAIIEBNpqBtVqsKh4SksoKA5Sv05o4MhSK92PiizCpjs1q+MyuHveXa2vJhR4C9M6pV5FDP7hkicCzLmGIT9qhM9AqUI04MP36RLA+ZG9p0lNUFS19ZThbEdPwZPa8cAXOGFdyrfnWjq3KvU9X/qws+OZUv5lSeme/VM5iSF6IqP2eaLihjCJEFScAZA1A4mqzPUbG6Aygs4TySDFyMH7JQrA6diNfUeHyjJRa6Hznb2aU+fOb1z33jS7/emJwVz5K6vTg7R1t/5+c/+973/uLtn/9cekJfa2XcJY/s5cnDbb4kj2ZUwyCeptden7l9Z+XOS2uzC9B8ylLxLeAl0XnCUWgZeXtEUGg19xa+lC8FZpFn0WpcCmyR8xfgKgbGoFmf6El3lZ6PklzE80xH3N8+XDaOUxkVSrzbB/uQXfc/QsVGNj/48D0h0Vp9+vGzuyeEwsTS0yebV66+tteiO1Np66Z03uGYaTBL2IWIbSDmN0AsAMuDDthcjhO9rmrC9kn/eH9rr7Ov2eGh9R6fnNbw47AbxRhyBvV8E4c6PD88sjX5852d/vZmt67Pab1hKsvLy8r69GN54aXb8/NX9L9Ql2Hb6K9/9XMuSfPBalWqlOeq8g6iy0Ur3jJjovKWHjnHo0eKW0cn05FqHB+aqw3NaGZfH51tTMzYZ07P/MM9lZUcWBy1acKR3IvJ1MUie2HkbKHHNZgcwCATdS8JtXhfTFtKYdR+VFNoNwgXEVQJobCjsmzlZDGT/BDBc3gMvyL2gqDlCbmTXlnWKr8UrPVbXsj1J/MVz3DwDBQE8DU34OnliJ4eDM39dD37pfo1bw+5BWnik4qLI5cFcy6OQhsS0/PGgkBhOH6Lh8cLiuitGOiFOIzsCBQMLcWItAH1Pb3eoNOVLTqyfXC2d3C810r5BIYtT0lrn9X5iUFDD7iTqTpfEM+jEhJGVsQVZhMBHN6dfNOwP5KUb74pEobNYYOSX0ZjUsaLmaQC8wpM3GN4BRrJSdSGBJ+R8UESM+EAiQDPKhR9EwTCYdPP1KzU/O3tPDyvzdnsY+7S8s3avG6Z8qgmR89mJ86mRvvjTJn+3kF7t9MlLJJReHS0n2imQA3NTMlgIWZvv/z6zWQ4Ssg4pEHJreLkl1F4mm10w28yGdAHxggjp8rIs0qZBLq2vqEbc8o6ZdFdHC7m0y9n+mZIU8lmCpIc0gmHtZc0Zzt52ku3ncpcvsfeoK32Xh6ErkiVFyjWAo6eRnSpNTzp756c7g2dtlkbukVbPGEtyRqtoz1iYmqkwfdQG+seDWrn+lMg1dO9pw+ZIx2oIB4wMT5j064JzUVVIsMiD83wcXykX75QMmWiEAOhn6Pob8CgldbxsQ47c4vzNmeWSLGzuXH3g/c3dWR7+tCqyr/wECsbOc2GpqUUORUEZJwWpSO6XXhf2B4o5aWgBLfdMpJNnIUGTDBpghJ5hk5XVtYEIIZ6e6e1ToLjNpke7pNVxuZVyG4Qwy+11mFaoJ/K0LB8z/ZWOFP0m1CxFYnYLyd9L6PKAHJU9FLOBUtRmVHmI3cVvlw8iv7wZ8Zflr5cX73oYxrMw8pVWfHghWfj25wB4T4G6UxQuaLLyFhXpOFEcY4il2jpgrsutqt2JGuhedFxSS01u19oIPL43sP/5D/+RzV2dfbFkxw0Zo+b/d3N7k7X9g9jdL1QFM+NpoMRUWEKaQ+QAAg8NsF3ftbSmovv4MVXVmcXeJI1s8bwokBjHkjKDZmpS+PWT9OQ+COLsxCK8uf7taBMUc5NInwpmI/5ocypJmdFGnVQxsg9hpZ9C54+enzz1jR65oORBPjk8SMObSJqb3dzZ2uz0ZxmjW2t76kqhAKt/d0r18bef/+jjZ2T5dVbS6s3FZ9JP7LJKE6yu7PJBLedJqVKbdboyOHKogKKsfbBeeugf/9sc6ZRa23vnnRPxnSxro1P1Waimhb/sDoJ+o3+abJKFucXDlqcLotTkyNLc0NagE/JAUyn6OG9/Q2R+KP+wd0P7VJ8cHbSEtU66u+Mj/aTdgqkye6LOq6ZiBA2V+Oo6JTXEPy2PB4c20BHKr21HT+tz6T0xm4bZ83hocbwiTZSQiJlD6D0M5G7SffUDV4Zm67jR93BrlSspIAlCWNIiU7aU4yfCcjHPKepRSFGWxgI7Bo6sg9PBnQhq1CghbQYQbVy3rqEuivrJ5gA4Qoal7MwxKXWMxzWNSGGiqFFKmipQnmMVwQDi8ETgy86II3L/q9Z9BzV+6ovtNTcgd6QQNFkcO7okLETDSnXhoAK/YROQwWMD1ANCSNfv8Xd7Fre/Ty+OiIyfQsBMliCsuglNQFCAeEferz1+oqU2u1YqvQyKFU7m15M/zJChTcuhSXw3CcEDkJD4KhcXmvaF/Zc1N6weddUxJxJuJTC5D5ThkJ+ivTOs8ogzTAdMRJMjUyzAmjJQ1jJ5hNiwbyzHO7kW2jMLTeXbzQWrkzMrtWn5sPVGbG9vfPjVtKC9k7bmqJLp85efLZvOIYJSEqKKNkeNcQ7hocPurtBAZsWkZPxlUZv59I67ukp4GtZx7BFfCSWX4aVQft/WQJrmyP9kyxIgXOEtxurCVpi2AAR5XQqP6FZR6PlRNdcfaQuel4I6Zz5JbjQPexcXrh8cJAQJsQIOun1KyiUyIcmNkO2PGid1l77zGuLy8ujzaWDo93t9oGFphhoGy95mG/B9vNvvPb6154Pfvr2483NZ7XJRmN6bnnl8mSdp7GVsJn9XDhKMjcrIlDK+SdPP1aOxs3Ype5qZSFccHZpbcmyS67gUmXkEVfrjx+193br01pIy8BEeUlptOpAZ7nhE0wEouhchUB88TcPJ4Kx2J7jSkyUEpOVVQSjgoDPSDTuRJR0+NLS8kmvPVuTtsvPK35zfDqsyltZIl4R3cXh8RaNTKVwyY6RejE1qrAhsjYvtUQs/bJ4ZAZscX2wP6hYCCUlVuEmoUAP9SUX5DI/w1LPyf2/fFTs2QRQmMAq70AYWCHmGJTBycy7PArtUYSNMpgb30jyplwe2o9Whv84AxBhEzCI5p/MZ0a9nFL4EVYEfeJC4Vx98ujxBz//cG/mYL621NmhmxMIbPYOV59llCDblKKkJuN8RD28lWJVJPpVMFrEJhwglt7Q9vr5o8b2/IIk3FmBS/VGTsogKlYdBRH79co4Q7i7+F3krFvc+HdLg8A8IswtdG4mLjZEUDRXc7CljqFON4kGOwV3O/KgRuc1GxO1mm7a6VGbnhE1gIpGNFV5770PpBc8fb4pQDVKaeudT89hLJPt3snDJ3ZgG1nfP+/95J6mky++9IoCwK3tg0cPnszM6KJ7aherXufAbliNqWsLC5ckLQ1OYP7Jcfe0taV19fni3OzYxOzQ0AwVJKRITIXDhPFag60d2WEzjfqCoJDKNUU7+zv7z548GB7pXL48t7fTa7XW77x4s9/d3Xj26PLlFYqFFN0xK5Ylx7uIomyxG+c/SMg3PpI8Ja7Mdh6w9SYF1XkyeqcSQabkrbH+BsPClg1wybZzh8dqJURgj7sH/c72yeGBEtGxmpbEneHxY9RnE4LhqaHzKSkzHC4nh/LY1dsBTsSBWBKMB37Kai+YW45g9sdHRbdQN78EuS84P09JsCC4Xn7yxT9YmTLYi5Ox6csBSwv6hRAoNXF+0qagLHavZ1p5Th4fXCjPgTVylvOcUMLFUWhK2+yQIdXSfxC675YimOQjBBRJWXhGUDF/uwyXD1f1fDpTeYsTiZayNEgDnBifOKVej48sNGWS1aYnD/d08zkZSF3Jrhr216gfc+Nywdrqm7qdUBQFXIqK8QYCHm0wJmrYoHTWO+1hFGwZAOTQiZ8+/CsiDi1hc/RljGQczRqivtCkQ9hYxHoEKRliGmENwyzASOdwA8+PzkvU8Hdr2z7YWj/Y2z8f+sAyxsQVT9G5WdSS7XGsoETaoIRRIFf/d2gxjhlQXh4pHeaG6OwYJUMNVEyF3wE4JdOTm1wlVjqCqBzGTavyNWUyDuwpYwpCBJ4WlgSU7apmORiDFbssuSFhncejjZnF3V69dTjYPOytXX2hvrLWG5vcPFDzcjydWOvYzMK0gHNzdtpqUkyF+8js6XqdMmqYE4PT5szC3btvDY649Pc7cgKltg+GFqZfWJhvyLiAEPwDFD5olRJDu7g03/jpT/63i7MzfPnf/e6/2O90v/DFb87PLB71pEvMYsZt24XwUVAg9QXWl263Oz+70O8eymJXaKKR0oTm7o2aTvYS3G1OZi6Dfv/J3fvtnT37UiRncOioIFUCjokSJ9if6uaPsT5IAWKwI2tnjDJGhmypxCHEiMAG61qT9UW8JISPi1P1ZX9K2ertHkyvzh/3W2MTwsAp/ww4z8fYDYag/3OM41QixEROroh/Q2qx4ZLQVyxg+mjW11ttixqvVCSXdKCoW0lGEJzs18dnGA+Wl3c7oYJgHXKKP8agrWplbBn9Rc1nQd3CoaFEkjtonwXVI5WiioXM/FQ8OqKPUU2yGWPRWoIzoQ432hwHb4NaIZNgf7A+Rco9qr0G6rIslaszD3T551qjjwjA3L5+bfJ4YnVyvj55afJI9HYglhnd8uy0PdbT6KJz1Nf1Xym4rQkjzLQTlkHKX4AdRLDyWpxzp20+a68/aa2szovZxHl4eqgmnG1wemgpU90fzjScZV1eWWHKMK/t4cbVLGrB7vcwQCvqQmmyjSiLWYqhCQ/Z9E02hHw/3jb60MbmI7IZedo2Lkn8SdQf++DD7G7a6QxaBy3PnF+au6wVy+TsQfesPr8wUp+tzYzcuLL2bL3FRpO73+51p+vnz58/7Z8ezdbmr12+jO2g0od3393ca125uiQEdXKkufQI3/rRKSfKUWd9d3LyqHu4MT7R3G21x6cmtb4gXgIGm3SP1i8tj3b2n3bFxo44h+CjFE1hpMHu5ob6Sl6Wtw6eydizOQ9exaYXuB3rHXNxwiPlLjVp4ZHQFBIhIfW9/IaK36VTc6eSUvrijzTOZCRkj9hSdBGhkZC4rk76GQxTA7qt3sFme/u5fXfOjnsjI4eTs5LyB5NTNq4cHpseHp06H9GXfGIg4Mnq4kvAD4w+SA1/SMuYJuFNEMsn9CVsgsQyLqN9QanqdNC6HBfiCnIXhCu/Bn+LzChXREXyf08MuUTOwVNnIusl2fh/EZS5My/MT9WRuwkT90Y9sDp5TtHbInaCIlhz4bl5pKfkBUZIoWM4AGKGH/YeMlAckec5XX3CUlNGlO5jKKWIMHIgokvDawX3I2T88NT01ITcWM0yBE2np85mG8MTNZuIp0wEA/Uut+DhDCDfDS8A8+FlGWiYtp+ZFBgTesYVqio350OogUQZjrkludZYeBhdXz0tg6vsGMMuMIngj7pw8ebhrpSWrmhXy/koUZlwmAKGpS8CIyzhGYVc2TxEr00FDhLVGfMKH6PVSjSxbBl2HAZkj3vznnjGoKFbTTLmAHUh6kWZY1aBUATYwoOcpTVQRfM/Kpx9A825FMZkC0FCk9LBoaEoSL9yu9IdSKaoTw2NTbb7/aetZ21b6U422AvawOzs70doh90GulFqsDqDQgNRsc0iw9EtzvYkydgaq5vx8WFt0LcrR1192V6boTYmB5fPrNvbXZldubK8evfx06HsoTx492c/1lz1K1/5NwjBmVlO0SnoY2rcjxJrvYGpQuXDnZJWK4JU8gPlQBMzug4alU2GWlqtbm0cd+mwvH/mCuo5QAUKFnYdyQKIHx8Fb0E2NAbJMCyizSQhA9+tnXoneUWyUaKlQewucbN4qkjk2XlX7i+xnWozW5Mc8gXNzC9wjVFmqiKeZBumfUhoeXJsWmajfOX4V9QWJb+m0K0waUz2iAXCBlOWQ6sDP32kYAvw0xbi6XIUFA6mVTgXhCiT9CnW4wKBdciWpnSwP54hOwAcp4xvuGyzUuRisPiCJKEUzImM8w63h9JgRZDc7b5EocvXtPoNkBk6aQDBh6FgMtESgZZ0uHBdQ9BOzkBLRZaEXBAQ/uDbO+3xA2TXK1WTFM6BHHkCSvUD1KQQo2hOSQJRfhzgUiYP9jU7Jl34XRJ1ZT9hG8VnE/WKKZJO+bGjQkFwDHAN3mXoy8nQRtDckpecw8IjOT7Hag1IWoosZIoqFm6wgXmKGc3giaX3O9zOo+w1wm9v1+7do4tLCoVfSAHWXu/ps13N4FbGV3Ry/6/+6T+7cev1F196fW9nXy4JSGud3uoiEPp17FWtqAyZdFzf2OJalDmMKuNIG7VV2xhugnIoyuK5z7d29BDvHB/yPUykAGOy1T5sTvXGGi6wtyJcRPAq0A7PR2P1WgzbUmet1VRMDEksZuRLjlXFswx1x4f1EuBbRTssqqMzVpWoo64dgHM2oTJUT1GZvhZ4WstayZjp1cJa7mNEai51k9rf2OKuGjCtWrutnWwTJ5alPnpifmisOWSv6gk5zLSOBvWAxGKhJYgVn0cUtPjwoRAK4ywyVnjjCJLmKOyprE1h/TkF9BefwbyLKy/QuxIqhVbhQbkyJFEdZMgn9zrjIdX56mQe/fHDP/5eHh4uHE7giHhwV+RBVPp4oaLgYwS5FbzwXBqs3/KmnMXNMeeI5Fzst4+PyILU4IbNYILUUhnJszPpE7Es/DeBNKbHBTryZVL//XpNh4bdwYlNzbNlZ19zuez2Bl9FFDK6X4w5VpRXU7sUtzGGSI5SkerTOoouSuII74LmkQYuRcxuFykrUiB8L/MJx/CtqLFeYPThggWq0PZ8yI5vLDZANSe2PiBlOUdHVAjiTx4a00ayB48vLwslnbOPwSaYAN0jdGKP5cGaSJGftHYkN6ilA2j0tAGrLEMAqDKc6BXlQNFhqeF+udsVZbwmkKpaKqxMpGjdjEe+X16ybFtytn/YVei4fTh2PtfX9Lw/OJK4fDbWWF5aw5w8yLDRkyBBHmph7Z6OagQMPCoGQ1KBsa3sDXR8Nlmfa0wvUk4lsGu/tL3XySYdNmafmTntHssDG683ewft5uTMyODZuUa+2nuPDL394588vPvst7/1tyzD+Lj2e4uc5rby5Yis80hP6Z9aMrMVFmi1a0eL5PphTBo/DTgSRfWebTxbX3/Kra+HYVSCLFMGaMwVlDAxC1HOX5wKzBCPs5OZJvKv2Sg6hY/6PUaJsWhETsmC4psCsAFFZO9gQva9v9LFyq4mNfafrSV6mxt9W74GD4JDWXfQUS9Id+4cQgKplUnxZ29RqryOVBulqGYF8xaLk44P7tM4DOkHX7Ktk6BGxlzonavKxC7mg+Ff0Li1tejxkQQNPdE/Kw65kgkJD9CaZSIcnAzS0KeLDhSfE+WCdRP8DNJETFy8DmIWn1JuIRLgPuuLqg+EkQlcA5gy91RrdrKxMrM4tKUmv5uHKEDMxqrp38jhFsOR2C6rwflYpGXYG4cV140lCfaWjE1+qO31HWbTBIlbvB0qklJ8F7Gad+p3po0fnYOsipdXDWaOMA5nTMGDXPnLh/H48+S4bVy1mqxdxSnxCoprng5quqKAHGJnpXH8HfdPW7u93U1dS4afPVt/tr7lfa2OBai/+PoXZ2fmn68//9rXvjZWm/voo48kFup/sb+/1+4d1CZTwkhqsqW9cWlpqZnG9llqbzfyqOoWySAEiM8lvtePB7pjZ8uIIWl41hWBTU5JSJsgptTu2UyoxRbVNAqaHF25spjVDK6AXwr7JLvWTpWD9q/fvDm2cZCafy6M0PuhWLedxogrLV3ULx/pUDosaHw6UTYNSgW42FLgGw5FseOVjKc3ehb2ZFsU+sVh+6jbPu11pXRIxzoZF3ixp/b4aaw4+oRda6PriP9E/YCIXg2SVg24o4HB/ZCVyVefQcKPv8PlXz5cEA9iQbtfnC9kAabB5kLDfvL9l59WXVwuyFdfPvle/Vld4DP8OQ8pAg97/6ULWQdFIQsBxjrM26K+5T+5yxsxYoMPn8ayq3sNKkiHOVMPOa5SQ6FPF+Ilv0PkQo5jk9Nrl6/bBSAbNyVyjud6EqAcbq9roNCxv1xJQit4XGgVEhemHriV5eYSzFfwJEoYKvJI2cARUrbzIX+KqptdOtAx8wSrCY4Zg/EXZlfmAPDVY/1GUntgZTICp+mQvocH7cgEPCfLVVhGgXz6grEv/A+axGFrsm6hRWaq0f2VHhfflmx6yWyJ1uT9lAEKvWe5L2wMZIKZgJVlCpYEtDComL0FvJhTCIMh57y1KNeFKRcEogoxGc76x+eiYPvt41ZveH1v/6izsTB6eaiJ6sam5uZE4MBjd78FADrQikTYMI6gEkSOFm4FPQsZDo8d6Md5yLAwyeFJXfzPx7Xg3N46oJY+ePisddCxO6q0BQ4h+2QtrFxOf7XOIe+k8C7qTATi7Lj9/Ok7P/3Rr3xp8mxSXvjpxPTUvG40nKHnJ9p9CySke2Isq2FlLn392wbZJQ+7nZwc77f3t7bXdbLjAyx6NDQLQKojs87hVBYuI69IKw+LUohhWAbtAGNPZGsLwsjCxlbNLdYVjEs0qt3tb2+Pzl6dnZmc0574wf1NsS27/01NzTG7DvZF5flvhEAI+hgimJTxjE8e64RFZY5HwVolmkYuKXoRphH7S/MBeKGnEQcOO5K0Sf5A8T0bAcQI4xsmHi6c8JGj5EzsXZipnZfCG0ynYBtjBwuJCxGVhI1CkPiYUWEwEroq0MivphbdquAGdCSoCnoEPtClgMprEHQ2BYRrHEy5Cmhi3o8wCOz8oo/+0tIcu7nX3iXA0/T0KCoF6mdIcD1FN0wP26LRlphZcUuG8g0t5CIDc2xc5hT9ZmfndHtrf22qWVBdPMW+lyjQlaFYBBtwShP1l+XH5kJwYWKVMHDG4LPEIJDplVUfltgnzq3PrF3H58V3Jus2r5ko4o+vKzJPvVcEis7UA955zcb4bgBUYoE91uzXO22o9pcih2688OmP7j+7dDI0Ndlg/V+/clkJFB7AfrIhtsEdjg436ks1vujTltcbpxwpo2ZXAWmY3Nlpt7+nvbKfKC5S7uR6dLoKVA47e22tUdgxmoawzrV0tjfm2DhogFQQ3vPwlcJnEuLudo5nmotj/+D3vgepkgPmHfYFj0/vxIZcMlTYTHJTdQi1mxK1l4CUUj0/OxskhOJRh+KqhzmsiRMZUbIOWZtyhpRYxrbl6srG0FJdTsZPipMpGdbsulinMeSlIEVRCsiDlYW8PDVUk4cba/k0dCjOVXFx3pdyZLUKm/74xMUFuddhafPUYG2REDFtggRZ4186ggUXRP6Ls5+cSTQl4ZHytEj9GBjVr9i+YfnVMAvOhCPH9Del4FaFT3m5scA4J8wILiLkYLg/iSvuz0I7FCiqa4JFJ4Ps32lb2DjiU1LIkR7miX0KaI/8f4n77x/bsiw/8At/45q44d3zL7PSluuqam/YtOMkQhQlcAbSL/MH6TdBxEDQDyPpFwECBsRAIIccDTlUs5vtqrrLpak0z8cLH9ffuGH1+e7zMqt7hhDAESCdjLzv3HPP2WfvtZdfa68NIa4KK+M3DyvNdET66aKe5cXljZURiOwhPMNCnMCiAqsTTVG8fsACd9GYgj1iYBgJFAijMJcBXUABgFpDhM7VMcnFQi+56EURP0rtUUM0xo8DFAloeZ3wO4JA6BFXZiCTneYBpr64xFZP4D2J47E4KfIhSOgU3gmTYjNBV20ZCn+SL3mdL5kF3UrfijasP8GKzAdwI+nAPGK78CNtxWbVFHRn+Y+vZnrjm9P+pczz8Xx3YcuqNaWg19dWVvFc2h31mWFEH8QK7LvhyuyS8CAUJ9CTT68TGSZCiTbIidFQMUtI+tnL/U8/+UIqo5jT2WEHiDFpoYvnC6+PRvS3cwni2K+NS7qjMb/4wmbryecf372zs7tzX5WsR6vfuJh05dZYR1lfJrmWOQ7Ps3Nzth5nZ4qPMFH49xH6ydnxi1fPVbi3dIHLqKBzGBYolOl5g5zYfkHHwtHND0oAuxRODKJEoSnTZ6ShZFODzcQuCe6iG7+Ox5PTjrJd04/v7y7W1waj4aeffKn4qLKO9oZrtTh8UosjFcvZgGpV0ZznLxfro1pdyMbs2aojyrWVR24gkax4KmruFP/2UnuJ+q1svAXI2tH7qNfqiYRH4wvxl8UW4YY37Yl2FTJLiqyS1kU7KeMxOclIMOuy2oIZ+UxxrUKC5golhcMn4TF6cmRbuS9tR+OJpw6WeZG++RVpRDsMKaV0DzrVI/JW91KmCyLyCth+R+UkiTCyn0r4JLmA2CtY6kCkTQrpOiOa8QRcw18843m18c2JfFvms793fOfeKgYD9KF0xSuiOyTRSTs649aQRhwg6VZFts5jp0u+KKkuRFHAFE4A1SWT9lkfgjs25KE6Z6X/7cS8JuxpgQRAYu+RONMJf9fkHdNTS8KdbC5VmqBUFixdt1eWX77cM9z3339/YBlVr3dnZ8t6CVV7DDEkG4aVkg6pcSRzNZv26ckFQJOIRq+HPCALtbaVGLWyG5+qVvhQ5lfkM8kRo0siRUhYtZZyZDl0yTHRfJiYOTfZl7bFum41VzfWd+f+uz94aeZkXICmRaQckHYP9ClVc+5ySoCpMX/enL2y4q1kukqlEpk30zlMiVfHmeVPYDw7EUlSwqxoFQGy6ZYKS6adz9O5TAvupjwZJsPmjsfBZ1QlKkxhSDAwrD+tVUdOyqu8orJOvv7pDeaFvr4SP9ooqJhnDTjOG9qdLmokfk78DxQKTwziFg74Vftu+yvv/boPiQmlU0FlF9OHYHJBKY/EnCAX8oaYiujcsL0cZGI+eWHpm2dzXvhmfHFRIJAZ9TbbyQcvS+UcjMlW7apqTE33YoPA87BlOleYs+bBMC8VHi/91w4cjibGXZ4+pBvlE98uwNCX5OZ6dwy9dNzUJJQDOL5luyf0yIApcl3v2Xlh8kbi8LDWCsTj7kNmYdxxToNVQKpJPCbeKqkTUQCjHJQXazAqm5GFMbpXX006rXtepfQMLAarLDX+QNks0vjtVoBdZp/xOJNKYWGafjTe5CcagVemS0UkBdsy2ZiSHlaiC4QwaFTjLkRonPzvemDgUHI8uZVgeTq8Oji5OBvMXnNHz9fVDbHW0f3eH5K/vsZe8Va6JC0eu+K6UIkK5HW2AgWr1ubiwGwjKLKtO+h+/Iuf/8WPfmbjzYX51vaDeyuNFXpeX0KkorEL/PWnC8LrZplIMKcylKy2zTqU670Xn9PclKlQB0b9zuV6UzjMFvZ6rjZM4S6ysRbpwiTC+Whojqz4f/ny5dnZCa8PToFfxbFbSCbw+eowEb7ilS6EY5Z7YvcnX6aEOqK7uqU8k1Ie4RcJ4MSKTIwkXiWFe60xHxv+wv0Hu5aOQcVffPYzmxFRYKwJNam4ij+0rg86Q0Sub0ytrEypzQsB9IAC5C9SYSYlIk0jIHMHSWZhzRPQUzfnDfWpmI2Ef6PBNvWpM832croUg+Orw0DmWMkDSfaFhxckjCDIYAlO9+elppuPLvGe0qtaHRD4JktQOfYEYeKKwQYtg1DpXvkvgf5zmRVgrqWAQttW+kwGI9vrggcsICoxMH8ozxFffFYSOUMhwZH87wi+xiWCY2NDvK5BVTwPrLAHcPbq48M+fxVHvRBt+HIImbWdMkuYVFRQ2wupZKzMbbgQDhZQhNqRTFLcQ+wVZy+iixRToISQVZCWNRPiQdoaVMIVnHTW9lTjoZQEIi/Akp46Uu5hYdGgsi0V4ERLNHYFi7NBuYK5e3t7HLcrK+2Dg33DiplLDl/Ci5i5MmAlsgC+zuSIIEsPAwGkCnyEWcmep8t11ZKhsNqLeupK3hANjENbax6n+YCtYeohoAFoxIe4wCxLNNyD1FxqbVg2HACTVTV1EM1rNoHOFda8K41pGRLN1mzdznmNBXgl7HXFrREpGD8S/C6VKTgBLDjWTbRAokc5Ms9RXkpejpo/rOVr1p5NSqM+m3ARfbaenyVUhSVqMf+T1YZaYWiGnAMOQrJcr1hkuZib/YVYIzFDqy5UJ7kBMoYnoqX8ZCYM2i2s/IIMeYObvz6KphJcz7PlKOdYvVa1m9arBp2Wk/KuPI+BatrE6M+bTOLq5V7roZBEnoavCRSE/XKPRmYR9VPjy2FYOjkEHgI8kTOCBzKaAj0UEGGYT41h7oJg2RABpE0qN4TGuDugfzSdyimq2QLPEE+Gb+xQn9CIvATMvMJ+I+rizqeGrAOhyU+gW1xJMbe+IHaEO725dD0cAQonzkH/SpFiGqb5RSlpOq64RCKC5kZEYkXnSMVlLWiLrPE8iSCB3AY2PPGJpkKA+Pr0CL0ZEXZl1AK21HD+lBT6QECQxSqpEIAHAFx7wBEujOR8xtLJD2/mPTOR3EckY01nkiM9kcrLV1O9kVIWV6e9y8Me55wsPovqG9a6EzkoXx/oDRgLEmVzptR41IVUjwvChJKhN5yyyA3Ltwsw46sPj5uNqQ+/9XBzuz1WUupiYa29e2ft/tXo8uUXz8+7w/lm6wd/Y/2f/+EfPP+Xe/NKS+GCUQVu7Llnx6zB4PD0dPHpsxev9p7+xu/+7je//d17uxvP9o8mil+k2KZ0msy1fRzabTsa00PxqRvBM7/aotzA+XKp2XG4lSOgKBqDT7ptARfIVNArSAQcmc0gcCKamSuqkki3/H7ICZxSYvII9R6D7t5Omuvt16d7k9v+o8f33/vmO+98+IB/tL28eHT4yvCFx+X6y6qNysKYmLm6f2+tvVwXqHDdUgywHY4p3xOB7BLLiEIDVbr9EbTmT7MhlKPTVWckqwMhL041ZhKEi6mSRdqVLAP4pzL63O369hrsW5yXdyR8ptp9XlYApeJGloEBArUPPFAF1jq+6AdFkulqD780W9FOGCHsLhn/AUVBojgAOQzisbVGye9UH6xOon4Kh8RMn54bX0lVV07GIlRTmawAJADfogCS85yi9FDUlAWTsRQQBq4Kl8KuCl3RVOYX5b1fnB0NLs9ZfYs20xH2QideEImLKJzjpdNXQtZgSPxq2RB03gGGKAq0QhOZy19+4gZGQ6+EL+Qk/7MpdhiZzraXFJ9NHQYsAJuwLMK0yYYwgXG4WJp5Owf5VbuoNwmPK6FcTUM/c2TB1p27Oywn3VLuy85XZBgRyJmva47SiaonZahlsHC1qXB2u7WwZGdcXobiN7ZUwxpp5XipL8YWa5LKG9yIXkjOUzAzLpPlK5Wldufu2+qGMANVjcmA/QV3w6MUBL1FyuoJ1zkwaBvo9lbsSeHVLD6r1Ht0QaO3rjAsKngWj/WlRS1zNOirSwavvW/wqhlZG6U4j+xZdhV/IZej+a3UbvjC+DKhkNLwYhTHk6PfmdsM2En6nd7jGmHT+ertpc/JDXnza3WPL+HI7vFs1OpyW3m8/MR5qtWvHw97C/VqNs1UT/kMg00LrpGozqAxVC4Xyq0REY5o/56NV73cns4WdQ3pg0rIvrzNN27QsmLQL56C3RBTULRIJb0wbTJbsMUYMUadVN/UmtbXOCDo0lzqXo18ARzfQtnSqoxQyBDHyuvfWFjVKHTWGMyn8emLzgZzEUTaLPIbYcRuAfDI1IjYmN5RsPIKt5X2AgqzW8RnBFVkA6inRASJEPdCya4uwMig8mAKmceLBV5BP8Mzr15/PS0rnxpjiCl4PL8Y/hIGaqbsDic6E+84xmYvcGlp3F1ygWJJlSNMpTrCdCKWM778iP7yDz33zToMvdIsoMnbyODnxFRPhhed8S2X4PnVdP9SyUTlNVt89Kc9oeDpFJiZnuG1r9WapakMhEFAwTXg8I/IVplAlySWWJ/q2zeCiBenzdbEkipJz5L9rkcL487pzWj23u695v2G3O3u/M3v/Y3f+NlnHz3fP5I6rq5cykvLL56/7Z7tb2+uvP/+w3/1L/7bk+7h3t7zv/n3/pPVlaXT/pjcwIWViVHA0HppOwJdqtCYpMFzGck4F6XV7FWUAgiGDxY6nAkoR4bgB6AxHeWncoJmswoGfuFS9DzPOPcEeLkbLkc95hbJzi2yhCU6hqC5X+YOaEvra6stGgVsbeI+lHNJhXZZYKKLe8f3gHdNiPjrW8s2z1kpa+trbENzX28sWxijVBz9YDQ5Pzw6gDYKBF+O+5x08ImiUHSe8Eqc8fTUMGGdtrgbcEV88QL2nX0+oKiwH1g1BmLctJLwedp2fQqTpWFwbCrS0Fxqq4GkBL6UxTrrVTUkywXUIbfoT1aDtKWEJWER/I7nh8MnyS9TUwqeSruTil3mGRWi9dQrYZ2fqy8s/fnitmeJqQJ0Kpo3LdePKR+hFOlfoKpdOhB0QWdhLnlT3OTR5rJsn0HDH9g9U9DuStnKuDRMVeYwNOcUBOPyu7WcttXr9cny9FSDElq47ZXfL3wPAyknnszDIbJZgas5WwcEdhI659UfF/ux0UysTHhioxCARWAkssqTSerOO/MZiWgjrbIk6+ysYxEg2StWt/fylWSGtZXWH/7Bvxn1BxAJjyB4fuV738l7eTTQBYyEOUxOUhUfYbzGkL056ZxYLGxX0tXVZfPi3EQPej35/jNLy7LIJAlnvHGD6fGspWIIjxwATMwuertNXKzQaqy/3j8gS+lo+Jc75U/P1GdumzaGueYYvG1MGyLnHxF9o+RMXabK9XljfsUEJAITOQjHIxDCkAhlARayN8FJkTOVXDBVTp0s5SOweHhoEJdwQGiNR+jCUtdSHoiyYpkMQY/zaSuTEtZcmF4UCINxyZFuFoJ0XjiU66gxD/jp68/MaxhmeSpSo/yW33OABBBjRKSARozCu6orAX1EXcbnUvk1IjyPBavzryPvy6/lMUp46YS3IHof8NxQMGsx7TRjEgrSFPlE1HAoWx8LXeKRi5Ca5kZjLnNiJTwVM1jOLJUTk4L7M1ZW8xywbCKxSvsEFLerbicHNkKq+O6pKDFBy0HYmGy3m6ezs36J2mM5EfaIH86SqeHlHjV8pGZbEvZeJBTvcdRSSK8lFOFSiUzYI7SOMNzJ6R59uPTeHTRLffAgmPjVGzziPEtenVHzQ1DBCUrv1fk10MwuiouLrxtU0CAtXV+vLLXPRxP1YRS2MA49TDhFKZvzieBxGEEYSmSTDhsC2R5w6F44MPd7QQOLfyXYIRxoA2wz1vezEpQYuO6OFGGyj3v/8rZ2I2Z3W6Ofr+/uuAsm8LcYM/joGPCPbV7Q73Pt23FVOhxH3KKsawu0R0qhdXCy0UjtNUPimGK99fiLLrnh59aPji7/7A8+uerO347mt5a3lRS8WJ46EV0endoBcaxYhMSoxuJYefXaIvvj0y8++o//o//kG9989/Mnz/7iL//0yxfP/qP/xX/aXtky0IG9ay9v6w25orXzwdCKLFtaPPvyiS3MldHhv5OiAxzhzsXDpvNB6HKAfxAgR+aiOvwS1A/a+sm0RQen24NriSgk6akoW3mkqC/E2YzpU0dLjvb+0QlMTvaPbaOazXfevX87NRiNDi8vOrWauT6/nPR1QNidxqVNRf1tryZj4uYcP5oVclN6ivtfruvJ6cGzZ1++98G7gibNtXqvf7LYWrzz8P7xwZEEAdmEJyfHirOaavgVnGXhxncTypT3TqqpBoWCOGJgWcGvlC446511el1gIl0lNb94ftobvSKpaEiixalcPcpS06YKZiWXgnJPXs7XucIw7sWVtU2uYA6E1bZC3Ys4Zbu1PDdblwS31N55vXdo66XVjTtK+/bkutFi5xYbtebgdhyai06ZDQppcHpCnshpKyxSIepomQEKCouFNNOYq+kkbRQdf/7Zk2997z6VXdA/8ePr666afdx0qdF1QXmq1+Wa41pzAj90WMSyurZ+enoqj05b4UOU5dSSz4wzya3VC/+xID9V+KL3hhnQAhVxazTt52H6llaaveFreXBq19av7QBl8ffsYCygoIjXdOestzUet9or9i7gDFZZCuCNr9M5tZLmcO9Vs95ijsMFgofuo4xNv9cj3c1TYjsxiIroDiu98IrhxXmzZTtmAY7wAfbZksUQjTpMkbWkd+ED5pp1PUyZbWzQsCD2oh26bqZPTwa/9bt/D2n+yZ/+eC4OVsw9kgLMo45i4fSoSKIYTdgcJ2kckjpjKs7sK2pmYrXesCmIaIzcCzFeTBbLRQ98zPhX9H57N5B1US18km5RdLlu03BU+niUcoUdGt1BexwyCRG7YtYrqWM+UBf+WEwEbDE0CZUzUYU+35BjWqgO76sMLF+dO77+KdD0XVPlugZypbQUD5XruVSwoEIFeqevsb39WkwTJA1ioX2gKn5I0CvsIYY3ZpS9YFRntCFNwt3Fo89WkkuTRSEp6BLvpeEH6Fw2NDbpsNbanIOgjS0mcyNs9jJFklIAF9yjoXlZVr9KxpTyS0ZEnSmQZSBlEMileDzyjyOSAzErzsStbCShdaJKU3h9wKHYCSXLr5RsozOjBapgG7lIuGo/KGCcKbdw0e3Z+EDDgaQX+tXPGqXGxRtoxsqMVL/qrN8LPuHmuEwQqbiaYAtdMksqLiyCLMSmX97/9OAlzQAzpAZKjwwLFnlOMCnrpiLF49rPA2Gp8alWCJtcx6LmxNGDLVAYy+yQbU6S/xYwzc7Z7X5yOytXVSm3rOc1NbPy7hZ5PxeV2uCMwOGkrC8kawA3cRi7c+KgbCU+Eny+GnLAEp7yzdhuXIOjYMFsZ25WWldssq2t9V/53uNXXwz+8o8/6RwfbT24c//hQ8Wv1dxLCQZGCtcZYqElQPG56bP9V//dv/xvfvBrv2lGD47Oup0jRZUOD463d+4vr2zJHzg7GjXUkbmcWDpi2GPCqt9TcHupCaPmL4hiLQVv4/HRga9n581E+Kf86oYcQREEF+LC+3IBoeTchNFtijFg5An8RKFCzZRt2VcQb2oy3e9fd+oXHEhqK66t36wqvlZbt9hybmG8uCjpK9NkRW2C2tErojxlclhrShAQKLHhCBJ773RpFcNRh+yRdyOJgU9TrMWVG9Yv+d/rnE96+K+Dyl+sLHY4BBGH4AWlxtmNRZ3kWpwbMDG7Vg4W6u+pI8tAsoL/wh5St7Wp+cYgm60JqEuIVrnOIlfrp/oWgfBbel2nd2KXAAij7uXB6Qs4wFaUKZPVPKk5GicE5jk31376vHd6NNV9NFaPzhSOr25Oj0/IPdmmren5FptNElSCTDGUkMkkqnjSfsJKA+fYDobCawAq4R/xOkydD63bsakpgR+mEOwOcXkpYlXZBmMQpkK20A0/yGMVWMxSpJE2mHYxRWIDynuSj2PjKAcYYTBBMy3i126yzrmhai0Grszu6uH+AcWMNh3uosdF2y4di7MlzuQbEaloNFpmEUKexXptY219eWnJRuDwBUnTcSlOxPxpKMbkI1ISEi2GiRsnlaj0Wa0YpCkWu4AEFK9V0cpo3JinqMvZcFw/RZOigAZrs+dRILO5uaP4xfMX+6/3zywmZurc1qX92SNK4E/OOf8gLstwjRNKvEJWgFybxL6S4kULIF00JtskjC0MLIrs1AKE5LnRRZQAzSz1sWjMdny4XnbEvrCUuNTEotriHOiGParJlDFIgAELMUpwNbwiqdLnokD4h5BzilEVgszVcKfyez5zlK/Vafnxr9wDL8rxFUt987U8pJncmXfmbW9aSwfy1qx7IJ0q28rgvr7TiWkUmoOCWVGIyy3WGM+qkpjdGKvs3BTzgP8KFpRIXaIREvFKRn8iPw6WxMgczS6cTy+MZgRO5sZynxZq1iL0pflEUdAD9gQFiyydodAOQKKk71EXdBKn9alr/g3odMxhTNh7VBH4XRg7BYBhI2qSSTM8RQJ0n70X0Z8XeSqnIdEMUwtYsROqjhwaGV6BkbuDjVXng2mXyaXBM8KCK0hmjjSAB1DWI/39FLRIy7xwZ9Y5hQf5n1GEGLiBdWlnYyWGbpKurLdM2RnKl7SLN0ssipoN6bw6ck/Yxj4lxYgE7ag46bAD6isjEGGAM9N0hccV4rTPCc/iYDI1lvpKBXav1Pbsm8ypZIPwqFbo0+jQORBmj5wS+YLkRszgHXZOVxRD657KheF+EjRizqlo4Hf7xl1PDbIs6mqEbr/9Kw9/59fv//7v/PbU5Vx9qXF8fXo06j18tHXy8ye4IP9OqWESdkDl3L5/TwxAUcD3P3h7baP70cef//BP/2jn7mM+fvqCjYJ2dh+cnJwkY1wptCtJ7AcygZP9QYC4A2PNDIaFZWpMmcFnHjLvYAIq5TPXTa8bfYUPgU+U1EKtrpR/43dwY9QQKBCfoASvS2O1yR0Q3cydnVI6BGtsWDz1f/o//u/+4f/yt//23/xuq7E+uXgtcV/V3Vab369oitXMawxyZOEEVpwtvogZYL+8Gi6vyIBX5x67u2k1GJom3vZjhoHNX6CkpoLwb+bUpIpvCNFlWrN3dHighfLyyaSqsImjETEm5Jqzimnk01Ot6bllewPcSHCeVR5G9a9saMTPTOYxa2yvDuYLDat0OS0vFVywqYB9yeTZX/bsf9HB8Xiu2dYc7frV617/F//F/81muza1GvUm3e6gc3xMkL3z4PFpZx52DMtuMhadWCYIeBwWUb0L9AP3AD9RbYA1PifsP8waclrLRA1VXSnP4DJRycJmlJxJZujV7WgUszozGrljTkMx2EjhHpGDZc7jESFLmnXKcj1Cyx4wysEWHL4tO+Im5WPa2jlbaw4oI/cfPRBEHih22aUXZpbMRCjXO7ynom9qKvZe9nRFEeiA8WR2OEZ4RrN5lbXt5jbbnEL+6NXxe0RExpSsmIrZAeGEt3Et3EduxoV8d/tOBdFKQpT4w7ViExlZnKnTeGklvAgwBdrf/sYWTvDFk5cHh2eyH9B6ctVrIsBCKYnfxvfErrTvb2q9E7IlHUxGGP64iNtGVCWBnb1MyETke3Ui675FoBe+GkZl9OlCiY27Hncz6Qn69DXKdRZ+JOxjKDLmA3kNZGqTLAeCoax8DbF5vBzFWipsq7peXf3lTzlDk29YZ3k6j1fHX7n5zWm5IYStnz7d9tfvQfx5cblahle4QOi+rIwzAfSF7L2XUEPWoMTLQlm1N/wcUDWuprkaUAXRn6JUrM10D9rlRcbIe4CzCFHxUAXe+OWcLeP4BiaKnuLXkpXjWIttcT0mrsby0PHKsB7oJU5e5FQJY+lnruUvY3FCqkXK517TYIhx+VVqtc3do90QcoFxjgwz2gLQ5azgTtVGdMzReJIbiqwyNUHOoGdJ99BKiMnvlbwMswxbzv/UEaGQCJpwm+mZ5fa6RvTF3RrJDuHFlukedzWYsL2Q+2VqtahBRQfA38kjtXAIkgg5AyhC1FpDkMzIgiqZuNIfmQg2lyI5Yy1gbaPJdd+KyMl0d3TRn8zDvpTtmFVG+fr07FBWLnd7MmF9L+oqskeEnU4n/lybDegmFqKGxbA7GDaODl8qhnh7q9R0NgjjvgZ+uhjZZx/eqWn7Cx9PRjdTranG8mIBfnfhetCcvnjwcP1HP/+5lmgx6FFYvXtyzKJ5+Oi+QfW73Z3dJftXid1JpX362UdPfvHx7t1Hv/f7f6dzPLW6tJo9banuo5Pu8Z6UevG922uRf4p1AiSAGfj/EoGhTCb7qzn1b+amQCk2b04wY6wiYQ3ape7M0rQSRQyPqW6O1JJaycCiAiRz6+a6f4OhT3MeyKFfVqfqdu70tDff7U3P9u1qaScwO59xOWk/fTFPQTppaRig3W/nxuc3zWZjMOgTGDu7u0kCXJyzM5KwQbfbBcjoClV+ZqMODbAVk6spXuqo8dZxz94qiwS92Mtx/+Aj07xqUaukoPNKJ0WGz0yKgTWMtxaoLs411zBqXG00vBmKGtq/Fs3O240lNZDEdBBY7UZduHkRpaZRbUq+79hJYLVdHw06NMTawsreXqdV/6eDjmWpFzSJ4/Mx8futd9/7B/+z/2gwtLMgvHipOqb0U8xZ8RFbyFvCqkWTJKssAPd/ItPmDsML5aVWivrH6koknCKvAcvn08Do4G8oMZ6YWSEuxlPot7ruJGog+kJ7fC8hr8gqmeINi2852cRhKNBGD+zmkvQRJpZ3dzU7JgJZBXN1ddgfmab52XCtSXL03YqfVfQL1hpP+/CVMZEexV/Pf2Z6zAu274/CK1k8NIh4iv7qPpMeFRl6SliOc0TjyaCEdAp/MFs5LuxvdxNlc86i+RB//EQCw5lgggam8R9KfYh0Uyt7vnb/wWN1Eg4OT+2oSrAbFzYY0V6ULdiMSYURmPaccMlGOkWw6A9RGSINS8SCI+0zFfynuK13yl5jD4YiMkVageeEkeAomoneFwBg6XY14ly0Uo2cIiwx0nDV8D38JJwPyUVOpBlTF/lUNVq+Vj/ksxJvv/xezoIbb0i0mMJpINdy81+h6uqpN83iyH4N4MpR/ZbPZIhXFKxvoUAOCZ/0aFgCmsSVT6FzY0DedskgT/giuG1vRnPnNzOjC7H92ydPnvE2WVgDObTKv6wF5nGq/8lzYsRbxBd1A/eI0FAyUm10+zmoDYYAJiJaVuLcKGelFC9GF45AMBXcCHs2EaX/AV3mr0xnhpy+G2N+jNkdQR63p6ARnDfL0C7DpF5hLhEzb0AaRC8w90BmBXPTRLnZNw/kG3u6DMfXIE/4Sw4/xiJ0EgxyHcJoLGXaXj7bA8Y0hQjyGaQyO1zuBMRyo1VbJibgrf+RK2tVUZkUoXMEIR1FWZFspgUYhWPTzaE9wCKMFMcoCr755LBQLsdi9+E5rZyNRV9SqiCqBqsoLik76+F480r4hKgiClVvCr8ZSyrg1YXjCS8qWG7TJysbB6dLq4uohkc8akwisvTBrH/MmKgRGOatHdKfWS6p817UHfUVTHz78Xq7qeAZW8hyneiV62ubHMatemNnZ0uSm37oy93tjZcv9rO2aandPXnxR/+vf/Y3/tbftVmJ3G4ctnvdu7nqzlwP5DXgCshEnkq8gRQBgM9slMM0Zh7Me2buq88AOcyFvfoG5c1Z6DsHyRNEyEyUVSiI0jmT2Zo/EDJ3+J+1VLd9fRvwEAkJ0XsglPr5o6vL3mQ0WVhM9Y+BZdjmO0H1LPgVwWU6IHjVVeUuiHKBLS7WbrYMCoCznNO6P3RZHP4mEffjapVaUjQsPrJohpm0zI7s6qFh8NIkMTnCzGEmplWFmFL0cMYuTVCnPjO3NLa2bmgZxzV4UrEp29O3tpxabtu/dkFa2iqXlC0Hr8bD+dklHEKOohhlxwYY4+k+5WZ41Tk65IdcX55++eLAflCdg5vz3cGdlZ3Xl5dLC1PLizP9oz2dv7e29qDZGkqhOTzsn3WvrhsYxIvDvQ79tBjp1JBYVXi3meJRStKr3qO0KVX0AIT/pUJmmOGk4Hlch9P1WRZ54YxJ2sIXDVhT4fA+Q452pp5eUECluVBTqj/7t8sECgWwOEO50o3N9xXPypJdoBjpa2uNg/2XFyIFXKuL9lpUvmSSltF94bphHRE0uoobRmsBb+xNPD13QSx9xEjCKSIz3Ekr1qPMSzkylsjTcAz6JxwjhcgQdgpOTpYydsViK5EGJxE+hTRrNhYoQwZOalsCb+HLbL0pAXSVFfiLz58cHXfmiAqkls3zrACHE/GhBAXiJub6D6oFSASaMArmT+zhMMWPA8cE5OE+UmGVJ1e/1KdIR5lSPqB7WRAn7pSFY0Sjl9l3QF10P4k71oqrkYiz8Ivf04SImaMY+AhBjd2ATYp/35y/YabFxiqgCa39u450wRFB9ebZcpc2K60zfCg8NEzWoN3sPFdIDELtqyuFlWLFoadwucJHAx8qQDHKFclHl+r1Rg2xUocWP7qaG44n3cFg/3j85OXJl8+PD08Gqh0jKAsPuMJB2YoA3rX6/JQNxdda9Q0qdLu+3JhtZlU2rkcLw+fNN3E/XW/QGCgeNJEr2nk6Y+LT1yJCClqYkaKZlR8C/LArR0nPM0kh9Qw2XjtH3LX5uaS7gaGxZdLNpDq4AUj4FXoApbiE8SqxhfIiTZecjoLHN4XXlBdr080QNc96X5Z6FL5F0zPrdLeEoqekzFVkRivBzgh7rs94UwPdMLg43Y0wtJOOSnlADz3CJCkZuoASQ7H8mkm5KEkqWRoD9P4rdwQlg5QcKlm+hTugPL4HDp8JPYnMiittnu4s1iuEi7KE4UmpmdnFoktKuKDCGwgHlS080OlEkdnTkyOexnsPtl9fv7LoyDzyFLGsZqCAGgHxX+iEvDUWTzaBZg97VNQbpO/trjy6v3V4umfBN1LW9uB8MB7dPrizs/f8BdVNV9c3tp8e7otR1Vezs9/F+HT/Vf//8l9++vu//7d+93d/FyiWmtMrS3O9Yx5F9QTiBIQiwBrHBJiXwySWsVf4HDj8D45IavE8T/CoRarQfYRrEvcyZNoHTsS9g365QUwD36kFl8KIVpuii7nzi17f2uT5+w92pKGfnh5P3XQZTtN1bIuWToDFm+Qt2TCIxE7OgfWcOhsWpyppXw67JcdDCwZoAKoQkTlcY7PyDE0xmDPgMEx5fOGGDg2bWt7hcAKlG9kBScsKNy/uA7fAOuvlqOMXN1LmMBdJY40pBU4lHA5vXu0d9066s7IT5xZXl9ob7TZvmTzMO/d2F5sSiGZsvSuAPLmamR8zi1cbayv1uevGwvVoSDm3Au9279Uh3Qq1orGZMLOxndtOXj75rz/+ia6qk7YkZ4EjKnWocEr8dNZgmojQbBjgAijjjvFTd6RcplgG2zzagkw3Hswlju2vZvDNCV+9AhiBPNXBIexnTWKmHKHxR0QTDJXh9dYYsauQESiCtKmnlpItmcUQMAVFNZC4SslI+SJLlzcHJ52h4tTUiVl1XM86JD5PKfIxQ1AoLyyHzhBNWkEdVlDEDzc3L4k9OofcCHNCZaNiM9ugv4lS3DJHhFU5yQdFA11Lw3PRPd6FSUTGCTOWIIqI40KT7h7PnZ6abjYlvUqTq2sbNPPPv3zS644i6rCtuIfwI08zLUvzjClhYdErpbNK1Xe9Nk949yV/FX5Jwk2y9I7w4g7BQabtdhHYFGQPUykOZZxCOe4LJRGKqWTy8C41COcmnF56Fr4RMZjU2WKslfdTO0JjZsNReGz+zeFVb6CQiSssCWfLbW+O8kgl24q00u/8gnEWks5prCh/1c/l2aKLltti3mHpGsDAIy+T3hO25VqMzYqfllpoBXLBH91CZhJ1IMRgMvf69NZC1GcvT1687h2eTnWHU0MhE+t+hvFlV4e+T4+mZvvJLTk8PGnXp9aX53c2lu5stDdXFtsNSoaVRyPuJkZYMdssSooPGUPmEqqAoSkSGTwqcx3MYGZgVEYadlPui1PA+3K9kk95uTEaS3Uz8zm90lBR+lhFUcyxnAilUukP08FZWCikIH7hZtjoAR+312p1wUWkwq8g54rJqFSeKzh3eCLJnJQHCAKSHp5Wp5JISOpEJeTwSu+TQX5yCpVBMgZX+uqZ4liILlnspxhPbqHWpR3WYfQ+/0VOJg3SZxCnyNo0qcA5d1apPcWgkbWqIKc9u/lmo6pcXRwfH56dHmffyNtFAXivprRpH1joIr6CW9RIC1UuxgrkP/nFgb0J2hut030sIS4EQhP9Wq2W8LCsk3k75ViIyg4eyqzEoKiwtxctrGZmqvH+Ow9/8vN92owABwFXW1qhUwrKcEh++umn29u733z/w8HO9keffrS7uytf3g53yEuK/B/+wT8bDg5/67d+azg8ajZnJVmQgSF3hRXwq6w9Mb2ZFp/hThH2sbqrKz511Fgwt8wHIvc9TK9MS34IfsAAP6SBGG6FBlyCKVkHySCYEPweTbG88bn8i5X2UqYre4JGgeBNUJ5ekUeBE5NHlwG7iC7zr53oT86VQJWTncT0fm+k63bhm7nVmrrW1xLcsb/kWF4Mpc5T/2J/5EgpdwpPzrj8km8t6Q2DL4uQoIM+0rIurudj8dnPaM42mGZPsufFZOonH/309euD/mmfOixYttJa2l5dV2JfKby3v9HfvX8Pazo9UzxLmjotcmb7nd17jzZWWwv1+Znmyo6MEMVrT0/PxgN+yAXJDzfjUXt+bgnGjXoWnG2trCijeNXt3sxIuBYhS4q59QZK6Ddo5GgrakFEmDNahvVlvtFEXZWODjOw/vZaPKiODNJkpAgWraGaULOZCTV3xZkfTx1A5QsV1dI0BEdU2Z8eU46SmX0X6B2EFT9bsHk6S/SsDraSXV64ikNnndHUzLFygti1bUIjA0SHwlmjieIHwQJNZc7yYt4LuYgvnj/Hs7ca6/Z45BLM5sgQHlLEQ5j92NyWiF8oNJZ+ebWnHeEV6UjU1+KHSOIfIpAUAsFZuQ3bQ8q5J4dkw1zKRgkccIbZR48e4y6WJtrdGwAgit8InDjD2JgJrqoPDQWITNk0CU6IpEmyQX5GI+cGJhXWjVRIeB2LlpuKuWVo0d5jhxJX5WCh+xIeE3ibkGjZsA+zgmjFwA2ENOMzsfnww7wibKiiwzcOPePNr9UBBsbj8406GfosOnnFfAuEAqho+Gkm5zmiOHhfacTXgAVj9GTYZ2H3ep0bKRu4n25xvKGTTJ974wak9kgVmheXmrKjl7L505bEWBpxorRv//bnX/aOO1OHx5Oj06n+0CJ5McUsg5+eWWSlRm46+ENp42VHPps5jybuvOwhqf7lYKMlt9YGa81FhZGm6jVLSoPtFCaMEypwehU4R7kCqgyk2ByJZQYmsQL1kzwKiqSOpNhv/AKexRQKN/ZYcgIzJZ6IAWnk4czQmyYUlIprIDwnzALezM2tL6moP80YSgp63ONEbaBKFhVgRtjljR6z5h9o6CO4iI4XEQeRIqFuplR2qUy5MD+iNjwvOhc9C4nC+GqOcy6fX3pvQGduY/AVhMpAtGOYeVdx4VZknOkRts4yueCGviNQUwP5x1lkAXQk0CIXAhkqwtA7PT4+2l/dXFESmqmEm2gnstCyx2zIYm+QWH3W6XkvnqCK5toSQWH2gvAyBsECrDgSTTIj0UYIWATUmFbFyZhupDgHycUI+DC+9cHDf/mvf4zX89zr271798Q6//zP/nh7Z1M7qP3Fs2e//ms/ePb8CUsPHCw0tXCIDxCh/uhP//Xd7Xa2aLkYrLQssGza6Wo0HsbEL7NVZlA/36BE8cMWNIbxAUZQPIhhukx1JrzgNASBTHkos055jGSFbKE8t8fTgY4BPqAODQQUDAK6COdb9H6BwNs5ulqhjHhiYtwYu8ZiHhdHXTAiJRsE2mkPHAXZXpqLlU5+OWk3acZ4K0EVtT2GcIRwELC8V18LfpqfsPGk2Jp0JiymrVewD8tmxnFUZYoVoJtr27VFa19++epnP31ydNbBRW2Uad+j4dnwbG//8rhDteofHX9+frH/8sCDPdUkLbiaqw3tWsHcb9Rt03c10d+bxjwPlTwpK8e5Q+okpP6u1Gu3tiOcXD7c3rIK2iTJsCiVPa/sFhtYQaPrG0Uw+a+DiiipUhYtCeYLi4ssnAVvJOiRddG2TIB54zMLFSVgSGAZX0HzDL5kk6dBDkMRgsRZEoKAPGjZw5GBTFjgwk6nFuh9k7jzFiWbzM60dx8+nM2uT9P9ztntbMvubfbqFQ5HgbxxUzMyKULIJh+qmBLn3ODKAsMDrIGTw67Z1IHL3kWyzmdmNxd2onEm/0KuiaxmGqAAWZI/MdjC68OOCoNJlySdqbfVbq9Qh8gpyRXiKEv1ln0ZCSQYF6q6uSDErmeyRDdJ0VO3zaVlNTl/8dnncIwEEjtKRSl5JE4hA+SIrzF1nJIAKFzCC2jlB++G/CgBKqBBiMwyLjOBMnjNpoSY8gEM8WI4Rqis2PgSbqcbjaVgrcQKWiYzcGLKsYQau824YixhWLqmX1ZfspDnrr02Bk6MmqrIU6EeQrvETgoUkVqYV14qhEomO3BkMMlneDBQ+zWIkjk0/yHd3GZGuE4Cl7wberi3hA29C3/nB0wzach/SQtRwCRxk4RSaElcGvGPz9PQuxNM8MYeuZYrDEYzB8e3L16OXp1cfvJ0YkdlqgAyj1DyAiJ63iYgGga4dEPvdBO0UTElgEtXAOj8VD2e/snR6M7m8uaafUOIK4VfL7mFGjV1ur0cmJIma4WbAWLMOFWwSifjN+ArxOe4/kVn9JNaiz3dDs/PC8kUbGQLRyWjrCo0XuUb6UZZ4sAwqmWn+q2tHeDSqMYjk4KsOdxf5BpSDB/BsMKubq4s9I2pElEUOBM9OG/K2GYeTH5scgKGnyEH+NIWzEyx5KLHlIse5OExKVEqM7jMHTqRb6EAeIBVaMnl8pYwTXLQbXmHwaTSTxhuPASBLDAn8s71R6dUk9lWH8oqIUaVNHBUq22TtTk3/eLzX9SM+N7WLPf/dRTP1kJzosRCv7++usSRPddqfP764P766vMnLxQC+a3f/vXt2uTT3mWDxqoatK2Fex28EVb1LG8sh4wDgAAkMZvG/BwvyvR1Dz3sbty9tzN/fNrpn9+urK29+8HbP/vok4VWk4hbWV2HsoNhh4x+9/0PP/7448vJKOXKOAyHF2srK/z4P/nTP3z88FHn6OVau7Xaato27/TqjFPYZuM3VvKpzDunU7XETW3iTVlh+UZJsZqYEU9SZecRHEEqBI0yG9cGS6AIOPsjMfhTxwhY/VV8M54qXJRkiHKdumuohShYUEFnZqbTm6yutIfjqe7gsqRwm+BxnFGpaR2yQsApmz0no1CgAbHP1OfqkvvsEX0xlJRvh6hxp3tpJ1mZljqmwyKG8GjY6wuw6zrvc6RjIduqqxVGKUAQRUV6CEUp616wCWgmXrGIiCzxbjZWTk7PfvKzn3z5xcFwzOpdXF9ePXl9sL9/stVeXW0sWp172Z9Z557qnME/iKA8d2N5jTtqeNL9yR/+0L591kJZUgzP+4Pu4nzLAi6yK1bUoGdLH9X9ksY81TjvcSXPI0jUAJJoPUpfKL7AlrLI+tDvwFKUE9ipjJAFEcdnSEeGr8qhb+9KOmlMLrvhFnhd+GtYk3JfkWRZLmKQnhqvLG+VzbNS95MsadQay1aJkcXJiZngAyo221dekJQvtL60sbrxVnPpDuZKwEk9vDwfXc3fvPfN37DH99ng0h5TuMpcrT01Ueu2L6QuYHQ5ykrHFHmZnR/ZBXt29uWr52zfO3fu0iDfuvcARlmVtbTcpoDCW7wBZ8Tk2821mrU2NJJaNjoRGQsznrEWQjLaQrMd2WH5dvQ50y2gOC9fisd0alTqnQh7yG08p3BY2yOB8Orm7W+8LeimCtRx96zRXvrzv/gRhTkIC5qcFLCqoC/BddO9ulR7nm83koJXNmzF/lS29Q6wpWbA9Ev2FnGDOyCLq0mrvjSz0EzKi4jY1DRYj4io6ES3F/Cd9SsBEa9XXGd8YTGbSiY08lrWa4dmksxB5wibo5fDxSArHoiwMKaEEPGq8Kg3ByRwRrBXqW4FQzzocTAMPsTQi1IYNhoGnF/0QrEOpBxGGdmUAUS19tXr8k7Iz3uuPynFEuWVoRBvOZFgcuepLXLyZ9SNG06mO+OpzuDm+HTyfK//7OXw9cnt0XAKf8TUPWlWYrGwrhKwKgiIsLw+ciTCJy90PSupi2SzOGdAYRXfmF5fETq9qS/eRqMLk85ibVMhaAEoNK+4XRPn1BJIaElphpznAM9if+g+sOgJjzNNAy7TxWAJ1r6yskYmmPB0Js1Hjybi+70hieJKGgk6RDZUToUKku4KrL76nLnpFWEU+wyMiSWuHvGhNJJmPK6Txa4rT8F+TWvKUdSS8Da3GVK5hqIzivyaQ8ZUpBsrPr2NjELgHE+yDLKQOXfkiACOcR5ZPvYdRokkAz1COJ9cDZVcCGeGMRAEL6ZJGDGL9HJJiodlU5xacZDGP0GF5EJn3E3fNrqDvnWXAgO9vfOHuxv3ttdvTl7UxRE9zbkuc6uu7EVPIkyMnLDNiPBo0/HBcghCNSzCtguNk/7B7/zW93/6yT9vLs19452H/VHv408/WloWTGnr87DfPTk5sn72nXfeefXqVfeMoy/Zb1Em9KNee/HqxcM7O7bEUidHWu1K26a/9Z59JSkWNMlYx+eJiNC+PAN7CSm2ElymLJvJcA5dLvqBOyBetCcXKMJxGKe8HEMyqJgdwkyIy6YB0DMvwQZBAzw6xdbMwsnJcEl52rpcVlQd7S7Vu/AmHfQgp51IpfoSZiY2howwd+GOtWF6a4vb1OXzSkl8sMTkQm1SwGfkG65ZqLd4IwqxBLkzgmSXlrHE2mD8GUaehh9COzaSF2sS7JxZXrq9e7c5Pp8768+cnh2oyvg//9v/qx98+N3D53sHT19tLG9S0L/88mlnNDjqdrdrq6zuk87rpUaNd2PvyceN5ulC7YH6s6124+jFKaLw0mQyzM6p8uplyRSzMAkK4VnJzySigpZREEI81GiZHVGeklmGxBJWiJu1QlrcEOYGGeE0dQNYhvoecjGYUEaF2JizzKiIGj5FXmzVBblXrAmz0A13ZtLrUV4S6gDr2YVThVumm9hqe2Xn7sNvT82tS4e8ul3s9KTlS4c8uzjvmduFxdUZCxFvLq08o3zPL9SNTNkRRGE/L+jAPEYP7GXxJSnv//pf/+vvf/f7v/FrvxluZS6xctOHRoJUSWvU56Jx3vKiWvQyn+Q+QlRkl+1Z46yMMukr9pUxJyUNaVvfZFL5UDORNzfCeC6CtuQzMGy02hjW85d7TAxL9Tnl50YZayoEwhq2UoOSq8QLnFmYGc1N27sAdySyPBYfNcyopY6ZtziXQ4om/Yh12t78qmF1ln/OBZcbi3UrxQ0MWAWScTSzM1+fUzbD8q7Z+SubYrLTFjm7amp93NT4jQ1o3mz0+CMNKJyorGSkXUBHmpc3EjAO/5bPcksBaTC5XI+PvDqCyF8LKWIsGA09zEkeNy8QDOBwheJoUlommFNWCaS6pyqR0GB2ytYSuRr+Y81BiNr+Khbx2HbzrH+1d3Iun+K4c3XWdUX8fMpWheRvRFMlRUj++K7CodNn/+efIhnDroOagEpLyWWxjjhOB0OJVtfNVut2+Wq2YV1dkt+mGLE4F+nlTphJ9pCgkCYnMtD69lMXs2wFj786oqgGDtTkCKRKzGA24PBy7wAT8yAo6wcBw1bG3+XckNtQp+oqWHmKKy+TXg5Pu1Kd68mbNj1SDsKMoZV0huLFyNAibYHQXIQI2WE4T/VXvK0gE71E1hSKM0sGBBgFLFpM7L3cbqDEUfzIpsWIqGqBWIFqeQq83UmSa8wLU9q6BMK811jSidyb1KEQNv08rSeCz/4Zc9Fll3GhuuvQjDngtRCHG07O19dX1Fzt9Y/aV91nTz+5OtmzMIctAqCwBBIBTdWT4jgz2ZVdTWcB9vj2a2rX3t7aLuqb33p7Z+dP6quP1V777//Nn9lEvNGqYz/8q9OtxsnR8fOXz/7OB99ihZ2Pz4K+N8hHBGSm2WjPTR8/+fLph+++//Of/nDz8V1BslZtffpExe3bwcXUgB8yS2FjOMPnrI80AZCbNppRR26F3yeCGOgGE78CcVwS7o6vSWdDebnPacALP8GtPBSEzhzL9AhDnlvkxN4/HM7xLc3JTJ5qiPbMTq22l4DEysqosjHIkyOmqo0ViUw6OZC+jEeKMjTUEpKfatW8jGgvy9pOHbH/24wSt3YDQepBw4oV64mO4Y0wJ7LUmCJIIXcuoedsFylNQKqLRMzFxoOHy3fv2Eisfj272mptjWkU/WuVf9Z2doQq+6cjrazevf/BnZ0Rp1FrfjgZ/Ms/+FeTq4mir1fDk1dPXy23z1aW3llb2VhuzFm8jcCXFUhZrB/a6Bl2sZwksyrO1DuiI1AAmQ7h72W8cB9d4B56VFA09QEKPOPToEkWCssexCA0GI7Bl8M90i2gRwWhcXPBm3UhM5OMsrKIAeYr/8kkOXocWPYttNYt6l8gE+fU9UydkdVe3tnafbS0cnd8UTs+6B0cj047F3t7h6MhrahjX0bblrWawnjy3lmSoK68rODVnFxzSp+8yih33OCcliJttzd37tzZkcC6taVLdDufVpdwrmCiZVUDmgl/ZTpdjm1kbDnAclY9LSzy2SngwhcOOAZUmHNiR1AvVijWQ6fktqEd2sst5bysMxsI5i215F0nzo1s7QyJxanL5am523rTvAc/ST9DV3WBuCIoFI5kT0QeBoysK+tRxudDJUBgOjYXgyO7bXHfR1x95+59w08063amLY+qhCKQLquQlSVYjfb47ZqycxZl9Vya5rnZyfwMyXQ+c8NCShoSPkdshJLCTjJlupi5zIU39JV/3hy5bHZLbC8THIjk15Ac4gKXwqTycOgmGugVUR/GhX2XaxC+yBPRS7FSQycDqA6LNr0UNHbggKYHg6NmWLIjIMu+7IyuDk+vTro3r44vD05yIpNCAW4rZjNPms+rQ2/pD/aIyAwincphKOXffEQQmq6ieJTbw6KTPjYYtu2QKT0mLrLCeRdmG6qf0a8Rh/hR6liXMCtuNzf3rZUVzRgjDLPTARqwZF/jXMYFjAECPvO1dImKnPcWwV264wb6uFWrgBru7shA3thSnNNuDiRdCQsLm4A0udlpBlWmjTIIssCdr/7cmWHG2MtnYu6++gImwfEEvwKWuCXijk9d7Vx2RCfiMyHe3gTkMhFf/RqkLW/UnwhjyjUuFkHmfel/UtutXIM95YAksUQZPI54Sr0/L5IYvWhRMM/h5a3t6SKzx2M8AM0YGS95s87JJQo26HRe/emff97ixpp0rEaMh4H+wjkcX2zdBmTxUJnk8BocGuvJKkvmneR8a77Z6PJFd+/d3X3w/qdfvuLiePzWu8dnp1Qyq0wtGW4utdhVx8f73/jGo+PDl4N+93x00ag3VauThXDv3oNPP/7oN773fUvNe/2zna1lQbntzbWa7cCHlmFeDlQHwnvkMDGbQBoBkZV6GZjrTTVHKLfgobxfWhrNvBzSdUHQ3aBqdtEcOQC6FCgjyjzmM25hUbVk7k3PnpwOlDzqdE+Go/jtGo2phqzWOKvtlT4l0Lm80li2JlWRPsvn1LGbz+6tjx+uXt40lbGfOb2sX4AuJRWbj2zkqrk4R8sspHgUdS3KaelsgFqmsdjhb6go3UoPCxOI8WHiedEwdzrCmE+M38mC4eHltII/jL39w5OP9g7nb5aWFCJurz3/8uXunW2pQRa9XY767bXF3/mtD/vjTn9w8tb89uDyaG660z39skkSz7T6nZPV5tTutnSo5bOXe+A0pj+Khs1OWckle8wrs9AHEOF3QkhRsdiWicrjM8aXemA3Y8t+U61vPr5BwkDMc0rkTIkM44i95VlDSsxAm4lXI1MMEF80VBm2CnaIuqrKiFNx9KCa7GjtQVOcObsxoNV6887C4nZvMP3s1eHB0Wj/aPD8+aHqGGg/Gz5M+LzGJO14o60M4JLwuM3dUdlcHdxU17Ttr75JiJw1d/U6wic2fv/3/wYXHMbC54BqGByFfUgopGRcy/1HbvR53N5go0rIbWVfWkUVrpBUxtBoDuSRDr9hHdFHCBtr52AaMzU6MdmiJHICW/Xm2aklecp41i8uT8m8uc0Hj/m4SDZkqaZKUxl/TDqN8TlGexdw4xRbW1/Z3NxUMpKHG8dfWVmx/cjq6jqfkqgHKBNfvMDClWhAvvbh51/+4he/6Hc7n/78L5U0VOZsLJHmYihIZfvh2anJ7tZyff4qURk2liDNHPdOvDE4NULTdYMurCmcKz6ViC18iVwuoy4jR5OyH+FDxUCxSdOKLmEHwMGBTH850GAMFyE2eiiPhqSuMPss7I17jfGuvkep9ZeCjHGYlc8Ux8y2b9Dl4lpQfbZvQrt2Vrj6xasvD7vjl/vXrw5uutLTddJqX1tR4RWUp0gOncKlQ4q6ZESFbRqICSy81nfYXLpMtWHJJ8YXnYU1MzUZWmCo9DO0Vv2jBBPk9SzOrKhqPHdt/ngoOZdxpJRQY9Q/3/M+6G24Gi48J07yrtWLlfz23io9wXgMRyqVLNRy+Opa6R6+FWSqgOYz9xY8qzqv9YARlHEQjEL3IyIsqqjcsC5pynMEBjCXg0cgU5IJ1TAdoMTzC1TyAw9eDhLXZ5Fg4fk5Dw5EoqbR8jW358URc2SRWQ6HDUSRv0EWroAfc9YxI0IBlr1nqyu99lxpJjMC2Fg1AzVyxsI3CgqS5YC4UZVACGRR4U8iUiMbWxsKiZwev7w4P550n591Xu2otnBJoqeHg/Pu1e2y7gZIEbpEYOZWx/1bAnX0hex0NTVTkzp83Jls7ezU6o3PPv+cfCWinrzo4ghWApW1XuO1tbUvvvz0937v906O3v7o5z8nHMyPHBUbDlFvoeRf/OjPP/zgvR//6A8f31+Tl68KkjhBs3Xt31NbTI+nbT9jgoz/OmvPixavX6VPwVD+ZB/VdCDxIqsKuDFIfpQ4UFhptLrYqTnJrnoVsppzvTGzVrUTPgv1Jch6fjE46Vp6ZUtAMyioOrXULpXUO7cNhtcMesd9Q7/y0vu929/6TQy19tnnX6iGXatZZDOzUpdPQklUi4Cqfru+Xl9uLQVZJCKV+Y6+GLlUoUryzcx02HuZcJ2ssAUuYANxcMUfa1GP7Svx9/rUBdu4ySNw+OrTJx8fX5/Xr8e1Yfdqc23n5Piw9Wxhhg/o+uzBWxvf+fZbJ91rWsP5ZWemuXY2OBZTnpsaqVknAiZ4sdpeXVtZOz/r3YzUtZQqJZeGPbOIPbA21MvDcTDlsJksQClWT+QX0AoATg2Ul2UrCQ2AuCoh+k1Dmyurg+WjCTqWrFioGdaeskuhYkg6p4QDA+gmS32VuWfMh2+luLBFV0orFVEnhYWkn1ra2H2vtXKn2598+Wzv5X5v76BzdETBVkBrGBqPB82UzPRFDPd7UiLv7G7wJ9bbqyZ0PDlMuXaeWH8pbnDNlWfCIaHYlW3bfJYQVzJzwgTiSbB6wwbX52IN8T6xdqRjgID4NbGNN/HjR0XVDOowaYVSsQA+QPnOic6E4WBc7HsBLQojijg9G9zfvsdieLn32kxbDcVYovbP8UfGoigrX0gppIdtkFWSZ9h9lsN4Bf/Svft37t25K/x47/0PgjzBYVjjJI5ui73nlOxkSA36gkmvXrz8w3/zb/7kT/7k9OjQ7LDWZJ4u1mab9iCps7w4FPGXiTFPLajPwvdHjTJHxYVhuXGInhkd9oYpmHvTFsdusBQP8f8bSYb3nMqqjL8J+0lqQMw+45+T77uKGF0hfiKWk60Z78jyxgqpl6ScBXtnEs02U87rag1eFzKGSmx2Uv7QgSBfHh7JUO92efwGx6fnByfnrw4Hx53b/miKlLJ6QZ76xbS6fPNkC3qmMHFPEoF4Yviq3oRRhjNkLGU8mbbqyL8xBQAzwUAzBi40HEXWjNYTszyL0dKiCqOJW8kdXuHmLLyemxAWfJuR1vzTySSVchTMSLtaZV2hASLMQIrgccJQo2dRL/gw0qUijSInI2YqmYVR63NEw5vD5a/77LxIj/APN10lqBvzp1zNI/DdD9hcxvZmpoJFTl13oxmsfspn4fsuQLS8DAlUwrDc4asOYli+OfMHRCwGQoxohgQSLHQW9Kq5zuRzvtGm5xZ5WAY2bLOU/2RkRf+pvPCANHfnPfHzs1AXRKbMFgixUYn/2szCZb8j7Y0mbQXO5tbq2VHvaP+JXIq33lqb6p3LorEyIwLeWo7L3u1UEz8WpmXvppfeEWsTW8c1+T1cbtu8e3LFW3txeDJeXdn+9MlzxHn3zv0Xz1+1mm3ENRwNzkfndEnv5fr4wQ++//DRg71XL7E6lSQRrZq7FhHf2d367NNffPubDzc2V169evHu2/fGo64dTJZn2TGNZmN8dDy+6UzECYkd1gkdiENKbyAOEJmLcEf8PVOX2XGEtkJWV0jEjLFsIuTZSHG9ZrmmmzGScBrWcJFjFgyzffhu1f2Zra1MzR7zTsktoiVwWksqrisdG2t6hjIqks9pQX/GH3kgavX11lLj6vpzXqPB4Ipe8LI7VrgR2FgMm5tSse5w80ASyKh3BZHTz0QjqYDOgiaVq9k39+iNKc3mg74oU2xJLswGA5mh+s5E2X/1s7XlB//oH/2Hk0Hjpz989rMfPz87Zg+MXxw8uTkYPn57a2qm1+mM5+e2m4vj88mpcrKeqiVMPzMZnIz7M+oan53cni2fLqVa0u2o7Hl6XqoHkir0NWGshEehZcWewAoCgHZKnjAZ40wfKOAv6EU1EoYiD9J7OCy1kFeZcUXAsTOt5xUZjVsUe0zvlcGklV4itGxnwgfgsebCAjYq3iSEhLHJS5EBODPTri3KJnncGd68PuwfHI6fvTjZP+gMLWufr6sVg/DZadWWBTqsZu7sCPvau7Ozvr59v9VsnpxdnvROZODpDN6vOjE3OQ4WDLy4wEW14JyIgjSZBiuQMBe6fk3B6IaSjCtrq0yaxO1S2hSxErxJAjentENEl5mM6Uk+iYDRd2TSp2ANysWqMDDlrFgL5nRzg+9xToFdrPtU6UwLpSi1r14+Qacy6GlMhFYiUbg6/66cAtqSbJ6pm3U6z0pt7XoVHp+9fuUxh37G8+o1N7J6LvssqMHg4PXh2fGJBWUvX7w4t2XronrHOg+9NYsyOFIk8lprds2oKmVzMejrrDkPntkExTxjfAx7rhZZ9bT3yCKgkVxSMCFypxI/Rmh27z9ecYNzMlmiiZ8dsUOjaptxe/n4Mcp0ROzM7WjAjc03mXU2lltYUaC6bPpvFbsDYkVp4MO5ssNNTJAUmrzujS56A3sHsNxnTnpTZ6Ppk+7tkMYko49ihf6NUDUywbfJuaGaG7w/OBvxGhs/GqbDPCCuchiU2fNkobpIBKovoeWrVVe6wUG+MMlGzrKSQI9cZQme9SY2nBNAzA0AQzZnRVwUE5/RdgIt78mfn9B0Yg00HbwqMlvOVyi/11PxXbgCl9GEPiXJUL+M12OxlvxTGgFJ/1W/asRBJvh0czhFBET+d6W4/tKI84iR6ogBVNqLf5dQ5PYHBI/nznS/8BsZhTkpA/KbGzJ/8dl5d75WV4A5s5m38TRwJEUzd545Ti6JIgZTdvwWypULZcXhZGbSmMws0ilnO+WFWfssB5QvBeHxs3upBsgtFWnOhfqzcwnfYDyfjpOj/avzjgzZh49W//N/8Fvzk6PXX3xm9ZFyP4fHT9fW66yEaI3Z4pLCFXU49kup8BImMsV7s8itcnJ2ftrl373tjU4//+zZ/Nxi3Feztzy6WQfNEZ0oBbYy2zkb/OQnP33vG+88ePDw+PAojEvxOoWrZ68fPrhz9PrLj3/2sw8/ePjpxz+emXmwaBeMK+R9FVlrZztK+NzsWfeC4werCS2RvtF6QBxwzYJ59ekoMwiyhX+QAdEDQDrIE31BvkRcprGSCTN3ZT4SssFik2TtxmRUzdeXag056ZQkuF+fv+GIPlKcRZ701E121qA304E0bci1xfHa+i5jQfqqOu8kmSlq1Gcb9UWjgGzFqSg9VeZLP/uueZ7R4b2lf3AhgsnkRXa5qF3dxv7gR3yYwTgjjVdDEDJs1CKk5tLmdGvmfHz4lx+ftev3f+V3v/urv/eb+3vd509ftRoLraX5x483b2+7p91n46vjk97Tq5vu6kZ9cN6hbtp9BKtoLCwZd2OeUX3Zne5yWWB0xITmySHFDRTdcwNhGu204CpkFMmhs4BL9kHjBrSJ1O3VkHXDeCoObsZHckXEQibUyuQ0ctMhfVY+8PKXwCtmOd9fItApXUhvzfiRhU3oFWbmaTOlmL9w8IXazrXVZut+bzDz0Scvnr3YO+0NOx1rsEjBudOOkF5R6mPqgBFlD0lwJMrtHOD9d+5Nb2yu1prLt9M9lrLcCymESlmEk0aLMVIFiOZUblNvLoZT8AaL0E9RSTsiNi5H85f9641WWwQr/ARhl5sy92arBJ0J5ZLgHfyTJIhj2zjs0aNHK8vL2t979owPHL4595MUp0EpfaYFRdFYV2Z7brUuGVRjdqOIA4ssERbGQ8YFlcOCbrOs7PBQ60oY1PZffBY7ZXqOnSdZw1qTgYIlPcOom0Vwev36tUUUhmP6mJKjPkc/5qU5uH65MHdrqaOvKUOQ1KRUYZTzhyMLtIlcb7RbZoGAtebO4aTiR15tkPCA78a1SiBHAhXNJUwn3iS5RnGeGICYJAF+bcdqO8M5bHLHjM7gKDqxgoySneZBXkNSXdpxkVbwIePD9PmQpOUzH0eXt4Pz2d7oxr5Ip4ObswFxlT9L9S5NOISwIrRgHgbBfjQWPdEoREZB0CVQjBj45eFC9SWGzBtQGx+lN/NAyOHsuAbcijMwznBdslpzZmhghC4CiZGU8LiBFEEVQmE1Fggkbhcq15jVslCU88IKFT4u98ZhQXy/6VSMr9yGgZG4MCLRoxzIUS+1Xh1lW5o359GSImYiBbPsFjrmF9/CrnPQb6mVEYQucYXgHm72CPvHsyjga1gkPhkuk0X7kU/FQkJkVS9cceS8+ACK+qE2EmU8wkrydFhDuYGuhQbGZM6sgI6COjBzbEFbfyzmGpe610Ryx3IIDSn6sths6BKhVV9dnZpbPjruU5zdKBuaX662OPXy9edLTYHfmc3F9t/92z+YGuzd/PpjiwrEJX7+0z+5vDq9uOwl18Ky/3OLh7IvM8kTRVnFyOkao/38coEDeXQ+c9adLNQ2Pv7RT7MN5Mxsrz9WYMBKf+tLxqPLZnOJDY1KhHpevTz44N0P3nv//b/80Y8Yf5KMoLPY+KOHuy+frCkI9M437tAgX+4dfvDufRQo4Vn9DAJ3S5cpnvPTkoBOu3253fHP8CPFbWH48T2lwnIBVyYmEqgoVXJ3J2OBbItVrBywGH02yfH5KdkDJjXyyjTH+PVVmJ1eQFAYLOWgDsH5HkVWJrM3Qy8CaUMpvLtgKKDLuZTfyLQSV1VSgOEl6E1ceSlFlKZBsLWXG0urLUlkgojqR8T4CFIFU+AGGRVEIRmgnu6UDCmdyVLOCIssGbRsjDni/TQXz+rr1WWfB06ZJUnsF+enz/b+slbbkv3y7rfXJHyOhp1fPP+hfPVZhdKuelR0PZlcDxbrwie4xPnleO71K1s/U5clyF3Zzbmlfmytdnd3h2/QRFpsGQ31/NLqlri0SJ7SXWyNc4apO7q+UkBBXWSy6NxUxbxAKKFIWjwnqqRuq8azjAy9pD6DIaSSnttgEy7CCcWrj6RlzadYCASLGykAARvwGV/YrY1ToV2rb786Pb+aaQzPpw8PeywDG5Nyx8Dw/nDgAWCxjp9BYuN5E2HdG82NBnxyOtzc8LMlny0rSvWB1OFtxn4o4ufjMUasCJyRYTvil5FixfYOC4qSditCBBoNuZW2QyPGw36gTchYpxFprHz8OCscWYRhXx++9/6De/e/+eH7vV7v9ctXpwcHsbyveMuuZNIieBt9lZKJEgvElCk4KPzyZeBLi8OYTH2+mG4QZbJEHxconb89P9v/ZNzj6BWXygoD3B5aQ2xQtdAdTI0+jia5EipzCCy4FFhQK8aoV5yF7qeuYbO2uNZetLckoUUwra0pCaXeClnIvF1UOm/VsHHt8D+sG32kL/6SQOKzIISdVYhJMEIZp4cHrgOQn/yIkEh8jJ4HL7oYCy7WUpKLS1JBqMdgM9ZcCaB5TkwkPhXkdqfVdX4RPeKTvVRubqyegzXv/fGUbfPORrf+uuMphUwhZvbIo/MlU0ZzJYHd/qhFNdcwmvIqdkOojpocms9BX3AWth2OwOmNkcvpL1tL6HP6BPfTuGCACctimlnl7KflaMNyXiezH2gjzMiB+J4usqyIVUT2hDN5WUYe+s57KxEB6VF9ehArC5FLdg6vdwC4S+EJVGpSsogWAKx+9YkwAl8aYW6OLPFq2niiJNGCM7ZKe9ds+BWjsbw6PK3gVfoQYyypKxrJKIsl6I2wWfUyv2vBr/whfNFwDyLwIhfvEEHsxsJcM3fpBi06i25VyhRD5gd1XF33lHuzC8XljZWLSkicjeTFxAiWsZmUV4RIksgAsGWTPRUXUgucmnU86M/VV5GhTBPJF2vbmz4Jw/aS4kJdMZVf/7UPTo+frVvTMnn9i08//eKLLyYXPe7Gd959AGyM8M3Nhz/6y0++ePq61V6ttyxLnSYjpSbY4Anv6HRQ+Nonv3glUwGuIL9Wc6UvPWOUCnsLi0vsMLTtukGsrsx/+fTlw/u7f+fv/d1/9k//CepaVOZk0l9dqX/zw3dOjg4//ejj3/jNH/z4x3/xwfuP5OOdj3s7W5vPnh9ubdxbWZ69OB+2W00KoWJqvTFipFM1qGn0Hi5/K/9prnRVU6l8d+zt2Zr1yDwA0p1azcVB71RAHjs7PNynMnJ84I22ihqN+qpGqPeD+6AScyxDcnN75+X+wakCObM1VoIbCG0MY6m+sG498+WA4K5Qjljibmo153tnvdV27eZquGgXvXa85osNBQVn7Pd4996GeIx9PZhWprigEbRCwObdtzBzUw3b4rXIujC6D3wNXqmvRysLg4+ildUEHgy6WxHF2rpQQgqjbODtk3FXRenOYHq+S76p/y0fV21+ufVZrWyTJWTMJSWpEiVxLF9edqz9M2IiXM4hL9Ta48f379757re/XdxWNzjEyctXWNInP/mZ8vm8StxDwlSUaikHI8YxRLWYaHpqdDtFDUfbmQm/CnoVipMHYcgUeLkQqAwjQrEIwYAqSvEi17H1xsKMtWMQOaw7BaB5thRYml5fv3v//re64/lfPPly/6S3f3SKd+Fy/EO2JNLInd0dtlHxlqX20ebyDil+fGxFU+e0e75/1Fnf7Ddby5tbWDhvJ6ejXMFIVhOP1wzs+iVEzXd5aSF8VuVh8fEjJLmBLn1rzxcaHr7hBpyAyoKf4IxRqrP2PynrrsT4KOlUq6tbf//v//3PfvHJn//5n1Jf/vRP/i1+0OucUQXODs+2d1fNrTZFyz75/Klsi7DqQG3yMlwpfC0oULES50K4zovA0LW58/7x1ZhUtvMJBMk+wUX+U1OTNYu1thahEyAT/AJCK1A2xurMzDLim7f+a0EuvnUa7aWaZW3yA9fX7edN4TMxhIt9NJJErB+DowMOW+LHQVUxSZVHbjwcVvqU60QXqkZyDCn7UZItjlx/o8LDU1yJjx1HcxnTj5xLgxhZbwAuRQLyZpafYxPkfvCgTmCh+gFlvIJddTm7aKkp66p/fi1YZY1nH+/T2XkmCZXQagiAQ02oXUNGUERswJnDuyqE81kdLlaiyk+kFing9elx4B9YOFzOjIT2YmSJ+3OfCH9P6L+yfznF4yal1eQ5LzBuWylFCBRJAlARFuVgqlemTN5eZIjbvvrRw3nol0e0bdiXSBKW4EhnIpf0Obq1CxGCsVGi9OodFTg+o+rI7y6XiIfngg/5AY54ON8y9uK4I6AcURSjKSIAzmefDjjjujvLRF/PYGD0TQwypR5Qcz79pCpMNd2VOuJSxclmrPpUEkxZPRLrUvkAc5q++sM7kq7F3OQ4IhisgS9amzI4qmrYdNGqZNpXojhzVmLA9is6Fmv1YmLVsJzzKcvlnxx9dtp5fnlxIt1JOdxU3Ob4mp578uzg6fMTm5WJJdkDrz8S7i+2rTUGQxtELfV6152eJZhT0FaA+PzcYCCk4YKrKg8ADxFS0vfVq4NvfOMbUHFze+vBgwenR3tcvdJvxch2dza2d9qvX/b2Xx+++86HP/vpz3/nNx/OTg9AZ2u9dXq6t9hYvrfT3Ds8/f53HnWGl09endzwo0Q/ozEy+CKvMSBuC2K7FPS6sYGREfrp7t1dic7AvL21dXpyvBDv6LUVlMEICypbWaqq0/Qvj0fgJaH5enN7rb22JhbMuBz0VHg9U9ZqdbmxTE2XEiRMAxeTXm/VNDWB9LtmrdbskWTFkkLgdUu0CQal3EW2VC2iU5lK7lEIE6aHtKmT0Co0QTkL1fgsqBX6KJheIWhIEWFgY5XxHmFF2CZLP3qcTYow7t70jMHax0SUjdGZWCbjlfBTykSqBkSC3SR9QUIqHc8k1uE+6pIqdjedcW//vPP6YO/Fq5fwENeRCG1RDtEUaSBnf3GBxUFrZlrBSZKOrhnrjBKGFnBsfHymxjAtaTFRLTEnRBxVnDWU6ncoOzSmTEfInFPFF747vRFV8XwCNlLAMBuJIpx5ywv1tcH49vVh91gd5jgVzo+OTryMS81eXHTup198Sb3IWmxuvfkZ22A6GDHtZaWHrWhi6Vn0ojhL02RR48Y23WE3REH8JQ0DQWgpcsFPYXZ+9LNJwWClhAaZ0ZojOjNGGk+C2FsS8fJTwhZEMiVzZ3v7j//tH/z0xz853N+jAXCEEslsbPu5mVwZfNR0hSUlzSqQhaE0Gk2MY+4f/f3vQQVMS7vYWbgFhcfshQfFzU2++8wd0WcxnjrcJVahoRHSQJO1MjVtb2nDi/eci0aydZhPwkaNZtsAMrbky9GYNMwoYKP2I6UgvaXSyrKJvdAthd4uRxCrOrjuqhMgNky4Cy4Bhf/p9ZGGKhGwMiy8DxvLfEc3CZM9O+0EiJAhOJOnPQcQ5KMDLB1FSBe4Uzh4612mDxS8DL+/ram/YymVeuryVkeKUV6m+h80j/nEDVic5WYB1ZW2vMPUgVb66ZaiIf4Vt1cRQ8CYfpQDOcVuCQWCS5QZfYcA/ilUlFbdG5RFUtRyThU6ZbCXG9Nbo3zlViyzJIJn9jKVsZycaB/OEFhlpNU7febtsYRy5rx6Z5iDl/GUIpWImWBkrpTbQlEG5Si4mMa9K84LrnhzWyFIQZKQP0wAHHqUZB10GmxAY8FmSFM961PLaaQILexPo0KF7Asug/CBokj3R4cmFATMbiRVDlPKRMjqEHiQMIpRUpQtHZy3zoN1nRRhyVv+iAY+b6o2AJYs+RpCItpKZXya0FWrtZJtYedqI6UvRK2nblpLWHMtwftqHZag2uX55prUsJvzwfH+q8+7nUNrctF8AVjgg3dQ2CnvcjU0aTkKx83l9YLl5DDDdihzszyNr5npdgpkfAvPWD6jGyguwCobbsFNzIEEpeSq7k0PuL1e/fZ3v/Mv/tmXgth2FBRWW2o37u3uHOz1Xr58+fCtt58//wRX2t5o26extdbmMZGxpRjH/PSwPje8qk2tt4G5dmYJqoA7dFB/IDVN55XXXVlVy+BmfWMNj/AuriGumGdPPu91z95+/JCVkG6cnlKxcWvlD0MXwTXyI95Ppm9qVM1Pv/MNqcV1aR3CER//9MfXqsTWbrc3llasCrq5JLpSd9XMTk+3ltXq410cEVdLEtGyFPhipsWyDh7Ze2cRa7Fww3SJ3ERD9xzSCAyLwAr2+YvMrZA12AmGMbdREOlnKtLHiMj4AxAUazJUEK7LW8gg4JDzo8kTIC746/7cGV2GPOakgG/wF/tDaGwNkfjR+dSS3IHrW+m6Mr8biyt0mFdnp8L1uJboFXsHlyEnxeZVYZEVsNQSXCh8KisLrDFWEC8hEQ5rkSHGqN7OXNlmhD2SonyL2d8Rv4wtm/koeqGOhdxAXKdE+cu29xhsolay1G4k74GXur07C431s8Hk8+cvJFDs7b+2d7NMcql3fLyCo/3B4HD/KIyyNIhzEFEwY3V1bXl1c2CDbG7XBFOF0NT8FRumQYJpoBjw+owrOeZKAabxmJHCYrCoWApGQBVITTJQi2ummhrV+xbkNCoDiC5dzYOYBEzqdo5/9MNju2aRBQZntb6cQ3IWPHEMqfN6PYSUIxVm+pqVix7r6tvvr2WOOaZjWetFWvMPlqDT4ciIOG5BiA7uC1dTtqFVSIMb1fUkDxpV1O/MekICJTaB3VbygWkjOImlgD8jIdxIhSluNsptzksdPCKFHYxJTa7HFhVV4goMIp2LVaQzMBL7oBNZEEO6AQ+owNDzIWd1pJoLBHzEUgHVogR3bC4SCOQosBX7FYJP/mPGqatxPYV7GnsWVOclxoG9xzLL40lhT4EvsWuCin1t3XdEYOa2QCuwMwmGjsXnkyDQRk7LUc40lqac513eFprTM91TBT+/5icNhU7ynTgKMF2CXv5So8FLYQg7znhMUFTIELPDhRKMcWNwKK/OuyL7OMBCx5X4y9jSbG4pL8gI84Ceplf52TQwGoJXGs59vpRuSJx3j/NqXM5hFfqDiXwEOU/oCLFBDIrpjLije4A3NPjVkUFHxkSRhJcO+qiJdoWnAjq7Tm657i1eHf8YURSolPSKjFSgw/hnSBf3m1mBvdLLvEOnqLFBBjlHTBK6RdYsy6w1WZy2ENiqd0If32DNAMwUG0ud9elF6yuZSnap71o8aVkV8puaOreeHQDXEfVya3rq9NmzL06OD64vh+JmpqtYdKoNhZnbGP073/vthcXN3kjhq9vTjsXkBjB71u8I6572VT0+6g2uOt1xa2nFO6tJJ/NwaAeSLsAxaQH7s6cvWt96l/X18N799fXNyWL36OAwQazFmiXGIs8v9g6fPnu2vbvz5MmLu9vftHyJM+DOzgZ/0d6rvS0O97mL+bb1KevrF3NPXnUswzNm+FH2OZySQ4877Gxv2v19d3vr+Ysn9gGBNid2zIUGVtVc325uboMPHhI8s3KAuacAv5HzSAtjSF5dvDnvD1dX1utLLZEfxd8mk/5ijQ06tbZca9yeY8lqqgWbo47frq2p2MUvce4G2+Dwa5lZkn2uHkqQCG37JIOPNCpTmml9g5wMCTiQCQ/+0eyC6EVXCy2GAoIa5tNtiCFYGmrSEFlrXLnil7zPXSGbhHWz5o/R6gfYP2siIX1adykVN+F9VEnsUo/QIMuJj/rBe99YX1sShWHo+//D9z8YdM4IN7mD0H7/8PXgcjJbm/30sy/QEg6nIenZdltWOoJipSfpPNooh9EAMktibtla6ZBxWWVhG/HoMm4BDz1CGfgnQSaXKDgjV1Ak+nax17torm40WpvWq54Ohi9e73P/Hp4cY4/WHaEtK/mO9g9CaHKBxC3nLXoNL5IuITIkRNPYsRxeQXlevmLdQ+yplHMT2w1h6QCIFVh6ynczgswARM+LRpCTROzAq/AE9xq4jKjAFqUX96YGZbG5QT5U9gienxkPQPVaoWTFUbF/uCkr0Bgji5PWfztUisYa6v7IowjEkGGAAHpfD0x5oJeZY1boH1jQy2knTuRcYkBUY7OdFOpiTGQasBnOgWJkeCrAjfDVEgdXIoOxY8UhxfvEscTS/Si6RVxxPjQWa77iW4ie8A5ypGzO7N7TVzgMMzkj5KsB12I2XWT1igM+xXzWOJ4MYnK4QE1ut58iWmN0FusQbvvdyIKLOleYr+LB8cgGpGksExDOCDPYhORQMgMBW5ev7bV23rugT9WGF6yra5sV6UJVsrbC/mh4BcEJ2LQRCvIygwyRVTQE03ypPkpfyhf6ontDwvoRjNBOEQrBZKStu1AdkRcWoXnaVuzqiMnYFOUvwzKqEKjn81p4nTEhx5wEj1yv0lyCZ/nmM/0srrYy7vQk8AkFhVMiiaKyBB0qpMjdcQ7HmHXkesHLyKekP6QPUQrLwaCCLO6hnwVDysIA7hRR69hESBcoIYW5/erABx1eARlhkF6pOuarEzNMmJRu+KReFNeSCYQGgmaBZYCTKZaxTb5KXqI3Wsp9LnZ105cDeiWpR6YHvXBBAD5RTZ2Pehck8ThCBu+lRoN9qheNxgIObpe+4nzm5wx8Hz24L8hj98GXT59MBmO2kbABvIwdL5YodjW5uXv/3vad7cvb5potydqbXz47/PFPvzxRSnK61htevXp51LGO90KEpvU7v/M7v/jic8KmzJexhDWY8IIAisFbTTxqNGuKxA8H48Ojs2+8/f6P/uwP7RR/dHi6urzy4P4je7l2+r1nL55+77vv984XDk9G93Y29zt7rVqdC4r5c2d7WQE23kg2d+2qfnQ6VCDRslLhLNkoLBluwOw60Vh8++3H9BrF6R8+uFfNwsbGhiQU9mK9uby2xpDaV49qTl1J4EJswMfbZmYkJysiMblGcBZOeZbiBUT2t1GzdKk+W7No52aGuCIygEhDS20rB03nJGV+LL+l1lhCEGMjmOoFDO+gGpgHDWCR1/g0wwlVQlN8Amup8NPXwi8xj1SmD00HwZM7Ht9BMDpkAE9o5Z6O9HGPN4QTYJ2h2KzTDTGTBlgc11LZ1xweJKHRUjCJCII0Yx4ywReqX31t+d6776yut4fnQ/ZGY6n1G7/267q4srHVU/vv8ODPf/Rn3fPh/Yf3Vt76ktuoc3D0+sXe8+cvjW9G0Pl6EtjFe5GRRV02PHsnlSN5CBg3hUpGBvUb2vIO61jGFSuXKMHt8WHwwcNlmMsFu/Po7kxtqTe8OO50pTofnJ4aNN8D/U+e9v6rPZwT2VLTA7gi4uGbAY/kBl93WosrgritZp2aWFWsUPAey9VFWgHeyjNJDACbKSZFQqOgSVsJzRboClWUCQr15jfDo6OYkXxLKnzyzMUWk60eysssRujiA1Y+kVOoSD0JK8Xlalo8UGsshTdE57wWXeM/JOoNx0SZoSQCFM4UB1hOTaMmyfHCC8LeyMH4Wbn8M5MUkawbwD30ikptF2pp6DVbsoI2RnTOHWFP9OS7JjHJylx1is99UlmT4YGfXE4GXauGqy31MLW4F1Jf5NoKamuqoxK5CGBOItGsMUoZfEZSxFXkU46cUpPCZV0L+Pyqs0HWyndVHINBzK+PJImVA7MA9YrFu7BUqlRpJkXfSrhrAl9YVCTtNR0/OamJL7s1in5eYXbyGQL2md+i/5E7OhHa8X+6lql2G6Zu3gq7TyM5MhaDAPwohEYX0eMzDUATl4yJEPV2yoJPfjr7E7AmyxPGCx4QHliK/ZrhwMeS2hCUyhvtQludaMzM6WJAUfCv3BLz3oU3gij2fPzBDGdWEQGU61H6pHpb2JGj3JqYU5APCKRjG0VmMKvV2M6xlIVWyRmdTx5R1rpDPufRMfjHXM9k6V7GTcEJ/Co4xOKF8HmjK7koQ824AhMCOVvbRaADnXsoK0Vlwc/ydGzb667UySuFsiZDSwtTh9esRcRzQtJXIW5mqhiO6cZVUh6m6qIPS4zu/mjI2yZ1SqKwmhKcNfB1Mh6srayr6Xfef3mw95olaYZ4woSP7TYlsCLrW8dOz/r1pbWXr1+d39SW1m+/fGFLofHtTP3yevz81d7rV0dwCUDX1jbe/eDds96ZekvEqHEGDZG2bpG2t9PD8UBuKWQ+OjlTUctLPvzgu/z3f/wHf/zxx58KmHMGcow8fPzgrNsB1eX2xpOnr+/tPtjc3LpOIfGL5WWrHtSLmU+tjuurRTlbkfNBqcvxuX1FcT0AMLR33/uG6Rv0kzunIpRZMuNCGi5KMTg769IQHr71+NWLp3YdzEL64mQ2b6nRxsWbrcizSqVdX1IwFluhu3CVL6k1MK+m7exirCsoqtCSQhXKXticQcIQb+eibVdoypjvdCNJhchLZAzWZcrDYoADXprVBPcybyEjHiB4EErJb0W59pMz8w7tg9fgJTIUeoA18AqXD3fwW9AomENwOQlRVmdBrRAcemPBkJgsS/MSu0A8GCL3+2cojE6tXBNaUvD9ttUit8nrZnv1k/1DXH7ndvrg+Pj569e/OD55ebTXB/0l6WR2prmZP2VGEDmW9En/g6oo2xt1ovB2517vh6juOeSH6raTGAYVFWcs8sgJeL7EdDHfr1KWcX5+ubm0NblZ2Ds42Ts8IERJGtOHDXdOz44PjsRY4gRjCNMKkyihcK0lG9wMsjCM7tzeKJKuyWouK0meZpx5E1MffMKfoEqhyXAyvUF+xYVDdKUp4HBj+J5FPHprFNTXcIkCavOlrAloV+QZ36x5pcnmzisK8Hg0ULGX0iIeRI4lHfHiygJErMJ7ONKOjo60KRmPcuhh9q82TUe4XgLR6RM9CbMKEXKLSQvGGoIv+UlNz0aZ9fBWNwfydK7rqeOXX0b8TBQiHF6OsYsRRolxifwF9GGypSJukCjmdmIPkUYsNNkN0aBYRxB40NVaNbwwQy9YuI2GJlHYndCwKOnh4zAZ0hXUNKI09ctUi9RwrBcKDfqbJzClUIcO7IhTEBYZadxggzAcPZ1+XACyLQyo1AP2wkTSZVsgJu+lPLo1lBQeHamV6QvHhV9hNZZYJkpcQOV9Wk333JW5D6hyBPWqL6E7W1qKsHs20+D1UaTc4glIkhcWNgZtiy81fUseTv70o3D8PKAhT5avhhbaDJEWpJm1kjh3ZJILfWSWAw4ZON7knK/OzUYkjd1hyp3Hg16spVwqwpQKBsqOYi9G1SKegEUstMyt1AY6iWzRiCacS5Q+jCBaeCV4zLmOYHqLYULpnQlB6YgW/CSaxqtHHtMVzFX1UnJQZMXoMtuZx8LOADu2a0JQKM6sm3dYISkU4iR4UPa4sjiEUcUoi1PC1L+ht0wXnIh6hElHd5kZDs7Pzl/OLNZOu2dWyQ5nrkepARfJHMqXPjEzqxRM/+kT1cRsRptFTaWYLMAkH9n0WCQ+UQKu/6O/+Fn/Yq69fnjauxyMONCmRuMurVtNLHR094HFmCu2LeGtVE0F2FOyCkqmU7YoTQawvSpd7/TOmD69Lq9jtvh5cP/tz9Y+fvni+ItPv6RPrK+vjs77tZZeothmZ3QiWvHWo+1hIiFsAP25Xpi9Lts/1W9mG9PXhzzpK+1Wo9XaOxvJtzfvv/qr31ejFg5cXsx/8MEHZttyh3hiyg7OOzu7P/7xjx8+fLB7d7XXP1FgNFIBt4UgReRfjtVguZhXenQwojMzOEWLx8MRXrq8rP6uFIpajbAsCQGqh0l9t1RI1hxllIkpti4VjldQ4qfKWDwsRm0uCgEJLSmaEBEThTnsHOqYDZqkrERvgDMhriA+5CpEo5IFuqRJI1bPR9RFiy+FsbCRKH9hcdW9WoNs3ogSMqxQNvT0FlYfVCMxRCnkf3EJjDrdY2hC5Jtq/kCrIJVJH8/OCJrb12pkvdP8/PHe/sHrvaPT00m9fnJ59bLXv7O5zQ86y4Jttu3OlU0vhP+KxxdiIUfkCqPxupBseIXBOAn2Z8ihmxCkODk+xx5AJXASOSRsY8WObJ3R7dbGQxJLtbWXe/uvDo4gP2kzHqjEcUJcJZZJ7zRfQIEcDTYQMXANYOlgG2fv+aqlPvPtpcUIS9uD3sgwslLRGvMiRj2cPoXB4oNhQEnGJQfPsQxTjxGQkVm5aFR4V2YxOmG46tQUPk8gUSEjA/wUdpONneVWSB7jkZaGmnoKU1fS8ZCmu2CgnuAjyo9hJrL0WPzSLoBqLlwOWpTJ944KBXzamAcRUjNlFMXlEw0n1t3o+BCpa46tpi354sy0CCaoHJYevqm9wB3C3d7YyvzaFjXpLIsPFgFCENPeCD61aVSZMtnYvtwo5MITp/3oF2GNxGQ1nXEQYTThxq64X5t+YV06Lb6dMFl9LXgpr79kWmFkjLdw8gK/GfVTxulZDFvQT+Pw1Cc8wNMwc4gt2lFY3s3oerqnIgIXlqjVZTY+E31nu5rpZDYUMy6oZ144TONB0MESlgADUxbhlhf73xvhHyQFFPdHl/ZWR5F35ZZQTgUcl2PZRJYUQWKIOJoHGeZJYfIu8ivNIr/yhmv5Rl5SXXRnpF/RUOst6Ug5wn3xmlCphrOyTZvOIbR3QRGfuc+riGM/RCRnIh3UsIOjU0hZhJF/k5lpRZs1P3RQ3QoEymdQG49xLXmfWvKftkIylTGK0WdaTQoLOE4RRAM2+ERNb0K21AAkicpiixUfYvCeuBL8jZwLm8krUCxlIn5FVjnnCWzkTQldmNAoDnRl4+AzIRlSkdMKHz0yJHxZy0qvRbzeXKsOfNQfWUgxGPR2uMJkXjSXb+rns1NjgbDzzrixKMlvdHZyWrMlyAw3nVzdYtpbKUgkJleO5G2u7zy4+2By3BfmxAtu5TxfDEavDw/AisW21Fr9O7//N8T2To7P3nv7redPPx/OJUcxVpoZ0c1UMbCcIW4MpWAllNiUZGd7A5vHaB4+/sbHP/2LT794XmvUf/O3fsA481BM3pub9vr2J18+XbaD5Ox8FKyrS8XRrIkMOczMDy4vlB/kt3jw+NHdxx88Pzz7b/7lv9xYW/3e978t5R0w1tfv7x+8UIzKLh8Wopkn1tvSUvtnP/vIplx2tVCxVD465tG3dxSBOpuNISAMuounysI1w7upHV4dGjZtdjkxMwWWrGRkCoR5cZ9mz0611yZ9WR+LdVnBSdDKbjwaUDofryhzHAx+cxR6MZWmOmiNUwTFTH/IBp4U4yhUGP3MHcijSK5cj88ityUwlRuj+DrC7CKxQp1hOsmHjxlf/nxol0iKAkJwJS0rd8EtzEyeELtbwWsFkIQ5GcGqsrGxGu3G1samJQFKe48vJ4tL9e6ot7t9xzTQ5pIWlN7Eq4+320goTBr0oipD+xxeq2tIwLxXh54h9ABmSuHakHkoOru8J+UXgeB6Uj3tLvJw/f7NbXN8MTrrjM9sTZN8pCjX9vvt2ZHSEEimsvBAK2Cg4XDuLJxKKIgyhC1TyAb92amtLY/iNCjFNk8hv9ApVRCf5SnjZs4yLvu/p/IO/9hkFHYbv2K4ghwN/Bd4jQXjgFdlGpP15P31bI4eVIE/Vza9kaYwGY9KRVncTGl5C86BHktRzIPO6o2WKo3ssCmdcqElfDs90wWcORuze0cgEp3FCUBKNICNUv7w737svSInqR3ex670CcrBK7M4c92q8WZbQ3B7fs5RaSlWXI3or4o/eTFmF/EWd59PvCJPI1QzBQo68ZVVpEUsLp0xU9Gagke5livB5+hC+YJSMTRB/QIX86zdwksHUEvCRdHQNfLmdkgKRRw+M0KVq/knEIyUkbgzYlJYdwk1LS8dnFtkoEqBdLCLa65ANqndF8eXFu4ksSbTrG8MIZ+BAZxmIegfcGOELG8okQl2IW90FJeaWwqrLMEW5zqUPiEcGGiSEX4EXJyOGTUvVCSvFdax467YgBL2KWlyfiV5JMIEiH4ySaUldorpqyRQERAREt7NK+0zX4pe80YseT7SKx2j8OR18chGgks34v28oE5La6ny58zclErJQvGmLDRexhVgYgNyKqppgtteVAFaR0xXNVcF+LDDw6YchnkdTlfJQk8gxMQwfHpNwSrX5BuaVaYHqdmkQHg6RizXzKVqIyEPWejcjJwbDOLYJrkj3CiJItWfV0UB0kdLM3FP3j7+1GhduCxGdXE1r9bqk/2nJz3Dri1e3K40VlYaG9ubd5vLjeur7vLS7NVo/+6vrE9fPyc2Wwv2FpizpJcqxQbiMjw42l/Z2Mx2OTMttT+vj0fKYH/x8klJMqz3BsNnz78QPdCxWn3uP//f/mcr7fX+WX/9QVOxzeHZ2X/5f/0/b965O19v8EAILEGYLHC/kSKGXK97vYFdiR8/3BmOZ5oi/I/e3T842tvfe2ty+//4Z/98eUXO/aTTGWxv3VdI9vnrl4fd4Z3dpc74fGd9iy9PhSDCp2sBmv3gb686g8sH7zxqb65Ptxb+5s2visN7oWouBwd7ZN7VrVIp2VCD9UNiLa+t/uhHP/rWd7+1tbvz8SdHyoM26q1n/c/ZU8giKgOKv025v9dHe1t3tjltvEvGnPVadzYWdjZXFhaz19gSAE6GggUSSSyqPe91pmYmu+uN26s+zibvQubzzezo/HJkgq1qkvOSCCS+pkBe2ZbXTLIoYDWLHeHaTCWenBBLcBu6JX4YnU1uffhSSfnO7+XHQl2oI6jB5ApyOiAqBEatMNkiQFcK2ZRqEy5iEey+Kyk2tVkFyoVUzqea0hPOryxn+uYH7+1srDC+Tk72rC/Z2lr+re+9j8NxF0+fK1tyZnnNB7t315aWrTAWizpbnBzd3rZWlkkIuCkVfdY+FUSiZLOyhzzkRVML8/AtY2GmUm70qD7fon7ZNQyfm7oek6kIxtqsEnWKBt7tn69uvt9aetAZzXz6yV6nx5+hkmwKaB0dHJ2cnOEalnYVmEQ1DFO39KKYnfgaJ634K5K6vhjLBd3eWJWEwDqhFCJ3C57om/qMHhncGLgpxrf1xtpG0F5aXr64HGAA+Lz9gF89/7IxN9Ve2oTDDBKSg/a4mLUXqsLKj2XYjEpWnbyLKjKk5Bhf4Gx7vaF2kDWO47Gdz+wHvcTDyfaJPJ6dO+6oODx6593HmHOcJZZ8kYrhPpFVjqK4R2LxTDeiBMCV+L1RfeQKecsgCdciIGi2GkiJYHazJa12wPPibAELtfwSZYNn5rKKnYA2bly1Tz1ATVHt43aiVtrlII3iZ1ntZMQkQdE78t4iqJQqkRORlXSgGaEXaReBFJav6cL1qR785BaMWWmsFBXNijgCbkpNyaXG0e1ZZr8rz8rXlkdo3qNo06fkTHJ+miD6tvi8Iskj6RV0Cu4EOkcihygjSj1Qeh8WGWnopHgodcVCX0PERsOa9awQRwwa7LhoFiGbPJIOA0dUPIgZ2iFEw9UrD4FbUBNnHVsKpLRJYkmzV0fWZBC0FL2SpofkU8ujBEijJrLNDdMBEY06bj5tFveCV4BW+SzulaJbROlDU3blw7f48lJx6vZ8gMG9UfyQT/pWFAj/xk0SifCmr7qrqxwnEZqmrDCQ4E65IaaxYeRbJE1keZkvrCHDffNTbMZ8TYwtNmsEY8CSV0A4X4XDiCVxYJhk3lOMz88zs/Q7XgU18rVLz9AOsNNlK/B6ZeCPB+Z16V3C6lEVfQEqY6Ff0H8nL18/t83ERvve9tpGu7liW9h+HxIPVAyanhrM357WWqPawoRTBkqPJ1ctFdE5rWO9hz5khC9IWb6elUdxMuQPm0UNdJjxaHRyvN89ObCV++NHj1ZbyzZUv5bOO2bCDdHxb/3qD/6f/+JfZM/1GyrFytlojLtlTbT54faZncXELe94vf+q9fixhczbOzvbO/esNnv2fO+996xSXVFv/Cc/+7HtFtDQ5p17r45Oak2B6Fm1qIej8cJC7axzIq7UqC8LJystmLJGM5dbm2uraz9Atxjb6trSRx8f/+KTj7/zne+gbpjz4Ycfbm/tyjw8O+tY8rWsrHq93escU6bfee/9j3/202H/bHRx3mqoPjU3vBgpVghxLHa2W4T0DeKH8r3cUht7rAZcTEbaLnirzGBCkrIs12CS9LaY8GaNIzXh+vhTzVMhmhBJas0kB4ptgA/ErQCxIoREk0LyFXUhroJKHpUtHUs9jYSmPBkh5ojWWAwtL/JTLpWjoFnwolwkf6vLkV9ME2TFzyq5YtTHbpJwzh5V4P/ifPzq2VObimwut/26XFv45Mc/wkM21zZPjo9vz0fZpW513Y6ap8dnl1OzDGgvItv1y5itAyS5RXevJlLJIbQyPkV3J8zeOLp5TVA9ZYC+5qEkF8QGLGPRVVRmPHzgdsVtNDenLEIfTogutVrxY0g56PST5MwNLYcnDDWUF5BlnGFWAV6upQnjx0nx8DgMMEOusZKyW+AvNU9Wv73WFHGgQs3yMODQke12ebBn5bXKnJI5TR5t77Ku6IPQZXL8TCaPrTrm+nA1tBkwgJ4PmaTheUIOsi4sx/PaK9CYsv4wq+NkgsS/1VycXZTBS+mXI0yamHZTwROIn5Pf3KERVAUb/OM8ssQnaZNsQLoIPsVeiJzwoY6AnNWYk/4nqCK0IrduuPUrjRh8suzRM95OWtRamTAcMAImcauwpLCXiCKtoBOtVUextQqriqu0PJUHg0maxTahOPlGMiMtjJq0l0PlV63FeihOLOdGUGFfAOz/HDFAYawtX8xBbLBYfRFXCVWl03plG287EIDg9PnVtBgI9nJ1W8PYzDOujbLwV/fhUz68yKt81VCYDClYYkJpqxx+9m/lWy8eyb9GMPwY+TXNVccbiqm+AF0MNjCNX40Asr2NlS0qXi+oFCwMEbmEYcdfG0slIjHwyVHJDHDGwr2jmi9RJRRidVuhkxvpZ6QR4POdBRCxbILOpKE3xvkIhnm6TAfwal13itwtginYQg6FU3iuADCDKZNlhlXMy0ByK54Q6SwICxbzC630KysEzEysuvyXN80TJogm6VHU7AhSuph1b5XQDBroJBFLTPDXJrPPxMWVg/bSAW06L12OLPJeN7pezUIGEjEclwg4wfC8FepOJo8evfXeW9+qLywpDySDSXVz7jcdkxxE3VSKcn6BA5nFHeesLtB/qFU8w5C7OxitbCvbc31iL43ucHzVkkgGi07Pzl6/fNLr7Nvj473Hd7/77e92T/fb9fb0zfjdt++/fPX6zr1H77791qdPX3J/2BlGch0mw6uRCkeK8GVXORbFULXo+7u7VeFLa4cPD15/+eUTZuLm1vfurG/fuf/o6PisPlVf3dh8/fKLL78Y1edt3b7UPRmR48reWoV70rfh8PnW+uLFuNNstScGENfrjO11d3e3/87f+tvffO8Dpompenj/EQbROevBt3ffed8uR2311ROhyT7kD++9/eSzpxLkLs8lHEtlnJUaNV+b63S7z148k+nfG3QgDoaysly/vOjSCMTdzBIOk1zCUAmYlRKvXgBfCRSrJ2eEeEyxeeI9TvA4XFXoXmI7Pg9nrJYKioblJjgsmz8EHke2a9VRMC3fc2gAqQZLYHRYmedyOT9ElDkPuuYvvsVyUj3pAs2JrczcV0a1pejpUH0PS+Uupyy8tVPfpx//4vXe3tJSI6rVZbTDh2/dJfstxu11+jCXlkkdEW5Bhqgj6wr2LSPoRmkW8VLiJzpiorvGn03XAyVpLwTDIvkirSo+q6IXw2a8mngwkFBkaNBXfJwhomxVs728DtNOTjt22aDQEFaAk1VitjIqA8ow8RDnFSWUkYNKWFWhF0BC13x8yYRCj7kfS0wP6EpI0CiSr5lgfdwwUQ8CdCqIAh8KfukcvjoU11sgYW+pLv1YUWaThzHbYihkPACr9ET4ji/LaGlkrGwcP244pQ/5n6X5M+aydLvWXGR/WQ5j2ZUtkGz3IffH45gYAgfDiH6zBF/MHH80zCKeDCRuvKiuBCHmgnxou/gbD17qShQpFW9mZHqRLeEmXH0pwUekRZUFGT46WIOxxEcn8OOeEjGanBfWU3iQ8eOx4boM3yKW2BD1Oh4dKwFoQMs654KKZdbCmqGkybvt9rvRQygtoQbvNqhAh3ZW4WWEoyEkTmWMbnpjB4RtgX7+sv+F8FuZXHzKkFMzEEDioZqwJOOKRENR4EHH7GdaI10qrNBufoFPRccPUZTDDY7yWKwlLVYz58RR/eqkMNYgVHWl+kz7+Sl7m0lbkxm82phvLtyscMEsLa602+R1rBL+j8wAcsYPrEKFPeKTMXF9mi3JrZpyA8LQJPhnFlS+rIWaHYWpaygyHhwKxbqMtKtPk5Mjsi0ahknNBU8ZNR+/pXd+CrSMSCvl0JTGXMyDZVw+HfqQPSDRW9F4inO/0O7NVNd6JcxIy5muvNGJt1jqq1twIxvohGioOKEooIk0010qfEgub8Bo/Fb6p4GgtJlAnRlW9PDIUh0kdzStfbT3+P69999/797OvaP90/Gw29rcXF1Zup3mFaatC2MkKwEFglngU5tThV3Bl2SrenyhftZPDXK1u48FD3pZNytlv3PasVZ/1D9s1W5XWxTswV/88X9/7879e7sPP/rJT344uvzWd7734umnO8q99/r7Z0PCmVKpUCyosXUl0uhbXqrI3enJ0dHB3d071u0qd3337t29V08/+cXrX/2175wcd5R1PzzpAUNDUL/efPnqyQfv3KNmyVY3QrUJ+FJevzgwzF/7lQ+311pj/rjh2frW7h//4R/983/23/xn/5v/9Jvf/hbVBx/hljdSomVVnYPpuZ3NLSR+dHDwvuqFb3/DlOzubH/8k49eWs9hByABcNvvzNboFn2684snH/7KB8PLHjea4jX1xgJqTOBMhlDCrqKt9Ncw4jLDFbKEhqCEdymuKHJNxzVfZdbMkfoB57gBXyHfR3hOZjpuzWJtFKyiIQZhw8dNq+BIJZ0K5mi24JAv7ggG0DNS3Legu/Yhch4M0uYWyFMJLm1ZnrHA1zLTSKx6HJ4iDBm8WVpqMY06pwfngySk2MgUk/rZn77EHVWrYtNwZxGumKwm19Y3hBkMno3CcEr2Y9w0Uc+jiCigATOT0Gi/C4RJUOkdh2dC5+AQuYVweGwgtS0rqMlx4CdMYw8EbsLN9fVms90dTA4PjwhFOigmCGjEA0EQ4i1KZVoKUMPbM9K/fiBl4wCfyKrqYFpg/dMzrBmUxfeGcfnF0KR7yrdSfJXmWHIddcx8itnJr7EW8eyci+G8n9U3UbUvaB+qRQvZaE9vQm1qHUSUeJ10mxWvma+1BfW8J1UTFWBgdNTqinxycPFUnJ4NrTLUk04vtcpAbM5eJfqH35TP6Dn0lri8Yn1kHIiBDCCqcCwKuwofjCyskPOokljEGFkQ3yxueJET6/ZxxnBDfTcFYIVjFKCBuZirrm9strzSxBSQJXsykknO/5vlpQF2ZHvppc8qo7EYYbHGwn9p5dAYfM0ESijz4bM6IgO+EhtBalY+O1+XMn/+N31YPZWcghU0sdjTeQij/CEFCEJJw+ojOMrLwj+NJc/m0JhPbUWFwzPzxpCkswQh83/6X2EIbSI3k13EYYFN1UL1a/qVpkNCyMuEkDQazDIZGGODudYcLV95Fx51ipks7b4oSqxbKwTMRvS1mEpZs0ZicWrqcqFUnfZnMsL0k8Kge7A+VwKPCBbT80acmMNorxlaehKRE32U2JZuE/mpTyCeqc7AUadoemAV2oumFgABcRkKBSJdiuM18jLHzbVgCiFTuuprOhn9z5ww6gBHy7qWN4Vs9KPWtm86wZQFWIkWziR1q+pt0dZSMCbGAR08oVPLJ/BEACwZP29gr2sa1LVMUrQc1pXOFqS7s7V9NZ48//KL0xPa8fXVWnvYPxlPzhpNKN6dv1HeVK7NgIuooDueC9Ftm2kmReAWeIxPuhenvanhmN+YEXGlasz+/tPTk4OVdn13Z+v3f+c3v/H2488+/mR9bb02dyn28eUXL5RNurge7ey0x5c7J/0vR/TKLMysmx48NTDOBtxR64zoyZMnG2vrfhgvzHPQHR68Oh+draytHx6/vt9sraxuntnc4jY7DtfqLUbfYDTZXFq5mliuerG8tLS7dbWzcfLwztru2uLzg2673py5nmytLn34weMHu5tffPKz999//2Kowun28fHp0fEJjPv5x59ube1gDi27QSzWV9or2DM2c2fn3hefPSmFjerYhny7USor2jvt/NPPPjk8O4RjK6tNSfL+xIblXlNf6VHCezxDcg04/lN0zVTbTjN0A7l4RqMcQjjMp+g2XO+GLn5urint8hJMFt3U9ClBxt2UmwuWUfyDeiEaydchnSA0LNGgyYfkMd6DDXCYqUezhx1Bb5/B1K/+KlXGVUipkcKwptXden38pWLWVlMcnnTYzRZOJYYg10TL0gV5590K9xdrIVjYObewspSMnvH45JKRo/g1HkjxuRgaHR1SH+g+5tZe6h7k0F9dt9cadFJVj24EOJQ6yI9lgZigbEwlLjAWaUyra95vEqC5uXlfKcjTs+6h3YKV9VNn5XJEbiGWMJaALCRZGFYZb8i5ImzXdPvNEcWPKiGOacmJpQiyL8KHmQqccl6aqjRhJ8Lnrs8v0hiA1UbRmImIHjEwGZxNXQj3X12IwF0Mw/aUJwmt6f9cXJ7mIPY5m5VXzL4ZTcmnKiKxWfkxJAcAG7nVtPHhoi2qha688UpaoHHARqOLrra6ZjT2dT6sWI9PQDLQULZqAkKFZJjkFnKXaDBkX7MuROFOyBREyP0mIU9CzbhZWLzCXbqFu5UcBjmLqLpMf1ou7qO4idxpC8vwkAiEyrsYC+CGMVuuYLthwyDlV8Ki0ZCYHrhXn28gXjHcTIQX40Ck4ZvJKLeVNztjBuivMFXKby+FITIdtZafHMkfpy9nD8YL+SCpmcr144q/MuuRMCzkmHPF5RDWFwrJEWJBUGBumOR8QRS/ahcGl/ZN7438AOdV/xGKG5ynlZxEBLAtnbuH/KxEQvkpDmhBwZ4ejW5HCxhE9jB14M4ysSOvC7sPFZEfxVqtCBFAtJAlF45cSu8iGyIVdKm8intBx6l/YJFptEEhJ8wbILvZAJILzolaOeUSDQqcyS1nPNnyr0uzgQY3AGrnWEgeESyNlGeKl4vEVgSV4Gz6WVCoCG3vCjRSqrp0IBd1Rc8D+ZmZviKtAVvUQAxLpyGEhIqmShOr6zQvd1IACXW0evh67+yUixwro6IgV6MuzI0GRrRiI6anHGkLUc7VUEd/sD873UoR5rm5bvfMTgOzsxPR/dub3vTCRECQqsjMNlbaohRtJgOd5PpWDLlGB359MOhPasNLeYa3/YHd8I7OTo6ZZQ/vPnr78e7m6uLg5OX9nRW1IJSEmN6oPX74g15fxHp2bWNl5/6uxTp2UDsfj9or9dGkz7vCEiCgC8JFqTg4sPTzdHGn0esPHty5s2uzh+nNXteG0RZWTbfbyydnp+wM1t+Dh9/o2EmSo3Shga2bCpSLrSoX8Mf/5r/befp0ZnH1bHA7mlzbGPdv/tb3NpYXnn2+v1L/4CdK9n7yk7/7d/8D/hwLcX79+9/c2tz5oz/6o3lFqNvLs7cTS0rxr29+88Mf/vCH3U4fSx33BXZh4FB+uen7Y4VKr1NUVJI9yo3/j9enePNKwumttIqoavH4UTtsgAB/cDSJ58Ex46TzVPRh/iE1PhVnYrnhRolBSQJ2IJR7Q1mrZjdmc1AEpngEyQZnoinB5nBqhxZRahDLb7ScTH3UrJCC3lVSL9gHT1zJAwpReFdraTHla+ZuDzuvH3xj8fGD79dmV1k6rAeOr5oMDGWxjgd2I8vyVdCwMcVAmrQCutT7YHitpWCKJkhp4iqt4w+krYnlA5Q/aVfjRdssz02tbwoPKQU7xoTS/8IE9KV0meKSIq3xBtvXY1o+jmQJtpz1e/fGF7NHJ92j0zMvRX16IuaIm4aOvRGwjaw6Ypv69hWIK4oq8AmMQMLAw92Jh1Qj96m2IYsNBy5MLNRNZxzPTOJOYfNOWfcxXbdYeXw7Gfavz4fzS3KZ1F7MpOcR/adBcvjQuBkhSpjMNZKjO8eUbygdHHevIFajRWfFgLHm3mDEWBQVQ5ekDHFlPZhqTGCLdb969VKTdu+VN4imC9eggRDzYRu2epTyVuUZZ1iGUu6Z2Sx7+QBCQZNsbIf1GCtByhEtbmz0FCOGD+MMLvJOZf68MGmdyNBpwlf23cL1wqWLCQMcUb4LiNMfsq3MHM+p/JbAvHTLLHw1AwUD9SxeruhM+GDU7jc/0+izljsviInG8Yd60rXhoKt9zQeBPFHuJ3Rsl+Q+ktbbZCksWJzCVWrt/bRspPPgfSR5mpPE5LWV0lEuY4LhpeHtJpVfubDakFJBmsoB2Gi03JwRFkGRByvCqZArI/wrB4GSI1gic6YTR7AKw7fWj1rDp1aNbsfczW42ScHwLn0wPkPQDyMjTjJqRczii81JyCV2c4i0IFNcIwnrmz7zXf5iuMQcDqk4IpaqeUZoNjNyF8ke3hL72zhQRqcrzIfIg6O83cw8U0xeRSCVNjWmP8HfQsY8eqYwQ484zSD1VJc8iTf5GsC4A6RpBzIb2y0YbPUGgIOGxgueTG2srklvFTPw3ig0go4z53brZjyZCA/mvQFFjjQJTaomYQtkoOuZtZScEQpdlo8AB/hSdIp6mAoet9jW9eKsTRu44rnmLV0wvVFgxjY5U2nYNiVXCzMLreOOZaUwv3bWG8czc3rGEthYWn/70cM72+3OkX2Vat2YT5e1hYSIhr0D6yKUJVW5qezLPbV3PKrXZXufW13opbybiCZ4a1k0qE6unj9/vrq8bhd5STHq3p6eHH7yiy/4i5ZWjuW18+/3iaDLqe31ze7JCYWG/n41EWBIYtj6yvL3v/fgo0+f7z3/XFLxSed6Y2v7Zy8+5X397ne/+dmXX/RPnmNMdkjaWp7//MvnFiP/B//hf7zZtk6oO3/bvLv9EGyfPz829t3Nx1b4Ep/n/egEoWNTfD1Vb013sm3SVKsxvbTStpscWgrnz8oqe7zMi4MsLjSo8HGIoFQTYHgsJ19iWoFqVEYUHwJ33OL7aDl+MbWDilxTuXjGKvSV1nJs8twcXoVFqQiL/uUs61L0xsI7CuVF3eIzDz8pRyEKfMONUIn+4Xr4WuEDOsONXFheKkpOjSYXVtLuPlj98Fd++9d/8B+0m7vWbUzfTGDCLFjDuKFdnvsnh0csSFqOihLKNdmng50iMHxCqitJ4DaaZcasB5nNVanwFm7XamqNC3YwbNQObi7NPX/xmXZKl3RQF7kHfIQH6K00AoYOY0O1poWa9XPr84vLr456x0KmvdQtNP6sLMmWu8H8wpRBNwPPIHMaKvB/mDtyKIeJcD9qw6OSl0EHVWa2LC9AUzqMr+mz2n0whEYY5yAnD9y/OVfVtyYrBd+zvzySSuCRCq8gH+UuYGXNcjCvWRkiwjnfYKFcXdiWRbmZhIyX2m2TeHlT82pYIVT2+uiUD/atBw+Bpd8b83VLNxUDYnltbW292tvXzzlrLIykmk79q859Ym0uwqsMCRTfjHamP7BzR9hoQTMyKfYXdmE3hMgnK05wJcUgaP5oSypFehPoQDEmISdVWQ9Fe2LVBqf9V0EzsCnWUd5evc4/Ya05gK/8G6PASZkG/UcWOp3uFfWIrVch3K3YtXsIlrSUt0eWeJmEuwjk4AN+kDG6K1IIMjHNazaTVzwyZSmtsJ1i+veJPT7o0CdQ4HFYPJ2Q0Zwu6UwcYO7Gs0MEGCtuZcpjO5f1TJETScFQO9IioaxYchTDMYCJmzQo9QaTMpByaMrLKsTyIDAm1G9RgjlXiTKbjdPF8qzBpCPMh0xfceRqLAl74gZG/6Z4UvnqrkCbIgLaJTtEu+leAWUIPfjJBqMJV8IMrZtuQ79KxLuELKWJcRyUVU631lBknRMwJC6kK2nM/1QWn0DzBsL5MfJZdZlKHJYpKz9SwPw6a3O/bCQETnHuMZuajSXXkvCaSIFNNywTSpoPwLrLti5uMwvGH+5wcjLs9cXrMp+cECFRrQYI6Vb4k75FvycT/RoyzbRNraxv15Vcu5o5ODiCIHe3d1vN2bOjJ42lLOGuGbx9cKRIAX6mV9hv7vpCBIvdWh9dyHVZH07G8/W20vEDbsDDzszN1fry2u726t3dXfXQxnb2LDOuzwaAU5HsDMTOce/pq+PL28bkoutbs7l6eT2AO+AGcVgS8zfzbIlri1Fnpl682nv78Tu19Zoq4A/u3T05OeoPzrs9y1cv3/3wPfuVvHz53D4HVq3UGsvUfHGfmpoK1+oFpKznxtrKe+9Obe7eO+kM1Z6npNJsyWY0e2+DaB5Yhf/WvfZ/+0//yWJ9nq/q3/7r//ov/qRh0p9/8eM//YN/eufOvaOTnpbfe++7Zyd7lhKYSfmBlssgfN3DqSxAVgTfysNabVENm4VmCkJARySQsAS7Q4yk5CIzUsMGIXHoBbeggcOg6OGmrExccJj/UA6KTTTnZ1u1xtpCfdVyAHRDR5ONaiYIORgF7/1jsjWCBNNK2nChCsZcxcorrAE1uZ7ZJwfCTskQkYC8NewtwiEeDqMRrJik8NIid/x3f/U7S+1vLG/xsk6kCMjxmgLd/lARcTXna6tzW4+a0RmlvRkRZYcj6OoqQkuh0cmFnTgGuV2dU8X4zyFwr9P1EhTN1emNE7lvc5d8qpa2VxdjOjoks6CpQj/5CvvksN/GupqxbWRj/epmvmOFF5FIJuKq2VoljE0yg5GgcvRmvMAPNAGXmfJzSKGQYiAWGCEgF8gqlOWuArrkNRC6HFEIkdHGRcx1sb6uIop9dySFSg1QlAQmYdnx+FETLb+dLPAN4oR0OFUBa4p4IR9hJxUo5+fUjRd8znqH1jIDa7HbU25dVsoZKVH4Ft2HH4cIUC+lLumi0x3azYPo4mBttZesGMlwEkXOUeYyynfOjcRvGWRhwS5lvFx2FCoR4RIgiVkTuypoY5i0ofA4tZuhXlnzS2iFkyYJAjJEeSJckktCTS4CzyvCA7wsb/KuYFiRDelEkLiwHLhVbolvOkjmCJ/R47i4GcnpbuGWRZ8PW8zjUZXMMSXaUfJBw3anFlv1YnPB6ogU4NAtA1H+MXtdX023p+at++9I0+KHmr5cuJiZt5sBldW6ZAze8EqXBRX0xlpun+Ya0lAY8Vavt2qSi0ZYkvTVmQw7PbEqImUUfDFMwITersZdkC7nCDIRepmLjDL9TpTWQDIOA5LSXVOuwC4XAQZOHQOiuDjCTYOPrhQXP2UjYgMQyZjK1AF0N0FPn+7UXAFOwgl5ZabS6/EDM8VU48RjeSM0C04lm0o5iSuv2ExBe08rIWDo2WQ9r3J4e2Yz3fClyAMNh/zKFOUGigCnbkSb0eFkcTvA+ZzT2cLc3oh5yz6SPHTZOzvV4fTZ43mucCN8xxZlfet1YriTZOJPQcXkDkm7gLbpghfrT9ip/MUUYSLgaWASlpLPqoTd2ur68vrm4al0uL4JXVluW5mLpJR7WJjpCTXMxJN2sSTBfG7m1fHpYq01vNT+Im/C5ah2cbPI7J1f3L6cqj9/fvBy70R+j3y899794Fe/9yENtNs7mZ9WSOnGfo/mnIOcdzvDn5ndO3jdWmrPN1Zv5hcPO4NXr48W6ivN1hpbCrXQc6Qix9u1MF1LNGH+6dOnRHi72VJe4x1lVYd9q75e7x+ubW0+ff5ETGtsK0GLnZR9upl88tnLO5tL7EJ+G0TCzLp3565g2/qyPaeanB5IVnbC1Ez7W+/u8CLARmqXMAN7wFSH1Y4n9lxVD7vX6x4e2njCHkgn/+q/fzFIYXgFKhoLSfqzAZTdm66wGF6pxfrc3/ztX19e26zNns3MivbxmUm5tjWQNPqlmMUh6GBssIhvNmauyREHTPYzqBDP5Q5CVkgj3Nc6pNr80srqW/OLaypa2beV6LcWBfcUVcvN9sXunlm9yy1nGY3tlc15WZWXVTVqzKMVpRPwWWtiPUUttSbVYoKt9bVzhRUU28A/MCn0wLmiZoUQpE1SlC/lcp6+ffvthxvb74hF2OrLdChvAJ8XVm0bpqSKmBaLvAuhuFxhStwNRAUdPQvUmCdOkKwlRxa8ZhWjgCS7kcorUnKhupO8wws7pyzANzPOVUBIiJhAUst2hJgxN+k2drgnq6xwBJbF+qrFf+9/81f2DnqHJ90vnz1Xv5JG9fr1S4VXvN30oSG6EeAU+BQ2rqKT1BAErKUE6XP4NXpwEknqoX+JMQm7XDelg5Kj511uhuSmsz45CWNIWMbbX9lcscfvLF8GzokfUn3ma72JMgUtuzPWsrtjvb2xIVWp25s02+16Y8VKPsuiTCeUPr+YscTajjxlvZD9ShTz42mX1XIxGPeai01jh3t0R4gK7eHJg0f3JD9aWYVCo2TpXPhVOarzX47zr4krY2FZJIZE+GAdkR0kY6VJx5GIi2VLsUijZKdicFTySBuX/PmZYmPY4cyOaL7lpHzNq5MoHs7kx2LqvZFYrvHbAJwTQM6jRWPyhHRj7/VMZFIYn5PcWTEmTKoc6CJ6FZPDovSko9MQvK0E291rXGoZTFuuIByQvNUrxM8+pbhY1+JT39OtvD3vjlwMgocR0k4yYn9GA8t5Ay+YAhNWM6sfxGngGdl8rLGsJLC/AJ2qHJFHrBhwjKMNFGLpFADoW45Cz9E8uVFIeq5hwaLIiiKFA38d8J/OVepqxH++pDxx+KKxCgB4IBPsIxKpCA9IZqaSqGkZAtUKJfGqTd92RoMYxMXDhmIrz62ueaE50XheqYuEbvpSrDVNlxH4ITOZT1gHVl4cOKfDBXT0+rQQeZYjmGBVC2+NpbwxWBxBAIDUz3xiYzZ1jgr8NarkZi9crDV8OjQPsAQbyo8VWrVcyc/09atD3/0Xc1/5dVsrWJ6X6UfY61ttS60O915auTAzt7rUml5rLFz1xuLFdYqjcatyYjuO+jKt+WZqcXQxz/fGCrqerl/PNvoTutrlR58+BfbFxaVuv/MHf/RnFjO1FmeXGwtb61Y+zeNEKubJ2UU3Qkr+58Efnl8QKjvzy7VfPJcHC8FV59u5exc6VWGWggEW/FtDNe/V+/v783fu6rx8v7WNTb4ntQtevNwbDS+ePnn59luPOH6b1o3wVV5c/OKLl0I96ohCQFqBILdiHYwqq0It4gw5RDWIPwN2RqTReOemWjb8mMa8+F3tL5x1aUxY8qTXP+8Nbw6PRwoVnnSnVFkrylQNBWEg2cuQd/2ahXo2+cbW6upyEoQvZ61fjvp9vWDjodjgnolfr/zrJCvgEyECk6DqV5jvxByap+juM4uX13X7vw/ZNrhwvS0s3j0/X2ytLtRrFP+lNrv0sRVma1sPoJidw/F9YqOIAXsC3A76nZXN6DSORjv0hnetb6u81Z+tXTLI4pu44kFBVzQ+CTOki8VWBP9skydqzpQl4g5v4SABS5YGx4VBtGrDkav+7PSQuLpUCYeE8m7ucJWFBopX3gxI0YH4lo0kFFDxu6INzB0YS5DLCpjErAw7yd46SQIKO8C+yoI1y4HQD8YRxUCBLiGsRYk/q1vbl1fTJ2f9A9lB+FTMhviu2FgsNgKnAmDoq0CyOtFEvldkGO4aw6u8L44WXx1OUESM+9upBw/vYVzFL8CPPXGLfbPUTx+fd1Nsl4pRqpYTlosNu8HAdIk+q+BiuyVluTjJl5bna5b7lVCF1YV24EhCpBij/SQvNDivZJS6iAgQIpweHpNGu1u7ZLqK7EwrQNveuQMcz1++8NPS8qrOVMmjb8ZVJIS5qLQgQjgGZiF/3DgQ4cWGiE4IIr9iJy4jLuoSSGBDcJJdCjVJqZIOzrqEPdGo8nuiPlhVWGoBZtiWR3KO73zFeiqWWPpU1OkCdtgWjToWfWFYWQQQTxDrHGNMzClV7kwtmJd8j/KZL+VSwYbgAtkjGRbL1qHgR0I+ETgHx2fD0dXZ8Lw7uuxMbjvjm471d9zQZQ1WusQog01l8svUhn/TO0qSmZmekXGOlTTXBSTmRQgdrWbc07qr8xJ4IAIF2bioDIaCzpPVmdFrL/9XIKhOddWFaryxVMgA/SWqisgHSWAPgWHW6UIS9mLdRjToS2J1+S0CNXdlEoO7qg6K6pkyVDmMV6pUvo8Vk4upTUSjlGOQcGM0xcxJcaLMcgGnuQgRDQa//QojMvls4uBCbo+IypEX50haOQmUSx4sPnXQzph1J/rWFSfjG1FUHtD/kK9bqs+UyAxg8oAX+Syvnu6MztBMdWjcT4BM0+cVybO5vXQod6QBN2CLGrBAEOODHQzG9vLS9tamvaEPDxfX19d272za6JYdq2+NRQVZ6yrRnY8T2Bxf37ZXdp7vPX3dtWFn+yYpmytTN4ukl0032FU20yYBzYW1Vwdnp69enhimNYFZFhgFwbK5KdsX27eX5JLi2VhaOknY4dXy2s7q2la3BxVSWiUYFsOW+RfVl4p1TZu6mh1dDJ88e2KtMF1HMG+pvfLg0aMvvvhFlTFr3c3Dh49spiXv2JoVzPpqupYPMkRK441NBeyWZLX8zFIWd2Z1FL6JfgytgiGuQWoVeuF+QUcLCucsKrkjJUx8fJPGvNhevnzyYu/kNJtMsvItRlb3YXlp+fHjh3fu7o5GvctJ58sv95e+uSWJldbOPc33uzAjkW7RVkbwFZlCakRvNgw0tGy+Zc7Bk8wTmUG/cYMYajgDjOdGOr/gaIWcarBOTjv7criYsLe3XQq4eUHAh4eXA0veWo29V4cbG2tKWF3cXiw11i2ybi7ei/hkQt7cIEkFFGyg5MF6HaNXpwoYpkp9iaEUgqXa7fn+0yuVKK4ofNPrq/fri2vTtw0lxUWrg5XoguSykIc7/1xgajA1N76eGdAvLGuVigHRLCZOXZ0ZMV3UZh3MmM6VbB20AdPtMM0wS3EFAot2BbOFRaJARBRGVpkRm2eaujQa6YiWeQLlwts+dLq2vfuQDXba7R4eHQVTtBLzGDUrZ7iIxZamKjIMGfhalkZgMxXt6IPLxU/LfAmPwUd1rZr9MFCwgiCsbmuYgGVtpY2LSk9tr7Q6464MCCqwLYCBUo1Yfg3hKHz2Zob7cMWGUqIq87JH7L7DljyX4J8Fv47o1GxBn3NSHC88UmRoJEuV3Ig9Ls43FLC3JaPbQEh5jt27O48ePeoO+sng01ldD4OBLmE3GWHM3q+IvfrFwzHbs44q4qo4AMNDoB2dnBuJcUF1IKjkIpFVTtwWrlfxqtyJP+VFRVYBiJ+K0HOpeilpEp09vKZ05n/4GbgWGvNZDFX5hzdNpZiypYEfQ235p/DXqklsIr4GvamyHNRCZGbze6gUnnmGD8lnS1o+Q3Vyba+Hvvyuq2kmhh3T7cdY9J8SBLJkOo2mcxglmGcMhmSjtGI1N0VAVfZuYURL9oFWaU3pGiIKbuCk9n0wTGqWkvgedsXB35WxRyTAzyKIC/ADkRwBmrF5R+QQyYCMU8TIsJIn5x8POYoIwehLDVx95FINToYVdAc9Demq12V2CmL7Sosp1/2UQeTT60iZ+UqzlzSbZt1jckNUfo2FVnE3JFuOzGclKCOfTK1ulptD2m/IQvcigioRQtIRufEbF7sSIJFSPl2JZRUXUdAgvQEWlmhxugYnHeWtZcTROvlNKB3kPTiU3gSHi5srVqXHNai1PChZgobIo4EhXGRLLb4NAufunS2pfIOxzQ048ebs+I5fmE0BxivLqP3DcG02as2Fy3GfK+cvPn41vG5s7q632svXM0sqUdiN5/h4sLd/rCA6NtpqKbC0yjmDD8qYIjpf772I+JFTdj7VO794dczb1qWk2LWUXOn82fP5+uzunYeyz9V03925byAhHJyweGZAHec1dyCi2xw+ZBW3m3zgldm1xuvW0fFBogaLcwdHZ+LQBpUiTrONy5u+ZZhga7kM7pfN4sAcNQ5V7OX1NpWmpQDHtDu+Uu8yxQBPtS57wcQdJM9maW12XqlWZJftrKjDghgbW82d7TuRgRwas/Prq1v4PyffzVQL+OnoCiDL9lY4J/U2JwQ2ISjtTNpBBFTwhjMG90iIofDL6CLRUvTUreqB0Zmi94paXU33VD/sdJ/v7e/evXNwdAQU3/3ud/ZPTs9OjlDZ5Lo2nMz+7ONX2zsXSkyhraup1kef7t/bvdOzEXmxztUQCe1cL9uE99mT/Y8++tmg33v0+N6d7S2rktvt1sZq86o+pMfIEUZgyys7C7NCgNCHVUTZwi5wjdEVB7GDJ+ZKWo3cyL4uZ4scyluWQSbBIssfE7saIzRJmrHsQ4GC97aZTjk6XruQShHemd/MR1hxyNgESukKIHhwqaryH3D/uhpLwgysmO6Ih3582u1YjIiHqTJMGIQaxKLKYUacl/YztwWpfmm/vqFS78nEVRnabgn5uBIytNv9YMDmtn5lY31lfW1Vv/x0daEU0wWclxI5tuB1MFTj8mpmob2+u72xKXcUojDbOG1kVhu3bSF5BWB0eTyWgwkujCQsyd6QgKjgU9aITvhbVSqkHlnAfiQPxbjU21QV+h/8g39gueH//h//H6j+Shxiwvofxld4TWE/hXlgYbGuYFUadx5jy4k/MHXNAMNAyxU+UD+ST3Q5Pn/hK1joRhLS43kuXA+O+vRsWWNR3ucCPhRIFccR7dB5dWC61YnuJeZWBFIlkmhp0hmsbpy2JUFS0AXMYgyWLgXy5Ll/vLgITqN0uEMKk32ew8o5nzWuTTdbyiyFHVHx1THshze3I+DWLpwRnwFiYNCJwhZ1FLRQFWU9IyLHaY1MqwXbjNZxGcUm2gqvtZoLXDypMRjXCulIg+ieWUCavGSsJyBxwLKMHW4U8VJAFZQtR96ZIy4MfaYQKC6XPkMeL82UpVfmGIVXqhbPJd+l0UY42SGAly2E4vBPkX/FoDOcNFEhKBFS4rs642ZA9wq/573lMFBUkCt5GXkTSvBL4FtYXtWRqrPgVXqVbjmM482DueAhjZiuyNPAMciV65FOUC3tF4wobeXxQsOlEVApY81jprvEXIOD7nFjDpRQGq++/fKz6i1GRa/Lm60us79OtrmqqQ760z//qS0C7967jyUpYmd1CXCr28wfMemfnR4Pmy04rOZTY68ztby5fjO/dDvbspuU4MFZh7I+tC5OowwUsgqgLYaDufO1JVt3tLd2qKjR8ShN+T85SL4fnhwtNdc7o+N+/3r7ZmF9bZsPWYywEG2YTvbryMj4SIN7ZhQJfPHk85U1Fbi72Xzv5np9c6tjTXJnv9FaODo+tSxGcj/g1psrs6L8+CTOKTE+7iyGYOKRxLFaY4QDHAn2Ri0A9nihoAP6LcginZTUsrZmGhqr0NU5i0KPWw56PQVWlhrL9gnnXSQb5VPJ8u2cHO/u7vIXLTaWjzsSKcerS1L6SDxZYS2rBdiONs2CROK5QhVmIK5qw5vYTpw2kauUMOUJQmhQISHaqD9kGuUgq6CtwJtKYGRldR0zbS51NjbvSVO0GKGlzkRrVerH7EK7N4BjfUOr1y1GXOgObl/t7xe2w2lgi8i1+3fuX14tHBxd9AbQfHl2fm04nh+d8tvNLreWpuabClvbxK81X4svJHhKV5C035dLcnXdu7pRuGFslZEwNuPh6mKoOHuAZl8kMSwTTEAJ+iaVQOlYwAsPiaCydnCi8EPWzJB70bGNDZhJUOIbb3KgxFAMFI8DUrOSwIkrTlGK5GB0uXFnhbV81h337PsyHFi9BIqKZqFy6kUsdHkfHi6Hk7RVyFkHq68+kY+jUDZMyzmapN8x4qq/BNDk/xX1lbiE0cRh3HNyymcUxFHN8hwyWSqpqnKb+/xu8+233379+uD4BKIMxxHQyaKxlY9/SSmoi2Pjxep6JAx+cwPUCBAbTATPEuvRZG1lVXkXTv6Dg8NXe68It7/7H/69f/gP/yEs+8f/+B9b4EQbi7hKf8vAqhOT4M+FxCUiq/xl/OFOFYchpMI6jDHMxq9ERVIq7AslPsktizOajqBjaQETcTvQgVNmAgC1H7CGXxZo6nrO+GiTT/718YZt587ymHHqcF4Zji5rk2tLvJ3KEgvGQQjpp1f7zBAKyvuVWYqvMg/FrWksGLpYaEYX+hSfpM9mEfv5rQ3B/c3xqtoYI6FrhI14Mljtlf++6oxeulThV7rvFTO3y/YMX14W2tVJ01BBQMdevtr3SYhSy/zqcGJ/mucHe9VoKW9hzQX0zqLdVvZi4guIXjJIZNpCXVGrgM7QYpw6gH7qSgQeM+ISiIecxgBOJYtDM8S0SS4Nl+5G3GZISiVThXxiZyE9t/kUnTdp/oDyDfiTjUEtzVNRyP0YYBTRFVVJX9zoH4d/qhcVgVdm2hOZioI85A0WGe3E/JG9pGwWIPhMm4HAG5GUZvKSvEVQ8s230rEAPcMvbK3c8Ut0gUYRt6WpCLGqn0GI/IJ1z1jwn4u0Cizv6ZefHfzbP3/28uA3fu9v/co33zkb9FI68mrC7cKxPLPInlCM/2J4NrHjTr2+eved79Vba9SS2Vr7fHAhPPHsxWuxzTk5islERQgwhmHKjpA2pYhrNiTJDnCqi2rSOhNJeX6cmd0dj2S9v/f+7r37D4XBlGVqr0TJyJhzhDDQOQZGAAOaMQMpRQeDXltfQec0oa2d7dNjyuhhUiRupurd/t27ttnwpOKhO2Te6TWHQd+mbSVBOfnGqe5uw9XgapmLkmIQtSSwzSSaA6ueQJ+dZHJ6Z6lQo+ix+hJYFVcToWD1sFD5/mt71b5iV+kt/9B4MJwMb8bD3rP58Vr74s62FPKeknKT1fiz+oLrDAo7By1o5AL/zm5faCTp7WgnZBTFVs9QQrHeYUVkamzLrJGQaNBcXNq6+9julKvrG4Djmd07Cw8ePoYM9iUTIPze93+TGW2iUXujtfzoLetxdO2M9NdytzNYqIl+NUnlnZ1HhjDs91i9nOLxv800LFwlcNXZJSAWl8RdYJ/QvgHiF5KQxlPXZ1M3fYsc5qKZG5cMrHBC0OPSIIWSpmJNAT4tJHwhnhSnOttMZIQFmaXm/ILulPhX0Dj4HR4bfDbjRSk0S3A75hFIUcolmEhh47IiRAyc214SzPHpKUo0hUKHMFlrDGuvp6VG9QBRjRYqqqhDywJsrlSHi06iMWS9UricI1fgIB0HN5RtkWVl7LZoVxkZH5QEsUXLDWnkc4lNzcyqjdkZXdjyd237/FCJlpNj4BDGMm7DWmhyMTcYpHEZXigAd04qcO+XwmYzsv+Pj2UnKYuhsNf1wmZrfq7xk5/8XD5ao9mkWPzgBz8wy3/xF3/x+eefQ2kuXIsWMipHxQWAKUgbthK1n4svJ6YrvERiPcIni4pdAb+LyWXe6Av5o1v4vORrR2FmOAZDcf7EhRTwpWlTAS4MhICxUOUbphieBUapIBJOVAE0PSuMMq7P0ohJhL54deU4QlJa1rbOVIEgJxpipRU8CLMMa9YKp6pN09XMUYYz5h2VE8N2mcskxaTEUK5m+JjJrVkeQ4k/aicbf2HjxJVEOuOARgECr6T+uGKW8X/P2+5pbBno6ooeykEy5bzj6RpedXnZ6Q5gjHnHaKL42upZhs2gW5Z7GWPwNTIvCSBReLzOZ3GZJP8GndNJyNvD/kHlXzUH4OAtEJS8Cq+MvRcYO6dXACL0LKI8UMSedDhHgX91g6bNJjoDH0ievmbnAFwiGkl5LKgcQwwYyxHMSDeDJPk/AkaHQyG5GMmVB/Gc/JxrER55PCIKT9TXDFcvQm/V68xSeVonqv57rDpQlL4VF2GaKY2kWdNZ3eC9Ou5K+cuLqo6/eTx9BgnmBJbBzElpLmBzz2jQ+8sf/rkqivD2y49+rCItr+5777233JC1LOF4sNaqbe0+ai8/5lhbaNZfH3bbW0lB5lWT3bT38uDURkNXKROH4A+P9pUurR82LNSXFyp8Qkhls6qbrvLt8nflNNDu6d2DbvbQa7cUcb9qrnCp3VH2jeg6Pu14yj4miR6CPxLKbIU6AJKyiQSwaDXo6JuD4XC53ZYHwfNsN6Bnzw+pitNTJ0+ePn/08H7/5nrBZNocYHq+l7dd8t01mynofza4FLtiNiVwVZJIE7yNszTWKiHps7zRhCQlek5lPOYmIM/VzznRag2ZHdYBnpNfjnA5y6Eu1YrC/Kzlf/VKUv7N5Y5wCAbZUebg7KC/rMqGogdzN7XuZGH+ujZzlS311EHFUoJPJeGDq5L/Bl3jEHPJEJEpaFUwu0b2ypfPu4PhzHxzfffuY/4aMQ5Hv9ulca+sLJtjYRvaIaOT9ximy7VDgxvrLfH8O/fu8lMZArOWJJOSgMO0ltuP336H4SuynE2Lbi8braVwu5o1K8omMeSuusODy7HeNiGgTt0QTrddHn1LJ1hqJBANiF8M22A2o2vZPpdjFUrYHjb15P69xOp56SKapVnZEU3CiAoZ7KpAGSmgMjQaThLyNz20k0x40FgxRRpq5mRmAScRBLdaYKm1cja+Oj3rnHXP5CHzAjKzzB1oGDUzRlGBX87gG/nnQnQdr3DkC+C/8VQVJpYctfAc2esyRGSjY1EQm3QRdEIyOiR+6VhQq8FWHcKasn+yaAzbu3l9aJ+vU74sijOtgnuxvphgBytTswynocJNo4H2mI4KDdZbNcgfL4OFbOotScc7v7aByHJrczKyLlYKpTTKbMxoQqn1b7311m//9m//8//nf2ty+RlLSD3jYf0BU8aDIZo49ILa4jMrtAORKirCJoNWWE6iwCkDRYlgWpEWpK+MHtogWeVxR9geugucQnUhh0Qcor97G0oJL8lQy5FHc7fPnJSfsNDqxGdmstzsPBLPgofC1n3VrEt5R6KTeLe3BCPi34AW6UZajPUrGSQSx69pUc9iXfH+CV9ZMcbMciXcO44jOeqZYp2KLWJ2tR3XJuinwXQnpWYEgsHDHE9NvarXj01tjMCZaeCm33n/7p1t5g4biOVuvQF1BRelIIcQQrIspQwCGnmFz8q1nYYl1trqPT58uJHFjXHbaNoc5PUxuj2LkWHrpfYznh7kAzadczEIb5wRrMnTC6CNzsQKbZd4ZEAHsoEdySX9UD+icqVDmUEzmjwXRxAkGEJ8VBDJPH7F4vxG9n8lVNxNhEQYmrMiRqun85bA05GPqk1n1XX/BKT5tbrHv3pWYJMR5WLEXq6We8rzaRkkXDDn6XYZTPla+m9q4mKO0PV0QCwNG2YcHu4ZmmtPvriovX5aX2rfTPrNxfrd7a3u6dGod63e+vKKwPDUzn3LgSFIHY6Qdt3T3qeff27Piw3lH3Z3KdNHJ4dUSFii+vTJofSLjj1Kiav5uryG6UX52IJDbHssJZ7j+X63961vfQt69M46lI6V9jI2p+iRPB2lcCCArpbDXPs3+FpQYprueXra4XWMQ6ypuK0tj67tLYKJ4zIWFEsRpM+SHNPN6dnBcHQpJH85e9qZq3VBdqVVl4TDh1HqcUJA4YnAw7rVUKNZDWxcKdMQCiHpFy0e4tYZJkGAE6iCaYQcRQnnatSkmGeJPSzOpasUdFDtoVnTA/V/F2fnW93ekYUYc3NjlaiYXYvqxLHVQmIhKWpfJhJSQk1+QWjIoSQndPG6WV9o1+emLjjSB/Oj89evnqvsKwcdrUErLIzMlKJiP8kvPv+c8BYbbrdXHj58+OLFC/aWlBXiPNUXbG1cr4/taDLsWQ+gpMhsRwhgWlp8Vr4KTQXTzxAH16VMVcXXj/dfjvs9gWkyJepffIQ8OvRYtI8hE7A3VgobQZQYZji4cwRKoWeRymG/AAdLYuNqKuF88+gt1r0h3kiqMJLoa4Adl2ChuajX1cQzz/HeZFSBoRyem7lGfdXW8IPx5f7hKbPHyqaz7tFoIHImU4OweVOgAEAq/PeJEfmETsZFqulnKK7oxH4CdpHJ6C4h/BSJ59omfol8tpRpxjMIJpvv0MlMNLVCngj1mFF1xryLEysTZhSQnz1kgb2VLySRBTD9Qbc+uVSCGSOQrK/cSavZgFqYgp7oC+SzEGLQ4xqYbG/zBbbxxi++/AyW7e7u7L169emnn/72b/+mZj/66CN+Z7OZHKnCHsKNClXoQFRkkAwfAsogMPwBdDnpFc9EO26TWAF3mQ62Doq4UtQNJmNsMcIi44LxlBnQQQZptUAqCjZTgI7jfa6X2/LWwmzYMIBZ3elKjmLbpi1H2tDPEHPeoT9FKuLcLlYznfiYI76OcuQtuHYaiFSRfEoxz0sTdSuRLVdVCL5ReFpBVQuumFY8KposcpMimMb1osjNiCHsuvS6dKdsfzkn3TgRcAtIIaf032l5FnzfdFofZtr0n9ne7uzkfKygNUiCQup10u1Do6ANp4wd9LydAp+VH9RL/N/SWsRBWTAhkcFebUiFW/sw/dgg8DEW3wy5MO/qDsWpKkdfkMwcAw3Y+dRioFQdGapnA+rMdiEZ35zn9zdyoVJrKnGkgcwnkBQ6ru70RNoJoMtD5RPipIGwwUxEccZSdfQVsrsjNAqHSclMUZ7zhvLedNaFzGGpDB3FIk0XjKRGoGNkWTDhqzciT6hZ7gg+RyNIX7SaQEMSAlOUJB1EKY1VBSEay8urViavrm3gd1lvZVmSukevX5+d7clhtx6zv38hSfBs8ATvYBSTE5999hlWyOUki+HhO4//0f/6P0Vw+maHqv3DYxP9k5/8pCiPo4PjA8Ppdk4xLgU7N1aWMSoF3q1+Mtk7q8tm+KTXOTnpng+G1O+lnQZvJA6LgyzZZB1UcpyDjGUVxsWhtLd3FMHWakmXwh8FcgwSd8a+B4Mhjry39/K73/7O8eGhePXa1vzro0FDAd5Od1rN2Nm556+tFwxIqgPGJcd2jkC1nFfafvZNg91xhS4ky7+12KLOz8yrLWINk5WIqpicz+LIkwuFgOTDolzJiDTibn+4ovAbxji5lP9xb/sDtT4Ojp7tbDR742nVBcQ5Ct+Mvz5CDTnNquUj4w5VJr81imascvMTaQAR8MXp+VH/4NWHj++8fXeufy53d7jQzOo1HBWiXl+8EmOCdL0uAXPw7PSpoP1ye2E8PO13Dy1q3j/aByvTurzSfvT48U9//mNQ+uC9D096hOs1C5WZYOEzPmDgN5djwcupS5mRi/WpBSG7m8szRbjEXFRmiCcvS6eKmgj1o7AzSKy8pkmwJhRYYl9wS8bDlM+UeAgbCqaHm8ZCkcedvApEXjwz0DdeH4L5Ri2CQicVxkYlZEHMCOowrS6mFoXBvvH996bnVz9/+qWkElVRAJNn2NZ09cW5ybjrJVbxygWRfI/hmBcoEfmEVounseJCEkHgpCskhmRDHrPWUnOpqV7lLWuqd5FiQAhQNjnrDeg8pRGSTM48BOzZMXqkStmsK+QNpaLTPbW+zTlhY+Jg18SGbwpaXM91Ts5a1n8sZxGqRhJKLVLAq2N4jc9TBXiKv/r0w833T7r7P/zRD0fnPWkPewd7zeXWs2dP/sk/+a94Al88e0oFOdh7PUcme0dwN5ZweDSydALEqNxJVO84Urn7MnivyXVOsshsMxzugZCi42cBU4xbwMEpzAigRAcpXQzUCvMpL3pjTSS1PcZc4bl5XXiUacMGfb7x93yt66WT4UDB6Pyq5fgUXfaD+/O0AZQLEbc6UH6tfgoZGAgGpx8owSvizBSjUevFtQXmFtZaJEngkF57MntOBQwVZzSRmnehML4CKTwybsKsr8IOcHszJ4XdTKN2MIptO35j2+Jopqq0hxUzUuOVSptYdgadKchoUlEhdm0wneKkUXFUvzlJz9zguXBqEPgrn4W9l++5qZpVD2UiMoICtlzOEMptbz682VHenF78fzje3Fnd/1fvrNrLZzUC5l/OS6O//C24kXFkKqqeF90h8xRBUqaIsuNJYA7ipVfVqP1aHblYDl/95NSnf6AJaGvW1OALZsEnYqtOXOQwKdpDHEmVJuGEd8VT/P4ODXpEgzeXy8+e0sdk6E740CQQi5dYqEAJJaj29193e/Ia5t7/8O2Hj+7Yhx7eLLc3sO+3Hr9Lwf+d3/hNQLcW9Ug59aPjo6ND64HUaB90O1ISFCIdXFx+97vfFSFTK2GpSelcIgWnpj4ThkgIWDJgBScSVzCEGVEOGIj4EAzMSJx9MGo0lI/IWKROPXv2jGpksPXaohKAyJu3w48bO3duZ2v5C9xnGw0oBdHDy6AiNutV1uken9rLfLIwNwwE+QCTOekvKX8UsEDTimCeTX2/vrbx88bGlvYwBD7t0zEosfRUfB+K9FPCtiRBHA421tpvfeP711fjvaN9NhuCm7HhoeTWMIcEZrJA8tJCF1HMbByopK2goXC/NfsxPuDPjQVMJ4rqqnOwECtrYcY+zy2Ix92UulzaMn0t+WjTk5vNucvrNpLaWJ9vNa62N5SdneueXSxMjy20U6RibmYk8tK/7hwcfObl29vbP/vxJ0qEPL5/H/O1ve2vfOetnS1LMMUJKOBqisdVaA9kKY66G08NVRJOk1UZRLC5mhqfvgUg8BmHwgDD++YoooxRN6M/t2ZIOUAcchf0rr6TX0CB2+TIp1vLF3xF7SWfi1fSV2tLp9bZ3LCZ7RQ1w2vGt0xWGnxMd324uayw3af3u17ILSAyU7460m51Vj79xK6Sl39du5IpZhorruUkg0qR5VSOxsSCh/JqOfnO0UIObyGiOF3Rka8BobvLolJTI0WaE1g73uPtkQTh8w6uoETpFPmVIXLWO1taWXp18IJepgKitT1ey9ilOPn0UhWYvIJOWQ0temgBkwEHV80JuEMm4DMdBpepwA3CgFz1Sg/El5TYa3i8iSmflQCgGYlgYcZRbVNIO9Avr/BIOUlz5XKZFrNXmE7pQ2kndIUDRCw5Mr6vWjDnQVDt4E35DJ9Ll6CQpl0x69W7itX1BgG0kVG8uQUupKeRVTHO9ERv2Q7BqvKDiUbSlMDAodCNjmi2IFD6U02/Xnmx64ScT1OiwVZKgc0zGpQp4hsIbGKJ3mAvQO9hlO95jELTlMmsUDOWZASlKUcmtOBZuvjVFb9Whwtfnf61f6vrf/Wz+lkjpY18uKLl6uSvPfz/oy9ljNjJXz1Kb345JJ00V0W/AyU3YquZuApDAASUyq8g404TAamrAzajAUs/fCWlkJADK/fpa1WirTp3gzsdHk9cLIfTTIruILwsQmhYoJQOVETCeeB+2vX+6+fDwWltgWdpTmhkMun+23/7rxgZi7Ulyyg5xlaW12wkv7OzsbG5vrG99isLv6LZ5LXbnuT0xGaqTz77bG9vb3VZdYAhz5W8JNwodZEWFlSTWkhtxnnZ3YbuQdMHbTC9gr0pEKTLCPv05Gx1Za1et83HlbCNrDypU6i6mlypelIEdV6bfCmEEj4SlGOCZxmbI27hHNGkHZbT9rBj0pHB4F+UIErA+8x8gPdgw82Z++QkSPpWyKDXA2rizEqvBp9OrbbEjdBas1e87Rx5wPiylIU5+uzp3d2tqbnmPMHKcSA1nSqb2jCkU0SicgvEla38krqAXm4nsxfyYuh8zOF4amxDMT5/PRqfSkiRCCSrZdxfRGnVTJV5m7kcEl0pAW8nQf27He+NLo4aVnHVZv/e3/hO0jSikcw365eP7i5vZBHRgvVTK/Xpqa3l1frM6lLtUuhnaWGlBc9O5hcshFZAXSzQZpIIG0NP5a3CLiJnvTpkxdT1D47BDsSVDCDuwep348yPRRmIIyPiCrSDtMnfKH+RG9GH/RNhhkVVTCBsxnX8jfRmceJO/qF/MJ2fvj4xSWZTE6bACVBA3XhYZmWQXbdV503ij41souWUd/o3xobpC8IX/S/oXo7c4Aoz10acKyr4S9iL5xD7qsQPZIM5HnenQ3YY1ysIWkjgupu9Szdevnzpq854O/KhrFfteLC6rnvu9KmRIJJwYzEBCbz79+9T6zSIIspa6QIB6TMXCt0O+D/sD6Bui6Ysisj2huWIuIp6E0xIpaVKXJE6wOYbtZPiR9PJZJmjKA4p8GMBjzwF9Oy57CXiIqFS+L57srdqsXu8ooir2AUODeafX37km8MLIIiT8pn5C4BdL6zKiUP/4k2GWj4TtsTWTa535jPSK1IvyECfq8RaziPVIluQnJ91wERz4ij9kuobJpRXQv/DGyKr9BZOeiRSs2KXeVMOr45oAvRy7ooG0+ZVstUleYK7iXGY17J4Of+kw8RsebtHMoryqYvp5VdH1f6bG8pF5xp3WmGAr//jw6/Vxa9Pvr6ntFERyP8fZdVX3SlC6M2Xqs8+v+p84FzJqq8Anp+ArBx+qkBaQBvYwl40/PVRxNKK60785LM6qivaAMCqqQommTP6MO5YGJA5dcFX3aMV8h06qSDvFZxy8ik6p0eS/ba21qQAjMeH83NCfQvN5aadDWZn+pLuvrj8AlUqwgVH7EDRXt3QlGWtys3ZHOedd962iMbrDl7vEzDDUZ8zTuUDO8QwskS4VFPxfn+hsfC70Jn7PeucHY/mXYdlrCtMW6REkrDBklhcQ+7sNrruVEQxsYQCMR1woHxw4FpCAWk6CFgcpgW1JCxGqc26iwYrkh1ZcJPP7RzE3FiirbStwJ6003JYR9IHZxYVCS5cUhBIoIvfDCF879e+r6v/1X/1f1+xNclR//Dg5VKztrbSXFtpLdUXxNbJLtudT98ojcHwFSThGZKmSqUDUsl12RTDeyVsRBqIKduGN11XqcjWOanSrQPEN5JSFQhv9TrokKWyIdlpOX6gdXb8BVete2BCo9UU6d9o48g3yvfhTbtbjUd3lwyPVOYfv7066Q+eTk2fzS5EcQmXiklBeRZQpO/aMSM7YYTJ8Hb5iw8kM0UHgzg5D+OIpzq35Er4iP4E3CH/MMN4OXFaNF8AG5dPJa4KokNHWBem5v2GMTNPieLkfnzvPisrOIOnF4mi/KBROzdBBBVRQKqRE+BZOv+GyPzjq6NChjCbQgi+OorwCl3kXDvFhUZOeFF17vHq1+oGX8HZe6GTE/f4hFckFg+Bw9uZX4r9umiC3FC9+uvHtQA/vYsYc6dPz2rNuFyvaNwjZr+6YXZ2oJ179+65IYVN/KYJvQLLcPpiV3Fqw5ZiHhQRYC6jIkgNEHiEDUQSsy2WW/XJispaK8sLwvEJgxxBvfh2ElXKW6CRfpRZAz2vfCOzKvnkhwgY1ypFpBINmcPSvb/y8dWVYj4zUkrXc5eBlJujy+R1LkUhzMR7dX6mwxVG4D1SKop80mHrw5K2niSLiKsgYQwsYwSUPObvrxwaFnXUMS37pyBehuYITCWBlWqEXk42YVuuh02UCTDTTGDFOs0NZE4j5fi6+dJM3udy3lwOz3598vWd/+MT9/y7L/67rv+P7/z/+ko1U6UPZiVH1Z/MdXVe2ZHla7lURmWQX1/JfeVrBRYoD+/BswIppgN3nVMDfVLlvpZVTlyBw1/fXxjrGxEVdCwwRDau+/QWVzzlRabCxZubePydaMF1+oyTMGpUND3NJHr+7PPB4Ghttf7Nbz7ksmMKnE+ORsPLl6+e3d19hybO4kEyfBBWiHa6h7VRzf4gJplGLaVaTHJ7a+Pk4IBOA7csbSFjGq324fHJKMX6yD9VarNsR0KynkAUy3gARDcoOtgJtErHIsZstWOvo5Pd3VXszMBXLFtZUMnigiTDI4guINJzI8XCiCsCDHegjhbwVhzLVhvB0ExCFH3Mq/A8UjFkgqTFxja14I0K52Af5kmbam40FhegNJc3cTXq9zeWVx7dv+8R1Rub7aZUMfXw2isN0bPbucW9o+7RyeXr48vbJ4OZqQNqQLM+pUBP0sSW1iNI6vOENXmmUJw6UPhuu7WuyFdq3Jbp1sFwT2lQiXoIlikWZVMS80hLJbqu1pYbMQ0vOxa8cc0LnlyMZgTYFlvLlI7I36vp0/0X3mVlb3reXrNU8kTNx9spS/s9C/zNtqrGe9e3pyLRWk5WrdC7yP2MGkgV+wjzwkVMH6DwcImrxgxjgdHlCS3efT6nIL+/iPx85pE8nkhE1OdwNlwDD8SWcFX8LBgW+YXkK8KpxBvvga3CWJkLd+7dt0KpV/bYpY+NBqyR6CWUFa2xheE1vw5UyQQVk8hJmi6cxCfA+TSb1Wd1AnMK5mf/EUAuFBRQO68ecVt6VYjFFTcgBDdXwQ4T7SK3Km+EOx2+ArI2q24QRVUfqrf7qUJsv0JRj5vfKgmQQ9Kz+j630IzSyttugueVo5Q70+adCmtdrLfdpDcQtiSiREFwblzsWaUqzJlIqDpRybeYSq1XtrUkFNUhLFPgMZBAy4RSaiNrC+JhM4uxiTVCmJEEVqZrrQw/c2Pgvuo0yVG9WQcyZ+mFn4irQKr0ISeEWD7/Ctx9dZS7o8uUn4rZElUhwPVrvIblQaKyHFSk4JUxQTz8hxUomQpvYWunny4mUTxJFkZbDHP/0HLpNmmokrha99WrHZr1C2jlR7Z2keeKNupANW3uQeHm3p3wx4h9hUnOzZavRlrdmabKU7n4FWZUr/CTE4ef3OzElf/JRwUcj/97t1Og+u94779nf+Joqo6qwWpaC0m4rHsOmI0qHJXYcEIsVQdm7XAFL3Yb7K9uc6fDFc7z6txnBduv26yG7GJ1HTyD5GEwUSr96rVuLrcpSttURlYbKmdZMtI76+3tvbJI/9237j9+a+t3f/s7tQYdc2gDh7OT0dOnx8+efnZ8fL69+YBOaRMNEQfJbhLa5X4zg+BTo7Yw6nV//NOfDLvdD957X8IFZ06/L4wl39kfFWYcBQ+aQmqJcTkSVzZGJL3UWnZCPCBdQ1MWwadv8F+CdDUiGiiBpMt8jMXKz9osB9ABl6HRYaF9wWccmBJgDa8hh4tRscJGqXnR0oqqmgSfqUUr8zwpG8ON4dqe5wK61Q0/83euLLUtlkYgqvKIN+hSRzSi1X71eh97bTTbCoffe/juWe8nQItF53Pq1jrbUV92ynj84iUW53F8TtHCxqLyTilxzt2qIM/KcnNFoTqZ0QRO1IiF7Z1HBmjsWfAtICYKgglRNSkcc25zk+bCehg5teQgDMFNYq0HxrfnRBn5XLM/0PTo4OAFvzzYjl6nNu5SszEYnFye7zcal7ZF5uIDiCrFKRmMvDYOoElnI9xzbq4S0MfNil2V6ElhgFciWG5IPMXNdNKCVHFf5WlHAivlk0ZctG1fcs8b9lWRuZ/cF+W3vbLeaq48//ylpbq4ttxSyGM2KxdU5qeYj5yy0YUpPuUzbyiHGxxg49MFLyoX0gcXYQh4Ooc8HnTiBtIIgTicGyFcdO6nrPMtPmpP+UpKVYdmPe5wAuA+3eYrcaVxhyve5RP7c1H/uazdADmduBnXz9bkjJ4YXnmd+x1ejRjJZidSJCmkYYVgU8E6scFYGLqYLblEYPgxq+Jy9lnggYiI4g/OILIhiMVFLKr4LVlXsY7IqkyPAycA8TDy6rsXFa+Xy56OLRcpEIEc+Lkr8+pbAPo1G6zYWhLucvg1x5v2Io3pOfkhy0gqt1phem6oXuuzut9JsQWDY7qNbov3j51I61EWhhsCgkXfoYFyMjIyqcnYWdVCWqneWz5BrPQmHfIuksQVueRGb270ynQCtT7xxvoAa0NOOCuAi7fTbdRI3yr554oG3Zmfyw0aBE1XKliU17nr3+P4n/DIv0frf+3WrybGxTKhRlJ+rz5/eWuUBUc11ILBMNIYC2a+sUoryeQT3sPUiuE6rw78JehfhJNPz/6ydSxvMVqe1rzhq5e4EKiaJXcGL95QqznOGQ6SGQyoszDLiUMLXlcm1hLX/uv/N3d/9rTZdZ0HnjkhkTOAxAySIAgSpCRKpKzJllym5ZbVZbcsd990VISjoqP7osvtP8Yd0WFfV1SFb9sOD2GXwy5Zbrs00RZFS+IgjgAxA5lAJnKegP4963nfnW9+mQkRsjxELST2t/baa9prT+fss99zXn/NGDt+zGlaP8Ha/8rL337g6L4nnvQxqUMvPP/5X/iFR/4//+//+Tvf/trLP3jDoPCJBN+AP37i0FPPPO094sx5onDdGfUDh+yx2MVza37h8iVfSHIQw+rrV0wi4i7CfcmZ987mu0HTraSIvpRmsXnkYR87P37CGwe9Gu/YsanFByJ04cLbE2qd5H1b/LqZn0kJnYmAFrPPBHafjUG7/5axd8+d0wczqK/45d+V7Ga5tPSCP4cVXY3mMJqPdui71v6sT26SDGrXevqq0apjywqwf6YAswxbJz/2tLPbmsLZQgutdzu7y/T1B58Gd6Tbq3Se+9SnP3Eh7zJQmsY3SvxLmG9dvmYtz2VcTp7duPmePbnL2eLwuy3nLDzaP/DBu7PV5ppdNHzb8Pcd+hCKY97me+zwI4+ceughq9S+o16Z7smV/VTnG33ld7+vg+XrSO+ePecMtDMJRlleEn8wH3BR5P7RIuc3W16I8c7b5x0a8/7Yc2ffy/v9jjhf6sctXp9p8HIj17ez52IdNF8ZvIgJmn+u6K1qg3fFgqY7mb62/4KDrHczNnQ3zWshyvWBaLhUj57plNt7q7kOxuWzqH4BdvKpZ551p+ilEX6xqZV0Zp+QNu9r4kzi2X7IA0Wnvbg9XT0mE+CZQDQrzjUoNg7NxGVZ0Jye9NpVj5MZJnHdW5LhzaLQUyl6PJqC02nh1PqOQhgaxoieqcgi6sfjrpb0UlmXNXpTOtS8tc6qg6H83MZDkN0onysStZv5P997M9LRacCmRfze69AbZzy1400ctT8r9eyfc76opuZOherx1uvcEXhTkYs/7wa+mTdXZp9QqF3DuCGG5bMgWausAZv1xvWFbRbjiDtprTSXFSEt7ss0YfNo0oRhdFoaNJRLu7xeFLStIaIjdQEifM0OJXt9cTvnsYn3IsK5cEg201GiNV2BEHm8fMPvRxO9+ctCm0MW7gjz4lfsPrs2F0/OnnbdizJdNaN0czXEse2t1abtp26d/8YSAc/L0ktECIyXytMXxdOTBiA7PUwHO+yxaSrbzjqVpSf5gWLVLG00VvbDkY/E/OGqPsQ0N+8pqzcPveltFisSx4AAboLgeclckVkezN1mIqlh0GXJTF02/NhAERrQAQrtazjlKfoEEKVWK1K8LUIWUboYZKuNlCGgyN6Q+Tqnpfd5K+Bbb775BiLfnnnmiU8999SVa+94l8Dl4/tefu21s2+f/djHPnfs+AMGyKGD3ovi0ydXfIzK96tefPlFP/j3WfpTJ0+a8Z5/7lNvnzljbrYNonbAT4JMqca2heSVV876ic7+I/N9Ez+4NMzsAR32NvdjeEwKBq2fS/FTkIz/DMUHTBlnvQmJbyhqJ82LK0+eNFOYCAB+dCG1Y6OpnvnYx1x9etFzxrtAORXoKtOzrjPvSm3zuZW8fNkbHOxEpMPRpMcKiwlHlBwiQxYZ7a69BMRLxV78/ncfP/3oT37xi44++wjJEycfPXvuXYcVTz708LxF8yFb3+4SXKlaFDRfVWXs3rr5pK/QzqfpnNBl01qQmcYLkVzmziaEEeXXTH5ShltTv/H2226TDp2z4Wmbxw/I9vlmiHrleJNDiTnNuO/hh/yO1XR0y1rmDUGnH3nIBPPoow87ne+FC862HfXipuvvP//8530d571Ll08//onz589+53svP3z6mEvxHGK8le91eXukOSnHnOe5Qea3GZWpvAHt+n5mN7iJYwCDwqxM5jHh9c+Gk0KUTHjx9PYo3rkOdk2qLFdOWchctee2jPj+C5euHTt06pHTj793wU7gRY0m7D4dacbXFjhdBrtUdlLHwOCD5hZhkNl78y3guNYOv9vt6Qei2rGDh7YF+kxXPjykomJGuh5btXqUtUcH87yKlC7qhun111+nUBG26aK5KOeMlJStPzvS1Moy6jdzmIkQH1/cBfn2Vc5SqKM+bKFiGsK0LQad7dB3X3yXpBsp/tkcS5pTB+6oUote12TbNmuMyTM33gJuKRQBFdSoIpuJISfqUzVTuz/TLJrA9ZeDQJk/6lOuKzY3WHMQffyMA7N6x8hBrzDP0sJWpv4sLlGWITMOJGj8GUE6dSWV1b5C6qefuuy8oTMuKp2la3aLs1jlIsary3KPldWWw3knj1mBEsPXdYu+ldN72c3PfqataDOIVZCetFnqEWf8ZiJV5kW8nLuJWY9NSX7BbTRqqmnjeDmdx05uBF1W+3FklMY6x/N159xxeaXg3G5XP1mti18V0gwDslpX+iHQIJdh4+riVjawKe1svu0oG67WTqabFRCUqbGqBvFvLoJ4yDEgMHOxM0wZb9NIXM2lzUCWmRwz0Uf1Qi0lIDq0zmdNQunKZC4WtE7iiJgBzkYSwiJoKNjFCW/QakcpK4jjV4Imq6gD0kVXKVWlCB3wBN0XOqS0MWfxcFrdnb/JF8OLL33H1SI9DkQ9dvqwvalr1y+9+dZrz37qye+/+G1f4/0Lf/4pu4JeU63/P/nkY84kfec7337q6ccu5Z7p/fzs94Mb7757xo3Riy9+3zBzcv1r3/jG46fnCMYpr1248taZtxxDP//eOVe2bifMrdxQfT0W4vmWW0ZZPnNe4viDYaW+ly/fMIwvX7ooYjz0Uz/VPHPmnc985jMQn1Xkuc+OeEl5J8/nPvWsZc97wBxE1Am9bdDDMuPTDHL6kcc20TM28mNAWyvi4eVe73mKkJnL0yCDPzNCdiyZc5l8/siDn//sj/zYj37utZdfMYDeOXNeE/np1bHDD7zz1luerrl50fF/8MqrPDeijhzLro73s+r2nrJ7O67zCt7CQ6s+59dO+XGc33od8/o7l3oZdWqcq2KbRH4Me/D9z/ykL29d8FjNfJ3uZ4fTO1JtJb2fVwBfO+9HSre+/7KpPAPywP7LNrk8JNMxLWMPPXLArO4Kx1usTvji/Iljflx79OjhTzzjUsCtyZOOfnDAQUUT7D7HWa5c8LzRSw6vXb/oB0aMeeDoBsnIzSvevRk15zDcDJuo7Brk6lwHnEGSnSr/ckeV6cSfzU9u4nPGSu4wM8GomRMAvi7tS9M0uMubH1HqxZ7A+Qjv9ffPP3bytC8AvPjy655h+RbMlXezh+x5D2O6SeLjMc1cPbixeOZjT5nlWXEBBNzNC06HlY4Nx6nPC6zGLd3QU2Ei+phUYPnX+QdboR0Sjk4D0/2VlasiFMPEhh7xjujd8csiTuBWrGOw450UQ7oQYprPY7Ppw+4+vOTJbaKnuX4H7XWRGPzazfbuYyeOH/r6d94W1pl1OZkHOblhSsznRmeO+WrrsAihSVx0s4m3gTTD7N25WwpkgjCvbaYV+TDQ2DlvZ3LMMuO/meV0LZpNy+yauT2NGl3sbe6ihh4n66e0QP1chcz5+gPWFc3t3I29+Pe9tzob5Tk5OP5YrbJX+YGRkWXJ4GPDzZwaeaClxvtNK26MLLZqpAtsXJ6RmfpmKonH6Xwp3QIb2Y/cZDPAtKUc9duFJrWx/ZK+HGKGOkQbe22Lp8b6ih10qWbThxRtdd/jL/33oPJy1N5dRC2FS+eGTcOMHi6BXanMR618i3ZKo2T+8RwMvl3YNk5t7lHGycRh24OPQHRiw2O6cj5LautAx0U3EgAReKExbMooPXAVAfDWZRfhv2yhPHA1xQkgsuVpTXc5MRg5HGD6ijdtDpg0+OaK3k9uzfjGo/7ZrwABAABJREFUy5NPPmEiePThB8+dOyM+li6TwiOnf/SzP/ojZ9+++P0Xv3fx0vknnjh84eK7Fy9c/7//P/5vb7756r/89V/7xLOnfRkrv1q5ft2P9l30XDh3wQtqbbW54Yhj+S3P+6xevHxZEx7wwVUfidA15trFPNSxLZ3aZ82u861Rq4O4qomTLId1JLMVujibF9ROkQUH7pChE3TvH3EE42Q2oux9+6CD3YYs2FkGrvmVmd/Z2PH3nWPfaM61bC6n3HqJiXtHK5MZ1v3T8WNHHW586NQJC4Da6RWO7LvGyyGNnBB+z1d0TaqnH3rYLqS3vSL31lAHMEH7feuNqxfyLTgHlzLyMmXn9X32tQ7np0upbL6EY+h6RZoT/7RePWxteeDww1m7cyV08YLnE+Y7I/0Qt/hvjlJfa8tNH+a6ZElm+opznuev3nrnNY9n9p166K0bV727wS+07CLue/edr3mZ7dOPm3z2+bj6z/yZx/7bX/pzWkLXMNhvOQJ67aK1VE/U53Py3vEK0+P7zr843KhO4iZEHojQ4DUW3mZrLjmUfS2+a7GsTpo6oz4zTbLOYDvOYqGJWjNLdrasggSzfWcROuzEjgcRvsn71Mc/dfjwiQ/2v+OrxO9NF80BB2ozu+beaLZm7bY9cOR4nicB1RdhYD3QKO0h6InndmuhOHEMGrdIpyBFRoTw0gNkyWJQOvu9OZckzjqJ3oWov0GIdKHCTCciETdP7rqsVfCujoJAhG+MGm1S7ikFIhZX51LSqFSq0+Jnjg9R/uZ5yk2fdX7ejJBHMFYmVw3oeamXn3vQpROITXjn0jvRGhh5CtIIadHMxWmYNIMFKHcqmWJAOED8ySd5pPP4KjSlDBk83irrFng0WAaqinIybqiz8hhVGVhjpWsVmwpMmH6IiA8iZZib2XMf3Zm9TAOe8Rp30c9c9iacDSUai37iMc9o06SK4rRFbTPTWaum10VXbiCm4ceLOA/EpTN2bpzyQ65cLmqz8ORGPO0RxellAQPNjalnWUZFmuEB3xHPQtUUw2j9009ortvLecg9zGXFVLKprAwetdhQuzSGNK2S4bIBdTEfSXVNJLcF6y7qQQ+CvShiFh6dFV3/Xppn6tkoWb7VHDtKy7BcjXPxvCnyBvJDFXN62j3dZEv2a5zNJVQoWmGaOTNczv7lxyLI71579+w7Zxjlm+tBPyB1CMqwtDLZuDAgzV9nz5374p/5mW9/9/cPPJgX1urGn3z2s9/61is2Q7zx1gaM3/w+9dQTTz/9uJ51+vHT2t2M/+1vfcebYX0jNT+b8D2OzCOXtLX3qnkDTX6qv98xuYx2TuceJv+b+vOUzsXv0aO+RZmJQxAmYglMR5MYHjhwHLOd5rlId/+63zW1Kpgm+MyxN954jS0XwmYQzzxOP/q4wHgXq0sFI86FYz7KNrsA+ZTRoYMn546zwX/4oUfiZ94f580bF4hfuuD7iJft15l0zp+/fv7smddffc0PnD/3wmefe+6T79/ylqMLJ44ef/6Fzzqg8Z0XXzpz9ryGsHa+8+75tuT47OPF1/yi+eETXiMiSPbxHjxyXHp4n6+G+QG1o+rO2+XBr9sMxSbl9LdTR064taIndzvzQo5jx/MGZIPOIzezTWfJBsp22c0bjzmI6JpZFRy5/KzXKLzvF9wXDTn18opbn2B/5Am7G5d/8LrfpbmQ3ff6Gyp3BMOhQ2kG36zyHsjcU+VuaX5panUxMc7l6LSE6Ud7mEXMINLMO1Y11cjRs9mwMT9w2oIsvqbRaM0zd/1P87kzDmde0WUWMWF4S4A3HF697q3upx7/xKlHHj138YpvD+U5d+bStK+Q0sKU2NkQ13NE9cFjfgUXUH10obBZp5k4KU3HNwGtUTyjw/MId2zWRwo5pR/AqdLZMANzsDmLQu+5oMEL5HQ2SupDmxKzLt3Ry65lxj10bqMve4/zW+JMOZ40wdxL8ZDDWsEo81jID8sNVmcJ8u1oP8XTJ93Kz+2X0SdsOmpel3jipF86nKKL51ka5m5G13HvlWeLudPKyTevBs2qb371ZdDcss1Vj6bJ5lvnX8xZycAEZab7aMx0ZtLTNgMjmElbt8CYiWXWgVxoAHOMyKS1cbtqyDYdyUw82UK0VtkezI7xlM9U5arAWpNbvBw9z0KFTJUXIMdA0DDrX+JowfMLdR4pcQ9m+zB3X/mX27ssdOMgkdnRdb8/nw6MjihJT+LTZCVRklkjSEq3iOZka2qQdGQy1yPi1/CddyqlG63OgVLBpZDOaoYU9mS35PwltVJsVcKZ8sgWZJUuaFZR2bzGQFGJ+OZfSsKf0ZbLHJ1Xohag06he0ayO6GjApNlhmN/p5pUwSp1LVdMEefam8YgJ9+phVG0hHFMdVuoMpMSJYVC8q3QxoywGeHlWqqiAf6M2Z3Ny32ZEGUi9FG3WvPz22zlx7jNITz31lHkfj2/96LcOwb7w2R//7kvfcKzBwvfqa146fOCxx0/P9q2l7ug/+Af/X99TcC/y8osvuQX59Kees4Abp+fffdfDDs+83vAaVlOSfqJ19u/30jo3GHk25Jv3jjW5ybYv7/rcj3q9/n3iaWymn8wx9GnbTd/Tu9BVR9VUQRj98Mhpw1ZfUYFO5uDetWFm2Xc0NwS5Kcnl2qGr7/sKe3Zg1N1QEh0IoOTNt97I9Il+cL+fXB886Ft9JyyO3/zG1y5cvvrpTz77yEMPmfTfesNT3ptvnnnbAUjdnDNmIvePHPMyWdrFNgfjZ1ODWg2LzcuembfwZEZzUuO9CyzlgbYD7DnpZOfeNbXDzELjjiEnAm9cdEwi67rmNeWwOqMtX2+xz+Xc39FTJ7SvoctndwgXL5y3AIuw5da3GX2Pzl3d2TN+6H3YF3/OnT2H+PBDpxx79/a/k8d9T/nqj/3oU8eOPbZvn5OL3g95yZFo1w1pqpw+82b0rDx2AvNDYG+hy29SPelzs5WVzF6WKd+EK7Tz/T/Hu3IJnXu/Wa28mtxHgHKQxTKcjUSfCaUhNxZuaVxKezWRczCq4C73/MXLT3/mz9j4OfvO+bPnLvoksZ7mQLdFaHqyNTHt8uAh5ySOW+1ybvSEt6Tk0AQGndamq16R8E6brlGjM5QibkC3wT/tknGNUoaOFEWYUTBox+lFOUfvSggFP4rUAsMxF0ma3mKGQcyzps5PiSnhCTCm8LsIsxRxLG9/PnSIWved3Ms6svaqZpwaEejPPPNMrJy/boSnyXmzOSyXlzFk6coWnCuc+Ormw3owB16zqWVqz7KgD1GU32i4E9n+aprtEFHJdAXKLRotqfMsFNidObJNHC0gE+F4ZuXR3lk1LS36cx4mKc1S6tIoIcvKZ/8k042ElLBLwfhDX++4+Brra7nKRQJZ79/T27IoGuUu3KyLJsJMz17Un2VMjcZEnpVmbXQPtvEtNmJq5k2eJ2/WZDAktcAnFdOW8NBULm3WNCLCcKMILkpTcRcC2Wa56QfpA/gLOCHjWhRgzp8Si/1HpLRV4bJFWYlMQtDDMEZL9yzKvK52YCaCPGeCu5mAuDsxgyiXwmcA5Eaq2XyAZBYYtfb1QxWlc9tPslq0dLpNkmbxwDts6ifBxGSgbHFyB5QOy4ZnU4stQ5UMTy6toiGb29nYcrDWGPOLJV5pjR6xhfDfBGB+n8bZ59MH164ePHP2wtMPnvaLjk98/GkT9K0L1994/exPfP7PfekXf+LCe57fXHrllR94pmw0CslXf+93n3v+k9777gCEkWzim5XDV7CPZJTpElYJn+a1kOe9iS4L0/9z/5fwZymaYOY5lkBxOaMi7ud/1ee/CBpudmLGyRzBP3Qt22LcVlmIqcF0YO5QlC/A5t7hqLsHz6PSlIePxqVcrZkI3P4ZYNNRp0cYAax45DumM45l22TU0nn25k3r8Wee/7QbC2fZv/VH33QE0acn//Ab33rtjTef8O3b558/ceL6X/uVv37i1EmywmKVYsd0b+a6fCHHPuhxBtkZkPOX86aGD659cOKUW0af+fPWQJfNaSR18XqmowdPOiw5oTB6s6AKlaKHHz7lAtudtcP5WWdneXvwgwdPPnLKjZ1fij7y2COHLlmtL+4/+ICP/p1584wDC888+0nMb7/1xsnjj73wuc97S9O3vvG/PfH0x2984O102bhzWtO85UcG5gV+ZO9kfg5smrI3adb0DNHbLr0Iyd2qKHlvqgsaU7Q5ajaoZpjP/o2BZSfx8FH18hZQlz7qREgf9G1eb1TKC5Fdzd70EihvW/Ki/U+cfO7AodOPPe0pnkfbtovP5WcPH7hHtzBM750ukfM4ASuBLmGJcr+EQWR0ABsDNuKsIkK0Gm6No+0spDCXO2tM4Sx/EQOBQvohrpj0SUsRWz1koYisUlacpLBRKciI+lImTIMsXzW6duuBHJmmUGfT7O1C3HNmFd2IAzpznur3UbfLLmeLjhxxgNUOhJ94OxZw6D07vQHK9dQc73aq3q2VWxhZkdJImdQ9YNcxTB8+S5d7kPRuPdgjSYNF7cxXSk1CmYd8oyUXv7lOVw2jUsNrPjN70tnZs/IAirP5JwzKWdWiM1wVoRiZXSzVOxeDiSlNWakynmbImtssi1aPLKi5VA19Vo7MWaHP3CWN9fQx3IZ3XLdkze1dnnWZNbpbxBbX6VdN65W//qcVPcGXZCbZgOhnyMy9XZer1Gog1kdlWTvA4MKjvaVwlZ0fDLiayg9HNKQ6g4rcM43F+8MqhfBCqqaQJbF8K2UV4Sy4aFEUMdf6W4DzGXRl6uJkhCg/ar986NIuwxWae9Ys3sBVZJ1RNE2aVQcw1LDQ3yxKqy8tETK8G34M6NK7YSsYtRUpIlW1JdUiFHREUtuKZ7e9I9PAO3/+nAr64ZRbCrzuVxx+NZPYwrly49ZLL7/hZQ7HTjx647W3X/ixF/Z9cOSll39gJf75n/+pq1dwHXn55VfNknbhTpx8wPTsxIO9OHv8jjYwOz9OuhSvXBx7W6h2v5HPK7i7svDwyoDlniIRE8BUIVQ9LzDrSBDj1ZV1rgw/+GCWoktOG3jzG0Gv7+sdoQpqL9MHoEGbmXt8vOHw0YMeRlkfjX1/Z+htQjeR0c2pTVfUUImtrEGWnzrFk8cff8zdiY1B5zWe37/vtTcc9X/FQvUTP/nTJqN3ndO/ds1vWt8/8PbJRx41K//Sf/uLvgQhCGSd9KMQYtYzp3v4lK9gOHN44AMvdDW7OubhmYd31lpZNcqVSxfc+ljS9t20tFw4eMCTtv7gIM+D1U4TvvLam0a7JyZiQo/OKCxWxMdOP+Z2Vld96N1zhrAh5orfcuxEuNj68aldGS1iyXzn3Ls+Nvno448dPX7s/KWLxw7vd8xQWLIKubtyBL8TDfZszJjRHGScQWJBO+RzYPg0U7raTENC52o1H6YwkToswHSeEN26kgtse4uaL/PLfsd8jhw58ewzTx0+6vcPvgfgrKQvpQHPtfOb3NfeeOu9i9d8WcMe11zb5pzn5QvZ4qPI/yIp1Wmt9EaoS222UOB6hfgInaI04oDeks4z2Q5A5PSnGRToxNNMs0rpNqYmDCh8st2oQ7a/UZ7rjQG9nRVZy1qcSlDThwPm11kOKWyXliKLPw05QerHBHOz5bdkPnhYV5jL3DFPtQmqhfO0lqte12fDTb9005hfzuaWtsfkcvgixvPTWX8tX+m46iVEjo16XGQ2ShsdPmoZ0nwu2BIqlc5d+r4rl/MzWwtF3h2RBWsGxv73r/s9QeYod0NZfDih6SRm8c6uHMg4maxUKLNgzEKV5mbCgpKA5FavPsoOPTt7xaqKZMBalbcrHrHb4LJkv7cM+Jc32tuQsKbPDdOMz7g7947CWg0JzbTlKLoj4djuLEJA1QGmERoXRwttQCNJ2jOQtYdrbC2tT2iVNML2CdYdZraZCm5zt/+Sup35UIwGzO3ikPhvjhyI8oPeh5OFimNdnPRRWXOfFG6oAAgJdtwb4CdRDVKZcTKp+yrXipAaosEjCTGWdUc9P+WhY641pgldksg3ehqcqlhpa079Ympm7jERPZHfQJDSEfcAnXVsOTMO57eNDjqYE/HjMd4oMTbeeefWs89+0haf2dPeRp5WeGWJY5+Hj/zg5dd//POfu37+pvecPfHkJ8662Xrm4y+9+Mb3vvc9t1b2hU4/8sTx46d+7mf+rJ+j7D943VOwZz9+9uQpP0m5+uorb1y46MSg+THHU+l0oZgzwz5594DvOSak6qSOitRmmiL36Jky0o/DAJk+N38d1nLtfeuGka8uLmyvzb1gq6OyU+ucDKbBnAVRzU5A2tHjWRH0xTxTYUKXWhrapBJMS7lD5rE4MBsXyWLQPbwmLq9rOrDP0iJuH//EJ/7S/+EvezvHv/71f/MHX/+68cKv/d6hrsLXbvxP//Pf+5Ef+RHHVZyn97Nf4o+eftjt1POffsES9fiNR8Xcu6xIcU/T2Jx05+Ki1TaHU/3Wrdkg3f/W2TOe9/iGEqkL7106f+G9OR5y+dU3Xp/naznjnanE+cWcyncufd8Tpx+5cPnia6++Y8LRA8+8/d6NG9+3monYhXPnrTrPPP2k1cjKe/L4B3/zb/5fHEC5+O55S7hFnBkX07qwJ2XtthOWPCbwwUbLj2NoXgDgBz9zybE/3wu+pmUPXPXGftcgudmyR5VvnYqw2ri9zqc0vU9LSxw55tWOn3z+hWc/+dyhB47aQjTwDhw64nt4b585e+4NP569lusBi/qBHF7XH+wl6hwmERXkCRCx6ck5qKVpjFkfl9K+agrcWikVbU2P2FHQgYBZtgMZRRY/SlcpFAqNC6mOsaYClxraGifTDp3CdTk7Ez5unKgD82l/mUBXfrudmYG2cTbxtzLRtjzhAIrrGB3AciU+1PBhnM2YxUBKY/meyKGz7101Rah1/umucywwS1K6btaPuY9x/WA6t3Lli2G52dJp80kNpxW8I9pG88HL3l/UxcUd2sy8tja009qsq4msSmNr4pNdyqiaIapIj+gJcZTWPUUpN07VN6xaKSEJXRqhuD754MYyt9d0PNLdCx077t/ziHNszfJ4kwe5YctEwUAGL8gGpyOtucIYP3JdhTqF9M/KFj4Nma3QmRRSFXtcjvTMdCC1gYOn7RTv1/Oe2b4QGeCDDTp6rupNXnMVY2rnZGq46j64JAaybE/N70xjBsPELXEZnEgnpspqe+JVpscUQdSfdAgAt/ut8mrh1zw+RO1trVLPg1G0tht0v//PHZXv5BrAc+UumK1dVdVEA7fMlYFFnQ9bKj69EALQqao/smUgC/imaJWW2BQ/pOJNq2HxlGFXrSLZamMFeHTh2LpRbe6mRLiktjkd+H7hhRceOf3Qt771zdyy+NjIgydu3rrsqt0e+2/+5lc8237x+697UvXxjz/re5wXzl+2C/K1Pzjv2e7hQ3/khaS//VtfPnnKS+r2eUfeiZN+6njCe8qffuYTDxw66lrbKemXXzXhvzILpN0SmycBHW3cS73qpwjwuY5NB2+Fkqr9vJzmggbwhV+cuaAznfnPK/ynddTR/Ykic5ZqPnTyOPpMBzc8l8+UdPXqsZOnDHc7D4yC6d/BM2VMxPRtaqdbxaj+7rbn7Lvv/KVf/JLlx5cdnDn2/ol/+ev/+sKFy6++9obnLx40+dTkJz71yZOnHv72V77iN9EXr1w+9d0TTz/5pO1kDjx22muWPrj1v/7ayYf8NOqxEw/neohvNpRFz/u8fUDr6IPHTh3346mHDj/uot4/W1EOvHv/QjZa5qS9157mbYoOmTrS4jbMjOUGy8rtjkKdbvpA4uUrr7/1unMiXD//3rs2rFTN91xEw8Wq/bx33jnjJ1ynH3vConbtxs1X3jjjS/Y3rl3cf/3yg67IM3Hb8JtemlR3t/64wMjdkv29nAa0oDoxc22fn6v64qAXKbhqsSs4L3UTPOHPAQa3z+9/4Ms1vgL99FPPfMx5JLXwFq4Hjp7+/g9ePn/OxqgPOB50nPKds+e8E8Q1wy2PS2/ecIdqnvHtoTde9wIkX9/MY6TpAbk/P+QHtHMFacbvcqUIIp4dIDE/Cwy6/qAnSFtaPWn0AfHXJdIR57VklFgnMKOjiJjlyp62LNzH1TBH5KqP7BzNFLbeWTNjs1dbFNPPB0Oeh1I4CtOASHc14kOWBht78+M7TzH9Qss5oqPZLXj5pR/83u/+7qGzl3LPsQf4vvV/UzbbXbjMoyisWMBYyh6W+VN+NFgmMsyAbJaNUGdpKXUWKiTlnfo3m3phG8hd3AbdxG+Ty7OkwiyVLUwXGtOd2zc+j+08eBuIuo17KD7Le9MesRXfVX9/uB8GJX4rxUcPCLSK0WzWmvnToI3huZ/MXKFSPLeqieDoVz1Xumbzze2FpkVvq2tLjdGq6yHz6Jr7+cdmU9xCtvkXO24/Q8ke7niey4NELJNX1mt2U8gPdx92JcxuKYwz2ZW1IjGfIDGi4nZ70HjLMamqp/bjilKI3qOv95JHP567KB3a4SJPudO7THSCYLaVjoTt3vx8SnzUrpf/lIPbfmY12gSEc0Kae/P0mVzfwXknyv1tVlsnrs5qzb3eW9CmMq6xiQB6wpk96cTFME1LzVae2HuWzRkTyAxFNc5sO2LpnMm6SvHeuNmOYNo4hL975r3vfvc7tjswy7pIbGQcmvDhbQNVKz35xMfMZfMhEN8Fdrf4vleZPf7E83RywGz/ne+8wyOffn/2kz/6zFO3fBT44nk/6LzsdyYH3/Ih8DSQCdorKTKD+E6RV0z7hrk3tj/mi1v5UpR+4um6rS+3FD6HZLrgjy0W/psUGHJpjAJc0vNQfFwHvvTiSzaKPNgmrcO41Pe1rueee/bo8SMP+c6k73gePHjBo5oELfcrWta84Ii6RnXRfOuSj5X4bVl+U2ztsTPlcmliroM7UJCQi/P8y1Sl6TUNqkAJ/Ds+JXLp8ptvv/PGW2fF3DT5tW99T13Ov/ue2wiHIV57/fWf+OIXnFL5yle+4s09Tz75uMdLeZm3UxK+M3/ED3KzKe8a+IIXHZy/YlypKeCDphYrJyWTWKXmxb55fW06a06yqUK/J6ffHrmRZ/X7HzzxyMMnnnz0pDHiicb0pfwm2U+iRWC6azwf51NNIWULW3Ya5/2qDqFcufLO85/yjsFE+5amuHrRRxqlpHypXTNd1qqZsvNWRrflXnNPvS9UazgP/BMx27iWuCMHXH7oKyc8pVaLfBggr230glafdBFJsX7P7aN1yVp35tKhV8/84Ae5cOGV55emIZCx5xLqVr4SdimL/dXLF95zp+muzv34zO15+nH02Em/fXbHKbYuHVTN2uniUpDUTur1XbZAzr37nmbidp5euMM46AVXp5lw6sNAzMGWD7xIL6dVIS52fCg0TgicoZGv3m/msddfe1O4NscoZseCRV3Dd7nMevAM2umipkWnTNzKiIt20804kBjNkQq/JkQxFphwl+aTN37jQdrXBTP9HfTLhWt+UXf42Y8fOeEe9JHXXn3D4adDN70O616Qle5OSF5XyP2H6VUm08dA8C2v2k3ZpIgzfWYhKWGWz/BGzT1hNh3vLrnbn7t5PpySud40Oqc8TaaOqWXkz7xGsO0hmoYmPENyZkMVUNpKQWZPaO49x0/iDUGaYaY8OrGNmkw6SjP/zqSuCC5FHP5cu0Zn1qf8m3UniVm9jgWfwBGJZtbcbcSdQKYSYIFy/6ivkOuqPkU4zQvHty8lqg8Z8HPm1eCpb7J6rXkBgqebfhCKeauH1dupRS6LWsQ6Ftkxu2lLnHFnQoofjxiWoqilsuBuHPMusdmqimRrOsoRZc2Md6vij/GPASgVZGlxiOkArqZzQ5OnqtYnEwkiHEBoFgGjCEzt/Fjk6MMPn6aGlOXJj+W8vuj6VT89UX0t63saGN0HnD710E13ohY/qqQ56evX0tdtBnq+47tAnj+f92TQ416XwvxhS3iFnUs0jMM2h10Uh+KnviYFCG3tNqqmRqQwI/pB2KuvviwOuixZPfbylYu2ZqvZ6yRUx5rnB8jvvHuGBttfhv3TTz9J5PjJUxwD5kdBUlktlco7n8iT2Y7QZ01WrinoyTCeJmi7pL5Hj/oY2Le/9/3WQsqWUvMxfq8lffzJJ370R3/UI43vfO97gsxEBkUucvQcdaBTl9ccmX+I09n4ywIj8LpXpqf/XJ7BkgtEkCVuLryanTT3CkyLpIM/WcDmEt41mE593JtA5nl6AuDG4vDBI/Nk3Q/FauXatYcg4pyG3HfTO4vdP8dQZur4a4F25ZPDBXO62s1NlixLxzlXJZfOnbVL5wPEvnIyz5VyApm+A1bTBM1vp9y3zoWdVUaw33zpRZt+It/W7ETDXNcSq523upJvlT1jnAvRjCMvG/HVNPeCwpZfqfk9Gg89+jJs7VDnnfZ5AYQj+ZWlmR61xgAXn9KLkMWvVLaI0vSBaejSiStF1GEsUQCiV0/H8XYg9/HpFXiAayNdk4C2lCWrCFBoQJltEImrqd+EWFYdsjCg9GBHMxyyoJYDbvftBEBIaedbTsleu+ri1pNLB+h14LhL9UeA4U8S3/zZiG/nkzq80cddtpupoWVtIXtMLz176H+KWZ6k+Xu6ZpqkFCngMMAglRG4Xf8RVQqlLQFpA1dQ2mzTsnWcKNJUxdHplwI9aZ52ZyRbkg1m/3LPJGVnhQMyeHphbqDSo+kMotP4Nzf+yzpDBoDUpkrxTotNFRnVqqAIRRZ0iKJAaG1d4BDeohdIyYJGwHVlfNgCB+oVQTy8RYEDLCt6ZadhK5eVr84j0iBFYdGoxqNoidQfyhEBTmpbSoRFDIuy9JcZA4XmJiPHaJFiBnVVqWg4quTxL9NkKTcv90dXZnZj6fU3Xp2fgrJuaTHg3TPmmbl4OnaqTSwbYn/q1EOPP/4EWbtNWau8P8Lr1i/7NGPeTMoHo5Q5N/Hupby7b+PnB8b2SRTNwROzIsd0VC5Zn+BEVESK6JrUKycQtNXUzp30By6iTx0/59IVAxGLhDq6ND9z5vxDp1Jr3yCnWZX5YPcpz9veOYft9KOPMfqgD514mYdbmO1FjOdHDR0PSUllGyUhspkpVfcGHN1nDVkxe/rAsdJvfvObSxX9mDkPKKFKjXJpP1Bi6YqaVVKjkDpAvkQN3b7BIxQOkH1n/7niNE+cDBV3lunnu0C5LMf0BEijTdxZjWNH7btku0ypBW6OnGcvIdsnecOTH6t5/uen1peOPHDx2InLRw+/58f+9hutWgLuHotpF6pi7gUbjp4DXaInqnIDm+PWOdSjXtxQKcB5bBA+8AcSJWl6n7NUu/xqSucBiA0FnkaGnxYDTWCtcoN14Z13KCl/ajSXRK179Vec6TT3zi+0+AB2eTjJYtbmS74FGkCxV4gnMI3Ih0iJ9sw/cPrZbQClrhGkiHywRDn77ppJH7MxYInqZ64MDVpyvNh9/7xCsEFg3cCxhBk1HlwZMvmFXa3vTXemkt0iY8Xo3qXswclxDqBLNdUehv/82bZr7erl49XmHRMNt1SI63DZUFKF7SxZDRvi1Au+gGzFyWqbZlfagbcaklp9jmz0z1uQZXUvDIj1gayZPs0+gNhSHLCMT63AN0qmN2jd9jzWQcfhjLdDdv8h+gEGiNL6Q4QDQBYOmJLlDAqL9bB42cqwPGz1MUTL1EVRS2Vbl5YiNruL7MGXCLrKglK0F8quflnAmfpMc+M5ocpMWoamBOt2FSo15EDVkoULfmuN2cRtRBn/hsqSFTpxQ6TEkyqjywIjMS8byThp8LCDRbOGV2MTzNdx50LbRgrZxx970rNAWzSul/PeI9ugN953M+QRxZmzb1ljrl67PFtA7xuTKqdqhqjoWagY7VyGqB1Vp8Fk12wAZ02RFM4fs0CKTqZBafiJn/gJR6q8FuPCBTV9w1vb/YqZQq7ygedqwei3vv0dzK7TwTwK2ewPP/RwPvfXzqOIoXAcPixQ9jMtmSJZUE3aPCsSTB/6MxNZruCf+exnTU9KSRGPlRlWvAX53dBAvS0ukgSlGNABegW1V3mkGKQKyy9Q0NJRCvQYWFrY/t+EikKRsQC4qhAftzJ6mg5vbNmIdzoiR8Cz1eFBRVrQRWQ8ydFNg25f2sI2YemU8yc3Si4OcsOEkMtcD7zFXmCdz7ePxiLZKPFMY+faqK0WVfMr2uWwbIk2sJytgbeZpHh4J+Bug9lqSC1U9OufUkVN+QkRusYcZ3sR5UARukaBU8tEOenHVnPWJ6uFm2bZ1iuTj7DPP/yYifu/CJ36CXqVt8/YgYXwTYexULGof7pI+va3vy101nbaompe78SQJbTOqAjO6brHuKSLxkOWPhJMb0j/KMTdO2EYQoIs/E6W/5I5DoM6VrzhTuCW0zMSmpNiWymkgCiscKpWC0GAfqCFNEy7CwqeKiGiGaRF4KBdQVqe6s8oHDdKrJWQjK18+uH2qtNuYU5B7MxSSnn8Fp0/OmuzxOuzLM1VXg8VFeE2HkWxNXdXspSgcBJP2eDAJVodXmlNqFd7LbrK4qzCli7mheBfzkCIlB9SkSW42MiWiFKirHpVFkV2AWb+mD+sRrYgnnvuOVOtAeNkUzmFjpNdqzqw6/bSMPV26X3El1ePHzstGBhocJ/G+Zdf+QE9eoR7sBntdFw3IT5y+qTuI+p54rA/5w9tUnmQZGJ3LfzcJz8t0uaHuX7N+nf27LvUmiOMTw67IDXXd1aiFsIKc7zCplH8iolyCGYUp0JsO/ppjuPsNmFQTBOOjUD2fXBR+uKLL+L0rF8K/PpSCVcdEVR9X6ty5Nm7oii0uKqydZRRPQp01RFhiAmIFIX84RiES0Guecx5zETjAIsHV/kN1oG8cwtz4ywCZW5gEVEABJ3FRZEFLW1KxMxfQSmitO3MvQjONiYEVNaVXZYJR7jiKiv8zJ2xYYpn5mHOoxv+MZ2T8PktzQxLgfYNrfHBoz22XFhqccnWtJh5uOotq33Eyhmt4ImBI4Iem/hNm18OZfqmWQRcltr0V0eU1WT0A1GlE1thqz8jTlSnU2WCIphnWyb5w6l+t461hQsU2d7EQyjhp5jo1YKPAkGprWV9orcZ5o28HtglSgtO377qwkGweBwG0W6LiON2wkzR3D/pJ2ypF7WgFbQza3PCVReKXt2LmDNvv20K41WvlGlWTbGue9sY+DToFW5wXO2IGwte63B77SH/xwKNE427GNvrZoeQSiYZuIvpvwyBM3sM1z0eipQiiHgVKWdFVi12NbRepVSKyNKjK+h5HeEQzIUO6baKjqsrAMRdzQsnorGpRQHVqcNRba0COiITNQRB0VFkF50Il+iZB0xym2woA0TaOaSLqIQ52WVaKYpUUfFV2dJphhQUkS2oWo1W1ZJlF6VAaovebgJSNOBvEbsQlIWUTj8ivEpqdFFqbpeIIuBCZAD84i/+oiYweIzMzEjbcSKGpnjxVCqSTAAmWhGG7Nj6MrwrXs4INv1uXD1FdxFi/9Cgstfu4Blx45ohd2AXLlzSaHSO26mU2+82QnbC5v0FNJtV9Brd46mnnjHdmzW46lbJYqPdGZJVBZrjxixUbcFsxmcXIDMgNosMn00Kvt7kohuPa+TPf/7z6m4+IN7br5/6mZ/miRXUd8d5KBTXfdgwkJDSBlgRGS6RolPtPL9ptKllrkU4sTGNv36aZdxduZQWEzdzeWv3hQviSQoz/a0CZqB/bZH0MXi8mBOkRXZTgoXFNhrSPUq3XMGbTd9Xx77dZqM2wRo0T/X4U5c45WpKdfI7injIj/zWhD/e6EmJmy03u0FyLZrtOOuaXpOfAeRtTG7QHNxz55H9/Hm+LRRuxeanpJmI0+7beT71rd0VYaVaHLGNiAEoBXk9/WwjCzJ/VBMzRDb+zJv09BDiiuYBW6R4675Ef3YHrO+1YyNWnBUizBGXUqV7ZLvAc7kBeHqaKZE58ZqQNcL6WZBWZsRpAPonrwCdcM3NBNMff+YZftLMHz94MOIyprYKc4k0FUlNRptSSljgJOAbwIWYLoSJuruBwN1ElK2jdxVWTfpD6jiQP/dRv3ju0vOfh5CQ97LsjnlwNxotly6PEtGBUloklBCglzSmcAwNMfYya/5pms3vw2U1A5HeUxklOQnSBYaWuUVrqiu0w+lzkLywZx6xtEPoGbKsFMHcLArxWHcibjuXlSgLinOAt/ACV1OT8V+KuGrK2y3XdmqYYVOGpmWofm4g0o9Yc3CU6qyJXRx/DE83VYuJzOaGbElVT63grPgqlUWsYBuFTiIYQBcAlM9+9rMu99y7OIZrWLq+pklVXDzY6LP8zC2lSz8hIn57cqFc73cnk7/ZlE3VaB6vct+GwQUgUG/6bXd8/et/aPKy/CBaPFwFWw5nFeGqf6RTG27mzzbaWlYB5jZ9PVcjI5nDq0bYZOfOgQ+inQlOKU7Wvff92Wef83PnUXzw+ec/44e83lur9JVXXvOoE1Ln+cbWW2+fTaeYd3vzjaq03gc+iZKLoVGSRDeYOBzwVAZdKWKu931E6vABT+yefPQxfj58+hG3Vp0E3bBaMnXd6mG0wARVXhu4lK+qoRsg2BQhFuAoHCi9SqYoClSnjmliMKXTGeb3ZNjwhEGt8vjH/dT+fLKvv1OZbh8t2V93+DzVsbizRW2iag/wlk1ICtLyNuhMctk6dGbU23H8WNTNmWKjXtD8wlQ3zguW/IY1ZwgJcckI1bssCnUmngy0SCujjIHNeGyWuFYGCZcXPuU9prmrdjtskoCbFtzdOOPjKkrAve5L/F1bOOTCIiX6m14HGFK0nFEkq2mYtpIBiwoNuW2yB+uycoZk+rphNb2FCOeliibp3VHmHF2IM4gauv2cY/xEtI1hrPHHw0ZR0m/xsJVYJugBatObrE/z9WFSjdIm/rNWqcLtS9048cNAOk3HWbhZWkJjfuU2yGJI6X9xmNfUiwVnGtxdhHcNHKStotQgqNetiLRIiRgAVUDHIqUHCDqAt1RaZjyiX4CXbrqsQikRgm02uMsTLaTtzXdtY0XeZKNIR0RZl0i0sVsNUtAqQHLOfrtcLX/4wFB56pu0pZBRsEkWG/2sA2zEWYzy7WLQulQWESxOOCWASKEWl0gRRUzARzqhY0VICZZfirh8U/1S9ujc2JiRU81EICZlk/iv/uqvuuQ3Jv/Nv/k3OFHoZ5Et86PdueJSWYJqIWUIMwSzSaFTBjK2uTijPm7nV6n5BIlTc26Pcozw3XM55G1GcGlJCZ/N3TZGzCBmcwpJNYUUeAIoJMUcV+HU8gdiZkGsM/hRTJ0ojbZsSj/ILgpBRoWUrLozZ98PxWFpBzRUHDM2arlkKqGJJxxKmopGJxOeyRXBDxre4cmShoKniDmIleef/aQNwO9877uINLvXdLWlvirFkzYx5aIB8PATUoXSIaehd9sXEWVTNE+nZBdzxSmnLY96bjNHqyHHw8piAFWFmOKB0nnoNsoq4zBEFuz95lY/wPAhj1j35ZFUwQ0phTOmNEtey+6FFlapeW+PdS48GeV56QYTYmKZlgez/t2eYVDYlWITYfWFoKgIb1GWb23EcTL7rkQEUOPj4RhBKTPoSr2AUhdQRInG1YsQdRsMKOy56sRJBB2DzWGlFo9sVAryilXvgdLDt/cf4xBZf9s99G2G4ChwOmW1tXY3NXGYiX//7/+9OyoHNswClmtELc4uZ1pBKUG1bsWzTM46KhoQzMJT5hiF4ZbeAdN576DclanQkt32tL18usde0p8o37oRhUhrd1lflER8wGhbPBUJeS4P5+9mplg8YiGUuayaEUgkWQ2wfcYDR5Sij4VNUg1lhrfxxBrIAgiiPkF8aVhKNCJcY/fmSXtbnCxRsiUW1ykpocqLACiBSHUdTpSOkpGx3eKrUaUeJ8MhrIDyE+GY7DiYepVf2q6MjlPa3omBVzpZp0viAEOlqkcWGxF9FKX9lXg11Ac9kodlw7npoNvVlIaqQsePU0pbRRQBstVZtUQWKAL4O4ow0GOmJuWkHFV/7a/9NTtUp08//D/+j//Tv/23/xZuq83cahJ3AWiqFWTi9arapLE6gaLBSzp8gpZFHcWZ9jE991j7LYcnfKtK7f1+ystf/ELL76weeuik44eeNEzPctz5ogNjP3jpFYIaS4g0LoDIAjV1mjrpbK1g40DszlFAXaIBkbXSuEc8+9aZ8DyQm55xWEM7w5aJ49VXXyP3C7/w8xYMp7Bc9zz/qc989zsvnn70oXfeOf/v//1XvGPCa0gZ8vJ4P4h+6Qcvmxp0/ii/dOWRRx922tgPY155+TVNz4pJxwW4UHBPlHjCCqOKEEVbyiu18Bsax+iU2pOU5Rs6teNh4omZXVlId9sowZ+6jEIpE81WSlqGzbHYbWS4oWRHfNOFULD432a4Xs9o8gnmZhnQk8OyYzHTol/7+PjWvHI2M8FUiizTjsy4fZ1DiL7rkaMV6mVJuuW+y1qF1xMsY8q912yUQHOXNSMsk1JW2Zk3fO5uureA4C+gGFyt6dQoURIBcObts9rFDgv3vOuew/BGG/7kE08/evpxwdQ6frGg81xzY5t+/dB/89/8Nx2wHT69dulDSCacgqGcXY9eEwVxmOmlPsh6RpfhvZ060OkBdRii03aO4mr9N4L0Sc6wa1uSReClF0T0YDrbCmThqiCtNgj9UoAHg24DwaPn6GWyEGM5MwKZsq50aVmUPzGydeOHVbD83iNQl5Qub4s0oPAlWPrd6VK4OFEWLjoVSd/aDh5IbmC38WGDQPVoocquFAIoWaoaW5wAsQwQMD04M5G5QMeV6mGduXrzrtWVSpWCukS5LkKPIo1aUCrr+kgWghPDCGU8uBNuz0CkrT7g4QNm2VanUsWrpHirA6eQfiklEHRAfKqy6T9L+d1qW7Q0y8LpoRlCLQSRV9WcEA1UVYm1WIpKVVAWKFr86K2d1G3Er/zKr3iCgt9qJEp/9+/+XczeX2cGNwwcUjILGwyf+tSnDDOyhjF/FFFLJ0qVx0yexsdDFmpQNfAo8HpAP+Wh3yGbucy94cb4nbffffDYEeXLt2FOli0umTT7kgUUhljwlkIR5ioHAESLQzq5NPIYVA3x2MnjHjq0vmS5Hdxbkz2j8uaj+SWZmrrE9tOWRx85/VM/9Wf+8Gu/7/LdYRPiVnF6zCnUer715S9/2TaQvnrsxFEVocRxCacH6aG8Id2YmM4jDkARgKiLBx/YwjNzMXrr24Ye9s3gqjaU1TnLWZHiixID2yaeJoiSUuhRIltPdJrhTdKwK1OEodBSOMEtLX+H3wafKTKHLkhQ7GfxSf3YNYC6Qfx0l7iNUj8+yQJGVT7yioczpN1/4HadbiGLJrPGFMUlu7Y+bQTqQ/TcGYRoGaKGaCfBWWJ9rquC7MdQRz55RN8+9cjD+rl7GkSriJM1li7dBphMiNOjuZWKNrXVBpFdl/X1R1ErrzuiAObSoAOy+l6nKc5ocZqtIrYlGFVqHLnya+exIUk/hYXo2sa5+P3SVl8pQdb1fAijxkLmi3tD2udumCdvd5Onge9FVtt7kj8ykcd7ZBZlIWVQQ5QSm95TsGxNMdzmvNPjXhfsaiCyspVqN0JUpDk1UttJE2MIPpO6HtCGN3o7JWmAJ5562rlhXc0eka5WJRioahchgkgPYIjIblEVovj5ujTbtPnVlmcQeTeEIeW6sM2/+pxsoRTKZSmv6SJMR9uOXTyydUlRnUFB83+ZpQv0YzyNQ2VXdvEsZPRESSO2awuOvsxVBHF50viggJoQWxd3UgsSBzpru5fyG6C///f/viArRTcX43n3HS9iv3zq5EOPPfp4KuPllw9kWybXyYl3al2jGcfe+e0boAmVRrldBKeWTs6YIzxS9oZc4/bhRx9yd9WeS8lSBcml4wCt+Td9g7gDGjUn5YaeYKJpb6EZgq4P4BThZjnpcmiYkQ85pYZitnFz87Wvff3nfu7nvECDMzx0HvIb3/iGLSsREA1TDJ1WMiY+/omP/eDlJ986c1YlCzwxHc3mZ5rAs72EJ+cXunRpFD3Hyq1QNGwm5QdkTNdzCG94pbJqIZtaT2kRVmRNRvhRpAtpVgpoKB1OxAvCpFOyEbFcNCv1qLYWRyRqfapIWhHpUlVkqdoweB7lfere+5C2V8Fc9+gHIJ9Qpj9Yms4bwL1aJq9gcq8l4nN/pdTv7iYq2Re0LqVlLVrOK+YUBj90HrXNiKa5IEpRPRGQWkXQmbAYANkpLB26WUWoeuj0464PNKUbPadhnn/+03/1r/6VRx865YMAtuCsIvq8TqL/a+UuV7SBreX8VZ3oF44B0Uttt2tV7E3P1NM0Iletf3VPEdwqIqWfkKsiu8q6DaNKUaoT3uxKIYpCvQtKjw/TyrylRpobxoceSjdqwR2C2w5xB/FPlPnomjZ9ca81imbaWvUJw/bCZC/zD5FvrROVcbFqtxfLt0NpPLG70dfKyOLetuigaeOFRON0uN7uanDM7p+0NzDXaGPXI26cNYCjrppAP0BXylD1dJIdidwzIe7WSbZAFlRKmoE02uAQ2f4Spcz8KoOiOBk3I4sI37UiW50VbCdGqQip9PoZSPa0yiktVMQ0JFt+lBpCYUt2j62yIVZkWRcWVvCjlLhSw6/mlggTlFv1XWl2HjdyjKXf/M3fNE3bofoH/+AfYHZjYTkxrowu5+JcrZsUPve5z1WzsNO8wgKpt42A6cnbBISWHvTxK6j/WXRRadvtq1/9ihsmmzM8v3ThsqMx7T/0E8AJIrrtP7G7pStqW4RoftMI+tpc2pJoD4HwEM5V80IdI8XVBhACTpw45tn5H/zBH7gSsq2np6mm1E2kUFh3fDzPGubeS4hEzEuNcn/pxeTvvEMtE+LjXjqfAJ635jDBPY4V2vqlcElLLU9aCz7ovYgQIqsUMwYAUZRTd4PfL8WDE1ASMb/lHSg/eptjk3WDtIXELrP7VlBmYERivdmlrfodP88dUxaaDOo4uKl1Gj1Ll2VMaf4lIO6k8xMA77D1tate4GQdA9twacV4Tl12CY2LPgwbntu9S3y4VCIeoL16gyKM6AIuxVa3nbo5+uijerjG9THQPpjUA/9P/8df/u53nfL5tgnHiqVdSKlI9Tc2NLSyshPTTBY4WkoEormJdP5p2iauJxh6U2Wh0lvsTxhTbq04jKHtzgQ2UhPG+FDPF9LsnrSl9bZ4lcw2/un7313tUfOfK/vhlfmP9ELNd/Vv8MZR2QAT6IX0M916u1ogKhVKoFVAWNvvtbdGhyO6xN0+e9Ba+g0wa2hgSxTEdW7bnsEDBx/U3voine0WdQNDSgda61qHl6HIxs87B7yi8WsG9nwQkjZEDpfOEJwe2VRjOyOgmHZlS68JLtSiFAUoBSUWKX2lipiQrml0VafTHCnMGIrU4qKUKK1jS+0uwqvlJz2VRTSATeXsmnCF3UCyVv3jf/yP3Vch8sq1AmalzviaFNxLYbPtbvavEnYBh6Wl1Plk58Raxzijyy42v3/S7P/uy7/77e/80dVLV3xLzdpw8qE85pkdxLwOugopjaZsGU08vaKv+QRrR+e8HJFmkJrOE/yK8Eczoe+uGZGeSW0mzT6jzuLnWbolHFw4/57brC984YsvvfQD72d1q/byy684q/jUU0/2+PLE5NH33sutp1MRvHXVrp3j9zT3+JKkwa8zq40QgfpKHbrDRiFc96YQTgkERVEVSvcsV9XZFBsEVKRSXa7gQNGkwatQfiQmsF2uioZlFYXFyhLrI3g7za0UUm+o/MkBQHxELTbYRsoYz7/5ZkNOss+mobVoSeGbJs2KF7Nz2cHXIIwCQRMKSL2FQ2Qh2lTE9Eazv9RJGndjnHX8ki5AKKvwPGa2TmlTHVifN6ELMgZSmttdl21eCGL7tiJWBBOkR031XfgwCjazwxAx9NqoM9JIbCYBgmYwtnrBZJUyxOh3fcZtteruYqsTdz8qzPzZsLBFWlc3YVq8BeQjPrvqALuXB/crmerfS+Cj0jZdc9P7NuFote6yjdyq7hpBXNniUm3WXqAHuRJYPBuy/HbfFqVt3MZLAxOdS10BxVhgwoRoqrITJcpwPUa2Q7eTYH2Dm3a8ZpS4boFBDyBuwHfMw2u0CLzA0OpAigooi44iK2Wg2yOQDd8UyRoVtC1PKouHJ4hKpQBdSpsUf9Vi27W1NNe9eoKhPBVUVAr9ZasSRNmFV1WJfBDkSqFTWyXlUUQzwKA6u0ZF0i0COk7H1m36ffWrX9XdXYHa/tIiLkKNZCLwd86+6xGOyFNlvBn5xt6yBaGkHsaH3OlkoqrypjN9+DXuI3jdM7/99tk3Lr566OCRc+9cOHL0wZkz4/KqNTyC03noB7IL1DrcA0RSw0wl2nL66gzgoW0v3reN4lm/kAiLU9YETR09XOYWyszl9X1etsqW2ynTzYs/ePXxxx8xxbjT8s4KfdWXOJS6ovIdZC+8YUIWZMYe4FH9qauySkthFCLLedETf46g6Nj0ILa0zK1a01G1ISy1EKSVQgg2hexZrtABfoaKDaEjfehZK+7Qxs/yS6NwYCG6eekos5mXvyjbMCT2eUtr1jX/0gq3IUuapqp+RcYO2bwbEa4O/hz2xYa5h25YdN2GqNFDNPa7XEkF1nhRIwioIfxc8nM/3fjRRx/Tgj/xk19U5PUlfPvbf/tv/87v/BYGUk3pNNHLVpyh4koBtRQKn1LTiiYDvDIQaggPEVOZMaLIRZ5Ukc7TXYpOVlEyGiiHF1DEYuwkqQNNlz+7xODbERcNxoJaHM61oysqPtz37ure6jZ1vsPwh5vfRmmvV/fLz+C/X+Gm2+0pFohdb4tLG6BVVKTM8MJSpVEFBWgbPGKFQamHiRD0ZqVaq6sLNnguok/mRTUjfdBJM6WAbHukZlZKIQoRAKGHISJHjh5xQkeTo+iHQ3ftnBN68AVEAFmdeIj63KbblU6lq/spykozFuTyrjMMq69Hy3ZsYwOYeAIox1ZkOVn+FuFc8cGJCDg1RhNt2vDH6k7XDNNorir6K9ss5l0EJwoexPEuk2aJtbKylGBQ1KapUVlEA8nVH4p16A//8A87Vn/pl35J6OzB4ne8QqthszF49Mgxy5jFrFY0WdUuo5DlOZ1tWQhAV5pJbZ+3GORE4p//hS+99OIrh4+ccHnsuw7m/Hwibt5/sfSMYF4PT1otoyGXPZs4tP9H+8ShiMpC1C0SkZvfwRSvD1sn65LAmFpIXbyo9ldU01zm+J+VW2V/9md/9qWXX7WuYPB8SzQsUcLCD7Vz0N9OqV0ds2GehOUFD5tTRY2DlDNNiVCSGngKNdf1zPXKDF0kpcRFZrVplZBo1SYItxXuKi9etlR/6uiOrwgKnVsl6eHBt/1+rMRJm+Hl39UG59vw3E5G2u2Tu5hN3+4dWG6v4q2f/fork+UqRaKcJ1QuqgTBP5N+eHsQ1EH4WOy9aSPG4PhLkLeA/4BSuBlAi0hlRQzesPOKq3Cpi6XlOUGNJbD2n4+fOqnD+w2cr3v99m//9ve//z0buaYdbaERidiygxCZOt6uMgrTiHTpABoO0AknzhlGWXFV1ykODlz96CGAlTq569WuCXXRSZNu++du6W0/drAVkNCmjpy3dhq5xux9n13dfcQg8ptBlZbYA3f5kcbBcxd9j9zebIfrXup2hl0K1Z/mhGG6naDUtxLLtkwXWVmemdfFwtKUbqhDjD1tpq1y0Wh+Nw/Sv3//8ZO5MbLeaEVQXGpbT1NpV1emQCtWP2SmJ+PB/l5wcZgOZ+ZN/C18bqpGd+54XDXoLe0rZFE2XXMT6njWxk5ld04GjpsppRxdt4PzAcimc4O5W6IQrFKcQBWKMD2MGfAdLVE6UBPRMyDbCFAO4k1aYcs9f1EUYW9A6CwnWYAlkjNc4aVARlPaECDWJbKyiqQUlhkSph36uBYitaqpXhXXy3/rt35L1kh2ekpqsjYL2LtwwyE1BoxJqZ1AI5B+w9IIR6RKKHY1j8345m07i26lbn2lTBvSpq1f/dX/8z/7Z//M7yKd+n/wyOzDZMbEGR0aRxWlIlmdQ6zKpFmSBlrKolyLJxC5BJYNC9ZtNMiE37aR22jz5vwQRxV8lgRZxVXwJ3/yJ61bsr/wC7/wL/7Xf3n+vEOMOSqGqDOffChfSRdHC9ULn/709158kf/XHLXwDeVp67ZBrLS9Ou6muUtMs/rp2Y3rNqtcJMkCPjChLTY+b6s2f3PZrhsRV3q/tHWv+Biamm5FaOAOOlvSDOjE+PZeQnIzBpvK4cK+0kUxE0SNr8hOJ50ApwpdruYuSKmZwSRusbKq5QlXKrhdTthRbtcOGFTxCoFDs9DxJE1rrZslXKqxAJrO41pK36MNpQxMw1s1FFkTVlRPf8Cp7lYZX2L7+h/84c/82Z/zaig/yBCG06cfm9rZhqU2Txl8RB4vZMUZQrnUAJGOKkM2UDZWmjW5WSe0IAqjxpQ3XjrG73Gd7laF8W07ujvVcBu//6kWBhZQytxUjVDuBqqEn/8H8y6YfHnFyLUf4BGd1AfgN81/p+T2smBMpkispwGiq0gomZimUJua4UdH02kshRzOVi++LadqANWLZ3V6O2POCBwlk4zQjExseuKYRiQeQTGwNowNZvJvul5iP4AtJsAoqt5jR497CuCi1jNw2yM28eGeM/vYRoaZKD3oa9SHLSsujKnJh3VmeRc4iHULkWbZ1kjzABdGml8DTwNl6WJ6qukKyATol5Le2ZV3KMwqaTDnogyPe2wp8HUdP6mqcq62p9Zn/kNaRT+354NORsQ9gQ7EqOyRB3PW2Rv3mfYuVaYhud9yxzb/UBKHGdCsQLmVjYqJktHg2u1BL8RznnA8Z7FsGECz0u5RQBhl2njAzzKeUZ9+iSJFgSzArFKIrSM6HrhU31VKvIZkIQU4eoeWODNEpMHhgBFueoWY/RE1ikc1flEkMv/u3/07W38OU9j3o4oezYff9YGK26HFQ8QhC0fjlMKlTKB3xapLvealvyYw6E9mD8w8x9PqME0z/GMfe/q/++/+r87d/e7v/u6L3/uOh1gAt71efuq43ihhwBOkShH9OkOKJsguo72kgDNqndDFklBqFE2QyWtu5vzVJZyJzh6hdCZFRG9ineuSA3YFsqVpljh46PDFS1d+4zd/+3/4m3+Lkw6e/PW//quf/vTz3fFzr+LI+te//nWBMh2oY75rfPjBz73wwmtHj7340g/4o/96buBSnj53jd7poxXsMNB+4+atI4ez422pw/PBwQ+s2V7/qy5t37adsMsGnykaEl9zUbj5GTjKArLwJV7OBkfapoGAiqSa03MgM0pEI0OvpTMpZvrL2jFdsjhfZhrVV/V9Rrjn8tVWvJ8GR3Yza/CEL/MOwZh0ziKrDwNGVd5hMUadU5ib3rjtWbH+nNqGf/YeunRpSJVyjkO7+6uJWdX6BpRUiBjVK5rFMz5oeV8b8SnjfQcPb17ySbF+StwE5gvUJ08c876Sf/G//C9PP/74v/pX/+rJJ546eeLUyy/7oYLfRR23SmksM4RL5Dx6uKUd0/FQpBwwfvIzz/mhJ4t6NX7pM089pWqmGssVxCNhP9UyUny6bCKZeHambwMZskWkqXcAj6exaQtIZh4lCdBccu08ZNFWeFgp6IQ8d1bIC9ytlDaojVzAr809wWi/I+E6oAW0oJReDXUCXQIbrtsOp2TTJ1UKvVooRN0qXEzVLJvSHVh0k3cUjODGH5zTTTdKyrqTak6cHfbSgnD4abW+glH9df1OOloFjkdqSIM1Ax7an0lZEdmqJ55GvZ4eo8hHU/1TBAeGSjmpaoeQ1XIz65EzEVvtdNwEixSKlCreFiiRJTvMaUUUaYRnilTEB6meTQTzTsw2KDq1MufPnYPoK9gAPbk0nOlbKbK0dhUBhaVEKnKc37QehEWma7RFTWlGxEBECmRxAjie0mWjdNQWkSKqV/WM6Ea8Xql7eaJrTEtRlHah0o6sazJKHMmzAehOwrOrEjlMXZ88j4L3FVmQEBWhGxvVVnN1AKV2EVHqG/3VQDMG0KLW3SDHjEjQ/v4Xv/hFN23vvHvWL2CE0M2W0e4lA/qVGLtvOXosizQgUh9aO2vVCteuS3Xs7nQPz/gbLt1DD+QMBlYsJ3ywILGi+j//8z8vi0cplvPnLx44kBuvVkoMeSmkz33y2VdefePSxctmPoJKdYgi6jubCnmbjoXKfo33A/oJts1zajvlYeeA+AA+qBeAF1l1idrpEqVLZVmpP1N4e1qgHJ3bTTHXn1K2OtNFK7j0jLZUwdQJ9xqT4ji3PGmLaNsMHVawKY1uje8PwABUR5oFK6oyVEEZimtTvDwVVFaxZdnb76fi6SejI0MY3lhVFsVEATAIndqhUBhbU+VWCr1Sf/7P/3mt6VV/GuvLX/5tu3PPffJTv/d7/+HBw0cYv/DeRXvdmPsDg4sXL1OivVxS9FyfIr8ppt9iaW/clgOKTgIsbmZFPnTP3DUfi64J68asWKmT/1Vw8/+2XUKLt2kjDrsNADORbL4Vrw9Y+NkCw5sJ0NAAbg+kqqN3AesoHKWciUiU3QUxM02+9W/TlRnZ4c31Xe6JQXwbGOe2GW7O3dXEesswjWfmLXEMKYoh/zTtDh0x9LnbyO3buMRnszgPIVKl0jUMShHoMqDrOiosDc+hTE9KGwjKZTWMZbx0RdjqKsrBfbenjxKJYAA4AeLqTEHmyo5jgEWUdt+ylV49cOI6AVVwajsUY3S7d4yCh/MocDOsFEPdVlTmXR/gSgHT1JrNYw7fwCrlldIUbfkhQ4nglv12W1ahImwt7SgSXVIoLcIGL48UKC3EpwEMKLWCAAG0Ya7syKUWFVdatgpKAaKqWXtsanv04uSuTXxPZTx59jDGBoJHNWJL0D2W8c8iKcOyQRZSRXYYRlkSWSk2URXt1q5EWcAZRstTD2UhpbAFIWX6oFzv8hTzqaefnF8f5wQ5zWfPvl02CwlZOjVoLVYzc4j01JYsqIkitbubbll2aDMSydU9FpmwhLvh++//+79hhTb1+FGwCUsouDrT4+V33nmP87w1O5i23GwJrB9pPfnkB2cPnUWpG57buhewY3D8xPELPm77/n5DS0OY4MTZ/PLSD15il1crkvVMlRsoFVTUtDWVyoJGXimgofzNwgFVq5/IKmrc0NVlcdZiGRq3ykqLYJi4xUSRmmt2lSLSD4qUsxQpTyxXdbXEMkjrTwXheKTlmTfob9q3Skovrj/oou0klYIDtjCg8LB0VrSd1tTb1d0K5OpNf9bQXj5jQjMEpE5DfOr551w5WaUoMSNpCJdTjt4YIALup1MWObdNho9bKGp1jNwizy+6UIDW78svXKXP2qQ2u5D6zk3JEKf6qzjRmPXBUt3wSpWqRVt8apQprnd41ike6lH6If/RN/P2xPCPv7uq9mW+wZKNHwP9I4qTG9daMCn+3D4PM1UFJSiLWHZFKPg1DIqsFA5B5HSlpmNvlhN09SmP0LduZVNVnKQKijoYfKm1YWo4yowHQw3F4Vk5qIV4I3L5iQOldUwfQodja2eCo3S5ohZnsnNti2E5gF4R2hDh2MpJQ1VRjq4XytJAmyJZdFI1JEXHVs5qKHON1pCJkhKv1CaOczmGSEN5EIFswOXFACX4EaRwgIxfrPiAaJozunQvPC0qT8WjaqAiUCKtXdmicWdtgy/BIk0bgXKqI22lQzx0MasaWn4Uadx+4QtfgBhanlTxUH0RRcx4M41Wg9ELqR7ETtkNKbV01k8MBOsSCgYUDA2ILFxpAZGgFE/FhQWuFJv4nzz5jKXLYYdvfeub7rF4yCVf+BXJpRbz4Ol7C1p3Sj4cJvz82XK1AWe54k/BLGZ39G/9rb9pUWHdhKXuECnPzRQuos+du+T5uedYWhbd54zdI377O991Af6Vr3zV1bqvz3PJD6VZ6uaVT9pym4gNWBTxvzbvmBcQUQKsq84KjqwiItICniKII7HJImJGBGVoRaqzxKbo/OEYtkWpIaYVwYsUlwKUKiy+GOiZ8k378lwRgKBLAR4QLE/FYrqwOJXwJAwjXhPNim39kSW1RiVZXU5pO55qLs0VxICygBIz2Ne+9jWXRyZ3pRqxOi1OThgZDrqcvd9OMo0h5aRYkVIl6zpPFlgkHMOhh8LcUb38so46i19uQ82PUgHwobblwx3Ine7dUbSToQSkpaaD8G3m56xPxqNJ2zYgImfA7gAhQs19765qguodW23jLhVpvEaw62o5eVK6okK8cw82oaZs9CWTzjg/RVl6IBHPXll6UvulBuCoCmjaYdgczIvWAY2kCJu6aQOVVESDWQyFIGgnliryZYC23IQpp6f0GGRp2eAMLVw94R1IkFYKQ/sZVSisk6IQmxNfitrn6jypmJ1R10ox2jrWk2qA0yCtOFl0Wbbw1yvi6CigRbKtPsoqghSX6nz0dLeiUhnTU5FqoLmgFKfNwJHeWAlloDwEW01OouCE0FNVu5xVglK1mOElFm8QKCQrxQYUrXQIt6+msbW0SkysbgUMJzdYrhM7VzLhYJsWFyiOOVIB10NcP6IYk5jZ0knw+9ytUqcJUGgGTNTJBpwhPigl2yI8rVF9q6slYsCGue6tFN2qQCE3fvqnf/ZLX/rFM2fe+o3f+I1f/1f/Kr+nacg90NjUbnOHTTMNbIE6tizeD6FgtyhT6TwRVEfKL1+68nu/93u9GX355R9YtPjzrW99ywThMtxgEU8vWX355Teste5W3YEJ4F/5K3/lzDtnHRh5/vnnyKJcvXLt2HG/UJ7fgL///unHTn/qU58217z51utzgOVdP4Ov2+14dZ4DZOE8lILWFyJozaKInhSgtFGkYBHLL1t622Xxl7j4K7Us1oq0ILyLAU/jDEGXgtZipaVLgcACyFwSyKrc5soSf4u4AUc3FQx7mCBOooBRs0nKzyJOPNzTZJ0KFIV7uxIUWbJKv/Od77hWMO+5tbITboF54vH8KkObuoF+5PTD2k5Xd/HBss5LdtzwyvaLb7/9plsugEKzaPDBSHFYVI/1rj/6QcNLMEHZ7P4N+sMl4tD1v+1CKB8+nzONUlt/s0TpQQG1dmflpZeHHzgszZK2na6Fheztja891lWgHIuOAphblC2Sb70omn6QdBhXcruPVmELyEKaQhS19zhXA1e3DjNFEFXS+9GnPll1MUuBSjaUxTFjI+WqFkWWqmWLlM97oixzu0VKFQEK61sie/j24EHUfi3Fhp8e2aUNxakKaTkpB7IAgogZDimuo6C0iJKlZ49OIi3FKQ5SDDyBAKWcoXDxQNBRpOboWJ95oTyoy41ar13MsvmGz1QfsXWsKn2rzO3cVFErvHVjWVxurKotBuLwci73IICqCja7m9ZQqjDLdpVIbVUZnIiGK8QeoGFpnsXvpur73/8+W+5pFJmIbZKIm2vGNm7NucPQQyxXzdJJVspzYMxTXq+ktEnrWHGcjZtU0eppeBSB4d9vHrGJq5dSyAeLAdz9n65p3+fA4c0FEE/MVmTZ2Q0mD7TdMl0H9qQrpKVvsypjBsxMxDdXUapvyXE/+vu//x+0psXeCQulJjsXtmQFxxnCN998B249QxdSwaHw2U9+4tHHTv+7L3/FzyJUwYWZ1fnYI8cEXPx9kcTlvInZl5jfu3ixbsRn/2t0/3RIAVEwPXOTbvmarSG2QEsgiIUhhy5bOm8LpcAh6rX4UXCiSDes2yuPpaT8y9yysnVt0+KyuoR0KpRuDNrKpj4rQSktxSkrShrU6CsCBxrXs8nKYgZ0NssTCIrGggM4CgZeNS2CzjTcSoNh1OZiCK7n+6mfDu/nhnrUl7/8ZV1Okf7/+7//VbWmnCpXJ1pWoyvVyjykyhKle7j+i1p71DOl1BO2MiSsaiarzYUlNXfCttUWVevB55zkLHXbWdc6BHgltVwVjA7ZPFmYtmojSjUcHyBVm5P7y8AuovK8BCWKEYALqVQ3KN1QGuRgzjWme6XTtEi0iYisbM1jKKXhrvKq5RZPLA7urpjgogogKhVidRMsROsWIAimtnkDEOWKRvx2xUSBuCIa1GWGjLo4dJXeUA35TZJnUwfjoTZziqr/1ENN8NDgRAcN8NYLJcSpSCmUpyHnSiqcvo2zncgah6aNAxwPHECapYdCFKpKYWJ83oROFs8I3V4ay1knMei1KLK7Oknl/NYsV7WrFNR/JvxIBF7AMJAocTNByCH/+IY+ePcq1TdupK7zSdb6v5GeP7USuwM836WUHwWdnhYVqS2UaoNgbvVRGiIItvZbj0yMMY9YuhlobcBskxBD9+s1DcQ1IykbcUopwYaoGzRoNSca9aHewgEppXvaom5IaSsPK9iaQgA6/fH8oBUrnxgWbOuW+cty9cILn7NauLmZB87GTs6DeOe3UzsjfbsdZflQN1q0J20nWsTl84bygXc0u0DOL5+459zHn/25n/OUwpTkXLvtQau+yctYE0BTmFHjCAYn3aTaDLTqv/XWG1QRtyX4zMey6jsA6eystyz++I//uAr+3u/97uuvv0nwwDEvYzzn1Bf+9Llp/biu9XXsdgb+bVs8lfKvfWP6f3zeli56KIs4/aHRGE21E1vaSNoWGTUtTz9J8XbiS4tsQQNt2mi7BJLBEDcGqgIK0dypy3bwtg8k7/DbjNwWcUOnEuqmXavaf6Q5UGjIqPI028aMP4THLkNyuwpnMMaB28yDtRI4tYjW1I4mSXdRGae+Nvn+zT/61jetPW6zPAB69dWX3XupmsdajOv/eoJ2JNsFFcUYkaVQTJz1pNRCIXpMqwuAaHffxObunc6Mb0Nbfg6Cnrhh1k6se68pheZz4NQfvPO5OyqUtoX5FqJI2joSF55qRtwsPHd6kByOMlWADKj53VKDWjZ3se6yZlofuUxn6O1GDHMXnXgbr6sOBoDOjVlgH1QlAxuzLDpmNdES2CBGhZpwA721FW502loR+pVWp1S2sYbUB3ujOMtTEapwdnWks0bxIwI8dbhsKBio6tzUgPIWP7pSY74MiiAFdG5IKUGpEj4AsuVUhKcUbvCnnitt6MogbX0R6WGXSGtXtfTXmfrmXaqyvRTEqTo6Aw1uOyKb85XRL60e1z6hb/sHnXCw5uJml2nqVh1XkdL6XPEqZKK+bRybaGAAGBAhNDStKik9QCkeda8SFKoMRSuTbStvatBDDE7dg5/SirufgGCTEpc1qq0W6m4upg1xwVJeT0qvHqlSFhUxzUNWMMhWs5Zq1RRhWES4Pbn2ZAwcw0BQyoE5K5h7O+eglZoEonBzihpLehpVgtJM0ruh5elThWEe9FAejeU0R50XH68Q/OW//Jc5j2JBMkO5DJeKjPnLHRWvvvSlL5n1dGMbTRbUc+/lyZ8ljchf+kt/yTamzqP0L/7Fv2j3zwbjm2+e8fsOftKjoR548Cj9QMhUYPNP46p1s7v1UrWd5WFbhfk7wyQiYAVBO26ziYwuhGH6lQ4a5i6KjZjiERdGILaFZlUnI2GmRVEqgxSR3IiWcZOSZbGgBYlLk53lyl9ZoOJdoujBkzjMUKr+HNj2OlxQD7k3/5TyoSbgBIcl6hHDP6DIXymguTdJOpU5UJeWdWKCNcMBG6KbKjt75hW/7tDEXLp06Yap0kJlfepMZamzSjnbyaUsFLOJ0rVKdRxzF7ha5Iw7Rj/M4H392abtfJsuiLn0QWySOSydUGdlejBn/PI3b04IDpFqB9VvWxzJ97pu31ElBFugNovExHkzQ4lO7UGKN3aIzc7vzqx7iRo9ZGmB0mPQ+vUcYzyoEikiwTaGtHQiJeJErBLziEnH68mn7eIxZkWsQEw6dYBsKbKgGlA0AGZ1RkGnVr8phWYaEOlkueZkIeVR2jhoY/oLSvUJ+6cQQcBDvN6i40EBTFfzBvc25/bjbTfFiacAV0oJKE62RejlhAiaimhXdeEhoBwnJ8usg0H4gw2CoTpbKXog0rTdjCNjqxowT+e8QrlSP0FD3wVSsnxQ2voSgTPUsYdYK+g1VIdlCSqC4IQ0Sito5a8IXKipVUEMBA0bLqkFbaD+FxENFZSSxWAy1Rnw++UQuo017Ws0MkcbEWqBIhvClJtGyQKPuKxtimyI1dxyhgM0S2mgx0huPFG4yhl60DOwr3rla1ZNbSEm8XUuSLFhphBAWimIa7lqiE+bn5eF8zOf+exv/dbvCELcfsCbTW7ke+v5OFPutDA05RaEBuku0oyCPSe1toz7zAmeM9U3P7o4dvwoz90tqThtbqEU2cqz/Iinings/1M/9VOe57kC8GYEDLxFF162zIb2TskKXW9MBd8GrC89unvBSVsqu38/K/GqsBDV2S4krG+LU8+pQgQ3Iq0sllK2dB1ro9Iw2VEQouFGfpaZje5KYePVXD1kEGQsbC1jyDvmc+qBgpjfIjrA6nuKdvHY2sKqhG6WGg1sC/PXlxwnO08U55ICC1MHH8hyWP7aZQKiG0hrTil/sZUuvHBFU4ngOiceIq4k9DSgaUyADn/6DCc2EymKp1PG1PnzV2z06d32JtWOzitXL+lv586n7n7ujNIoZJzXlt0d3iIzhGdcSdZDH99fzi9SN0EbV1M9S0wrJcUORBzdvQcf/Nq140Vq79mAtcqqhctyLvEf3jhMxQUkXqGITbXBIJv5DtMy02IacSCqwKgo2S1O9uLIto6lwjG2pR88kgWjglL+4cEAOgXUMy6Wwkr14zx65LgqoCs1VMqDAVAVFTN9VGH16C5KUTA3xUOhFANPBEvRNEQS9W+NMOAnW0P6rixAB+hSWfqrhwP6h2ZWRCGkOmtrRLM89NxUZaNoQCkpGkBNSJttN8VVHmyAxZY2VVr6kkJHbATqFdO84oyi3QraDFxAfEE5dzUrIrs7/dU6TiA+0oqTYrRZPiDWE3Q4egWjbZZMdC7B1QIiVQQpQ5m1fptAk+GEY9N2BqEGavVlXUKqJqILRj1eliemSHNuRuC5c5YozrBIbf2REtefa45dPLWCQjkcz5p36GdIESn0VrPaqrnOwBFp4wCH6cGMAgfwgt/kNCtVSlseD87Ht7xd4p//839Gj9+I6qZtxwj/aQATbcogW7AU+fGy45HuogRExa1PwLk+l+SeP/29v/f33GZZrdVRHKQ/eOUld2BwW4gmFwFXU1fxv/u7v+eHnBbFy5eca09XNE/I+mT8xtp0hq3lP9W/NKejprMFFtLsnWlapI3SdDGPhtVeEO0l7ZUKHY2behVfnBtty0qdGW2r1VfhLlL9KFUl29LbmrfcKGDxb8l3/HUTp3UsS5pGz3cXpf/4wVwPysuqiAsqPFTZM3fAR410PhTpxok8T9yG8Q7198/MZYObXGFVlZHO2k8nQwnO7ckqw2eOo+eH5J2HdTl3JQY7t4Gs7iTIvJK6qDFh1zZvKdzQt5v/GZktjrEd6BgmIwpShklKHW7YjSNcK5ObQTv7nvO+ohmUubl5+KHTNCdAs6J0dqijJVKrCM/We8tbDKGDhWDGs2DR5zmKmlqoN9N3fWaQDlO6f5rePxQ63M256EoTTXUp1G38cizvtJhZZp711HisX30/dzZAKSv1mQk42XqFu0V1r3qaLllZpSW2Xs1W4a4IVRhKl4Jy4gGKmpXWq/KQKkMt1kRUTW9s07YIgawq4J+HdHhjDiB6tue5FamIiJt+Of/I9ikonTHt19DTRtqdOCLAo6iqtGazUTNQ9zqt40FDKWK84VdUHgp1P0UWLf3Ttrv+bUEq3bpinwqdxXpOnKCsyZQUYunwpZB+pfQgduSoLB+miyVG8MYEJ/Hpz5tol14T2DAs07ShqGk1NAsfF6Zji54OJlh6dV7MIsiue/Jaa7998e5dy4BRi06EnmWLkgL9W/Qj/KVnnLIZnDmFfsrdD/3Tf/pPeyUunu6u3FFRqvTv/J2/Y45zF8UNFh0RUEsX7++9d9WjKU1jjafKL0+PHX1PT+jPse21zMNaY0383YBOwGV2fa4fH8H3Yb1TagU5lvbA3ZRdBp4sZ8opEDsXFngb4RVn0VjE2/i2L0X3Ugg3fTXbdKtZGMO5hSpnd0u44+9yAMJim2DLcW8RVxOu0ii0Erjg0CFt9tr9s0Ore5PlSMeUcalZjRHKvRXAP9+SvEcYt/Y+/K95mY9dqsqZvm256mWKCiaX+42cUjtw4OTJ3Et1uTJJ87NLlGVprQUZGnPx3WE1zqfWiFIBgXSM51PrlIKWSQv4VE+nN24h25ozkUdKShW1LbULCjZZoenKmbh7+9YH3D0ZPB1AqStZY5OjHHNCxiwj7Iy7LXBRFh/W6kqKTJ2RdqJhFLSoHnZZpY6HUpxtmJZySaOu2mEw2SHG5NyNVZu0sqSWIIQ2sSYCMPABhUJg9JJqEBt3WZrVFU9l+QlkQTnRa6guKR2RWRq2Y6AUIi2th7JkQQUp2ZqLfg6gF2qxnChdd0Z0G8ypV5cZC42iGmI3MCfT6Ky2hUTVGKppIgB+9VreuFPAA6FDWrxurFL8y9zSrBSRlFLEZivOSVt5nqkIuAAaja7rnV4TfLMt5kIbAq4zmIu1LJyeegKnjSp0LYhehvpW04gLGnCydRUdpUqk6NJKlYc2+ktsqrQg2yIImBeVxQ5ckwFbcGo0tY+54dpEANtWzZ/kL1UbsezDZRVEsTR6HCV0bkPdTgmjOy0HVWwiCb7rcXOay77x2dPWfMXR3oRlzHtbnK3wpNzE52yL18/7RfZ/+A//gbguyVUizLFyX1+XP3s4fuhqNiBqEYS2Co7a25Xdo1x2j36sd4rsibOKtC7VtHBthnK3IeLRsP2nr2xcmICk6E74EArlehSL7VdxNJWNfGxsVRWxJhkUWg2/qwpXHhYqXRHRlKXU2RntazjMWb+cIaTNLEkEtBv7quS8l+NOFz80x9z4snFHVFBofj8/r80NAx90bAMtR9IPWV/4krsreXN+fBjAY7QO0RsuEtjK6nVFpFE719Ccr71DqqqgJusnJlkTNARTuyDtbLOXeZ5VH+kcwGO0VsMo3TzwoApx6N3TjDLimGfVTdXGqLsibjnYZhPfhaeZLhvK9afI2M3sDHhfvxUxAedYKU3b0rvVQQEonCHlRdMEq3PcS6whLuQhgB781Zb84LIAvQwNFEp9QCyCIS9hHliUVYofHkXb63FZjslGcAtTvplSy6CkNRIBpaqMDjeDo8vqENoLWz0vG06Uze3VdqQR5CsprafUN3tqWgrqSQNVi1JEFKXVT8HwbhwWyWalFcEAKX/MTZXJArjhVCvN4pySJKqgqA3KPUUGnnZB9MiEoJ80Sj070WktY6ZdjhmQOEVAre3R8wc/Q0stHINSLilqab2SOrqHogjeSx94A9gqVFBpgVpIRSrFB/pLbFqe8ivCTAniIPZf0i7pKfsP/vRP/7SnRFYR64cLxzbiUoKtcDdlW3Lfv7xqLXhHXDwF1iaqxeaFFz5jjcyh5yNHfu3Xfu21196mRTtY5b3vpswohktErrjN8gqxG15D12OEeH0kBf7cc8+bkl568eX0pQ9848rp/yN+Jqya6pYZHExD/An8j+x/SuBS1e/xjfPxfxprN90loi/xKrk7bee5m74Ei1RtFRZvp0LRc0Y8na16IMWlYm6ud4+uTV3AOTjjYs6qoA9reuD57uOPP/r66xiPmyi8ptImktli6qs3Gr+3x0j1/zDp9OSs3fOPsijhj8WHUR0G8EHXck8FMYRXigG/FUSKzVDNF3lsgHlou72OhxgXGZfzTl6jx1QnJhQqyg7JGmyoDNNFb+W3IUvzAIWccanleC5mMC5muIqdwLhJwlap8dz5i+3lxrRxbeEZtxI7bjFKc+eFVkkp5cMTQ9hEHFNxPPSMVLxFhFekiFIjv2vS1lb0K+XnRPz24a6yUVLf6AFLj9lQRUhhcPlZNln64Rmom43QnP1D9Ps2FEZpWCDbaRSl/tSHZukBpHYdKL6cly1bU/QiZWtAiqOXWTrI3jV+6YRwAH9TDtBT8fKgAHgB267bLRUcRKC0zIziFw0pHFFpA1WessERKwgXUiBrQSJLUEfH6Zf22ATWUuQHJe60DEvbg7ovToK1gqFKiJAFEJR2J5XiJ8puL6qsIsAuPZUthQYM6ACFnl2FisqGXjZZDOUp0rSccPo3nL6YPsu2LuFg8S//8i//o3/0j6zKjhIb5fRg29VTx3Z1fiS8bboUWqi+8IWf6MkUM5qp5MSJbLSKrW0UXdimw9TdAFTHXAOJsYYiQpVGMaJFXtbU8fGPPevl3B6Jif9eryaee4k/dL61bih2hTaU7QzOOZFFvG+UuLGYKRr5Pcy72T2qbhdt2zfOjMUiUb70496sMSnchY3bQ7qtc7K7RQjLgbLdL4p+EuHmSfNZrgApuHtfqS7kYsLlCMTvJSD/4l/8C4OohhDh+UyK+6HMzen2HwHmh0z5sNfOhiJX9Q39mfWC4QmMaCuooVfAo2vNPU+miA7SIsWNXStdK85PXlUtSomH9D+sMrsjs3o7j+/WRK+gzt0VkYT1QJ4wF9dMg2SbzzBXWrU8zlbnFlxZpn3zsx6dLHv6U6qVrKfu2/YfPZJnY3w1s0jtTbnN1OMswpGidHuflNK8gyEPVxK8PKDKGEsNfbT7/etE6GQZo9jm7633vVf9lkuN3rPnl/9O3PqTNy33wIvZIg/j+JZJY9N7GG0NqKJfrTs/chVgizMD2OLNEFcKIaK8pdG7FaG5gotZETYeKoJLFdUBWXj1SHkCELs2QArlb6kTStG/3a5R1AGgcTHztdrgTIBbc9CpTHVDER786eVz6VBO9GHbbARts3EeWzkxVEnXCZVKf5gQtb+1Icqmo4uqw3suEYwxdxuMsuVMmn0n86mfCrHiAYxFS+2cxyVuPCC6ksBs2jV06/zyhyfYxJ9d2priQcejKL4O3lTRquCU5GoJRUoWpUrIlg1R7WQBniKIBQNZ9LUkh1HWrGF9stXmjW34/8Jf+Av//J//cwwXL1zo5Q7O6vkTpwyRrT/1WUprb0bFyhpjQvFLavd2brD0I77zk8jUOlnjx36NM886yoGDXgtyw33VsaPXco27/9D5cxdOnnzomWc+bgFzMaHtVMoPGRuo5Xl9aLqIC/nwmt6hajcmu3h1bSO/NG+QRSfin+y2YbZyabLlXhsaBbLocL2k/NGww59pI/PZaE4RTZs+UP5WcIc2s9VOHhueO2o6lLbanYwbF/pHI9pj4JvniAZLrnguX7bxAPfbbY179eplRXYm/uE//IdEcILpBhy+Q9VHyCQqG+AzhV1+HjiUM35dooo4/WewgzG7EYNzu2OBlgZHFl0M+OamCz1B3A7DlqZrza6YB2KKCdh+wWpicrIwW3Zu3ebWxxJMm/+jyJ1GMpnSM12yjWhsuE6EoDDDnFlg4AO3hHnXflYEm32zCOTRs/9ZFbND1jzapL6z2ZqMhk13McuoMHrHedt16rYzJ9KU0eRBtlaY5eTwoSO+bOBgjE8WuOHz9np+7XvAvJtqZ/pI1DjMSTqFiedb5zczODrQAK2gVDMkitODpPgRAYTCKilFOoybaU4pQMQjLV6GaqtULZaNY1W7DCmtCalSbKoAZLt21v+yKa3+DLPq3RnhSydZP1XPpwBMP9kufeDmB7llAYoogdQfZbWLAm9RSmdVn/ptKqiluFeKtBUkC/ADRBqklBRv1kxq/92vkQxCNbJKWbTwO1dNicc8NFsYjECIuwQ3B1oHJ812RRDtdPWeDIUPNQ1RVJ9RapFa+GSTKq0Il4RUQxOJr1P9YdssV1WFgpMUQCGro+rD+mH68zQ0otBOS7EVTnS9MUeB5wrD+8tdDqsFi7/yK3/113/9/2dLnFTkCwnvHXPftuCP/5tnkBnXXWJdencE7fO70LfPnjGyL1+98vSTTz32xOPqeOLUkauXr9qDcZ3pNpVNXwvR9k6DHt4ndJlfxPnCe++prAs8ldUQ6XyHLsGfe+5Zh9Dsav7xbv2pcEyjcC/K+PqhUUoEsJVHuqQa55aOV23TFf+FKNzFh/d2IjLTTTZdpbjiNjekTbAEan9l9yDES1nIyu6hqIjIGylS65PmAG6qLl+59tTTT5jOta+P1GsvW4Xuhmd8L6/00feduth+3eOH7mN+mvWAdWWzlWIoGSscUNkTx08ZNUaf6Rpil7h4ozrrS1aQ8hPh7Ypqh+TMxJl21pxAbaNnEDWehw76qYfnBG5rDvt9ljuA/NzXcnXlfc9y3NOYxPLIiuCsok4Y3/AKwNmppGpz7Wzv0fvgOYrS6cOJCoEWLD9AoH9cuZX7J9+Ryt6l4FMYnfDpOam7//1+gBLOeURXd/nqpK9lRpa8+UaVEKlI1G/mtfbo6VS5POTKretXLlteb16zgia4SfPT49wImic9Xsx+6ezavX89SynLdN64lfczzWbn5qszSl00qBc6B7S6SsHja64R/I2gWfTW9fiTn7uZv51dnmgY9FpFEPKQfV7+RBlxSviPfvP9D7ykReNpYHqEDk2WxTYnIhPFhQUbHqbxKGr8aZvq+xuobxAMfD5sBcp8muVNnPk8Fwi+gTo/YNQKdo5zi5tfYFy/dZ0JFQH8BEzQA1AYReE5H2QVsaW6KHCl0rEVx4g0OG0pI6rEUZbmo4oIPWrn3sjC07eqN8ge73/lK1+xJim1blmNIIAUE1S5wVJr4gClPjQ+7C5bSmVJQfAIAimlEZslWfeULRDHAJYtgqA+Q8iyVcEQc2Oe1jR8cmOfPklzrCwenz+iXPba9asrOMJGlXde+32mV0y4QXz8iUd/+Zd/yZv3/vW//tes6wj6SPZbUpfMyWaU+D9vMpp9AB2bTetZHL4nmPny2hJfazywb/Nm0ozTfd/81re+8OM//tLLL3/hJ77ou0JHjx2/cPlSKmCF0w9U6IN9vjk4Tzf2+5xZaqZvT8fQUl7CeunqJbdlV29efv/KzZOHTvoi9mNPnZbNmwZ9m2k6RtzbTtYZ4bKqUdIgGwY8829VgVgkZ1JIu2wLQlQ09InItoTm6Y0UbkkbmepBrK1Sq7LaIjjUpONwwj0mzC3hHKImzA3yvSAtv+FKK4+apH4Xvdh372VEpzx7XGo29Z3oFcHpCbWOh6a7tf90HtMcsr4JYokyYfgl982b51x1+m2HO2Krilpcvnr92VMPGUTff8mbSm5YSnK04vot70afK/u8gi8fSFGF8XzrcH5r1SD4nRh0OmE9yl2H8TQ3SBkObqiMGgPZB4chJi740I8+OO8D1P/idqbfQ75mYpgbjyprqt5MoPNcmXZySo0hFmmgB2IsYM4gnGkzJwM71HGsSMFPnsy0FV8HILLGSx6PZfhFCLEjWRFf+YFCtvMCYmVRrCYeb9Ukeka6VSLP+bNlUYrVDd4po4JSlOK877xTYm0pZ4szvbcrgxTP+BBej40q0hpUIQfMuaVLOSCm9UQKMPC2fnfyQtQYUvwAQgrAsWGGR3C+jwdPgLY7TujjZ/jrHoSJyrYueCATmchSWCstrba6tPgpIQWWtorIFhQRxA9apJq7WQwWFsy5MchMlWWmshBAqkjxKpHyBFDl+7ElEgfwZotgoA0dM4osPQ1F2VAUaVxBtkSZ73RZ8XSf5NSZByR/7s/9OV0UheDM41kpZSkBNKsRSrW1iE702kKBFG8VmqKDiivlQKtTKzRTKC0zNgAnsgwlO3TEiWoyW4ZOVUktaZaILGYz3dCpa6D7IB+jgMjFS+9deOOCB3J9PoQzVmjPNJI3jwBhQlwfUyWlLAV1ItidMFJ3kpJzNWDJueCJ7LvvOoejS7sgO3jtam6yKRO5qHZrpS2DZ+JNQYBjEKlaeKO8VdZsYMdJLcXPzbDAv/H6mcRN04yH8S6XgIe9Pi96/uNhhl5bocruF4AfxtTSo3bFU8eBRLsR/lBFi2ch1bOypHdxI+Se+pYn5V/Wd+mKVhaSS4f5rb1GZMKFqGv94w+funL12sHjXqfyvgn36vWbfhuuNGNgtsfgumNUJe3VfLK3obXe8TMi2+ygmfGm8242ALtiIRZsDBpNpIyLB9yQeBHGoTw2QmQFXZBlObRLwYzuKtf/HXq04WEam60XstGPREULiiy82SqtlnZCeA2vSqIAgphBccohlICdCierqLLoNbd1Mb2ElNKVQvDjBOhFSKmL//MyjdGf/DBUEGfpi8iECwJZiLkPv6hhk8VZi53+aGipYaxbYNAntEp9WwohAGdt1VxxIkWkoIYwtFVQanH/fPmXOVl6AIUtai1kR0H46RRbWUg9XEVLHKXaCKYhbmQfDFScIASg4IQs/QuZ8kQDM2K1tb0U1WJlK74EEeHNLs5mpaqGKA4UApT6IKVcWKQYjMAOQjdVPvXr4tEMOz/Lzy82KNFw3aNfLUUVWC5RvnAKm23EsJVS4sglQVz0IgwtnjbKCh3lc1+Vq9SR1RaWzDqQRgdbbWKYiMlOmrWK21TRqZqumYxDU7+l2qMs2QjPWvuBjY+BuscZiNGFRhsQUJQsDB8Fbl7Ppxr7zIMDguxqQFad7qFGVGfAs8kBRsMz/VCLjEvxBM3Oj9VLA128kFfY2SXIvGxcaIttE9xD/0cnqTKhph9d+g6JPUoSUj1hOg8Dm8r+cbbaSXZdqtpFv8PkTmaP9T3ZWpd25JJb/iy8y5WO5HmVTqUdL53N1tSaqTQHcc968XT+rH08wL71bZ0T1a13aXS9a0o30cY/o+CDBx20O+wHIdn0M5aZcH05aX4QVYq3tNTc2NlczaNwppQipTDasckcoARgUEpb/JzhoI6QTBP+lCrFWo3CvSJeCqXDPGN0OGuVOMBcq2zIMkyKSQgpYJZZ+lkpj7TEXUqLOqQXG/14qlZaur91csWibmDgGxxSYKXuEawe2V28DmBDrJLiWqLbUxiAWhCkvPpxIjKxpB48lOvlZqWAHlC2FslCpEppGK54RWeJpZd5cUIANiKg/hOpOKRBwKOonCiW8uqUkl36MRBcXskW+oEVeNWWR9qmLI9s9ZRtDy67xMsvXTwCyHkUpgFVrYvJzsrk9sJSZO6De/2Pc03qgm2342qR1rR6aMYgxYmyrNc0/aBFLZWiNMVs1MEL9QexDbEUolQEBQ6ygzyVgreFa87MXIRCfR6/GM+/hNqwQOkqpZUsUc6PmHSu37iq1roZ2abMqSMRFKpIwXm1KOhMo2zOeBC4E0gZhHfSeBoCE3zgnieFfn3l3ISb2tucarRHLnVMtZbChOvmDQ/e1MLxlnqlXYAni24T3Rzb0IzOaeKJw20LPzwWo3fCBDykIo3DnSw/VG7p2eW+ba52p91vE3dZt3jivHVmj8492UrorFvRO/6u6txB3Wb2+CALRNVo0k+MDm5AsOtOjz722FYub8/yTFGLe2DCRPun0prTRYLMlF8itW6xk254lGd8gXY/b1Bym7S7XLHOtPFLBJusboBCkFdUjfRm5pGtHldmpZOqIBFg6nJHYVTCMasjJVJS2DIkgEz8Gs9Q8eHGB2T1bIjQQCyl2PADgvDyM4CBIArt3WqTtebXajkxl39dSDKEUlX1pEZLRCk/0/TAC9XJO3T+VnwZEq8ypwJThUrxAT+LkF0RnhPZJRIvg+jPjuotKQpt2BCrn1pZodi4NRWBKy2D0oIeA6nO8svivHZzE7SqQiTICp5qaJyFtNkiqdV40rRqm1aPVBZwFQ+pZV0RVShlkDaLgtPvkJYGdFKFxr+UCpbuPgOC3iK40npVBtqAUkQpHEPTClaEn+6l+jY/DCbBdlnDT1YQiC/ZpbCGZCGAfsxSsGu9DCVKG0MMVYgCKZRYl9BbVIQUcHKPnPsq/OhjdGxvahcnS8/r1Wa/kMFSxFB1Ll58T0qV5cp9FYSIIghFhn3r23GBrucYLLLoOLGVuYak9wWO7lRNT+Wax2xdq4TUdfeXvvQlVwbeEqLKnNyo2hWMFNiq2o5HJAcBL9joHAZXGBCwnilasXzIPbvAMzrUbfT86SQMVRHkttt/Krq3milbVj5E8R7rS6SNtSu4KZoALvriL4W2pbBFTRdddjEIrM6Awpbucf3alYTalZSh/WCebBlBngdbsYI/kOeyOli6meuR7fsDRnN67G3N0w22VkKvfiMUon+yQrMJEyB2v4oDGQt5KhYPSVXQ+QRSgHWmW01ZpXUGBT+dNFBog7Pb3p7v6PY8x6zUA2ucebolU2F5ZYTprepm0TFQh3MWqc1Ki4i5wLYsToJwgkDWYEs1trM/hAcoFFUtqcIoNysZ25vwoeNZsGUMkZ6mXBiDVAbQhdLgWctD6ZjrUn8HVluYRYTD1YZzeQJpVa1kla1ynOXpcguntoJlkyJKEUuRXVIooKqa2gysQmlFpGA3Ww1tEapaEUhhZVuRirNCKo29nT1lW6Ot3OYvzkUhq/nj4pZIqvql1Y+5pU1z5HLqWyXYIjzRZg6C3upgg+tFiBUphQi6HSSd1SplMgUt4v9CqlMW0XSPmVpEVlplSsosC19WIC2CFJfiqasqBSdID8DZyzLjELG+VWF1lqcaUBS5xuVSVM9+2vKBZs9wjF79S2/RId1COXw/JyyCM4SBCWAYApWyOzeq4nNrKjJkpaXUaF2qrfL/kClxdkUYv7Psbq38jk2lDEraEDFEVYdeQxpqaEBEpOFBOZBf17kh5oxmNe44rNJmNDpVqqfblVbzKPhoycaZEdpVgn6Htx9Na7iJ7yqvgqV26ds1uoi7yFKykJYuwT2IsC0Kzl38foI0F5ZdWYJiXrpRA7lx/S2R9yRS43r1EWYt0k+aQfDj0VlXz0HJJgE+Sf/T/ukCSvIHaERWdEsapG3lUmRnrXIVlQVJVtO7HFKKDhBpcMa82lgflek8fMAAKeAsM7quiE1HMmQA2VGW82KjbZTi0/OSnzuPCpCkhQClEFnQQw0ocW4A7q8RpRQzulT1mjWzKK2GaqtnGCreUg6gA+LwFqlX4zcUlWRx002ZGHYWM6pJ1XOGMMsCDHygCgVAZBG3snmzg4goEhFFRMqGAdQxrwKP8OisLBMqi7KyBBuEiET9Rla2sJhlcYJonFmVRxHYipSIIRUYtS1Cb7ZVkKKXQidP4NG4nakRS9Ely4C/aqWlSOtJU1k8BZQFKPD2PxFjAicYa+8f9H7TrfOIxaUtreywxxakAa+fKDwH2NyFd0JX1OHRZpXtAMAM70rmckQpbRVvkVRYpABnnakDKJBSpMOSJLh6zNkHT55z3gSX6jpwmjeEpTpRNlt8stbmxlzHcXyvGlCMnS7ToUzV27VSBQfX5w7J8yFglVIF7jleYZZ5+OHHbcqrjupbrvhPFcAjUDSroOobLGRbJCUeQ/6fKnDsbjA87i4VA3X1rTqhZsLYhLgfEnAnx+5Wov6IE4RETbgbxmjOIaZ0DA/DrMAdfapw8dZFOKQ/QrCYMXS3J/ew9cORqqqmK7EoP5yC21y7SlCrZ4822Vb5ttiHYhW/m2XZ0ueWzkWEAFJNFyLbnrzrVdtcke6ha7mOcX+M4eyZdzocrmnVy1f0GXu8Xlgs/mtceJLhHw9wtvfPbVbQXH/4lweOaeWqmlMyfUVFXuxkEvD7Jr0F0GlA4IQAxyv8YopUcKerby9XmYEXVLNUJ+G/2i0NeFDcZaE0RCxiA60+hpzYVqzahoG8SrKkOJ7N/gONHSHVi0fpZsBMfFf1KshkjeHHpmIoi0in+rRIilMR65BW1VpOihWl1dwsnkq1iBKlQMh2KVzthEhhQ7asoOB06FNKvFGoXbWW7QTBHBE8EL6Nic3UDCeIiFMo6wMNKHUSQ8URASUr5Ri1AA8QFqmsM8T0TEmiUf5hSSIrxUDVynIVvyK2IrCd9Jcb1Vbr2hV/RXYZ6CRIw1JSE7UFB6M7tQCLkxu0SREx5GdtEy54kabaCwO8+ovjETduKC0Dc+NddhLgmgy9UiIGV2pKJZIhMhu2ONHb2bgBZBGZAPjh+OGKqGIURYoiW4psgdH6I8VGHIO0g5yGLeNmZdX0KJYrRiGYCZoE9BrZ2QCMe9i4rQpdriwMXatQ6OT8F7/4ReuEF0q5v6HEpONJkvmFXYKyXdioon0sZoRS63B61lQ1G9/IptofBVSZKlZ4YqXhAH+WAgo7IZbSOm5Kt02s4e3xCGsWrYNOG990I0WQZvtEcXJCrb3aoLKCu1HyH/en/iyvIPSt7EfVPZW9PU6XeNU2tsvEKt1FylNK3Sj/Ls8u3uG0OJcJXQ5b6RD0wurYq6hsUo2ot9jrM33pJ/qY1jz9wGl9QxO4DHImEAM2zVKpaNs2BP2I7NKsj7HNqi7hcQDQcHCzMeUup9y3STMAD2aNgJC1V0chPdUf2RnOzVKLp1akLW1WkWxlIWwRQUThS0sRWeFe+6pXeMTbaqwufqgkSZVcfY4BgKEgLvVGDdFprCXaqWIJoggbvEXYWCUuC+dTZRFlQd0irqh2ycouqNpdDTiZUBNC1CqiE8BdqNYHtTDmWZGVKqVHOlKbo3pMtF5Flt1yMvHgsewrMmee5ao+wYTY8XPxYCPeOvpVE2aArZRdnbs1glOIDUM1tIL1h9EyUMXncsJbazyUA0UoUkWrIhSCJc7VdtkVB/yYieBBlMKJcEYHVApHV2VsxAEHAItlrmxMbM8XkZUlG+IsEvWhmunBIK1peDVQCEcEpKRVAkHngFkeTz1RVG00qxF+WTohui4RWQ0kiwjw4wSlCFQromq6HGZKaO69moCDCirSeWqUuCxVmMdEhmitU6uUHa7qaT6orail3Og+hCGtCn1+QOHTz3zc+7OtUsY/TlYcTHAm0I9j/D5aijI6ktRzVgDn+ZZY+e3MjPbWThHkbiAe4p2l6RTz9hnLIVXq6+rb90HsQJ47917NoXuvkkDbA2KUfvSlpw0kviWzcOiBjGLmVDPZg/nun1rQo76qqVSRjh5/dqCeU7RDC4oO6j/knqWLDol7OxN98U3asjtVlLYEW1iFe9j3ZO9Us8nhqeyuBkTVX/y7DJqwahELu2yLggcIAigi3Uqkk2oa3VjqQuHXfu3XvvCFL3jue+3GdQPBlGVh8aOUL//Wb7uHwpZRtv+Adtmcf+lAm2bVoHPZsd8sSS1nDj/g24mZ61TBub8o3O4Exi6BvAU765k1K+5lwUozGVNeGgnnlQFiqauHeNoZpJGe6UV1ZDkmiwFCOVmCczcRrw13g2goRty81cL6VCYjmQycMGBeSil1zC8EQ/W2blJsGNArIksETgR0XqgqbEstdxBlCzhJtZKlVCE6tkJ9a4qiCOdKS2mWKmx1A89yFc5m/VfZKscJMcAqpVSWqxBOIgprNVRhHRCu6qGzDGqK//qVrG04KVEdzIVqaBGKLB5p3cBMD4C0InpMcWy1xQoTdNYNpfQgSinhP0rt0oOOKHVScRFx1gEUOMDDZ/zUqrJ0854rnm2vAKjFZmrDj7hSCEFv3pHeDS0lC1oKqed8KKBggxfBVqmFoHct4RgfDBsMcJXlbSuIB1CiiHurjy2XyiBbHmzcqFEpbSiQRqmqZIUFrtaCD5EF4nnhQq5XAEGg71ez0304UegBcN1ZkedD3l/++c9/3ilHqwKfldJvBueq1B1VFyoL3nK1znOsiJRFtVvZNgRVRBbxh0E0ICn1skZqfAcifOzKDRZZXul/k2bM0LzrwL2V5wRGRHJ7+X62/ffvy5VuW4c4EBMc2ubeGv70qPdweBz4SBZI3JP/o8Y5YZz+vLyq5t1GrKHSF/+yXotSRVJQhWXQkQgiWoTcl3s3ik8g+mku/S4RrDy+n2mYAP1Wcx87cjQapnbaYmkzKCkkNZ06fexwruWyAcjE+hUwitFHlcUtI2F7P8QHc5Ck/tQ3SlCkdTg846qKAN2vFhEXJxyRV9yAd4xUHIU5vUg2O2D+yKzBRiOcu9VLRXVhQzEn149WGHORxVwKEXTQaY4sXIpeF6fw9kgjXh+Il4GXldJe889kB0kI8IAqVJO6R2qZgCye4uWRClfdaFo6nsXQCaWqNNL1WzlgUyVElHKMckUVgXMegyFaKWwADvC0AUpsik6quGc/i3kkNglDK1CYqwrF9C1QtYUOmFC64i8LluzubFYl1UxQdhRsLk3gPHGxVAalDCHyH0UQ6jDldbi1brZF0maltVWdnAFKiUAUgSVSBOcqUlpBRW1fClH4Uz38EQHEdhJq4YiACBxU7TKEfxUprQk6PcGhE6IZEQfSwSBSzagdBr/pqVMDYl0RJx3AmEXUw70rFFGpldT/bQu+0fw3/sbfUAWtJoAUYrbCUajUvZRDxpYrF8jWLduGrU49r5OrFuPYJkFc2VXTcq70PnSVyj/RMM1J/RbbQyaDnZNkXZna3rXB17ZY2u5GOJA9yYEEyuO+Gx9c2XdlVsMMMdB2wak7lvLDp/fxfzONfLie3dB9OOd/ulJR1hETpZ1BEXMzyvxtT16uimHxVryCUnSw9EB07UkTfcyC7AbdXfJTTz5toTp56pTv454587aPbbqHVup7uWzNPdQMOjIzOuavJ7aZowyc6c96wQM+Ua+vAriNQEXE4RiA16PU83jVS8R5WZFLH0teKphLq/SlWsEMqQi3gaKmEHRQho4aOFBEfxlkyyO7GfbkkYwWZVIuQpZAszGVu6U8GzAm9XVZUkrXMENZ2mujXRYxwlOKH1j2EUvHQ2c5i5dOAxfhELKrDpibVYQIIMWLSOu8IpxcbZaejKyBckLrZx/149cwqkOkCuGAuCUcohSP6mvO6qkz3AZUHT44BzqnpiOakJaTIAYAqXUpqRoqUYpZygR6+fWSEjEzF0tzhVIcm1IUzAJbo6UgPnBgc3COzmqrWqnSNqIiOJGpqb+bQbJKqzkF41udZB3svpKVzgWKyoZSu80uDWwpkiqFtL4QgmMnPhBBUX31wqDPKDK3GpYcJosBVMNuSgq9tnbTMtOGSKFURKkq85JqabNNOcO6PkAWM2IfL1mlfJqBhx4bjFS28uxYeEeRL/Y+9VReHq+r2HEkYk0CWd68yeLi5e9973sugS0bDYWGFXBPmqsfT03LAtldaBHKLk85PzwVmLZhe7hdSpXyFM2CSpU+Jxr5psNs6VC1HWH31Vof8qaE7eGLVkdztCnbjveVv0/B/erF3H0kQt4NCA272Q+R2i36k9nd1XA3vgnReN7OhgdRiBaz7MJb2nRP5yyRk43tbOjkddsufZxLc+XhwZVLkO9+9zs6HlmDhYjGxbPHBHqGTF4Enm0bvbSpT7pDSnR3BcEpBbsOVxwF88yKm0UlOue9mY0kmcWJMqVpl2pbFDwLryBOgFNNOzngySzQYukCYxKr4nDMflEl1Z+8dE8XXMzoS0nFRQGlVjv9EVeEKCVYbR08ao6IuUAbhirEtjSX2Aq3GfBXZxHpYkanZ4mzXBOLooKANnRuUA5QMAjOgQey/KDLlq10zGDZXdHHXKgSKVlAlkuy0gqWzVsz6mqLimOAYCBYPfTXrkkTXWmXVaVAaduxWaUcAzi9PUyWQjgNlUWpwzW0Ugg/yxzZbVeDd5JVVHNFyimtOQjNGJounnqFBx3QVk44ZOFlk+LkXvmLN6uOshhk+UmP+FCCQsluu1QzZoBNWoYixDEARdtQba5aFr8iXWtZrAn98913z+KRtVBhqBLBAfb6Hnvsk6579Hnba4Y/ol2aK1d9Iu8cVdrOqnbhwkWI+yr7hFYv2ijhPA9Vyo2aLJyJegsHfF4UdFnEck753uQ+RbmOnqsUN4tzkv7WLTOdcx+/8Ru/ZeFkgqAuGXWaaTsJ7NU+pvmt4fWplOZ1uvHHV6/SHlvnhVG3o4rhu5X8KVIaxj0K7xOEPVz/SbKCsKt3eZJoAC3O4+mcLRKnIW9GBFzpSiG7MKKbBN0ocALzyuWrfnV+9OWj83u+uUiaO6Sb72eG18GicGbT6TdoZgHT2+bOqcuVhe2I27F53CV1T7V6WvuGE4C6kAJZppXKoXSmMnGWn60xIAzpDsVjcHuJCSeOTcWLV9uDR3I0D50UtUoNlhs3c0WFIXnc1SjfqNVYHSqxeinqVgZilxb8LcIMAYoKzTK2PEOBE6GH37I1V/76VwaVV1SoOH5I/ZTKqkwrX7aark5pi3AC5orwmWKloEaxFYxVrtauxmALmGLm7WkJS6WowlP/aUDEBmkK4RVb+KU010rZFk8dpiRqt02JkwieAh/qj2zVUoK/bDiXoTqmtymtzuopJwqkuJQ2XmFQCzglDNFg5m3d3QkQAXgAnurHWf3NtqhqS4mNAVl/MZdHuimYChZXWs0MoXCJdZwAHUXaLDrfzPuILUUx5XMbQhxn4ywLVszRQVVBFDEKUABVZLnKIKR0WUjp+Isg6gbNEqTf8576pohvPgXgo1w/8zM/46bK/FBvR4+fyV67fOUi/nPvvoeZQo8ZvvnNP7J14+0PSnVIqjDTDxHkmzP7cxg/c9KFxO8fGlr3u9gTEAptWGaBvZq37volqRtB85TrcUXckK7Q3aVhQ8AA4lsjauXKvGllin6RVVpbERh8I/nD/YnmjwjLbXIb36ay91RT9+4u+hPYvVtJHbgnfUPcjhFuAEZ1jhTtBqoRmOFTtqbVEJHpmfobOuKNOdTjdsrSNT+F2lxzw3Xg0b0Z+5qYSPub5UonBPpeESNLJwdVSxAnkNVR3YbhBC2tHimpstU9lELtKuJtVdEMkV3jDmfZFJnH1IjDHYkVodz8DM8rbnHXEiQxGL36cVXIFq/2buXjrFU8GGovkg3xEOFMGpN4ABOrkuiyDSJXQOtT8aWkajETF8rlXucRxOpZ/DEzUNP4wZa2mQFVscQlBaGQn+gqBZfWJR5mPpr5XYpTlkKlzS4liJyRtZnTmlatlFptIIUDbOUkgmi5gKA3VUQc3gaD4wFlkDWt4EGpA22UlVVEFqDAlfILvvRAtALZtmmZd1NStbVLhKtC22tPqVAQKShiqyBQDDFHFp0n9QGOeSnhBn48kDLULiInpeiYgVIUslQBOM7y1ASeIlUIL4JHEZw/9bNtTSHKuJZLEEU1R3nsjUh7Hf5O7ojqhMEvXdxJOQqoyHWf9/A6/Udh9bg2xXn+/GVXu3/4td/3OSk3UjgfzEcPch/so2tWXObUsjWCcV+RxY/ngIamkMKQk2C+J76IECK72YUzl5Kx1Us0H5hwrsw+EicbWDFOeKfv3UfNVj9HclPV/jZLF0EyY56fYrLH+eXJhyP38//DpZQS3I3PH8v/n5vBiGhMeTnt+OHxKc/wbpLVIo1tO7NpwS+m2v1yuvtQZtet1OYhYtp03+1dGSMXODJoaENok1rtnAwkaGiIDKR0qazOg06PrCIUiCyi51xKgepsSueDGShjN7Llb8tKS6keWQiK6pQuLUIbD+vPZjOwVqkjBiA6LiJYxAqrUoOCgQHMeErEuQuKiHjMIIVjXn6TRen0h8gbSmRp5hbOOkdbTWBGkRLEI1UU52bGkQU1UX4WIcVxymIoAicFx1/KUsgNlDZz3ZC9eiPLlSwpnACiUU3H1cAKirQ6TQHmOAFhsTyyNC8HSIGKkDp4+I7pvi5JNVvtUoWZSCs10klqEWcd4DYGWcwEW2VEH8OJFV8gU+N8bUmJ74jgOgBPfWz9vP/BjfdvZb48mGPrS3N9brZX4thl6xIr8AK7gFdSFCnZ2Lhrtor56Q9t4opjozMqprEwQGhDZ1H0umzwjVoiKPyJ9m1ToldtGdB3HaOtvPqRWzUPoSinhFE/jnJvQ0p0cM0Pqlh3FekuU4fUdXU5ddlnFnANanHaf+CDFz7zuU88+zF9W3PbTGtD1weGhMEd1e8POICnFXyI5+iRbC9zW6k9Ft5OH9tcNySY02prMzCx2IHVDVrlppSIzw7XH4vqG5tHSi5h9TEuSX2f5dFHHxFkCkdzglwT99OIc3j0JLE1Zo3NXNdaudIN2oKoOoOsf/+JNwNjYjrecph7PIkz9wKl9yKn192T/lGJ99OjAXaL6iTlWj/pjle7bLtFFdE6+s90APci+cpzPvi378DFSxfcgehyRHQq9MtXL2Fuy0J0JKBIcwMfiOpAoBbxwcObQzcOWXAAccO2sbU5jpvuOsAH+zEUku7wrNsKdYQM9BnsrANFHEjRzkIDb7ap7XHaqMWpO9UH2ap1d3UElSVb6xQpAFj5o86KZLHq1qnMTOj1FaW6pNgaICZHNtMhOsBW/1AAvMB7ekpZ9VREjxR9lU5NN7WlUFGiPOGbaUKUVW/zrvQJSoYcHVrfpgfOuXT2iP7BCxcuERXZ8aErqCXdM6psIl25cok4fpW4fPmiuoTNMSqz281Un3XrHjFfjqZiDY95zJyK57nYHIswBcg2XCLgOQGfx7cajQOy4uYxAYuyKk4/keL6mSyjQFFnZ6WkpnNEHJBtf3K1jnMqnt5AiayUiUxRTMwXA/Qe65OfmvqMhLM+1gGsLoPydD2XxQZrzvTXkzrDf4acLGCrHZ3acM7AhitlpQ3dLAd6maIIGyJKcXWpEvzTfDkjTjO8znO7nJtaHDjkk1RXbubnAVWFWX00AKO6XWvtfJN/2Sc/tH+WhJyAtx6xojoYR1btnbzPSQdKVELHv3blkjgdyCfTDI/3/fxX3dD1oQvved/uVUPbSfSnn7Th93HfyHDsex5Cqce1i+fP0X/i6BG+nb902SaM2yng4QFcxBxuF6RxPN2DKt1yxk0PenA3A0RNp+7uefy3iS0ngaLCijnOFrW0WTyLudFuFt5slSDOAuxXM1km1QHo/1/72h9+/OMfszy7ttZXvfjdjeO0G2fiXmAasSg9Ah08taPAKTibgEZd5orUaphrup4k9PeCW/Mz/3uV5JryHsAj1J3IhIe5me4br92o5RPv94KGOSVVtXV489zuXiL3prV1d+Jftt2w7xHcUyQLRBFbY7XLPx1jM79vGcJJRHtJ9Vtjy3sszAOGku9Tp0Hy2D1H+DSfi1TXY9PhMyfkV8D52J+J0FqVXzQa5gSr01zqH8Fjx07UNBMQcn7MRcnVa7l812m5SpSUKzaD1xrJTOaSnN0gEp9xuqoxNI1MX3iXpQ2Q1WccMkRxN0etQcptnL6JlTGbgROgxPTse4J44IcYIy8DRvvmCbPKK65qKY9lhYAKWTgovbKtwJjI6qUUzgOBKP9u5VHKWQ1lRsHDhGxc73DZ2qr+0jGUB9FIbxRqDoMiakuEcw8RQMaZWVdm94k4iwBb/dmT0qM5qxCOH+CRamP0BfR3TiylausDXGnrpVSWhsVGqg5wD1HK0HJDKVlZqpTKYpAtsUoQ+bP0EweKqsShNPpRIrINSymI/MgC3FD3tuyWz7jl9CoN+hBgWmV1x5prBODo9LC7nKzdstWf+oCiaJXyBKUpBE91opQnrk6IZJkAEJSKFDdC2K2tFlWcgJWS/3RawrvM68waWZwq4vbITcyNm9duzb0EQaNASgRDe2zHvydMzz33nI0yCp2esAHomqZV5pW+QaTD9Q/+4A++9rWveVcsx8Zc9gxxHsoPJ29fRmh/d55kG0+et46CWetqpHTVCwNoVtq6r2wpu9lFaYdZWchGj2uT0ceyxu1JRaZ/8id/8p/8k3/ivlNbd0G9fVB9j4E92fltibWq5HooXVwbn3coq2iQ25y79F0Nu/Tby+cu9b8cfn8/b7faHd7ttOYd9PtnNNzdVjY9WcHmGIVRnB5nsWlP1ot0Wt1Alm78soi6N9BFNbTU5a5/9o/owYDYnlP9BGtdEe3Sa9fzNnBEbGM8zUehgYahdClgCwM2qgwKODYaKgWpn4YPHvz00HDV488BRBqqhEiJefG7QQVoXBx1rqwU1VKCMW8uL12WH40FXYjSWi1SQWzElZazxLsp1VDNSgHOJcuxZQgdyAJImWu9uLR66Kxa4kXUi9aWcn40JawriHS2tMpJFUFscMoJbwOgg5jZgeUG/SWjQOoYZNkd2c1cvFsXVtjFL+UntnaR+owI6Gm9RIksnpqr9eUVVbUoBUpbkTLXqLQKMVir2hlowMkuo7qUfoIN4GlakXg/OqsWXgZKaACYcUoVyUrh9Xkxy+Ipw+Kvt1og76qrnjb7jdRdvTxdgdgDAfNqIgpSOxpMxNyWtSpUoW88MaHUgLRWYWBUNp+jn3f6UUJnhvJs5GLwROpnf/Zn7QGqvuoAiGXMRp8NQEfA8aC4kYL3Y5IUehMgr3QPCq1n/YALnDOr1thk+VNKPeQGE22v8tOzooG/2V1EqSyAKAXwIqnaDiyGaQrMaQvm3EsBN4K+JIIHMpwKxTYO7+i4A12G7qCOw8uf8lB4P+aR3Xi+Rw9Nd1H+90z40BBtKr4byT3t275EickAN0QLlocUMJCB0S3Vx0CXK5t+aewBPV8pWdooqeBSBUEkiE1RGXAChhDpQJfKYi6wYpjUJXSAR7/CVltlQ6RHukts0VjYXL9mudJfjS59l4papZRGKTNGkVSRFBthWuBUF2obHbEGdhHiZCtSh1pKdomgVG3F2SXS0l2eKqm2pZPDxGmTCmVdqkI430pZ9ApShVnKFg3SmsaGgTjBmp7Nk0iXYaVlW6YhLaoU/qUhwvd6gSEiJdmOm8DWVUpWjXiIQbtgaFsQKVutoGNYIFuoJ7G65S/eUjjx1azE8cuW4uufLAJu6Gotle1tSpsGfxVyxoew8dBcoxBFcAi6KkAaCrKg/uOpCB44oiwofRfn6iKWk5/4uyowRGf5m049cjWH2SaH3o9S59WCYHzbnye66NzzOzk+0Pb44497LmVxAuPpQbdWRof7D5yUO9T3rW9966233nCCzm97ewadrFKapWxZHekvjsiKLB5Ag7rIAvrbgnB0rhLZDUI5WyPpCIUTNBookIqXfjdezpYuQcRxpyozMXHS7qWF2QfGvPl2YiUwPkiRkbtHydJ2P+Seju1xdVf2fvr10V222/hE7Hb2v1bsfvUy2P4ELq8ALmR1+2VIU+pCBrei9rd2eF2LRQuViyepcT0dYHPvZYxvusJ0VNoAPZSUDtEZ1iRpvOjnGEArQhueDrRaVFQiQTiFVKVLzZTLT0CkiBQDfhp46FkaZprjx3bWhWBDPGTDhEaKcJNB7dJFUhZfJaW0sOFyEjMEBUDixaFsKuIH2CoFAYrwoGOu68OVrZJRELewFZdyoEpIKSogLjqeUZxEKeY11GuIZqC0UniqdiEtlcUPIKqMH73K62Fxyxk6HkQpnVIUk1qRUjCXv4hUKVhZ+ouXLi2lyilpabPF27HUTqm03mIgCEeESzWcIHdmJKiUckUt1TwlNqpKidQxDHUDcYHra5y6Ncqa0ztrVwqdwoVTUlmUBfUfnapd5nqCrUhVlWExL56WCsIq2tXGN3oUtQVbF7hHU1ILvZGjLiD3ZwNRuP99v4JyfSYItvh858LPqL0B0oOpT3/60xBqdQYAN3HL4rQ4feMb3/DCUNrOn3+3tyN4lmNFWAT4AYqUV373tirLC0RZHjbVdogaF3S4QspWJfRgrjYiC/AUV7RLXNnFUGSlYgjcX9JfE3xWQVXzmqhXXnn10sXL+x9Ib6eW6aVnWflhkEotZ4js4rsa+LCb/d89fr943i8+KyAEd3l0rRahtyidLZDx7o/AalndyeRgMteUKZt5Hl6QxUytoipvl4AroraqMMt2xbJFXOXlgQP6jRQ8Fj8WrQVMk+0MhoFa2jpId9VWJxGjibghcOnCRfyUE2EXZfFQeMjY2zVMF258iHApHEJjcUpb1HpK6wQ2ggBzQRHAzHDxpnW9RVIieBaD0sKi0MYEqEiVEwGrqKWyiBXvRCA7Tm1MwMWlbCslK7iKCOInqI5Ky4Beu1UFL91cBiHSrOo3ArThrIgU1IEGUBZ/RYpfuXwZA1l2S6GBWkQi6LTJtjmrSooT4KRKiq0UzGAsxLc4M+EtvYLVzxwGJjCjwynRMz44tIn2ElGkL+qItSVbEVEi4ll7OZfReiKLMw5s/YEDpSgrhVSwNa1sS9GX5gq2lLeKNFkZWEGXVq16KcIvqzqQFhWxXGFwL9UHUU7EfeHzP65qOBezLDDkLNJs+Y3UV7/61d/5nd9xYWcNO3fu3drFD6mrbNGPmSC6vmFYKXKzZTOwDuARMURSKouIH1JKs2SxwWnDBsoj7fjHXH4pTgxD2CQoxapkt2jRTTtweylM0KkD6FreAuWW0XL1G7/xmz090Y5B/9K5R9se07ulS6TIhyjZldqD67d7KM1+iN178v+XIq4g7HHgT+b/rrZqaFSlhRVqHUf/AexqRKlO5dq6FMy6nF5qFOiN+pWLYTztZpRACqTQy4/Z9avOjHj5St4d2t5OFeaySY0OD3dRdCcb5noXho997GPGgq0I3awDEyc6DdwwxDJGbtxwgNYk03WOBnY5jw0zPznfCm7uk+RxY0LFZLWkor7ibp9WxF3aMXc41VE4CtutJyl0FCkRSClw0CIUaqWlVE/Z6iKdLWq2nJHfKuRScaGGtEq1xQ3ZsG5hVz/N9bPM9XN5TqLM6NuirAqIiqjlT50R2XKiE4cX4DWLDSCikKrC6iyDItmySSsIUVrBBhadXfUFtU6wGpqlRFeAl960WbJYUSisaQi1YOlcpYrwHzl8xIW2CReDbiDVEwAcJ4b6xgE40PZ1Br1FZWvVpEpRAKPNlh+lInVsWJJUyUrtqGEAKMwtKTu4iCM1xbPcipwLQcOjDs9JPHK67QMXLp73ZbETJx7yeqQf+7Ef8Vp0g1A1HziQPU+dX60pUl8pnJgZ3NEJa9WLL74owiKg0bWPVp00yNQlcXA8RSmPzBfW/SNHMkzi7bxaqc7Xf/TGBLIq1Xq1aLEpLWcR6dQ3Rsvf7Ep3+ctQzqZlg9cuBL9OpV3UDtgMFKhTD59UBUS4MLYjLRML2dW5iEWWG83W0B6elf0QPYvnv2bkfv6vxvohnb8f/67+3cCiFxBLl9VztN1cimRZmpnDHY/nVfnyp76tq+uZ1h5ZzARJ4FQEUHahnpdCueyuRVlFKLqQ4UPJOBK7RoplojNkeaqkPNWjgxl9OphHv3BKqhAPQKFNikF3Vco9DJs7R1ZRFYOpQy7ta2P5hKcydYswvYhEMAPZFqF04JWnwwOOGSweSClSPGUzSNDh+Gu6IlUlbam0OIRXraGoEZTVKvyJxu16UFxKG2ZW4HiYaC3QW3fZZQWilZkoYCiguzxHrNoitEFopmr5hgIH6GTLgwEoApqWEohSxPrDB5ReQLR2ZZDSMNKpRZujagmyQpUUgxQFaAlSNQEBNBDRV+jHtpToGYp8chqxFx/tKxhUVudb7lFSH6qNFSIrFIrQSyxSSnmqRLpEIACntPQhhCJL7YqbKlNbnsazRssAJ6heBEWV2xcuvOeWyKWlu6gf/bHPudADxipnldJmUF2/ksexaue4BOXoLgytUp5UAbtkFGIQClbKUEP1ZDlMA4WgztCDQTy9URk/wAkwtHYYUjp0nOjDlYT/YAWBQnjFF7HIbrYiUpylF6mgNEqnm0kxCCC7lLMo+93vflfqwIj40IF++IHNNWu17UmXlT30+2Vr9O7S++nR6nczh7Kt3b1L/6uh3q9e9/P/fvFphZTuUbiHfzHYUXPl4Wkqfk0MdC24rW+pXmdodHQQ0QM1d+nYyikLFBXRPUwU+r8eTtxeIJdkyy+th4waLB6CtueTRZfaQlekO/FEEUDX8drr0KnCtpZPZ+5lMQDIcqn88Z7f7bVchAMapQQgjEkNbBQybuuqheEyKAX1o0rZYB4buvlCtqWsVAk6uzVHiVI8ssRlVQCCgpkIZqpA6RBF2JTCSQE8slJF0kXE1t1OwWpFsNFTWeKQ4lVCtlVQRBaulKwUQ71iAsJnFPTyV3AxMKF1lc7kmBiqCIXYECmHgGiYz5/XXFsU0RSJGXGuhnJamkL8KKw3jJiLy4Iy4KG/JqrzxMmTiuoAthKltcVheLPYwANHNpsAcNpUs5z8aZdCbzUVEfRkVG8GmHEC1jGUGbG+oaA3AlKArqZSeoBAaSlBo1OtUfgsDmoJJ4uZNoBBxXFSwi6cUXQm8M+vgK/ZZLAYWWX9TOpHfvSzxqpzE2N2HytUUcI0ilWKVI+qe0Bl1nYvhcfY00UbYcp7AcToiROniOtEUyPOpE2Bgyl0IuqbcJoFSv/twj8iufCsQlk+cwCoGvHyy4qbUkCbiksxoEPIwnmrVFFLWzQubNbFhhp/gQgoQyJwMMF0bnnIeWrrh2IGtYP4aqcVKDciuUcPEyRwwmmgsHoWpdndFD+2Kq9I3dijQREeqZ81VqSUEmNoSmuxxC0l8939YMO5dZW4qx1+l7+eLFnZ8O+UKtpEajH9cYhufV+W0by3CvfjX3RS42icASK/zZZSc+I5vWnz1Cac00xulcXTlCrBqR1N3TMcNmfKsGl0acXLptHbkZhCkRpZZPVeHRInc/oz4tFjxzFXHKX802cyGLGRAuh4OIAClueUo+PHQ207GGYMUuD3JXo4HoMX8wyi/BoVA0jf5Sh5SusoanGsEO6iwKW1ASkQrE8MY8NcUAphW2nnaxQ4ChNVIlvXIZRXFcpWR8TLUFvYilSVVCnYtuYmOtiqQRGvKCmgbyGtiKfaEFc7lbL4m1VKVWWXIPG2jVJEIniaNlCIta49ihDBUJ0onWtIeZ0EIj0AT1NKzJWyOpZSiAaC4Ael4ORV1dImqsvJstUcP6uTFAqoBtnFXyINioZl03vqDx9YR68bsqVTi+jHx1KyiKVTwp+KVAp92arzwxtis5jtd+tC+qgiJnRZRdRaiCsuaPW8UkLESvW0/+jTguarp94q65ODbqQweEx1+tGHuWFGZsW9MjbZJYL+67/+69YnN1Vf//rXOeBWzDVWByofSLHCeuNTi/WBngK2Ph7ATLPSsknzC+xtzOs/Iop2wQbIFtpPNhp3BrBSRClmspA2E6TZUpRWtlaqbUnVqGyhqkw74qzTCYJFSxFPJ85zyby9LtyVZYIsKEIEPoKbPrMokAX1v+kusbKLUqRsrcWihHNM71GyK7u8usPcdtDhxFCeJSW78CIisIfS7N2cG7Yd/XcIbjXvFbwf/x3CezN7lWyvy41BrDsx4fxmTtCOFir9Wc/s0DAccFIltqA9xKBrD1ekh5eIh0g1t/XxG1woflZCDwbQ68v6Sg9nqgqCH71WpOWvt8XZqtv0o5QZpSI12qxSxMpuliuZuqsAa7MdUSpAl0GoiMccIo8HUjYMKgCvYG03rT1pq1QivBqaJVWonsWDjWBlpegcAEsKXt+UwstDVT0pRQp2LVYhNkgBXuV1Ej968QpKy1kiZiKdleCrqIh0bG78JFKXVl+p6VqJeL7mFeC2tCakwgtQumIpbWXbV5ZaDI3bzOy4NpfhiIrYqjiviFR/PSy+iPU5UtvfbSjCSQM34NU/TsWrFqF7lc+qL+sYcLY/VENNw5uV0gnqQOMwheljxKuto0i2fQ0DnVqSCVyjRLjozv+KnCH3Hj8Pe53xs974XG82+m5kzTMXG1ekOcauCdrdJoozFK+++tofff2PvBxdET3GtlGKX9BQ6pWUqwQ5BudAq49fuKQApZeEHG4TtF6NQytbtqpC6YAqGyLNmPE0AjSjtLSmq2SxlQGRq9hANVdKtgyyeACkVuZvzNUf4l6IiIFdIi6u0EciXzOqFMHKrirIYh7ypscqKpCFVL90IXuI6MQjMo5sBxxt+TfMTUdFmMtvcKYV7oZ6uOg1JysUi7jLg6EOlFj+IS72HwrZ1b8r0JjvUoJv67mXrqQzm3oOz8ZVIdrxf1cKQ2G0cjzV0U/zepe8o8YvZI6c8PWrkw8ZCLrWA/kt8KZxMec9NwfT5xFXl4a323OeSLuBlF5FQGWNcEUQxBme82R47sMwtDdC4tDOTBjXppPTRrbiJVa/WpTutycVlLa+2PAU37z9oloWtay1qjLVJUuyWZwQgBOdpblMS0+tFIb6h0dph2INqySFOGuu4hWEI+LHsOhlJltKTVc/IoMYBsk6UVxaPegcKBEOwaMIsjzfVYhYVRjKg1KQbZG0GhZDWLeAGVpbW1psiYBsnalFWUg567lUHSuFvoC4IoBSvIJlwN9SypdjimSFmgE6l1e7DNWmqEAPpB7WB9kaxYlCFtRWuyzijcu5y8FZK3UJG0S66FUuC+EVKxioapsiQnShdndXRdthY7lKMJXisVuFgZKuLr3BtTK98MILvvztV1MEcSrlEikvj2bCysTi0aPH7fvB3ca9/PIPbPr1ja6X3ruMHwNtBjbHWLHyOaq0/G8FG8/Osa0+5bxqXUhxjFHQSrXUBzXwKCrAm8VTkG248APapMMVKYgsRFrlTNe6LOYue+WsCZw0KyUrrfLKRpv34WisA2XYLGNKXYMPT6ozjeNTAYmeTPXUBPzuLEpNN6Vnl3mVFpHehv3eVxneu/nLs4euQrdl78RwAqYXWRYuFtLSd9Nh3zvYw7nk/+OQPc5U2T2Jd9jhsyqM50F2qrNbNSLafsM2tdu6rXm9ki6//+vxV4grMP2BSKusTQuyiG3fFjEBlOIvfXFi0JGGGN4qlGKg38VlU+OoqloppbJ0VlZa2aVftpwrpQFeuwThUnZrMXdFSMTowqoMjtsYNvhlTRCKZKUuPA0VDOVZ6hQVp5TfxKmiGZsiRFDD1S/FgwGSwTdTOZwUOs4FiMXpUUThrioanMvHA8GgFLMsgEvrGAQdZZRvRr7sAvSKLLstQixU7W4p+hIvXRbSiiutwyiUAx7CESEVlI3bedtZWh3sGoULi7SlBPGD1ggdvywNtWXaKiiqbzg5s+mkd3ULpbVYPUQKjEJqhX7aQAxPYDEXFlHHKIUgBBuXFox0XK1CdalXOhVOIq0d3FoF1+XIWjmAUsqNBD916mJAFlEHk6J4LPVjP/ZjPn7hpopCbtPjAz3WpLfP5IgEu3rsd7/7bTdSssC7LSxXvLKbzxBOuChRCOiPhgcecDJQKgsogSvFz0NPnYkgwiEY2uI2vRGJo/BEEf4iOIu0VBaiXkuD0ljaCtJTVdgUFTBTiKKoGmRZ4diwJ8J1TApaih+U0jRvVtTTDsRzmhFpAxAUoxbRXRaK5QpRp0JZSiCyOKN3AM8WvU3ZJS5xxbv0cMsH9tKRSKXghwaVWoYWQpqz1VFi013KsqCodhdlF7mfM7sK9/BXWxngAMP9+BVhSOmdtRbrqEWfVkhpGcpZHI92zGjypOrEsaPHjQhbBUaTbrZ6Wrr4jG6GhKvOsKit0WNlem+z6GVLbxkrGh149tnsKkU0+qoZM6gedEq6iLTrVoR+oF+VGRFbmaVTv02vrh6lIFOZGcPgr4A8FQRQgUqyJIs+WhJrDOj44cYwe+XHU6IUUYq+hhPmKikzBu6u6UApfg7hx0C/FMgiQqQYaMAJqp+GFslWUBE2aYS37ypclApiVrSHs1YohICK4IFLKS9/BbHJAtl60iypgnoRXM6LGFxRxWNg1DatHjor2yx+la1ydMQyo1OCUuUYQNRNWy56+VuqD9lfqxQGRKVSOBMES4HgiSJ71g9sXh4Px4wTVGdxIorqA0rbURbe4FDVjtQmK73mWoRZttpKL0/Mj0uykGHLT4L0QV2xl0HORDiDLv3c5z6X2s3DXqsLPbIccJzPFzE8hfIsigiGN9983a0Sty2BvTCwbjk+y4QrUP1MmxME6FI9sP5zoPpVH736tWfDQhyy4hb5aUdSioBaMPq+H14NJ+byE4HQ1mrChz1NACcCIKD0ilNeilIUVvDT0OmgPHQWwVn+jQ/TuIiyHpVGvzc3B9A2o6Zutwp2Q3B6szBYClEAfhRI6cvV0lu0dEL2QDXcJkYl2Piw6KWm4C7AexcthDJLl8Nla1The+iLUvqytZCKr3S3pou4lOxSireZFp3awqJ8CIKzpXzTLbief4UGSzWnd9WK2d0wdMHkzPrp048dP3ZCx9YxalGRjkFax9a+0TktmNade4l2bAylyxJpdnjT3ABdajktkSqUOkCPwaULYWjHMx4RZdd8XuX4Eatc2mw7c0WOHz2GCMoDKb+xiRLP6CWQzACkHJ1Kah4RKK+vzY7azYUzEUoKSsnCyULKvGrerJQIQDcpSFHq5eLnGFCETRGcthpdFKXDldCAXVnWS5FiK1RD6QTLT+eu7FIyImlFgHlpo7lZFFAHSMEbz1akdKmi5Uxt4azaprXYNBqnvooaz4rQI9tU0eIppfqldQMDKdBuLosuSwrSrLS+LURpLUoRR8Fm6sSJgkGqtGFUWe8wcm0lW0EMcA26ukqVE68G3RpPNUsXXbeuBvxqASC8tjL5+aDh51dBdvz8asqjqeonwoEqYZQbNNsb7Dc7nB0gz5zf7Fq3IOWsA5T4aD3rjNonlBoPsvSQ4jwH8EMQmZMyJxslt/bdnPcWtr283dUdslcWmRM4QBUN2EKfaEtRFpSIoRRK2KogK5BCm6kUnBAURRWEcAaQbcBRGjScfMBWPdXQNBpm2Jn/hqHXXnFEdiAUNaBh5skU1a50AWKVN0UP3xYWcQ+/rKJFDLLRspeOzJnFTzGKNCJ5NnMPqObyFN8wdQDcObcoWgp3RUL80OXwHobvQ+I/zW21mkOhH9xHYjMq9/BQUlhKppmiXHPr//qA1Fo1+35HfT3gyIN531I7A6npJpm3IfUKESLlnvGLs76hgPLgVypFqa16DocQqdpawQlW1RYPVej6EqCHCP6lJ8ZWF9iGpaX4CdJDAxEAx5zjwkajHp/MVp0ymy31oN5joAgD5kpWC2J9akpJbcgqEkd6cFZzSyveeQFetyB48FchThqksuVXtOrQUnQwPyOduO8EHb01qhuUsAIIWvVNK1xClAWtCOWjb9M8xaWappxS2gB+dPxwRDjNFZcVTzoVtTpjIVk8ZcZZYpXMx1c3Q6om6g9xnGpRfhoKZGuRQhQipUAWjgGgY+gy0Loj4oE3iwGC2Gy1mc1LrLkS8bS9ZGtOyk/KdXc4JwGe6pcqrT/SQTZdn3JFagcIehkQQcTL164bct5qdvnaVQfzGHLA7/Tpx70nyWc7vCHJAqMv1S6FpHRFQE9tlfK//ca/8eMPpyds9OkzqmMxNZJVvaaZ4Kdej99ZQp8OobO1o4ddbLJrLYRbycow8dPit7ccGh+ClMAbTJrhKI4r+CRjb2WoVYpY4Hmz6kIcToSgUpSqKq4IZdfD0lXcrEStrBQPwIxTtg4sDZDq2dJjYvr2pvcSUXuezCq1OQbc8VvNw5/OhhNwFR0RLCIT8IJSyN2URYeotASX4FE8KbWCyX/doxRVE5/QpwoxdzdUbem7Rts06GVYbGM93pZ5ld7ycaA/DVgKq0y20HDdbYEby5NdnvaNpUQRilR8tI7rsC5UerjOgJIfUXg0OV2R1HBmltBeWg3CSoRn1IzJ9B+gCF3axi2zbM1hwIx48FAuEBEB4nZcZPYuT1VVG2KlIjhuS2tCUQGlCNfjT0ZJZtcOEMR6Zfc+mv+f/8P/K5POXKMZ20jqD4x2ArzBDdABxNip4WjeWQBxUo3Sq1casLFq+hbTmqijKMa/FLHjjSx+WbKu15USJKUUYpJCYY5+PFUiO37lQTpZFW71IDykvDVSQVLweivmc9wpbQMo5zARajFwo0rwI2JQZWltVQmRZhVBEpQBOFWAOW5j5gNi+xA6P6XEq4Ha+i9FUVSjlNUNLiHKlq1ulI1aPEARc4po4LC05thiXSnxIq0OHDAktqB2saHgVHfQvi7LFkMtZQKglAjHIMXATzrRKbF00UmJ1NuIom2GDUQjXLlyLQ06oyMrjJnxhl8lp8txpk1M57ETxx9/6kl3UU89/fSJk8c++YlnqRzL6VrY6Bz3IyIIRNTX+vRHf/RHvtv78ksvtcX5wDHptG96xaVLF/ArbawUUXXtRn7qxAfMqqMIzuFWTVo6qfLUE0bj/9x4oZPiAyKQJQWUSlkBEDwAQqGKIK7YIgKyKMSrgavcoGS05iNefOAqHsTqVEQbTyCIiuqnUibQqaKHcrgUPuo3HqJYSskiVidBd4r8RIQDFrFB6kl1VtViq04M9GOAYKCBP3WMODpoBTEAUrL8P+DV+p6T2QjwFZL5bpY0P5fy2ax9Piw6ZxSb1tJ26NXKst6KNLus41nmEAt4IIo4JpXlSaFNXwaUitf/MiiiEL3Z+L9ttaW8pYuz2pRCfEhM3JZIEfz1BwNKOYs/cCgPa3Q3/5dNiwDLknnPgGoWIrxE2tyU6AkNeLsNZkW8VRelfAAYzp97D2JAwTEA/LThATVKpM7guXEru+74pUoViVh1cg8DcXSG2ntl0Ym3SCorgHgQV1E0z++63Oy1vRThWW44CoR/c2VaXbzEispp3qR4e+laFShtWYqADEcLNMgiMgAHEFLcRec9XCm6LCLNUsBLQAk6EabrgyyE04jY8ENoKBG9oK97X6dhiI6BfjWoG8O86ZHViXIzl2mbFXcYstXDlgZghYalv2yscIn/qdLEejmGAWwd2UxPpgka0KUUQvDjCesWSqkhaSuoEJtsKa1sBeFEAB7OIAoXNhRpBUsvpaUNGuYCJe1keOCIdYcG/CgijMETC/TqkS5Qr/LjBMRJAaNFtkWy3CBCFQYI5Shqhg1+/ea1U6cevnLNMpVfLh+YG1rCxNTcXt8Ln/3sMx//mPuqY6dOup46dOTQu2+9RT9VVUiPVqDf8yqLk9/M+z2v3T9HKlA0pcvM8hPBKZ2sddTqrgtxyWoUz/nDQSsA5wcPP81wtoyF4vwP9/Dz2bBvZ6YWA1kMRMjiafVrt9WvIAYAry2yeECz3FaK2KyUrHQ83yBiogksWuiCoKXwVGH5+UyhRkdfLsHBYlNKCQpmUuPA5rLs+q3rrBq0LW206wPfisTjGQIU1lvMtS4F9UERRIq5RBoaGfygyotET3Tk65qh5HLSuqXumyBwytl1/s7nRdO1lgZ6IjjAhCyQW0TZOs+Tsq20PHUVEVIov9LKIq5aVLYm4BDQ0mWx9HIitoeUWA81AZ0osqXL4mzDQXbNJev2P90yvZQ5qRsqnVMfoNwhwAfMo4cOu8rcP9/ToQebojWhVaf4azUWW80aldWfMZRYncWJ8xDQhiKFR8OBLFEdAgSHJTwQfrJOCYalUxFvM7HMjYd7DzyydLJer6pZirne8h/UrtGBzY4L/pDwISlmTxbOG1Zbt4YPDyiF0urdNQnnUOlM4pRlZlWpOF9xYqMfojS6tiBr86a1lTYoBJWbhjhQExWUgus3Ej4FeFRBqruyvqBuy1I+FUzHhYNdhC3aSqew4igUygJFDQV8rGR2K39CM7EmpV6II5EhTS0QUsRKQWq3JtRuxaQNg07zsrIEidcKCljeVo9SUqClQtE+TT8HCCpiCNAs626gHUK2TaMPtQ/UCv00w1e2mulpWJr1iAhy6IHZGJzp3lUdVY48CIUf7fbmmDmC6E6Tm5H2z4s1KTp29MjR+Xj2z//8z3vs9OTTT+nvptRL16+efedtv6E+NcOJk/RYk6xMDl/ou96TJAV1ng+85RinOYy/wWztREApHj7gF6s6r3RVs8RWDY6NCKRqCYJSFIGlhDn6BRaRwmWozBTWVr2Co1BFvKaXHllASfml2FCqsBZZQWwfQwEoNFBezfjhVV7ZPRTjiBQ/lwN1jNoOn2qTsouiFDTLRCtVSolwxOVneaRFFAE4/VJspJquInTEXX5FVbh4MBRKWfSF4G+lFgU/32qUdfRSFgOkVvCUTbrCq/8Qx9AiysM0UE+KC1EVNlUEUbSQmqgnijglbbR3telCONu+SyeGQwezLNmHqh7pWq7osUoRqZQssMPBFhFE/QSF51q8ESBOpxQowmm5wgAvkdv1ShYdAwpZRDiKLa8yEAFLmyIijNb5RTcLYeMAPfxRSo+rri6T2KqkYTc/XJtX6NYZaf0pj5R4XkAgWIDMrpdllYK6TkAdZf3BXKhnyzAN6OHbXlLJIjKEB1AFEHWImsOMXitwRFBOPOiyHWMEm42iqSorRAS55nBSUOtVW+uYFcHtN1CCGVTbaMqBXQygDqwUDwbOt09wgyAfan03rTlsRfDgrP+kdjlrBVtBUZnxo8iW0lJFEGlBUWski07V8gcFXuWLp6Ub4fmDAjR3VSUm075cjcUPNjdw9ABFIc4yTEo0VqCIq2zf5uD6lx5satre5FETE5hJUQLH/P7NLAOG4PFjxx999JFPf/L555579rHTj+vGqmJQZKG6ctHWkPPoUXgjO2CIFsVvf/vbtvv8WMq6xXTbjocYZBnCRrktfBYhGBag0Ga04Ock/s74pHAqQgETnk3fVtS6SxVVUDdgpWx0AtpkIWWLz9vODCFVitI6g4gC6EGRBapQRDqObBLitYWO32AGyvgMIMa8Ino4UBmIomomq3T5gKE4BF0pNyD4STUgNVeFilpawWabogjFco8UvEUlwqtKWvpuHRePIj6Uh05Q5lKWbJVzEuwpWiLV2VI60THTBlEE4CgtklXHpb9GpSgiLKoYTKkdIzRgruAyt2RRllEacKIAUS1dShvxavDoRymKdNduN5PxaIh26ZZ69onZDQkipHh5Up0DeZBBipWqPfxgLpvgoDVqf8gh2G30dkspJFvxhWDQ38pf5s7eFLqdq2NlXmlr10BhkJWS5Z4w8qFEtcBTYLo8lBRBYZQUigG4iK2v7GbTphxYkVhqX4SD5RCeMZB+sAxgBjVT80QgGKpNluCCFrW0vYE4c1L8KJQpxUYEUkEMmlO2FKUgzg2QNYU3BDRoWvwNELaUjir6Zb2XDoKyNNBJVhwh9CkiojTGtgO+zI07BsytXRkqhQ5Zdy0VwUAbfzrJlnOlSl191PO6V28xEK9CKTaACNRLEYWLCKkzijArpVBqvKHASVXtMoTiKrvVjNIxJ8Xg4q8zNRNTEk/glaWwniAC5h48kmPfiDWBYuEQKEQiWql+6nBHjz3Imyee+Pgnnvv/t3VvTZNlR3nHu6ePM9MaSeiAToRxAEKyb4RNBB/HDtsBYUf4O/rCvuQGAkM4EMJIsmYkGGkOPX3u9i/XvyrnlSClWZ0r88knM9dee++qeuvwr777r//gS19+7+4b63zrga8pvH/Hq0Be1/WXrbtvLO+D2/ccqafPPn3243/80KemPJfyBgpriFNV21c1S0pRpJKqUFJGJbHTrQ/JCMM41Z9D/OR8N1rIYOyuWRJhyGLsLlV2R5/wElRidcdF6bgUxdsaHuDl2sHVgsiiVNPCTa0Y2RDMAgODudxUZL1z2TnEmrCY1lT4jWXfqhhJtVE2r5AYKJVX3pA6VRvLuiLEwF5seuTGFV6BCZ3kYllMJFyMJeIybXF+w84l+/IsW4QxhKGDEVvR2IGjhJFIO0VFMtDryV6DQmB42SHLG4YRQ4HGqLZ4lsBFWcCdsnzlq192lDtBsIlyxEnrPI9HzoscSMr78ME7h3CeKoHBizjj0Xwm+BhVi5wJj0AiKmGkNGanA+dlacrSIWZXsPVfGAxXjfhi7BIZ2XMZlS2k1VbSLheLKaG4IkF6NOAzYa6TFYBZ8dU/Bbyap4YVY6EoNjlyAPj5G4CysBO+hEXkBF9P9ejqxMhljKKuUGOg5xXIC2aVGeNZcgUVxZICoFskPeJkJJFsYSzIhbAnpoxT+luX1xjZAfBvbdWDPMWSAaiqwtiJKBxCCC+Z5s8DVSvFS+dSHt3yiU1nr6Sq5WVnacULxMZLKFyEPaFjELJRyihXSyRqkcAYTJdBSaZGIfBG00YYdlvkZJ5TYhuEYWwHyAsfM3LildRKtTtNkZjSu16zmMKT8s6foa5//MPJK5cUUivWsxdrZcV88cQffu8P3n30yFfNzgscb81WuT8XgTtWFhg/mN5cf73c99nzZz4a9U+/+uX/+h//0yErhYwOFn5/1vKioiyES1W6qB4LWnmMBL+pXJAUMMam4elTxLkIloUFpmUpymia0K1GDCwBTBUWFUs7Sjq0Zx2mEvakqJYXEqaMja0epJAaSS+Fmhk7mnicvMIhedkhEbIXW2D8jACVAYyHvi6EvJGzE9OkXCy8BGe5Wit2JIyN16DPNyoAPK/jywtpZCFNKdFWbQyqlddIAISzV4ORBMt407W0AUwJZjzBxJpapZ3GBsCeS6lN5c2bwlipjElZRJkumLHiGR1lu1oNERZlGtiU3gpnoTtflor3nbe9qdXyzu3quvGmBZiJPberaGNrAwDISBQDiZa9OstuhOf18LRAFt2xUIhzOQCjWMJFnIwIE7CMRmD8YLFlZ1G2Mg7BMAhhtHkY42ehEHaCCLlO6VxgZRmXhf3nBwAiI8SvEV1rKgEvCclSP+FjoFumYCyEpTFjAMWJvXFWX/ZNGOMJnQehm3drnrwmVvnNrIKpsZWCL5dpDNLR7Z5p+1y+WYQQFiRgKUN4valQ2NFWrWmViFJ2yCwwpC0Vs6lYx4YCE6eRABCKxuOpDEicLIUwgtEL2SlMcmhmnQmMkV1SSBlJTWGIxJilHRMYScwY/EHby994NKIMNyMPeObd6vPBRIui8in+ICfMdhTrVm5PeqCPUIpDOBCfrv93//4Hnhn4bK+HVF5686F47/ZylkA+eTnP//xkAHEH8vmq93/+wd/+8Ic/+clPPvzko7ld/fKjL737RRgAbFu5qcdoWrB6uSrJCAp5qfAoemmKR23Xc37WmT1vy2IkpeOlTw/niENaTLq7qdH0YC8A+vIUBUBCGlXO3iKzUyoDJzsvC31u2NcNH0xs4T3MCmYUok7Sfq42U+ECm5aRXiV4FFms7ioJhnAFC2lkDLnLxSKEKxFCgSEU4QBomwY2DRagjOlVWN7Tx+VaxgvGbl9VJEtrC4YcM+8Kb8JeauECm8risiuQBaweAwRmTOGqvA3PxU7oMuLprBGSkR2ekWKhYCpPwVXI2JpvL589no+7uoM8fHueLQlMfDkPO+bwlKQt4QKukWuKOTqiprLrM60t8tnz+C9XS5whu8BOxBFGLsVjMBLmUrPj7zazKxkPWIGmpGazhKQT9nXJaH3sXhb1myJxEskVg7yMXACzE55//hNrVcvuAQQd/q4XhcpUKZLFkrve6Hi45PAlNMsipLKEMPJqEgxhRbD4Y3h4dgLPi60sWfTDXjP+QBgtF0xVYbPc8bAIh98py6vbs1nhIwRoysBITBUjxcN7s3wAlgBJuQIvQwuCn5SLS2um4QE2EaVAWXjp9QgsI710QgBqyriCf9JcZe0Cw7NQCGYoKVh4BdKlYOSqJC5GGaskOz22eOjAjAKFx89IIWKNccJYdi7CIqqkVcJCWp8TOgOLhXJmsZP3vvjIb9QKt19njzq6D+7ee+jEm+esXhDw3ROffvyJpG5O82a/93/2k5/+VNL7784blrwJozq3QYrA6tfOKWGuJmBIiLXYNilcDro2hRCxdBa1BfN0PkIWJFHZG10muFiMgY2xKYO9MdoCkRTCVYh0LJjXXhQvF10IMbVuyK1SSJZSNHW1gmfRo8XkVaFHA3QkJHBRqKqK3RKVnc6uNZjw7HQAsRRTunR0QmGRlI4t/pBcSiXwvGUJFl7gORqXB9EA7Iz1QifwxMOURYKxyEUClHQr5C3jRP762cQuBINY+6deWEy5rDCqOHllNK0YIQSbkYXQjZtamwJNRcEgNJaLsRNESIXxRuXoqAEShmXZwJALR+twBDCGL294IcCE4spaGVxKO+O5AJ5vgMTWkyEZPbjkjV9g7Zi2T1gSdqWSOw8+f8YihUpw6FRtZ2POzhSuDC46pexiU1CR9Cn3AKaQs4Zd/z24xGatiCyqBYNBEhKYAtPWBTPFqdphvz7cv/2nf/Zf15qiLAJthMaIRYCiiScD7Keqyy4/bHP1BM5lrHqu5aHHsxguRsibYhnxWC9G6SraPVUDhUsNUCwqf/ZQYR/u4zqpp3gL5AhZDUZUwkVZKW+LrWAjS40YcYAxUlosDL2PYN7M9vq1S4N6XGHVhodFLgxCtphysaCqTcqUd76eztMLANcjU+QdGG91o2CGxGbUZtulKxSdVDwYUUMPN7CVXZQaYoCsMFPi3XRWj6XrlLOCrsFaAIAnwmWRGr8pDAClpVAJHnXK2EoKhD/HZS6dwgX6ZljPor797W96OuWvTU+ePnY30qBl9KvYlsqPFUrxjW9/6zu//U0pfvGz9/241Ac/e19HRBZvdfIhO+tz+/6U8ezli1vPL8erqiTCANDDLFUpYwJPPTi9UGsEYFetmi2RnVD9ijQlXESUTaAjnPhbBF4MOEW1ICxWrx4toFJZFIANpkQtAgwZ2usJDKOYjFKwmxLMYESuhIvYbPYGC1peZTDKbnRE1IxKOJep7vBA8nKJagojF288vHSW8tYpPKNYIbIYwVYwEFP1E+laDVFNUQGws9QXMIVlJQY1CKlIAMICAw/AHkNskHmlYyHwAPAVn5cRkj0XGDxX9W9IKcq15eEhNzEC41kXsAVBa5HdUB0Rl91KslbAvBh4o6IDt4bA56WCyyuKssPXl0TWHDljSTEQ3h55SMElRccLp1jk3aLowEIlck4ZX7+67FUhCMU+efqZWEiFFS4kV+cyL+GyqSy+b20XhYpOyStjYAoLBni1MXr9sS5kVLZeGMXCVKq8UfEyAmwlAKbCicugqYy8xtXv352PNslLgGWn9KK3qNkc5gIUNP2f/cEIxyjASNixALRwhbBTgCWTnkJKH8CIZ5kP0+WWsLBNAUxgkOiTgnabOdyzHWHoUWU03rm+3+/gx+tgHH16BugyjfDF67lMMJIUMNIhYYFRM68o/XKFdFQOcBaXnGI/L5ilYhwkUQk8IxBO2wuGBYCRokIWn6cBaHlLKjsMaREYCYwRjNB5cRLGUndFo5MFUDr2jELkFUKndHqvBVI6XsrkO5sMUiMyTqbrk3qVq1AgpNFp5jbsG5I8i5qX+17M2/OAfcWR89ZXKHVZl/3sr5d+Uf7Dj371f/7qrxX2/DP3pqdeDJQOlUA/g8okrwcV8vqE1tt3542zvDCtKnvlMXaWHvIpkoKWl/CainXgLE6rCrNeCiovCECyG+WFj0EuUwzTy/U5k2nbQKzKgbmQEGAjOzyhl3c3XunYReGRrihTOqEgsR+sMFebMAwdWzoeAgnGWCyLpIymJ//oBMaImWKMASAYi0AuLVczvY644gkDpma9EAoet3/gCI0Epijkm9qmIiwBwoARGHb7J3AnLAsBdmSBFw/TVFIKAEs8RiHuEGFysTS1RBsbXv0s7BrMFUO58iKJwUgAqsfibFSYpgAUscCWyM6HpC8n7/IIJELg2Smmrp/GpiGtmynjOd0uD3qAtctiHRQPcBZ4rpYW0HH0Ht2WKG/tKMZpqBgKO04jErHAkZSUDrbkGZtaAa15QImEMGIgmkVeF5gpSPDHQ8+CKqNYOrabISq5rPy5GuSSglQDC5mdh5FEZ0oxjdpIcklPHJTAgnNN8PWL2DNu0ezqsIhZ8ERlytgUpykqYBb3RCSMjZSp4HjpqmcnkI2uRcNzvj16kaiApRa95PDCfUQebGnpjE1DWjXC2CHBjS3YUjHymuIs6Y6M2EhgShhHuhMSG9F+h00ugKLQ7mGLvzKQxG+axJ9dFK/Tlaua2emMpaZTEoBi1SCQsMuecLnfcKlK3xgwWWEXNLfbk9oaeggyVy4W75v44z/+Y7qvgAH2gt7Pf/5zP6D+yacfeYKlF7eocwpfHsTo+slnz548f+amNBvg1Vxk7VMJ/eFqyp7tN78sfPfhfDvty9eP7/q72RHZFVkXDLz4Tel1xKsG9q7snUK5YjACEFFGhMA2d7S8LcWuodpI/CkyIneKCokZD1ecZ31mqa1eRhguDKb0SXeym2IgQlgIDBFr3TzBslWQCJGO0bmdN7CRi6QAICQsOM+xm4ytwyGeHglkI+8SHqbLhQyAHS0Fj34hd0lLh5alqGpg36hzBbs8o+V1KFmCnRLmGG0WOjajNY+TK7a6aFquGgncMYrnNxoBZlE2b4FCKoDCyEViY1cVOwu9EC6Wyl6Y7USXFzK8wHgEcim4aZd1j2YivOkS6FypePaWt6Re7lu2a6D19zBlPsvh3fWirBWXMwaSMofy1uQlmMmUdH0YhB9skXZatMGuKeZv/3RGZRCKKbD20bLQpaboa9bk9pw4JAYZd1e3MSALrGD7OXL1UIhAEmZaOGJKeF+c18OApcAASeeCGmU6PIfWPGVavD6XhM4e1wm+LM3JMgMG1Na0gkxvRm1jvAReTRQYSlM6YdxmKHVSeVxKopObmGBjuXW5OkOSqhIiyRaQ0Yu9cgkhIQ/scinZDSRKLkhRLdbyiLKOphVvTICFuNCYRm6cio+IiqFAmPCuTfhLUWDkxsLDC182CmS0SKofA3ucRlEFgrHDYKDbW2JNdQpWSGMhdmRltAuFBFZPVxYP/30buudSNqIPV3l0DPDzn7/vl+O911zs02fzm1Jun87YDz/8JwxSYzN+9MnHXh703Qn3fH7j/u03z+2cF96l4et2nj557nVdJ+b9h/MjCLe8I2NOxRfzZQanHSMGbSLcyulEAVogdPXLBaBgx6JYAK4WJJ4AOrI6am5xAuMxpVOMJED8XJaOLkuE2Xu0KKNEUleqG7nUdIJn6xSSpVgjKgDGXB0C0w6rqes+5ooxpcgiCt40yVuUXK0DBjqkcC4VCiFNBQIQBytFd5sITKxEmDGItWIUFvUUe8l99jzd+lsKDEVhQ0ufK91VwCqAgWK6NYPJyO7ZG6WllpEFLEsFGItlJ6aVXc0IGUU5BMGMpmDlypiFzmhUJ2kd5CoErSiFseOM2Si2KAp7lbMEMy0FngSGRUemOE0h6WVJN/5GSVITeLBS94RBuOP70tlzzmiBZKhuXW6i0VabLI4vC6Ul1SZa3qLwE95SGOsXICQLwFRyvhwZiWmbQSW8Dnq9GMWyCCyXvCvb9RamADqZk9EO95NK50ALQUIilJo+68XNVzWs0nCUKaIwjCfrXHZJiQGsF2lbXFo6BwOPUhQhkMCzYKAQFrRGIYd2NhNFXlH4Q8KYZglQSUYkMJ0b5xfkL5cAWXAaz6pdHjThIZPozuzs+FkqjFkLsgjpSFSh0SkaDAYti5EAV89wnqa2PNNoK5JObBdLFCG7RGglLZadgnYvBywZ2SHpopRNqZ70vCxeWwcgEcpIacqrKYHSsXDJ3iqZ8pLwp7PZtez4jSwCeRndmTzG/NrXvuZeRWrBjUoi32HhPgTsZvbOu/NJMs+0hHzwwfv1qC8H9vF8/eOLO7PG932f6uu3zvOb1z7X7dS9by+6XUnn1vX8jTcUPP/s6Wfv3n9YqezWXCWy4FeJ8tC2AtU/mPNEH5KAAYDRwRJTAtkUOa9ptEZlsyg7S6uBH1ubgQWeJSojpJGlzUMHxl+sFKa8pvHAUyLZSuJxHPM2IsRDj4oCTwKjZa+RHQNwAYOxZzGWlLElFQtToJZNiSkAKdxY8Sph5J2Dd3YvtghjOEETRejSZTfFgD/AGiksbntIKGAUBdCVx2sql7EFzMKLmZ2UYseFsYBJSuwTzCyYTe0HU1SmwSCbGol07MYknlqgJ2AwSX0BU4xcsnC5Lg3dSSRX6UzBeCmX+POPqShZCIDW4LFxGhk7ieiHZ7YijGl70BQDgbd5WxlGwmLqeNm6dOQYIDUS23mx6dI1LwErFkxqOmScs8JvZivCWMk4rTBRIfvKlHaihABfV27+hcHW+RWsRNO8nXO9azJCik2UwTJ7aEDnmG1wCFMILlCYjJ6WFnKhOfuABXWw2HgpalWW4kocW4FrYZQIA7vRVGDFhaEjWXKweALP75GOdKg6dXmmnvnnetpsuAMef16w2BpzAZNiHb+WRRfVmf0mfwAMxDaNGVXI2vdoMap6EaIResZCWNCGVwAMQq4UhIRlV4AOv7Bc6wUWa6xUhA4HDHyFpbCUPbxDHWHkbrEuKLajOv0hyjMqCipPCnWay3MpjXg6ZQd7Y8WHv/xHFq/FO0l0LSlmLmcKTZAvL2V0iLSn3fMWeSeSws4FxV8XPZN7M+vPWzEYKAl7R4eRkl4XRhmtgCKJKanZw3a5QjGGGapzM8OMh7315EVuLJaRAKxxkUplh3TqMm6FkEm0AB1WALqoFLQVUy4h1k3l2cuiBvaFURIhSCB5YQg7o5GuHvalzcWCXJQCyOLZHUqjagklFx5HFl7xqNiJjF3+2EkZ4Qk8WiGMYMYAki5s62Qh8MaMjQo4u0XQSAww+BtZVheiJCMkL1eyXdil6oHXAqFUXgxi4ektOAaKkgqno9VsYEh2elNJy2s6hV6fGFWkE4c3JB6x2cFMCVeVV3DhjFzqNPISPFXIFVK7KmSHeXD/84shcOHscjVVQ03hZNn62Uv06SePqy1yDMhtnm1NlFjLCMDlIJhmYUSIx9itC4ZeUnlJGBY8CUyApnRJjewWwRvZKcWyU4wk2rldnSI+X6bo7Bh1kADQhekaRYvLBWCjG3mFGEtmpAM42PCUXMatQLmmWRgJWD1IFw+L8pzDYIy8coU8odek529XwFwAZYdvarRHedl9xS1CwpiUlM4YP+bK4KpTVGgJOy8erqQy6EXBoAIzZmxktz6MYMt5EyAE7QqXEGBVyR7StKaAKaaETtxRYFZYipKR0DtpHQ60OAVSpBNiSoSYehuUHcYoRJ3uT97v50blK9J5HYhuRb5YFgPko0fv+HuVb5t1o/IyIIA7mXfyuOPU5knk78+zs1m0Mt9wez67fu/WPHJ0yCvGv68dYZ/Juv446lv3/W/2bksBVoMs3p6nHuFr5GI3sjPWjn4pescgO5cyiqI761zklgcALHzhCAm2wOXqTiCWSzpGgVIIKapcEpWrqZEAi8IGTxFITPGEzz7Xg/Nn8C4cuoAh+MtYm2KRdOwqsgrBGPOyEKlL4ZClw6RDAiw5ZUuCURXLlH59doKHPcvNFQAzVTA2CnKWmBEWhS0vgAYZ8bAgNIIROtfN+oHBgClxUopipBB45CFjrmwjDOFCTokBnkUuIwtXUzqF4MRDYmABlgIDV4DCxTpAVY4WXlS3fwBgFlIIRS+lm7KuTVku4KaQxzPr7DMhJ/Vl57OfM4ZnHnn41NTN3pGbct3MxdLKiKUbKyZw659dIONQn7KR3OThwuPvV9Uvux5d05yJHiN2/YlHimKNqEzJuljwNAJUBgsAMQW2jAUCSMQe4ZyfN32HeZYpt3UPmp1uOwrhhSEs7vNqVTFMxpaArggMxq7UEu9yYIizRBW9ZXEB2wRq2/K2JSHhR5mXf0aEAJySOKdnZ769gScvo2KePJ8/gdIZ8RurE5XW5FJDISxx4mEUyyKFWACWmmWkl5FFpzjjZ6+kaF3KAexLeSmMVQIcianwkkqRMYY4WSgLrgZ4VJ7cUAjjiumpx93aaeZYPHA3UqwN9sknj/36qPfc6uPE8c5J5+fk3Z/8UUqdWlYGxSF2B0JbMY61mxOvl/5+9KMf6suLgd5h4Q+F3hxYOxbpdK01D1nmEeK0f95362dGHAF2e9D3bvvaM58d9vOG5w+QY59Dej4+8ublq9tzdZ0rmtQIrdsuqXLVoHgARqNqH/7Wb7H4O9tn3tl8vZE4o5QKYOkwALREpl46iZBROPGyLZGr9tmJ+nfascNG8ooCEHW23GwPtXFhlqg6S81CEQhsFAUcDztwlwAW55Rjt2+ajwqmjJB04STXWmqQt4I1IkSWLRU5DIBcalOzqeObkcURR8tORMUsquxNldf0HOXLg11RvCxlN5a9aUhZwOqawsXCRapw6+TlQrg1AJc9RUkxMDp56UT9RAgMABcSS2RksSbGFTAuUdlNtVxtRjxcAFsbNiIccynQFo4hKq5Twrx5jwSDEVVs2auNN5cDvVWxZDR2O3PYJSIn/1DpF/ndO7OZ1cylYDW4BrMf2BwURmAWVKZGB5dyyIbNCcuLwQgZhoJWF5T2AG8hCKXuneXtExbrg2o5RREWJMCU2sloSqJVsIxgtjoLu18TxsNSRoH4Kx7y7rOX/oo4b6EHBQJ89vyZKwvQvZevHrye99e5kPi/fcvoO6PunvOaweuYz574mPaTqlEZBj3Mkvmm9PPnRx9pwXD3wRy8Ob3O3fHZ8/MxtHOJkVxq5aoSv5/NMxX7yluhP308Hd62a+djLp6LzrKO211oNuKodqGGz4nhYTsRojGn4l23MnL/3C9fzVr0oSuVKKS9WM0qxDzLcY4u7zCfEwmYkYWwGFtKuos43VpJmo4kBr10CHHS2aXTAjbMonjpom7NfcSyn4erpyneN+da7z1uYqtEkOOv75fzCx/n6uB79s6lRFk+fOstjwStXK3kKVuZ/mr9iYP+hS+8a2H85pMzSENf+tJ7T548/tnPfmrDfOc7njt951vf+s43vvF1P4fYLsSjQvEKQOib0L0HXQoWzeka4O/+7m+9w8KdctKM3P7lhx9ZIp2K+ujjXzqIPurrLsMv+/NnT70R2nMo++A8bLzzwptvXz13ynpmJY82/ZItHmeQ1i2NLx2UXSXGsrfCUlRhKwxg6mgqxts1gP1Z1p9t9eA7oL769a8reCiATl8DmO+buu2zJA4NTkvnFqJs9ds8CI0sOB2mjnuwjogoQgfAZgVUAmkvActiS3eUUbkYieWFZBToaSuAWCngxRqxUXh1KsRUCB0DOzyLo1NS9uqRkRczOwu77BT142xLKI8OQySNkA5s7OrT/pwFOi8AcsklvFjkGNTWVFIkhH2FKwALgOnkux6+ShLSsqiZFMuFnKvU8oo1NXLBdH0wFSuK0RiGhdDVzy6dJa0vDCy2BCNmbarKsiiyv/UKRG5qnRGCwXfg2JFgMDK2ekhg4E0BjK4vUtMBzbzWXWH+8kpBDCw8KmyC7BT/t8kZe+Dk0nLsc2lesE0htgWxOwCg5wHeWWSNKP75i3kHqR81kIslowoPcjYksKmRlMyYsKifPqfG+VqZNoD22VEJJPhNgfVI96F+Rsx+1uXVi5ce4LP7UQXFeBgOQLH+tjYGx9HHVKoNw7PX7jZ+h/vVfDHoG++4uuOhcl/B7uNWfphcrGMEKdZhwtzV1T3VQeSdo856Crt0JaU0lagZLgDTRmF00oE0AoA53rWEkLcmjbzSMBIMVh+4Q2hKTLnUF9XhngFbIy8dSUjjVgvAmwWmc9uUZK+keERJQW8KE48RLGQl3RxrBJuoqt2WKSzsJ+Fcx8Gsr+62Ki52GBZSakrZjfo0xlwlRhb9Rlhh4SvY2piuvdiubsVyAZw6b/kyiTL3N3w7UnV0eB/p/aM/+qNv+1jvN7/pbRQOusox2G0Y6teoI2/58xqgF/1sJkeQbk9LwSW7RBVTX6YYwHx22+q5tz57ermDOsqihNgUXgxzFtsoc+a6uj2c5/G8d97MVcMxP/XPycYu0EgAkvrdRQDmVcDjJ589OG+8EXLn4byZxdXZ20DaGzBKIvDOdWJBLKUsRDiAlR/HuWRDsuRN521lrABmI4BcKqkYXlOjKKW21Sm88Rudiupp9UrEC1MNYmG6ZOMnuXjlqtNKgjQ1sifsLDjlFciImR6/wqrflAsMc4RI6LymtUNhEWuEByBlic2oTqOkMIQXA4Ux2vAsrQkGIVay+i3g8jNyicoFX6wQbK0GQA2GiWphkOyaMtIREnowozKMREgKWhlrpK6FgDHi0UtUXIQdrVj6NpgOlrdq6Xhgolp+YB+OMq1mY3iW+LMwKq9YI1lkBVQVjMBp8txR6qhlr55aK52xWH05PbVW0vv3Li9CAvc4hks6W5SFyI4NOHG8AphWpKmdVv3h2YVIRKxwuiLZgwlhlwVAMQCmzkRJXWFMJcUpBUUgb2fB5XYlHqhlQhoXi/Ri8BYpmJIAI6JnrGLTafE8GKTHyZVSfcaKDqBilu2wNeXKm8ILZuRFRYTQiRq41A9pKVlkN2WkqE0U4TLlLVZ4CgD95oiHhQCwE5YUxsiLXSoAduMUdLZa6ZQhkEWRATAEMEYLTkFlnKzXZ3UUq1RHvMJJxUCurAUYDK1ARvo5pq++8+1vv//+/+vosPD6Q5T7k7f2fetb3/ITU3aJKCEwbmOY3Qmw2QPV73U/v9XL5XblZUAwI36rSt+MFFH4RXVM6djYCXBeu9O08nhlMVZYvRgJQLLHXRTC1qGRxcIaq5OXfl5UmCtCLVA8fHMe8qKFZiemfsj46fnQnq2PoWLaTooElhrhtimp+zSkg6Js5dUmNlP3HiFo8YiisNMpGIB5MQjnZRdrSgGrCwBeSxqSi104EV4snR1DuaI1hmEnRRl1zaVaunAYuaQwBaMwAiBUIQsA2vi35nYy+1CfyqvhZmCNFA6JH4kpEc4CIDWFMJaOkdAP8HI6o2U0shMZq5YFDG1KJMirdjk3hSjh7NY5PeYAejdt5QFMiVytT0WanhJm3zq+pthQGVmM6pTdzZfOK6oQUxImyxbD7lmcKHJQMzT18GXvFmXhqsjWwRQbYSQ1UqzRtHo0EsCUUaxKjKZiKYyoKFbP7eHpk3kRNYb2JIAC0rGZAkQFZino7KXjApaRi0VUGYOFaYUlhVSM2Cx04VmqAYknUk4BJ6BYVJbFHya8G9n1Zxggas9obgokOGO1sgSTicIYODwwRQUS89aJculSKjHFwaATsXVFz8VCl6VElS6LcC5T9pIaiSjG4TpR2CBzsQgxBaAozAhPAVCbMQsMewJsjWAISymaAhcCQ0k3lgi4mrHBw7j6c1FMtyp4/FG1SizxR0vPgpDeiBlVel6NUap/A5eHnbCTjJbHr2/YRZ489Rkp34zuRgXgjuW25LGMm1AP8xkVTHd/Uq2tbOvYLt6S7tmJH5pit9TqkWUL3kYYhScwPkQMjIeuZecGfhbbwN7QGp10xYkwTjqJh1K6FLnYHURThZlup/VrbMUAgpXdKJfRumAoKpdKrOm209GsKXdlYBUyqhmhc4bFSnb0q4ounN0Y86bupGXMQiHITa1M9SMnisGGgR2VEabUjASmqqQ7ETPFZj15xZoSLgCL08MCtLzs0/s5j3A6HIwsUkxBZ7cUyyU7BgKwUqeiCixkp9WPAUxg5z5ygHa7xWfHzFgiIcGiavUqvl6EcLEQPKLEVoaq6gJnSWEo7IU0siA5BDPUi0RIEgBSF5RqaIofPpjYlqVST9BEAZxVmms9yQLTVGxlwGAQpX4pzl+LJ0k8jUJkBEiKLdxpGDkjhVEIpZFCsFWqUQqWymCXGjPpRbbsSqJYf/Li+eWJjijhaAvpEVtJJ8dVcFLBlGq0MkiEtG8tODsL+1mcy5c5bWFiMUSiBlJSVDIiYamGsrgcsXv3lr7I5eIuJpaCQXNTiGqwUHiN6AidgNHFWhFV8irXVAjhAqAYlaIBV0CA0psS4KikwGBKMU6Ow1zGSPCY0sOYhjTS8SDnDcO4dl5LaaxIdmAwSuNAr8KSKKBEPBVjWs2UGKQrLjC7GioGYFuAyciCfF2MTSli6QB5WVAtkkIGf9YmpFEUcftxMXWF1aalNjKePeNsuf27v/u7f/Inf/L1r38d3g3VK7o//OEPPVeQSzvuW131KgYGj99CdH/iQtWC2ze6gBdFqRgV2po7Bc6ChGwLwEi4iIspEi48phG2jDFjI8JLESyXkR3YcaxNU0bNAqfQywuAB9jmpEPaWCrsmZC/XflpcbdVWxAewCkdDJWqBAqZqPMY0NTSQUpdCi5GSXFaBMadsmCQ14iN8JrqVwpTunDlCcfJUstSzBqdk6gawkjKCCxFWYQ0xUwpZNlwWmexHZGlkhderOxqRtXUBqAz4qkwIQDsACwZEYJxgW0BYLwsWoswTsWcuFklQl87JX4hOEn8RshtRwoAU0InNdJq65FwCUFI8JhS8KiHxCaQnVE4hUByGYGtbTqYRYuTyxSDqMXHZhpm62FfGELTAhkryUjnEkhPWMhUc/1aSOVVPAClKV0islH4ayRMJGFYCMCCI6lCmJNzkjqyBIxLCIvaeCNfhth26txhsf7VIwpDBRi5NA6zO8F+DszOCBDMA2gMLilqkBc/wdb+DGNKbGBIJBjmqkFuFl1LRoKiyK2p7YWFxchLIRYlXUH0DYRvvWThsjNMXQQVaorh5J9BSM3QEUbOmE5RD2P2oujYjAIBctEZu7ZuSUji52K8ScWFbQ8Ab2UUi5OEXxeAtRNIKIuxsl1WEAKTMBR2MKsR2JirQ4gfT3nZhafXpvDPy3aDP1cPDOxg+uKVWssWVkgpdPTo0bu3b7kyzgNe12Jv3vMkyTsmuMruJue5gli3OvumZw+K8U4/Dylcyt3YbD6JOu6ibi5FPAqIzagexbDjpMjLiAE5nddoR3awUEEywsBHsitTd4xroTMm2hSiKlNsO/qLGR0ncpjCWRTD6DRlL5HUvSnDtBoKgUSoTiJQihaW3Wo4/YAdLNl5SeW5zIniknS3BGbhptrnquuq6nRFwsuCBz9pTTqCQii8jMUC0/MWO12cNQTLYrUpSsUWA/ypdHZjPJFUUi2EEUIBM+aNYcNjAKNEQt8pcPglUQnLzSgugSyb9wTN4hTLS6wzpH4xQOpRFgqXUTg7MRXIZa+2AsabhALDCyHpothNKUbhpnSEAOWlEHZsAIz2A8VUiANKKCjPeNmZEQJb/w7cIK71K9U7clmQ0AkXMHHUGKWwkShiCa/9AwZgGpWpqljKmyJv+MoLmSs7i2mWxYxrfsV7ysBAAhg3Bdd6AdTjCZ86EQpnsQ6MLZ31wcbI5djh6dmhjHR2UQCmLjVoGVt8RroQeEqEYKYARlc2yuWh3ynpcpJjrB9GuhxKQUGyrA4WstKd1VwKbSqQ0BnB5KI4KhlN6zYGhZpaIykokJTWMc7JdB6fIoyTnQiEzMtOJ+xqFk5KByBjXvoJneOdxQhpDGykT5ojgY1m1QbgILnssrQ4JbLKkZvWLzwqeoCyGKM6o9veFOkQWypp4Y0HafFtiFkWZ6sC7AGHWtQpZurxlqL58MWdt378D//X2rJ0j7GfXBD9meqDD372/e//Ifa/+Zu/cSZ4dovZi3vdM9yTRHm5T0qlUvzMPACjhdWOwA4NQGWXvdXYVQUD0CZLGxcbpLpFRcIFozAunIxcLGDEeqYbka+YCiTBRJHIKXm54GGmgLvDGSCqvADwfJUE7J1I3jXqLm6P8tbdLPS5FlsfpeqFYOj8YcTJov5CKqxG8EMCtDHoLE4Ko5DKY5zU51q5Kyx8GSDTC8dmqiTpyKbgbRlRweDkNRJ4MMWHr19g05jDR4WnFPCQjBg6jlyEUSAFzEinGBdmKip+gfXOSNEgAa4GMBKD8HjsydjigYehdxTCGLEhUYADAS9dGfFEdbgv5Nok0RZFBxBO6CTmLI0sBEwNyGUkeLIzSmTaQnUBPTsBrV64ZvNvFivhoazr08nlrHVHnOdwvnVSOooGI5dL1PZ7MPNMokpwchFlQBoBGJ0vmFGBmVK4aoSFVHZRkGVsytsUrY8JazMedgpwACN9xZSUgjHFqCrVYsaZlIU9iSHANuL1G4eeyM5FgLE5vvRCWKywM4j4IIosl9MA7oRchrK2ZMUYUViXHhVWeqR0ihGegkq4aVmN9IwAXl8qylW1q6H9BNMuxE+XS8geAzqLWMjtlhEPMHvFS2rKCEzsp2UzBTMlGCqgcBaBGBLGqjUNZndGa7qYYrcYU7UJtLik1eOVlFG4wAqGPFV8fnHhZQFIqQujmouiVKHYaWQ+azBSneHF+ouUHWzqhqQYSKNL0O/93u+5ObkPeRZFfvSjH1lqbwi0AzxgEeITvl4VtBsQ+jkPZVcPKr3Q8UinGBZCQU5OFfNwgWJUQ166QDydUT0jCSMpRQEE3mY1RSgEYStgSugpqmrFWOiQaI0dXxnZK4Zi+vb5PLICYDCw+HiXMYy1C8YF4AvgTS9H+rikiF/9oiyRO7cVoLcaPh+t5pallaEjqdnsYlnwQ6bXgjMzxZpgBlAVZjzwHRH7rcZbECF7I4FsuSjwUQEzApcOVatKcSfm8jQFWBdaK5FpUSwAUVWGHlOQ51UAcnpRGeXSFzbC24rhFOW4VDkdW0YtmDrobQCcipSIV3lG5CqBN5oSBUtBKS/OhAWmevDkZbHJ6aSqKPAySkSPJwWYxMBCNxIVgtW+1AKVDVZ3WibIYYwAhNf9a4th4ZUXZwvOxTL5rueIRCxrBNA1ZtdDiaoZhp2wWx9tYlZY68lLJwBGLpUzSmGks9MpvEY6i4wVH+1NEpZgMOzVJpauHlMSc7SmKomzFLztuoMdsKqMpq3GgtnpxLVIPTC6xqYArioscFtAUo8wt//0v/13i4K0AFC6+HgZo4Ap3vJJBsOyRYva04xOWqNoC6w4UcLrKqUqhXDZXh0bgJAKIKb4eRHCE5wAMZcFP0IlWUHnDMWtkcX9VWxXh10OIdgguaS2ZDhLxEVkBGbEsBa1wVeha4FzjwhnAVYMJEVqgi07ALsUFGwELZfsQm69mk1Jyig8GDwjQBuCF6FAn1ZwJmhQRyzeM+ODvd/73vdsdxZPsXXt9kNXqh/3cLx81kqdGKRWCRLhfo8KxiJIJKqzC8bbBV2R2ftcrfucKB8SwlAlSlIhiVANmjXtulDZjK7ISNDqon7x8NZ4sSwUJcGo1khYtmUAIsqoZhiKdELoRonUs0dh1vOty12z1lgezkF7AKMMx1gUBjw++QE8JOO4PHplH9e5vqvkeC6bTS7FO+5GAoOngrmk4wrPOCnP2wWtrdWD1wXRmoUCE6IkIouDzl5hdBZe/CyouFA5WCxc0+MRU7AWP3xediG2gUNv0RgdBakp7Pjp9QipGHaVs5+S574S29ZjKgsSqWFEabYy6Gcx5u1/tSMFi5CKLykjJGGXGpt0PuHntWip27f4owW2PhqHN7ZoGmFvwSlViEoWY8UYyclzuaCDscAYcQoEJqpSrTpZCqnmdIBowUiEqJo2QlKMX/ziV7QA7wS04BTtdFCsVRmjNfJqPKqMdOm02YGIsxS1GRghmEVwWgHLaArQRlJhISkAphIByNhUMXRRxDoj5GX0go5KVE4gedlZhMOT2mcRRcpoWgrrFiEYY8JVbRVgChMbXUfs0WanlzQMTlnoLaMpsT3Ezt88xFwTXe7P0NEZgW4KPLAQLixG6Y3oRBHTAKKqTGIWI0uBtVEgvRAA65Xx5ihKuJWKB6YaYKTj7XhQlAFp2pmjPADG2qbY+rxT5fmzihGJkowCCUx6Ch3e2PoCYO68tXUiYayvCoBHSGenqBkVvW1KCWBsQd46P3ESiZGUWs3ql5eCp1JF+TZzJ4aPTDnbjX72cPbcebzjBkMXbk/b/aI+/fRjX2DBiNaNx6gMH6Ly6/KoLGmlqiR+nXqSTifA7F0mjG0X4aR0wpGYykhQCRdIB1B5goexKBYLCAAJE5IC49CYQnJRsGkcv17oFGOLicrKiMooli4w468+/kg4YTfKiJAudhiu+5lrsp7X1u1O3tiiwuZJqqXQNdoWQeXuARZ2i6/3mMNM4lM8ng4cexZRHVBTeU1l6dDUNQtR5FAcQWJK4DWSQmcnFKmJklxrkNMV7HLZ7Qe+vcpeCIsuBKocITs9UYmpBjOGVwXmUrObApfaqNqWdytUSR0BM4YRRQcu9nQ2p2SfCuji3tkNnxe+XAWyd3TijJxOIdG2huqptZLytisKLASeF54Am2ZvP9tv0uHhBaPzkoz1K0Q9p6R5ERuJo6zB7lsUiwYvNRJgUjvqEUUnEcLQ8a89FxKxRg93JGWk4wGLTThFoJFOYEgVmgaWMaPuYhDiGNne7FPPPPabNWRPYRfuzwQUIqqx5VrmMhpJNUjdosWGkFgZNSfsALJbMX3VYAyyEBZIa0IHRpjgUQPkHLBDO21P9Wc5ONhDsJumG4MJYURqpDPSUYsystiOjBQhLI3AUhTIuxJbmIwwSRkjxNNydCGrW3gYtKREwHXhsq5zZyx8hXVNVKopEcslEMOKvPVFiQqyvE2N1bbpTvILSfXAw9C5sBFgUqDyUgB8rQE9jIRuIozEi7oSeeOM0SH3pgcw15p/+2++74O93//+910aWHhdkIftlc/K33r09sO7X52He8Slx574+x//vbza1LsQZ6MFUYDtyKjrWjNq01QImBD7Wxn2FmEXKIpMrnP5YIRUEgUSf23mFX5qm0PfAsJkAaBYGZYNkSUjO6UoRrHwSgU2cpnyOrLBMMRfXtMSmdIhK5vCcjOjZ1e+NyNjRzBvJWnHInTm1EuHUtLK4MUpJH52a1h5ygbGwGKJFq/OagPDCSN7JCxc9GiNyuBFDmbswS+Fq0PGjrkKq6GxLiqGBSddVF5RWQo3tmKUjjhC4GrmEoVQJUSg0ZQAg4U8zsseFt6US166HUJQSaHNEzS7yw50r2Jv0SgEXpZSqEGIKVFGAMb4wzAiNKICo7Bb50JEVU/gAhutp/LgZa+wwne6zMWWpbEiD36cfvNGFrm8tmypLJZvnpniX06zYOFj9heuLSZvnNtXYGMw5752FAOAYQ9HZyV7yKKaIsxYX8KV56zXL0714PSaE93J/vrV/G2VOCLIBRZrxEbA8BC0GHYfCjElXI03O+VlN25fyqhThE4NU1GyhGQsHF5SdhhGeiQ9AphHEFiMGwZaZGHsLGs0TdaIlGxu9ixgKg7GKws7i5ELef3QWXhrwJLJHsPNEY8Q6w5JYAgjXSCXFCxC6MThZDFFSOgkvGlIBdAxdE0ZxutD4wJNhdArsuLxCGEkvEQ6AIqRy1Qgb8YDmSESdphgLPO7TjdWLK8UPfo4N6pHnjb5PK8vSvJOdF/oBwOw56dwun63a49bfdzKq/ksDr/7FgBF4HR4RAGVB4OBzchySrtcK02JJeICa7mMwEYWK58Lc/ssNl73y3rcTvE4JdQZGF4shjLqSBSXUVI8hPfmrq0YIxhBiA2GjspUm73ZLwxjUndgOKUzpWvYgVSnI8eiAGMivPIYIZMaUR7O5U8RBR+YRVXZ1bZ6/GDY4PVVrptsLCpkKWPT8IwYSC78LPgDux9YW8YWk52OCgOdsXpkdwbREyF5AawDZg+6PV+H8cySaBYJgUclF8VITOFbjepsLASDxzdOKxjMGIQo0jGKSiOQ9EM/dRKYONWpJGBTFXLRec8CXB4IcmUBYBeCkLRhhAMI7CqcXi46JQBaIVuSsnGybDqwLQyMC4CF/TTldj67MbzHx4pRiX1YIOQmFUhcPJbQFKfw1uH4P99aBdo/qopNa5UqC3BdYMNQ7OpZTK2MWN7GtZTUFElRWlB5SWWRd126hm/6G3lvLhSXQCRGOlp1Wn+6MuhqQMWiEa+Q4zSF32opNklTCrzeC8E2PHvaqAZjDdBLI7JgdkKvdJEw6Iz07PFmZ1Q0CVCUKSUAXVS0wMSU8DLyWghKYErL3VoE2yguy2GK3CjElG7TlFF4gRS05GY6XXe7OvkvdyZ6GCExV1JGI1lyGElNidT0nbJEG17qMC21QK8iA2uBHhjS1IWDeHHfR6b8tLw7liM3+HP4IetCrOuC88RFwb2N3c3Ju/u89Od25ZB/9mwedVoNgUIwtxHVWY+8lAiNSIAhp4fTVBktYEaBSEyJh2x0ItAIz1un7atS8HKhJRRGY1HA4RUs1rIojyKXvEiqGRhMlCOlYNK2RkU/HHN6EPimXETI/Xvzl0W3/7Hf3F2+A/P2XNbbhZAEgyh1WgfdycJohTGox46qPEaBYCh3QbgqOBcebFapMujAGbGxt2KoGIVMeeemG4a3QAAiV3iKHmuTHcbGIMpAUv28kQDg3HowWMAOKEALHqZ0G64Rvculd+EIaxZbjXi0y14Wsck0cJ4Kz+a4vpoNxmuMXEhg2VnQGtVgJLyQBE/dVZ4pF3FcjAACjXSKUT1ZkMTPSJRRikN/2SrYHFxeCqHwqofu0Bh3TbYkJGtnpJNJcFJYHyFi7YEYwkMqpkYC339w+duV4nlz0csexhQ5L+kihrNmWejAzhfMlEoVeCq6LFoMm9rR5K1IIWpzlSiFgk+eWXlKnB1uJMhZYCjB1JOCBEwUQCXRt2sYibhcms5euDyYqE4u5DEYTW1gYEabU65Sl7Q6Y748VKkCARC1HWgr4IIxvQkoX3h23hV4FZjqRFcVV0oWe67XRsuIeQGWRpSpESdZjEXvTKtaTcLghFFDukB4Ogns/GSxZMoQGFIIQD2yu9ZXW0Z2gLI4aU07HmXMXsFGU/wwSRZ6VMYVRl4iY/x0hxOASwEU7XvcQX7wgx94G4X3zzCCSVEW9VAkdX5a4fpyZ7Kersg+WeXvUrZy7Qh88uxJ67N1yo4TiTEBoxhFsXeGqKRjxygWSe3LCFwxXKJIvYNx0QMbuUon1lSU8BTkvEKQtCCtj5ERnmBThmk8FFEET7QAjjJv+LnHPJsXJ1kI5sk1tU9q4JgpvL4Al+C3O7OUGqZKLK/AeFhIJxUqMsHXo68kZRAZK8lYnV0p8JRiSjnFyEKaYqYXqxFKlhI1CnfoXWSFaBPe1JGiC4GxsKJ4qwrAFBU7S4RKat3ARJUdM6PHQ7lcyOD1gsG5w2jaGLlcFIQrmwsVWqNwpbIDVx6wYqoNAAMvsaRclDWaVoBqD2SOZniY9g97ZXAx7orVVGxchMW0FNnhK8aUl8SAhMIol8brkbHe2YmkhIKZS4QrrTf3CNSyY+1KoiOcwrnB5CKUyI0pSGAIV4RgFCPjeoFZjIxowwzFDQlgJJIa46TErIXWGYNVhWFBaPP3EyTIKhUMwHR6O6mrJCpjgWLpRFTVtmFYTKMyYnC8jOQmT8tYoNE0XbiVr2Y6pXYol/rhcPERuhGCZDSWNZhpmcSrW4nGAjXZQYIpvKXhBY6Zi5gmXJFTEjD8wRZJQYhN1BU4x4+YxrBTGHp7GtsmWqWlgRHIWF/OfPxLwkgKSZGoxinBOjy8psqrsIrHbBr54hktEbFiZM86uiPRMyR3KbcoT6f8dcq9p3NGIlkEYlDnFx49MpURhR5csNyofEXFX/zFX1C8gKOeysBsv/ghMLlYZmuei5rRNQ5VFaKt/vqVrvprwbJQWFJ4nZPwGJQkF5dEm5SXBdWuSStwkzMLgCjIEimPBZWpXJ02SkUIpgX2BBWkRSAsdFW1jFyMRrLksw7ntrS1ySWv7xLkkgsLACpG4QLpwHqEpHTlpbduvGHgSY1gaJ0xoG3BIU0JJRhdCCQGIYdghqYCHfSKOXETmGLUpilmi2NsEVRFF1h3ptPRdVvCxFAidkh6R1MZLMK7Rjig1SkKgLDonZEuChKe0IvNrvgSFW4aRiPspkSIafbG7EIIHRKGa6eymxalL14w9bC3PSBLYbQ4lYfHFFIs0RoXS+FCghlZ6rHwMNandcDAUl9gBF54dRZrpT2hOj+WMLQOASmFM1peYDVwoWIX5QRioRMK2vSlbQpJAFqESLjAVGi0FQECGwODtQlZNqPsplFJlz3awn+Dp2nr03GR0VRIgoGdhagESTCBhJ6AmTpeYO1YU+BGGGyOjoKTeBhbCiEY4sfgegUw35YvUjMrpdw6au9SwjmEU+b1IQYw3Sq4bmKgy+2YCZdPNfTsRvnYJcYJSW/pkbQQeNjBgLcrGJymjAiNimFkoRhvdiW8aXgABQRjwZywyC4dQnaLwL6dXlHzr20HHKeQYKai5DLWBYwpMaWDBSgWXgulo1grsAAK8Irf7//+7//O7/yOXAIthbFOwwDronAu7/f74INfeLXPVd1i+gaKP//zPxfbmgDUCLwl8wsrFIVZN6m5CKWWGeFbb7rTh9d7himacyoaXe0dUt9D4umWjDoy4vR5CR/R97e0DrfnPI6Ga7tqpbNNtdBlpTVRHvKeTSqg4xIAvl2hX+0z4pdIkf3lg06qFk9U6oZnN4UkEol96We1XvlZmbce3BseMHmNkurfhQ+PjIxT+TlYWRjBkHAJpIhA3uaUyzQ2+izWOfkZpdaXFjwhtSOf+LudS+G5wagHLSo8ShVIl5eRnqDiwmzEBkAh7IwEmK5yS8prbWVUpMJMeUkrxlIUZgq7cLoRkmAwrbvatHOIF5A9X+eVtxpa1XmR7c286R8biQobXT26o8MDl7HDqnetql4nkKWj1FRVTYfXrlWiNgwswXCKKh1LfcFASio1L72DTtnLt0qUJIVewLgIGOYq3LVihzz+UW7WyeMscRz4z4+AaMgL1F65V4KHj97e5lI7Xy80m/rVnPteusdfdhVWqinX9HndZhQZj2GiJCUVZiQqqZjs1pNRIu1ouXC0nUeoJGI8NJddLbupBeSlyCLc5sSAGSG7laGP0a97HwYj4SIUXoFS06WTQggGOoHhUg+YqVySVhsXpXDZ/SmUJYyxXgR6bO3RuSjISuWC77BS1Cw1KnYH1wNxyNv/4T/+Fw6V8ZFiOODEUEpmNCV+Om/Gs6xbWVGqIagUISs2U58r4jUVhZMxAMVZp1DTNh8YsWIlNXIRSLsNZ3VKaooZIa9CjJgZhdSkQ2L3ICdcssPwvpq23njQKJarYoSY0jEb1VC1dBina1cHDFtneBYiKqoK9m6zeoeRK0KADmeVKHUubT4X9aX3vvzeF3ztrBf9IOHZ1eNN6mgdJBgFCNcRRW0/+ek//PVf/9Vf/uVfffjhPzq4aCUiFoR+6818Kougskstj18+VBiAUqvHxYfgVAxhtBJG+lvz47q3X71xwffbWm8ePnjn3v35+Y9PH3/84rlz18/B+UvQHQx+jMxWUJ5A5KJY/MSiX5iiy2XUggWQnV5qP36jKVtKyDX13ADCWwGVi+Iysjs93K7EYhBCYbQ+Og2sC7FR5aU7rlJMzLk0+BfGwhrFEhbLxeJA+GsDey1QiBTIuaw5RS5tsleG06Z0ALwTcLrTlwPk93s++uRjl7VCZh9+8b1PHj/Wl6SYjZpyrRFualSJkmRRjxfiAERldBdhtxRgMNIRUa2ekWBDLlZ5p5ZplkBaHCOMWCMetO+88ygXvILVKda1o8sfQPw1O1U9f+Kjfg/vzTaTyCMtbE4usJVeVkUram5UDpOXWs9NzoMGxYjVFDwXGNFmC/vsxXwUiQUzgJbh9QtAMXKxYzDSz4Vk9KiMMLxFaTkXu8MkBRq63o1cBN7IZcyYxUjYGU+Uy5cVm5uTCySy68tJY/FIzEp2+e4gqiGxpDaDj4sYFYyNBcY6w5sGk71NXl6LoHijRtp47AB5hcCTS45z+vCaSgFPgZTCD4JoHAnwaWQ6Io6d7BUADxn53XmUORWWVAHsKncgHBFReLBt3t70CCMLMK89QwBkYQypmFo2hYE3FkLnah3AKjIlHno8SoJUsxubv3cMQyc8UmGEiWxKOmPe4zm/oHe2yIIXoyuZkrx0+ygAC2EBU41VHu8RdoUW6JkuL8yBj117AfCkU7ZCr0GagpUFrVjLLQTGCqLNJdZlmKVpK5JudGyEVJ5AFlQJZJIRDwDk1lblvLPh7szLfRZ6jWLhvbjnJFcbr9GDDgfbR4TdqBD6Hj/h7Mqwk7yvzztNTcWKUphwrl999KFHwR9//CsXTZzKdAqdFZ3LsUPrdoVNj8RzI5vB5d4NhiCpHbciOouMdtH1mNMdhtceErvnKHKW4q252WN+8tm88fSt2+eR+xtbZX4hEkAuNcJ4gqH3S9S9uXbIhR9GlUaYkTtvPPNQG1dLROcFFstPJ9PYdYtTEl7pIButzBBeqxeV7sTzp0jVUHyVL6MVsFydWsVWEsvkOrfGKt+aY9MFpEQKsLZV6OThxVNVs4w9eHz2/J8ezwsMs/JvzzuY5nfn7sxncYAdxB5tOP953JYEYlYDEdKK0TMK2dRxSiojnVJselMMAol+q5NenQGMBIOj6UqkHs06ZIqhAOMUW1/p8J5jv3ZZe/Pag4J3337oF6ZViEFTtdMiDPIcMgye0Rt99vTO2SHs8xVhRwTyODdVK5HsxEVfwQRkrqbngm61J+60IESFxrq24cWaEkqpuWAU00pSEBphHEMK2Im4DCxSb6xwIiOL40Nx17DM9mBb0uOcwz8lWYHAp/x5QHCyXMLrC49FxiMRACRFa1seGHsFdNBtjBahqFyieI2mstR4oxrYgcNv/W4np9TPr5CmkSsDOCp4CnE4nB1z6biuni2hEgcrC51XUvUD+0OdkhSDNmRlAHSOmCK3UDDSdSglYocRxW6aHRUBkwWbCrt0V2pIdveqmpo9Db3VmxaPWoJSAlBYiH9hIqLAEAqpRAoLgFFgH4M9gWxTaHgWTiGlDs+rUJbNGDiLkKZDe9bdFH54z24G0BUS20KTMABc7ITi6yh52xYwOhUOA+kEphOw1pQRhi67Ok0FkmoQ2/qWzlSKcb+aPeHv+6Ighbv4G1i+8U3Pmn67N0Q8ffbEb4D+1he/ZiexSOoRhNG7JExtII/OXBEUgNYtqgcXPXdx3NlPI7NFnJsS3b83z9PVT1eMi7XzzU7Df+v2vO7fCmjErQZMjZVnJACyWz4/6wlqGkBUgSwtAhg8L4u+nL8BGLV8Ag1zHI3nhP+1hzsKbq0o8KfOOSLhUU01Z2dP4vOqhZEFG2Woj0itEuqBX3Ygy/R7vgMFuRQEs8ol4iVyFTVHhpzU7KoSQjFWYczCcTrWAnn9cZG9SiCtg43FwsVYSAx+gNuDgXJNovOAlIvQFVYuAMzHP2cEr+wUXnZFAphizrjTMgKo0MiLhJHeNKSx8mLIZUEgswPI2FR2UyMYC7Fuz10Cz93lzTz4vByySsJA/MKtkQved14Z4cd+Kq8AIzuj1ETNdCR5KWqgs4OZKgAsLx1hGbOIBaNLevjm6Tg9Cy+phfAwLEIIpDEwzuSmlysjGLvCXKkrzHRdjg4pL6NEMU+O6+VIXi6xONvq3QYAAhtLHW3j1hankXCtnS5qY1OM6rl753J7AyZgjC0mnYJKdjoRQhibGum2OkXlwTbvqeL2k6dzfhUIUMFcrkim5eKlM8ajDDqjaQAjYzDL29FhEeU2z0volp2rkurFdPYEH66tzBTISCqIgh2LVwboQghXSg1koYutuPUKYTcS3lPPFKQIAgZvpOMMadxphDCU6gHOqC5Ii0UAegS3ebnACIt18VIW3e5pujCLUMFllMI0y4m+XBnpauaFrwwjEmM1C5nb71l3Fol02qMSMI+pIX3t7He/+11Utq975MPz7PDHP/4xi0C/PuVCFqH7FobuZ3g06KnPrOAciunaUHaBXprjQMLOSHcd9qQ/KuFC6Cr35EoKGOBDs1eN27PLzsGtwUMyh6lLiXBSCgo7XYUUSYUY6d218ZteLZf7nyg/woGNHb4a6HiG+iy7KTudMn2djGgZV6aL8zIdOwAY1yzKkaZc2lQewCzdWRNGtEYCa1QlhRGM1B2wo0YneVl48dhglKYxoDO9e+/yPNjxEjWvrb16/elnjzGbthMqQ7gKTwlToUNj2poY8wYodmurZlNKB3Tqv97t6NiyIJHRKhGAQihopRJrK6rKRJtCXKGMouAZIU2JqYP84Dw9MvV7lqJ04YEU5UBmPefrrCI03QYAABN5SURBVM5Rm1xzbZxNyGscmL/tHN20eqSzjBJZpSfP5gAhtJiMVs8ieIhNEVXNMool2IApXBReYwVrBAM5wMsjJ7CQYGTKO7Fg7PSMBzVTigop8fAqhkjBztiyU1CxK4wOVkjlsSvG66um+jIVJRxY44wF4pROOBHuaoAHpgKi4nIc5SLwACs4K/gQfH5+IQcORpGCDkkgRZkGMDJaZ8wKtvjK2/YFbrVqK7y9bZsRUQ6fBiFNyxVzKYSYVjZlBZ7oVEbdiYVkaVnEClGnFYDBz8vVKl0uGXwC4JDS6yoEe3Sty527c8dmzIudEoaeCwMjqrGcMimkKC5V0hP+JWTpMcjWs1FxQhIhkNXpZ8RZrLLiGWOTwpSYghEYPdsyjsGGM26nvT7jPOlZvKX04hsvEiPC08GlQfVHi4oAEBYwa9chhxerHe+k8H4E3y0ryqsoXuVzx4IBFtvxkMvNySuEstcLpBocS8x4wIBfvHzmNLCoLjqM6pelLl6+mEuVBWDntU8cGV6pX7+Z5y58HCwv51o3N7+p9tWsGCOxriySNteOKEiBV4BUHc9fO2ST9givf1+eB+PtY0eJhR3DKezO7fvzDkCiAHb8klI6XcFMTzETYimsQHh1xs/OEhtL9VNOO/NWAieVKLHV0BoWC3wTP6nPAvLCR6JrIovKjcTOIQpGbv/M+p6LgjLUb5NN7Ovr8p6OigV7/OSzOhIlNbsoIzbKFHCECwAPI51NXhjIABTCmFIgnVcUuyixBI9Ax5G9OoEJABhiurKn8iPsxz+nDMDBXC4fj977gj+RMnMN7K05F2S0Po6X7AKnhvOHQoEw1w0ynZoS96vkcF/4S22i4JoNHIZXC+rfFmAcR4sPENJIZ5dIVfD0dVHOYljMaap0jNXMYpOYKoyeFOuAnOM/N3tRXDAs+ANgwMzOQmJgVFuNcEGWXWH1Xp2MpsAAyBlZclWDsVKjAoufvbzhC2chdEfZziTq9OvAlc1VOrHqdIVh15Rp4Uby6eN5tYMLnuI1HjsHT5UrIxiqzsQvPHpvjso5WYwCucRaz4o5zs+fAnW9RYJcGYWgTcQCVKdwbC6DKmRRgEqqttNZyKX6ggXcFEZpjBnp6MSbWkRTSl1ht1iMwEbTJeznYESJZeSKrZroLKiMBODRoy/EYMpbiOWrT1HbsNQCLQEkXUutchUK5O1I8C7AEywMm0IsvED3CTp7265FVDOwWHYwoiRgU8z4WYxysR//Wx+8/74HHZ42Iaw7eMfS36hcPbsoe61P2Q6Ge8///vgj71zH4P4EzyU1Kodtu9MaACmLg+7KGXmrBCnLKeDXDqgjps5nzy9PZPVSkQ6W8Dh3RMLtnS5cGmQ/yzaLXGDrQ89lyqUjiiPgv6JaGSRJRjrwvE/xvDUU2NqytJiqihYzo1EUAaPHQ0nPyAtJeNkp7NisHgs2K4w2fpZaDgx/6GfQI1ibk50Cw4itqlCx4HG8HCMAssbhP9vMK76OpqRErOPoIu4HSqyPeMzYyi68AsBYUFkxkpGF1B1kDbIoyQhDGLGlQILpDg9MW6UKSxSbkQgxKgle5XThtUkZ6gMwMoLZw/J8Om+wmL/sesMFgWxxWJLqETLKXKku54UCGG0oeAzsYgkS1TpSHiN6vKBsOi+8x4uyW2oLwoJ/2VBxmTaWDiBOC75dU8Ak1aNzDjKwwAoW0oLHn5GXOBoCydHnckwBUNKmjp9R5bzx64heXuDreTFXecbsQoCNXazgSeEs2NKVxy7ElF267Ac+A5f6wSjYVrjSubSA0LSVVA8eEsbKxIO5nQDvwkXEOhy8NkmxatjTisJOROF3RmAA3nqsA8tmVyEJoxjkhCJESSlGIgSnCuGxUSDxG7lYhMyF2+7hYyKmqPmUsmkYQU2VYvugNjWypGQRTllwXjws6Y2FDNUNsKRgBAlAU4BKoqiQiCJ42I1grbUs1lQ4i3D6FhYVQFT3vBvBiXHNTvd/Wd1g3FSwzds8r1cxb9Sdw2BZVHXKRTt753Si+Qm/PiBSHvO3v/UNVJ5C9TjFn52kVp03CbtI+vu7g+QrAI1Pnvhav196X4J0zlLfnOS3Ezsr9IhWwSd29hxmTc3hHM/ldmtqcu/uvBdIW2CAKkxUDaCpZ8/n7XYysiNxlBxxzGJZTtSJ9Ett58/douC5dOr0otSp7akMazLFeDvs+euCyzQv5Ofrc/7C0eXJZkEV2yvxzpazWVl0Jx3BrxingaowJwqqfQoA2K5JFkXuTsgyq3yeiunUIwM8FrP1ZAEuKfAKZjzOPfyMRrq8oii8Z9PNqSEWUgpFpuMXAmNkYQ9mjF+Hb17ccseCKYRdGZiBXV4Zgds2keBHG2cWeomAWZqyKJWwYDCNB9Vs1+vj92XYqEM1z8YUIFxHuaKKbXjPQak81T59MWcWsL9Dm94smJ14FLI8vrgyQSKR0bMrFoV1CGoHybgU73OqezKe5wEIrX9Z6K2JKRJlo1QnaRGMMHiMMVMIchiKqJS86ewaGdwRGN6ELlYiombGvNqXhb6r136rESGQ1SyFfVi4Rkyd3XYgvHCXBSMjNqNAhMTDU5ZEUbkoLBXQeKnyHHFeRmPHEVLePrOcHQl8ucqiQnjnGmTeBw/nqwZ4LYhi3B5cMUzrCw9YiWrQ72OBAW8KXuKM0yCldHQiBNIyClEeS8tIjwRAJewtHb01LxeqWlMPXcZ5scUECEU+OuEWc7PcGnDZZuQiLHSJSUgkBbKEUSEjr07CFx4gvdWBh+yyFTKq8gq/mUWp9XnOgllcJBjsEkgusRSwoqoWzAaydTTIy8jLSPF9EEKEe3zBqAzFWEdTJKZ0IbK0EbvtryVOPOcB6YS7XgsURbTJAuO7A+xX5XknhUo85Xry6WMf8rVZI1QYkg6KqO2dwqWwuzPMrX2XGh6S96Sa7cIyoHNQqoEerauk98o4f2IWCE/OagxGd4fn8mCFRSJedko8jNeQ+Urc2T/3Zz+REzsnoRCjtP6TxZQAWPpOXe1z2eXseudC205gZxRFsYz0qu0Q17h+iRAZY8YArzUtI+ww4a/+UpQFWzKF3brVajhApuwwCJEYK8lIpMNfLzCKIUN4HktJBODAWRAYU3+7+uTxp589fWLHQIote/ySUuqFIsRIlC0XhSsvl9gKo/PSq6QoSVVbbK7CeUmxRiLWVZexXWFaYdawpItngbH43oDtlO+i40MpjEN6xPpUoe0mIxuSSxvm18ucx3rYMDjujIfz8i4b2Z8+n1OM4ioJpn46ng4ufkZRLFbmMMxuJCw1xSvEeipgluxcbbgY27SQSWVXZyQxB4aX/Ve/+jhCRkgwI11qO0T7MGoDZjddWHl55cKg7PYVmMevKmljBAOgRE4BxkOqkzeAEQk7WjzHfLl5KMa0VeLKi9DyGblYDuVwSmGTaEEZuRijbZVclKRwaLylSzG+mxTelM5OgJFIuscFPzZ2SMcOIQWmZeQVRZeOAmmteNUmxGaofjBRXCyL5wJDaBQiVuWmwLf/03/+s/nnCGVFGrxF1qTSp7e351EJFhEAxBSYiF0jnYXrxdN5aUuThMKoODKR5/CwiMIsZPAvJgvXEjJKLZyFPSQLEYKDhYs4tHYGxbXJW8NNz/6el5WBxSJ5dm6flHiMerGTOmcQqk3Gsx6z7UQVS4FkKRanY2xleClGudyEvvnN35bXbQkMj2PgW5HwN8WA3xHqIE1rz+aJIK+MvAjpYXgrQGoCRnqfsM8/8XbFtySKqWD7QXjX6OPVgmc1c+ttN+DxEyTbu7UHK9xNB+b5q7nwEblEyQKsNWL7ygKMRJ0Cuc5TsreePZ9viGAXqEU18Ip18gpESwfglUN5pniseZ8y9ljBgkB2clYScps4HnmRHPLLjpdCebMgZ1sjx6kAJOXKywIpVjpgDPAsyIVM49fHAVwCjXuAwLLgxCOc4vWrCMtinHuRHTjPwOfgjqUT7M0tX8o9P6l1FlMNSGAk1azWKoax1EgwK0/LlLyS2sxiWdDyztY5ry+ZskuXQKIiFAKDIUx4/Ad5uSVzWe1qzkUXglMW+rDMtW4+tRDMW3Hy4knhJv2BGpz+4HywAc+KFwO55NJ4pVKE6wjtvQdzOQYuI6Ni8HjPkdUGYycsdDzWmJ4R2DLitGI1rilU+kVCzuG4XIhM1QDguLu8trUA2D3E3G3j2QULr3R4ALic4JRZj3M1cCLwolJGqcsutWLAyCzFEUb9SgqDmZ2FjoEOSdGIksTmMmWMs43NIhcjgEec/aFBLMJqiESRX/3KfHMbNi9N82rB/qFgUCq7srWzi+Ydy5plxCacXV5gOhHOy1V271t+5+35/sxKLTuM7ABICKV+KylLqySvlrsLWhutoULCS+cSyy4dUQbRLxd7azXd8pk0P8gLevWbivhqZVyd5TfCN0TRuYAXzyuvaSTKooBV1uIzmiaFy8VOYu7ZG+M2go1uFeCtuFgW6yKEhWIFLQq7hWbhZcFAwlAqiRcPYyQyQroj2vcutbLgh3EYHAN7iN0frSLhLR0jNhsFxvF2LLEpg5FSajqwvAiNnc94krLTYbyMPMg7ozuQAi2wXAjBkpCHUHfTPotGUipMFopdISOlAoSUsdF0RS4hrTkjPZf9JvbV61klXnbZFMOL1rnJS3ir0JLR1Wm0/naqEC5lsNDzAsRg+i9K9XBVkhRCSsS460CvTrB0LjphN3rAfOq8/E3bKtkb6unUciAUZrqx7RxTuTq1LveHc0xDttQ+LKxIL3Z1u6o8GcNUQHXWtXrQCiHIM2YxisqiWkiBKXgiqaRWAMC+MqqQJTyGEzKrxKJIIgotxeaMkKvslPM+fPPL35zcrso1rl+XLMbnr+bhF1gjxYGhW0mHOzt+GS8n3ZVHbA02wiTZywurSIG6tkpNubBVQLBr6PybhZc4lEZRwvFQeCOJjddPH9iTXRmcuW0DJS0+BmNGqcuCh5FOIW4SyNdFgXQINnVItEuepZGxRE0RhlSnI2XqamOsux2B9ah+49K2Q4DDG2+6fPAGJwbpdC0LPABhx2NaSCNySCKk3o3EQWEpJELNdojZqwEnErHVKd3JM2tLAaMEKBfkTitjHnDBlZ6y7l0mlpsCD1wUe7GF34StrpOFiUrCl4JOIVGhhC9Fgcb1slsLU0YNnB4uZw5X54M1AvCgoLWjq8FoLYgPRLmhv31/HoM/e/lEM7wPzt9XfWvDrICv4XBazpk6pbx6/kI17m/2B/FswDv9PHnyKNu3H3368tU7777z5S9+ycv6X3rvi1//ylc/+pTnl7/4xfwZTArXC3+UUpunFN5sOC+tvJrHFDrwf2spuzoBWhl9TWHnC+tqX0mKJ63PqyfnEM4FZ3ZMLutwLgsD8R8ZnvPNFF7hmD9AXR/ZyeWlB7GWQhk2kjrp8IlG5jJ1Pj0zuqV4PT957HUg49wcvW9Z6mMfV89Em7o5qc4X9vgjx737r95SwbnxO8QO4rlSf3J90Vw6x8tZrQyrpOWqqgwtmKr2UtY/+4fLQtW+8eyEy/0SVjjj1Hmee7EAG9ei5RYcjB0bKWmYfYbKXiA7cbz2rO66aSln4/l+9/NqEpJ4pCD3vJP2etYJr9R4jJgjF5JipNdONTeViwuhUSI87ABWjyVhSWLmBUsAcvVveDAChvbqvTyqBeDq2ZXbVVOHW2EIhaihENPeyH7I3ng1hf1m0nJZRlkGfIQSlS9UoSMsxRyG6wOjSNBuFAwSgTaMNbdnmrLUAiRMgYxoEVsiJPAEzEqy0BnVEqezoFhTAGFdl5EQXlJftWmEia2O1t4U3hIRtCXaqkJml06/LJIGEG6KvCiA6eGMKqkGSMwAkRjZYYgTip1osEqMrVL8MKaEgtDtCr8aWFpPzFyWCJ6SIAGedubhxyWXLGKJWA/fkejaKAQ4UQaqqg3Ma8peYIkq9RQ+A1cWY0aWCSx3vq0s5V8cl5GX3pjyL+IVvfnKHWyrVId1aY0o1g2McckZK1JgRVMyIvf8xGIBswSgs9vQFC4h252lJIuk8wKzWGijkJWqjafNBOOhjVf2hMjVEyb3MJhIPC7/2ttfc0+yaRx7h8ToWTmwQLmk0DhmqRmJDwawl9S0Tk2Pc4aKF5iLwtgo0LrZRYdhIz5X4im2mpHYXfBJnDezWK3NXlWNv7GSYYRrhG4keOj45eqAXho7FC2REDMjEWJ9lNdmEK6qqjXKSCif93ND48KTARUFUgoMdBbT9FPS5Y8upQagyO6AenN6JAjhHTJGXrcrukNMOmTxONYCuTTILlagEN/7LilMbKVQz2Agrg8bpSBgygtsrP4C2YUQikS8kdiBSMSyE9kP0+dntXA8CR1YLAy9cYqYMi6nCST+BEYWI8GMv5C9XZnCexQCxlvNYznidlUuo7Vjj8o4dv/duOXkHftlHYaQ0TSLUZ2VwZ4sIRe89QFzFIymqqIs8hR1GeDZTYyn/Vkli+lutPYySgHmwaWXT/B3CjMCS1QLkCwCjbUghL7CRcq9RkhS5VxITNVMshuBBbJQIMPQHSBeLrpYAM/5bE7rw85SrJEI9BORYsEEmoKJpeuowuLnMuV9+WrWnzEGI53A0/Hwlp3FUvgYMqlCMLmqcCuhkPKCRRgDvb5MMRtJ+JNzBpYwRi7TjLJQ/j9nGvDexVYwcAAAAABJRU5ErkJggg==",
+      "text/plain": [
+       "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=570x380>"
+      ]
+     },
+     "execution_count": null,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
     "# Lets create a prompt.\n",
     "\n",
@@ -69,7 +94,22 @@
    "execution_count": null,
    "id": "4",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "You have video processor config saved in `preprocessor.json` file which is deprecated. Video processor configs should be saved in their own `video_preprocessor.json` file. You can rename the file or load and save the processor back which renames it automatically. Loading from `preprocessor.json` will be removed in v5.0.\n",
+      "You have video processor config saved in `preprocessor.json` file which is deprecated. Video processor configs should be saved in their own `video_preprocessor.json` file. You can rename the file or load and save the processor back which renames it automatically. Loading from `preprocessor.json` will be removed in v5.0.\n",
+      "Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]\n",
+      "Loading safetensors checkpoint shards:  50% Completed | 1/2 [00:03<00:03,  3.13s/it]\n",
+      "Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:06<00:00,  3.27s/it]\n",
+      "Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:06<00:00,  3.25s/it]\n",
+      "\n",
+      "Capturing batches (bs=1 avail_mem=21.63 GB): 100%|██████████| 35/35 [00:10<00:00,  3.19it/s]  \n"
+     ]
+    }
+   ],
    "source": [
     "from sglang import Engine\n",
     "\n",
@@ -83,7 +123,15 @@
    "execution_count": null,
    "id": "5",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "In the picture, a person in a yellow shirt is hanging laundry on a clothesline attached to the back of a yellow taxi in an urban setting. There are city streets, buildings, and traffic lights visible in the background. The scene appears to be incongruous and amusing, as it shows an unusual and somewhat chaotic activity happening in a busy city environment.\n"
+     ]
+    }
+   ],
    "source": [
     "out = llm.generate(prompt=conv.get_prompt(), image_data=[image])\n",
     "print(out[\"text\"])"
@@ -102,7 +150,22 @@
    "execution_count": null,
    "id": "7",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "7c94dead4660409c9acfac1f3461d7d9",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
    "source": [
     "# Compute the image embeddings using Huggingface.\n",
     "\n",
@@ -120,7 +183,15 @@
    "execution_count": null,
    "id": "8",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "The image shows a scene with two yellow taxis in an urban setting. The taxi on the left has a red light on top, indicating that it may be waiting or preparing to drive. The other taxi, which is facing left, has its hatch open with some clothing or fabric hanging out. The background features high-rise buildings and city streets, suggesting this is taking place in a downtown area of a city. The presence of multiple flags on flagpoles indicates that there might be some celebration or event within the vicinity.\n"
+     ]
+    }
+   ],
    "source": [
     "processed_prompt = processor(\n",
     "    images=[image], text=conv.get_prompt(), return_tensors=\"pt\"\n",
@@ -138,6 +209,308 @@
     "out = llm.generate(input_ids=input_ids, image_data=[mm_item])\n",
     "print(out[\"text\"])"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9",
+   "metadata": {},
+   "source": [
+    "# Querying Llama 4 (Vision)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "10",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import nest_asyncio\n",
+    "\n",
+    "nest_asyncio.apply()  # Run this first.\n",
+    "\n",
+    "model_path = \"meta-llama/Llama-4-Scout-17B-16E-Instruct\"\n",
+    "chat_template = \"llama-4\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "11",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "<|header_start|>user<|header_end|>\n",
+      "\n",
+      "What's shown here: <|image|>?<|eot|><|header_start|>assistant<|header_end|>\n",
+      "\n",
+      "\n",
+      "Image size: (570, 380)\n"
+     ]
+    },
+    {
+     "data": {
+      "image/jpeg": "/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0aHBwgJC4nICIsIxwcKDcpLDAxNDQ0Hyc5PTgyPC4zNDL/2wBDAQkJCQwLDBgNDRgyIRwhMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjL/wAARCAF8AjoDASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAAgEDAwIEAwUFBAQAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdISUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMoEIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0tba3uLm6wsPExcbHyMnK0tPU1dbX2Nna4uPk5ebn6Onq8vP09fb3+Pn6/9oADAMBAAIRAxEAPwDyDRuNQLHnCmur4POccdMVymijN8/H8NdUM7c9+lSNDkwpAHUU7Py4xk5poOeaeAOooGchrCs2qTDPAx/KqHlNj/GtnUULalMcZ5FReQOoHFYTnZm8Kd1cyxGynnj8KcIcirssOGzihEPpxilzh7LUqrD1AFO8sjg8VbRDycHikeMZzS5xuFkZE6gynPpQsSuRlsVJd/LORx0FRpksBW6bsczVmWLWDDO3opxW5oq7bJzz98/yFZkK7YXI/umtbRxnS29fNP8AIVSEbGn6ounTRTHnaM1l3Wo3WuX8zeaY7fPIJ61R1FijKDwp4yelTaSvlpjgjrmlbW4/UqRzvHHK4iUIGOAg5GD+VOt7+EvuB+Y+tWH024SzKx/NnqAaxYbeWO5USRuvXqKaIubfmozbumV4708RkLkEEEckVj42OdjFfXB4qb7SyHh1f6jB/wAKHJpm9OTS0LoGXXI4zUN+eV+tJHexORuyG9xS3GLhVZGB/Hincmo7s1fDij5zjOZFFbsgJkYjj5jWJ4cG1iCRzICMGttyA59cmlclDZsCCTj+E/yrnrvixjx3x/KugmH+iy8n7h/lWBdrmxi46YpoUiSIf8SzHoppmmDFu/1qaMH+y+n8BqLSz+5k/wB6mSQ2qD7RMf8AZP8AOqmnpu1KIf8ATTmrtlzNKcfw1X0tN2qRZP8AETUsEdmMLaxAen9abMP9ElXPVTUihWto8ggbev40yZSlq5wPu0It7HJwXt3aTSxxklFHNaFrrkD2rRshBboRVOBAYLuU4+Ykc1E8KnRQxUEjpxyOaZFjoY5o5NORI5EdicEA4I/CtRPk0/bzzdR/+gmuCsYJ3hkk84hV6A1paVr9zcTQ2c3KGUSZ75xikwSOqnYGU1kaq37xB6o39K1HYFzz371kaoMzLjtEaRT2M1OYWxx8wFKwP2UA/wATE/lxSD5YSfVv6VI/+qjXvg/zp7akI6zRDs0mEd+f51o2uAxQFlQjIO7O3ntVDRbeSS3tokyPlJDYztINaPlSW7AyKimRSSg4HBrWnWppqDep9dl940kr7l7eu3e/LHoxH8/SuT0P994zhI/57E5/Ouh85DCSWKnacE9TVDQdFu7PxNbXMwjMTlipVwex7VrWeyOfOZXpxGa6c6kx9Zz/AOgios7UJ/2TRq/z34I/57Of/HRSN/qnwf4c5rm6nziMiKMzzHjqa6Kzh8qCQ+ik1m6fb4Y8VuEbLGZvRG/lSZn1MLRh+5JHpWzqExhs4HABO6sjRxi3/KtXUcNFaRk43E8+lCNeg3SLn7WZywPyYHt3rN8Su63q+X5mQn8A4rV0zEbXATBAIGRVa+uIv7SuEmdV2oCMnrQviBbFrRVaPR4t+dxJ4asK/QvqE+IXOX4OeK6KxYSafER0NYMt7DuuFKuZPNIX5PehbgdLFhLFB0IUcfhWWl38oHkHBIG7PFakxKWhPohP5CuatLyV/stuEIYuNxLD1oWojor077KRegKkZ+vFc3Y6OsN9bz72/dtxW/qoKaZcHPO3j86xNPvWn1OCBmi+UZ+U5zxRHYbN27keG3eWGWSF3wrmNyuR7+tZOn2Pn6tbPjdcM21c1oauGOnkK2CSP51m+H7/AD4gtnklDiNl4C44zRF3QmrHQazBdaG0kcg8udcZANZVvDanUBsSOK5ILFAMBs+nv7dK2PG2sPP5k3y/JLtXA52n/wDV+tYGg6xcXV2UmiSaILn99GM/gQKaWgr6mhqDBbQnPBIqvH5SX8KJg5XeRnmk8UXMR09ykLfLKvyseq1k+Hpkn1fYsXRDzR0H1N3VZAtk5f5VyBzVOxK3t9CYWBji5kf+FcjofetjUoUltD5uBGDlifT2rLtJ0lvI4YE8uFclEC4/EnuaIvQOpvrOkbDy081wPvyDj8F/qah1G7unu/K+0SbPl+UNgfpUXmosgRidw7bTUdyGku3uId4LMp5Q9hj1pJjtoM1eALp7yHqOhFcq2lx3Ukf2olvm6ZrqpLkyadLb3bLJOQ2xlGEDdV3DrgCq+mac0FqpdvMaTlsoML9KadkSONpDZ2Dw28YjXvisY6bbZPy/+O1ryxu96YpJ3ERTIiwBg59fSs2RJxK+2/lxuOPkX/CiyGee6MQL1/8Adrqsjb37c1ymjAm8fnjbXVc54GRUjQ5Qd+egpx56HimLyByc1JwTz+FMZgXuBfzHBPPaod5CYCmrt0n+lSkDnNROg2kY7da4ZS1Z3wi+VFX5mHTpQkJC8sKmjjBZvSpxGB8uMkVPMUoXK3lYHDE/hUbx/Ly1XduecGoZE3E5pqQpwVjAvQBdYGegpIk+bNSXw/07A9BToV55rtjsjgnuy0oIt5P92tjQUB0pu370/wAhWQ3Fu/0ra0Aj+zcYP32NCJRZlsEuItsnNRi0EDFQOAK1YgNvPX0qO5TOTjtTG1oV0GLfp1BqK2QNMAVyMd6n2stuMN271DZ7hLkrng8ipZkR3WnW0gOY8E9xWXNo2P8AVS59nrenZSSOnHQ1CE3AkjI9M0OVtzopuyObFhPFOuUyB3HNVfJb7cBnjPY4rrVRVmTnPtipLPThd6mMp0OacZ3IqFTRYpba+Mb5JJX8ARmttic9cjNMljVPEkygcKyj8lpzHnPTjpTJi7oZcHFnLzn5W/lWHPteyRVbLLjPtWxqJxpdy3/TM1y8e+GwSYOxbbnB5FNMJGtGD/Z+CDjGCajsXhiVwxkOemxcmqVrfyzW7Fk+QZDYOcfgasWN3bqrbHyG55pki2WBcXAHoe1Q6Sf+JnGcdGY1PbrsmlckAMOOah0cf8TNfYNQ9ho7DcBBGBx8oqG8YLYXBJ6KamYgIg77BVTUeNMnJx92kiuhhp8mjMe7Hn3odduiA+v+NOn+TSYlHei4G3R1XHpTIIohs0OVx1INM0OJTqkYx0B/lU2P+JE2O+f50/w6gfUlJHRGpMEdG5+cg+tc9rl/Ja3sYVdymP8ArXQuMyE8AE965jxEubtc/wBwChIp7DI762mXYf3bDrk1Z8sOybGDKo6j/CsO4hG7pnIB/SmxyzQLuSQgDsadl1JR614anWG0RHfOUJKD+Hmr1/MqxHYUJ6Ekc1w+i6jcGy3uck/LkVrpPJcLLcOhAOFyWH8q4Y4OTre0b0PrMFRtCMm9LF0uu0sVPTqKzfBZd/ExbcSFikOc1P5o2H5T93uaj8DLnWLqTssDV6dR3scmcaxTHX7br1T6vIf1AoQAnaxwDxkimXWWvUx0w5/8ep6ck/WsVufPrYvWthIhcfLiMZJ3dR6ir12AmkXB7+W38qZZDfbkHqh4PtT9Wwmk3QHRYiBR0M1uYenIEhAHtUmvvHFb2zSgdT1ptoCI8fSneILRLyGGF3K96EbdCfw46vZykKozJ2+lZetXcMOqyBsdB2rY0REWzwnK7sdMZrN1PTorzUHkfJOex6ULViextWXNhbn/AGa4K61KX+1J4Ukcfvzx2616HGFS0jI7KCBXMDSbN7jzhDyz5znvREOx0V45FlMcdI2/lXC6GGfVrQ4P38klq7292paSkjI2HNY9nBFHcW7Ii888DFCAv66caPOR12d/qK5jw4C+rrIYgNoIBrsLxlWFdwBGehqjaxLDdIm0bipbnrQtg6ly9jEkYUsBg55OBXOeHLedNSdplOChwfxrc1aTyo4vdqjsWQXTIuDsXnBzQloHUb4mikm09Y4ly3mDv7GsXwxYXNtdSG4yPl45rodVlSMW6u4UM2Dk1Dp8kct9cCFg4AHShbA9y3OFaSFJUV4JG8uXPXB4yPocGsbQ9H/s/WrkF9x+ZP1rS1WWOBIhMSqsetWbWRJtTeVclmgWQnHrgU4q6DqJqwZ7dAvGGzis3TFf7YjucAKeKv65crb28JYNt3YOBVHT7pLm4IVHXC55oS0BvU6iCASRI449ad5RVskAAHNPsCq2aZPvU8sqCFmyMBT2qbFI5CVoAzZkjAZ2Jy49K6PSkT+zYCu0qVyCOlcitnZiYZiBzye4rr9Oi26fbrGoChBgU7oS3MO/u7K31iTzZlVlAGMVQ/tOw/57f+On/CrGohG1O43Rbm3DnFVt8X/PJ/8Avmi4rnmuhKGupTycL/WuoySQM59q5vw6MzXZ/wBgV0e7HXrSKSHKPmYdKVeoOcU0E5OW49KccnsOKCihP/rnJ5INQsBtqSVCZnO4jJ6YoSM4wWrz6nxM9OmvdRFGueKfj5yCackJ3E7qBESCWJOai5VtCM/Kc56VC+SeD1qwYlKnIqSG0DyKewPNXEzkjmtRTZqO3H8IpYxzmrGtpt1th2AH8qijFd0dkebP4mSSD/RX+lbegLjTc+rtWLN/x6vj0ra0KQCwRO+Sf1qiUbduMgcHpTbjpnrxUkGdnpio5yCpA69KBvYhYDyOnamWaZkJHZanliYQ4HoOtNtUZWc/hSMrhOmS3H8OaqhFUHjHvV1wSr+uBVdxlSMUpJM0gyKEb5k5J5710+i2PlsXK8k81i6dal51YjgEEV2NjFsBPpRGJNV6nKXCj/hJbr/rrj/x2oucde1TT5PiC8PcSt+i1BkkjDdqoIbDpQrW7hlBBGCKhvNLtpLAjy9pxjK1O+fIYZqS8Oy0wRjkCpdymjCh0Fk09/JlDZ3EBxWfY2E0XnGSEnpzXWwkf2fx71X08cSj6UKTJschZl91wA7Db0GeM/Srlg8ouoJXQEMDkgYxxXQ2tlDO9wGiUluM4xU17psdhZWEajqzE1XNcCzIRtTn+BePwqlqfOmSj1q5J94A9lA/SqGssRpExBIIGRTRT2My+GLKBRjHepL1Smmoo/2ax455F01blmB56VakvpJLSL7QNqP904/wpmZZPGisKd4az9uJ9Iz/ADqDzkbTGhUnd2q34cidbp2KsBsxuxxSkUkdC52uB1+tcv4hb/T0AAHyc10znL+oFcxrgDakxP8AcGKExszrkHeoz/Cv8qilH+jJ6liTVm4XEnrhR/KopFzHF/vGmKJvaS+LQEdjyK0432zPtbG5ARzWbpJ2Wg7Zb5T71qKwwCUUAZwccn8KzdaztY+vwlRexin2JlkDxgY7evepfANwJLvUxjmOLHPuf/rVWjddrHaOOvtxVvwJGqR6xJ0OAM/iauM1M4M3knCJHNLbtfFYZVk2x4cg9GLEkVJGMy496wNGQi/vpMk7pCD+ZrVvL77BbPcld2wjIHuQKFufP9LHT6eNuzHd/wClM1nI0a5z1K8fnWbovibTbl0V5hC3/TTgfnWrr2z+xJGR1YErgj/eFHQzS1Me15RTjvSa8HNxCyAEeVt5YDnNLaDCID61F4iSaZoRGgkweeOlC6Gz2NHRSUsF3YJ3k8fhWVfXUtvd3MeYf3hGCScgVo6GkqaXGjrtYM3H41h6rbzSalM68jihbsT2R1SAmxTnkoOR9K5i2lkN1Fbm4TCy9BGeefWuk2lLOLJ6IvT6VgWunbb5JftinEm7Zg569KI9RPob+ooZLOSMNgsMZrNsrKSK8iZ7tpBHwF6cYq7q436fKucblxmud0PT5bfWEkeTOVPGaED3Ok1JEuI0jlfYmeTnFQWUFnHc747jzZQCDl9xxTPEdubmxWHOCWzWR4Y0v7HqNzN5m7emOnvRuh9TQ8Tywpb27ORtEmefpVfwxPDJJNt29ByKseJ9NW/iSEuQPao/DOmpYCYBidwHWi2g3uWvEVzClvG0gBweCRVbwvKj+e6EkZAqzrdql0qwnJA5wKfpMMFjGUHlxr7daFe1ioUpTlaKuV/Ftx5VnB1ALde9a2m27pbRXTPGUlt41UB/nBAycjtVHVRDewiIGJ1H96tW1mlOmW8bNFs2nlF5wp4/lVJNR1KqUKlNpyVjK8Ru5t4VRQctVTRQ5nl34GE4qzrcmHQcBcVFokm8zn04zSWxi9zrIMCBBxjaKjuG/wBHcAjO04qNA/y91x/Sq905jikc9FUk4qSzLcStcKnlgFYycE9a6q0bFpCCvOwfyrGn0+9t9J/tya3ZLOQBFLcHnocelbUIUQRcH7g/lTsJHOXUchvJX4wzHGKpG1fJ+dfyqSXU281wLWdvmIzjjNVzqE2T/ocn5Ci6A868Pcvdj1T+orothI4JNc54d4e79do/nXSc4AxSHcVWIU5/Wjv1yDRkdOOe1PG0qAaYIoP/AK5+vWlwAc4/OmM4WRzngGhplx2rzZ/Ez1qb91eg/t6etLk4xUaONpbIx9aUOvTPIpFXGDLHgHrWpZR8HIwcd6pWyq0mfeta1T5+xBqo7mUmcZr/APyMUoHYAfpUCCp9eUf8JJc49v5VCg5rujsjzJ/Ex0//AB7P05rc0NP+JZGxGM5/nWHcDFq34V0mk8aNZgj+E/zqhGnbk+WeSajuhthYgjJqSEnYSBgVDc8qRjtQN7FV7yeOLqG9iKls9RUqxkh6HqDUcse5cHgVCqBFK8HPPSkZGmt9Zur5kCn3qRYopV/durA+hzXOTJlH9CRVaBXW5iUMRlh0+tJouOx32nWwjxxXQWqkKazLGJtoIU4xwa1oRtQ1cTKTuziSQdavW9ZJKhPUCnxuG1O+Y/8APSX+dRkkn6daRrHYk6xgZzlgP1qzeg+Qo9xVeJdzIvqwxVy9jby1A9aljbIo0X7DjGcg1XsI9hk5Pbir6RkWI4x8vWorCJizjHU0CLGg2hkuZWIOM1L4pQK9gO+H/pWtotuEL5GKzfFZ/wBMsV9Eb+lNIl7mZPxIc+38qhlQNaurjcpFSz/61uO9MlBaFsccU+hfQz7rSLWTSVRVMeT/AAVQ1PRpfsttHE4IX1renDCwjGM5PakugDJarz1B5H0qbtE2IdK0mKfVFM0XmPBxszwK9Hu5ja6YsfkIEHZVAA/CsjwnbQ2Vj5rjM8zlya6HUbm3lhKFUIYc1HtE9zsjS91Hnt7qNgJ8SgI79CK5vVAsmpyAOuVxkE+1WPFNn9k1MOn+pPIrL13R7l7hL+HZKk0anEbguvHcds44rSMk9TnnTld+QtzGTKSR6VXdfljHA+YgkngVFNfzWyxwtFsZF56/N9c09L9ZmjR4TlumDV3VjNHQ2tsY7V1R/Nlz9+BwUU5+nNI8UqLvdpAF5Jx071NoMmbOdRn5Xq3qH/IOuQOuw4qeVM9Knj5QiklsZKXkB4a5cp0J/wAiuq8LQi00fU7hSH83DcEcYziuARAImLkjOOB1rt/Cu1PCeouGchpCPnGf4aqKS2McVjJV0k1axjaJwlw5/ilJqbXju0iVRjDMo5qHSOLR26Zlp+tEf2cQf760luciOfkt8rbKoIdhjipUuryG7NnFO/kmTBTcccVaRP8ATrcEfdWq8CBtXzj/AJamm9iDt7M5WLjFSagqSXzREgBU3ZJqO04aIehFVdce1jvVMoAJHU1K3L6G9Y+WbND3Of51gyXFu8crM8e8SFQM89a19NKjTrfZnaVriJr4JqkqbIyDPtHycj5sdaI7sOx3d24jsmJOMR5zWNY3sElzaBHBdj8wrX1MMmnzN6RN0+lch4cuZ7nXLeLqBktx7ULqJnT64xXTm4OMj+dUNHuPtGqx4BCLERyOM1oazGWs2RTySP51l6BJI9/Mr5O1e596SkrWRT3NHX5XjSDCk/NzimaLJ5t3OwVlQAY3VF4jlCiHJxyeab4ZcSNcuGyCyimnoLqTa5cGC6t8LlcZPOKXQ5jc/aZMY+YACqPigwi+t1mDEbf4aseFVVrSZkXCmTv9KOgdR+s3b2t5GVVGXaerYqfTA17YudmG3HGysXxkkpubXyV34znitnwXeLa6GY5kKOZW/KplUlBe6rs9PLG1VbSuRXJe2XL4Bxye1aumym40exkbkujMcf7xrL17zGsrp4k3SEfKo681f0mNotC02Ngdy2+D/wB9GtZSk1qjpzad3GL3KOq2009yFjkCqEGRt/rUmmWj2ok3vu3Y7U69e3S9czMR8o74p9m8cit5WcdMmovoeI9zeBwuOOBVG8kKRSthThSQCOKt8bmBJ6VSvABbuRknpihDZZ0TxBrniSzuIdda0XSlIRVSLDMw7Dn6VqurGEqsLqBx8gLY+oriIbmeFjCgRY1cKqAHA3Hk/WuqlmdY2KOVI54bmm2RG551qcskV9JFKCGLErzxitCAH7PH8y/cH8q2NQePVIYo72GOWWL5luNoDn2OKjitU8lOF+6O1TyFc6PMfDoG+6PTgV0JJxiud8PnEk/uFxXRZycnHPSmOw5QNpY0owRktg03jPX8Kd1UcU3sNGc6fvHzzk8UyNAc5xkUSORKwx3pqvg158viZ6EX7qBApYrgYqVI8tmoY2ySat24yeeaVi7ly1jUkApW3AgOCBjHFZVucHBHJ6e1bEAGV52/WhLUzk9DzzXv+RmvPYjp9BUKDmp9dx/wk15/vf0FQR9a7o7I8+W7C5P+jN9RXRacR/Zdpg8+Vz+Zrnbr/j1J9xXRaUuNPgPrEKpE9TTh+7gdKjnOXYegAqWMEKBmoJ5UjWSRz8q9aBvYHTK1C8I2cZ5p8d7ZzfcnUE9icVKyB0UI6tx2NFjHUyp0CqwyeSKkhjX7Vb8gDevJ+tPuoX2jK/xc8U6JGN1AMdHX+dFi76He2qlVwGBFXkUBT7kCqVsvNXVGFH+8KpbGRwMJDz3jerSH9aZnB70WfIum92/9Coyc+1JG8dhwLDaVJB3dRUl/fzwRqeG56GmJhmQED7wPSjUUVlUNnHbFQwZai1dBYBpYj93Py1f0Oe3vld4dxxjOR3rlmlU2pgwemATXReDITHbz5/v0Ik6zT02l8elc74s51WzH/TJv1IrqLQbd3vXK+KiDrdqPSL+tX0Baszp93nSAf3utNb/VkZ5x/hSz486TJ/iNMaWKJCZGwDR0L6FidT9lgHekuUJu7dMelTTNDIsCrIhzjAzzVr7OH1GJs5wPrUk6oVr82J8ts49KDrNxeALDETjqSOKTX4riCA3dqxDx8MO2K5S4/tO903zPM8plfayJn0/WsJQszvp1HKKtui/rULX7FTINyj+GqFqjiySTkhmAXjpgcD9arWhNuhYvuLV13hq5sgXtJIUkRogQrjIyKV7OyNVFzTXVnM3kSyTuHUMPcUlnodvPdWpjjKspzweBye1ezweG/Dmq6fG8ulxq0gyXi+U/mKmt/h/pUeJLaS4g9nYN/SsY42HM4vRo5amGlFnlq24tbm7RFwokx+gqprEjR6PdFPvBeK7XX/Bep6e1zdoFuoXk37ouq/WuSuAWtmTGc4AAHPWuynVjJXTMHFrc4aHUJfKcuA4XHXrXonhp0PgG6lQMoeV+p5GBiucm0ZpI5g9lIOOoQjvXV6RZNaeBfICMCzvwwwea1TTJcX2OZ0sg6ewBBPm1JrAzYoOTmQf1pY7QWRlhUYAmwfriq2vXLWlpC6qrfPyD9KS3BbB8qalFnuuKpWZ3aqM93b+tNivTNNFK8bbwofj06Uae6NqCOH3BixGKb2JR3NkgLRgEgjFM1ayS6nDuM7OMCn2J+dDjpzzVPVry8tbqYGGIRyLmNmbHHekiuht2cSR2MSA8KnArnf7KtZbgXBiOWfOS3fNdDAzfY04w3lDOPXFc7ZS3LvbxGSPYsoONvzHmkmOx02pf8eUquPlKkYrIs7KGxul8iNVdxkYznitLUQ89s0YYLuxziq1naTR3aTS3G8xrjAXFDV00S1ctu0eqWSneEZRkmixs0L+ZAgJVArALgn3qnO6W12Syfe6gcA8elXLPUomAUHJUfMa4oykpW6GXNJSsU9YHmyJHt5xxUmhxKDNznDCn3UUFzIvmTGIg4Vk5/OpdNszZeafNMhZsljXWpJxsaKV2VdVVXvth67RjFT6Gu63kJ7P0/CsDxIZxqyNFKyqyAYU1t+H4pILEpLkNvJOarSxV1cTU4vNnaMcAY5pdLGyWeJxnzAGqlqkFtc30yGWRZm2jcGwFwO/sat2bLAUKyF2jBXJOCwPTP406c76Jao9XKZXqtIt6jE9ksBCeYhGWQnPGOlTiVILW1LHankqM+nJrMvr9b5ZRMgO3oBWlJBBcQ20bvsIhXaCOBxXP7Sdm5bnNmdSTrNPoUtbsYZ7B7mMkyKOGB4xS6VbGK0RiDsfBqzZWUyB0G14uxL/pii3S4kndAhjCvwCOD9KiFV3szzYzdzS2nc+DxWVqcrxWruieYwI+XOK1DhAWBOc4Oa53xHdy22lzTRY3KRj866UzovoUoJ7l7lAYB88ilju5Ug11lw+2GXpwjdfpXBafqNy+taZCUGychpMDoeeldzeHbaysByEP8qfUUTh38TSrkYgAXg9ea7u2+zTWsMvl/fQN+YrymaCT7UwERKlsk7a9WtrQfZYf9xe3tV2M5J3PGvDoytwcdNv9a6BQMgYz/SsHw2rstxtxxjrXRKkhXlFOfQ1BqMXOMDpSn5RjJqUK2CSjH3phIx0PPtQPqYckv7x+R96mLKCDz3qFjmSQdfmOOKbuw2a42tWdqeiLUbktjHGa0YGUDPP5VRtVJGR371pQphetJIq+hdt3QjP9K17YpgZzkDOMVm2uNicc9K1YU3H1oSRMmecaw4fxFekdN9RIafrH/Iw32OMSGoo+O9dcdjhluOuebbHuK6XTB/xLoB0xGtcxct+4Huf6V1Fj8mnwe8SmqQkaEZ+XBPSqdyjS20iggbz1JwBVpSu08nPFVbiaOG3M00fmRoQcUwavsYZ0a5cZiktpeOizAn9cVXlt7y0m2MskbAZrol13Qp0AuLMBsdWgB/UVXu5tKumSK1eZlwSqRuQYz/FkntjmmrEOMuqMj7VfBlXzX69+a2bW6uZNQtY38tg0qgnocZrN03T98gmnLnPRe1dNa/Yn1C2VXiLbxtA5IxSsQ3bQ7C2BAGe/NWycJn3qvAi9Qc1YcbYieuMmn0IR53YtmG4OOob/ANCp/BGCD1qLTc/Z5TkdP61KevTipN47EsPLoBzzSatxGnY1WuZLmJEa1zv3jIHpVHVNcu4tiTW6H1BGKVmDFVGckKM49K7PwemLKUn+/jn6VwkOs27kb4HRsdV5rvvB0sc+mu8ecGTv9KaQmdLESPzrkfEoB8RwD0hH8661P61x/iNs+Joh6RL/ADNNijuUJTmVj/tE1BcxGaLaOMHOcVO4BYn3NKmMNjpijoW9jOvkzPbkDheTXSaEPNuXfO5Qa529XMyLn+Gul8KR5gPGcuf5CpdkiVqddpelPqM0oOPJXiQmuC8ZaXceHbiS2gmD2knzxkdfpXouq6hHouliKC42zMM7ccyMa5seHd8U11rKCW6kGAhORGvYV5FTG/vLvZHrUMNaF29WeZRBjCpBZi2OD6VseH4ppNSGOpP6U6905LOUpFF8lb3hfSpplL+Z5K9M06mLSjdG1Onyu7Z2WgXZtDNZS5Ei4Kj1BrabW2jaTAysaM31xXIXgjtZkntpZLhov9dITwR6D2qxdXhFrvT7szYP0INedifftOPXc6ZQUzs7XVCY4Q53Sv26fU1y/i3w/DiLWNPiVdkgNzGv/odLpdwbiZbhmwBHlfZc8Afz/GtmxumchCFYNlWB6FTwVP1pYfEzpySb0OapRXToefafP9stzcpDuYkJIkVqWCn8+vfpRJcKdTNiBGGVd8mIijBsj5SpNT67o82lam8ccMRspPmt2Mfb0/CqVpC/2yK4dYg0jsMomDtBx6+1fRUm5pSTMK2Kp2cWtbGPdjN1MO/2hqq6iqvaoHVWBY8EVakbdPKe5lbj8aju081EU981ueWtijDptvIAwUqViOCDTLfSRZQWTnklmAJHbFbVjal2ZdvybMVPq8QjSwjHYt/SnZkJ6lqx/wBagxVbWNOXUAFjuQZUffhiPlHAK/1q1Yj94Oe1ZUlwF1WR0OSrsCN36YpqNzXY6NlVLX90fkVOAfQCua0yyf8AtRXlcIoO7B5z6V0U0iJZOw5UR5GPTFZNjfQvdW6Ljez4Jx14znpUWXUdzR1eOZrGTym2txtP41meH7a8W7eaaVmjCkY3ZGcit+5tLy8tHe2tZJVj+Z2RchQPWs6yvIiQ0LkoRtHy9T3NKUuVGblZ6C3gd71XIC+WvGRnJ/wq1YTo0xjaEDd3AHI96pXil58+YoViF4HUgcCo9/kSAuJC+cMV7+oArknJ30MZSakS63ZyXc0YtpjFtbJNa9rGIw0TqQexcY2574qGB0KByxaNSAQPvLTpdS2yybGLAjHlyDGPWjne4KbvcztR0i3vLkvJvW4i4RgeK17FRJahFwGGQc9/eq8d/wDaAHEkJG3aUKZJI6CoLq5mgSLykVQetT7SXNcXPK9ylrel3YufMAPlyYX5ealgsSmnpuYhh936VYOqP8zDezkgMgY5/wB4j0qZrJ1JkEhaJhuKHgrn0NdEY1Jr3dGe7k6k5NoxoIH2ugCllPzgDJz3rU1CeBJoLaWNifJT5gcY+WsN7gJcXI3lXD4BJxjtmtbWZWiv4kxuUoufypSi7O5yZpFqs7hE1ujASO7R5wpDfzxWpHqCKInh+ZVODjnPtWVAkECi4JcqxK4Kgr070sTgOkkKLECeCGzuHvWCWp5cW0bhmjkbCvyfbiqGowq8IQqGBPIFPjvW8zyinzr82ajnuCkgQ7QzJkgDHStY1mnqaqo7GZpkS/aY3C/8tMZrfuI/MieNTyw71nWt4RcGOGCMBiTgDvWvbJ5kg85dinvmto1k3qjfDyUppNaXMg6LuJk3fhWmlk2xeG6f3jU18IoZJBC+5R3zU8RPkp838I7V2pRaue5UwlJPY8V8KJuS7wO6iuljUgenPaub8JHEd17lf610yEAZrnR4iHDPQHmk2jb0708DkHPSkYELwaQ0cZK2JpeMZc/zo2qw55NNlDGaXjqx/nUkaHA+U81yvdnVF6FuzZTgD6Vq26Erg8VmWqlB93vxWpAGzyufxqbFXLtqh243Vq2u/cF7etZtqjhckDGcda1rRHU9A3IxzQkS2eYanzr1+Sc/vW/nTEHIp2oHOu6gcf8ALVv501D0xXXFaHHLcS6B8kAHqf6V1dqP9Ctxuz+6X+Vcldn9yue5/pXTWsafZISU6oORTEix5jBXUAkgHoKbI4azkDlVVlK5bpyKzZHvoLkmKTERXgEZ2k9cVZvwF0rcZpNvAJIyaY72dzMGhakqjEIbIzw1V447qzvEaSFlw+ORxWnFrFgJbci7niWPqHTJb/61Urue5urqSeGVri2a4LKqMSEBORkduM0uVJ6GkazaaZ0f2JZbOSBWMe4FQe4zVrw/4YewIuWvA2G5Xb1Fcdba5e2ikRyrIpkOBIua6bSfEKPYzObC7uLtQSxhO2NT/CNv061omluckk0zuYlXzN2RwMdetTyugtpJN42gEbveuAj8RGC4XfC0sJG4IGwfzqe58SS6xJcrbWclvtQkfPwPr+FZybvobOMEtHdlXTfltpMjHA57dal43VFp53Wb/hU3Ru5oCI77Rp9ph9RiaSJjhQFzhvWqGrS6NfRPJA0iiGPcN5KhTnpznPbH41NfWT30aqkiR7Tkl6xrnTpbKZkmeNl5U7GGenpScmjWMIuN09SpG8GQUEbc92r0zwKMaEGKhQ0rHg142ojAzlvyr1rwJGU8MwnDAFmIyPeqbSMWmdnGpwfl71xXiBgfFmP+maf1rt7VWmiLo42rweep61wuusreLJCrZAVB1/2aL3QldPUqsec46mmS3DQYxHvUjk5p2DkcjNRzz2aRtFdPKrSAbNi5DAdR6Zo0KavojNvNTs/tWJFkVgOw4rufAxiuIBMhzEhLE/lXmV2LB7yQeechtoB9v84r0/wVpYfw3DbMxWC5zLcODz5WeFH++QfwFc2LmoU227GuHpuc12Ru6fbNql0/iCdP3aHbZq3cd3P17VbuSZLQq45Hej+1obS+WAxhYJAFA7D0puqXMNojyO+Im+62Cf5V8vUm5y2Pa1RyOoWJdyduc1esICIRGDtUjLZok1CzaRQX4Kk7iCFIHXDdKSLUDLMkVnaSTI+396PuDPbPr7VdpuNg5jbSJItPK7S3mDbjHbvWNPC66XJBk7lbKE98cjP4cVdaDV7mZXa5t4UXg7FzwVJxz6HA/M1BZabdxLN9rv8A7SWwPZBV0Yr4W9xxk0XNDl+0RxuAPmVSwHbAx/StzT48EDPANchaXDWcl1ZfckbO31+ldFZ6gsNubiUk44x6nFc9WDjJp6FTT1aNC6WC9tpLO7X905+Vx/yzb1rjJbWSzvre1mXEkec+/JruIJdPkt1mmmEe7tIdpzVTUrCw1KJZrC4jkuLfniTJYY6Yr1MvxThLkb0Z5eJopq6R5OMFmJ/56Nj8zV2CGFtzzk7FHQdSaoQnIzjqzH9TWrYJHzI/zMv3B/WveXkcK0Wpfsrcx27D5uOOelUNf4ubFPQMf5VswK4VgykAAYU1i+IP+P8AtfXYT+v/ANamZXXMWdOGJM+1ZslsZ9UUhBsDMzZOC2Owx3rQsB+8bjPGOtUWkVZ2YlzltzADnr95fcHr6g0Xad0dVKCbSZMsl8098XdmsI4FaIleDnOcGqWmEveQuAQhbqemcGtOzkR7K8tlGI5DlQRyrH7y/Q9RSadapFMhdtwByoHb61lKSvvqTOUYto0RqFxbQSQrM6Qv95N3DfUVUhZFlyQqoRkIoGV57Ck1KNHSNCM7nGBVBIXjlfZ87RdamUZbo55J3ujYsLU3UN4XMayZ+QOcVWv5280wLtyO9Voo3lkKxg/MCfXioJ3ZfkL7XX5uRk+2cVjKT7ESv1NGG7mt7fyHQEMeWHWpZ2+1rI8SKxKgHPDKfr6e9Z+JwvmKQxIwEU8N6nNNjuG87Y0JV24ccg475qGkyNwt42t523kgg5Pc56jFaCzGSVm27g3IB4BHtVUFYrplAJJG4nrtHpUNzHOpwjKpI3bB/CO/Ppmly3HYvf2riR/s0KhgAPetmxlSVCkjIMDPNc1a3IslctiSY8EelJFqTvvxM+ex44rehU5Ltnp5fjI4ZtvqSa1pZt7t7iBw6Sn5h6U7XCz6owiYDCDkfSsz7ffCQI947qXrY1byRfy5PPAJH0qptNNpmeNxMa8nKJVtDK0MkJBIbtTftDI2xVC7QFcYqTT4pYlZ/NUqCeQajmV0u/McFRJwoC5Xp/KueTd7nnGvFKjo4lOHAynvVNvMSRJ5HRs5x349DVR2nhtyj5GFG0gcE5/SrUEFxLalCjHjKkkZDfTvSSuUWrR0iuC6H5X7Z6cdqu+YWbAaRlPOXbpz6Vlxb41Be3ZdgyS/HHtVxbqG42pB/rCMkVrTaUld6HXgNa0fUv3Nv5VmZy/LEcfU1e2Y7j8qwmdiwiZm5YDBPvWs5G9ue5rvV+57+Kk4ztc8d8JgeVc9/mX+tdMoBAzXNeEv9Tcf74rpi4Uc4645NQjwUSADnFDqFHPbmmB0zw3605ipU5GeKHsNHFu/75yB1Y/zqxEeAc4qB8bicdzViNVKk8jiuR7nSnoi1blRjB71pxsSox/Ksy2QDDE8YrWtsHjJpDRbtwcdSSOa17VjhGJ5zjFZ1ugPViDWlCNoXcgPPUU+omeVXh36xfepnf8A9Cp6RITgzKD8wwe3pUE7Z1G7P/TVv500M7SbticNnvXQr2OXS5JegLGq7QTu611lmoNnD67B/KuRu2LKpxyfyrsLQgW8eOPkH8qtCJXhRiuV6e+ap6xHjR5QOOR/OtBRuGCc8+lU9bQtpu0HGWHNA5bHCXXykDHB60yNmVgdxHrg9amvUZJdpGSCRnFGnwC6voLdn2rI4Un0zTM+hraXp6ak2xP4Rk1uI66Jb3MDQlzN92QP04qhoVrLDqM1va3KgqzLu27sgHFaV7pss4Z7y5D+WudiJgE5wKFG7M5SRSiHnss6QsVkUoU3gEgcAjPfqfxrd0yTydFvbc25ZljO6fzBjkdh/SmvpItLOK5FwI1XA8rG48+lWtQjhsvDcax7Q8zNlkPJULz+OaGrCTRR0UbrN+c4C1oLGp6heevFZ+hnNrOMd1/rWoo70kdETH1i7isFhV4fMSRuRuK/rWPc3tnd3D3JmETsSWic/eGMAK3b8au+KhmWwU9y1cpqIVHQYHTpT3Qm7O6NSOythHBNNF/o7t/rEnyeOoxXomnahZRabFF5vkW8KLt8tyzYHODgcfWuRtfD4vvDtkPOIIG8DHUntmugitJ2tUtitsGkXagibggcbc9gPWocbonnsdDa61pSWkri+aNlZmSPLZb0yemT/LFcrOwfXrhsbSWGRuyc7e5qeDTozf2lrIsQDKzqwfch25J9+1RMhPim5GV/1h4HT7o6U0rKwJ3dwUHb0/OsvWbbdtn81UxwAe9dHs4xj8653xHMyXkMG1WQxbs9880NWRom9LFHTvDd3rmsCC3tw++T5vm6CveVgj07TUt7dSQihcqPSsTwh4X/ALA0aHVhIP7QuYg7iVc7QRwoqDVpr6++Z5HjHaONSa+dzDE+1moJ6I9PCUGldmTrM4ZW8sldpyC3rWvpd/YajZ4uXVpY+DGRnB9a5GcS292qyM8jBgPJBySc8AkdPUj2qDSJXjupWzyJWLD8eaqlgnOm5J6o0r14wkonfi2hj3GKGNN3XaoFTJEEjCHo1V7eRZYlZDkVc2kndkY715lTmjJxe5rFpq6Ks/mRMCCzY659Kr3Uha38uMctzk9MVoStvAwpOBnIrNmWPdscHb1AzUwlZ3XQ0gk3qZmpqzCK9Q5lQgOR3P8A9etPR7qKd2lll8uFDuaPP3j2471TldA5i2bYmTaT2U1teGtFEDC4nU8cxAYOfeu/FKNSCmvmXzcqaZbks2dnupLP7RKw+QzLhFHYBc8D6mqB1tIJFhvIPscmcJNBbKQPzz+Yq7rWrTW/mbESVBxsJwV9iR3rjbjU31K5itLOyFs7tjIckj1OewHUn0rCjB810c7ldbGVrMum2Gsywx38IQ/vFLZH3uas6Xd2Z4S7t2cnHMoH866d/EfgzTo0tk0uPUpYVCPOIFbcwHJ3N1+tVv8AhO/CAY7fCcRPr5UVe7TxElFJRbOGWCqPW2jEh2sjkSLJjqVORWFrxH9qQgdov6111p460iTD2vhK4I7NHCoA/HFTv430MPuu9A8pgOspjJx9BmtFiKjXwmH1Kalc5KxI3v71ieei6h9n82Rtz4VyPuN2I9Qehr0mDx14ZuiotNIaeZpBHtESjn3PpVrfYPKWfQtMaUsCsUCG4de3VRtB+poeJa+JWK9lKLucxeW0Ntoe5flkjw2/PfuKw9PvIb64Ta7GdQfk216rDpUl5B5L6LaW0DE5WVFU/wDfIJ/nUq+GdIsIWdkjgQA7vKUJx7miWIp2u3qZSoXd2zzC5g34SeVbd4m3KWcL9M5qEXdrYxzSSXKSE9dnzc/QV6FpOm+C9XnM1lbW8srs213dmdtvUqWz09q0l+H/AIc2MiWbRq2c7G5/Os4Yq0rS0Q3Tio6Hkej31tqt1FZW0dxNM4w5MghTHXdyC2Pwrd1/RLHSJrWPUZ440mKqs1mC/kkjgPuxnPtXeab8MvD9hK72D3EDOdxyc/zpdX+HUOoySNLf71k/5ZyIMV1p05RuZKKTOBtvD8CE/ZdYtpSTkJIpXHsSeBUB8OanHcSzmGKdGP3YX3Af1r0fXPB5vdCmtbOCO3vimEnTGM8Dnj0Fec3vgTx5ZWbi2uYZZFXhowVYkdueCKzSg3qJ0U9UR2umXUjmUQsq7inlzKyHjo3I5FV5W8iSTzBErkfKQQQR6jFaWkt4t0+xT+2o78T5JLBBIAAeAQM/WquranbSrEl5psDuzLkorRuVLYbp0POeazlTSlvdMqVOLhorNGS7BsvtWQsSC6Hke9RQh0cK6YDdXHRq3TaaOc/Z7iW2boBOu5QP94VQvNLvIkM0JSeADJeJt2B7+lHK+mxy8jvqZ1jKPPSJArfOV5HP3u9XtfEa6vcAOynPGOlU9LsHL2sqyLgsu4EEcFgevrV/WWgfVLsS7t2SBj1rS1oFSg4LVFG0mczLDIo+cZAcVpGK4mcJA2FB3AZ4rOtfKnmQOF3qu0Ennb/U1ehtZvMHmO21gcENhhj1FYyV9TFloXSmII2DN2LLyMfzpiyPyZpPmHK8/wA8VX8tpGLlirqMElcj2PtTLa4mlmYbljdeD3B/Cko2V0BqLdRu2C7MFXB3ngH+tQTXEOn4a3cHcc4I5XPamWqM4eJ4nIJ3ZCdDUk2jS30KNE+xlJ3h1PIrSC7o7sDOMKibWhFZXputUhVmBLOM8V0rsN7fMOprnLTQ7yz1CCcmJ41YE7etb3mH+5+td0Xod+OxUZTTieS+FDi3uCe7j+tWvEJZreCNX2FpAM54/GqnhbP2eQf7Yqz4iD/Z4cJvxJUnnvYx3hu4I5WN6yqrFRksCxAzwPSuus3ZtPhZiSxiBJP0rkG1K6KuHt0O4YUbD8uRt4/CuttMppseQciID9KFfqNHLqhZjz1P9anjVsFd3BqumSc+9WYXbJzyK52dCehchRgMcVp26sFBLAGs6Fx0ByavxvkA8kUmUjThZwE+bryRitGBnLYJBwKyoHOVOMAcHNacOAxcEYqU9UD2PKshry5I6eY386lQcjrUDEie4YE/6xun1NNWR+u5q6eaxy8tya8+5FgnrXX2vFsCR/CK5C8ywgBxkiuvdXSAIhTjGSTjsKpNtXC1gjnYPgoxJPXFGsMqWWCergfzpqm4AIG3HYhqZfljYIJuMv3oTB7HMXyYYHcpHsaqKrq33c45yCKv6jFESuwR571nvD1I29Om4UKV9iXB7l+wDm6tgHeMM+NwOMVrX2rapYXz29resyYABIBNZWn23nXdpE52IzhSfTmur1Wx0q3uUCvaRsFO4mbJYcY2+9Wrsykl2MCfX9VMAhnlLIfurgVqi5v7qxb7crxpHbsIUKBfl3AH6/WrOrHRILZjG1lM6wALtbcSxOMjH8XHX3rO+1faLF1R1CJExChuFBYYGPwoewl6GpoJ3Wcx9GFavU1leHwfsU3/AF0FaoPNSjdHO+Jo3kurEKvADZP5VzOoQy7gduQB1FdJ4jMh1CyVWO0hsj3rAvriaCTykZgrDkU+hL3JtF1E6de2886yyQx7sIp74rsLTXIZnW/Fpc/Z7dNhBwWzzliRx3H0rho1u3CMmWO7K8j0611VhdxP4TKGYSXMhIcbe5Yd+nSlclpLUlstd099YhkCTLFDAyIDhnLHdzx/vVJazpc69cTR52MzFc+lZKQQ2MqzeWIwO4rR0FTNeM68g7jkii+o4LsbqjeAcVNo3hUeIfF0Ruk/0W1hEr46udwwv48/kaeqMijI6dK7zwpb/ZdLluBgPM+dxHYdP61yYyq4U20zpowvLUsavcm2t9ySyRKO+zcv41wt9PPcKyjV4yjdEDkEjr0x/Wuj1+9mWX93cA8Z2MvDVwFzepLM8k8MMW4FSEyOMY9a8DD0JVZ3PV9qqVNmbfpPDfW6IXVC45DY3Enr1qxpWWnuGxwWb/0KnJZ2CBHeUzOSAkbKVDHpnP5UaSuFc9M/4mvpKVNQikePUquo7s6XSZ2hUsOU3YI9B610CzK0XDDA6EVz2jZMkqZ6gYH51Zkn8uTABC+g718/jqX75np4ZtwRpTPKy7Udk4zkdAfesi4GoSzBGUsxOAFHWr9kXu5PIIf5j1UZA+tGtrc6NZfbLC8YXUTBgqjiQen6/pWFHC1JvRHTKrGC8zQg0xLGxiuLu3hlmPLh25T2GODiqlxqKWll5cmPJVx5UgJLLnkZ9uMVzf8Awl11qlmJLm0MEjMUEiDKMfT1B61FHOtxILK5cLHMpRSW6Nxgj15rqpYWopOnImNSM43uVZ7qWRplWRtjvnGeCfWso+I9OsTcwu08kkiGNmgZRtB6gMeh9aS4W5vJp7Z7m302NHKOZ2+dyODhRzjgYqsll4V04EzPcajKw24CiCNSe+7r+leth8Co6yRw1a7UrRKqeJdMtz/o+jrKegN1eM2f+AqAK07bxJ4gnj32GnabYw/30gCgf8CfJ/Ks59UjicjT7C2tueGCmR/rubp+AFV3a4uZFeeVmZu7NXeoRS0OeWLqdW2bH2m4nl36t4jcAnlLdWY/gMAVO+raLYwLLZ2F7fzFuPtku1f97auOPYmsJrRycj5gVPYkfmaR1KQ7SOSvABBz+VDt2F9aqW0ZebxHfySK6LFbx5yIoI1VeuefWu2i+JmsooVEiQDsK88hUedEvTALAEde1X0YYHHX+dY1KEamslsS8RJrVndf8LK1sjjyxn1Wqd3411bWQdIkeNpL0GPbtwQp6/pXINcszeRa4kn/APHY/rT7K3e2uPtUNzNFcA/LOuN31qI4SkndIh1ZdzsTrcmgeJ5UsIojHp1otrl1zmRsM5HvjAzXV6P44v8AUL+K1nktbcyjCM0RIZuy9eCe1eYjiCTLs8jEs7MclmJ5JrX07SNU1NEFhas+GH7w8KMe5rWWFpzd2hRqSSsexPd65BC7rc2LbVLEGJh0GT3rhvFPxTv9DazY2cVxHcQJMrAlcbhmuy1O+NjpU0/kSTuEwIo1LFjXi3ju3a48DaBqRTDLH9nkz2Kk4/kRSlhYctugvaO5tt8Zbg29vP8A2ZG0cmQ37zkc1tR/FAxqfOtJY8d45s/pXhtu/m6TMveGVW/Bhj+lb8EyajaRhyQ4VVb3YcA/kBWLwkOly/aSPXofi5pLv5Ut3JG4OCJYq0x4u8P6lGwdtOn/ANlsD+deF6rpUkwa5j2tKo+Yf3qw4/tCgiJycjOPUe49R/Ks3g3upDVVW1R9HT6Z4Z1C18/+zzHuXKtE5A/Kubm+HEMt99s0zXbmwuBjCyYZD+WKr/DnVftmhy2EzHzrXqp/un/69SeNta1PRtGjurGby2jm2SkqGGMcda4Y1KsKnIbcsXHmsWp/AusxyRzwC3uj5oeUwSenfmuU1fTb+DVp3vbGeOMtkOyYrIX4q+ILCcF/s88R5G5Np+nFb+nfHV/9Vf6cxTvtfePyIr0OWrbVGE7TWrMWe1RJVZXJJOexx9fStGw1FyWDrujA6nrXTf8ACReAPEMKvcj+zJXIw8fyFWPseD9ap6h4Z+w2732nXSX1hj/WQnlfqKhXtZo550mlcyRqccrzRGFQ7KQJd2A319KqxebarsmwVbgMKbcabJImYgBj74PaqKXcsbGF1G0HjNFtDO2h2lneQ/Zep3L1xU9vqIeZmQY28HfwM1iWtxDaQAkbjJ+lbGl+VNcXFwSqrIoXZ9O9VCbvY0pyexo+cJEjVlKkkZH/ANesI6lLk/Pb/rWo7JEw2oFO3IIbI6elV/skPoPzrri9DSzPKPDOVgf/AH66JiXGG6jrXP8AhkfuGPQFq6IuxGW9MfWgroRiGNicgHPtU8xKWsoHACmkjHO0kYFJdKPs0qg5+U0FI5ENzU8bEDmoUQY6YOO9WIYGkDbUJPoBXO2k9TZLQtwOMZH51owP8p+lV7bRr+Yr5dpMQfRDW7Z+FdVfrZsPrxWUqsFuzRRl0IIWUjJJNaFscq2eFAP8qv23g2/Jy4RfxrTi8HThMPNj6CsPrEE9y/Zto8KALPOB13nv7mnCKTOcDn3r1mL4Q26ZJ1GcknoI8VYT4T2KH5rm4P0I/wAKuWPorqZxw0medw21vOsBeIkgAEgZPFaaQpd3gika8CAZGFwB+NegQ/DewjAxJcZH+2P8Ktp8O7HdlpLv6eaawhmNPm3Z0VKF4JLRnJW3hnTJod7T3JPp5v8A9asrUtDhtkXYk0uGBXfKePzr0xPh7pezaVuT/wBvDf41IPhvprni1Lf7zsf611LHQaskzlVGSavY8zgd4RswyDGCCQ1Z2q6ab+3ZvOjLem3n869jb4aQyA7YSn0NUm+EQZgVup0I/wBof4VzQqS9pdJ2O6rUhKlyq1zwOGJRcQoEcMH24Ix0NbJ8MifVFt5pgivF5v7tc7RnGDXqs3wOkkl8xNTljPUDbkUlx8G9aeczJ4gbeyCM5jxxXpwqq2qZ5EqT7niQ0h3SZ4WUrHgk98E4FakMD2Vi/mMrNKrIcDkbWGa9H/4U14ktoXht7yGSFyGZfMIzj/gNRaz8LfEMahbOzlmRUAwZVJznmtFUi0RyNM5zRflspveX+grTUAHn0p1t4e1bS7NlvNNuIW83PzIcdKQAhuetCaexok1uczr4VtasQXYDy26CsPVkRbiLLtyvpW9rvGrWR2jgHk/yrF1YOWVhHkUGbLXhz+xhNLJrDMIuBHtB611+m3Hh9yjxukUCh8tIhKgfwjHrXEabps0+6WG1a5x94IeldlarFp9rcT3OkyRPjfGmVAQZ4+tVbQm2ppTnQbxwiGN13jOUI3fh/SqumQxw3cwQYG5sADAAzxUNt4osLu7RBEEDOqgE9yat2EL4llkRhuZtqHgn5jz7ClGFyqcW3Y1Yked9ijljhR3Jr0IMLTT4YU2gqgULvCbsD3rlPC1vHcT/ADqvnBsqcZKKB/D+ddDrWmxXNjJHEQJwuVG4ncfSvIxzlOaglsetShGMVqebeIr/AH3hS4Mhf+4X3A/SqKXduQm+2Y7ugJH61Vv4p7nVBA8Rg8oFRuHI71FqNlOqwI77wTnPqa7cNQjCK7nDiKjnJpbI0Z7pIrmM+W8pV+AnVePypmk/NC7d6ntNEmt0jmuCyhuVG7kUyx8q3tXZyFVRkn2rpSaRgrC3etJom24ILPnhM9RWrbXkOuOslnubd1MfO3615nq2oNqF083OzO1B6CvffAHhnwsfCYm0eOSWW4iH2iZ5T5mepXIxjn0xWFbCRqNS6nRSxDhoZelXJa6mtrPizt1w0rfxt9ay9W1AXR2KxKZxnsfcVU8V65HbzHTEAs4oOGiVNpqHSotT125jFnZzSKoADOu1UH1qoUVFWRv7VWuzDe4j0qzM7xSSs07iJAfkU9zjoDjv35rk7/VLy71KK4lm8to3/dov8ODxXs/jTwSqfDmURPm/tHF0+z+IdGH0A5/CvB5gVwpO7BxnpW0aSUuZ7nM60tlsdn4qtF1PToNdtPlkxiT+QJ/l+Vc3BiVMogHY8/d9fy61veDNQE1vPp1380Uoyuf1/p+VYuqWr6bqT+YQxDYdB/Otpq6ui6yTipR+ZJCFkZYy7Ox4IQYz75q2ztE5X5UYchUGW/XpVaCeONfNd9iN8qqnLEfh/wDqpkmowB+SYUxyAMufX6fhWZys0nll2ozBRyCpc7m/AVXkZnVtxO0nCl2wD9FHJqrBqtq7eVGrxBlwHKlmYf5+tWIeH4BR3GB/FKw+vQUxCxk+bHkcFSOVx/8AqqWWWTHlw8yHHP8AcHrUAZVbaAMq/QEsAMevep1YL8oOeep7/WhAOjRLSBYY/vyHk9ye5rVsba4vZ0t7SF5ZW6Io6VqeDvBVx4id9SuJvIsAxiQjl3x97Ht2zXruk6NYaRbeTYW6xr3P8TfU1SVxtnJ+H/h9HEon1lhK/X7Mp+UfU/4V3MUSRRrHGioijCqowBTu/XNGapCuKjYdTnGSM47815f4os1ufhjqsTfftLiV19iszf0avTyfQ81wWuRhvCfiyADhZrjH4qjf1oewXPCNGPmPd23XzLdto91+YfyqbS7kxXGD908Gq2hyiLW7Rj90vtP0b5T+hpyAxTPHn5lYr+IrF7Fxeup3sJYRq5IwwzkVhatpzQkXloxXnJC/wn1FaGlvM1pECN4Cjn2rSCbwMgMCKSZDVnZlbwbrktv4xtZJSFhus2rfj0/UCvQvE2njUNNu7NgP30fy/wC8vI/lXmV3phs7d57ckeWwliYfwMDmvWGu11DSLbUYcYkjWXjtkZxXlY6PJUU0dWGleLiz5+eye6JhRd0hyy+pOMkVihWjkGRyp5Fepazoq6XNqVxb5DpP9qiA6bSckfkTXKalp0E0d29o4kaMi4UjrtbqD9MV6dKd4p9znlpJozrNhcwSQdiOM1PofibVvDF/5lhcuvZ4XP7uQe4rMs5PKugc8HirepQeYRKo69TVtXWoHpEAbxRAt/o8nlQMQJ7fPzwN1257r1Kn04rLuIxZ3s1s7mTyzwxGK5Lwv4hn8Oawl0gLwt8lxDn/AFid/wAfSuw10SXOpm8tT5ttNEGSUAkMGzg/l+RrCcEg5U0Qya+LZfKClG/hYjr+FNi8SrFchA4QkZJPSsKSzuCw3vHnGMl+cfjTzbrLcTLLcxIVUCPDg7iBwuPf1qOWJThG2h3FhrbXTyRkDckbNn6Csv8A4SqX/n2T/vuptIsbZLiZ47h2/wBEKTFnDBWP3se2arnRLXJ/4mQ/75FaR2M7HN+HCRbn3Y/0rot4IwDWB4ejzZAnsx/pWhPdrGpAIGO9aGqLj3McIBbPHYGs2712II0QjLZ/Ksq5unnY/Mdv1qlsQcl/1p2E5WNKPWBbDKWVuSB1K7qefGWqqu2Fo4x/sRKKytsCgd6QTQI33AfwqPZxe6H7WXRmmfGGvuf+QpcD/cfb/Kmf8JJrLctqV3j/AK7NVeC+t1IzCn4rWtbXlm65Ajz6bal04LohqpJ9SifEGqEf8f14fcztSL4h1YH5dQvB9JmroYCkuCkaY7cDmnyh40YCJCSOOBUckL7Bzy7mJD4n1tDxqt8B/wBdmroNH8WeIZruOFNXuGJPRzu/nXO273iMSbZGGfSu38D6c17fG4ktwm04GBU1aNNRbaRVOc3JK5654djurm3VrqUufXGK6iOytwAdgJx3rG08m3twBgADHSrH9oyjowwO2K86EsPT3Wp1zjOWzNmOGMEgIox7VHdRyiE+TL5beuKp2eol5WR8DjOalutUtbe3d5pdoXn1r1MPKnNXicdVTjuYF/ofiC+GIfFlxaf9c7dCf1qgfAOpyH/SfHGuOT12Mqj+VasPirSppikVxyPUYFaserWLIWN1AAOuZFrq5F0MVJHKj4ahjlvF3iU+uLwD/wBlq3YeAU0+5E48Q63ckDGy5ug6H8NtdB/a+n9Pt9t/39X/ABobWNPUc39qPrMv+NLluHMhEtbdAEdFbHGSKDpFg+WCSKf9iZl/kaz73xJo0XXUbYk9NsgJ/SnWGuW07fI4Knoc1jOcYOz6mkIuaujRGlxopCz3AB7GQsP1rI1TwlZ30bb4Imc/xAYP510Ecyuu7PFY+o+MNE0t2S4vVMi9Uj+Y/pWijGWxDk4vVnj3iz4Z3w1CO8s5sLH0jcZ/I1iw/C3xTrxXyrTyYSf9bM4VcfTrXpet/FKzEMsdvpcs8ZG0tI+3I/CuJ0fxrr97J5UOt7JlbiOeVt20dlwMHHTvVclhKabN/wAKfB3VtGhuVvLqwlExXOGbgLnHb3NampfDa9azuWe8sI8oVVn34Vew6VzMnxE8beH74Lqtza3FjJkpL5QYrzwCRj6Gta1+JzXztPqeiNdwhhs+zvtCj12nr+dNJBypvUp6L8KJpbyfUdkUjk/u2cFYx9PX8q6C3+G+svKZLzULPv8ALGGOKuW/xl8LtKIp1vrWU/wy2uP61s2nxI8KXhxFrNsGHaUmP/0ICjndrGim9kYN14ZudB/0gXKFH+QiMYPr/Squq6hJYpB9mClQPMc552ggYHr1rTvPEdpqi75LqCSJHBBjbIVDwWP8q5+fUo7ZIkYqzRMFyDyVLfKc+nIrOnSjOor9TeVRxp6lPUL6x1CR5I/OhGcOAoyzf4e1ZkdtbJl/tYKk9JB8w98DNdPFFYuHPkxbm5JA5z9ahl0+xuDzJIB6K/FetHDxSSZ5sqzbuc2k6ecYHR2AztfO0DI6/MRUlx4chvrZ4UmnjibG4hRzWubDSLIK7RRDHSST5v51Pba/p1rIk63mnnn5RI4x+WRTlRilohKbvuUfDfwUa4u/O1ybbZL/AKuKM/PKP9r0r1MWukaBYRW1tbRQRRjCLGu0Vz1r45jmGfOt5Fz1Bp8vjqzByzWRK8ZeXH5VxOjO+iNuZW3J7m/tJnaR4FuXU4Uva7s+gBx/OoI59WumeMad9mjXhN7BVb6Bf61lz/Ee2hbYi2DE9BHcFmb8FB/WqN54u1+/zDpUFjAzL987mZR7jgVUaMuwnNdWdNb2epLcp9uuLP7EyMsse0hnznpzjGK+b/FnhqfQteu7BMXEKtvikj5Gw8gH3A6+9eg3PgvxNqtwbnU/FLbickIrYX8K6fRvCr2UIR9SNzIB991rVYf+Yj2i2R4HYzzWlwF2+Xz/AHeRXSal5eo28Oo2yIzSDypiRkKyjjjvxkZPpXtUPhqWWHe8CyEMQY3hyCPZiM1X1Pwzo9tZmG70yNIbgjzFVdu/HrjFQ6SSaubU6kmuWx89BBaTMiFXRvlEhU4Vu/1/lVmPDMxjXzpT9+V/uL9PX9BXr954A8I39gWXURp6HLMhuFXdj+8rHdgY7frXL2/w8sr1jFp/iVLy3XLHZbu2QP7xVecfWsHC3UPU4iNgm50cMRw9w4zn/dHf0p5kELY2vufnYW+d8dSzfwrXQX3g/ULK+mjke3JjIWF937rH1OKhsfB11LORNeWgZsEF5NxkP8I+Uk7fpUdQMqJV3EZBMgwj4wWx3UdlH869G0bwmdH0R9YvoBLfSoFs4DhlV34Qn1POfauWvfDdrZBD/wAJNpc0rZ8xIywJx/DnGAo9K9C8DanHrFjaWb3C3B035y4BAfOQhwecDJ/SnFAzsNK0+PStKtbGPBFvGFJ/vN/EfzyauKcKPpUZOFzk5PWnA8fSrQkSBuaN3NR5wOKTdQBNnj6Vx2roDYeLYv7wkfH+9EP8K60NxXJ6mXaXxMijJMCkDPXMTf4UdAR81xu0cqupwVIINa1+QNUuHXhWcv8A99c/1rIPDYrVuWLSRFufMhUg/T5f/Zay6FLc73wJNDNZSW7xKzRtuHrg1vXdvE1pKI4sTDphetcD4SvzaakpA+V+G9q7mXVIN4MMhbPX5TTWqJrNaNEVn5d1amJ1BVsg1ueDiyeHpNOkbLWczQgnup+Zf5msLR7ae5efyo9yKcZ6da39C32+qX1u6bS6JKB6kHaTXBj6d6TfY0wral6mZry4WGTH96I/0rgbdXs7gyySbrW3ZreRdoyFbox9eK9O12yN1bTxRlQwKyqSPSvONThezvdRgnK4ltfM+Q5VivGQfyowNZSpKPVFVoWm33OMvYkgvJVjcOgbKH27Vf3C4tQMkFl3g/7Q603U7AQWFlMn8akN79wf1qGxkIhPJzGwYD1B6iu0zuQ39pLbMDIu0soYfSuu8D63JKv9iSsWVn3QDJ/FBjp6j3qne6NeXMEDWuZ7cRb1/wBnuR+dcvDJJbXSTQsUeNgyMDyCORQ43VgTPWL1J476YW2n7oOi+ZcAP+Kkdaqb5Or6RI/HJCxsa3NOkj8V2KaruQSyKBMAOd44zU7aARzv4rNU00NxW5hWVvBFb6lJFbTQO0ZydvDe6gdTWH2/4+r/AP78N/hXdR6a8cMqhuZMc+lR/wBlT/8APZv+/taqCJseZadcC003aTzuJxVO5vmkYnnGelQu24bNwVfejyIGHzXGPopNRzIq0itJOznAyo9qdDEz5bnpU/2e1ByJnJ/3KkQog+WZgP8Acoc0LlbK3ksAMqaYYzu5rQ83I+8SP92k2RvyzYz3xU8y7hyMpIilwpBI+ta+n26EZ2HPao44rZSGM2PfYa0be5tosBXdv+AUNpjV0aFrBKhUAYH0pbiAsrBpSCfSn280c5BLyAf7tbFpYWbEF2diee9NQQuZ9jn7HR2c5WSU+9ev+D9JWw06Prubk5rnrGwgeaNI1dhuHQcCvQLNfLiUBSFHAzXPi5KMTfDRblcuTSBIgueT1qoZeev50lxJvckdKrM+BnNfIYis5Tdj2IQSWpY89gx2tg4rlfEd1i3lV5eCPWtx5SAee1cN4slb7PLg5+U162VV3pE5cXTTi2YButO2ZEy59CarveWDHaWYr7OQP51w8lzKHZR/e44pPOZzk5zX0qkeMonb+ZpW3LOg+spH9akil0oAEPG3/Ayf61wIKB+VY/TFW45IFHEUoPqXp3Bo7f7Vpkfzo0Skeg5rrfDmvQ3CBVfPrXjLzsT8rkD/AHq1vDOqva6kEL/LJxz61x4ynz021ujpwsuWdujPZ9VIaE5ZsVyRl01pCGjAfuec10EVwLqwwWBYD1riNZZbW8zyFauXL8RL4JdDXGUI/EjYQ6dIGQJnHQZJ/rWXf6Bp7OJYppoHzkFKylu3D7o5WXPQ4rRsVvLiZT9ukx6BB0/GvWvc8tKSd0aFrLFJEbLUJkuc/KDIuNw9xUd7q1xoFtEtuitaxt079eh9qNY0eEWvmvLcPIPu/d/oK5Br+1nWSC4W53ngDlsn6UmludEZXVmjuYNSn1OZrmWez2CIhI42XjrwB+Prmuf0yFSjRzoDgDgj61n2XhXVXbzEs7r7P1yUrZtNKa0d2Kyhm/vVDnHZM0UJb2LAjQps2BVIxheBinSxGOzeYM5KgKBuJwAwI6n2p2wYBHLA1mS28YmnmAJYcjk/jWuHa50xVE3FnRQXjvC8YbGMN+FXDfsYOuGHWsu0XCsDwxUAmrMagMU7fwn39K97lR5rJtVudukzSOOkZJH4VwNpd+H4Y1Y22pAhR8ygD8c10PjXU/suhpaRn99dnb/wHv8A4UunCzktIsgCVVG5HTBPGM+/1rKesrLoaRVldnPy6joLvkjVG9AX4oTU9FBBTSJ5j6yzZz+AFdh9n0ojbIkKPnuMqfx9KbNHplku8wIM/dJXAP40vZyXUOZdjBtdd1BGA0zRIYM9HEXzfma00m8U3CF7y9FnETli5C/y5NNn1mZ8x2EOP+mhGaqJp91qUm67maQZ6FqpJoXqXV1poT5dtcT30ucAoSqL+XJqhe+ONX0fVPKhuJVuV4byyuFPpgg1tzJaaHpklyRxEmQPU9hXl8srzTyTzt+8di0jeme1Y4maUbF0Y3Z21z8VfFfkEQ61cx/N1by2/wDZaybnx94n1Ft15fvc7TkBjx+ArnliaZtzHag4GBjaPQD+tSTgLA6IMcZrhhSbTZ2pqLXc0I9c1KQSTz3Tk/wFQoP8q19H8R6mYZVh1C4iaRdsixysAy+4rH0rSJ9c1G10+AgFz85PRR6128fwnuIZTJaeIEViMfPbf/Xrjr4ujT92TsynTnJtpDfCmp2ek6213qUqLA0RVmkGeau+IPFuhRW01zpV7DNqkzFIigIEOeC3TrjhfTOapTfCfXLiPYfEdoynqGjYfyFUJPg54gH+r1Gwk/4E3+Fc/wBdovaSGqclujkHlQ/MQrKwCt2yB2+lbHhDxO2ia3HdFzsZsSKe61pN8I/Fe1lX7A3uLnH86rf8Km8XxNuFnbvnpsuUqoYinvzIfs32PeobiOeGOaJw8TqGVh0INP3/ADda8v8AC1h8QPDbLbzaLNeWBPMYkVmX1KHPH0r1BYLh0VjbyKSASCvK+1dMK8JdTF05IUOSOaTdkUeVMBzFJ/3zTQr9Nj/98mtVKL2ZNmPDHFcxeN/xNPEAJHNvF/6LeumwwOSrAe46VyerXNra6lrYmuYopJLVCEdgpICMOAfrQ5JLcdmfOc4xM4xwDVyRi1ran0DL+Rz/AFqrcIzSkjn6VOhJskU9VkOPoR/9asnNByss6bctb3kcnUA/MB3FdnDJGbg7UCs65UAttH+6PX1rg4yVyS2D2Iq1/aV4CpEzbkG1T7UKasQ6bbPRbWeNYoonlkSGV1LOG5DAep+uK27GYW3iCxgLy4kidB5i4YKwyM568rxXlEN9dyKIzK2zsK6bw7ealqHiTTEmZ55o5VXH+znk/lmufESUqbVzekmrJnpl0PNZMsV3ZjJHbcOPyIryTxgz22oRRlmOIvLy3Oc5B/z716xdnEMhB+7835c1598Q7CWW6t5IbZmDjO/sa8vAVOWpbudFaN43MfX7RLfQnhWQSiCRdrj+IYH+OK5KzcRzHdwjBhXSm11CTw7LaPZzmdmBXAGCAfXPtWV/wj+phYcWchL9srx9ea9xtHHZmvoNjdapamWytnleFgrFJ9p55AK45GB1rC161ktdWmiltzbucHy2Odv41qaNB4h0qdhb291GP4go4yPWs67stTuLiS4vYbgSSMSzSKR/OndWBJ3Oo+GOqSR6wdN3ZjuOxPGRz/jWBq19fXN/c6g93Jl5W2nzSpAzwB+FZMsMlrIVLYYdw1I1xLNCsRwET0qdFqirM29I8cazpV0j+ebiEdYbnMgP4nkfga6H/hYz45sEz/10riIND1K6jLW1hdTr1LJCzD862R4K8S4H/Epn/IUc6DlPYYvCGkL0062/74zVuLwvpQ4/s+3B/wCuYrqA6H+EflUc13bxL90E+1fExr1pPRtnvOEexiL4b08LxZW//fsVIPD1jjH2K3/74FTPqN074gjiAzj5607O6gAzdzKG9ADXZHDYmcea7SJcY20VzIHh2yPH2GD/AL4FOHhixY82EH/fArqbe90tvuspPvVz7dYxjhV/BapUJL4p2MZTeyicZ/wh+msOdOt/+/Ypw8D6Y3XTrf8ACOuwOs2ajkio216zX+I/gK0UYLeoReT+ycwngbTx0sEH0Q1Zj8F2S9LIflW0fE9ovZz+FQnxXbqOI3P1NaqrSj9tkOM39kig8NRwY8uILj0NaMWk4A3hSB7ms1vF8f8ADB+bVA3iyT+GFR9TQ8XQ+1K41SqW0VjcbRLZ+5B9jUDeHYTnErD61jnxXc84SMD8aibxRfHoUH/AaxlXwb3iWqdddTVk8Low4nI+q1m3Xw/sr0EXBMo9NxX+VQN4mvz/AMtQP+Aiom8S33/PfH0Ap0sXhqUrwiDo1pKzZX/4VD4f3EnRrdye5vJBT4/hL4eTpodn+N1LVa58YXdup3zSH6YrCPxOU3PkG7lV84AJr0qWP9om4o55YVx3Z2Efwv8ADif8wLTvxkc1Ovw18OZBOi6V/wACiLfzrn4PE890vy3MvPvSS6vet0uZP++zXNPNVGVmjRYFtXudQnw98OoMDR9H/G1qRPA+hRMGXTNHUjoRZDP864b+0b8q26ec8/8APSoRfX2/mWQj3kpPNU1sNYFp7npS6FYQrgGyT/chUVA+jWO7Iu4Bj/plHx+lcOt6235mOe/NQz3j7D5blWI4NYLMVzaRt5mrwja1dzv10iyUZOpRKPUJGP6Uj2GnouTqoH+6sY/kK8nceL5pQ1jH50JPJ+bp+lX2TU1VFvR5TsOh9fwrrqYxxgpJ3uc6wyu0+h2N6mlPlG1LIPB3OmT+lUrHwj4NS4a8uZY3mY5JNwTj8q5NdLuJMkyx899pb/CrAgltk2sy4HooH8ia4446UZc17+RSpRelrHqNvdeG7eMRxXEeB6uxP6055fDk+d7QNnrkV5Yk5Vsg9fepxeAck4/GrlmMn9k1WDXc7u50XwrdZ3CEE/3TiuU8WeEtCsvD97f2NxiWMAhN/X5gMfrVIX6j+P8ACqOs3f2nSZYVPLsoJ/4EK3weNlOtGNrXZnWw3LTbbM2FcL2U4Xn8BVmNkfzEGRhsAew71BL8rM+CoDcAnpx/hRbkqSx4JJyP6V94tInzz3MS801/EXi62t4cMY4jhCcDIBY/4VprEHVokg82SElXgddsisOox3/CpfCUT/8ACdXN3sZo47U9F7kj/wCvXQ+KdMt9QAv7OXyr+PnkEeaPTjvXzzzN0sU6ctU+p6c8MnTTWjscTJe21rIcWDpJjkSMenoM1FFdF5N4hnjj7KDgc+xBrX03V4daRlEPzocMrjlfrWuloIyQ3SvehKM1dPQ8yXuuzRiWw+0EbIpC7dWZcAe1a0ECwLuYAY9KugpFgsmB6gelUL+6W3tJbuf93BGP4urmrbSV2LfY5Pxpqasseno43582U/3fSuEaYM4AyEBO0Hr759z1qTUb17y/nuGJJkbdzxVPdzxXkVZ80rvY7KceWNkXkmfaB8ufWpHnaNeUU/rms5HZTxnNaWl6a2o38EDNjzHAz6DvVuoowb8gUW5HoPw2vdOSC7/fRLqDHLI52kp2C+tekRy9BnPoa890bwZp2n3SXLyyXEqHKlhtx+tdpFKMdev4V8PmdWFSpzQ+Z69BSUbSNmOXJ61ZST3rKilA61aSTkV5Zq0aKSc9amV89ccVnpJk1Oj+9axk0Q0X43AwcYqwk5AAzWakh9alD8da66ddpGbjcuy3DeTIFIBKnGfWsZI7kMmWBUctgt/8TV0tvQruI3dxUCWaq2fOc/VE/wDia9fB4+MU1Ih0YvVlvzAhzkj6gD9TUUMVvPdXcktvDL86rukjDdF9x71KsD7QFmA9Pkx/JhXEzeLDZarqdudS06EJdsqpOrlxwoySMjseK1r1XWVqe5SgnokdNPpunOTu0+zOexgX/Csq4srONAgsbQRg5C+SuP5VyWp/FOXTbpojZW15H/DLbzkAj8VrNPxZspiPN0yaP/dcH/CvJlhMW3dfmaezUV7yOwktLBG406yGe4t1/wAKh8q05xZ2g+kC/wCFV7HWLXVrNbq1c7e4PUGnFyATk1g51Yvlbd0HLHohxS3Q8W8A+kS/4U+G4aEkx/uyRjKqBVZZkZiFOSKQygc8ce1Uqk3u2HKl0Hf2pZM5hNxGXJ27QadbLaXMEC3trHcpH95JQSpI4JyOa426dINWlL/KI5BIpGOo+b05ru/Dctg32s3gDrHkqpJX3zkGuupT9lFST3I0ejQ5rbw9DGzr4c08YBOCCf51Wkm0Hy9//COWDKDg4Q/4+1XLu+0e4doYreQCUhVIkzs7fiOeh/SqEej6VLC0a6g7oFwVDAYweuOv410YdV6qfK7mUuSO6Eul0lE82PQdPLKMggNyo7HmopLXSbmIb9EsNo74OatRw6RhbdLt3crhRuyW4+lFnrum2Wjx232WKWcsQS6ZNZV4V6ejb1KpyhLRIyv7J0FkcHRbP2ITFYmnRWz6ldW7afaqIXBASAEle3OeK6C6vEmmLraJGx67OlZBtkTUPtQhfLLg527Rg8HJPX3rTCqcrqbYp2WxuRX9xpo8+1cx+X2B4rXXxrbFRu0wZxz81Rx3lrc+H3iuYLVpVXy1ZECuCehDKefx61z6aRfbF/0iLp/eb/CumLVNWuZS1exRb4vwSLtj0yQN6mSok+IM10x2WIGT3evMrWIL3/Wtqy2ocl8cetL6rRpu8Vse7gaftI3mzv18WXgXCQxj35rB1TxHqczD52TH92qCSAjJuD+L1WlKbmPm5B9zWjqNq3Q9alhacdVY6rRNcuZFUNM+e+TXYW1/JJGMyE/jXlel3Qjm25J59K7fTbreo47V4WNpNSujjxFOKkdF9oYj72ab5/bcapedx0FRmfHGa81RZz2L/nEd/wBab53Gc/hVLzz600zt2NUohYveeBzuoM/+1WeZ26bqaZznGc/jRyMLGj9o4oE2QOoqlEXlbANaUdvDCu+5lAUepxRy30B2sRtJnGCahld+wNV77x34Y0jKMzTOP4YxmskfGHQydn9kT7f7xIrspZfXmrqOhzyxFOLs2aUjI7YnUsh7A4NRiy0FXEh0qSRx/E85H8hSw+MdC1lP3KbG7huKrTyLjfbOpX0JxWsY1aL5WrFKUKiuXXnhXiGAQr6Bif50w3J9ayjO/VnB+lN8/wB/xFYyhd3NI7FufVXgHEanHrTLfV2m5IAz6VQfy2GHBx6ZxSII0AwqrjvmtFCPLawrO9zb+1Aj71KZGZd24Ae5rIW4ORg89sVKzzyLxDI3uFY0Kit2Juxf+0n7od+OwJx/OhJ1Eine2enIrPWG7c8QuPr8v86eLS6BBZAMerCnyX0JlaxtLcqyfK4JHomagnnkKEljg9yAKoZuQu3dCB6mcY/QVG/zHMl5bp68Mx/M1McPZ3OSMWpXHeeN3UUG5AH3h+NV2Ngv371j/uKMfzqJrjTkGEkkY/lW6opnWppFtrvHO49O1Yza+za5Dax85zx+GaLu8VIGZcfjXLaTfKniu1uHI2iXbz05GK9PLMOvaqT6HFja1oOK6npLpshhR3JdiXct1JHb/PpTbN94ZzwrMTj8TUd7cByzqASqEgdsmq7zmy05HXkqhJyOueB+pFfatpQuz52C96xc+Ht07arr1ysZmkSNNqDgklm/wroP7U8VxN5hso2VmwEL4YD6D+dc38M4mt9S1yJ/vL5YJHT+Ku6u7DT7xke8tt8idHV2U/Tg18VVxdOGJlGa07n0EaeivseGa1dajp/iW9uQGs7vzi5Ufw7ufxFdroXia31KOCKZwl1InyKxwHPcA/561gfEjTVsdfW4iQrBcxgjH94cEfyrAso4HtTbOXa7kyyR4+6wHUc8EjHHfivbw2K9xSjszzK1NOTVj2KJVeIkbhyMZ7HpiuF+Il+6QW9hET83zvz+VN8P+NSjrb6ofkbGJh/D/vVh+M5Hk8RTMpDRBQqkdOld88RFw31OWFKSkcuUctx1oWLceTj8Kn3HuMH1ozzxzXHozoFgRQwwuTnvWvp0/wBivYJxgFTms2FTntUkrlHUDPFFRL2bQ6fxJ9j0yHULq4jjewtluc8MplCsp/Hgir0Wo6omC2i3RHqkikfzrhdC1iS0ukZTjNes6Vq7yadbm82zTGMeZJtA3H8K+WxtKFJcyimerCbkVoby7Cgtp84yM4DqxH4A1cj1J1GXsb5ewPk5BPp1q9HdWbjm3VfpSb7WS8hQF0RVZ+PXp/KvJi4yvdGjuiFdZt0GZI7qMYyS9u39M1IniHS+puwM+sTj/wBlqzNsSMmOdiCcY5B5xmnLIx+8xP45/nUXiugWbGR65pp/5iFuP96QL/OrMeq2D42X1q2emJ1P9aaFRh8yRnPqik/ypr2lh5TyT2loUUZJeJf1OK1pU41JKMd2RLRXZfjuEflJEb/dYGpw7Z5B/KuLN/4SkuPLextl5I3mDAP0IxUiv4Q8pJFWNAwBGyR1I9eA3Fel/ZtRWtqZ8943sdxG5BGQcHH1xXg2tXCG4vbrd873kwJB7BjivVJdI09LFrmKW9Eaqz5ivpBgAZHGa8N84T2lm07TGEyMZNjZdhuzwT3Oa7MLTlBtS0sdGFk+dOOpWu5XmYgu5AHQmsxwhH3RketbU9rYMc2012B6TBcj8QeayzaOWJU5A6ZroUknuevWpynG7idV4Dvtsl1aE8FBIPwOD/OuwNxuYZOPU15t4VkMPiOAY4cMh/75NdqzlsgttyuM15uNpr2l11PIkuWTRpST7rk9QwJFRG4B9enrVWCTfcFm5+VifyNWdKtWuZMv90VxNWWorlSfRIr+czOJeRjAPFR3SzW6XMSFkIC7fyx/Su0VY4dqisrVIEe4YOjBpk+UFSDlSOfyJrWnOc1rqkQ3FM5nSdRvFvLaAy/uhICVVQM/U9a6WWzhUlhcyohzuJYHPrye3t0Arl0iMOpoh6rIB+Rra1O9jt7fzJmwucZr38BZRbRw4j4i/CbQxxpDMJPJIIKuDg9ulchczAvIMfddsfnWho0yMsxjKlVVQcYxnBzWA825piDnLt/OjGa2CirNkLmQ3LMEdlDdQflAwPetCKV3iiBbYQuMjmqSM7MMIGzz93OOanjsru5OVGxPU1yqT6Frds2LC5IuVAJOPSvR4tDtvJTzpYxLtG8f7XevO/DdqkWsb5j+7t1M0h9lGf54rEufEd5PdTS7m+dy33vU5pxw/tNWNyKFp4YwMvfRgemw10OleD4tRuPs8epwo2M5ZDXoa+CNEP8AywkP/bVqs2/gzSI+UglHusprk/tSlPaJ2RhWgtJHNr8JrJV3XXii3j/3I8/zIrI1rwf4U0WFj/b9zeTjA8qGJQfrkmvQz4T8PAfvw/8AwK5x/Wqz+HfBEX37VZf+Bs1bLGU0rtDVSunpJnkNvaaes++NZ+em+ZQf0U10tkIVA25/Fs12oTwfZNm30a33DoTCT/OiTxNYW64t7KOMDpsgUf1rixNeNTRI3hOq9ZO5zyJK/KxSN9FJp62F7Kfks5j/AMANXbjxm/ITI/4Hisq48XXDdHx/20NecqTeyNlN9i4NJ1R+lnIB6sQP60jaJqI+99nj/wB+ZRWFL4gupD99fwBNVZNWuGODNj/gIrVUJPoNzZ0R0eQEmS/s0x6OW/kKb9gtI/ml1WMgddkbH+Yrl21M/wAVw/8A32BVe41BBG37zd/wKtY4eT0ZLm0tzpL/AMQaXpUTbbiV2HpEP6mvN9d8Y3upO0UUrrCfwqjrN20rFQ3B96ydoUdK9nB4GnBc0ldnlYjFSbsiMh2OTnJ5yetJtI704tzxQCcdq9JM4W31JIJ5LeUSIxBB7V2Oka68qqGJyeDXEkZrS0tyGHUc1zYmlGcdUdOHqSjJK+h6XFJY43TSvzzgHFK2oaTGeEkY+rsTn8sVzSMHRck9KURp0CZ+teN7CK3Z6ntJPodB/bdgn3LSPI9ST/M1F/wkaL9y2iB9Qig/yrIWHPSI/wDfNTJaXDH5YT+VVyQQc0mXz4nusfKCM1C2v379+KammXbjO0D6046YEOZbqJB3y4p2iJ8xC+rX0i8u3PvUDXV445kIH+9VrytPjHz3ob/cGaPP0pOiTy/himkuiE79WU907D5pSaQRux++5PqKtNqNop/d2Wcf32pp1iQf6uGJP+A1ajLoibxW7Iks3fjbI1WotKuWIKQMM+tVn1i8YY87b/ugVTm1WQH97dSY/wB41SpzewnUgi7q2nXMVoS7KOM4J5rjbSMy3KAfe3cVPqGoic7UJYUzTZPKu4jnHIr0sJSlHc87E1FJ6HpN0syWuTgIVC/d69OlS3NlfTi0t9Othc3zOHWPsAoLYOfzpgWOeSGLzULFhuQZJGP8ius8OzJZ39zfzA/6PbHauOrE8fyr2cdXdLDOS3SODDx5qqXmY/gvSdX03UdUm1ayktmuQjruGM8tnH511hkB6MCR2FZFrcPLfPNKcu6nNVtVhs7Mzut1cG4ZgxVk4OeetfBqnPG1XLY92pPkWpn+OHsZbKL7Qod7d/MX3OD8v4nH5V5W07xXCz7v328Sbvfv+FdPfG4168aG33eRCCXk2kjdg/zxiuPKks+c7s819NhMP7Kmo3PNqz5pXNfVLeKG6hv4F/0e6HmgY+6f4l/CrVtbi4ZrWZTvGFOep4yjfivH1X3pdKUapok2nHHmR/PET2P+cir6p9utLLUYDiZFFvcJ0KkdD9QRkfSlXbSsVSs9Tn9Q0aayJZfnjPp2rKKc9ua9NlRLuwR8AOzCNgOzZ54/UfWua1/R1gmhNuhMkrFQijrgdhWeFxl37OS1KrUbLmRzsalecmkk4kxkEkZ61u6TpM1zb3NyUfbACBjjLAdPwqa5sJJY7hGUlY2jQELyCV6/ixFehVd1ZHNB2dzEtXKsPfjNbz+MNU011hjhikjVeCQc/wA6wWgktbho5BhlOM+tbttp9re6Lc3c8Su8CNgnPHBI/WuCVKEnaaujqU5JXRqWPj+7lj3m0hP0JH+Nba+LpIre1vZLMfvt4xv/ALrYz0rn9C0RG0u3Yx53Lnmuln0mNrawh2AiOIkj0LMTXj1o0ItpI64KTSu9zT0fxGNYulhW1ePaN5JORXSo2e9c9pNklmzlVCkgDitpHHrXjVXFy91WRsttS8jYxTbiGG7g8mdPMjznBqFHqYMMZqYTlGXNF2YnG61M640GGOJvsGlWdwWALJM+HyP7rMCMe2fwqtD4biuo8XelfYWZTmQSrkHrwoPQ9Olbqvg54/Knh8gAnIr14ZrJU+VrXuSlZW6GVdwnRPCepxLcNJELWRowwxsO09K8OTm1to498mV3MoXkHv0/CvavGc3leDtVbOCYdufqcV5z4X0Y3WmreLez2rh/LUxnHau3AVJVoOUnd3NMPKNKTb0OZUsFIdWznuCKGuEiDbuuK7/xF4TgjhgeTV9QuSzD78KkqCcZz37Vwmq6R/Zt2kTSCUMpIOMV1+yd9Uej/aEXG0XdlbR5Cuu2TDvMufxOK711cM2QMZI5NcLb4iv7FlGD56f+hCu1mkAkkxnO8jrXLjIq6Z5M5uTbY+JmVWQH5m+XI9DXV6bb+Vbxxrjcx6Vy+nJ5t0hPIUV1Et6NN0qa/Y4bmOL64rz4Ufa1FFbdSJz5Y3ZHrPiWHQlNvaKJLn+OQ1xsnjHUJpvNnbenoVrldc1x/tD4O6Zz36KKybTVbsT73ndx/EpPBr6CGHhGHKkee5ybuekJi6ubO+RspM5GO4I55rRurWK6aJpc4jbdjs3sR3FZugGJ9OQR9PM3gentWq21eTgY9TWlGmoJpCnNu1xH2pGwRVHBwBwM1hWNmpDtNGGG7itl5UCsAwyFzVS3Qi2jzwcc1niNWkXSb1JEjijUbY1Wrq6fdCxa8+zv9nX+PGB+FUgrBuSFHsP60+91Ga8Ty5J5JNqhVBPyqAMDj6Vz80YotRdyoZ/s2hapck4M2Ige+37zfpxXlkreZM8m4/MxP513niOZo9Bhs48lp27d8nNch9lA/wCXY/nXTRj7pnN6n0aL6MdLeQ/8BpkmpSbcJZyH32iszzjjhj+dQTTtg/Mfzr4mF1sfRcqJbrUdQcHbAyj3dRWLcT6g5JZkUHqTMB/KnTz9SSKyLi4GcCuylFthokSSvcfxXNuPrIxqo7Met5Fj2iYn9arPIxPA/WoiXbqVA9zXZCFkZORaPl/xXUzf7kSj+Zpn+jA9bhvrIF/kKh2IesyCnoLVSN85P0WqtbYVxSLdusG7/fkY0oEKjItoR9Vz/OnifT06rI9L/adlGMC0z9WpXk9kP3erGhx2jjH+5GB/Ss7U5JmUjDnjritE+INmdltEOO9YGqeILqUMuVUHsBW9CnJy1RhVqRUXqc5OS07ZHI61FgsSOmOtOdy7s5OSepqS1RHmVXbC565r2o6RPHlrK6IkgDDdtcn2UmkkiKH5kYfUV6DpljpMNqomny5GcBt2KxfEMVnuAhDqQM5k4J/ACmncTRyuPlrW0cQZzKxHPAArN8vP19Kt2hVMZZRj3rOouaLRpSdpJnax3elRRqBBJI2OpOBSnWbdOIrCP6u2a5r+0LaNeZgfoDULazCpO1Gb9K89YVvc7/rCS3OnbXbk/cSGP/dWoX1a9cc3DD2HFcu2tOfuQr9TUD6vdOPvqvsBWscGiHik+p0z3Eshy8rt9WNQtKiHLOq/U1y0l7NIMPM59s8VF5n4mtI4RdTJ4pnUNqNqnPmg/TmoH1mAD5Q7VzhkJHSjc2O1arDx6mTryZtvrhJ/dwgfU1D/AGlfTnEUbHP91CazFmdTkHFSLfXCj5ZWH0NWqUUQ6kn1L7was65eO456DGM/hRJpF4luZZnRBjIBPJqj9vueP3r/APfRoe9nkXa0jEe5q1FIm7e7IFJzzV2AF2BB71SB5yat6dPHFfQGc4h3rvOOgzzVxtdEvY9U0qGKzliCwybwhZnLfMx9fYV1Uc2/SLhiDkgjJPOBiuR0zWdM1O9e6hmSNmyoiLHOB39Oa2o7530udYo42yjFT5gxntkdeuKWb81Siow1DCJKfM9LD47xbZ0k6gAgge4/xxXM6vqN3rGoLYWzEzONrt/cFR6pqUlrAsUfz3bjonO33xWBbOYD5kOqT20rDD4O3dz3yOa83CYOVKLaerOmrWUpa7Ho+mWa6Rp62lrNDw4diUYFuOT161514qsI7LWJWiaNkuGaXEZ4QknIq2mra0i/Jq0cq9t8Sn+XNUdSe/ubFJLwQBEfbGUVgxz1/D0NddB1YS97VEVHBxsjL07UW03VYJDxGflf6GuySKC11Z7mR4xZ3S8oR92QkAkHtxz+VcFdBvtHb5exFdVodwmraQ9jOcyJ0J/StKq5r3M4Ox0NqWS/RS4KFsP/AL2CFb8v6VJfoItWsbuRJWjhDkeWm47iMc+2M1y2i3rreT2F0373cSM/5/Grc+qz2VyYXumVuoy3BH415s6MozU4nVCcZRcWbv8Aa1tK7pdxmO0bayr5LxvuwxYkjgg4Ax780+O/0QSs1u8R5WZg8hUljwMgjkjJyM8YrLj12ZhxcI/1qRtVMgxJBDID1ytaLF1E9Ykewj0ZR8V2Flb6fHdQXKSsku1yJFbhhkYx24P51hWGuBLO9skRilxFtz78f0zWl4ja1utPVI7WOCTzB86ccfSsXTUsobhN6zM4OQ+cBSOmMf1rphP2kb2syJJwdkeuabaLFY28ePuxKD+C81opGQ5zgkfpWJpviOzuIozufJ+XJXqa0YNUtWXd5mXPUYr5jEU5xk79z0Kck0rFxWCu2PWrKOzDgE45OFJrHFyrsW7E8Vq6feCCCR2n8oBlG4rkd6zw2G9tPleg6k3GNyyjkcHj6ipllGMk1JBeSOpQX9nI7Abcrj6n+WKtb5jLIpFm6gZXJAKnGOR/vV6UsmfRnOsUuxVV8/8A66ercVcjUMyiSygCH+MNn9Peqtst09yUuLFAnmYzHn7vvzWcsnqJXTKWJTMbxXYXmseHptO0+IyXFw6oBnGBnOSfwrlLLwb4+0mz+zW9tb+Sr7wgljb5u5GRXrehmC3urmSWRV2tsXJ/Ota41SEqQkifXNPD1vq8HFtblubvoro8Qvz8R2C+dpksu0cERrIBzn1rlNVsPE17cCW70i6VlGP9TtFe+X2qQopPmp07NXD6rqvmu3z8D3pwzSTdki91orHl9l4d1aS/gmltzGqSK3zMOxzXQSNmZyDwWP8AOtJp2knQ9ADwKoyxkszAd8irqVpVWr6EbGjpKkglercCofiBqS2axaehyttH82O5rW8OBY5PNb7sCmVvw6V5l4vv2u9QkySWkcvz6dq7cBSteb3ZzYid9Dl5XeWV3YksxyadbHEvXtTtm5cAHpRbLm4VSM9civROQ9E8JlpdM8sHGDW99nRCiSSOxduM9/pWN4MMcMDlyFUZxmuimubOWZHVHlaP7qoMLVppbhqyDULb7JpsshT+Hb781mw3LugVcDCjAAz2q/qV+ZrR0m2xRH738TfXFVy9tb5SJd6rgB3+UN6HFclanKpLR2RtTnGMbvciFvczHcz7gffd+gpZIYooy0033fTkjn0qP7c87bFJYdPkGFH41TnnD3sVooJBYM5PoOT+FEMNFb6sHVb2KOruz69a26DcIImk2jg5PAqElyf+PSf/AL91Y0GFNZ17V9QaRzDawlvKRgryKMgYY8KOOTzUiXAkRX2P8wB710xXKrGMmejvFCo5nX/vqs65ntogQblP++q8wm8QPg/vnb6tVF9fcnGPxJr5unlc+57jxkUehXmoWwyFkU1izXyk8GuYj1gyHG0mrH2rK5Z0X6tXXDBuGhlLFxZqtdn1qE3Ofesk3yA/61MfWozfxbeZM/QVsqDXQydddzY+0nNN+1DruFYT36Ho7Gqz3nPG7860WGbIeIsdMLhX6EU0yjHJrmkvXX1/OpDqT4xin9WYliE9zXnuABgGsmd2dzgU1JXlyWP60kq7VJHJrop0+Xc56lXm0RGhyDmpoHCSBj/Kq8Z7VJsLHitjG+p01nqflRjbtT3HWsy/uRPKeS7n1NZmZEwAcY9qlijdjvLdOhpJDuNxtGfzqs78nvzV25dNq8Yf+Ks5uTTEhd9IWJpMe1GOKBhkk0lLj/Ip6xOxwFJ/CgBgoxV2HS7yc4jgc/UVp23hLUpxnYFHfmkI5/tS4PpXa2vgKQkGaT6jFbdn4HsYwC6BjnvTSA8xWN3PyqxP0q3b6Te3B/dwMa9ctfD1hAuEtkyD1K1ox2dvGAAgX6CnYDym18GanPjcoQe9bVr8O2IBuLg4/wBkV6GqKvyhc/WnlFByRRYDkbXwBpaY8xHc+hNasHhXRYPu2EJI/vDNbPG7O0/hShRnAU4PrTsBXjsraCNkjhjROhCpiuTuJo9Ks2P3m6Iueprf1XUUQGJDkc7sHr7Vy6QTS3yXd4hwy5hQjgL64pSegGzoGj39u/8AaSywtezD7jttZc54BYY5FJ/wmumXLtFfQ2czqxRhcWwGDnB+YfStOxuopIUUPF5yqDh2AYNtIJB6joPz9K4GW1tY72+jWWxuy0zEJNIY3jwxOAenPfnniuOhVm21IppdDprmXwleQ7k0q2WV2CI9tcMuGJ4JHp1rG1hV8lhhdikKoC4C4xjDGsm80+cAPY6fIq7vm2SCRc4HQjnHWsi5nu3byrp5wqn/AFbZ4rpUr6gnZWY263SyeVEvzE+tbehaJqVpdpcogx0Zc84ql4cj+062iNyoDHH4V38cYRQB6U1ruSjG1Kzme8ivLWP95g7vXPYiodYsjeWCTNbnzowNyEc1u4CyDawwTwRzhhzSzgsFkJPPDE+nb8qi1izzlrdVPzWsikf7Df0pqmNDxcyIR0G4j+denxSedEvmojEcHKg81HJa2kv37OH8FxVJJrUm7TPN5WZ12tePKoOcFu9atjpfnyxb3GGyAobnj2rpLjw/pdwvFmiN6qTUOlwNsVAzBN+MBBsY8g/McYx3OaGkti4u71Gpp0thZF4kYjzdoJxjlTj3Bzjn0qja67eRf6zTw2P7ktbct/bFnsCoZlDF5Ecsq4HT0I96S18FPewrNbeKtKYMMgPGykd8cisZUITXvIv2ji9GQReK0QfvtOvU75VQwrQt/Gunwg/vLmEt2aA1Mvw88QHJgv8AR7gZ4/0jGaU/D/xeo+TTbecZ/wCWc61l9QpJ3Wj8h/WZbPUs23jPSZGDDUbUEdN8e3+YrUg8SafLv23enuZPvfvFGf1rnJfBfidRibwvOc+m1qzpfCN8HPn+FL8Edf8ARqp4WW6k0L2seqPQre9t2hEUcUTJuDjy5DkEdOcn1q4l8EYMRcKARx5xCnHt7/rXkz+HYrdsSaZqNuQeSInGPQ8fypiwrAwKapqVsO+Gfj8+v9Kzlh6yWkxqpC+x7NHOJFZwMb3LY9M1BPMTk5rN01vsel29vc3BedE+dpH3HP1pZ7uLacSJj618zWozU2nr5ndGUXFFO/m4Nc9O5Lda0L+8iGcyoP8AgVYkt7Bn/WA+wrrw1CVtglJJEycNn3pOozSWyT3jhbe2lk3HAJGB+dW3064jXdNdWcA6ZMm4g/QV6MMPN9DGVSK6lhXFl4bmcH57pti4/ur3/M/pXkV/Mb7VJXB43YH0FegeKdWij0+OG1YbI4tinpk159psYe43OCVBAwPc4r1acOWKRwzleTYspjXCBSAO5qOCPF2pPdc103iHTVFpuX70WBk1zdoczr7nmrJO40Z1gswXi8zPTmrst+543hQOyDFUYkCW6KSQoAzzSiREOETd79B+dMLizeZcKsWNhZhyTycck/8A1qmLRq213aVz1G3j8h0/GsuTUobe6ke5mUIq4UDqT3rKu/FTDKWEPlgfxN1pAdYZ0ij3TAIv8INcjrmpyC5cwgx+Yu0f7vf8/wClZ0WoXss29mMj+9TXlhNcWkmos6gRkLs9qALfhmMyG4TZuWRQrA+9dl/ZFl/DayY7fNXJeFS4a62dtvy16P8A2vpNv+4eZN8fyN846jiqsK54bzRS/lSYNBQoJHQml3E9SabilwakAJJpM0uD6UYPpQAUlLz6Uc4pgFGcUdfSjBNAEyXDou1Qo+opHmeQcn8qjAYjgZpwjcjIUnNAArEHirkLqTgttPrUEdpcSY2Qu2fRTV2Hw/q0+dllLx6jFAi3HbW0qhpLhR7E02draBNqOGPtVmDwXrMjKHWKHP8AefOPyrXtfh8uV+1Xhb2jH9aAOIldpXOBnPpUkGm3Vwf3cLH37V6jZ+FNOtQdsIbB6nmtOKxhiXCoF+gxTsFzzC38JalPz5e0d+K1rbwK7YMspHsK9BjhRBkR/mKkCbT0GMcUWEcla+CrKMAuCTWtb+HbGBuIF+tbQXHUjPv2oHB7cdTQMqpZQoPlQDjsKsiNAvAH+NO4Bx19xT+i7go5PUigBqp/D1p4XjOM+3pQME896Bu3EE9R6UwDbj0oX1wMA880Z55wSKUHnOOO+KABQScgDNPweAc89c1HyDx0xRxtOO3c0APGN2NxOKdcWk39kTXpPlQL8odv4j6CnWd0lhdR3ckQlWM58ojJk9gKzPEniDVdReKS5ht7aJWPlWxbeIx7D196AMfTLRb69JdcxpyRXQXVlDeKFljzt6EVBpcDx2YklyZJvnYn9P0q9uye3txRYDHfw+MHybhvpIM1kanosNtavdXtrbSQRjLuB05+ma6/jqVH51wnjnXNRsmbTvs8YtLiP/XHJLUml0QFCKz0C8kzbXLQOTkCOUrj8DUk/hyZ/wDU6rK3tKN365rhGwW9akimuY8bJZFHoGIqLIDu9J0K8s9RjmmktmjXOWUfNyOlXfE0gi0G58mX5/l5HpuFcCms6lDyLhiB2PNTS+Irq4tXt5grIy7TxTAi02+lsruG53tjd8wz2rq/EE90LWK9sbpwqqDKinjB6cVwwmAUrt4xx7V2nhKQavatpsqqzQKxwRy0Z+8D6460rDRee9updAiv7GZY5GBbHXODgisGDxpqQ/1kMEg/3SKktJJND1i60i5dhtciMnsTyD9GBFZmqWj2F2bmAbYmJxj+A+lC0Bm9D434HnWGP916xP7UmeeRLd5FhdyUjz6nOKynnMu3eckDFCShZUbOCDnIqrCOssbK/aGVJo/IR8FyfvsByFHoO/vXY6YoitYx7VkmRXXdjqOPfNX4JdkSr6DFAM3I3UDnH6VZjuGXG12GPRsVhLcn1qVbk460AdLDq95F/q7qZf8Adc1dj8TaqmNuoznH95s/zrkVuTng1It2cdaaEdkvi/VRjN0GH+1Gv+FK3i68df3sVrJ/vwLXHC7OfvYpPtPoadkM66TxpcgYfT9Of/ehrEvvEyXCkNo2mDjkiIg/zrFknz1NUp5OMZrN04voilJjrq9iZiwsLRfop/xqg2oyox8tIo/TZGB+tRzyjJ5FUy+TQopbIXM2WHvrt+WuJM9gGNQlsnd/F1yetRM+WA/u8nFUby+WOMhDk9KoRna5c+dJsB4Xt71b8K26MrzyLlVlHH61iXT5fHoK9A+H+k2mr6YLS4cbvO8zYeAygc89fX9KaQMo391FLPJZu21mG7npXK6TFjUmjb/lmTmu5lvNPutY1GOwhK2SSD7MJB8wXAHNed3wKXlyBwPNbj8aQHS3eu2duNu8SMOgWsO68Q3dwSI8RL2x1rNjhd2wFOPXpWjaaS8rcKTjv2oAzQsszkklie5rTs9IkmbO0+/pVh5bCwwCyzv/AHYz8o+p71TudYnuFKHCRdBGnAoAvyXOnaaNigXU69lOEB9z3rKvNVur8gTP8gPEY4WqR68ZpKBm1oWoyadcvJFjLL3p8lrdzyvKzjLkseB35rJt1eSVVTJb2r0GLT0EKf6LL90UxHn/ANnb0pPIPXFdl/YC5Gc5PpSjw+GYHBA9qQHFeUe1AhYjI5rvV8MIcYBx71JH4XhUEEryetDQHnwgfGcHFOW2kZsBWJPtXpUfh20RvmRcelWl0ezQBliBIPAFFmB5lHplzIcCNhk45FXIfDd7Lg+WQCeM16dHZwhgvkj+dS+QoOQmAPWnYDz2DwbcNktwOxrTi8FQpgyygk9q7JYk9CW6A1IilV+715zjmiwHNQeErJF+aMsc5rTh0OxiQbLVOfUZrTUbj83HP1FOCgEZGc+tOwWIIrKKNcCNV9lGKlCAFcqPqeak7cA5PT/69GQAx+bAHFMAK/NwFJHQgU7apwSxOTzTc4AOM5pyrjO4Y+lIA2qAD39D3pw24bIA+ueKbgE+uPWntljuyCAKAADcFIycdOeKGLBgcdTTRgkgcZHJ9KXrtGc/jQA7YC2Bnn1OTTsggc5x1pgAYnFLuO3GPmNIGOByTgfnTs7VJ3fMOg7UwYOTnGRS4BXGTnPPNOwC8Eg4wTS8ZJIOe1N5AOQPrSF1UAkkAmgBxz6YyOtBJxyaYX+bPPTAxzUf2iIXS2u8ec3IXNAE54AJB9gKd5nlrs2BpmwQPQe57D9T2xTOUcrGQ0g4Z8ZCH0Hqf5d6FQKvGSDySe59c/1oAI0CMS3zOQFyeBgc4A9B/nNYkw/tHWfKGTGhwfoOv68Vu9jnAyOajjt4o5XkWMB26kUAP+XGT7HApwA3ZJwRwMUhYZwB2xjHWgtnC47c0wH4UN9Bzmobm2try3MFzFHPG3VXGRTuAuBwOpIoyAc84+lAHKap4A0663S2LyWrhf8AVjlWP9K8wfdHIySKVdTgg9jXvDPhcjPpmvM/G2gm3vn1K1Qm3lOZAB9xvX8aloDkGfIAxgVHTjwcU00gE6966j4fakNM8daPO+PLa4WGXJx8j/K36GuWqaCVredJkPzIwZT7g5pDPTviXoWdftnRPvRNC8mcYaJin8ttYOj29xODb38LNalcPcg5QL67umR6d66HXtTa48Kwa1NBHeTi5Zj52SqmQBtxA68kjFee3uvahfyK1xcsQv3Yx8qKPZRwKQx2paWbZvNtz5luxwGH8P1pPs8enqWuwHnIysHZfQt/h1q7pGsur+XKx3DoSfvcY/P3qjqlg1tIZkZpIX/iPJH1pq4h48QXgbJIJqwniq8UcqpFYOOaMUxHTR+MJl+9HmrCeMlx80Rrke1HSgDt4/GVsT8yMDVmPxhYkDczD8K8+4zSmgD0mPxVp7/8tcfWp18QWLgEXC/nXl3fmnD2NAHqB1i1YYE6fnVabVLfH+uX86863N/ePT1pu5j/ABN+dAHbz6pbjJ81cfWqE2vW6EhSW+grluc/4078KVgNiTXMghc1W+0tNJuJwq9qoZxzUkb4OKYEsjFmYnmuw0GffYWUaIFeNHBw20tu6kn6HH0rjCf511ujwLLptqTuBCliQe2cbSO+RTA1rG1jS4muJZGDvckEHhQgHUn69MdhXMaa1g+tXb3yLJCWYqGJ554rp7fSLifTpbh3wyRM5DnjaBk151OcgMc5Yk0NgdJf6jo8UmYLZCV6RxEhPxzWJeatc3a7S4ji/wCeacfnWfS0hhzRgmnKpY4AP0rTsdHkuGG4Ng+1JCKENu8zYVSefSug0/w+ZSDKOPStuw0WOJVAUbh7Vv29qir06dapIClpukQ2qgrEFPqRWp5Q9qsRQkrxwf0qXyz/AHh/3zVWAopEinGVz1wKfs2j5UGT07U5S+SwwuRjjFKACMlyMdMUhiKPlwWx7Cl2AkDGf04pdvzcDA6e9B+9kseKQBgbjtXP4c08A4wflPbmmBwT/FjvxipCxK/KfYn0oAUAgEDgfSlTaQBgH2qPkcEZ9wKeAThS4X607gKpG7HTnHPQU7O3056GmZCNnPI9DShjnsdx70gHklVzg4PQe9ABOFJ4zyDSIMsAcDnOadgMTgMcHPPcUwDAyctnB4yOgp2crz+GRTflzuAPqPc0Z+YEDp680CHjgbc8daXeSuATj0HNM5znd16AHrR905yc+goGPBGAT26YpcjBPofSmg89NppwIJJA4Hp0NAg53YxgEcUuF4GT70zJ64CjPTrSjCgknJH5UAPUAcg49/WkYgDPf0pAMnAAAP4U45CdR1/GgYmSDjJGaXHzcgnH40ZI4BGO/vRnqB1HvmmINvBH40owMdDxTcENg5/OlUDOQe3FIA+XlcDJ7YNYcvhkS6s9295IIy+/YvBHtmtvcN2ST6cUbgcYbB9xQAJgLheAvQDtT2cnk59BmmgqAOu09eP5UnCrycge/WgBxPPTp7UK5xg9zTNw28fzqPfjIOQx6e9AFjOFYA9PzqPzCvQ59KrPcDJLNyOKqS3hQfdPoMc/pRcDQedUJy3btVaW9RFJLgfWqi2mr3iq1tYzFGbb5hXA/OpG8LTQr52qX0aQqMuI2xj8SKlsDPvvEEFuuNxZ+wFY91e69fws1tbPDA38bjbke5Nas2veGNKVvsVuJZlP39hZm+jN/jXH61r93qkzfMUhz8qD096V7gUbnRnhyz3MG/0D1mOio2N2T3xUjIc5phQ56dvSgCLA96TvUmKTbQB3ujE6j8O9XtGOWhiWdf8AgDY/k36VwBFd38OpRNez6cxOLmKSDHu6lR+uK4meIxTOhzlWK4NCAiGQfpzW5p2oLOhtrjBDevesPvTgWU5GRg5yKGBc1CwNpLlG3RHoaojpUnnsVYEkluuTTKYCdqTNOpOKBiYGKKXtSdRQAnel6UcUUAAJ9aM+9HFJQA8NnrS4z3pnalBI70ASbAe9OCEHimLIR1FL5px0NAh7Hke1dv4SiM+h3b5H7kgE56Z6Vwikk5rc0HVZNNkcoCQ4w6eopoDttf1AWHhafaf3twogH4/e/QfrXl85G5VH8Irode1aXWJoyU8uCIEIinP41gi3eaQkLnJoYLQrgZOMHNWrWylnbCoa1LDSCzAup9a6Sz09IwCE6deKSAybLRVjALqfxrpbOwCdFxjoc1YgsyQq449AK0Ei2gA9RVJCI4ICh+716kVbjTkDGMdSKVIwV2hsZ5qdAoGO/TNMY5F2qAFLdySeBTth/wCeb/madsCjAbPoOxqTZ/tH8v8A69FwMgkZJHGegPX86OAM569D701iS3IDH2PSncJgZDDrwf0qRjtxDAkYx170mcD0z6Gk78Y29wKUEld2cHOMAUAOBAHX68UoIx2xmmgDAwM/hxSg8kE9+g70AOGQBjPuKUN1ySMim5AJznrQMYyOvcGgCRsHAwfb3pAATyB1I/SkyoBwOR3FLkYHA570wHDBwcNjHQd6XC4Jwy896avTgn2xRk4IJpAO2jHbg/Sn55xyPcjFMzu6ZzinZzyx6+tMBQCOMDn1peAcc++aZxuzjPGMjmjIUn5eMd6AJM5bIXIxjB60uRxnOP5Go1ztJBOCOgpdzYwWOAc4xQIeHIYHPHqO1BGF7n2zTCRk4+7nkU7cNxwg9s0AP3rjJAAHamh16AgYOPakyWOT175oypHPOe1AhxPUDjnt/nmkBOQAMfTpSfxfKeR3FG47gdx9ABTGOJXOTyT70vG0MSfeos7SSzYYdRjrTfO3D5s8HFICQnGDnp0oYkAc1XEodsnIUdDSlyzbepbpjqf8aAJGkAHysNw9qaZAOCCCT3NX7Dw3rGosDDaMiH/lpL8orprD4fRou/Urwsf7kPT8z/hSuBw7TEnaAOTgAHGT/Wr1h4d1rUSGhs3RP+ekny8e2etdLca74b8NSvb2unCW4i4VxtbcT/tc1j6j8ULyRdtnZJCezu28/wBKlsC/H4BjSNm1DUtrDnbHwAPqaz9S1Lw14XiSOxiivbz+KTduIPqx6fgK4vUNZ1HUebu9mkHJ2FjtGfbpWZsBO0/LxgZHBoGbt58QdbnkfyvJjU9P3eSPzrjr64vLx2knuJpGY95Dj8qulVGSTlvSoHXIOWHI6AYosBivASPx5qu8WBwQM8dOlazqSDwcn2qq8eBzlvWgRmlOcHH1pjLir5h6n1pn2cMc8k9BigChtGaaVGOBVx4GXgjp1qN4zxgAUAaXhK5NlrkUo/hIP1pPGNolr4t1OOIjyjMzpjHAb5gPyNZq7423IxB9RTCjHkknPc8k0dQK2z3pcVNsJBP9KTZ3xxTAh20bRUuzvSbOKAIce1H5VLs4FIU46UrgR0VJs9qQpg0wGUd6dt9AaNpz0NIBtFLtPpS7TTAZijmn7fajac4oGJmjil2N6UbG7CgQoNPjkKOCM/nUYRycBTVmDT7y4IEcRNAEiSGc7FGWbgk9q6DT9LJUMUII65p+k+HXgw8xBY9vSukisyuCADx0FVYCtb2hA4T860raAmTmTb9TT47c7skDB/SrCQgDAIx6Y4oAdHCAxAbIGMnrVv7NtRZFkjYN1XdyKijgPXJA74OM1L5CBiRv5PTNMQ5k8p2AZW/3TkU4IgUHf1PKgHNCwruIUnHepvnVQwzj0AoAYrIWwVIOM5PNOyP7w/KnYB4BG4nOKNsn9xqBmKr56ADHQkcig4xwvJPXFNADYx1HXnFKy9CcgdiKkYo54PHoRTlOBuAJJGBxSopztUbj2GetJnY23acDr81MBQ5243cY6dqerhTnAAAIAHembgxzjHtnpSZORzn1oAk3kqV5+Y85FO3AEfKAOwBqNMbgT0BGTijK7jgZGaQD1J4GQQRj6UoGDznk9BTOvP8A9bNOTDHJH9eaaAdzgHG3B6E80u4Bsnr7DrSDBY4J47gUbhtDZ+cH06UCHAsTgZOT17CgnIxnkdaaGOOoOTkjPenK3POOKAJI5GX5gSBjHPOKbncc9/akJbPUDP5Um7uCBgdu3tQA4tkEDOB1OOtPByOD19qYrAjlV6dOgpd53AnAwOAKAFwBzkliOlPDgBAy5xk4z1qPcC2SRzycilwynIjwPTrQAmVCZIB549qXccjnPrxwaYueABzjnjoKVj8nHOenfNAD93QkKoJwDTd4yRjP481ch0bVLnasVnPzzu2HFbul+EoVuMaxM0XQqkZouByobOQcsc9COv5Vf03Qb/Vzm3jVYxkGSRsDNdPqN7pOju8Wmx28TKud4XzHJ+p7Vzc2upvZ4rcEkY3d6lsDpbX4f28SCTUtR/CL5R+ZrR+2eFfDa7I2gEqrnKL5jn6nmvNptUu54hG9xIyL/wAsyTtFU9w2nduZyMDBwBRqPodnq3xFuZJMadAsaD+KYbjXJ6h4k1a/Di6vJWB6oDhfyFU5BwQRtx79ahfDMSOenOOtAis7s5GwAEdBio9jNknI9cetTbnVWyevrwQKCrKvAAOOKBldlA6kDK/lUUh9s8Y44qy6llOQAepPpUBTeBgAnOevWgRVYNtJ9eRx0qsyH169vSr7xkA4J68jPeoWQtuAyf5igCgY+cDcQeophgOcYwR0A71o+WXXO0j696YsDcsFBWgDNMBbryRSCBRxzz7fyFXzCD8wTapOAP6UhhC9AcjpzQBnmLZnC5zwOKi+zlscY7VplARgjvzTNmckAgdvpQBlG0IJ7eneontcZwDWzscrtCHIwSRTDESc4LY646UAY5tmU8kZNM+zMw4BIx6VtbG3bgq4PAyM4pRalvXPpQBh/ZmU4K4z6ikEBbgA8V0K2ylgdvGO/rQbQAkBST6UAc99lZcghhj2pPs7YPHSui+xjcSQRgdAAKBYoVBKjJ6igDnfIYn7v6U37OwPQjPTiul+wIpyMgelN+wrgsFyBQBzXl46qRjqaURZ+YDNb509cEj5sHBFR/YucBT0oAxRbhgNmSccg0n2dw23acituOyw24Kdy9+1DWY3HC45zwaAMQQEjpjnFSJaMy5PFb8NiAVcpu54q1HpoVjkc0AYCaaWOEJI9atQ6S235x830rpI9Pwdw71djt1DbjjPfnOaLAYdvoi8MVzitm2sdi/ItXViQAZUAgc471YVNgOCPm6EHmqQFeGEKp2pzngkVaRAxLg/iakjTBAznjr6VMqFgeOp544oAjSJRjAGAfyqfZlsH9O1Iq8kkEED05qRFDHAXC4yQe9MBAy7MDIHoTUoCtFtx0PX1pfLKDIChf4hnOPwowCTkkHtgDigQrBVYKOB6j/PNKQST8uRjkZxSYAYDPU9RT8IBuwPTnpQBGBjAIUZ6nuKkyP77f8AfVJsDMAOpByBTBjH3TQMxA24EYyvTFKpG3BIXB4BpirvBIOB370bgDt/GkBI+CANmMfhQu0MMFTxk8d6axOcsM56cZpdwKhcAE9CT1oAepyGBYAAZGe/tShhjBBGfboaYMZC8cnrnigEYK+vYdaAJAVXpg465FKCd2SDj1Hem4IODxgdTS55A+bOeT2NADmO5j8oK9ie1KHyuMc5yM8UzIB4Y9c/SnZXbjGB355J9aAFBIO33zxSgkZBIFIqjpg+56nFH8QwOR60APB428D3xQSAMkk8enakXcACPlPc5waRiNxIGCf1oAeSCBgEjpknrS5JUgqMgjkU0Db8wyc9aXgMDtKgjgjvQABwSQAemacqqV4HzAZJzV+w8P6pfsptbV3Vv4zwPzNdPpvw6bhtRuguR92H/E0XGcQjZIXjP1qdbaeWbbDFI3ONxG3+deqQaToGhxmXyrdGjGTJKQziud1zxfpTkCziMkw6u8fH4UXFYx9M0Sy8vzNTmnVi2PIgUE89OSevt1roLe80TRot9tYRo4BJM3zSYHck1xsuv3kzH5sBuM4wRWVIzO2ZGMn1qQO9ufiJIRIkEAfjh87cfzrkLvWL27cl5XUEngHiqKnJLbSwBycjqfWmhvlIwABz+H1oACxCDGMjHOelAHUkFlJPIP8AOk3YBBOB7jvSeYpJYqCWHXtQAR4JILKeMkZ6Go5CrL8uPypz43bc5GOnemhN5+UfUZ/rQBGzMFyQo9zUT/N8oyeep71NsO4gFVzye4pm9RyxAbnGelAERDcqchxjB7imkFuCoYnvnGKeGy45Jx364p23KFjyFODz0oBFdgu4qRkY4OcYpjRvEcFhux8pHP0zVgAk5PQdh0qPYckA4zyMf54oAr7MgDeGPVtp4JppiwuDhgx5I7VbKnYBuGPXHSmbB0C4J74x9aAKiou7CKTgjjb1pXjXexOM9yOAKtbFUjjGOmewphXKlzjnrxQBV8ttpGVbuMDmomj2g5Zjg54FXtm8AAgEHrmmvHtDHHT3/lQBntGVGTlgR0HWk8o5GeR0+ntWgyNtCDA4zwOfzqNkO3bhsjp6CgCl5GGKgkZHPvT0gJbnIyB+FT+W/QAnIPbk1KARDyz7yeMNhcUAVVt8HpgU/wAgr854Pb3qf52Y/Kx4xk09EcLg52n/AGetAFf7PgAENz/OpBAC23I49Ooq2PIOQ0bbuxB4pilkk3RsVKnhqAIWtSAS6kelIIR93apPXJPFWGLO255Mt70wK5bcOc+npQBCYkClcZJ9OgoMCbSchgo7HipvKYqGJYp+VCIw4zknp8vNAEPkBcEDDDvTY4sNkAZA5461bCsSQRg56Cn7SFGE2jpweaAKbW3mOW5wDz2FSrYbkMihSO+DVrYTzkHPQY5qVYwy7Svzeg60AVEte+DVmKADKArn3PFWUjJG0o4z3AyCfepBGQNpxkcdBVWArrAduQAAPU1IkR2lhgKD0PUVYREGeQ3HQinqvzDAB+ooAjEQ4AU8jgmpoxsG4DJz6VIqLs3DgEYY5zQq4AG0g+maABRk5JbHcAVIgG4A7vXAOM0gUk/dOOuPWpEjTq6BiRxk9PegBq4yAGOGOTUoDKxLH8AKaqsh2BhgZNPRQ5Cljk9jzmmAq7cZPCnnA6ijk8lCVHTBwRS/KCcJgHg89KQ4BAHHvjmgBH4YqOQOQfSjkMGAyMdDxn8KUjnPVu2Rj9KCpBB4CkcHrmgB6kJIpAU4OcHOKcY5cn5R+dQAurDIHAwMDvS719F/WgDAXAC5GeOOetKSGH3RntUQJx1oP3j+FIZLkAcgnHpTtyg4A5PWmbjk09fumgQIwDAgggHpQPly2DnPOKD8qEDpT0Qep6UDDIC4OTx1Hen4bZuOMDpk1H3x2xTk5faemaYDmZQRnJPfA4xR8pAbdweuBzRGSs20E4IwaQjG4dl6UgJEYZGRnngj0pdqbSQxJJxgHI/OmnHlx4A+YHNRliSPpQKxKWKsV24YHnHU05Q8hO0FvQZ6Vp6NawTXaCaISAnoc/0rbt7O2aeVPJQKJdgAHbBoCxzcem3Lqjyr5cbHBJYEj8M1q2umW4t1knyNndDnd+ff6Umq3k1rJNBGw8scAFR61gyTPJISzE57dqVwOnvNbW3UQwTMuNpQ9wMe3SqMvivVigSO8ljUc5HWsF2K528YB6U+IAk5oGLLNLPN5srs0rckk5JpkY3FmYZ2jgHnFNxuAyT0NA4ifHqKEgHsAFI3g44B6ZNMBJbHTHSkYbELDg5piuzyJk54oQEjyFVZeQW4PPSk4VcjscfjTGOHX60rEnnuf8aYrDnOWByD6c8UzKngtwe+KRzl+g7UqoobbjgmkwsJv2ZHzNgdx+tBTkPkkEjnFSxMQ4XsyYNQ5xGvseKQyPaM5UHAPUGkKooLEtzz0p5+7+NJH84+bnmgCM4ZSQep9Of/AK1BQhSoII9BzUjcNnvTVc7X4HSgCNd6ru5I646cUw9MhmUE84wTUjuytjORjoaSZ/LuWVFUAY6CgQwgbQSASeOB0pzIAvzF8479R/8AWoU58zgfL0pf4CQBkjrQNDU+bjClicgjr+dJktvQ4xjBJHNPx8rA8j3pWUKy49aBEIhReg2k9eOtATBJVcn3FSSL8o5PJ/rT3UBz14HFAEHlu2W+XJPPHIpFjyOmSeuBVoKNxpQAFXgd6AIREWXaQACvUdT9adHAHcDOCT1qwhwhwB1FAUHPJ60wK5gCnyyQdpzn/A0/yVZtuc1KY1L9+lSCNQueaQkVPs5DEjbx61F5JUEsmDnPTnHtVxWJXJ5pE+aTnnr1oKKWwltwQjI5yO3tUnlcDn5gOmOtXJSUwVODio9oAX6UxEAiOckE47UGFSpbBBHPI5qcKAkZ7svNPRQQPoaQFfyUK5J59qciEHG3J/OpQMSIo4DDmliJDn360wGxpvIyMhT1z1qVY13FlBGOp7ipd22VcKuCu7GOhoZiQpzzg0wBE2Op3EjqT3qRE3E5ThRk46e1N2LwMU2FiUjzz9aAJlQcZ4b04xTtiMg5PU9ac3Ckjgg9qd91QR1NAESBcAlT/KpMI5wWAGDzjNJkuvJI5HT61NKoUjHoaAGKFXABOfX0qXP7tQ547Y5pjzvIo3HPy01f9aw7FhmmBLtYjdnb6ZHU56Cns2G3kgnPQH+dRs7KYwGOKcy5Mgycc/ypAOxkFmb5SMjAx+dKHwCN3HTAOaib5V9enWpGUefjsOgpgP2EIScqSOO+ab91CpGc8gg84oHQ++M01RuQ5J4JoAfvQNyD/sgNyDRtj/uvUZY5I7Um4+goA//Z",
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAjoAAAF8CAIAAABJw4Z7AAEAAElEQVR4AZT9a4+sS3Yf+GXdsjLrvu/7XPp0N5tkNylRw6FFUdbAhq2xAb+yMBhAX0TfRB/EhuGx/UKAPZaAgYQRNZQgUaSazWafPtd99qXulVlVWeXff63MZ9c5pzXGxK79ZDwRK1asWLFirbg/a89fPL69vb27u/Pc3Nz84IMPPnz5Ac/GxsY6dz8Stba25nV0f79YLK5vbjpW4P39PZCtrS0h19fXA6Rw2DzBLEZrV1dXP//5X15fzyW/u79eu7sf+b9YjEajdf+5Bdz3/vPe1XO0vsZ/v74GPz93c3OTH0nX1lAV5MDX7hf3dyDhQe/GWoGKK8ICqQRrhWotSe7X1hejjdv70Wx+M5/PbxfoX7sbbd4tFtvjMTxwBuwuxKfA64ov1Whzcy2e+9H+/v7Ozg5i5vPrwGxs/N7v/d7W5jYOJK+7u5vZfGtz/fDw0Nv92t2jxwcffIypL27vFq9evf7yq1dXlxKunZ1dfP7lq1evvjo/PkHg3t7eZDKBHM2Xl1c8s9kMD6/noWQ8Hu/u7m5vT9fWNy9nNxsbW3diLq7W7+6mW+Nt6W8Xa9eLtYVaRPbaZLwjyf3t/dX11f3a4nZtAe1ibXR9v7he3N5tbWxsb413pl5vVeji9uLqUh3JaHN9bQOPE7x4+vTpJ598olzY9+jRI+SdnJzc3dyqbhWNV1sbm5Is7m4UvGsNN9C8trn12eefv3nz7vHTJ5gPXuDbt2/nN35v725vlO7Zs2fb29vYCJWSHh8fX15ewinw6OgIAFRo4I5PT8SO0HR7O51OX758SUYkef369fn5uWCESYiSJ0+efPTRR+uje7x6/uwZzMqm4POrmVLMr29QMiLUmypWOdcvZlef/vrXQb6xDrN8FZNHQrKB4Ob8wcGBGkfJ2dkZIk/Pz5D36PBI4P1ogW8XFxfo2ZtOhcjr+fPnf/eP/+if/bN/Bgl6ttfHiql1pLC372V+o9hIeq/ms1//+tc7e3vzm2v4L+dz1CqQGtzbmSg15EqBGPRfXsyfPnm+vTX5+utv8FKrOFhbezze+ZOf/fFHO0/355P92drhbGP3enT+2ZeH4+mL5880GA1P4uu1tb29g6P9o5vL+eX51exyProZjYjt7sb13ugX16/++S//9D9dv341Ors/mC427//+/+qP/6v/7f/m/PLsl7/6mz//83//4Ycffv75r9+9e7e7M8XhIpIMbCGMOKiF9bXNs4vzk8vTi5Rilta04aFxIn9td3eHd68SPjo8UBaSpnT/4//wP6j03WmYfLizD/NkMwK2vT3e3plGjDfWT05O3x6/29iUyeSO6tAu73Dy/mhvl3rQWiMb421VezW/+etffnp1Nb9b39jcmKxvjM7P3u1sjz/54Q/Icymwxc1dNIk2iO1fffkKto2NMQw3t3cbG2tPnzz50Y8+IQYp4HrUDhWhKr/55ht0Juv19e3pBIXqdHS3+PDZ0zXEbKT5X9/cgx+tb/2rf/WvtHRlRD8wMgbb3/pbv/eH/+Xf2Rxvnp4ef/nl1yT8v/zDv/vTn/708uL6s88++w//4T9i29u3rz/Xdo7fvXjx4vd+76cvnz8d3VxNtrcuFexu8fzZBwdHh3c03/39f//f/3OpFjfXsqBwfsh9/IOb2+sS4Cg23N7cmpLPV9+8Qe3d2ihlGd2Nx5ulOReH+wePnxyNFmnRt3d0yd1obVMb//Kr10T60dO0oPHGplK/ff0Gf37w8Yeb441n7MX9glaF//YmTXq8uaXuPvjgI0qPXt3YIr2jk7Oz12/f3N7Mz07erqWG0mZnVzez2fXVDEtu19c34MdYrVhbw975fDbB9Y27/YMpjUn5YAKuHr87JXV/9de/0AY3peGUXx5qUXQ/lYFnxL60/SB1RAMMfVRg/O0AtOtXsQ0gkAcCSlROCka18VOHRI1dCnwBry1/wgJCLMtElcWSKxDMaUAQ8SR6lCdDUrHro1DOuiW2qImnABFNuQoDnmclXk+NSdNo1X+K1o5Ml0eigJJ4lFZZAK8TskaLaWIrKwUMl/Isq7+xHq5SzB5qhl8Syo7Uvvnm9fHJueZ0cXF1cT5T1J/89m9fnJ8V/hBMrHFeUaSC36somfLjoZJU+I2MmFZgrOTm2oZiMVbrG+tb2KBksZt3C6bk7k40V9IFR1UiSSmEef8NLvlKAjkwDheQEe6WE9ulXuhlrCBDTyEHFjYNwMu6WiaREBg3eAacHf79ZwNAydNoU4crtKuQUCStV+orz3QW3ufFryAAMATb2Cy4+jX65a4EuwRHvwH/mwxJ+D0lD/MLv5YpUAh5xnUOTk6swHZDYMLfS1bIBtDIG/5hqg5HeZeun+AhaT+t2Bg6uw4cbYwoiPWtDWpd9+jufoMtTivaGp9cnF9/eUPdTA8PxuPp/PLq8ptvtta37q8X0FL9453ttc31642b2ShdSQQgUK+PNmpiBH6HYK/tGuDhU/jw2rSppXiq09n8r5pZClKXRRIebkjbeJSRRzgpxHBKeWNzzMPYdFTsS3rYqU3h6gWxF4z/bHZ+fnGrca/NdGwvzo8XO1NqUSo92mRU8kOByrFritYZiEcnIkUJuU+DjjYCFqtQPYzQWqIIcnMrLZ2odZGqrnR99QKq4CVvzUPIeAjb7HqG87prtMG/+3f/7t//+39PG8yurpUSgKzZm90yQhqduru9u4Yt3NtYZ890CBZ36d3+g3/wD/7Nv/k356cnjETKPJuxMU+ePoYk9BkQ0ACVIy6l7CGfoGjL6+k2lQJEFb6noOUyDighlx0cug76vgze6ekpYridnSn/waNDfXw2RlodshfPnsOsFFTcp7/+XP9SMS9nM6Rubqx99MFz9S/TGPu79ZubGAI49d/kFYbMZmmD1VXVV/nkBy9397Z1PfUdoV1oZOW8prqbUBQLbGHyTHmXFZYydwLRKXZVZziyantdE57ckJYHcIDubmPzmCrNW4PLYEhebR/ST4hIV5vGK10AqQQFF4Usi8WyreIfMshb6EzWNRIquVE1mC/eQCBQdHpVAy9DQ3LyD8K8i4+YAoIDHqzcWNuQokKSGuVqL4hjEGKuGFuUSFOmJLYkyCrEs13hDNleEYEAou5VgVN5lzP9WQJqTPDNN29PT87n85vx1nTvYFd5r28zYN2e0CsZKMyO5/qnqiqYo1nzDE9SjtF4ewu7jLmQQTUj+yZSeY23irK+mbbDrK3huMwVJXKZIqf44cL9xiajuH4XY4PFiCxPeAYsxg39cCOppRYB/CGmihxULd+FbmscyQ4t1UTjKZILPKi4hk/eK43WflGdqqAC5vU7TlQVdGmE+IE1zkQlch0DBPKgE09aRDEWqs6oMQtRHcXSMCOvBpf6yBtaUZqN9kaV4DxUNIInf+spTaXq8RI8wdidZvyqecOgSRNdwOiRI49AyDvT7xcnQEVYRwF7CNzEC2xsorj471W6Pmn4jJhOq34XanpjcbuhG7i4vl+b34/m92vj0fqjF8/0Wgnh9fr9Nq6MN2+u7mc381evX+9tTXYmu1sbYz2cG6q4DLzyoVhGCGjZwkxktGuCB/8y9wc/opSpqS1/ar4FwXC2OQkcTs4rJ7SLBnJwnZHwAbcofsw3gwCzCQMhRlc6wDyopYOFF1gIwBx1NF/cLW5n9A4GTMfpXkDSqKoZtWAmOXo0vCTMXMtIjQvpWqBoZKNcTYzkojwRX+GlKyrrxtxgSAVGPIDxCGRKeTi07ey1gOUVlXQCA4DgzY0lPE092d1hKiJga2usV5QisdUJ2dg4P7s4PbsgqI8ePTGvg4xf/fKvT2azH/zgB4+ePnnz7q3xaXRPdbUVqjkjIYTh+Rp1NL++jV1swb67SelAcqV9w/kuPhhawZMOvLmdI3Jvnb5aO377FvFPnzGOT6fbE0aUpTRgYpBMFzFX4/EEZzWl/b0dRUY5ToQha8bNo/OLTOSkHZV8AGNSDL4lf/zk4IOXT3Z2Js0xjK9OCdJGu7v7ChtutsOadnAV8Us7IRBAP0WF+pU+Ei6kXSPhHzwdnoTELNowanGjOt+4Fi3KzKRrEssTSaRDlgOZ4KCKYM8ASC4EpRoqbBUgRWDg1A9AFCBao2OhCYlRxsxgAEXdlZ2T+Fb/s4ATIGWbwbKXSR5qaXg9cZp/XcqwogoFJVHm1CVaVRgC+CN3NRUQeiTb2mQGJbrVaTeIuxuZ97u9/VyH4vjtydu3xrXv5jWhtzOd7u/tsYUG4CoVZiqy58H41U3Kg+KQmb483GSWgq4yYYmCYh3qdDhv5JQg7FzcLHSzDbf0yCjSTJdSapCADtcKbeo0fnq2nv2aOqguVjKuWhZegVU/xYeG7PCOCsIC68DkVC7hVWvA2gku2OB8D1MC1lEd288GaDKKHN44vB3AYiIquacoVYEPPB0IwyrnKtcqU4GQiKUxsZpKo2KEeIrCeRjSzDY2NCqozAdqbNoVAI0TQNMGBkDDy7rzbfFY0lPV18DfeQ4caGKGV2D89RoT1a8wo11229sTNX57U7UfwWdxFvqDbJVBokH37do6/UNZ75mbPDoigNTM5f2tiZvNyfbhdHdtFvtkYGLujlZeN69mPvaaCrvRozT/IetwuMY0SlGUhPZmab+2fwhEctMpFpGS8zQMypdtpPiTxjKYq546BreqwWRTTvLBdb1oPou7TJPOb+dwpsu2vkbBmdpSRvWiIqIt1tdVk97L5u1iPlvMr+82t7aFgJS21fLNbfryW1vbqp4xQN5ksotsLFD5YNADT+CrIevVCAEgBDA/2rxymXlYOXRyYj1p26OjCIkkQmppYNkBQup8fkX6ZH14gK7MYRr86cI2vLT7R4cIkItSb41uM33HRednoClf5sEwhR/mDz76GBLFZ/bYJEikZceR0UZLUiFtACiHmVng+Xy8nT4Ep55AqnodW6WUaRRg1UiE/+4ecvLPrCLm/p5Ere0dHppZ3dvZvTi7+MVnvxCumMaE+ByMpWCCUweDEstcRcQDDPYhHkIiIIcmzKjVfLR8Ufjk6eHB/rTqaixtuy6RGejbxc23es1NZcpZ6ljWlHHXkCcpBiCuwVKwlZNk5Y1+55cTD8jS5Jl7i0nBcI/UsaiAlTarJnGXthleUZclBMkmdbR8xpKlzZR6BVStOgonOrs61yk/+wIoeMB7DZSf5Bw8dL0oXc5k0vCAeaosYGq2ICZVh2LL/431TCNULA6E46txRiGPZHBBXbWOJ6pIqInmmwW9sdi4MKOdBmaK9quvvjILPL+aq9rDg0dH+4+2Jltffv2V+oYcrfKC3yweV4i1mWD2ipka4doG9Bk9qAaaBUWRxK3R1r2mtTAjpKC6ADDod2fsRZ1phFGAzBf7zXqmZ6AfVax5X4Nt/hPKlbzGbJmVV4k4xvimrXuqNfYgUJ7QhtZvO0EtAyiPSBanGqRSVeJl9QUPV1AlBuXvEE+plrFqZMXnRthJVjnkDUDYaPqt6avkjcGTZg4MCaGGSsIAM0KaoqrRZWWHtH8zAYtxq7OMbk2gmWu/PDvXFBUKuy1xaVeaHAnPstXpmRao1tJKi51SWeGDRx11EbrsTYmQdt06+IXzN8zw2jBQaRVINstrrMy1+FF5otKCZGkpbmsjvTE1bhyjnRosrt2/ene8Nbq3onMZS3x7P55sTbb3dg/GN2vXZyTuimY+2Nu2lHJ1zVqZkJkbphOvm3XjSEs/yw7ZUJUhZuXa/zAkpauC4AY6u7AAulIwFuUY3k44xw94KGkHrnIIWwYkPHBeW1yKaC80E5MJ8LVIyBaAwRrFA0nnuDlaW2xaiVDXWVvt3KPA3zP8Gp7w4f7edBRKrm9iqw72d7FBVRN8AlVlyohNVYOPcvFfA6/5q73dnaPdneiHNE9tJc2Wh4SYukRtZy0LhPV4/fLilNSNtyZ6nibxTo9PWAXSdXkxazC8UudylBzZizKuTbbAlD09JE17/e3xMRhritybN2/kG/FIXmIzkjNtKJCnqSK01EYjsSbFY0ZBV0e+YHVflI1fXplSur3Wdbb6q+DAULW3Z4F1Z29/Z/9wH7N+8YtfnJCxLTpsm9x0rIJjKR2tGXVxWGUrfMUApMG9rFlFBoCwsl6b5C5tqKya/I2lFS2UxATJZDyZqpebZZcwaFaaouGUUwjoilkWQ1TaQ7kOVw1Dwg4H0x7Plh5qDQeNgiicNKvSmDSnpN09Uf3sDHjmR/KQqfHFnmXYlRSeGVVQsxnPRu3oRAMWkqk7ijnLupkaCsvTdGO0opgjYDGblFVUudVlCWMByuDF1EXLlF6tXBIXOjOnBSnP0nVL89KF6rmIZgLKQ3aJLDkmqbImVWSLTGzF/N2bBnz3Vg9lTlafPX6me7I9nujSGElLaAaA3gTM6cgYb3lVS6YpPGUqI4xnifSBbRiwRqUJE+n5+t1GTNft7nQyLqUZDZAOdAqPPYqsfCkiBvhZiYv39r8P4QvPl+akM0Vba+GqHRDBwzVTBH7fLeWxZTMplm6VML+dSkQHeuXp1xX4t34brJ8d0RVRFaymlpUCoIUPzJAFz7dwxe6WWFTb0D8FwFbhvJajdsRqn6ob57u1m3tpfSej6V46sKK0N1PVre8AyxqesKu2BcEmrdeamRZTrmKbmmWNFJ0Ba6lfvXZJPeXlKd9GgDz+20XGfBy5SpelLLHaBlMNx84XnTU643bNIMM+AK3Yeur9xs314vp8rh822d3DqZOzU8Oy+/G92afbs8wMwxmxTxNY39xOXk1b5fatR7M0NMQtS9fAXhpU8mYjsnmah82rjsKlLhcUA/ZCuKzT9ntWRaRuSTQFen9zzQJKrjI1L9hkYYJdizPIMJ8x0xW/NoicTydU4XvzKRfAEIJUy1BBsrFRpkKJtzN3AiYZ0WOWZ0vdg9Guy4VgKISTgelkOxWH28a4KQvcsWSiKAEhUEEoSRdECCZkgibdUFlkmYQ2F9v5NjCTBMnR0cHHH3/87PHR2cm7r169RrBymrE0roKQerETwej+L/7iLx4fHf72b/+27Uiffvrp3s60axBOYBxSEQmeLemyyzuGrQSVkIBUVptmQlNKHIczdNT57Nz8nsLb4iS7o8NDqlW32xo87pkSZ9LuaaHaMSGvq5p7iJYerakRtspGDFLf0p31iZUzEESVHJvn2aFSTs9M74oNpeH4Sw6MxbJopRozPd2s9JSYK+rFBpepM44HH5VeXoROiNgOl0Un8eQCvUIoKnWQARO1T86yCym9UKmZf12IjAAiOgCahiSOIuYyFMiuvxSUONijYiYXZAZnPYSCuW0p+wM7C4YW9k9u+C93wnZnHDLKPpaMqEhqTBohzLihc/SszAhc4lEmodIJ14OpHFP2wQWoykUd8Q+u8UAlOwxFvK2A9nrJeWaW5ubm7NQOiyvd84PdPXtyJtnQJ7/RoyePz2dXBHCeWYK5jMbTyeT25vTinH9rNqdDO3f7DzUDmIm7tPKa3c7vFuub8ljcbOtspssVFpicZK5UlgmeZi54rDCuDF+7yKtqT/HbqRX1VK7LBZuY0LmarG+/wBaPju3Uw7MRLvFUaIfwhrxlVQ/g/ws8ch+gm7aHcljIl4pGeEeB77I0PYRQeyQLCi1EFFPEVqkgTNaedYFbkeleaFGchg0J5NFBFg+0SJsYF3fWfomyQFxNTdVaY0l45Kezk7AIWRLTgV2KFdOXOkVUddyX5ctrKMd/FEuhKYXmziXNsN8j9tWuFzTC/a1utxWoaD9zMGMd063NLTpCKs1Hh/Xq5mp+cvbo4NA+U3M1FxcnlzdXm7tb97vja7IUY2B3mBXQqDOCp9TyGji5JO4//zMUENEo5Eo7Z/0Pqg7x7JriaeZ0Yau8XVfLZ+cjFhgy9Lj5Neoo7iz3Bp8YHBxQNUJPaTtHFapacUBa1gIeHhkIEa5TCDgTFPouW9u7On324Y1jYGJsaqa0CcPCSpWCKAnt30hAcg3TOZIlUXRW6CvX+cqIx/zi9Ww+v2duNdkxJl+cX12cnXfNAoeq4a3WWJH6o//iDz779G9u7/7D119/bcQhCwB0xYus5dy/OzmxuMAyK4uOVwzM6QnRkEtRtWwO/HBy9n7RQoi3ONsWS1nE0g2yVgxRxNvTJMWXX355+u5YcViqly+fg2fDvvz6c+VQoc+ePVEZ56enCrt/YNC1i+OyHm/rGJFG+pa9MGKP3u7S0ehNvxxhaxgh4cziukdGWtLtXEGz8ZjfoJpfjdUejVq7kpiTazvs4KCDqDurXgNQ7ab9MhDSeQuR0POhS1o23DTFrZmJBYOiC0jN4ksZLIMkybJyJRWBDAXx6yVNCCD0pr70PTQ9wVmEyaAqYzDpMj6rZ1oXhFZsashlNIvpRUxN6JnuT1nZtdr7ZRAS6yjTHn2VqYxkJ2f2KwMS2iyLj2n8uJ+pGCSXvu4SdRmFdEaeHBNR5EsSPhgzkYxqF2lpBlnn56cGxLLSUrMOaZZpbi9W5iZ4CATkBI7sYvvmZiaXOU1rsci2GbFy2R6n+49MdK3rszCIemcKU/NcNicbdxEjXRK5YFhUpY5YbDW+hPzwrSoatTgXzufxbYfxYUPqlJMMLrmXbAlYhse3coFb+TuhZyN5EJyEybfcw/DB32j6OQR+H09HNZhYDnleQ2nl24GeAxIeAA/CvcVJogOI1fimgPxqQQXguU66VOqx8ciiXz1f27x+ekbTTaZRYXoeRloapKiqvvRbYZYwJKWxvXeivIBEUJ4rgtvjCSChDzwN36VDRuNqGE+WZTyyd9jM2t3aPFvbN+8MvjfOz8/sCJ8wWkWDbaoWJiCnvkni6fm5sfieHYP322fX56/ffhMtdjNbrOlrp+VKpW8JfymL95z8Tu4DGTwdJW2SFwbUtsMWxYIxUasnT6canjyVOg/VwcE5iBZ4Tr8Tzq3N7B3gVIXd0sBuSp41EFp7MtkxCzS639SWd3fGB7s7KghyWjhNSv81NGRAZnBQJG2llW2YzEgDFGvfCWdaBngBZMwEniMkjLAJZGIjMBRWoUI8JVcGPnTe3REJ+UIoX05gWmrtlkqnMkqDgtOnNJhaME6ZzFlJKY+89vcPTT7P5s8fffbFF199ZZMCPNGD1RsohBsMwlevvjHW+fGPf/xbP/nR5fmZeMk5YMhAZD/B2PFlRx97qcciVg1sb5ohzBgbV3Vo4L+4OLPd3N6In//85+cnpzZ0/P7v/0xZzk7PZvPL8QRdOxCenpyQPeLUBUzy6nDrBimIuVmdO3PRGGjtTXLULs1V1a0QfY9wb/2+h64AmpmlcnXIlrNK8kKqXPJsCM1S8UTIFcUoEtdFBlAFSw3zcGCaF/wDU4A1ZGOXd2ffqGiBs1MzjyqEob/Tr4gZywxh8TSVWLkVOjYy5ci6ie4+K20qI20o0x5rm8bO3jOaNgK3wBy6ls3JL0wCUGiqWwc656b0fnsWLBYOhvUNu6QyoE5taQ3sSownKWCm0sPIpFnyLzYpY7CWRHahhIhqjvEroKGrWlFbAJqteijVizE5fkcadacscBbfYpYA80soM50jIfDDGWu06gfAIwvdU1moEVGSoOry6pw8mZrXC9QKS+hDK7KzzGJPcm0fsczFxmORJQvloqFy4smkPBZoVvdrGauFu8pyq2njp11UcjQfZt3aTIumpSlB7WQXlpoOCSey4zAT/QjWd0cPNobmVf2FyNqnACDYVvNpXQqFYqRxSdlB4gM/SFi8YqAQfiHgG+zm5Jjn5nrmCaG8RMHjlYfQS4g/QqTqWCEd65UfGI95If5eFdCrBSy7JFksbGzSpaCGTAX6E6L98NgLYw5EWp1KFfrN27f0DTDEW9oQeHV53nTK7m/93s9AoiTjs6vZ1cUlMJzHmfCo21sdMFBa8Fd9vur+Hp5quvdb4y3+EEn5LmkzirizzpFdeyPLA3vwiKr2B+edFaGb8+udZ5Ox026LtU3LOxdzh39+9IPf+nJ2eTO7evf2kki+ePbycLp/8vaEkE726ZpMmlxk+epmvLs9mU637mZmBWze2lo3zLpYH+XUkYxkh0XK7slPpGm8x4+OaGrEKC+PshgoAMA2xEsVYaiFJUgwwROkUQsYfoUVyS/QU3KBnpwogdZ9O0QsdT9fZMEGZhvGhJPwx48fmwxUEebMVZolOQBeM3g4PpXE2vD6eNvURvrs1rAidWmePM1AmFWLgTVWV2AIYzTIlCVleYGfaAjprGB4pssEoq1rP5ojO7EWjx49xjPqFh5u4Jih+cHhI0AyEqhaiW44EYNlI6M2mHG+brwiYymEkk+22deRQpFS9OC2HI2fbHN/+fKD12/fXlz+CgFmr7W9adlgxsyIyhoqCtH8V3/1Vx+/fKkU7Fow2yF/dfXFF1+g4fjsVBHUOJuSLTXlqkJUicULjcg2nSg9YM44UJDGpX/793/m/BOSGLmd6fZTG+VLNysYSjSqy8tzW0xRG4Wxue74lCK//PCDE/vdD7KTxNADkefn6YLv7x3hCXHa2Z04fBYm02Dr97b1WyrDJSItI70QiyNeEa9cCLOG8uLwEfjUnwy+77AP6eFsOWCpkGp4/RTy0IF6+Lr0ZwrdtupsTGOozASaDeNjt3Jas+qMwrQoQw+m948NWU2SaXX8WRv+UBgbIoFJLvBJHQ2QfoY5N8MH68tGRBlEmB0LuEG3dHQbW5cy9BBDTykipJuTvRTegsLMkFctOBjz8BOdmFRUJ4sa/bl0iSwXgBXripICrq60USHOctqPHoSU9KNxVBrkZroMQjotitNECw85ksRTdUaCV67yQUsatl4LCSD6ULOH7Mr8yphZGdceHx5Q9TDoDlitMDW1YXV9feP26hpbJGThJ1ub4Y5ejI3sGZplDz0xomRT15pgGXt5yVxIuypIWuxACQDOa4PxR0OtUuGhJF3MwBXl718LUtqOGnC25/vPButnI+mkaAuHHlQHmCH5AN8hADVCjpCRNZ70/8qqFcdiP9LkakeAJyZrKh3Sr9qVquF0qwELpIi3q9sITMjf/M3fgOHBTH0BTtalZ7MAhlqvkUzc6KosEks2l2RXaZYlaPofhqTr9S2Xohu6rRP/6ztTyXaJ7I439+42Ny5vz09effDi6OLcNPP1zMHyq/PFxva2Mo+3Qv/WppOzLBM1S2TIwOX1VXov9dqZOONkokqKb+X54KX5j84hTAjJxAGljD7/tusSPYRXuqGAD8MboRCxWOe1MWWupVaMAlzbAtWgWPlymgwep2mkL5gUOvQ6YabkU90rOnna3zhtL6B2dR1hoOMLsEFSLr4CS75UNqmggjtHGXFSNZG397k0QBvqWHLSFlRyfiIhtvONrsif0qWZ1MlMJ6tirowLzdzS+Aw2DY4wCYkZMHXEbLx5e/zm3cn1bXqroiDfmUw//viTI3tmbA6czc/O371782bqrEtxD05iTCyR3SaQ7iStOvCQk2FcqUmaTSd3UW4G5/nzZ4Z6sRPrm3L85OOP+b/64kul2NjL9Qh2kMHgEFc4UwtD0dvVlQkHTNiuhzZlljAc298zjXl4+Miu53dvTyDQ28C3z379BRV8Nbv46KMPfvCDj4z7JMdSRwjpP0yAxKuys1uy4udJoxrcsqLqB8Yq81KtwMUJxNcB/qEHRgBC+tn8wo7MwGWtoOYDmZmSG/tQWeOupDS73hMgjW5Xsi0gbyyd4RKIMmCGQKaE7VCEjRwFDKMyTFL9ND+BMBqPYfOX+VvUtLFh4hJ6Tx0znW19itRgbpqRDV8TH0xyqkjloimSVxEFgGsx7UAAQLB1iaeGGlkhYv/MXCAvfwoZPIbYsa6J8ceWdynS/LAphwwMgBC/tWndiydCLWn9gZGTzRc6vrr/dwDc22B6ozoBjuiTbAM1gkhXolHHx4BpZ2tHoWFKBShViK5lkKCjxOHMebUegLJpshhK2v4Ub+X4260C8osh0VArVxyqfJpByza/SlgLyyvY979B8p93K0z57TrD8GTUuQt6YAPkRENxdqHw6/OLRSK/mgwvvleVorTeNjyNSnLoI/C1N5ofgMYme03RMr3XxU7tkMZHPev5DPNJ31//1S+sHrMKOomIVOViuSHT5pXXDnlY6IBVWZjUtk9Cls2EJx22lLTEwZO7n25N7ArdiC6/Gjm9Y5R1c/rq6zeTH3y8uL/KkcJ1u9TPF7c72xvGb+OzucFTWQCIFhZPdbXt/7q+dR8LhXd/dbPlEFfmxAgSQBzwHEjl4VAlvP2eoaNCom7IHvhaWMJDr6mJh3ZgVVMPkcDwHTeg7RYKgyYjUDe+IDMqUjURA61s6Zamy0hb7RiD57KXu9W2lJWodEbMG32Kz2qtTYJRtPplRJjdKjfGLMsO2FBMwsyjuCxm7iTyOc0t/Gi3ZkRCWiZ1miThO7v7/MrIbnlFbbuFc2NWm1UMU3WT4SmnPgzIqGPTca66sckF8zFTKXRehfzyV7+yVgqA1USJ8P/4538JoYUiy0Yfvnj549/6YW6CePQjK3VM4NvjMyxxzNdTAbmr65htetB8BCkVotQufYAE5eiMwbvpoZXh6fTFBx8JkZ0VrHdvXrMxzB5sJCzL/7Y9k1UioLI3Iwkde3h0wIYjD1oA+Glfhp7c3/pbf7sHTPZrHBw9Mgq8cOL54kL1QaGlxASOx2pkfzdtx0ZHFgsSZls4Sv7yP/3HcAZS7qGshPEriaTShldC8X1gCQU2TKfqZyMM5oxemAgdjzIZUcFMTkYVGXnoEGmGGVbpQ6XnGwaQ/yiV7AIseZFSS82ZImjp6BClhu30q31B8SZhbGE5UN6cg625QLiZuAAHTwhTjl4WkwukjOKmyLJVaIxCCwbE0zUZmpSdGFA3E/q5zHCVa8qbvGVOOUbfkbkeepPdZF2TOeK150ylYV5JuYoBQBqE8XglW+2XhMdrO3cmmblzG4GlYTss6rwNHEbue+qecKtsgy2H2E0DGtVRYxgZLVjtHiojs4xfs8czrYsoSChrpHI6DGC8ck1AgyV9KaYusqh2MCS8QvkDVsaigcEISWA5nk41eB6CNXADfAcsKFZuABPQyT2X3EmDXFpcgegRTtI8r2a51yDiqAdFNO4zV8kNxRyqQCCGSAI/j9culyenWdI+2iE/zGnzDgRZxrC3Vz/atO/c7pjM8GjzTVWlC2d6iRZb+QV6tkMqx5+irVpTA1RhPTo+4F38lEMVZq3XuCgj7MXcSOpmNJ7acLqYX3721V8A3ts9cvx0sTi/ud1Zu01Fo0oXEBNUOH2j1KbYt+63qDOje/M6mRoUlo7emt3V+JNcVy6ElnJAXvkiLVy/glJkxRvqQ7gQT66SplJ4QEqFnhXi5W9FhT8DTrCqwKvRL1ld38p4JRMR5UILhVJTWHp7uuSc5WHFMs/CDnNdxTBwD7MTrmUjD1qpRMkIAZJ4iuXE8qtNdc0FbU2BqmUZp7BltWFRLlYaEtRRu8xPZ92TJd13KQpy2hmonlOpuehG1XF9PcumCXqqlrGbDIpAoMO/JvQuLmd6smUmsxZlmhqM5UbbO+l9TtTzp08+/uilnYTr6xckczJNBwsx4CkcubNkuG5OEm1IlZci0KgkFhMur05tS0bVs2fQv/zlL3/51RdfhJ9VcPCAS9OWAHtUB0I4Jxfc41Gpdo6wqTL1/OLzz8zv/fCHP2Ju3U/2k5/85N//+X/8sz/7M5w0mvzZz35XvkjSeHTgbdlgLphG5LFzYJBhfRENevAgl+ZKSRT+O9VZzI0gcvIuqpatBbDXfobEcl6HkA7sZ4dHg9c2h+rsp/dIzjI8SguNKUsXH1Z/fg0FNEfqpVAIUqkF0jbPII/KV8tLB6rIRFIS0Agqgtcj2bSUBnMsnRUxMQIBrwQYHYnmYieRExdJhXaFfNneiqLGyBtXwFLFY34IEl2nLPE4Pn6TaTET3BobHtKdWpopTZkoiV9mxryomgCmVagYtU7IlgWremnMAIiLilVRip/8Ouv0Ke7VsVRWrzjbw+yuubq2bnG92KZ8olXtzqDVWPBqHVllIQ0wygjmRt6ZphWF+bS21Qvax/q25dPoR7VSsQDiA6+drugIG+BpdB2ryFwAmrmVwUN/5+hZIL/hIfl3YLwK7LxWmjAGPsUx95IMe6sLmY/VaQe1JPU/uTQSAKYvjHbd8GNXgqfm6DX7V+zEtUKgY2dmX7ejQkwvMXQQykjFPX10RPvjJJX05RefY3LXHRMiXB7563yTZzKPexDSRXsIU4AR5gIkpSUlJc8d1UmaYQg1MeG5YdVjbXYxP3mx4/qaHT2Vn//iP2ng46P9rfna9en8emGobYrmYuvRE3cwYZEy6N6Z9NtYu113mnN7c0prbS4uRzmOQ5YUQRlfffOVHGXdT4Rxkrcnk4llD1ZsNhuvoafv+X3XxVQuUY1Q2jBk5bqA/QyFxWfEsg0gLbJlZ8RmNnPqenS+pDHtuyjEfBUB2BqfBmXtilMQqBqnfHgarclaZHQ/S2BAq62RIjhrT1oUuiTgG7PX11uvYTu7yD0OOi6SCExJm1Td55W44qHdOktT8SBfpdcZSHc1nYWMApFKT9nowb5k7WI0clgC8600m0YbLY7kRcZgo+6ddlJAvWz7uThnm/Ehl0fYPuN2jNmVCZfLcxdfzPDK2AuvDFNkYVsNam/mVxo1HYVRCpU9BLUXwzDNa1fiwYENR5Mvv/r89OwYeQxtHdailOYuNtAfU3sagoHzUgXRCjlqlvsts7eeydcDmLoRNKNDl4swS2Hd69c70z3DJjyxmiXENv3f+Z3fQb+bEh1O1XzAu3SS1H388Ye0J+Y/fnyEbGfe2K2oLMl+o1MFXRldxw0zBHp9GO4VMCewXfuVw2uqXy1lW2DGS4CynmR6MFNT8ERj6qlAktHPsuNBwnI3UsZe0YzgANf8Htmo3NkabVrfKamLAo/6jT6LlMUCAQWVXXQhsdYWaZ5IGJRiEaG9x9vDOkGyXlqmIn5Z0i5XED5wUA5vAUhjyBaJrAWZ2DMNXOvGxAUk+SPiybocogUaI5sCVU9Sq7CSmKhd4i4WGvjVKJxcw+T15toqfNhLwMn+2sipeIrHLjVrz8YMks80Kmc/r9lL67sZZWRDldNZ8qrj8XJBvVygRYCGqpeAFTqUyGiSunRVsq7i5XyL8KqXMH/gAD+HZs8hkEfydu3vqCHkIeR3EooKxnIPwfglbzY2nsHfjGqOebYDE2tmgsLKu4F+5shiVYUDgF4U5nNCutHCo7IwQd2BwU7l4kmnablraz+bAyeTVknUonA4eWgECbUumoV2gkrCZFeckCv/ULQuS6f1XL0GNCxecbKoxVzdiAwXVGl6LSo/92nVRot1Und2M9qa7NkLNz48y216B083Zhf3106D2q6+6X5Yd6yc2lrDBm9vEgOGx8gl40JTSXdrThHPvlqcf31yhiFyqbIsRycI4zAHJU0VCovAVM9Af5gcuHSt2oHn6SJ7cl3MXuBtf+H+1qNxdlCTwa8uyDr1zS8hhz3JvgjwxGfcFitHR+cBqAL33zY8YCEIEPvWIVvHbLMN/v70NEeA3x2funZVrIJrCpxUYXXVoNoEqakJmZk1641/29kib/8g8RIbgJoaYWwePX4qKgOmqnohafuZjUsXvZBnCR8l2qX+qvu2pUUgSu4uAkCusg9rYvu4Tb9ZB3389LkOrZYOcqZhK+w8WyoePzo0dmGf2BXGibmqUzNXjx4/B9kM2SqTbyWTcN7Vhj1ZyN2Tg8qUsB2Vz58/tfzE8n325Vfhg+07FrZvb5gcGWGIWURstj4OLQalvKpkLfcFQ3E1zyAV3p5SEuJAGMpns7l5xW9evanbnPf/3t/7e2b2Hj06VMDoW5NnGxv7+7t2V9gSdXKSM23YhQCU4KrYboCr+bNVO5FZO3SA5q/ipOY4gYRXCH8/KzgPwEPI4AnYCgNbVWufphlMdZVxyC1/OXuVoUZXdrCmAxsMpJr5SvvUf0oWhkuZqkJEqVR1e5uu7qo7TJRq1g6P7J0vLkTbhVhYjEf4q4+c1cDITJyYojFNKOajS5YYIVDHlCbqey4g5Yrw0AdEGhJDLeknaFpYfHNl0ZUiS2eEhlQNSgrUH2poysnOVELh2rkkpMHWBwmVMi3E9uM6yi4WmFzUHFbLlMIVRA2U1RN2N7tZXNy4pBz/0iC1j93drXcnZ+zdndvXFYRyY81M99imVSY7RFcDRkCwp5+UnVTcIABC+Tv35FuuApOi+ePJ36+qvAM7SeOHYYmksmv/8OQZMDSe7zwheeg6VkjnOKTlaScqOIM1JfJUARUiiWRqf1mtSgOJqC4y4IYfMEvLP+TFB1JbUllhWjRmeCKQH9s1zlqCzP1M9Ow4SxtxwVOrXAMqIQlsySkOB1u9loAM5koxuqLC2MEBjqRNxwv7hDbutnbX8je9XR/Pbjeun3y4Y//X+HBEr83vz2/X9tYne/a4z06uAI1szEinx0VF7nu38eryk5/9+IMXk5vnk29GV7/4/Ms3x9lZkLKs5kvlmxxL1/NHWxX/m/72KyYOpEgkbbVqJYR7CAxJM8TzYfIBpgM9EVl995jMEMzwm+kszQsY2u4/8ACG1lMsHTfeeac7d3J6Qunf7u8hWNTAOn7DC66/eGBfuspym7jLVaGSF+QceJkSDSE24HmdTnaEmGUTe3T42Chh3RZ6dbcsUWpZVFPiCVhbFoKZ/HJJybPhmcwsO3bAZHp1dm66T/9WGXf23e+fawzB21NHihDsVbmg4tHCHYYmhDpY0gqUb8KlzYTA9vplbjo3HNWjalRybwcVuZXQU1o8U1POinqiBM7zN8dGdfgGcnabbV/sqckbaIUgxrYI97wEoBZ0d8pmQ66blt3bXNWFkT/GGE7BqSCs6eX6zEoY61SNZdkANUzGAFoOfiyF2UjOpnk4nRVBv7Sff/GVS0gKe3L4DU7ih64h8EUg/8MogZxABfbkX8USIJOzeEK36uKvZTMKra1b56Cf5ivG/EGGVXEm/wSYk7+VjiRjZf1G36zwwwwkCZFRxwXUUwKVW8nT66yJw6KAP6hz4zIZDFnGWZJpB/S9sYkReR3rDUIFUAE15qoCZsNdFdMk2BIbkKFoQcaJqYk9ffbknJ0zeq9VtVpOmoQVgNmlIxS1NHmQLEr4nIThUSWecleFBIhTu5Shv1i7m8zMkDwAFkfZ67NLc8TZIyW7slWju2vzjtdZvsVGpj0DRsW0eq5kN65IYZ2F4mF2Ud5m2w8VBq2JIFebkHlDC/WGjfraYou1kUtCJguGFJE6B/7SHMuhuUx7Fbq4hMIwgL+e719LWobXMHrlYFp5U5vtBD70FLI8QK783Y2g+0PEQE9SZegeLYaZCqPupdIr5s9YGxIto6rYE6/if+BSfiPjchpJI2m9DKcWbsuWVzhFCcFYSTCHUxkwdXHspmmsciz5zZu8+mYaWQJL3isndlW0pXhVQsFIXK7uqJQQW0Sbm2V/I4ohRau5Xtu82ZvqBI73HutsOyswm+z7Ss79+s714p0u6/FkbdunOOYmgDd2jLENxCn/C5txbEUYOyF8+8tff7o+Orgb7bzbuD4+fec0tEIpciRGdycFKtOCg+XwAQcy5VG1vyxgDkVt+hhF6srpCADVK0ImMPVQSeHq5p3ySdhuwDO8Yg8aZM0jll+DctDKtEGrtjT2HJSOkrg2rVu1o1BGKm5NpPpPTt/tTLe0D9Wkbv2HSjlMWNKAu3sHm1tzd0FqVgYO5k7190OzLSitXkLzUkTVuCKjIa6o7ta9O9mgSpg4dhV+rQxt9tq6YIKpMNYxFtSozQ8rQupdFyMNtOSh8KTgddlbC54bsezztrvPrrC3r1/lOiRnfiIJ6+6WpRpsLnZnlmO5+/s582TVIVqDas0oLdtQFc2+Pl9dQQiATEbZQBoXPghwDhpFiKE4o3uz6j/anu72WoQDVaYQx6U3tqe5bJd+CfvYQpvZDcrp1zqyjTnOexiTkRO2zjIGD9lX93qKugKYeX6ZoXDfEUXzA3AW27pUtkHeXrsmMPZgfeKCDOQd7u+ZuzUZiGk0pxxZL3QbB2OZsmAixhHE1Ep7hGC7pyM45MXyC25kFs+hHaKxGvbC0hWAJmmhzqtk5ZRECbVmnyjpqEzWLrJ1Cft64OZDUxkRZbtpgK0DGuwAxmsIU4u5k4HQG5YZI1+pslqJjF2JtSllpfMV8wVOP+eOfY5PIwGJcfR2emfUu00w1Z9xxURGaGVCiU+uMUdHzeGaelR0aWw/Sg2GUOUVq/dEzBd2JWU4b7QUDrlQNJ9pSN9GDdFWkLhydzWjPV4b28SpBWE9O2ET+fZkLJ1lrGjNaJ+4DDM5u4WyJSnDXnkZESNrml19472Fi4r3VQHOayiTM98SYm0uFzMXUMY+UVfmTM3uZNm31X46o2iJNOaDEv6nU5aL2lVR1iynObClUb17d6Kp4xXkTOx0J7NESDJFwShenF1+8OKFVVgVQdQdsKhVPzwZOyHJaGawGyVq20fGGcjzR8moxNRjjQXJCVRmyEQQVlWNh5aI6VyFDe2uFNKK65JGrMYHxQcpRBJ8NQgw8zHaXs+FOkq6sTVfzB1vNHR116luIhQKm8G3dRj7qbbHxjUaP2Uq98gnNt85qyOj6AsU1zmKkU4iXuKInSlUhkGnZ4xQNQr58/hTvyUxqWnYvFM/OhSQRDLW1yh34mi+B9uLt3i49vjJExP9u7nZnVkREKTUb+orWiObp2NYM0Wrcn1zaHF46ITKeSAt895mXsWcHSaAPD87poZuc64u565aE7l14eL66uhgx7rT7v62qwe2fcZr6jjnqcWMrc3x1+/OjPZ/+OMn48X0+vxqfbG9s2Y1+85qm/NMteVp496Nk5vTX3z161/84l9fHm28G83eXl7+8f/6HxjoqzefcvOJIitbZkH0iujElIXC95MRe5pyrZPnSD7gq9uZk6RpwVkodTQ5O6WzKTFfR9PHyiQzEdcGdBtp9vC0nMJCxaupeUbn1OjECEjXyseT3NRB+wPzrTfV6aI8O+soD1UgqRZICl1EsXd0mJbrIMf62pPnjybjrcNHB8agUfiYX80l4qaL5szveGyP9dH+wbmvdJ3n6AL8SCc8JIcfJfyEyn6BGk+kpdhXgzZatSmMtnErUg0vyJ4TJpHX+9t3J2+3p7kuRA+IkGfqfs2tQpsajvZiqlZVnl6+3T2MRt7Zm+K21rdzP6ZIDg+mj/aneo8XJ2/kvmtvOrF3g9/ZiY6pNmDUdXZ6Ks+DvR1A93cvSIgmbC2SHd2ebB2tHbp9/w//8O8YOr9+/dY+PGx0lzv2O7KlchWHkTHdooA6Z3ji2MNf//KXSv3kiYNQGShjLmwGc9CiWAXZvUJaj548PiqLm0GIRhthuHdSD7u0XJpGqSfug5pOFe2zzz7vZqjdEaSzsxOG6rPPPv3t3/kJ0Weo1J+C0K00tgNayut+Fhp6b2f/Zu56uXwLkMdlQMu1K9l03Xi2R5IEljLiCaE9DjCCKUJVfHtEdZJ+HWIDUJJHaklU9YXBZvIvCaL5iFANf6L0amov1iLh33EUDIAmsqP4OyQJS6ryWn1nsP6lJ8veAUsh4qgcspr8RKcIaWCB8Wapi0Zr3Vukdl61FSQiTtLrmYShOjfBh05nGGozB/Awq2IzjlEBAHC5ZRozXS+W7/VoDxpTzHppQQnKvqvvhFRBQnKuHJwLqfDYS2Mg1g7jrLFQ/dcXU5OMjk25dPp6dGUFzyuTnMuXqFQ2SU9LD2Nt3bg6TKfPlZ32H+eo+XadqdQfZF2yhTnHvWJ+aEwXxRn4Sg6PUx1KHU2Ln+VSwAcDmtReqQAlV97UQDmwYVk5ni4IDyWLeZNFDqF3kRsMhZzAhuwGEKmtjdFe0Q4/I5q/rNsU40HXdpjiUzgIQ4GlCwGX1+QeA4HAbBTJkCQVXXUorvrCwVu9gX71FCJrybmgKjz1ljqOOJcTBSfKFTTqVedv2YfTLDPZwuGcv8YQROWSsFQzwsL5cpgH6wokurvsVHr6DO723l6bLuqDgyGTkduuQzXpdX128faMzblfPH+6Nd+8PL89g3Z3bced/5Mt52Wma1dbuGD23PxOGmCZdjMSN74NkRv9Fy7aO708twnsam2ugy85K+UZWY9QpWXyoqXUbkrNMRUZZ9bnSS0Ibt3fXC6ufMSPpQx0MVyJ4EGsygnb1CT2L9tgWM0luNxQfCzFFQwUS7fuzK58bJCfUqPMVKbuucYFzNHXiHF9T8RYAMVytzpLmGObGAkdjOwxWrLXKU2O2F7aym7S7OLqeHp6fXmlz/dosYsxoa4cipSi/ZZe0KNLI0SNiVKodCvtkQCBrkwNxYqz0yG7vlpCm4fCyS1SmZIIthVEfVgtcmH6MdtJWVq6STvmp0OCAM58woxwG2LpXqcCMrKzOlm7HxkeUySxEbcL4+TtXJ9oUJEOAXEL/vmtzs3FlVvMr//kT/7kX/7Lf9nH0snMUChMSFsYUQnZCKp0mXlKY8laeKovvI18GrKoayFJm4WYaDCvkYBuYlpETQKT8KpKl/tRQNVMKMmaN/KERaY+gTR1wcE0Cx+lpqSkmnLY2HLF7mTdZDq7K7afmClfjpQszRWGe+9nRS3rqf0oQJxYT/4iMn6uk/CArID3j0QV2kaCdkaLqJrTLFRLAdVKgQXV8n/Y0NhKbhq4BLzVDvDgRXCi1E2A8S0E6LIVbtVMq4JJ9z9BXLqEQJERhcN18PLpHWBCYy2WTlyISn5LNxQPHwR5cpKuEiz5JkrF4LhKwvQIOmdcVUS3tpM42NiUcvBgLG+jBd4eT4FJrcHLJ9M4C4PwXNtBjFzruXN5fXF1+vYdu8IYBt6Eh3Xy2p9YSBKWVlEmOVHZeagxx6h45eSuiTGKlFHcTTYaIF4jMuAS0GDg0QBdPCsnylKGNzTCQ0kJaZiUL8QrcaDhia0vKVIiUTgjXCqvnUs/A1QNphnSr9CKpXwaf0cFb7HIKzB4YOMEeg1ty5amv9Ro8LMqugAQgLHqyBNwGmetjcPGweNZObwvshC5cDxNEiQ6lUIUrjPHPQi5tMT0E5Y1Kwms/kBCSwdlCcUlhNkalglGes0TofBgPh1W5GesrDoyFmMJHU+Iwz2haLi+mJ2ckrS725dbzwws3FZqY/rVYm062tm0TGVSmWL29eD5HTMiX1nkS56ooFeiB2p3uML7/pW146XSSenaAagcU5s8A0OwlB8MpoWYEmAwAoFJhQP6FmIbp3y5xtUJU6QOLFZX2mQllkvsfe6SUEF2ESVW190SQdkc+GFuYDjkTqEpA4sYtZAhnDYVAWu0PEFdcgAYc818GGQYVzFXjqzF5qxcsi8nALCnLBxcUyIdEAi9Ig9K/vCy6O/U0okiFctUk3x9BlTxJyAoAiMJbDoNNCJzaGCNF6xONqNmZqr0W2b5ttgIZhe8TD2VGvHRiYu77UmkBTZP4VofABZIn0agvQy/87s/+9t/+2+7JBfC5jZKRJkPNA/CI1BUzUdkHJnVQgsHflBYI+BqQenmJ6GVFXyo/c9YLaHsOIEhoyhJwnIFn8kYtpulv11k+5hlTbd7J18yWJyrzRoLLaB6UaY/o500L4RxIOUCkosC5QRx7e9XcCgA2OFNUNMkS65SLB+d0EuHD7GZQglkiqTXggIjYOKbDq86FyvnAIBSQToG/pk/iKYut6yG1WuLXY6EkJHMSRTTPZtm48ewOmsWUEaORLBO6RIkiWaSGfVM/qV0c0uercRDXgZ6ccxp7Gr5v1XIpjKUxjW3Ousk7xbuKsZW0NoNZ8qhHCkqfCkhdajgnQFxlpBLvoVfxbRHOrkIF1IZ5lFF0Z+yR8UMds1xbRsQTRY71y+ePNVbs8HWzL5LgDptNfZ8CLvHs405Il1GAkzku0yRJkEjmKc2zwi9sZqs0aBTRlk08Z08jK0GPJQ6eXkZ1E0VShLSAgOPLDwlD55MTC4LO+CRNWAtUJQkVD9Lz6/svgX+EL6TeLZbkrRi4CDWwoeo9gdJpWkqHuLkl3sXB4Z2UlWZ8hDSSPopBJGdRJTSaeTUaeMEw6NEwMCsKF1WtFeVH8jikuQ0ZnZmW8qt8Ri9Ji38agQYAEk81Wl5SQlaMzzNKNNI2EmabJnbczGLK9+cX/A9ByuS6WRf5OgvdXz91r43RyDGo8u9jZxJsN+WUwxj1ZELXceu83xgmMmtKkCAGukCoqfJaG4gTN16pgOJPN1yLFrLGT7fH1Hqdg0MsGvzPd9Ar8oll4GZYUu5wh8lwIO9PDhsWCWv7A4hTuu5r2FWm8dId1hdh7hFCSfttHbMWy0IQMJBElrjov78eDZJ/BLiifJ2OOCQWNUOVu5KBBhbPPWyIOyQzC5r/ass4IHE6MdQkyeTPJYA7YHpglDvWRiLkmaYLPTgmPkmel++7eCSBbbIC4MBI4Z7WAQAHUJKgGm2bdEFqxKEyUe4FSNbG377d35q26etIqHnLruEfKoKBmCaMjz8Sm/Csv0Z8GWhL+1UP7Pil20BACKFq7KmR+nsGEBtGMitWkrHwgNSjjJDj1mhLhpAXTRJ8Da5VNccLc1xsaKaQsl5OMmFvx9dNSmC2nV+7YeFE8IlhwdKtnF1FAyY6iEQjEClW0lg1gAEJjWodHkB6mt3NXg3do84Zv5NiyoXtFBUh3y7bv3o7MJEVV7ThoaWga0uvwyKvNhIyxkUg16J2xzMX1AbMqw+CysXItGRf0Vf0V8S4bXmZEJ9/EtX5HzrIYt+B4EqTysAYVPUSVwaYWlxfTzAXXyXqaArxFe+Ca8BctHjLS44VlswOryBO5csw4R4BQ4Y3KlQK2iuBxxvu+FfTV9f2lAUp4fl4gWr6TnGWjebAbaMYHVBe9Tj0RPNV35SLZpkHBW2t713Xi1ZLhFxFRrlXJo3nIsjxaE1PehSK1Uxxf7ueiJZs4lYg2n601nJtMOydPIS1YUNr0odQEO4uVb3YjtK13kACCnVle7k4Xhl4TnglJBLHZdDQGiot6W/6AcjRyDSenYUPx72axWrBwOC32MTjgbwAiEBP6BtbMjuEM8BP72av6VYRQikTe/ex6bnWVfT7K06UD0aJxWfqSfnO53YW7vbf3ogL9VRF6tmRJjbVrdH88tz6R4/OZouzjZGs5Pzkx1st7NiZ5usmexbEqCk2Vmkum1eiAxqF5Zxtb/FyBJQWjdGWAWsKaElK5Srnb1DXVIF5wGs+DzdfPDF62RnV6ajU9gzcYVCYFHEd1nP6CSS82BI80TxLeVK+zC8AWBgkD3VKSQKbq0dPHPlSY6EiwUsLScw9BQlkbra7k+lWEHrcJDtwPA0WhjkDiI4a5mDh4hKUi71Sw8DiwVS5NKCjpzLAlWQmErrsjRamGFArVlyz5zqi5DY/B0kEZr++E+N/wSiXKWAEa6f1irDKycqOs7CGOMhcVqrXXk5EtcAGIkMYClCFYogi+InQn3cSlP6F//iX/w3/81/+9Of/jQcu7lxE6DRmzGDRkzVAeZQIqEqA8+C5PxNfaUPRTUrOSJtMupSYEJ6Osk0tNFvEvqifSEkY6EO7emTj3IgB8Epgo4V9Zetj94ITJXX/cw16+OZ8rqI3SLZIuJdBlgfOnpfXpKj8725QspDB2Vcdb1lL4q/PMuyhaiV6wKD4RE2PMl/zD3rFDuSLUY+NxVv1EQuIDBgB1yzO75oF/tsQCKNsFAflzDwWOxFIEe65QQIUUZOeSmOA02HIX0r+3xy/iM7unXNjKxiD1MnrKIJWrWvOcRakpbKfjmeSh7JtdthfP8Zp3Uk13JA/HqizcA2FHYLTHNOsFgyKUsaVGV5BcCfVIWmwFJUTiCnyB3Yrx0uREI86QWjrBshQ0nsYqAdYvSjZ1W2HTUm96mhs/Nzy572/GxWt9RyNFrUPUF3lwEtRGjtLoJWKpRbIDk8PMhMgru/oijSJhEDbUpSyr1pa0IHwgDwp4xlngEDk1wgTzhTLltUyq4IaRixQtK2y5FvMxhWtjvrMKpcMBck4HbNmQ4c/A3cz+ZtUy6vhlmmLaoUrfiZKOEDgLwQ2+VFp9eO6ucQ3qk6YXNGFAeZ5GK7jBVS+Fd092/HNntdq4ULiLkfZXVaEmbMzk14WG6voTP9rvXaDpI7NWRi6YNtMq234x6H2ZVu3syXnmyy2M5A5y6r+wTS1Iv4tasbsw41SMqireagLWSl48qAev0q7aAcptlSxMDIAp0g0cPfLG1Pl05Iq+/mgygiZAeEm+36bJAePTIs4HOqHwDXwElbrgObRZ7licIT2ZAtAF4xyjPMyeVh9KiYHrwWaRaha2QjLxogWzxGPoly66PqwkEQR8llV407GyiMa328Q0l1pa0Bb+ykypLvKuvSMQlZYiiRboKl4vCh2KMRLQ1Gx3oyMF1G/tRdpTUsCc0oXXZxTL/v2F6haFjHVDBXVfbaDnhDDIzMsn8nCUorAjNdDOd4mvNPMRXW6bqjHI2hSY+1IPskaQCDZMX0SWUNyrdIjLRsrDQUi7mqyqUka4OIMiZf/YPcHGL2qnaXIBVm4WSDH3OQQUmjh18IJPwm53lAetLuoniCDTOLnyBBeHLA8E0U1yNCoo29Xql1OzsUFMO1fYG0kCQ8ngLhjPg+dLLnRLRHFEReeTokGwWKlOHZMGIDWcAN75Vr5O0XnsFLflLCVuaJqte0cjQpamUa059SV5sJJzuVJ/ukmWSIJoklnOzFzAJpEIfx2BdG1UQAI8sfEaw+pWDQy95TkVuUBXWTtfL1G/AEfM91XoIr9bfKiLOKpn4gxCnF7a0JwnWKGEsVJlXMaLX1zqEreEDIAz5gJVWdXefF7oaFWn3YhOdqESNdTXaVLWuCzdxvJy2Hn/sHu7d3492bO9tR45Im0+CialukO/mxOdJm4UqD2T3cff7s2XFWwuL0omRAvZFSf0lVtRJSq5oSg+dGd5VdJYoJFUbazHGlLPmYwEr0u1JLtUFVNMUiamPwSC6EGiFOrcd7Jys/PASXa3MIUki5eJoqGL7lqvFEdlcO2shHzRbDKa+UcVWilnCwEDb+Icpr4xjy5eEEtsezqfEknhJ2+CqwFWvjyBy4gkRUor8yn+NWbwpOkqbKzrLxONc4cQgUfjN/Z88wSPtkeKBFrRZ9uL23dbd+eTK3LX37bnZkJ2l9DOB+e3N0tb5xca3fu3O9tem7uvrM2RVLYiI0sJLRtgA3a+n/Zh6p5smNhpgZIpGBRjnFadLb00UTw3xWSTOKMpq3Nffjn/wg+xqq06bD5BQ802XjcvNBwuBZ2SreRtVPr8DaDy3V3GLTPLlliAEgMp/MXSYkaanSqlH0sPGEx9fi9FPZEJUwnWRJcpmvZHHLuqTKSV1EK33JwKQw0tSieBGcUkdlVBcQMfifWrPro479YpF6a4KLT6l3CYU71IZ+kPyApSqE7zUG+KUKL13snC8eZk3IDuQ6CSOh4q6owrcMUm2Otz8uUdmnd6vJWxCyZU59RYp6KOCewN0JbAJNA/75f/y52ebp7n6+q3IT3Y7IsCTHQMfXuTBEIw15hrJdUk+zQMDUAA5E56QD7S8AYaHA0lE8aqBThc/d4qoSvaobpGZRuE7ih3XVLkRZq0Nhs4uOhq00tCmgu/PL81evX9UJ4lxArJokNFgEU4MbuZUrMt4/RMd4rFQnjzjvYBO1EqxOoNBCOnbAxmygrEqrIqmttay41PCWhqNlkVvqIw3ImKdQtRmK6KR41WDqw1g29mEVZQ2gmhwe1Kdr0jp6TNRUZfeCTbdVIzn1heC07LK3IMxHFVx+UhLKmhsYLVB0xaUcDfrwuQpcxuannJKGP3VVIAITVsn8ClcWT4LoJjPVWznme5W6gfzfxp83qULWylx1TXtVx2Kz3aDseQwz/q67MSgbAbtPYTuQvCAgvpl+6x7GffaS2bCjGjwNX9Z0t02XmCIoCaTXJNzZebp7sG8dBUOM10k8J/fYiXA0oEtqvaxkN7VcNFdUyo0XsVY1k75Tl+chvsF4CDHTCC1IKkM4B1slT7Nsp8FraQIlaSdJu4b0REIDPAhZEobWUFi0IZtrgpNXdZkVSqCEcHZUh8jL63cQCnnoxMI9hBT65WtnNJRogOFJVOo25opfRrLG4bSrmu5wu6ld/o6Gt46mf21ZBnywdzge20eeunAmJuoym+22d0eXLrU9+/p08+J8b+Nm78XRfLE1u3Wgcu9+Npod3xlVkYPRxfqd2Rr7KEgJ9ZyJurqfHgGLuYkIMzX212QhXLlXagUNXa4q7LLqu3TNHEyK6hxl3ZEzkei2gv3DPYaKPiJjYp27UMXb9WWp5gDONNpGtWRLuBLXmHFG2g6RnBG6vGJTHfnd6YnhSKvtRCiuFD3XXTXLdppIzHJAj+hwLBWaRaYW3WAV2BnFg/tVkA5sCkLbe5GuOmtqVhSqFBJe46EEgUcSkK53xKcINVFG1Emy7ELGMjlmhk7luleyGvRI6BA/tPqT23ZQRGMkSx4qw4yapFD5UFdCQqXDXOsuZWvkJVGOCiRCRiTkzedfsQE6fC5A+tHBEbAkdEuvSc1qbgYBAnE1vVI6K+f5sskeBhuGPXGu6InZ5qEujICQ5LVz4dGJhU2OQnrhJp70SfQ4F4Z0FzOn4HxBZnJcp7YN7yxc0WNM6bPHT5CEXPDwX7t4aWtTdSOYfZKhKXFyFRmrxpKfsKSYQkdILKQIrZ02RZkEAJrXHevZrsOb1hRg2elbagHvyFjC6F/HYtkQkrrPad1o9nQSU3XRZQg27bCcd67RplFEFDIkjEqtLctE1zRjpq4YS8JhHk1d/I72xmT/t93Ol8+rJsRgNr3/7BaKi3kLmv7vR1iIYtlW4YLQFyUSxdvhyQKXWyhFYOvLZ8+F6CA3T5UrwGWGcZIwCclYrqwppqOV2cz6QZXWU4xw2AASHcnVsRB13Zapc/cEgD+eBSxAwQQSscwKu/VLQHjCepdhgEd7Hl3fZ4KyemqSWzqx2reRDwq+PL28Ygzcm2LbsigfBHX/sYu8CDo5xnP0zC6vZNQIlUjuXXwhYU1m/P1SAzl4J9D+VB+Lo6dE5eoxH1k3rzW78NR+VYtywgMSvNYuX5A65ijEQ+GkmbKrViQmbYafygMpFjHY4tmvQsw4th+YV8+W4ZAtMVdDTag6uXBh9g3TEfzN9jbJCOhYkHBqDlW5oZanOW/SFarOQmUPkBJy2KpQPIDhhMTkhwx5hNQePF2KEM/wiHp3/BrBmarNZcQMVjab7O0emBosgjfrYzKZu3MmEIu0Xk6/DvHIO9we729tPH3yyFWmG9cXB65EeZ35IKdk1xY7G7O1i7cXF99c3G5c7G9M3dfuhoetnZEb162rGOgTF7clEiEtj5Tafod0Jd1ay+KZLGTrFUmy1tv1VF6tSVlEeSqpeiTDGKJ5muOgaEwx7rui7uDAZkQ7ZfR51Cm2YI4xAI+GhDnv3r6GLenKycUvnJgjU5CectTKsEhGdJxqP3C618W9R0fyRQMAU93SuqxFCLT8iD/32ZQou32yhGOSp32nS8CiULlbRFTWknvmQGFdlgESDabYu2jUCgBXQqLf6Ic/u/Zo85wSyUgLQu1Y69GxE+7bqS6e0IJccHdRc6B654EfRVmnDk0+9zxQwkfzfMlpZmqD0vNnKVITAeaQk1JHW+qClmZDFelmss0EUv7ynU5MGt/4TKjxlVI3izQmw3V0QoJdGvLJ8Rk6P/3VZ5/8yHVIv/tnf/pvsCFTylYad/cdLHGNk8F6vl23TqFlHCOtM0DNNHwY1Z0Nihw1VseZA8Na1tS0RUUKAAZFIxpb42StHdlAo9JuznNj4et3x5obhLgEjIWGtesCJI+P4EhFnTF8VKHColnFESHCwCmgAb9U7ycDhUqTZOVgCa0r55VQepNf/A9igUuFR2I7eQPUM3fRZtKdiTDLTpd6r8GjQioxnBl28UlqhGPnCvOUA1KRmEwXpgsY1gjRjcokG9Ot3ZcVRFNaTFx+JVkSlikfY9hg0BClwupSLQYifCENsCRdyErbXsFBAldgHhQzEb/JSVvJl3ED5gQGwZJvjUpNhJjay+/pn65nb2QgBI1iqAKv4BvhgFZIg1W2KbKENHpVG0GLEul1uOpLZhhW+toosyaVHPywmOk4p053Tf1Y0N++z/mqnJL3ednJNnrkYvYofOKtDqRcErgSj9CwoiT+cgOR3hhCht0XaiXkyB8TSUgYYQorOrHsimZMjl3xojM+IJERNxSwPbJuh6lktYGHJA9f+VEyuAEGL6Gioxu/J8LS71kxuTPqZ8M0EiEDNp7G32gbeAgRKyHWVKFToQ8TDuIAJktVK4kNzsoCryURi1Fi/VZJwwr6K6nqgm1LSwAoI4vSZ6N7I6jJaN2ZoZ3b8ehs69qIeWYHwN4tc3y2WJzdLGz+m+qJq9uRbi2dYx5KjzJZkcEyP7E2OZaWPgHkHA83FLOZH5pXDaXoX700XJWXDqIlqBgqNj2A0v7R2tXplkqaFLka4ID/O6+yC2Q5ZOAnrzDSwnjQ2uauheAPMLHg2VfavzhWtqTagrUfsSG1uA1V5Z+vqrJ5k+3YJ+bKVA/9BDkyhMAsCVnhsALx1n4Snl3J9pKEfqIrBLNLJy35IC/1ItbJcf7cTpNbM5bfdQyCtMI0Uk4GyBbb2XVgPUOAOUcqwYU4/EyaSxrUPsZiHpKwlya25SPXUpXqblJLlEoTRmfGoncxNDqYpfJUnPoCXyoXZ9PGa5oHdic5s55fWsWTq25JjSQUO2vmUZsdxRPaqirxU6BzVF0jKBQrIyw9MDFqQYItzvYKq6o6Q/TPvHulUjVC7MrEW30CUBVLC0CROX5dC5DL4Xa4VnVfxZM8dDSWfgLtxgZA2ULjA4CGT9rCI+NlrFFPvgWY2wKNjlhOH0VMdRWS0hulL5Rfx8fGGUCRLbPJAhiqGKY0DxlEz2Sqoqo8VRySMs+Idxo2agVwUsZXw1Jiod+fN6oZaLo2QCttYEUEccEnfTyK6Zkypi0rR5AE9IGTqPRSqlkwoPhWGtYromNrtQEAwRcHG4xxhdAz03crV80s9JDIriT+gi7ZXVkLe4+FmxsI3RF7uSV3nKkuckjtVPmujSvUri7BJEmN2cPUmOs0V8rOdnjLTNXL3GSt/BEUIkmudDKXmCtrOL2mFNU7ib847lVgjGKxPf5Mvw1dnzQl/7mcglxbe2QFeKV9lFRXS1TP+EVeKxc4O+tWmkN4l6tkQ/ySmGZvv1buxZHELx36ICwXT3Os48Avca6wDfLfWQMDMzwfpuLHiSXiYkLHFsIoOBg6rfrxx1+5+2XGKM2eZ4M/jPXj0Wl19w28UKLg8JAmjLKJxtjC9KpFSipU+NXs8ppYr413TmaT8c7Rzt7G5q7Zu8zp3U7OVN/t+v3ldHt9d+qKg5GbPu590GkjGwcpqGpB+F0NLFd6dLvRz1tJHUOOhqH4/FyKkIJXpYtbOcR3kCKwrE4b01N0qiTW4cTqHosqHHXhdTUcrxA0Ns/2eB8CG15C4soMGJzwwxYdW0bIiIVSZxKYf8DA6Djg8NpapQaEqIiQV+XikSdIPXfDoB7F4og7VDSNo6M9WcuCS9YRw2QECYPIow0DyIJEDfqFMGAIAd/E81j169rnNwbitwMKDUm+MlSQBI92Yg0lU0ub2p1cKAvdOQnFhh2lgJoGmQKOucqdKmGm8IJZPryqzl5SgdlrShBmZrhp2IcSp3PpFmDogYpYda+kiREVq1bdFQaSTKIcnuhdJJWOhTAhq3YRMlYNpJE8JIn/ydPHuwd76VNkH5hPk2/uWUWbbp+enJl8gTorZ0Wn4Qr2+iZF7lLB79wQt2P/pYnm8LlyXJqrFXdCCj/Xnii5cvXqsXSo5DrqPXC992vHMipR3ObiMrW2bKbmw7DBKmRGAaBrFEj5GVehWP2zh81umVU2uZtI7fEnpBLxZeAU1xo4FdyuRxE5RlGlUCAC0fVOMFKN5ZbQ3/4Rs0oVIFzo129D5Q0xmNgk9Ss/BpQ0sEuRcr2FRigcDIqjFKpQBG0Q+pUoR3y5FsqIUjVmCWFqDJlMrc/9pdAuNsW66uwYTOMmlhCqmMTaRF5Zs9PJT/J8/yuEokSd8oefwSysTm9QB5q9p4+QJG0GwmleOnn6BDIj2SnFyklYeutb4gtAXhwo2MzFyEVRsCUz9FZiai1K71hGgLthd69WeaUq+Mwrcl6hepgpfztRK+97kr4TMrzy4CqiElLzLWF0OfM6nZeYVVhkHv7Ogl94k5HkEBRhYpH2MJyfq3RhbHhbyqJTQUIAPNu+CqzYpTwktsoOectDcJXM60wIvM8R5FASBVeN3PiYtt10gcb69tH0fnY7mdnIk7n07fV7M5Z2iprByaaJ6eTA4ubCLf4kUHmznLlm1T15hymsbhZdSjDCbQRwYshVhVecvFcC6R0xw3OAgU+Fzm/y5UPjKtOdxdtIGjLEGotIqI4r5xRH2vYLT9SqWhGAgZ0FD+tifwO5JTaxEctUEenKYj1XS6+vA9uemPqrPmZ6CdmiKbko/NUswWOhxkWDm9/TnSaZ2s22vnSmyGLYAHfWLp8YKFQcSSCqoMCgVl3ALqzQLrtlaRf1bXhPeOC3KIGMRlVDlwBof0JQApfIKldfZC4GjuAH0MQwL2iRHTJysUdxxisAYGAg5JECxzuwQzxN/XPmBs1hMIqmMcBr8ab8kF2pzDkhuntR90qUymL5xEbScj2p0ZgiaEM4Dicn1jPk1esy03Sal11VIUoHzDW1xlVGbtYdUne+j6HfkevWgCxrUBddIHFzjQYMjbxpk0U7gcvq8V6ZJvt2XkGD6DTlb5BvPRsG2HdcJ0+Pi+ykP6l82X3CE/Pk84xhh0nL0EyEWhOqiGKGQVUSaFb+8EQuJaIyoXZLxOPli2SGzAeCvlQHcsGQWpEkp2mUmZZ01DD0N7UStm8ZtKqDBsjTX3gQojrJ8MRpfoRhrmI1HwQiR38D/Hs2trJ7gFx848EHQsC1/DXCIaHX1GdVv7qMJ70UaTMw89T8g6gwp7Lt+AtLcFPd2WIT3upcpi/N9SinCPPmGhcBpMduV/0YztqV44bUm0+m46lWKLPkV9204EflKnkQLtVbMWgpxPxLreqoDEFmsTRyafW4aTFracfHViCW3+RWUoZKdxiM0tF0hTWnNb1ii9cq1/sGKVxWMDQDi7x4O2FT65WH67pryH4Ck7KBGyyarITfK25zEgIQ2Ek6sJ/BWQ4AN+DnB+DZAIUyPPeK4A4seI+45FinoEQNuZMiKEvFZXQlHYrk1miUSawKaOslHGe0bks0N5s2wrgR8e7q9JrSzZ6/0YYLQrP6eXG7vTFfHLrEb3zFVGxs+iQaC0d4bP1yd+PaeH3mEMFirjajd+pjOrRV1wVtrlxd5KEUA2c6fHhKzd9ll0o/3ahEJbZe5hFIk4EBCZtXrrF12gFV4ylxC6/QY+Lu4BCBLlhCUgYrOSdvLrdaB5NQ13/cgaQZddCVLttSaq0D8uQSxZp2mvEeLli5TP2JzGoil+a0nDqKAKBBIPz4DD+GZLxYW8OpXZAdxQTmqiI3OJUTSO+CR6BMNS9+DnwDRBem/WpcYLNKl4mR6k7JyMkED32LkLXkUin09CpjCRJr0jYflMralUCugYskXwDIwEug7CD3FKt9aYD6KTby3C1OXDeeVlkT9T6ZBS25AwiYXzIXKs7nZ00AJNbSdkrWAaRQ6T+pC7kAUZbIpp40fgoX6A+F6EWGARu2qwC6WIFK1ckoRfdkDUC6WQWwLoZVXYQ1/SBMhCpUFVDOYGoysEubnFeuCRXN8XsC72doK1EbAjt5Awx+mSVtTcuWrdKKqv+YrlW2OcduCUn/NEo2I2L2pWxRI2la4ocoPb5MT7dGyQCrgkUmIz81amlYswLJGo+CMPNtXqIfsqC1VDFNbSFedZYrDQyNpJ8dpsQN2U9puRJXmUeA1LQoVHltagf4FXA2rXYgzIYt7ExyWhZu6fdaVRX6tUn+BoCkM9LdkyLJ0teKlOR/UqluUbExsUDedWRj3ZSZ8UrWJfxR4dlPtdC9skeIYdDHNt7P0rcRj3vGBhXAhBoFF/L01xAALUYIKWwRbi4crfJ3uCiv4OHhBPJzAS0nI6+Esj2UWt/W3CGeknDSAmt/VOdOCWtNr8miMfNwsDaYp9f2C0zyHsCW6IYnZbZrYsNbmvSQkKfJk+pheAf2UzjH79l5VUD84UyFN6SAxgyAeMC5zK4ytQGHLnOWtvEMkNI2Hs8AxM55xNp56sn1dELYWhth0u2zwjgxb7KZ/sZ4OrqxSZBMpL4uZxe0h1Y22d+zu+l67fby3g5MO71caUsqsJfIutEL+tQOTemUHpYh3oaC2iGSfKESO5Q0eVfhhFT4e2FoGIFF4bIDp+5InP6HYoriBrB+be55drhnM6QLzt81Eu2/4aKQ0fXcBo65o+6SN2Sm2DtTaw72BZD9uDwpDQ10wNk5esIJiWWJ3nCPKNkZwaA8KatowNpDX2dMU2NcxQHZMKqJJ9goHE26xKBqMOZKNaBZXQsfooa0iIPcq/GxcS4AFSgXF9M0TEsCw+eYc7tCk1QtHnA3hu7D8lc2Jfb4UciNqHwNwm0gyehubf4syG1rgkULy8FeI0rHnkybGnH6CvDV5Zt3JwRjc+tY0vC8JNZuTJrB/pjwJGY9rtlYIdHKSyLrRyBH8vEhu5EpYd8GzZ2I5iGV+r2VbYZTIckLVU4bVQ81rKg+K8wlcqx+DMpyiNoUDE8RTUGTtiSlJM38Y1PznsRifb/CMKTlR0HqP57VnzpeyUTFAOjZz/QJUaRkmR5ccT8jpGSowW/hUDbtpFXjQP5hkupORUVGk8h/QigBFQJVJv8Ym2AJBUqFIrHA6lF13HJWEE2SZ2D8T2BgwLfrtO3v8ECtWo7wrgAhEbsYyqhzz3aZF13aregmgUu8D346sMEGbC06Mb0o98PIGGiz9MiLiN5RWsqhjOlDxlJjhHzJIfZlw5uTg9Gc8kRA9pVOb2e5aQl5GqFdSdF41ktr6yr4llQA7RmoFcWFjHZ80XHLdZqEpzeSXhK0UqENqbjR4Dq2/EZdPR8oVj/XxLodRAI5JZVQch7YPOPPZHDYKG3yK0smtl1zbPAnoxJg8hHiV/zvyvYE2cTAwz8k78AOwfkucsd6tpMkOB+4VcwyqF8fwghpVHqTkrdgdUjnZdSEY50eDQM80oCpTRmarCo9SQWrQrWvA5EvA6yz7zqzW86NTiauC/T1apM39xsMDja6bufp8yf7jw9OZmeXJzTbrd3toTBFSG8A/ogJnWltzHxjGkp4rvgowe1ieHOu04VwMGKb4IdPEAP9HV70pxYUnBMIxnN4Dbrf5Do5MGrLyMCEWk2C1aeE51fMlaimQWrU5sh/dQ7wjxS5NdHEJ0k3EdeoUpASm07lCQGuEnu8d2cgSiL/VbSHpIKkZ32FDmQuvlv1P8BzSpzGVkUY0sprspvPalBBUMV6rRoUGLDNO1GweUG/LoLtr1zadakRDZh/mgto4hoPK+Kgl3Heybm7u0zsneROyJKMNBy8vcksBYujneGbVeHrm1OUjCe7Ghr8MNigiXK1QS9md8OKkzysuE0QyCMa0GgEqG0ZqMIq0LLeO7AIKwVUSLT5JhWw3HtlGiRp9Y1GF9WzW/5wwziVDJa8aBHmeLK/gfbyNQGlHpAXXyNUKIc55irsWzVpfqFeOR7i3AniLzpRFX57F5L/dGSkXutZlgfGkkuv1dzEx2Z5oXMy8C37TKnZhJEhifdgxJTc12KIosmkBUqc4oBP1lCkGssRzOSlJWcI2vN9wSAj8YqCp0oVkvPT6Cm5ygb9IurZ2DpldG4KxBRUS47020ZK5ls3iWqPRDzJH4taqXnh+MPMdH3DwHA8i25lr4uN+nLpzyEJF0p8pSLtSwKK7TBIyBULZUMIkx15sx8s9mmUjdTOlGYjMu0jvcxM62UYnmXb4OdK75QnlIMIRWF9uguQusFaSbQSEmbGf9+eQMcMq90tq77QpH6LA6Gjyix3rgNhMPlYi5LNS+xL2b0Y2HHKlArIZn27BqJAXQntWlE6iFBCIlNgkBNuCQXimECqQaAQe7d4klE4U6mKvcv8SknxIzYrgy20AFBBUnt1hjUo3iYMQOQi405MdhP5UhkUQCdvbGhrt8qohKfU7hCSolfWIENApA32gmzuxZ/XTtIFxHcbgakn3G7gjk0vbSliyER+KghmrAOo+PCYG3d7qcAs1VRRhLvleDHNiVHhqZBssCrshCuqLIMbasjnPzBEPVi9KlZkK26Wp3LZd0YD2pxWaDIt35WIUZSBSa4QE0oKfw3dS12YiFzSnR/JAcl+WVR0sKXlxKpTPSV4usjV0uxAkyKFklM8NdsDOLEZGMXFKDveZPbO1rKcae4WSZMSpDp1lCaQeldGN6y7Xl2Mj3GYAafg+vYXOBUFLXiankG1EEmI58I8lB3SNwv3DGK4aE5Ufor5nl4xKcpGW45GRV1cMOSiKByPLlAeOc59xd2nEu7uHj97qtTX1oFn+cKhERpULlnneOpcjaImV4rNpTTHJ2+ZlrOTU4gP9qdqUhVsZi0yWkVnD9qz88u3xyc+suHOx7biloJ38+URJ3SyK0fTuV2f63hilHGbqtXO8IRRevrE9hNKJ3UK89RHdlCTQqbeIjFrme3cm2ZvpH6+VS785zcZYyIE7iqzOotaQxLXjFIlqaT0I3Ej3OkobRlDbOhXIvvgM17PyinBsie+aKl+hvNx6pvool/PyU36+DYZT1WTS9s9nTrA/3FJdKQX3jC8FA0KdGTcKicNFBwiWu5o0AhwpJA3m960nFSeeq7GoxCKDgMuSKh8cMCm7+cjgSN9/NuZubPSljIFvGDZ06YqBwlLrLXk5KvY2gbWoCCvacvmPpeTABQRBNm4IgqEYiGr9AW7rVBO40AbWtBcINGcsmJC0qcQBa+GFCOF19VLlUHKuyxC6ic6KAmhAK225WLz1W0mYZWlDiwhW6KkCg21BtM1nVqolXxR6ekVDD+YKPKyWGk7lGsC0tSjFCLM0SROg2pd1w7lMFS2WI6cJctXkcDpFRIh8q82MqFwvXADN0tfpUuhANBfMG9vmq1WS6TB5w3qw4GRzU3takZdr69NdiZbO6lw3Rs0YLUnCpGn2HAolIoleQqlTrtqPFEcABx1M1jdj2kpWpOn9R49eqIZGD9ZqY3WgIYkOlFQH22TwsVl9gXVRiQ9vuhTJlM2rmjVRvZ23UZjKRhr1l99+Uq4uQhLXFbXsuSAb3aa5W6HI13F6qHemseI3K6Zq7kn68CUx6gMZmRaOsjkZ3pUdiLodUeiteTlXFDaZAxwBKr+QCZElZXIMLOaGz87ilr333hiD81IiZBT2FCFP5BoTfyydrusroAQGk4IGL8wYBom6kFinfBu1XaTWTZUierOSDf0kwItzlemHEe7H/nkgmkcF/aYmIn6m7vObG2yMZ5uTnc3ttUkPOy+j1T4nsYGwalujA8tuhLJGvvkYG930xHUfDXnfn7jsMLY5sN7fFOA67WJ5RIS4yPuI8Co8s1OX33EJIKEh0jO7BDJQXtsoKrMAIYsah6Rej1RbRMDSIRDpovbo+rCuwPs4OBIZwjxOODgUjqY2s/9vY8Aksuo+9ubGopnuQ6f8JpuUcfYZeXTJxZPTo4n0z11op+TTZE4sxj5hKEPobn8TgumNzx2dg9ev/M5wHOfvDKsZABc+VwngfKJ4VR6WtzddMvq7LEjFnr7jya7qoUtydGK+ezwaFelaAyMNCLZAM3NQhhRp+IMmDQ91Wm8B+wHH32oNikrNONP2WMfKZ4Z8bjMhXxDObu6ePXqa5L//NmRT7emQ1KTIcpPKvQiXn3zFXYxE1999QUKCItdc1fzi5vF3D6Zze10LiMwKiYd4q1pEYxcoz2KbffAqTK82S12pS60PmLpcilqlrp//FgzuFTttT87xm9rMn7y9Ojq/ORuduHKmzMb5Y1Bs1KiddxNpjqyxjAq0S4+VXXHwOi+OKtpj7G6p6B8r4Qq9NUxbFdhxoNRArHodILf6AoUW9LzVPtph5s+c+WTWxduzsE04r23s+dDVjKi5QiG/OkQGNJ7ul7sTnclx6JNd0yxYT6cNsu4M1PknFwDWhoqzCklFSJCOCUel1Dcy+aQqPBY5RQqUVk4aZ2dsKXiBq5FIiTKmSmKgaOO1U5UHlmPiYxMJn1hL+1YGjDGCVhhi40pSpJT2JoetdhYovSi/ZdleYrS3KSQZYuANwBygwEjc7Wiq2WYUiRUpzvDDQqnAPQOgmvplBqt9YIQUICaohWAhCu3SoS2MIcTk5+Vw0khWBfdzeEDdjhnFt1b1AwGrF4DU2R5tr9QxpxA6ZmD07HEZGTd2Ko6p/om0cVKFzVbVeO0Ini5ZYVQfTrKJ3MLIet3jDocpMcIK37SV9pVdqEpffn1nmbmh6SL0CKRYlWlWIQKCXGxirAwPNozhDFX2dPhxKbPAcauaJAUG7HjSJ3+FGcQRZs4tomH4IUYWnEAlN1SBUE3VQjg8Gif3ItCaVvrCMSdM7LOEqXXhYi9SXUPq98gPTKVMewqSU6rLtluoZedUsPJDTUoMOqvXAemsEPxWyIG6JbfCEYaUTlSX/LE0KMvl/QkjajGKUf0IM2rG95kzdP4Qi9C41KWFuE0May+rZNzSVjQpKnGtSz0uqvj1sySXRzGGudQlldTv5IbNrFk+vyu1ncppw/sumDQplzXGtibwVZSD0xD8rPELkE+T6P7pefS/byMWnADAFzNFv0jgE2wYi99uEqshIY+tFWRq9RRF9UjpAnos7SiuAiqZ4Mvn0nVotetW8J0jZt7OKKiJxsTnbvkThuutjVJZtx9SkkrqS+NWB91Peks33WcTA/JJPxKzKZRAdXLzN4H+sjWA9DVwQ+7NZBWedEpxWZywqDTs4jwiUi1iSGXZ5dYEfudQWh169N7jW5CofEEef75z3+u0mzf9zQ5qZVVeV2dFBnUFQLMuEtn5tsWJwmj1fMRn8yTu+mY3KqWFLQE2PKkD0mqQbP6Er15845sESpKILZd/WRwiPDcbzRx0+D94ujg4Ne//tztybAcrD9mes81p5sZshkaV0We2ZuzM5be8ExKbMSn1I2uUJoOPkeivYbhdKpN9BlkpsjCu9ZaKrS+wFT9ixXFX90P1KegWlVJtFKzmGqarq31GlomOdLdUZ6+Csio1mvUEDGJ3s6XgbGsdkUnY7VTU6ipgJjx5cy1ZBUbyposlAjhllFVLP7BDbEEokhO+5MGBrnr92f8UKVqoS7JjjeupHxAxVOjjQSoj7SZzrh4kcDKPWHVaHg6ZAlZ0Hko8PLH9Bdb1voimSXTcsmj3PdfBQtcRn/bP1TM+7TvUa4KVWmR1LUy4Gm0Att5bSJXAcsqb3qaAADqIaLSQDFXBtpWTTPaJlX1EaPYwUJltBmHPUgIh8J5iiCDBggYBhM/DjdotD0kFdIZeQIYsuZr+iO5pT4gI7zN1IZFWsE46eKS3EOK2OfFycz19R5zZZqD6pTKlUJSlRQBz9objcC8qUmxmrQdX04U+iP/UVdV6WYkskPkfg9CmwLcxcGDWu2ZR0JuoLw9cum0qlkI7J4KlZ+qEc9qtxDEtQX1lFCUkOaAV8ih4oTgnT8hHZ6My3lttwpY1qZA2IbIzhoMVBwChGiOMjBWFg6y8/JsFJ7Cy3gvqfpWRsbtmWp1+dvd7dadD/6pVIogNzX4AHwuBWWnouGlshnMFaYypRHcxkAm8DBzaveus8igX1Y4UFRl4zzd5dYD/Q/aVixgUWoN5UNBmubmqkBRxZ4ANJ2KhxJgVa7W7gWlFjIdMySNfihuSRo8nFpotieoFuGRl+m3VW2S66bc+Pvd2TkY6p7TMRIOQ1crzAjy2rxVFpbswr7q9W/enWzMzJddnhquSRK2q4VVcwfJPjE/voslylYISPCzssgYQmDUizWj2pHhFa84VgRHHWO0CR/XsK7Yi6VsJ4NFaJORAkJlKGb5lj9VU/eTeRZzzIekJ0HotF0tyzzVYmaArKayFJd+PjPM8pnmNa9RkzCKPN6ObWFLzUba4mB97PLqHFWZ1ptsb/hMvDgTP3UlYLEwhrzKshR+1CqR0HI5XKywTTAOdMG9cvxDCAwd6NkYqg5ZR9op8iAc8NC4SptFcSVVShUa0I/ngM0qadykEip9UVMaWVMFMdgqbO3sk/7brgmX67eDl9ImtsszPHlKIJMOR+pNQLo5+jAqjVSk5ceT8CVA/8ZQxYKq2YpOpoAVK4FJkBhSEpMcRoQogZ6yK67FLyTZr5wAUw1GVw3ZwEUC4PctZ0DF8z/jQkO5ARtgfk4wfxpJOfnjeKNqAFR6Fc6k01hDlBAAXpdg5WkkQqpc+iQkU/LOAhMkoVvTdxTcyDyVEp+pwM7FT4RCSykHm5tXNBWDlbSuEsHqBy2ZM2QKUkEkgmeJvVHUk2ypFiSlQ5FiltbLukZy0+pMKUwyqRO9LDuzJdautE/GDE8MyWgDG5hYhzJMrEXStlmJBbzPWeb1jdxNQCXpp9IddI3JJdPrMbj5eEEOM2KO1tikeeUUoTi2JDf0P3ANIIAnLKrOuyaKKmQPLaqjxPJwsA44OuQ7rwI7JLGZhHSsO5oa2goIIoR19Qnnmn56LC0jMv4thzzvkvMgTNpgrlxoPc2YETMxOt2amD7Rrq1SmUFJQ8b8davuroizYpNTI8ppiEvt4TB1pDRZkVG9hMUANLy/n19dWydAVegVcrf2/Plzvf0QmfmA8Ets7HYmfCIWrRIy1o+oRBwJTJONTsCVSERkJD1QJYqqXfKkyxLMKydEdvaRGTvweOWk8qTWJz54vZ8xdAXmKY+zyzPjbzcWbp4cX5sZvpmfvTtWng8+fAmD4QiKNJIY5FH2FhkbvTs9A6jf7zp2WwHQT7RWJOQX5RxJ0EaYlIjEKFszzBZyPMZAbinTdJQQFdA6y/Xo6RNRsKHB59/FGMeQ/9gHvE6fp6pi1f9WsyhsBV12KEXOcgPgWrgSqJFZrzJO1mnTXlS6GTkjRN0QU6NmRBXPCCNcH7nfdoep0R3xyVYXS/KxDzJVx5b3TM9eaUBMWIzf+Gp+iVTCZc4TTzSrK1smAfeWq+pnjA4yTUJSENZsb87wd6WkCsq1lPI298ArijblR5tVRnzzNBmoLUOiJRRwNZmkskHjEgD4Qg5fWk1j4zELqf0R1xK1cNLoCRMyaA+J1VTglQB0MqjZj0ZRGEHFwduvMPBwhSw/YiOi2kxhC56FSov+gjRtMUij4ZIKXGY5WqvmqUUlpOgisELSIowqTD6on9rpV3sMAAdeiw95ISqNUEjpab8r+7HSOEFWCAs+AO1C2AM3vAZjRQ3PKmMK2AyJZ6XXIFgO+goVSLHF5iXyrnIqhNCV+Qlc+8MUJauBrCdJ8VevS750VJUSqwyrU9TklzpSqnqLLoKi9Wz6c6ZiYC6bpPH06eBJbqnxQYHsKsqQujmGEsQ+9PdrirDiABrzoubSD8zEW3LLdG2W7m0JoRozAZOV6Mw+a2C+ImfgRW6ZK45cZinIjVC+e+Fu7KwRpAT9F2Ywt1vWzJlAVoTQW0TJkSB9RB/g9ST9EszmDorlu3wUyn2+oLPswXmN6Cp1Ycwzx1zSdPnbdb1I0q9dcMWKbqoqE/LQpciDeOhVRx7jsMEfJPGnq4AfeS0agls4w8Sjf8LfVjnNkc3ukTdOQVKuMomcJC8Wg4UwGVhOYLtEBU9OaNhHMdmbbsz01l3XdMkUsAyxWOnM4Bx1bA1Aw7hze1s0p7nTdGAtDoxv88VGc4a3V2axzL6eXWyiMHsFmaxc22M1qz69rpHFwMhStfnSROrngRvIU4JSnGnd+SsXDbByytuocCOtoBvssgo6UU5WqIHmW/Td4vL+ak6Z4idzC5MoxOAmMZcGGsIglXUjs2GRSawp11XZIcm6PiPpeky3Q0wn+5Od7RwRuJ1NtnLfOeDgbozqNwtLO+6Vf/z0KR3qI5lMUToBZcaYt4JPPSmlgqejo0W5ITD3BWc8GiGq7hcAjVB8iMe67DBIKmhNNnrCSYw9lMurNp9Wn7adhZO6GjOyAq3isn/al1Ki11oeXohwBiyz/q5btOJ9vZzSSJXVABxynDRLD1sMwv3d6eWloSKGIA1YRpz6kvN01ywthb1lrpQxbj2kIoZDNvY2hz1TtArk4Tq8AHOxqjGTEHWnGsGiIYtYk3SA8MKrWC4SUtsUzZsYcArBruoHZxVpczfHN7MzsICTJY9nh3RmTcRACowh59uuY4O9nMgOqWfUX792opilEoaMDWi57+FbApeQ8w8ubUAWRS1UUZI0buXVWXum76J2sac0t7SGychKVm2Pa4eKj2jAJi1COn+QJADDh+z4CkBqv3Gi2jM8hcDDVfKiuHrBalZNC5QpZoJvCh8iEcKF1SvN2Ug63LNTdZKISjnqQ0zlWOoxBGwa2kRDavOeFEpKpTxJqtwm4srX300W0ZjqlgHdK028lrllIQ4k17n3a9PDPzjpBeZVBrq/6dURochxpY6N4YG21A3/UrMoLBCVsT2xrJWTHGkPPnGyv6s23NxMHGme9EOzhCgyDbiUEv9y4cQr/Kgto5Ub2UStX+RG2jJ+N3U4JFSv6FmWyKvAonAZ4kdgF5yn/RpqENZ8xUOeNHCDNZJgi0J+j7PDwTSLecSWzcov9xBJh1QBQ6q8OMxaVs9KqEShMjyv/WwwdBIh/DBaYGQ8fHPhZueRVXZXsJqUurmd6SBkH4Cd7eonZzBzJNxI1+qOQ8F2FsIEd2ZZs4Zk2f/avrqL+43ZTdEfuaQxo6wB0S+oVKfqo/ZbpK6JN42CCR5pA0qRppZiVl83MF1qHg6AjISSlwyrayosxckc4Hs2Nmdioig393OsJqjVCwJ0d3YmudwPu+zAw94WdYbKUWIXTZ0Zqee4iKNMRmC5LYKj73xvUF6QoEMtM1f0gB0I8JgZ2HTu1n0YdcWtVGlmRTyayRi/KCQRTRkxV8FTXx/WA+OPeSknC4URJYv4U4+Z8eMUG5P1CwWyAorJIxwYs9cIo71K/MTyZGNmmBy9p2vnQ54X1s0us0cKYbZb6Hjs7dgYkn3Cfb+dpeGLq3OVBYNlIEbC2pUtFOZGFeEP/+iPfv/3f7Y73Tk/fhfMdViz66VozGzk2CmI+hxJSCIoNdmA1JK49/JZIal2Hs/2LIFWda3uIBSIN80TNOhvKm8nQaTiczzp4/mvA7U6TlD9V+nCQKjC/07gmVwzAPIVJG9sXWm70raxK5UGDDUJe3CsXKAfSJvgfg2YrXzRadXVCUGrNC0KS8hKLwfgq3iFaW/IWDkhXmOgq5CgB7BBvARCpzEEQY9OCpGiAVaLqZWlxhfyAHmKGNe5rd7y2oEVuQRof0M2wHdChqj2iMWNYl5000OnMGKFDBjaMzwbGNVhvg6O4vPWlIJCJSg2Q02nL5HGUbVeE64RBbMKUIGKBPuptUNW2+Wb8JhE8pe1K84mMHqm3FChq7oZyPmuR+UGhkKEvLvJmcmnL0qUUzKxIYAGIbp9f3Y2cimxgQaBXl+fH+7fXudy0qvLfKf10UFOKzvWSsoVzaAE/yyyRFHYC8DsVVaelqZdML93vYcECWFoghU8aXsOTXMv8YaKeig6Q7OSyMUzXKqEFZ8hpkD+oZqE8Cd5tZF0A4lTFTyQaoG/alBUCVqSiuJwptiiQaZNJpzhMbyJLMtafcY6BnMlScpV2iSXJGiqousVtY0nYNH1Oiiuq7i9uD5/tLWTDTgTOWnpl1am8yFim3PtV7enR2m1RkUdXZvEi0BReTX3mK0V1q9u7Y/bugzPsSUjAF04nzr+8qvPz09PqZhH+3u4mkkqO2+X5Svi6tFkF8GJS6svmEhp1FBcxDjLPNloA6b5nwK3IxDVFLwVuAmAdZ+ZMJze2Ny2GZMiMxk4rhVaGXGpEBxEM31WTlrTiNiW6ekyigOJcIrFPiH277hjPp8sZZXvbFAZPTl69OTx4fjwKDX1vVZJV+K8hDig+gib3LSYhOcsEcpJIFOVrQjAADNO9i6igbHUOZO7tOYApDXjkLhMa8+1UJwOWvfjZ0dGbnKBNjsRShWXtGcRUVpkc05oKbUsTDYe3O1Z5O1bVq1WFZWmILbv7Wnf3rhk4250O9wiFIeZeoNnxyfHr17l21oGbbex4qoIZ5SIORnfpS8rQLi6i4mtSfWSlwSG78VDxeQR0uXtQK/dmgRKqOAG4tmGWSaZ7bdpE45ioDsSq0VUrSNAEmlxd2yjic8m+MBmIS850V76Y74raKEcOPwaKJAA0R2ep5opByBUF939FNKugiMTFAUVGM/KSUpPVQsmEdUUVwCo6OT9jJSvDJJUHQhNiWcRQW+lUO/JCIKaEdYfTBT0JCvsXSJO7hpMpkxFaxlpHFzqo9rPQwL+//o77cOnJPC3E64vxkEu3KBYCApThJUTVYpuWTrBQywPJ+EKdvmL7gyQ6wo0/FGDwWHXDWNkKdBFnFKkf6DBRGyUOAUJo+IanQASSVjT5Oo4VNPcpHa+SfVt1wQ9jB38MMMAuRRy9iQ2HL2XOY1ykINBU/EEH3gzBpVCbZiHgc0EIZIODx4BHo8vNBWTE2fnp3V//JptWXXoyN1u+YAQ191ACaFqcxUCGrUub5GR3T0V6FnZhTbwnk1n6Fi9NiQMTbNXrv2e4c/39fQSbaC+A68CJVEXQxTMLa+QhUHlErgiuzH0a5PRfhi8thOSzCrECvRo7N7AzZvRzHKEwyKb20zS3eX8dJJTjndznwu+m9ln7TKjTBVZAbl1ucDCTKpCMmXXUYfm0dILhhkr2oM9svv6q2/+8q/+3JFUnxd59ignB7KNtE6DLgnDxaSLoSYBKazSFCcIZsLLwZlbtXM3RxqkXDwFinwPE56ATxKMoYUYYk8KeuEjM5czylTC2y0r0FGjhQHCTIcK18QMJhgh+8cpKopfPvsHeyCzB7ZGPFnr00OotTH5ll7O10NcelNimUqJuSoaUAcGZhiUuf1y0cyM2BgrV8Vq3rErdZMIUo+Pj8/6mzv3+ZhIfzv7cH//kx9+fLC7xwgxtbJQeLbs4vwSTC1FhRsI0CHzrFWe6xyx08OTa/ip1aunlNNs5ywngsJci2cL+nTT7Sa5EEFTo9uMqnGRAgSp+aEfKz9+8QJncNLsP35ZpNIpNGJjHcONutYdQjWSVYeqAw1KzwS1XR3dJmALwnLgOa/NT89+VUylAOLVHn1DNnpAiHAwkYTVqKsv5A2Wkn+cb2who8C8ipK250pDkA6qatYDQh9nUlsJQCf7aPYSPehSpszDiFLNytAwTX2Hd8G6MPwY7BpODs8oCUyobksQgolajfXKCpSKubW3Gg0+cpv+RspaTVsXMs1GZ0brSueRFGYciE2+Jhh9JzZl4so05cOMZpbr3LuOT8gI30YuabQ8Kr0jcsXQdVtC9cvsj0ksCmj8qrBuMbKSYwlLknNBVdmFM8VfepOM4r5wfICkJ2q94qSiNZjX9qQpVPcE62odObtZ0xJWycWaVlb/esbykFEoEFu8MBeIChM4s+tsfDLcgDkLCfYR6aTHwGfSIQohdJAqgxhEadKmz80Mb+h8QelTNznLFfuxpQOqt9tmNplmfSc3pHWJdPd4ws9yyiNfTmCEOseY4u8tTcpEHhtSOdOSlxW9hs/WiD0zjy9pzmA5/JzxkHD+SF3kxVHKDSf5OavE8tEWbK84Pj6FiceWX/oiG+Xzhe7Z/v7Ljz766NNPP42SuskXlcKKVaeh6UQPdeMIFPyRnrqLGgxqo/LWcq2G1Q5giimQJoIEB9Rsm0NTYeCRBN6hEIENQ4gR3KmUQmC1hZJex6rSZzeDsZzub/yAs26hmAY0NTsEZ4swJWCiqKlt8khFaDBE6t5XsV2hvHIh0nFYwzesvb+e7B/ZZjEbzfen093tyd3Zzdn18e7G1uGzqd0Tt+s4NjLetNdP2eYUeu413Ux9bU2Mq9SizZxmz/f2DxQEq9AgdwV89+bt+emJwI8+eGnbBSL1lEuphxIbXlxEQBhwTPG3J2MW1Cuu+sags3LoRLP6xTfiAy3P3e31m29e7+9mgSSDlMqOPx2sLFlFuGBGmBoR+uvPvjQioW3Duo37jz/8AzjViLKrUR7fROFkimZiEJWAxJVZEmgN78KF9qxgWlGUBlZnHTFGNbsgUAVPAtfWKXrOxJTsiNYvf/lLzUiIxMru+3E//vGPf/e3f0eh6Rxzrtm8l7XgLd9N/uzLr0D2DOrlxRkW/eiTT372e79bBZ8yV7Jm3qy4ogpXjXROz8/QzBgjEw0KHklWYc6zSpb5SyefxibxsEpLsh47u47xNkmyPt66mM9s9jPNqJdgD9vVrcuFp0hypfnzZy9vF1870kTNOPPkPgCKwmL186OjX/zlXzx7+nh+kx2PTMPVeTzmWi+uYlQIiVcWsIVBJaoizNHAVE2YUO1IEcL8eq2GmVYsYaguSwOVV8NBkufQmIkchseKdUuL/o15TBWHY+YN0Q+hKWuozLjm4Ne12oowlI43RVAOdk5oezw7S+9DINKFd/YdK5uO9YywrF4blUBqyGiTp1PpKuWCynRGdGgwNkfLKgtNOLaLouUGkvilRZT/OBJhjjhHuBJatMk08OXHT6aN3NDTTIVZTQOO0vchG6+xGBNwXfJKBMdS/xYh0i5d4/fCM/i9dirP9qzAl78CH8I3zBDYiBCcMq5QpcBVzAbu5A3T2QkRtXLMVlSuqIx5qyehgGLVRDiDhzEGZr1TI9nkjDd4VYThgNgwoWsq1RNX8hB+clChh0d4BeRRNKYu+FMFba0lzNUkILOw0qmSPPHLjjMTSQIGPDzJb+UKTSIb4UOwlf/u0aPDqjSTGSNHDjUeHXwIAJhn6JuclEjR2jW2RgiMp3NbFSpFLjlKlznaLXdY65AyZ/kySztI4OxchHiVXIsihHbN8bQBy1n/kqWop3JQ0XFQ+RHAFpNGaVGxImDZVB4iBwxPcqmq7By9ggm+kvDU7KosldXyYcdSOLzh6431zTnnqUa2t91PDu1lXkzXt7MZzvE5naK9LJtkjtD8gr0wY81o3U0DC9tC1XmW3BmATRuro0pK0aNZkZWuipARDH/6KNWaBErSUcRAoFPAWUXf2c6ckktUDd0YY7vyqveWAkYD3jPKelhdLoFDefmbLQO8HAWqdOtS2RZixH1xYSDRbE/eaUqZrKH0AOe1HAxkxH+5xNdj2oLP+GoUfWJkY5JsPMlo42oxd+lBSppzhEmYVEVwoyV1ysJcgXGqyVM4R8BlWOAoWYq6EBJZgekt0rtmRFBS+AKDHLRQzfB4wtP+FgMAEkEQfmSSkBVy8aIeUdahnRQDdniAJUf2gDx5/FhDmMqCXnRz8c1VFETucBg/2ju8/+B+e2vHaa1PXnzoSx5PfL3XGE0Pdz6bZLf7vb5CzSdHXAfWIbVYpX4jmd2+stL1wIHvN57mVT8hES6w2JOaUjy1JrC28uofx1Y1c1RRJ+/X5rsQSCI51X5LOrOPJpQ0iQ2RfsUq796J1OlLJQVvgxUd0UlKBcVSIL4ndkV9SXPtWE19+EpTZgtSkUqEGFhKqGjeKFZ5ND2eyUxc6XWeVKqePJheFCmZ6qwFUorRublhRa85V/NTE0leu7Bc7gSZXqrLsnSS5Rzk5VACyertN/wCGFxHN4UCvXouSV3xrcMbpsqQRF6XSJBV2am8Tih8IEBIh3dUP4dMOwrHZAVwmVEfxct9AdF3YVdTkkYazDgjxPSDMZoD7k75aaDZB5itvRWvBnO5D8ActeGw2rPxN7Z8Xq1saqHiLUBlHy2ymqR82ZqpTUWC/UcUQxUKEJNN1FhQcyYJSq75TeTAoXAS1PddLOKGYy6+7miXsDP8XLbFy1JPUGtlsVqUiSIHD+JDRrlG68l1eCSvnGIyV5ez7KCjELvIEjakz+BCq5PrCRxmGWu3vr9KkeRwb1mRtAX7nawO5e7OfMutzTM8XqFKnaCHpFdNCVF6fwCLnkxYQg6fV4BFWqKC6YF7wKqADDH6CTidObP7uY72vTPXI/sEs2MNhTvMT3bWKjTLqZPtpFV16lyxu3nrQ+OZr9eNRr9pja17d4WsH+xu50NEIdszKrLmVCBUxZb07e3hmsNChukE4ycTNbnFx5xKWbjeyWMWEVuSJpIvRTqO5V8WU3FSdNmVrBZg2566yN+QqGaCMKo99qvxhL0lhhL70x/nGCHOxT3IJ3aEpDETCOVZZpPqCA0w6FpZt2OuYFQigS0AzWFPr1x7wMMD4RC7AlA5YQgAIejHN/44+9FrxCwWNz2ceBNriN147I0x1dGzExHy1cAdJSpOr94Mj563Xvid7TP363vTPTrNa5vwQ/dS0GpuFDE/Iuu7+721KfkaE1J9jNFkbXK0tucbsK6Zmr/67As9E+3IVU9Gt/YuOkCyvZOzH8jD0rbB/DL3yskaSasSBQbjUqzi/5K3JScCu0Se/HB2LEiKRSM1gccxsbs7O6ZMp9PHOVYVyZRdhE0TINbuLPRnD7AQZGibMOXjAiTPhH/jxUEe0TwtSbC035MTy0HxHc8Q2yR2bEOKor5kwAOz3bG2xxrf5rSV2byMQNP3hjutN//Tnci+41iaRGEW5wlhkAivoCDTBgGvWCM+YDXsCELUm2aLL13m1uL0DpcLs6jVKov4yiG5QCaLLqffLmdCyoFvB1u7Idxr8+o7AMIRPQRWFnnrhIktpz7UEwycAOE4yY9jDSOhJPwCPaXL/zgqkidZZONy7ZJYvle0VCEgVFBpeJf6NWnAxaM7H6UR16+BD7b3ra4zEv6dyi309WCVOstMoxZhQqo7kld1qU+jGRX9sIlalv8BZ4Rz4IuAQlv+fqUuSXxN6uZeAJMh2o9uWg64PPKtxyMWRREAK0UkvshoXqlcmEVxYMLh8jekEOVyDAyGahXJunu7DS9fr3B6lbabKFslpB34wtePFF82/mBrkoTQOnLhSe5VWfzJqehsP2AIw+QyDNA1wBJvQbYqF/4gx9QvJZmtyZlDvl5s2XGQDeisl69MOE1kGJUlHGezqghmYwnN2IpQPr5pUmluXslVSzLWWtShp3seMESnkE6Uijxil7sk6EdENmFCuqeP/naIf/fuZLI72TvYme7lJF/nmLpLS88uA/NRXJc7vWFNVE9pyYxGvHxKCz9tJK0q0KvIOpDhVRl1u21aKgiT3DHLs2skGZQtRHgaR7mmEBgyqhUwTykaQXIkiUdwf+skVVDYHiYUmzaTHSihFsx2vuWbAxXy0lrgV7Gdiz4CRgWyGquxCzDKGkgDJFPOLN+aBbBdhwQ8c1Nd0UM5SW4SFQbwWi2jxeBR1t6U8WBvPxcU1bqDxee786vry5vd3fvJ7p5pwVJiNSizXnB8cXt6tZhdO5KG+beX1788n1Eu072d0+PXujG2M6BfjCGE1YC29MZd1ctaCjyBVnSUIDn0lGTyIKBDMKo9beoAPITk14cwHIdcwQFLqDYVRAFTVSXOaqWrL4VMFtkO6qlmeFCoS1iZEqGqGalZKmlA0/uDDGVcFRxdfdUgQZRq6KdcOw5lPEOR2l9ZBi0bPbkfTWkrTSXfn1e/9pKlB4QCOGg1yzUILAksUZZLFamJIWBpqqVhQ2BlK8owg1iWTk7rlW/BAYzpzaCNyyJU5tY5K/LrdYQlkFKUpuP/X+qUVBKlVk88xbrQJFygPm9YEd0VsWvkCQ+leRPIhTaty9VJ9EkmRBGcMubXCUF9Yd02/WOX5qRUGhy2aVGZfatefHheMpp2G3KYh3AwoWmvDHNlkrkISx0+DGFJ3adTUyfZF5Q5BxpOjsk0S9MoIlKSh/LM28YMINxrXIV3LIgKp4BQr2ZT3BI4DSaXvrGhlkeUBS05gmUeV0V7M3Gf8kCWjIaBV/xFfJWlXtKG3adA5SFM8ZAGkc8OrjFURleWshDV8EVfHl47RFlg4ecJ78t5BaNQngI0Bk9tko4WRQ9qWuo0Gqoaqiw7CZYJsdLNmRqSytZn26u4YGttrwWt+9B8tjAKlbDY37WjcKliQYhBEkmBpIgEtfxrwtDWxAOAo/kspAPb0091RPNoSdk04V47daA/5jrBvanl9NOrM13xbA2Y7GZofb9+cXE2WrfkaY5+06DiSnO0eJk1D19IM4GRFXzCoHL0gYhrTBi7YWdeKWjEUFTYxyYicqAT3z7/9We6y3tmoB4fPnm2oKPt5cQ0SfATr/hrQimV3sQ/9HRJVzGJx9jtEauQu48jk9WaMD+NvrTnUraKPyQ5Ml2dP7VBJsuYpWFiqTGkthByZVNSZ2vPxxa9tnYUk9QaZ+Y6ploMLpZHTuXrCaeBtVsteFQ3ArLqXJMQvKX0M7WQW9Fq1/vRUWytOzJoatdfyfPp06chQ+MtRaEs0gvR63pSl+szVxCSLvShQVTLBYzpl6+tZ6u6DkZWsNyMDPpmumFQ5cMw99PR2uF484kV1XtLPRgThRhhn22uWdJaGBstplt3m3vTq9HNwbYDAFvn2S2+dXC4j3P1oRnJKmWJpVKg0zPFj07NK7RNfHhYwtkAYNqJbee1PYqpKblPisBoQ/bfv3z50nXvs1Euhh+SFWYSq5ucsYrtVKdnx/zZmHAbuwUYHtnhfOwT7P18SIeQDvwONR1OAngaHoAsIxPlYBPu6Y3SRnRigyt/KEp7qM8SttExEMQZPf9YLM2ICaOjo+bSTpJFFR+tyTpatViom5McpAj9UNazfAXfNMCCMPt3gCl5AkNoKORSISvnDclBVAg9ZeO94zuwYxPVdVmdBazsutSkh+Sho1DJBQYAjSeTAFG7eQUQGlbZhaDiG451bKMN/SvdClhg2BVDtMwig6TcBklIE4LBopZMAU/gnenX1NOcS7mWeuXPkKvcgF9yAU0ej8pTx2KbnmBfFUosUGyFeKmSWawwL05z8Ae4Sh1hgLNaaXoq+vwVnkcwlpNq5f1uyEMwcShH0shH3et74dFfhacxJGrVuhpRx8odQLc/IR0IQCDBYKtgA5PVrDqBz2NJQBSYzkKRqZKbuoORPlIiV/KIhUo4RcyB1MwyLTWbmXVBjPmjJuPhsyox0id3jqd5zi8XzwZOXPkb0lP4EMgDNI0silhDthfAMGmeXekb69SCfvK280SbE+2KWnW7weX11cLWa/YIuaYFzQDqnCifDge2mRVLp6N2+K2oQphMUdXNp0kVKISTe1NFp3zxxReQHFwefP36690vvzJP++L5y2cvnu/tZe9Gz5E4vqq65Fppscym6ZSXG/gDIaeWK4c8+KPKs1Mqd+tZe1nGQmM8mJ6u0V7oxHCQSs3AlZTl1FQ6GfZ66y1Vy0K8BSOotqY7+3uPBnPFWKe6V7IJW1OCABg+/vhjRDJXqv52fsvawSAn2/IBiurJXhiYaVJg6YG7m0bqWDuoVB1UXUyBTeokzcIxBHWV3MV7FnABVukVLFvVa/6QDdb+Nxejve3x3qYuwPru2ubhaHowt2EshxWySpDOu8t7Jvv2gIzXz7b3ZvgxHZ+vLT58/sH1yKbycze2A7q4ZLmQFD7y4GqGP7oD1T9QClqlBcDTABLZXEPyCEx41R2yOwTdHYJRZv9OT8+tPnz44Yd//Md/bEMTIfnyi8/oTN1NWYGVC4T8xcHb169f/+rXv0ozqg2ZzY3MylQzXOqUzkCy5pSn7uHgbw90cUmR8vSTp520SBcIVTvhmQ8i635js8jMba6srO5tdN1StQJZSkaqNIXPfwiXiCrWa0LKXLVEJdkSvn/TepNfWR3ATQ8PLe3ZimwJWqhBVnZJ859zq/Llt2GaKn4heJpKLR2a3ZrILkPOM4A1pCfgKK+VlRSCJJXvidSmUCpC03kJ5PHKieUXS7qWmFNWshKVJWeB6Qq1xUVb+seShMj0vtmr2n+s+geEoKEtF+sCUoZse2cEoew9Q2QNuTw5sRziV46OSgMRKBYD6i/jFa/UH4IVhGikHahxgEKz9Vg3MHGp76SpAgaRv/Rk/FHF1JOJbFNxKWbTWnMA2Oaj2sqCqdA2W2QDpMhYUlfE5iEKMPZ1SAh64KRq8egCqlODAy3KXA38mpDtYRzdtz/tewszT3h1l00fABTW+BGS9KFvU3a4O1PdE5LPL6Rp63WLKvcqBDWrHkwT1fCQS0KTDCV66OHn5Gm+zcK6nWXOhLvl1frT9u7Y+I+kZLuZXYIutXC70s3cHTwbU6tNWHpjOsiuaegx3o3kqo43g2323lRWlqlqraJZZ3Ukeyqro1Ak8qO5mK++MiWTHDfX5t9QnOuTk1yJ9OUXXzmN+8mPfkxbUfSMeoYKKnLoxZaWbLYMBe8KAqYWWH2v1L2KyIigew/XlypCfUFG3kOw4XZN24JkqifGSiTNeKSulEz7csFzhDOumH13cWUHnFvFY6f1X819EndzFzZVIjCcDXzEhpOKcfLEBEVemE0s5rAdtuZVVQdSjLL0F15czxjAqnQE8AuHsrFBNRRTOYw6wchR2/AEnNjSGJqfNpRxbrWsTKi6cclHFNa3pnfrO4uNnft1R9Luzi5ydvh+w0pqjSNtnPVNmSgmX3Ow5nPlcv2JjYzr7qcK8WsG1tcnF+eP9g9APXRy5ywVMSpW3hASXtAG0dwZZ/C3JHSR+YUruFdObKqmXvX5nD949vzlP/yH//CnP/0pAfin//Sf+hDX2Wm22oIsdbVkBSSSE0LtXXLzcdWvjhkixuBRVcaniA0pK09n3+k9OTH+JwP1LRf1ZclPRExE9E96oeWENVhS6Xha/jXl6ONqLiONEo3NUSCUQUhQMk4owgNtskhybCnllYk+2svkof/ZWiN1do6yMqlXvaXamOSV3HamZCdjSlKSyTXYmn0yXKqq5Js8Ah/iCxRRco09jqcCpeVRuG/rkY6smCTl3gPUYF9VCdQMPRs42RUDcQmwYP9ThnK9u0zDM+bQ5g2HkRHOlKYqyWPYu5UXxkoFPNQKKOaFqWFB/ROYmJgy1l2WpklClb6+zzeE/TVmTZKVJBbOJhIq7OZCUn5DiSfKiYsiVRFSTf7nL3aKAxNfpciDEEskA7UmXCpOPgUFEo0sR+cwJPquB7zlZzPX6GcDPIUEmx1duqJajnFzNhCFWRKLyijhgWuSPJW5kmdQnrZPovxlq7DjDH3SM/OVFskUE6l0pSIYYPHb12TtRDg8lJDFNB78oYLrPKOC5MNHDkgcHuY06IvnT1fX+zo9k0nRuiSOcCl+KinZ257mPVQv+eNH3cDMdQlSsJVriRUuQHRBaDnK5CsPJgB91WRvdHtuvcoNt1PfV5mUyvbNe3d4X86pPEvy+7ub1zbB2d02X/g+cy11bxjhmHdRdMgVqukJE2rprvOVqXJhiGc1w6VI4BJqLXilOsLhCGqWPwzkrm8uz2YuDncpONv/05/+3vOndrE9Nn9qlkfXmzBtu4cXT/SMU2BMrJpJ+4O1hqo2bjo2/uiRj2R01WrHs4sMszJDrg9OFWeuP90aNYU2lEwm23h0t8FKq+Tws12YXx0hxYF2fnJmpBSyWYv1kZuex+MjY2bvtaMYUVDqZ2UUSFnwk4Du54QN6SOqw6rCFCPCGeUWyc+xH1HISA2V3PZTHZfmC0WWGEGy8WXJqMSws6pX+WMd5IhSZLRMwk9gInWM5LxurLmYjW+M4G82bhwFMRjIKfpYrFjArISY5WT3aeeZ9a/D8Xx2eTk/N+VrxsXezVk1rrREIh/B53LkwGw4ahPoPgJykm4Kc6WG0gRCRQlD+0EmWTgTXqdE1dZ4hDx99uKf/JN/ot5N3evw/f2///f/9H/81zBIxUWzt1roVKM126me1I4q49euU0xR3ZkezGRgrLaOzMJkiMkNH0/RLcqAt1WJBlXd7VRAOezPsoTQ1Ea1HBmiF3FgqjmlGuuVZnCnPjvtzjF8LHl2iJwkGWSwv2yLtpIOb3SXIW7WeqMtBaSLQxSUJ3a11F5UlfYktPINmBabQb+/yIY1ZSxjR9MpyLlR1BZRpd2cnEC50YV9a9nHBTiHvaPEjfSiLNKNjaOpUysKkYQq0l+mW5BDGsoJF6sFW/Qg5mYrJCBvMlUybQlaKgwrIsXacN1jjTwhIgHoOep9+NaUCW7DBHpZAQAwYBQiLNlUxFpE6ETE3MguF4Xl6EmmuS3kQq7jG1XjV1CNmsOnmlvP7NDmujtbzEvRrL7NZ/Lb8RrqPpozs6Q5Jow88KjWcTN5fH52xk8G9E/3D49St3f3KEy5wv7l2TIcVBYJ1Q+GU4LNE8ehLHPoIukeab3aARAh1pkIje9sWUMjPtUaU3+uOLia+ciBYy7kKiY2JocKojW0FU7HN1vf1AkNm4uX0JzDRZBu5yYxX1Zds9expnwxNrLE1MbapldkgoxIqUyrUmln7gR1geHE9QU7jy735vNLLEkxUszMWlviudmyJSVkUplpM6IYqrkGff/0hSMrViduj9+8ffP1V9YRPvzg5YsXz588e/zJj374s5/97pPnzxwle/3qa2My8/WzKzeHzhxdSl3bvUlbMR1jGmc8u12cnp/74EUKbgtEMVPp0hdRnwRXwRejOTVuCFV7jjFH8nStwiIbba/3JtOr06uT+fnnxxsfbu49fvnxbc5UTWwONNy53R9fX8xc4eoDV/cnl0ePD29sqtiY7m9PR9fr1hA0iAv2VwENIDamX7w7Gz96QhRdyETUEab4mOacn5v7wzh0qTStLCJh/il6f7q9a5LHLoBv3rwe7277vpXjNcp7deESw3X9gbOT83dvTvemE+b8t37yox//+EfvTo6VxYnPy+vFXsqCLUbf0DG9vXsuig/yd6/fshb5Em1tGDl6dEDMxGk+GAcWQ7Lktpbbb4mEJpJ709XljTnDdVThA9GgULMHxd0T463Tswu1ub+7h5VkiYIipXtHuwpknU1FRNDZJ/3qtXVbSBT2+uqa0Y2ZvB8dX/iSWVoltDQYxRHJXG2YIqkon+g9qEGiMMtxQKpZO7L25StoWEpjuDufCpq7/dY4IlfIG1fd+z7WxHnt8EMRs2f17irdse21DSPTs9t5DqnZqmefzOXV1fHFi8XOk8nho4UFXiNM18PcYo1+nfulrnRKCPX6+uF4/XRzcfho/MvL1ww5LeDIg0Wiq3dvXftovw0W5MbIi4voExPCVsfKPX38GA2mDrWFjL81otyJxYzlpKknZYY/FIVWJgVpEaRKTIgopu3H7gn5P/+j/3bPt+qOjuwWsVa4ayvO3i5g42BThUSC+mzJn1+6tPL8/OwYB059q6zuEXXSDmNxzFDvk08+SUcgbI3See+gowW88wyhDWPrSIeQMfouAKVU0iNFfrR8kqye0b9EIaPZDGhjrmkRfRUftyM6xlvAoy3oTFeYmHo1p1rzkDDIEV2Vb3AWjfCrzfgrPE27jFaB1gxv2cx8UUOHACSNR1YIrtWbDOT0GvpkUJVMsaXEbN2I2ksUPmRXcvXSvZBY6i94vu2kKrSYGT0OgEMczvYr+mOsOGq22CI8w52q13TUiLoNuG509q2coMkYCEOtEvAT7kqclRWvjV9RvfJn/s3abA3M7WvFM/MaDzvg0tIUJCyfS0FhGUgZRZvHHgwEL9nY+ENn+ar8WFsupX/vwLx/SU/iBq6ySWLiwj+5d7GNLIrDFaE6VDexzvCuyhoRVzqFysxDTEb61HgotlCtaroybXIQz9HoZCfIm+LKJfPfaAlfl1RKglf+wQwy3Z/SBabC3Fv49NERBUcH6cppN5cXmXrSuWRkhKBBRkJIsCdByrEk35PK1B+h0Ojv3YLz0YvnDo3+8Z/8XTvi9g8o0003+7hpZuPJ6GZ/8ebdue9QTjfHGqdlLR2Ra1siDOpCULpW/sgbCdJXQFuxLsKW3KmHlKMFnlLGHCYkLSqsSEdmtOOc0A69uXk5m79xB2uWcRZrt+Z8MvU3t43CkWpaRJ/+0pHbjYu77HWcOvjgs4S6ght3zvLkW2jac5HCDPgWJvaenJyqiC57sqt2jcJ2w2vFLOsx/TbOprMtp9MIMANBOLPqfDs/dVH6mzdvPvv807/4i78g/767aPD64YuPGGPljUwyzKkg3I7YUADqeJVdFEtxo5szmS4xQ3b6EqVn0jrUjqvyHKW6vcoeE3iK7qgZzaGWYrJrPS69h8x+uv1B8sgMkNBgHjGbWm1AzLkxvUl9n4N99iLnoFnhmqKMLZGdmiTpJFty9zBHjFN1xljVVXJWqtalEN91Ckq+1R8xIWlmLjcXBpGe3DxkIKyqPUbQsGq6MzHLF6ORr8dfRQbvp9aolGx/svtk49GTrUeTk4VvBvvAjvN11syoUpKVTqVrFbT39JjvdbCIKxluHqSVUMsKmQU5/M9n5PQITJBmULUc8aS/klqIYkM/elRVGoVX9VK/UKeKFF/gKjwrnbv7e7ojuneHj598/fU3WEc0mPw/+IM/+Oyzz2Sn6UGlXBq85GqS/Khjl5KcnxzP69S5PkeGi64STkO26lmu8xv8/Roqvu0AyFUYsuTktekTskxbP17FLp8B/w0OAPHMM8O7DG2CqvXPCvkSZ6XmbyxYydNRxBktA3ZyO/iDDp5ITnR0dJy+YdZmNlw/3WRC+TCLIe1Dz5AvbMIHeB4hsKV5ttmuZNFCPVJZrUh1mmWrUdzCoxQgiebZmVsvIfguHmjh8VTx6rVz97ycZ08a/nqITbi9XxlvLWWoKAwNaheNxmSZsirXpCazmrEMnnLg/Aa6nvzQpmbK3vdrE1Dg33qkIMpbCh0GTnTqtlyHdKAAHlmLLRLS1xHStDVJzb1OBR5AOyk6UTNEEigGPCF1JYo8nfXwhEFgMFOJuguBrOa0u0tZHJTFMrVQmC9cIXpxucvWFnoJpQNldiQbalxwmk6QaRcjyPH4ow8+/ODZs9//2e+6WSO6RRfVYdJ5Nm3bXejDmA4ChX4T8Tt2xRqpzN3nZ83ANQS2h+cCSCLJVIRmIkprhEXMV9S0xpGJDTSoligOPC6+ZUCDmCBG39X87mymNedrujv7B+ub745fffr6ze7BvgFJxmf5mFb2A8jNcOdsfin59V1uMs2NDlub84wm1wyRRtfuwB0fHB3Sx84HkSqEKL+kcpdds7Q9nu1BcAuz2K5WtUNiBWLC0PWmpxBL0Z+e+YTFuW6+uYOqi0hao+pn5wKV2JYj/gxQTNCsiJGFbXARsvBPTzj9CbEaTVSe+6WoXjcMVa8uUOUaM8JihHwKYDzRuqLb9bZqVjOZZqeK6nCnTBp4tQPkoTFEyoJ6JRBesdEzoxOcKeaIhdlAHx4cAGkABRh+WTejPCU0+yytKGkB091FkoAMI8Cgh2mVG96jxPyAWYF8edO2XrQt1gyFbR22OGxOfKoLO3Wflux8bDvTp9ZOwhGnx9WCmzhGN9+8Ob2cmJpmFErjphfOZf8k2thgk2rnZxc+mpbOe2Q13RqO+U+hFHDZpsPMLg6+NktlJVAxpUq2tamkefVv/+3/9N/9P/8fruT40Y9+pIPoxJXdNz/44Sfugko3vA7UKjLBmLkwdJ5vhaua6pbBo5VnBwdPzdDX8lNn2RRUZikIVEN4Ry2fResAjMR2kgzFgIRLSNFdfKFRBNSWIMX2ormav6JzMq+gJ5D2x+KrWfXXqLzAwy9lIlbK9Fse2QJpiSyxDLfKSTU4AUWU5knFd58RmtIOq6dXYAl94DC9Rl+pDLFem6rGBlBg58ITmFKrQ748dI9wyRoYedIKIZGwaW8Kz9M1zcOJJcHg05EvDmif2NJog6fsTdcRTSbrXFC7KiOBkSq7AU0oZphp7jCy0RiANYNQMrjOxVPK4P+2ewgGBlCHBGpVNbwCE6l6V+aqQ5JkhRatyGhK3geWvDUGJUUqhwnhXrEXfDRUfSGC5uLHaDCFKY8G/n52jdMzMGoitEevRcIwTS6uZutvF9UGYlGQa71qh4a1jV5TUjI1Jq06kzf5VRl7h4eP9w5ePn1iIEUzvv76lX1mB0f55paq1Bv2FWV4THb5Qp6Jd7TpO0y2p2Zbrs+ijzJCg3k1PKiVlnUTtTRJgMvhQJkrJpDK0LExchBm/ekKjJkzF6wfbWy9ePbyJ4+e/dbjF/ujrc/GO199+bkBk2VjGo7cZyuBz/eN8xXmxweH0m9jrfkrXZrx5q4FgJ3x/PpscbE+3Z/++Ld/5+TsdLy/69oiyK0zyUgSrqlSyR3iGZ6UJLe29YpqkBiLD7kaqVqNfI1W3717A0BUdNPsamd3YnTVGDwbm2c7YAJLb1teMpU9VhZME6TbCSHLgqCIX+1fUHGQamRspUmtFZrlr1QAkrbaCL8q4lfXYroITSp6a3ZRg60RiFANdz0nHAJsMIWGGr5nrHxz21vSdDvk1GMjzY6/dwPOr97rky5MyVIKCyFXxdloE4h+yEVhneIxV2I3fRam7kL0LeM3b99ZorS4tn27fnNxO3t9dXB/c/V498nkaHownq1ntjAzojtTk+QuF6dfLOpc5MzV/IuTL29fTFcKlYyZy8JI94DNySICTJlG7N3y6v662giqCmidVkEoqSpCXeno5bN1ekJUumfTr754zk8vPv315//X/9v/3YKC4ZRJ0T/6oz9ktP6P//V/Da1ZJcVniDGwpcXYUaWghJNZy5sQfjWlyrjVLNNK1zRRovErpJUT2M4bTvN3rfMkpBzsAtOsV3alwRrD95/AMtYvp0rVTKRJaBZ34iQZnu1phJ6NLZ6W1Fpm89r4JAOQ1xVk0MWl84pO4bJZRQZSXJUsiPk7gwT6qxd+7iHCUFqV30mauWCWJqW5UWQ0KaKKRemQSNipPFWVKYimqqtEbalsT2BiecgroeEH5ugUVHDy1/YTFimc0xwHnLq54vylaMx/tAfNlv3N0g4uRX3olJRYOHtTDIEexmAuBxD+dgJ4AHi2nLRfQdjejsLTFLJclHIxUhxIrrHBM/Cww4FTCly0Ubn0cdPJCqM6SoeP5TKSLjzpLQ6FkHzwN5F5hlvRkpLAVcxKFeA2PtfciFk4wylnvOxCzlcnbm4yvW5OTI76E5dXB67DdhWp1Ti7BNh+K09Td+1t59W9cOyYPqMdeaabLs9NwJ9fXZyBN/lMBVzZJFZT4SFD1Wfx1zGpnNPPpKI5/u18OlYxo58yaaX61LUCUtmpBOXK4LCnshzsNXK4dp8hCsYXJyeHewdQnM1mf/Xpp+Ob+4t3JwtWSidle1w1TufTyDRqbg1AE7Ggi2WWYUS1Ax9ucXfIZG9/8uzgkT149uawDXe3b07e4JLcoz2rusPP6n5lqmrlmpkN1mFdm51EWj0M5ur4+C1IjMV2M676V5QRf4u9cPWUZ1WiVB1F+FW35R09FlGMRA1DVXqWHhpYRlBRf2D41bW3UJ5RcihHtqw5r7Lw2nrQq9waALyhUoxNBmwhI2myoOk9k/OxLhnIRTXLolCl59bIUaupqm03MUubL31kuJC27FWS7m3KnK0kGBGScpZs7OUBIAQFTDg/l/GRmwWtdVmZU/WjhU+BnJ/Pjl+d3Z9ev9zaP7i6/9Dh4BoDZ+naktTO+q2BcQbOqMjFFZSIC1tvN27PL88mVictoSmT7kskHiesqF3SLWYX3Aa5eGy8ZsZZXjmbUVSk3fGnIZRd7wpSZK7qKsVvJypk5xnUGIVjk53pV9+8gvLJs6emB/93//B///yD5+B//s1f1nX1d/oW+dJNvrDl28vTX/7Nz53NstxbOnJ5kTGytXqVG3PVFKR6ynWuXr/vROn6fydcICewnyhGaMPAx98OxW57iX0hcyw7YdJYNJuSjMZBWGpmMKkGnIPn+/lKaqUjjV57xr7qkCAFu0moEM9OhSpaW6OFramKHqthRgM0Aa0akmNXRRUqScsVTKqEg6Q9noEvx1MsfP8Q3Cyg4xIKcUF2WpWEzKIiuMULVzeKD8pToyLS/CA7F1+/5tE1jgEz12ecUVbTaEzaVW7Re3idDJ1erCUraAEoPxo42strch2cQDVS5ioQ5WDg2g+wRWQZV8zpoieqXBMzYP42ZHIU0hnyAOYaZqCiUXW+/RSC2BJZbGg1sewWDEgGyAG5qKa8o2RdpY3hHGpJ7lldLqr4Sz8aedMvd3t7h2bXZeeqs5ubR5KYo9Bs3WOdbsCc0lzLThKE1f4gHvgZBp8bz4ejfGbILZd3I28m44ycLiyjX/pw4n13fkNO9o5pq7FYfFlqKNXWDHn4VAQqg8ZUnxSoV0nUOIP6J3/vvxqdXznec/nGjpOLcUT8fnqw6yt725bcs8EnvRefH7T2cnM1N1+YTWsQRWcxr7Qi9Xl9Mp8dPnuy9fzxu9OTx3cf6aQbY0GILWjD/KFeiq+saKhHpCcHIBoNNoOelXloe0NQuVZ5Zf6jyAy9Dg72DEH4ua4jBetcuuz8opQaYsk3xzvU38lp1hc54QQoLcFU9IpZyGAajUAXTqOWE8Jl5bxyEdZpuxe4OQaWVgYbanl8OSMgwaial4FywZDzi1PAvribWSOjkKwIT28yf5UpU2mRZ6XLcou8vHIu+gPpVVmKT1A3XRF+hAlHT1s1hlkDE5KiIYLxvL/zGS7q0vhLOOek/9Qm9rWFz4NMNH+7LjZu56MzFC/suNy+Pnix54RCCnuJpti5fPQvc8UjtyOauRDFkGV2iyyuLcgfMqyPEHXdLwtZ2ZtUM4oIVl5P+fKE6avJ/HCnXMGkgGjmr/aSdtR+IqqbIi8hzgj/o3/0j7xK56PPiEv3s8bQ+uO2VAg3LraBUCrTkkZ77CrDl0aWvafZuEnjVedNEwyr8kfm/LUNaJpCmv/F54j4wPIKqVLUZGuVrMLyCBjrxNNoKyL2aqnZlvmCCPp6A4J3EoaTOFIKJqyvNrPEWXg8QtvKLxctPrLbYmFqbNP10nHK0oDJdzlmh7LksRAk+gEBK5S/4bdL2lnzqxutCBOFeG08SG0wz0axDK/XRBVwx4pqKPSUP0hwEdnFy5RPLilFnZIDdn55mbQ98Nq9RIAlE7JydLBXtd9WLVlD5Zme8mphLDj9L/kr7dpvxaCG1h0tJyEXalduGd8RD57kpP9CeQGHzzWMk1GkCPoUbumaPQ8QhE6QiORRkFWGyyIIj7OXD6vZaiORcsFrjqZzTOsmZFmqWOWzlNLEVzkUC1UwBVB7LP54NY7LLhxhymFoSdfcumPS0N++jZy+9n2g3en23cGeZjzd2Xa79ttX37w5+ZpZmBxuHu7u7PlemM12W47j6iha3FISM3ZbJ2/fvbs8nV1c3m7cmY15eybg5MJF2lP3Pjx68eIlm2dKhFLz5XpKVq8ibIndC50I9kR+OsOjLMmYLfEqMpVeAsMa7Tw5emML3tWlSf6Dl4/dnnR1fnm9vnazvWFrtrsYQtHI3Mv9xWL09ux87c3Fvc3ud6OsHbguwWWvZ/fX4/W9l89dbLXz9MnG/s7B4R6C2RJ7ID//m1QeSlCFurCz+JktCeVrhld4jSGyqvjetoklljrvihllbhNNfXiLDLYNg5ZrJEQhHCingHByLRIABLdF0UsQmBWr2pVAE+tfwBx1v7ZB8WHh5emJwcrUh4K7gRXOxoYMqhAY7YpVcri8OiejnZGFfbsYbMtRTsIoUKaWTuCvGkFGToZ0dorQlGs2clBwIXrNGABAdmXSMtmFVYW/GRhqQArHGeA4AHmw2bxTX56Eiglw25NbSAiGGjfqenRh9zpx3bZDaze6fXZnXWnz/MZKoM64A0PTxdb9Hltjy4SbMEy73I4cUrg+v3X9u16v4WbOU6HF5ksST7iyBphr5jPQM4NIlDnNYVkjNfREOUWFdJauK0LRuAfVFevbSXjAK2DDTHZ3zudXLz748B//439skEw5/Os//VOxe7uu4zC7ndqH2NZT3Tn7RfTAnj97YRPeN998bSVYB9GCXQqnRkxoh3PfczIuapqAtJ+mEiBz03Q0DD/iuMqVGa8m9wBhwv2vnyxZxVGiVadUjt6dKiIipIBzMNsnLUpSk1fxQxZC1F+T5Pk+KgWuG4xKVrJ8qFg9+ZWblWmb5aBEqmDJto4lHxvJUC6vv9FJ1LXSkF7beUVSdOg4nyPBgYeo+KukeeClVxDwM8P0cTEs3T1u210q1Uj5BwKkqsiUmt8ThgZQDu3HIn489bl3m2GFvPoqV/1bbvFEFMKM53BC6uw0wQoqfzUZmKEVjCtxK++ylHIJr77dyB++ItLrkBa84niiM8lWtdMAA5hUnYtqaJgubAcqoEYiHJKH4V6FQ45yfG5uU3/gs/LzQCwbfzpi+Vs6gUVQHqFwWXySFioBmTMRznWmng8owbMVovq1ICJjN8QubLk9O93JsaG1g53J0b5t4b6UsWcpTJsm3DvjLR/SuNAzzGlLE15ucD/LeOX8JF308aWZBvc9GIedvjumJnJm6mDfDCPReHx4ROFfb/UifEbSfZMrJqtlm8ZoOUQilc71Lfb/y//rv7u7mn/w6Oknz17uH+3a6jbKFrYt1+HZIj87Pd3aySmGm/PJtY/HXxxfnM3sPnORoIkh8mFO8jJfxrzbejtauz59cnf120e/R57hh/zk+JgHDQ9ZHW5yzdriMAaGtqzG3U/sBSjXqVQfS0wpewpWivQOVsJMVhvYU6CcZMd1DtCCZ13IsOkym9vYGMNXSyvCY66oHeTpY40yt2azwMbGmZ0Qui3zi3OLJY8OdyEZqG0/hHiOe6T4bnSOdpv+ESgWGS4yd9cH4SpFvTm5ymhN18iPZof5LtgyViGK4DFKb2ZZUoejJ2NGxdS1ENxVkAyZfdZ4mo3seJTiV3fEOE5485kZF4sqdKYrVVZZCACi7vSFCVCFujg7t0/BTggflbi78LXojLZnk9Hd9q57bdcdErFMPd88+2amqzLasBnkzoWpZhdtr3kzOzm7ON5htoyrDNZMuFAMaKtP0WcV01ycJczprsueDepskVHAmChFQLCOoYaZDsqqg1hcpc8QGZ220gB4IgQ29N/P86EfVWzA5OScEP2JTz/9Gx3G3b2pi6ky+VkZPXn02KUhgLHlz//dvzUB8GRxb5Q/f/OOeaMD0tFcmFx3xm55m2RwMeyRubINCBXVTggnpKQ0ItXhoamcWH5F8kwJSy4FOi2juVK9QxIJI5n2YeZwMXNvtBq8urKpq5pTBsyFQZWRwgtHmJAO9Ao5f5PBADR52IsAjmqj5wSCBEY7V0aUbMwAySAoISp5x0WMckJTgrBbeDecJA/3l8UkPc0fMDB47bEt6QcJT5PE0xR6cl46xBN+c8pNWDJqllYxkN0hXfeiKjiPDimaQx4nI/D2YCuLhgfganF3cny2ufWanInFAWwhBAdHjyYbPouU/gcw21wj17bOO/kITjYyQmBpcDBpIdV+5NKv7elnU0V4RHEQ0qKS8IvCZIpY1kG6no5c02kvb/oQpkOrvA2Pk4oAUHaBrw6yJ/qFc9IWWmWhA80FRLUhA2p1J4pgaLq9NQtO5UjAumvxLpAFIDe9ElFd5aiPnEWVaeZeq9hgVETOmmiP6ccwdLUigxVanbvLHQ6z3ZkqmTm6ls717pNHb1598c1XX9p49pMffmKfxccvX+zbhHd4YDOcZaEIVqYPnMF0oM6i//jm6sJ47TrbBLO2XBy/Y7bcir07nuhVvv7qawQePHmEe3obl2fnhkOWxlK6TR9jPdQXcnuNaptMH2nqNA4u0Z7qTKHYbitV17b2PTmwP2dGdrfWL5hILBotNh4dXI0WBh2bTw/PX7157Vpbs13TycXt4mx9sb8LyaavCaLZ8NCC2/mnn/7wd3/bLJe9kOmw18Yt3CvKw3xMIMNhZlkBTE5ITX3x24IKhgB4ahTmuNQmhQWelIIT3tXqF5gQZekQftUSebrNFUdyVI8UNI6+ffvuq6+/NhkIkrmafvwRZbWbD0KRROYqNQszo3h2dmGvPPpHtzdOj+ESJkbSsqQVJztHVvf3X9kcSg9ubE3x01jYhUrdlqsCkZXjXHYXwpQFy7u7J0+ekXfJDcAzmN7JhhqZIh8PUK34iiwvRjD8KVV2cXoGLT9I7cny6zBAAUlfK0j2a1QLUnatUxZYofh29kKIUarexcVGw+emZ88viKUDYn/91a+eba2/3LvbevJs9xnGZ+3q5vhm9/bg8htfJnSsxXlnU7P3B0/2r3715dns9LcObE8l2DbezUzlGsebhfMRLJMfaodjFMf5kF5mTs15qiAF0b3Y0aUuPaYMeBh/NeTveLpBpR5r9k8Bjc5/8dkXSvGDH/zAq+uXdDgmW2N9tjSu+ppXCju7Uk2yU8b/4g//CGNfffW17Z3nZ5dff/Pq/mDt+cGh2swJWVl2rigonq506Oo1bC529xP5DS+8kyjRANMhnkol0IXQ0WHlSsOURWD3aQeixrpkt32WfMuAx9y7ezeWqxqGJwdbY+in13ZeRTRMBDETXSxNMTSZU1F5Dyml3LU+U6Gxcks7Vz2ZKmYjlGIZtMrif+a3Mlg+IAwxVWoNYohaElxNOshFvY98kLZCh9J1BAmOrEQfZUdcCUFsrV20jWqgbUBEXCBR2f1kFX32zdK5GqhOSjoqHCQqpWdaByTtaRo8+3WJuX5IsMCUoZpT/b4XmCavhHnJioHIxgmg0TbOLhp/h4ek4huYBuhXfnLM79lJqgRLvSm2kQ+Yh1RdTLIAM8aDFELIVAUY8KjBLkpmnA5bXIcPCNsjkBOb3F0Gv7WRrX4u7pxuP3504HDwoTnYZOPynjGlr/cdrO5iYH1n+z4+dXK+9/rsrSQ68VbFdQscgjHuNQaZn104O79j/eTWTnIxo6+/+uJyd+/Hn/zw+Yun7vwzxf/2bb7ypXNak1c0jJLQzjoEVGSKUMuz99eWx3w42Dd2s/hIDRiPpkQ3aqPaor6ew8MXFte200x0U5miO+sUltpHDuAujk/e2Ac4vd9jY6grGt+ltDY9Ui52NLeB78pqbkM+eMK+4vDwbKbh+VBrHdXVVwl7U/6yi/YQGz8nL2l1oKl7aNTB+ibjOppfZzMOPA2T/uXI7OYdsP3TC8YxVxRuT5yVrvO5tcWugMF3nZLEGINorSDhNBnSAS3j6qsyFUZOsA4VOirhz7vj1yVLRGhhIovyNTZneyjnqI00GfFGUC4IweH0mMFgb65KKeFvdoVTJWyBrnCviOlYnmZaBL5HWrlWQb+BSWU4xOZAfEaqu0ZHN3ebs+2DzdH2jc9y6lpkji9X7eYQC7G0QGJmZ2Z3++3MoOFat8RUlONW2r9TWhkf5AT9quORngeaFQXdmIB4PVmMCW0ZRIUxEblqO4ApvCpDHgFeOa9gFEQpnj9/+vjuiZhf/OIXJ+/eqiYlsZPC+FYgHefpzGg7ufvIgoHX7/ze77/4+MOnz1/+T3/2p4zW2B0tthV5yly2qRyNPyO77FkIReUPASE2pPrDWUQ0NYJ5wvtid5PbrxK1PLEQOUVn/qQ3HECvW7bEGLyFO5kMTkKB4UzRkyxLHPCjYby+p6e0myTWSDzV5bJ9FBcGnDwhnvXKgDkuoJpzI6/fAXnjH16lTEhR9BBhJV0+hLcPWo2gX1OKZlGJQ0bUwJYKfwkvlSQ9rByQB0mJb+NsJJ6rXOQgBYEcDEMKxE6B13jVnR4oJKYf9d26sJ2WnwOmARlUrBCGMK6zUI+p1ip1k9dkLOu6Vi5Bch1rnB6FUbJPR8s3cl3dheAc5o4riZBO1ZQMmTbyjvVs1/lq9pJalS2Lldk4aQGEB5nZjZJo3jxMFYCITfN5yW0/SRd57zGBpN1UA15RChI00ha9y4ejS3qc6s67DimL8NEHP/A18Q+ePZ2Yk7nR/mOElJ2OcPof92wHNk+4dr93+9HL+89v3h4fWyJgnLMetnAnzvr52+Oj3f2jyfRSKr3XG4dofVjv7nB/18UNbn84W79AhuufKFOfPDRGacL0tZORQVUUR6oYsxXEjvMcw7Gs4c6qmhIQKInaiYXb9AHHtUsF0QrMS6V37S53Xxc0AaIDmqUyz5iyGs3Pc1Y6R1M707SslYWoVpv2JApDPDmpODAcTwfyd0VX8PtHxYZdXKULY4dUPF5FMR4W5o0FdNhSTy4WUHk1Yu6Ey7wrd+KBYKMrQwTXVVAzjvfuTjMjx0nYTjEpEmrxm9fvdOgtTcrt+sbO240f/fgTrI4EyKREGnsp8OxYMFpxuUhN+Bcb6nvTtVVghfgB/jqOo+BpSqVKxUWEqozCusieyy6pj0LXuStGVNYSNisabL2NS+E0aWmZ8nZhp7mb923juLRHxg0lei8qn9o388qq5Xg21vQZ07v1i6sctrtxnaNvwVTnz0RCxN3XajxKr+oPIIa9ntSVE5owFmEp1nUNpggFuSznqt4BoFN1COdf2v8VWmlfPntuT23NhZ/q9bio/ipbD+926gMIWTB2ZABT9LFsYr++/X//f/6/bq/4gz/4Oy9fvvjJ7/wOu/bq1Tdav/kCN2IsR1fNIPkN7iFZJcpL2ahGEj+AZuiQpJF861n9eXBdGMmIZ2GuziEdwAalx+kX4aYETdQv8cHTWRT8MveO6yyEx/JVFwm/4nQ/6LIYowzgaCvIMJLEaY7ggSdu2UjEx8EWhA9y6BBPYYkaYAq+H8FWrslrnAIehuObcEE8PZpp4AGmkQ94vIZ+NK+OEAqRlugI5OGEtOtUDeypuofw9kBVIpjbifCd2rJkyWbDHr25cgMeHoSljWVa5n2pAYpKoLKs/CCb1I7tcgHzWpoNbCT4AVODfJVnELbrEMBdNIFCOl1HdS6eDx0wWsxTKm6Ab5wPs+X/FhEN8eDZYxT1M6BKCTJvE22E892eEdOJfF/e55x+8sknjx8dGmyZBsP6dd/Ouzo3V2ESyZfor03aUz13pujunx8ZGB1/NRm/PbaDjXjTEYxDLkZ/6uPIJvQvLp88fWqBwl00Tz/4wATRZ5/9+u3r13LOKC0nGa7Ozk4eP35Kj7HVKqFYYc7NiNMS1XLR1AhAFaeCdIxIUZpAy3xYivj0Y8Bk9kz2GoJRXjaf2DCWb2xbMHMHG33lRnHzTrUJuy0WDuSbS+Wgwm+8UssPuJgsOCCewpvp/EjtwCHEayV83xIbPgBLHi8RC+GCF85VLbJhejDQlpiIraxrmteU6du3x1qPj8Tb+cLW7EyyIqCKGzE8csdYgZYSTTK724jhv5q5XSLiyqhkm0HplXSIfJB8Xdkz6+NZSpVGiTlRL0WDDmK60UUp+tOsqsQl/EWzHBmDdmIx09Orp7lKSHZ2sXyvFt423HUkqkWutZRGDDl59ySNNr3rHU1GNxbM12Zz56rou/t5jkvRbmu3bqAy2LS8yiRkSUD36Gw+OzOBbD1VJ1gx0qPWOJXTCkiqkcQojk0N6LGbHL34JS85FrX4EBK8oQ3BRc9SIUiY7mmprIR3DykKPUyGxM5mk9Ckmq0ySfDFl5/ZXmSXoFgVZDCqeiTnSB3mOaVuhvQ//fznX795TVR92u7xk3TFzr5+pSeynArpBMOzCfKEVCAPh7+eZFUIv1J11PdTDSHA2nUIf3tCK1OS0uUgjI6e7l46NjmDvxLQAq2cl7kLkLDz5YctPOQKq/BlZvWzbE5Ze4oruADyd9qloFfsCpvf3+A6uYhOC9UA1GibS2LRoJbENjFmPL8P2UlQ/jCKvwhZPsAMxRmiGj5trzIqUJK3NDzZjZCyBm3mUbLJwm66XKYgJDRXbQazkq9Y1cgboAlrOZODwHYd3v5UXEnCEEXY5bp8lVGVPS05d+os1QSK/aUbEVUZWEiaafxKCp5kV4mWtdPhoiCExuaBrDS0JsilnzJtNaGwIbBpiO83OOCtAjQ7/YYlqztfCWHO+gfhM0uaGbbQW5s/0jeHL+o/BLhYgMUfHT46fPb0cfrvsyvzUMLNvt0773K3BdSJojZX1o1ty6IvD8abR9Ptr7TXuxt3EmiUpp/c+31zeeF79AcW4Z0PpYDsEzg9Ro+NaudnNpZbHKWZswVAu37z5huzkYxKcckqUbYwmNAn2UrFFGFE1t+QHp6RCp2UHN1J4VdOvMXtzBjRgrUxOP0YJ0HSSSQV93Zn2Gdv68eWa/dsbZnu2HwYDqxErjEVDatKD3/CpY7CDR6vyG4wzw4RyPF3SD8bvgG6YtrfapE0GvFk0ANaeWpE0qaChYoIUUjawIoAep9A1WWG5l+Xp03lX39pnpKgAdpGki5yKVb86JBN0xMpDz0Pq9NoJgktcfk4y41BmCfCrq/3dUfS6ViYH440po4KD79cwFRGkY0VtYHCG1FdcKjIfCfkt8ATnMVtoO1AqhEG0SE4CbmwSwkMEK+utyxiXq0vjqlMg0Szyxt3F+uXJyZVDI6MwW0Nmirsu6ub46ub0f7e3Xh7bjATutNxKkG5ywJlVa4cEeOcrhJkQ281GexPprlePCpDWXiA8bcDJoTz2k243rIg7TUlsi3GucPrG4Zwf2/HyqKF280PP7h0zyeHJ5kCoZ3kzRjPP/7oBy6Csq3z6zdvffydKd/e2TWdaf/Fzu5+aG3WeLYw9XMIHMJ5AlwTLGgawhvDkHZILjxUBOu32kxEMKeBqDMMClC6gWVQdAkyqV7sa9bIpWu0PVB5be7EX9LKk7ySy/uy4LIkPpshqreKho+rroEoLlFV/DyrXFG333YN8O2wvCVlpUUPN/iJf8W8f+DrkByRS7cKDFxF969Yb55em8nY1YGNZIgaAHg47AJZbFhm1+FoI28xWuLKWKi5ZmADDLS1p1sd8ZNROxgESpLXDFpT9qatAYZXkEJE6ig1fOPkVx32H4EcOYlZwh3/CpXYAFSpeRphheVTTcLbL5xrnO0RJVOuUXkK6SdP+xs+L6mmvEnbCD1zT4TJlbRJBojFigOgpVEi5dLwBlTOAj853Lc9Y+b8jRUoOws2xtczGxP28gU99iD3Wc9y4tT4Tzfser43Hj8+PDh8t2sXoL49VWEKz8ZpX8r7P/3D/8Pv/+5P//W/+7NfvfrS1Z+/+ur1J7/10snKuaPFccmaiyDXFgZd45qbyiVA1nWsLdnjl+M1G+v2s4AkBhqFW9hspkez4qoSJcJySQyj7uaLbaotJ63pYZdi3FIc6tf2cmDW1ORqRJl73JRhOccuaQgID1d1VAqt2naEIvXerpstmW0+S8gjCnLPcL8cbH4923XUg/gAdSoVYZAnpa12qinntV21EVFvhBKRkehQxYfNOwBbLewdSIkybjQ7rV0SpIBxygg/eFVF9xMxph9kxm23c5WoitSdfXPwbY3pDwtRjINSpHUjrMnuIsAQTVbNBBhVtvJHbMK75l6Vtye3rQ4plL0kSL24dPfxlqEhnM5EAPYayaSTsi3PVX+5TdbeGfzSYaoVUMbBQouL1jfOXtnn5XsOqnTz/nLNn72hmpp1IR+PvL2fnfv02d1od+9wc3pwkQ3KRAi5+jaZcso5yxpL4Qk8BMnTKBxzlELR0ilyrW11c9HGw3UBiSU6MbwgY/ipKqVAaIN5KotBlb6AtMquP3EzdwV2bpXTafLHg6MwZLfk3f3r07cb+ZTvKMfy7ZHZNvjPaXc56YAFC9fC0XnwcwILUTLm76cQgyGxDSmPhmwAgUKSecldJY+m49JrLQUNQDu+ub/RVZZ4QxeZdETHZ9XSs7dGdNbQgm/HDw//kGPIoH8zInufqcCEFyWSwJOn//X0GhS/qeV0ws53aFX92s8G6Cf8hTL4hxD+oeBiVSSXwJWKBznA83CNBL0DksbQ9AMQrtSdHT8PV2iqXIWk03ZeuAleMDCJ4ecRpaNs2tr9CWa4NATaL9X4IPmAvNiDqe+1TIdA1ZSAVDavS8gS0MKUTAWyBa2zitRQhwAhmV0JN/Ix9QboTAU2jCe/qIdOYjibmzINhqV08ZvvSn2uMgrNjW35rGbDzxVMMqq3PGFrpx2YDdMI0ijiz35Cygpuf+4tzaoQIkEs3Jc/trTErOVeho07q1DZweNGm6uLdWddaqOjfr2WFiuiBTpcvLHhq0JPDx+dXM6PXXTrIOn8xnUFL589/d0f/2RvZ6KDu/OL3WtnIXf1mKMjdHIpspC3vCZNdwFRDktu6qq6G07rZrAyH7i4981aXE+S2oFpk0VtDDRrYSUzRQasU6gIPlRBJ5uB8maK/A6i3LJkQmbEAsg5Tcxkkq1j1/Nzl7jNriRrLoUD3bJSyWZFljMHGFsBCeTUHXge8FynlbBdh1RdLDW+EFFC2tNgXmlzSOhQww77A1lvWy0gZ0quHh1hrx0HDRwmlXDS/tSDbr2C0PEmnWAoAmDP6KQb0JCRWLKjT+Ccme2CFpCcX7o+swUg7FEqfwQnwuELA4s+pp2Gn5DYDToscFwXAfdi7GtDbDiJCavYyiuCKnm3I0Xg1LLMetJV6dirFv4wKubKHeekjwxmpyfVn60KNoLng9DTvcu7ndHe/O3d9H7LrcrW+u6v7ycuPd40ybkxT0KTHNPJwZMPpxvXvrx9+MgcoR2mOo768UyFLSplYcJnQquHooMiRHaIVCglZVrQHKatytKFTenqsFqUSekoz8FcVWwW58Ic/y2n+2zphcXTXEPt0rL0n20WobvJTNkssw/qyDDXMUTjenxPIwgh89Cj4nMev8SlKSh6wvowq0n0Uk5IB+JBg3UFCGwBFcgPVji/Kg88wdHuK0iLyWAo8y119byV57I26TWQi0wGZvJdt0PW44ULo10qrPx2AaejZ7dPVuXkrqEQwszKQOCioM4uVCKhafM0tLS8rBOiexSiRMIfsxkYS9KBX2m3TJ/w15PHrENKYA4hwcQpNrJLlwBBaFipuw4fYlPqla3iCXQm7DLhLVVP3angIO8WTUcms9RpgMuDYTxQDYH8D16Lt6X9gYBLsvCjkWQLXFQvFmUNI1+StaXXgRGy4GMB+jTA9aogrFzez1gmPDiWzitfV7RaVhv8CtUu1bnclBPakraAeQB0CD/Psk9Eq6+t37j1QC9JOzBZZeq3pv5T13Qoi0CGM+fn3s48rR9pskOm2dqXtUgO4qV78IJpoaSdaDwOJeFQsWgV4y3VWy6l0wVrUFlmQ3xUm06lNgNEqU2YkIis+5Wj16IgNUP2wVVGlro3ttxjkeMZ9T0F/URRPoJoH6ejV/q5dvLZOri/vU352t3pwoKvv/js4u1P/vkv/uavP/2bn/6dP/j4ww++Pj/+/Zc/pS+I7Feff2n0lpmhNNJcTIK1/z/O/uvJtizPD/vSnzzn5Elvrq2qrq5qO93TYzAOA80AFElIgviikChF6FEvMn+TIvSkCJEiKCpCIEUwSAxIYDB+Gm2mu6vLXp/2eJNOn+9aJ7Nu9wxCCq26tXOfvdde9rd+fv0W6kxQYEbXo7hgN9pbnR3KPbtksICaaii0PDeWSpah7mt/WeiKCRuBebfml5FTGIo46T+xZm3Rgzd1ESedjmenFjCB9MrJDIX21L6rQsnGxNwYYT+lt0BmLgcbU82on7i5T5kUqUxfVlD5NZ9IXF2U57CkVQN+6F8R1+I0JOrdaHK7hD9INFi15xOTIgI5o2OaUSa6MEaJEoLHSTC8sXU3b2FdIvFqjpcpvk1RpCesELc/gSLam7ZpZxft9HZMlWZc2NHjumJQjPXc0ycAEKw277jl4F5n0p8svzCX1K24hrntJ5gE05OEP8w/5UKIcmoxacNE0b+WD3O8SMS74tJZ8is8DFPguGhBtzrbG61Oa2UZuVofXTV6063mDhlr6WrNSWeXzmUWWMkOB7s7bsYj3iErl8vt5aOH+83Og58PTxNgzOwLzQUxqszkcq6xwjKGRel6M1kQxT/7uYX4CpVyhJvJwsNlzghksSQkpf11TbmLaqyOQfBmoLD0GDm0hKiUFSeX7aDmDuU1/vZ4Ffgs4wElh4M1FUHTno8G/cB9GDIE5NpGM8NCVlbwfHMS0lpGKipaX9bh06B8UFqW8Q6XmW0oSgwOx6ytRKaToH/3qTyLpKgj9cx5IKAlgBvGFSXP0hXCiovPomBrsPUy1WamPlUABSrihQlez2yixjdTaC6wGPJ26/CPIg7TqwZZy2OTo7uAbUV/sS4HmEhb2klVstZogvjS2OjhefXTWFPd5ggoLk91raRxAcB8qbhKYOpklK7lqSHLk3qnFTn7CsmCTmHbi17XRFoCQNPoIZ9Vq6U1hi6pIFdNspnUGMqjr7UiDTZi8+U7h/v8BLIQ0IR7qoYhOrCUgy2Kaki4BJ8wZpS+l291WPOykZbmMy7vIFJFQKtFbSXOTdgoYGRogJ0aS6tyQA6LkSmbASPdcw/UMJs4x6qMsEq1UIOlMtaGOuYc4wFjmTI7zp03oGuGqoKNGxk8QR71UWN8ozGQKM5eL1qtJvJV0GnIWAoxM4qbmZxV/Fc7WyyY3JyD5ZQLhDfCmY/jzTuX01ZYWyAeWJpGS9vESxVvTM0OWtTm0UhfClnlAwfL61txVbKBX2bx6SfOuFrPgpFZgxOcpgFOfHRZJrdIf2XfntGe3PCt2KCDCrTfMhfvofROuVtfXQ8ZKycNTkXVb7acUK6x8Tjm/Ye0i76Eu1q47o8GQHhd+KXb6xbbld27uMvr6cvPP6ZSWFu8mgwuxv2uYJBcH5z+EzfaA4ipRR85cKhJSRcXveHNePvhI6EtEMvx4PKms9xubC1v3ppVMdQNe1BKHDSiuRXGQBAQshO8A4ioLpy8ZVRsJY8keTnBCyIHPgm6KAmyNQJBESjmwk2nSZYjvwZ3kzClHMGOzjmCl3daK8pGEwOfomzCo4IGVD/gkaFMcmN4g8dBKMR7ecWqxKGDkOe3q/3WNrmvbG2R+XyoiuQHMStratS2/Ir3dhgeuiDzJcSR1ZNt0AAgsiMPPO7NGNkbhydd9Adapb7x5dQUZ4Vad8tr9JpoMu6Cy6aQfjaw0rPptrXd2mx2dprrG8v98dl663KtDbeg8UsrUy1eIGA6Yn4yu3L28ObmTsKsjycAlOMkmwosoK/FZWNhNJzaa7ezjZ3CmIeJDz68uszisiJmE0FEgGo0sisr/f7EVtl33nmSthaKq+OSflIF48+xGNlIdSX2koly1poj8dY++MqH0R+KZ39z83R/e+1sdP1mSDm6vfuovdXsntpud3s2GB8+3Fjf3rpaWB4vDCYLg/0Hzf7gdKNx01xbbKzcft49A/Ag1Cw6XxieYeycoiLN1f75ICBS5L/pOLGeE8BjYdkIcfYxj7y2zClLlK6B8wTVl7loys02ZS1sZRsZFhPXoWHhqqKMpUTDYoTYV/BAa0wTkhJMAyMFWG7XG62Xr09UYAnptZXjim2CcBG8o6MDmDRwIPnU1XgprhRk4c1vPKxP7p97JWV0CzTVn7oRkCyoWWd8XHigHKli5YInZcdkDu2F31M66SJYG822QFSC9XYlPt6XnJaB/tK+imNdvQ1ZQbHcg2FWRuQqgoT/g88gN1+AiSAOGx7DYcFX2Pj0wPjLAZVrgSfWnJbrAuG+FJ2OKzZ/fiHV+vMoa1JXa6mlrdazpA7lq9KzZCsllx6Ugoo1CK2NJFEelPansymu9qtQYk+UpQI3CqlFuanJ8khliYaCb6j3aZtO6bFvFI6CIKlpZ07zM9jhGUwB1ryIZGmhlxH5cp03+L4NbmpKtrukyjws7UEb3aaZGlg6WvNra/RggpAmPmxbk3ylVdhNGdwYDYqmjIn/AwppRik3TfWa1lIPKmLyCa6flGw65ZdXfg+LfBw8qHw/3UgpkyY5xHgOhF5JBg34yeCmQkB5WkW0MvXFET9Gq5RdWIYy0KWBzKvz1kUvk3osSIN+y7Y0ZmsHYTjJfEXpQlkkt8Cwzpm3WBGkcoRaON5oGaoahOEKmfVP+JHpsIfrgMVwaeiCGSVZoVnh7G2tiiklG12xRKIc7+3tGlv6KrHrtBM/ARFIrc3G7EpUipDetD8pc25EAAA4L+Q6W0kKXcc8j9ZbTgCkeSG7iMsRXYI8tr7QuwQecEuK4botKur5WciUNs8LzRhlGMw97YXJryyZ0SvDXj6v7zMjdYb9dpccMJEfiiipsIn5lSaXZML9grrCHhVUCGGYZdhNKyq6E9cXINXs0VkX2AATaLpsHdHxy/ZzoSTkCRNX5k0hEpsMaRkKtbGbT2CkYRq2tYWdvU0BVB32NBgvtJrUX9mXvjS54qKGfpsw4Of4zcP9I5N4dnKKA+BHh0vgQZBFV8YEiW212tybzD/pJA3D12XrOoQdhOUBDQhUVYG5DkvmSCpKC+UYojS7FKjBPikkPKeExD2CgZE7esGgxAErsrHo4ETKtLXlxaYThs3KcDQ47/euV6eXLbRROK5Ra7Pz7tHji88+LdEOQAqYszlLVUI6Bbzh0GZ7fXQ5RmfJfjQG2u3AZhAFo2qA6TBSd2swLaztJEn6vFjusgfCc7AKMKD00J9wM9mA7N5oZAKItRmuGzoGGxbT0ayeiHxm3kB56wRKhCCBl64X4QpU0BwR6zTG/EYZWAeu3txfVebeVUqb3rpJD0vKFGRW8lYHwt2V5GX9Ah4HgF5JxiLUo2A62VNsgVwlwFNlkfidVXdfl8JSAagv5SvWvYf1JvdFFQm7FVTHaJ5BiaDjWrxdVWhAdKV+qH2lbbWZf/f1/2sGn5X2ZHxUpOQiws5dez2pJdRe6HhhEtGyVOfnL9UqszVUHxqR+s8f5Rgjz+elKUdNBipahHJz91XNI78kd2osE5chvps7MCddLcb5u+LdFFXGs5ZWv/KotrC+leE+1RbWq2I9d+/GnEJn7u+fkAnwgJpQ0YqicLVQbVGo5MAOa71WWj8x49o2dEJrdrXPx8e38ugRLjPZaqPvupx6y9vYw0vyEy/rK+2vT2rz8pM6pTTP8/rQtd7kCdAKgGTRVOTulSIgOk9MlwbXf8Y92A/jf3vtwCoxi0QYtW2nlLU8u+iyFERhZ7GPL52FSKS1NCF+57r27YocxxijLEIGYZKc4dRmTzZ396j18RdQGzVMo90S6I13BZaDSgBrr3nw0camE7kvtzubaJjTsiajKZlgaU2Mhq2rnLU7yUn2iCfMjQ2L6oASKkfb+QMdmPxEjupdMJc0J8wbSNWaxtB0yQ5RbG1sOfp4s223WBu/AFFZ0jCXgTVKrvfzmw4qNYxQBeqAgSSDbDXn3c185P30lTygpI58Qd8lV1lB7rw14q61fOSqfgI82OfJKHEUsfpJS07ELUtJjSCkFi7Do0ePcAxQITBA5iHZnPtc1LlkRCVDflouPwvQ0WHHiEWJunTV6oixr/0Ug5fXwyvo2wG/0USoJ3sO+NMB5uX2pph+y4NJL2YN5AK5MmdlyVxGr1Sd9+iA1ZzzggNZBfDqyGgqlBvUm24aiEA3iMJKlH8gPZgZ8Blr/0IrYtxXSbaBg86UxyqnWRpNYcGjfdE+By4S0cHosmI3d+nf+FtM6VmmV5PupNtcbHR2HzROW5YTPSTgouU1c9TKijMttK7b+5tr9i+sLfcHozevjkWndJ5Wg3hNYl5ChLK/ODi2rMosEzWFEczCV1CdtUxcwW9G2BSYOIyG8GPeuvewDr6RMSBSyV9QRzDWvBB5wuSCPY4wOdQgR2mDUp8LVBY+JVUWwpCP7pIn96/u7z25f+h75Er2fFyhJwrAkgLGqT5qtGQpecoNiIazI+x4VTBvsgbQS57Mb+rV3PuSU09JeVfSl0/uave45vEKFEjJA9ZKwahVwKPWUMYijDDyiniWZKzmRb/1567SX8Bx9++9va+rchm1DR7WPLUXpRmpWP5Scxat+3k5JKTyqv6UWWW+l4kMOM9T/mTa6kClIACSp7WbIMMzV5/70HMV5XVJ8mTMy0OgUKrOeIJRVyktvGuPe3lqC+tDTySf16u5cW91uJYMach9TveqU73MoK2OgCuNlo0XKvG8KiqBOKKlzbXZvnJjvWFR3QfQywyqxY3yC7/xZTs9l5QWq2apyE8tryvBfa3aDGcoSpsVInlVr26kAOLdVNQn9aGhD+AY6fCOmbf6PFCUQwWdznAt3o5TTIrbZaSiwXB6y0+wINnpyFaX4dLUVtzYCJijbBnBdIvJpiNCL1+tCEAL2Tmdna1ojYd0pe7Dq6nQr8AfQ28eREoPES3IISO2th4nK7vBuPONEip3Y3PdSfOkIE2tE6TjJRHVUAgwE+oFXJRot+hw1I00Jd5gsXJN24hcUL9xg9l1U8g7Zu6s0JhshBFIIIn7VIuWrVbnav3kbe7SgDqb9b7M4BwOvTI7Pgzo3w34/Se+klkxyKQqdNATb6mA4H33WuU5ciU8Ff+Pyu544pXMqpcN8HCXABTYeaVVcsUiUKoOnbqyI65E0kLCbS+Di7G0/DFo1bPxQCSkNSYIOClmgkC5uWssUU3fLovNOV0W7WthbFgWHLV2s3y5cNVAOqjfY/8iEoYBzzdBPGV9RbXgUX6SqgLCZYgie+CRuA5of5FwI1iXHf3yy2cUs2siMlgEEdcI5g4PmbKTpgyxlKmhxUhxDCUETHs3msxagiNq3JpQzGuL4XBW+4vj4UX/ZHDW6C6t29/nmLYcKmwSgNUVRQuNLJyR3zdXYiy3tgBU6+JcKLeLgbDHdjWs88ujg4RFneaZSSmqQXNZlkYw+FxRpFmmI8oFSWdlmVz3hoPb4UJ3NMgaw7SJrTGbBgVF05Ykb0DCzBrVopiR56Of/9y4GEqiFSuaYTJNav/1X//1YIyKnlLNHOpSUIa4JGX97ZvkeCvJU7N5lsnBg6YpaU0Gp9AP1hi4VIZamqt8fiePq5eFmmA+ddlg+wdLFKNj3pcP9VmhbpMQJVefp2614CrLSCg23c9Dkqrlmpx5WL6qX9+34W/f1DLnrbp7rbB6W2/qtZSXS331Sz89vP/KfbKVGU1D75IMhdx7NR/tQgjC9qD1hvK+8FIU1AB3xb6M+CoGoQDKcWiNxht3FfJTmASGy1XA6CEAhInyhTVQxsHD+6bWm/pEFZL7iv3vq543/q7Nb/+VX4V6ZPV5nkkoDJdOgez7nB5DE5AIBt89UTgZRQS3Egq6USMw1WYTWJmNSq40OPkNR9b6l81Wcp6U1rr6XE43Zslz9/VtSiuz4Mu/3Wt5PAxeUlSVq7TeZIZtmj/Rq/RIIwpAegUZFdaSFBVX7z4POs0w1RwD8aD8fenuPXR6x3jCQMcds7XSCkurPsELotBYF3Xpcm087XZb3IcaMOq6XZxpNWMspFqwtpEBvelIVkqGszDeIpXccPCFvsDBxtb67sHmOrTLUYIBIS23pLJ2YGRbmCMCRd7OP9NOhYlArtuLU9Q7TIUagyiaHWHcddIsBKUtLNvyxZSY7TyJ9jpnezO+ZVFn3O6S4c5s3kG7Br+dzJRZyPiVDKWEOVzUe8XU/HVO60+9leYll5NTQD3pPGxU+QlxFr8iyt+QK1VY7aMhy038+9P7m5A6zyVPqgygCs4jYr8AmHkjCiBZHPh4TJazM/lncIaM5ZbJgP9Ma3W31VnfXMEcZPk17L9dJtSuLlIkLtOe8RBM/ylai48f6hp1Y6HzzXabmY1aQQtjaRMki53PPJikrNIg7dLronJiZ7Jbqqx8NMzCMI/mXjZ9JWnTHOgLnUuaxWqKzR0oWexAEbOW+sPBTmszHh4rV6OrbkcwD24C/ORvB5NbA3M+fTG9aW/wCwmwxgf72kGQyNAqhmS1gZuc3o4at02UcaXBDXJ5veWUUJYtTeGNSgq7iv4KBBWBpE6ZgS3iXwEwbBXIwV0VECEasXU9f/7cKSAWYTTaDb5IwxMe9TfitpRAXxVmgE5JZtYrU+NMr2mf96uBzPQE7Jdy3rpt1A8fP65a4HykEfNPyx8/FfH2k5qnPrwDs3yiGuntnKWofF47ZpFHQwd0zVTBbnqKaMdn1mSVhMQRDazNWsvb11rI/ZN5/oJudEWvClZKdXdLC2CaahRMp0rVIVfYt6DtEtrSIskol/8Lwr3FmLNIezQfivuep79lYHJTh9ifkjwBQ/d9L70Olao3NU8aX773t4xTuAmv6tVNeV8q8FBfqKQ1tEyenuZt4ZDl9zw/71pm8ODBmmrhxjmVhvbnzppHEqyVe3IVri2p0O8yYz6UfKR8yU3lQFNOSfcZ5t0seYLYy1dZevc8xR0khPNIsjTns6klhfZEQKwNhk2kWiMsKcSAxtL5cMYTvxkKl19Sgg6b4vyX2UuqUKUodfgJxNPHu5+l6vl43j9UVL13LR1NT2vOWqif9ynFFuVDJWOe62+tzJjSxxv5maXJ9WWCZec+Fl+9GVkoyPCWLAXGgTNjgh0k650tTOLKZEqrgpXF4zpacrJ22R0PN0OvOPitCtMehxV6Kf209ZCEoQcoDb471EeLQPS8U0rHJHB5aayTIRLKWe90qg5XXUHa7BsPXenBgqUiotn0uqBAmFCq4IEjng2DHfATcK7CleMKTRjYOrbMnh76pBbrxrCnGZ6U0Sy4NAuh1ng/kikHk1KK9er+ebmf/3QfolJmo3igKXWe5FdvgCcqXkJBdqHF/aPA1X1j3Cgk9CwnYyWZP/dKseug1FWYGIAT8pkdAjJv7e5xRTEDKPNwdGFT10a7M57y1RisNFfWxF5fct6F+Fhr4gYtNxfPzy76M0EjONlykmgheeJLcJ1Yp5q7iQsz0hROgh/ZCgE1sgj/BVVqRmlw5MXcZpIzH1YC+kOwipKnJGrH2DXCX8cVxVTi9LTfCJk+85kppi6/uhVxfXm2IOZrU4uGV6PJcHY9oUvEL90sj1YE9+fI37taaDopZnm8fHU2PGf1FPEZrYIIGdeuLyd+LizPNuxTF0DX6C7aVm1Njldaiyvi6y5do1sEG2XF+zotubYRvg57nYK0Jyu04N5i37HC86piiUJ+coBWORvFhyN8W9kaKE/pVx0eIxJEUVlVKAsjiDQXVnaV66dPDO/r4+MPuDrKaLSSu/wziP6BIGBSAUq53hr1XAtk1Jt69bYCZelAWamyh/AEdqk9dSVd0jFzFKhLSMhkJiNghOT7EoHU8n2Rf6X8NKosuhCYmnxdCpijcmABkSGIGaVoTspiTJ9CHnxUYAQNCOD4Vzs1L6u8dT/vY3kq//3bf9eN/HIZRAArEafNnIdSKi3tc50nVd+hDxnm93d0UePzr6TauHQhw5JUuz0vBw0yqBnb5K91hWKl30CweFLcNV4zslvVHtXYzxUz73ctqpQ977UnfsqvQPeAozbStd7Uukqd+a48DIC692luypr0rWk1DibWTdFNBihl89A0abo82po8xaKgLvViu5Araj073u189eTo6Mg1lWlYLTzTmORz/3lr8Gvhxj8wYNjBwF0ra+b4rUX6ScNqgX66kdxIstXGuKl1pfxItgEpRGsB/BrcKHNyclhUIo7HpE2hQIpBecbXMA5qYvdhpNEcFmN+4O1WM1JTG+qk/cwMsUEss3nFZOWoef5qL4JP1WmDagNyvEUsxlMsucgXTlpfWsDv07loKccOvdDAuidsyT7luG6uLfNLrqdrWeEkrHgq5tCKIiqmm4bEMtBxHQ2jYL0ZqPhxFWDImuE3a7qzeyR7aCeXM4i+6jPhULonu158rBFGW4rF5g6APcwoFXgozzJDdTDVVVNaX5Jv7z/0qty7VBCag5/n7GF1Imoe5UuyKTb+dVCIjct3M6hM1CdeKVF25gt0DR8vyYP6Ksr4lEah+YYyQpVXACbt0TWejGXPEK9Lc7K/s21wREjHP3FrXbkR62itJWT7wuXwcng2eCNE0ept43r9tr2y0W51TO41kYkTH2uLosMR4YoXiz6bz20kLtuZrq+bWaB1slWfXkNrsZOQlfEGWRvhOeY2+5Il6E8mWWN1000b6Eo4KCMOwVkVa8Dmcpnv82Xv9PJm9fJqEr5x9bbTWVnfXEiI/ZvF1RmAjf1zZcJdjwEqXs2J34JHmYxm4153vLgxGbIJWTrhevBArVWWvIveJaq70ly2A6rVbFIOkLYTOTGOJwAozoTWsC9MUGWgU6gU3sp6X/HZ7u52Z2uDNpzbqkmxIDptZP5KfHf3BuR+TKJsCTLRYy5KObcM4Y+LM3dWTAoovLkRDTI0TH2ppaQ6UiVb/X6Olerb+9Lrz7c/qR8GFjIZ/vd5QX83l2hrhj5wZ2d55Nu0i0bI4sU4Q7687mEUmMgXsdUllXIqdUtL/Ky1u96n0gAlRdmlBDUEVcYgmCQbIAkYRw1cbN4eJShAUu1xzVkyB9Z+Kcn+S0/e/qlJyqmrsdIWT7S88HDzjH+7BHmkt8up9/c5va33rrV5968CCWCDp1wZz5rT25qU4yailRdR+2ZNogROYjBGSk2GYhIICShZPblvjJt6Xwe/3pdn8+cak6bWR1lKScYYGFt67suSA8AhV4r308My1JnQ+8RIUPGFtzLLRiUtJQpg9UEqppQg+jsWTE7NV+acdKX1QeRSqrjk4pCf4Y7KFHhYhw658ry0zrO0vfx0Scqju5z1vl4V7vN0pNyE1t8/0eD1xuLl0mx5gtoE2yEi4SLEXBCB9YpDfHtrc3N3p9luRfd0vfj65Rt2O0uOLzJOcXWjTdUTxROawwVqaWGj09q6veqT1ISjbrfp8HkWJj5BPCzIQwSd7L7QBjYG20r1V2Rqa36zs7G50bacyubfcmhO7Cjpl/YHVnLjiXXmF6TP7X9dI+BunDX+JlyrUUG3uBo4/hEZZgvxEGDDaDwSry41nqunjyARKOy+/PuxqoNTR8yg1ecVTFxLYVnUnstZ397ncVPH+e0nskkWSX0VKbzMJ5CgxeKxXudRyW7kqbBt9MBSbYZ7b1VKivJQ5f5j+/GxT9RVc8qNxtAd2lDcaGw4CGbRdplni6Th5ZGhtEX72sbv6eXotHfOW4W3INQ8u5kAKUO/sLl8PV44eX5sCLOdAypfQBGjxwM7aV7xRi6dzzCD0LS9sCnaVpP2aLP26AgZwWvdqY0MrjRiIQ9YFspZxypaypUpZzZbw4MjR873vOWo7xgUzaPBayDLtlhPrh15JXA7f501NqlmX4An5SoyiFjk/tnFsGujOMPn0cpD6kpmKEC/2lpeb6+JxRL3hrUF9wyHdrU7BoewSMy6bzYkkhnNTGVIMxHYKwNfdFye4zBaqOB60+Evlrw17okGkDwLfOZbizIFzremcaOJXQCr4eht+l9lsnfBZCrYvzyUP1KzwXKV1Yd1pt9GFqWPaZDcqpHcexiAqO/KiHuegcjbiLiKqvmTBwc3E+7zqnqEeAAEsUWF6w3vq4cmxeINagjL5l+Bb6WRXT0vQ5N6Qwb9MODBIi5BZHB0CBVgSt/pM7I6sJY2A66ESNu6D60w8puP7KwpymwrSyv1lw3Ft7LpUxHPsrax6dqpCilrv1g5a3c1o+S38a3pWAcP7V/BPvDgzPPiEWcAjTUc462Sy+jNC5RHykyBs6TsWpOrVBTmqVB6DcN5RYmutclT/tncjbGmy9Ac0FQYnpQgc7NZGLQCPcAmwEPh2mBjjflCJs3QWS2pKNoDzfAjTShrWAP8NDWlgUvQU2NlHRYbDWK7rnky6Kli/qGvU0gZq4xqMY9jBo0GJRm48jmU4VsleOJaTtsNUyZpkrcqcgWUtWU4L/nVIoMSYKiUjG0ttM1z0BJxpTTJVSEWA6ml0Y7mRwbdrK0NpmPQvs3Zd1ZLkFeiQsRrq5YPfylBlBdjxO5gljGyPpZZHg2o46MNJtS2OZBmuUP77c0taAzkPRBAsNVwGOB5twsaHXWIdTRjX7x4ycmKvNg97+FoQS3F3+6mlT8baRXOmzRcXLTRg1/73vd2X7z47OXL04vT7c3mZHJxK1YBWkeUU2MQg32KYGzj9mqyu9UGePYJUFkp5+jhw5/+zU+FyRkOenaGcUew+DSeUxUlGg5YJ1QE4nb3D5udzbPznvC1hsWY8EiE72jDRuPR5TUvs+VWZ4OuAK9NPai/XBPJlFdT9o+EC9reaEdqKZFT6vQZejcxetkwZDdPUcGZ/W73WBXq9WpxN1NpjvzMdKw4yX2KOJgCP41wcJkpKHEjlQDmPNcGNarOt5PpxFlWpITxoM/pn184s5BFS+Lw1dTmpKXsTILZNjc61gwAUK9C+I8oHCrHxHpYY/g45xDHpHCmOxiHX0yLLNBoZQPT9nZi1l33z89P19qWUHN8OVrkgnFzub23vd5wWIxlvjSZTY7PjteWmygI0qUiWIoZK8ZyyBtILt20t9r26mHA+HNqjHB51nkZhzkp1TUYSvOsZQMiCJNr21maq9lKmCsUyasBUl29fnP64tWrV2vNDhLgZOnZ+ej97cfL143D1m57c0OcdpGixHpEtzY6zd6025/1L6a9/oRQ2H8xeHk6vlnfPvhWp5WxWlx02Nr54JxKEBs/cJLyyWuH1HgF6A3oxmbrg6+9D6WOZ6Pl4bk287qYzEZCMdoCUWJqznW8lkeWEthyzCliG/kue+CYn4CsG4axOoOyGCWAcX5+7gxLbTD+GbfQZGQujKaH1l12FtOFBh3iZcsiFJR+efnw8BCyjUa1rkk3NdWfGnmHZwNtXnl+n9AXb4NES/K8/p1nu38Ik8Ev0Jl/oSBaljK8L+x+nmtvaXIuKkkXimx4X5cbr6T6Ya0ig5iZDBaDznn9Ym5zTjKLIIRli4I3pRmhFT4t+DpjVvqS3qS8/19TrfTflbu0LhdjcqfyzHhLHoZRRCLuBrA+rPKdLnhVx1nOWn75Lv3y1n3NYBmHtRQKRvxsirXMSb5dniUOjMzuQ9bKIGfR6F8+/YVUS/uFR3/rR7rxVkt+6X19Vfmp+gq8kq48t8DMK4DzE1ymIRn1MiZ3Bfqp4xBHxWvaU7uZzgRif2FK8vutJxHSS4HAp1btOh/buyfpYNoyT/f5PK+P6lCrTL3sysJE1BJqS3QhBLJQO8tJNu1Ui8y6mbW03uK2iP2CYybOeBWigugxbdMMjG3khC9ub0UMenNy8uLNq8sc1XpNJYiLquCnNMlUYejoCgX9dMofp4zG0sp3vv7NX/nmdx382tnCYplrMZC6x+fHH3/+2cefPz8/v9g7fIp7IR4zzayvLKyvLNFK2vh5ezm5uRzxRhfJ0E5x+wEc1rDQ2gBxURAWTwRIE4XXnWwMWltrIlc3CfzjiRmgeDG24Q18QxAvq1Wvi2InPHLwbOFxAt5lkbqBtjL+hWs0esanDI7D2J0KGLLkYSk/3EMd0jr44TXukieSbB4ozY1ktKUgwTJrkDhkKgMCD2E5UjLwHx6YNT5EyL1RVa8JksLuFOHew9oGPF84YSnKYQGrQq28UqOv4FND0blqYr+5XD5++KQ3Obu0rfdyYIsbhdjWHqOqfeKQ5iX+TxXAJtuLsuyEpWA3MS8ZbFz0cNBXpheGXGtpCbd3OpggOjRdgpY13j0G7fTiHJOWGdUqY57tFrbxoHVxpMn+7bLM7JNzwFqvfzqa9h2z+ukXz7oX412HXA1na52jxfYe6Xza7x0fv1k9PFjNRuSFy2WsH3pfjGgL1w5FXVu62trZjpNq6PREM1jXrhfW7eByColT8QiU+ognyCpeXugwH693ut2e2peGTlhuFpaZwZanSoQRq9oAmjuDDDZMQYYXyUCs4SZPEa2yk4/u22iYIoMsRkadZR/6PCk4zLCVxV9wBQUAxk4GpEoPKFqxikbJluQsz+gygEqVWbCLIKD8zLInPpU9KzidSgA1C7umLDeSZqoslRbUWeovCLrc5dUcnxQATe7yVUWmZTpcSg9139t4vJWCc1FGulLGwn0FPjfqKsXnJnSZsT2xRamAE2VBp8w3ps8Y3eesFWs2sCFllefBGTWV0r78OX/61h+Nuc9ZbzzRUve+vX9yf5PWl6Gvb5F2N/WJPGp39VMLtdasRFwoHa+dh/xJd/j9+o+gF78yQJ01V1apFV7q9RUapjRdVcd9A+qNT9zkmq+T6s96f9enmvfLq4bVH/f57995Vd/WHKWciKqgXx6NMRn5qlZQILH2S09D1Yrwm9A2ZTbrBBkNyRNXhddPvapv87MUV5mM1JI88xZ5WVqUr3xen9YntZ31SQq5S6micEweeOuqYXyxIr9HZuRkmZ2BWR8B+kQ9cnPfGJ9Dywwc2cS6vm5DFTb89JTLn3h21DLBfYIF9C+wr70plEaA3jZpdgEvyxC0SgTQpevr7V1xBCMn9boDPuZH+4eNtfaosdLZsmt1vbNNskUlorF5fXLByv+jn3x+c+ME29VJjlyw250t3F7l6+nqIovKikAN/TOayk5rQ7wF+BhwIaSxekhlxQAxe5ihW7CJKJCdYorLOZELw3brrNvTX3qajEUZDmjTEPF8kZGR1ttgIeARnjLD6EmGrViDICMQal9S2mTWi8sGzrt+Ik+FhALhGXnf5vOS0sKair7FbX0OPRlP3+5U+lRoDGyb431pM0lLGsK9nBFoAqFfrE6i5CAI+ur05ARhoOXjHIs5Ap3yawxBR5LnZz/5qX0A6sJeWGF7O9uMB0ji9GZCHG832xh7qkABxdfo1FaXTocXFKVtm4NB8k05q56+yyw1c+it3q03RefYwC0MRl1iLnLFcNVsmeKE/lE7/iHBiG6Q2ATt75l4PvfFaoVd4FuvwZVdUBrXengqofuvr/ncN1qNrYWNR+8eLqxxaR/zsJ/OaJi3jMa2IPSNJjO1SnGKAoWMFy8HN9OxCFX2/7Za26uNxdktOmuuWIIMgoFtrrRsyrMxCwzQVBueVcbPtnMCQoR4dAjZttS3YUP8FscS0+CLQhJ9wzLZyNSTa9O8zG9Zkm5Cuqq61V/wcH6O6l9zTNFHZMY497sXVgQ9tgVVZzllFHJVwSOjVCgZwMqUCS4GvwUkfYCwF2MGgKipQomrn3V2laJcrawZ0pOYnWtdoUY11U9Asmz3hdQbn9QErLIlJx4BIB6UM0XUD/KdOrU08HeX5nWUUv52sfN6M7h5mU7fkeiaOSimUCwLK6XP2eh5i2Wv5b9dS23wL11L6Sn+l3LWWjw0OK6SHBmoYhm6L0S2uvjcmEXPa37Xep8MFnoRj9zrTR1E81rHzUOFwteVelHaeq4qn9cM9/JBnhQirEDlu0+r3kp+3qc6EG+9zK26anIvZ21kfe7BlxnKWxk80U6MghvJB5qkoQoxKrUo2SwPb8Gst2z9oNcrAKbXnnhVbtKdFFKSqqVUoe/1UQhKkm/L3+TMUincgPtUetffuy9KaSDgfo6KFtHb+yfRBBr82IWKQaewERosyaNJbhr80Yp21xNzQRBpWoSLi5PBwCK8OHtDwBz3B9C6ZdbutAwH3iK+Jdi1OPxFLrJP35yrJaypE9yFRSjoHr2cDccLk2uh0qazPuSy0hH0LYEB1prXzb31/Z1DO7j+0R/87vRqlW/yRXfK7DwizREArq9evDpprPDOQOkEXxDzDgqZOvAJrIWNo4HV3MT5BmNAQigmyshspAWJq4VYU0AZNz3UZHGMbPnRa21kbfNcPN+hwO05hb3gpuCyOegaDGMBqhEARHt5uQfbcn1uh7ZFbWNgySL3U5bRC/xnujVAypOSZM60+r8QNgLK5bUDZ8effPKJzGfnXeX0qSR7XcrSkisw4FPX2jAPSTOXsy88BJNYe4RWR9ykTGStRDZSsgxKU4MVyZ2AbUZD2u1oqFDB/kWPkm8FtDY7HGr4WdjDBFnH8SUh66J4LzsCEp+ICswGbeRTLQ6/2N7deuBojNHk+PjY0Ax6fUSI2hYDRCCPYTHmBuILgABVa45TMzUYIH1UOxAjoGOajL7xNx26RyVGqN9/sN+etY6eHG0f5Gjp0Zvhk/UHm7MWt/uVFv3flsgxrJPdsxE6dXbTP78d9tZvrrbjm+rsxpXiYagKFeGQaOQvF1aHlwJcmrGG1mNDyqBNTIohNW494DUbAhheQjQITM5mCLeluRA3ODeMDG2WTZpaYIOIFvAWIaXEmz8+Pbno9bBAT8vhcLSdp8dvQMvh/h4J2Dr21TwV3OJV5si0mlKaiekMBoPsmDToYyOJgBpzWafclxUO6pN6ra9c73/WG21NTYVC1LeeK0k/g2EqDSlfqVLynLgbR/ZiqNHXioSTRfaoKjWDhjCGRU+0v17TKxVk2kJ1dMRw+Ff0XdGzWZBWKQjwMBgniDJwDPIUUtsZLMboF1FmnUPX/9+pDm76k1qSTH/+FOJRi83PL5Fj1lJqr0NRhqV8AA9mUEB5Y7lV+NSMp1HCmWZxUQrj4hKQFPDmPw8zKhFuEYegDPmtev8MQq5pQ51BtZVqCyF0l193qb6rV890xNXP+6QN9eHdF/PGZ0YKqNznLNlKTZnNORRlQOjx07x5/vty6ppEy1Sh45574kPJItEQ8FqHThX1uats5aFJTWt968l9GzJihQkwCPd0qxZSPswnhreWlg+LmsjP+cQVfJfoX8vC1OKqr0ooAebyxMiQG4ugbbAbth0NaK03AV/wLQTXWdl98AC1onwTreezz189POg8PnogVM9wjPSMrtej5ooXA4wjzHSxkeKsYx27uqQ74qklBoMItWevT57uP3VaheBMx+PT1srBVruztOB0pd6CDTCN5eZq6/j5D5dWHRy+c7DVOtzZDfuF5F9fP3qwBfm0G/bQrI/GBKqxkOXT8ZVzFo0cFSDgobbMDlRKnua6kXeAsIaRlPiiNRbJDuFctyj9llYog6BkOJ1tAdZ3aC7qC9dz8TB6ajTghUzMZ7xOhHVHoFGgOUKutMqG6DJThnkZo80+p0YouhCo+ZTV0mRzU+9NYoGEMHaG2CsUCwrr9gawJJMbk1VrlVMmhV6+4mmgfNhV07Y2OsOYstRD3xmxlXbLVxWotFP7QZIne3t7uqD8eIWLmmdRLQllidngaDETN4RLNwENHcpG7QUHgqzE6XaB6LgmAq7oILxhUBY6vIJery56FwSUFge7Dn3siiC0T548Oj0+uzg7tybRiwJ3IDn/4GR/bNoFAMuXtPpAnHM5cqVR0a1C0Mxv7ni/aBhg6Y8mAms2lm/OLo51gnJyaXb79PDJ6vHVzUmJfrLWXLRb6WJyetZb3rg8vxl1l6fj7eWr9uJs5XownnT7g61deObWWSDtpn1V63ZCNJ2Kcj3pnYu4MkZLkNjBaIAWGjp4fDqaDIZ9TjarHZ9Q49kRTSFO+i5o1dKweMtuB2AYBBj0bFqsT0MNTmI+tDpM+8NHj0wKwLN3ynuDBhIwQ2WZz1e6e6+oJtEknq9jzF7EtTkr6nMLkFkrMJEZLusWBJhdV4Piew8LNGSm/ZT8BCZ+3j9xI/9dSk73X6KT8tUcHoOG9SV579qoh+UHTJyb/K895aMvK/XTJ7WFqbik+tD6QLdwsrWdBsLnYDD2YaRLO7KnwXs9QZ6zL/U2MUtUlTL/NgquVb99LZnTIdW+/bwOjnpTdWlyLdZPr6Q0s3xQyYXG1Az3hdRlvIEtikYwbfOFzywinyf+CYa32CRd67zoneQ+PSvoXnXmNR+WGcwI1qaWojyXK1TurVQzlIy/3Cmv7htZv7hv7dvP1VCfv/3Qff3pw/pWk+oTDTY1GEw/aS+lbDkp4FTz6Ht1KkEXDIVOzWu3gAvEWsb3xd43yQJRVOVRPPyl2u+feH7/KrUWiwUc0R/2VQQsNBdBqhUoUIY6HbVtiM2N/4ooYE3EwwUpiz/kraNOt/d3Kf6g6oeP97adWNVuH+ztHxig24Vuv2eJMukox+zCQL6KCRLHtngzuYpsJMNsMHl99ar74GxjdeNaNKWFyaw7nHVpmgZXy92FVdF0cubSqH+F11ppCeZm51Y2jGax3iy8987eB1/9937/d3/j40+f/fX3f/z5529KwGDMzdTx0WDI8rbsBDKYTAeXsyXGdGdBAQh6ZDplWYR+wuiR1zQeY5zQdE5xhVFvF1trq/wch6O+MdELw+XGYLqv4Go8M24lhZbxshuSNhIzmKwjV6w+elqU874tJYTmmTUPfWcCPCSSu48msiQ5AyXX1wcHB1AeOmqCVtcbjnJGEuSszVCIe6XV9kBo2HYJV4ri1jypImsknJBhd0mGoILITDbBgjUZCBVGCfpRjTteFvbQiVufaL6ok7OeeU4SOG9t6eYytrrVEthiFgngVoHrcXC5nNEM63KrGQvQ5haPoezyUqMqIPQC04xeGTMqODt0V6b8fqwLXknLG+t8uw0yp01nlclPfgk7sry6fnJyPhxNHNF4cvpSv548eufo4SFRsxO6tkZsay2uI76z0XVzeXN21dfYQBFPrMm16n0SX3CKOSme+pPoaZq3cVFfbSJIho2ER0XaaK3t7GxDReYmEZCm2K4pHeN2Z5tz4TKussTXFgg6ApDm1uV0t/QMeKFVmZ28LRTI4AAYcK6n95OrQfVjWKiuTZmT39JCgCA0NANwgzQlhSomkGCmyWT7k7ms9O2OXL39PEUUGK2NcA8w5Ueaci0tc1OTn4baYz8rplZ4IYDlORpRUtijOZWKwBUFUvk+rY9SR3cY1fKvVpL7pC+fk5iUlaYX7OadViomDpll31UKKUOpuSCHGO+NfknzylJgHa/AUPn1d19qUfX61ifzvtRP79/+nUWUQQuqXipxPv3EfeBojk9PrYTCOhS9QLgI0J9T8rQzKy1YxYINMdNuDwndkLiHeFELw1ryCvooQ1e5h5AvPytOmU9DGQ05a6pNzycleVhvPHn7YX2eJ3UuCztirO7ypz34k/JRyvITs5hrmhAIc+OtjkvuS/559hRbypITBpHhnk7U8l2TSqb75pkx9/Vbpfnqvrj6vP4sLcktcJdHFVrtp3uiwMLk9rx7pnngJ2x19B3ZcGMxG1IPA1dEkNKLLBUfQzTXN4nDbsMjD6sYFda39w8w0VeT8dH2zmWf3WDMjsLBbLezRY6iroOYISErT0mgENpAKY0K/n3QGMDTsALQPH91uvWwba8PrpqYhZpxcFtp2ChjCw3jzHSD7qjB5Y9JYxSJm0kbECzctrYOxFTY22vt7X7z6x9+9a/++ic//PHHn3z20iaqwvuRx7PTg1bDOOoYxBbDm64t3WANcLKXLCHON7hd7KzDXzlkQQdJBBxAHOBKanlTQMtQGRkjbGDL2GQ9Gk/Xu5+ZCD9BnXk0nvrtk+wbur7Gvxt7Sjesl1c8hevEyX8/ybWouwlfxOl/5zvfefny5fHJWdypMd/j0fb2pgz3cGUyzH+6U8BACQEwzASppOy6K8CZefeqzj6uGSpkEIqiNjawNBt9sLaubmYrCWh7kzESwT3e6RD3tc1TKNPIHituELcLIpQ7/YqQpxsC39LLKtEH48ns/OQ4BA8DhAIaZnoQW/Hc0NEmKDA4FJ0QP4SQt7I7e0L/tobPOdw/UBoS4luJig15yTCttLB2573+9YK9wERziGG60l6K4DLtdK7XGMA2VzZZRllANzZ27GXmnGCKHII2sd0KqAGpOnFxC7rkGHk7vl6aOhlrlb2KdODYAfGrVlcPkCtsVRR8dHozGyJB2jhhUwrDz3blzJqbsQHnaZSlbY2gAVlojsbm5uLgeAABAABJREFUbl5ohKukC94DA8xBnR0/ww8V8JDhLX4+/ZXHAsvMRm6jKI1iCY4DumoK9osCbSnkSu4KIu4lZflp+n3glZ/uPVef53CHtVJyGfYgINsTSIIpOBitAF/wdxHSC2PBpVxDwrDEpUZ7lO/M02gV6g4/TaIFzXPrr6DNkKz04stUh6DUXx6WnvgJKlR6/9YTSSH4F5ywrqe1AeXAMc7W1oVUmvGMllhtRbkYHWNq9yyduE8KDjWdd6s8lk0K8Q+jlK9Kn2uW+nLeHiRdcRn0cNb2ZWQYDWYUm0VZHN8h2pKlpQGgLhiNlWN9XbAeZs8WumW+YX098gQWkNn2wMVpooyV6Ywy7UrQ+XtyNd9ZkuCBQZFx9Ip4UibyrW6VjtQLJs7nmVX/QhBL90qf5r0r+QpLUfqqPYGKTJ/MmpGWFDqa/CW5AUSueWcWSiokICcQ5DSRjFAldWUM51Qwn5dv52sgeTKEpdhy48n99HAXTspWlaRMUymn/nQ1Amad02igi3924C2zZhMUW4RAcNhFnrU6XrjLbPgwOzAjtZ9hN9p+QhyKrRIwFt+8W6P4IbHMmq31hd1bFovp4ILiKXszr26JxSbM1bbTra3Ox59+Yu5IDyQTJcWNJssbP7XC4N/goY7DXp4+e/Zsp7UFrZ1fnG1vrz142GyvMKEI+56zYjEjS6vtiN1RwIzET6gDZcLOnp2urW+wr8CBhwdHv/vr33p4sP/9H/78X/3xn/OoptYEdPaqCvf2YHv74e7R45392WBkWqA9Ad8xRsfnF0wgnnDKery93Vlc6c0mPNnJOpwRCAFemUwdiLUmI+wSZ3HzYnb8qCBU8ESMMUV3GnSj1e12c1YCFX3+7FSBlNZGJ9jwTqmYOEbBezGZKKnOfob95nJ/fx8itgnnBz/4wdXlXi+mqemDvS0shXWRVhWGTGYjjMegspxM4P/0TiLYWUniMVLIAro0M0wI0TEmg9IAUJglqf2c39AbHvOJS0dVvDTKzm+HQtsPoEN+O9HYUF5dZ2+2aLEBZFrTy5NXp7qVfXUgJaHPckjN65cvdrd3VFY6FMwJ6kqv/RW3i1wmHJEBhEHYtGylvX3weA828Hl4m+xON9F6JtR8wjidX3DTe3PwwCaGrXFv8urk1SEHFG2fTS/Oetudpcbahr32q2ubg5EtDCHgoXj4ngT3zxRxC5TEDeBuE6HRCSsIATi6CqVHPjc3N1JfsR5xw+t0Ns3u1fZtc83pbivU18xg7HCATzwpI5HpggGsJ1OZI+4tw+AqQB4pCY0kGPI/AbQE6PU1OxFtWsFGCERZldLQ4lW2FfoaR2OpBpDsfoMCI/YJwJTo9UrNwkby8w/qNNR6Ygo3t7d0rKJnTcjaLkinfJBbefQVKMCdmYMgrjB/dskZ24wwqgtHhVYF9xutwEWRQy01XhrycOMDNxawGx2Mb5LHuCFwU77zRcDN0ojVkXxoFAoVyfjAOcGvEe4MiSfp75zdiz6aOOIZrfdU0DZjFfUNkhJsFiJqgYs6PKSJHY4um5Qd4Sa0uhYXHtq/kC61ZhbKh0ESvoT557w8hAVNUrMCX2VTueC7vdNFcxftYxWG8iz/NDRk1VujVKZZabgvkaFZBZSdQYoylwtOQreZe8vepGSE517CReyiZnHeaKAiY1KORka3HMlGrxvhzFQGalcDlwX2LIYSMV1oH4cp2TIZdBnZkxVBpeBD53kqGbPEcLi6xJVTnJoXgePEdjYuypFAHT2eSs2ibzCdRsBoQUDehpUs0dCzMOiX1JoDWTK02Umf47RzfpX5xDAqMwso05u72FcC9OVkJpZoUc5pcxuam33+ps/QBhwygBFTFOket2urlbU3zv5PmKIQlYLCwkkU5q6MfQ7cIph4UjayhHQh+WfdM7Q8RIMNCbc4u+32L+jWYSW6EQHXRdZQE3uz/Pu7e6H6+r1wTYUzHiRQG7cr/sJbeztf//bXdtqLrz76aFWA0eIJhqPc2GwPj0fj2QAnhvcw7bAYq0BruTUe90kJW2xCog4K/5PIqWvL24fOfWhnm0Ln9NVgZWXwzoft9u6NaTVErDaJn6tBCUxAN3VZVEuW2GK7uX55fSEcQWN58/LVF6s3a9957/GHT588ebj3//wv/2vstUnbbmyM+tOd5ebX9h+PX53cnlyE57+53dxba2wuDidXm82c9iIO8bO//H7v4y+cuSSYLj2Fda52pxUXBdoKAh/+ENg7YAJ5ZoTIEWuI6fLDxw8Ant2dUfYuXo9mI5w7SDbOZE0EZjQd7e/sOqiCLIst4D9HrEG2ABQ8pWPAGLQbbePMbRn5Ojl9Y7m3mqtC3J2eRA/GRe7k+Pir774HS4FeeFyNGnBpzxSX60XeFuceghYri0VmOu41mi3UATBahg5Ptt/lonfOKnx+0TecSjHCFF+td55gEhftvrockQi2t/d7EZVDKjaIPBtcV+LtRnS20vZ29rc3t/EZQr9uNbeZHWbL8U0/616cnJ2AtvXDg/6gy7HtYPeg3W6N+lSI6Fwz8nk9KHl2RdP2ycc/oXY8eniwstacXQkEdWXt7O62FsT2mnLyQETtO5wKvf7o4QOsRXN1rbXUmJ0PL47fLM5621tPIhDvNUf9s4XZSECKi+E5Gnvau7hu39pMNs5ei9lCE/YJERVU6Xp4ee1EqsVZd3C65Dy2YGnuMIkaNRwPgIQGoh1InI1o0QHurCd65M1S26HX6y0GJ8h7EUcdLxA7D7nsR0TjXeJGaZAvtAivEAq/+v43D0Z9wze9vuJDe/jukwePH7aXlh/s7NBvRKpd5eqR+PBmExof9Xtsw+vLW7wXGQ6duc0zc621BgxNPZB4ffI6eQvSmF/9DB4ElUVPHYwWcPyS94HRIWufZO34r3C1BRfgCEpEZas66AISDjyUOzRy/hdGDjmBoUBKmHmyqi6Gq5fHWpQqXQyxTgGEk7Sntqog6iDD/Ayj5OiWSKqAXdJm2M1NsHweBMH5VoqNFy2jmgiuDpqFcksLE6MorVN/hiL/NCntCL1KY+5T7U59oC7F+D/cwVtJR6LwKuOWxyW3RniOjXaNwGSnZFEcwfiWbtkqlinTEPIgKUGZ4wFVchM/SyeADUfMY7FvxS3KDeY99ClHt4ULdk13ywjALMqHwdVlsWlJmmFnpWZmMkvP6p901e86W8lViHoeKsr17eTzDEedHEWFjCanb5RYr3Wg6lfujThdS/2ZstGZ4tKd/IX1qR+CBDfaWQmSe5+U3sR9JtvJI1eBqnld80r9Kn0pLYmR/76iWoKrpISajImRxQ+BEn7ZmCQBlBSZivAsEV8Ko5XhiIGNwKHBFjlo8iQokJiIRFmxWJloBPFWgTJM/OKD3fNnS04aWmqsjwYXPuQTdcEzrN+NxJatIWAVBRdfLiI+RlHrLUm7YCAgJU04K1yOKPwsY9GcZmP+fQvTwTXRJhps/hH8sKJ0YlfBIwmHCrVpz4qDSSI9ODGPCut67ZYtYupx4zvffLfR/Md//Gd/9eLZqTIXr2YCFJDWvvf++813Fl8/f3V+1u0sN3Z2oJEn/enQDrBh98KRknbrvOZ5eNGlS9o42g3WrGNYRjgrqyTwb8pcgSiQ29reZCJvx5V/vNHphHOyC9nsLzOHTaHCuASRSJeXKb46o45v5XF2cZm1Onl3U1geyWConj9/+eDB4XvvPPn0008hTATDiVZeAFR8cxqCJSmTqOSRMytjD8MI2n/Wx3AY76hgk5IX4qLf617wehOEiGUqLLJ1DKdtb23EZMrzxNZmKrOrK7wFTn8suNHyMvdIReDtbIiFX6hJPRS9+KixERNhwhlGQyaAU9cOXf0dDr79K18HSiJrjcZRv5JaSbLDwTiHNqJ8vC5FmF2PwknU4sH4bDA0bO2d7W2HJmP5tIqmtjcYxAMJ3cOHzuI4vcIKNboS9ZYa8WZ9vLQWT/TFNWIn776QkOFln2/pcmvV5ke6N5sargAFfWSEWImx0J2zpAijOL0x3hXCWVjIVid+/8YEm2x/uH1X2okvsVJotJFuH2+27XPP6tXojDwslxIp/QSaiERnKWOBsTnmNqo/iCiW0vDr+FmcCh/a8OBX1sOyFtuUwcEI32/t8Uxt0CKt0JHeaBY4IxGjf/CzqUNgp1EW3GEcN9Ze/emqcQUsZM+9VybME5lqnvI2QKCvc3DIr9yHkPkf9639JRG/McbxfIwQ5gs99Sq9iyhZmPx8VwRXJdavrGu4KyTjrpHKTRXYschAsK9yi0ovaBe9CVILWJarDqkgH0AuoWWhWVEU3qXSkrsf5a8n6vqFR6VHtQH3L/ysGPWXcqZ5ekVacGC5hmm9/8sKvxsHAEBxUxIWV5sk0huYNxDB1EGEVPHFzYLcA1SLRdr4m90xn6hrGJT+MH2hYWa0vGUsXbfr2/qPqlARQrPwPM620JZiDaCSM7pl9Hzn5y+l+qpkSWZJOfWm3tcm399ruZnxkJKjZksJaGKZTANvaizX0kwd8lxDogLCZchfq8MiqKPM7byFCvQJcMdP1Lpq5vvm+ZlCChC6r6l+Veual/zWK7ceRq7VwgJa96UZzHxrzCMLBn4iPFDIJoBb8ERWb3aMZaYkmaMKId6uZOtPNIXX5JvG1oODy68+erk4O3/zCnJZGQ1fvDnFiJ5c9A1/gt8K59ZYEzaDJgYWaBBVBRGfTuhY2u2QpClPrFn3ZsMBdLKH+xwNhWwTqywTcYnXXiGVgh2Ia0wCEHrVCdnT0ej58cne/oPGAovItLm2aQPY7e0QE7W12frG1x49enz4n/3Tf/b5x6+5g03GXW5/Jy+ev7t7aCPyTlzpF3igr163Lk5fL26JKXS1jZtdXwM8mrl2M3P8cbieAjaGUUvuxjUbGEIb7lQsoBiwNW5x+02HH+KT5CWk0ayaF9uMFGvSyGGkjUs6pWyogiDCLrxdrPvKjaqI1eqnP/2pYnd39v/iL/7CDQoUIkS2LpaSopChEqgoxcm/U6uLxMZASDT6yvsfALCobYFM1HgAJyG76NxogC0V9v9Caq7EAgn9I7UTESLnBdchEJHaC8vSHfRNvrJoxuJrw+g1S/hHQgnQsMCnrBxE6VH3vHvKKDkYd9/96mMrxEmINAsGZHtzy7yhSjQNlypaXzp6dLTYFPBpdIkZuSKVTtfb21s7HXJYFoNxsMMvB/5ikXLAgsbbwCCs7srkyuGSbIz8Sq9uRyuNNibIoVxs2vii0ay32lm/Xl0YRCnIE9+pi+YyRkdJ1+AKPhZOH3HAtYBHJ2fnmCa1mbJ2Z4MLq2OsSTlmBhMXFm3BASqiuw/xcCJ/iUckhGA08EHfADL2XQOSZWw1B7nwA+IhYqt6c63VwPksXtrsu5g9EuSyG8zEup2NPocm4T7Tv0a7AEs5pGW8AHRQxxVcPe4W4hbs6FY4qeUHzW2Ws2Kfr10pQxRoKcvbjb65d2POTPX8SabyLlX+unwOhpKh5HeVwwWViCt+SQqjy7HEU5RQDMAohErGwvjDDrBbMTNYz0hdqi6IFZjIVKA6TZL8ASIlWfY2SaiqoGNYMfrDIiKl4XNCi7IX5gLoYFDS3NKB+c39GkxT5rjzS6LlSc1fb9y7yX2t8a4grTJAKVEGy9AiL0sxP/PfIuCH7zw1GB6mF4sJvtJubVhOkNDkahbFWVG1GaLO5jb86dTthP/2tIS/A8o6ojwZkmI7FQcmrWV6RfNUIS8g4zrc2dyUBYasImZp6Zf98jNtfSuVJ+anLOvyvH5Sc6bPBSTqjYe6qxewwLwMfa6MbCm5flVe3cl0d2Wm5WZeKpKugZBZURrvGvJdAM9DJdVmlvsQm5r8rHnqz9owT9yk7JLqJ6mlzukcQubTViui78KJZ9CYtbIAA0C1HA8NhV6Wt9wHYNvwhVFcCasOMRgoLry3N/aK7mxtvPO7v/HHs+FPLs6O33x+s7Bxs7h+fHJhy4zPK+zR4qKDtFYmzSZMXAg0m4oBOcp4O2JLX1zaLPtkLsWd6J5NDo+ORPAhVTFzxKuQiXx65bSI6dVsb29H485OT45fvRDHfrXRobzGkJOuxtzfr5v97tXhk/fEePiDf/Dr//nx//uEpnF1Cxr/t9//q+PW1uKY5C2i94qwHK0Dp080f/infwKhQGNADgLbevoUErdLa2ljjukyjPfAn1MSk2wOA3WVdBV71Dx+FRoP98GL3CXqeCISeWh/E6eJeLTkLIlM8FtpPsueOLlpbeXBg0d7ewecqCnrvvbhNwhY+Jjdg32LGXUJlijt0QwNIIsAz3Z7QyE5BCS86SrtHeSMUQ6PkNBzgRBfqTrTLKCeI1RWLundGxvr2F3ch+jm9lpDw3xDhpPh1s4mkfrNyev9/V2bz4aLfb4npC5DHkviWgQu0RfW6WpH6JbzcRabG82t3U12Z9hQPI0c88h/wzYyIljiRlnK4uY13tt7791Fcm3/9PT1Rf9sVcwn2W4c6YueEaMN6xKtnXiwC0JIApPloilBCBpLnZXmDrdA6qjF8Qompb162Vgc9cY3U2R0gM3BVA3Sk2VxBqeCGFHqFqQHwIEaqTwuuO0YIzZ395EibiNmR9eQKmTY2BEWIV4iBp6MuBkbAX6n37NVDIWGqIkzCsIIVIeVYgAypIQcGMHuKyHEeOus2uMXCc1QM2/ARFTFYmBmfwj9fN2Ea7NGw/ldi1do2NrWDc/b5Q4T4FIDmQu9XF6a3F5u36y3btdDriTzVyfyF6czU+oVgNBbCw8qqSCrJk8k31b8ncm39spDj1NO+U8+c59sQeMFtcYIALMB1jucX8oBR/V59NfBOfKF+Y3mkKEoBmz0i+Ys2r/8qwmUGapo+4ygTIhc5sbXUb2XrUuC50EZYRM0pqSyVErj5w3+5T+lwenZ/YvyJL2u1abxZdxc6xMjUPP74x0NY5SMRRsJ9lQrAz2eK64NR+NDHPebN8flQ5Ah1K8BjuileaLpWKjMlNiXYFHzo5+lnKCN0gwfEqTw+vCCf6bJh1HCTBMABvp3D0lqj5w+KV34hU7Vcry4exvbpKYqJ24Bdx10U1Mel+RnBYH6C2WtA6KhUIl/qa3+r2it1fY0v4pksY9qR/Xt9Vc9tdhCmDNEKa58V65fXjyXs149dSO5mX9+R678rN/UG3kAbzoFGAskEwKCa3wb7jhsRAFeU5h4ZczJWpKi86EZCR0tzRdQNjwXwzotk2i12521B9uNo63Vztp14+bXxufHPxl8gQ8dDAcwMxsYwc0ZCgHAnNytBXHuAgukPQuqnOatEVO6Mvqz1bUp+nY1setldvy6941vfn0y5FQzjurk9qbXP8Ogw0K6MeXTtbxy+vpFA/hfT8VeoAIST+O82+ON6NDG1Ware/5Zq3P4zpNtFOuf/if/5dJSc3rZGw8u7Az6e7/56/u7B6TJ0+7Fm/7FzsHO+4eHO52N01cnf/oXf9k/PXvy/ntbh3vD1trLy3EdSUNRb1wz2ncIIXrUO+iybhHjWGEztDbhLnHAA9PN0Tp0D8Hv7G5tbXcmA+ca6z2c9SX+ybwoNUCXRG/GV4LHmlh5k8vRV7/29eOzc6TOZ8SgKHkolgqxNzucOolChoXAI4MtaE4W3t87TPmFncr0aVLxkYORhe6VIhrQUBEoHMNiuxhTMDUd+Yv/9ijCBO+AzZ1t6OTSxuBbazb24HDYSwu2It3QXcGsogjCT7ZQrS9s7m48WjzSr63d7f2jXauPVXhyNe6OFqhDeRDsP9zDbQy6/VF3zLrZ3mpBZ+uba5v0tI3l3riLqB4dPEKHWJBIXWtt3olICaNbSA5/89uV6apzTLjq67/jsxu3q+2F9bUbW46vbREbXy+fs6CLBHENc0TZun5jT4JwY4QqI6NJZ2cXN0xpt5PtrWY6Hv2cgGJ8PsTLoGTmBk+gI9Znbzz5jJHYaQPGW57z3vlmZ88e6rq6YCQU/ka0iduwFIbFHELewW4MWwQp3j68NDUt+y6C1sF+tXo7a5T9Ea6BcIRVXrtcbC5tbK87zqQVhRo20PlZlHBLiPfNlKBvPzQ6qoYCHnOce7/OPfSqJovMzwqUnuRVae88c4A3v1NOfVtgTqWgz/PyPhnubtQVlW2YV8KQ5GU+hrOAa56gd/4HT2Yub4pIjjeyrc5DufgY+qlMAqapicjoJW4DYomQghuJmte0wRHYK665SBW3GINa0Xo6UZJ3kir8rvf31/Lw/teXN76rmdOydHpelOdgouZTVv7pTohy+Do5Pcl6K6oMjOeDBw+++71f9xVCQ4eQgG+U7pH5h5wqIALgBb3pC3ZMNiggns3FzqyW+6pNjUVY2QLif50vnCwYrU2SoXw+n9M0+svpTePvSvtl6aoWJbcbad61gndDNaP98++efiSD0mqBNXNqStb5c+jbfVBHeVKGa1678mWun9cSwqwV2fvtAmux9Yn8Un3imvu7n/fP5awlexImKRXH2ZoS3XNoSxsAjcdiV5Mo/JTTV5V2shEavYhWhdexu5L/GXRHDnp02HnnoPNoa2V/g/ZwvP7uw//Jf/AHw/5/dXqR+T7tYkuuBPBmctRjfYvPSfZUgt1SHY1OtjXEU7K57vw8O3iu2k5kX149Ox2fn/S6ZywSfA1vOC7HL+P8BO4L9MNMgwEd8fC8e3B0AHTgb7jf9mCRA5Yaq9urLQG4sZn9s9nWzpM//Ae/9Sf/8t9MB7aUjimRKKDOzo9Pjl+Lh0WJ87p7Aui2Ok16GEYJK5O5gTVmMuwLkrBEvLgDjzqkfgacCkIwVlJ+ljyGqIKInFIg/y6BTyNJtsIowLx3X8mQnHLVP7mWnwrEbka/F/Sw/OTxw1/73uX+wa4NAIQhLyupU7UCLRmkhyASUrUWheQ777wfv5blxcm4n/ahnLRftg046l5IhaLDGE1GjDQctZnmxTlO4xcF9m32Bg4gG9rDtdaM6wCNnBhIvWEfHgY/vcG5HWz2jNtQfEPMimHxcsg9avFqc3vDiY6WKY+S3qgPG5s13qKkFYuY52FT8MO1m/51z64pON2JuajgWoupqU3cnI7xJtOD1UNhHWOyFTdjkdZ2WYyv9a2WPva7vd7rk8VLJ1GFDLN0RuEWc/b02rFWjSmBbufANmdYiKDZWmyvTdCzawegzMM6q4TN0pmNNpPdXnZanebt8hiY4iQMOI8JemBP46gikmR400RCksH0zCaw07jV7ojXHlFVyyirWGWX+Aw63qVgu7BypCnrx+YptnrMXzQDwcfRPwGaQBjyyWvFIrEoYPI8uF7aMIHrjXbi2WZ2MXlq5dLEQ2q8yI3RImhHg3efUuQd5HloGMJNlKVbX1WocvXWtWIgKzv3Jcl8n8BqyGkRP3E+xj9ceykwbo+FXEFQpXbQCtmSPyKRgTxFlufF/cHDpUVRWbSBFZzkkgOofVlrLDo3zAGrqrqoUYOdys6GrGr2VOSfb6rHy0t+zfALxr9oEuaNfuuPxs+79tZDt56XB/Wa2/uBKs9zqXnIOuVHUKGiMgCRteYL0p2H1irRm3BsgVkBYEVE6M72VpUFASKC+ubNG6pC18urY7XxrlAINGJKob10X8JZ13gurRYaZZ4NIBmdAN1q4007yJXo35qqxrThy+bft3p+k7elC/WmDH6mtY5G/en6djZT5GdhMnw7F+DkmVcXy1aKrMS15JxXbww8l40+KkgH/kY2ZoTLIJaSLIN8LKXqcp+b+bP6Jtf5OLzVeAN+/1ql9Rs3FZIzBKWgMiBlDNHDiILqoLVLpHaf64SFjVUAwWui1JTY/uatLB8qDNHqpjud1vuPtp7stdoLo1WHoPbO2632wfbGd7754Z/+5c8JB7QqvZ4AeuLPcuakIMnqcygpQz2xDPNMVyDYN4olNK6A3ZudReHftluUUysUfr3u8NNPXrU3l9o7GLCFYb9rX5iwORqaIywIaDTtg9HiriBIE7zaePECQuOCt7t10Fi97HXPnV7Oi23xagRX/i//F//kP/tP/ks+Ga/PXjuDcDacPjx6vLW5x0v2rN8/G/Z2tzafff58cNEV8cgmClvKHCVpIwVXGQNSp8+1DE6mGIzWh6Ygq7lI5HXSLDTTCobDo83HMzCPTgBKkO+hRRF+lGrIWBvwAhOAyK/6rwD4wsVFF8ViUEBFHj15IugsLn5le1P9Vk2EYPZ5gubt4s7e/vbuHpMY7RQTlEPcB6OxYAzclQpKi4sjZQ32GNWM2631N0aploh9mGdSIKHQIuJjW/wBGf4jKvDJuMLfhxleaKxgee0KEOcCJRGJa3WpsexsDSra8dXIgUhoXgnJeC3kBW9BlWAtoSW+GUR4+6C6Q7IPnS1sZV/TeEiRv4TDlkdwQmdSZPsbXwlSCUUMhhUTdTmaiLm+3kE9GxxqeidxPA72uLy2ScA/q8f5UBgRMVlsP9adFyc9jvILi2yidKrLzQUunTF2mz0jFu2JkXcvQCJlaYc1DiWFH675BjEioEmG0URTJyCIYMB8E7EwTriM8/4pNEznSBA0hCwThDC8nDzZ3wvH403tHyTTQVq3XCR0zTHHHFSi0OQjcmMzyAovTZgcN5DJ4YIDu3GBJVgRWtdgMrrD22z/sGb4Xzp8ALQ1BXYOQJVU0ESBr7ufAFHyC6hJbiqAuqlQqy434CDXglngj3Jb0ERBFqBWz1yjHPO6WC+pfyJmojjgQB+pNpEZsMBlsvrJVXJcyq/VaYAWxr/LDQnmrlJNkqHm8VCiBVSUzRLWjFVhfORJ73ypNm7PIZlWYGnpW5dalGtddW+9+YXbUolVlSLd37/zoaSFBs1DCAomlCe9Muh8zOKgmGGE/rShf9H9YvBCgBl7IqKsZKwukWMqOy/4GLaCGy5tBZZHXyKo3ZDQKemiy1CCZGC98q1Omh4/AZsqZJAQPLtp0lDru7bqFxusmfftv7+pHazXdKQktahOBxVVc4JmQGHriSGHNbyqmUttcGk+1PUMShHOyp/sBlGOp2ZDmTqb2ecJuTD1YfpSIM2T8t28TEXVSus1P+/mr2ZzrZ/UnL+U36vabDCkWSYhM2TJwkjQ3p3/ZM1moLSQLdA1jHcZAQ2TDaOEd7IJZXnpir/xo521/faiIDzj3vmke351sTa66D3Y274cXbTXhHXobrWXerz7eGkJfCT8AHzJWVrgAzU6GykBVG9EUuWF0G7etpvXPGM6Wys3/OxPhXZafPni+MnyweYOixSnCqH7cvYjyZuLYA56tfVnPF2a0lmJR7rCW/r0+FioXccejfrnAkDwzOYA8OyTn7z7znffeXL0D37/t/+Hf/6vj54eTc8mrwdnv/pbv/WdX/n104v+r0Rlt350sP+v/+UfffTf/ouT8/PVna0zR4qoYLtjHupg/tJ0mCYjI3luxOZvC+ABQvj0bVqlBE+I+5Vc1Vk2Iz6MZr+sI3nukyfK//jjj20tsPcLd/bsixfeeizk6s3Nhnp9qyIPIU2gbpbIBPg5Lgdm+/T0HP+Xg4ARlsLCyFnaSyGY+klL1odRhK8jaxG1qV6uZogBkYULdW/Y5Wkf0WdxaTgbinLrFWSGU8DWOEoj+sMbDn6i3tqAjeJAv+HPAy8ri19596kucLvvXXTtIUN9otQbzDa2O63N9c64FfGCi76FEFkbnrV3xSbt+NlP1y4TM9nZLrMx9nS5IdLgMi0ZhwPUfnl49bC5MX3+EvUnSt5MhxR36A+PSB3HoY7Hr/vT7vIGLlDksI0lMSEdZl2Nr4QhS3VpjSlCcIrJ7aQ7GlwxdVqHiX2cGTCYwjNOhonbu7WxGx+uVWFwZ/SstjY7HyuH2gQP6C/cSgV527idEEeoiJTAQ7D0JTuIHHpwLjaIGLk6KZ5BQoc4tAbKYJmCJy0KHopogRfZmy/Kbxuhmhk/voKrVZVUFHAOH8EeNOfkysQDJmhRbysYmVJNN+KBpgJPVq8kjrTMdKlabPrl8ce9G93LsBcnk8BxobVe0WSSkrA81/wJrjDRUdzzD8FUwFu+gpfNuEr8U2pGIoVGtR1cYomXwtOM8AHxVk/WAn9MgoT/YL18ESUPc45XWTClfciWVrJrF7qYndXe+rS+15fsE+LcorUmoPQoH5Ybz6u1Q8dVgTcxl6pABpwwpD16J2mS/PJorKsMrp5Dva7udV5R3uqPtacQoRDsU1lrtR+/85RCZiau16BfUaQB8cnB/r4l++FXv/bVDz/80Y9+JELzwd4eW+9o0M05B7dYKsdd5wgZQ0UBCLg7W5kay9fnV87wbiTWu/FSHWdSrQWpCten3K8EBIO6abQnUcqnszYxOuYqgBvKtyzwSkFGnqiijoknkntFmbnSr+z38gQy0ncQoacGM/nsa7GLte1mQdN5CMtgUWqY8mHejH85lCuZM5I+j7ZWNoktrsg0qU6qedykF4U3d68XBsEn3vqE6iINM5kl0oHm6aCrQXClhQzk6LTlK9yDWYu9z4CrKLNZs1kIIKxOK5lAsZ4TXPgPPj46/Nnzn7/7cOcb7x6t33SvzsfXg7Orbu+Ln30E+k7PRv/3f/rf0EEvNTqHm2uvTs43myLhntxMVilnbBtS0y2TPXlodmWz5EZLVNm1w53G0X6ntU5zdTrGoCxutzdbt8ekJUqmzdFwzSEPnb0N223EzQP+IhP6HAywZzs+a31vbWtz90/+5E+weu9/7avMW6RWtuvB2XF7Y3Gjsf3TH/71Vz741d/5h3//5OWb//aL553Drb32/g8+//gvfvYx9tA5Sybr0YMjYcAnEPHhwXhx4cxWpMauwKI8Fk0TU43RM3RGg2odtGC6DYthpCmqIw/i7fYTM1DCn8meVcmL1WHzl5edzgYdHcCwAMGYKTP4ciqK14J7a6/UYNjFXDXebHsMcBuC+fqxttYV648FQR75ZOJrrhaLkIUI1qaAeHNyCl83N4SsTQJmpZas3N5wBIbI84PuQF0anMYIJrxpw9OMnnB5YoNXw8SNxr3d/b1nL59djM7tiBrOnGR2rlO7e9tO04hEuHAjtp6z5K1mXvsAb4s/39YGpb2+iFWqhUYJTnPeFU+NnZ2ttF+Yptb6yzevHcR59PjR9s3Om9M3Wzs7LBjHx69DeXOmmh6Hh+M6yCnm5PwNTd9mp9ntnVx0+/RkR3sPjra3r0/Ha8PL1uZu7/RsbXGyu7pyPUQosyvLKhN4aXNj63Tah0KF3X31+cXqg8MEZm+sn5+eoV6PHz8dint4NXBoNfOYDRzY6n5veNkUK51rzB6hULAdQ6c7bHijzz/b6mzxedlob6I/zleOXFX20ugX1EHVSUN+dtrjvjHoDceTq93dvabYXcMx/LC+uTK5HtrUubIRPgBvJprG6HaAIME2WWNxSaEvJDaTprinxtpD8Zg9xNwxoNZokRajrhCm01o1eb6yvAM0ZXmX6Z5bQT2vr7yVYAf5JTmBbx4V5FXz5KHHxeXC49oeT+RyNRW0Y+gM4T3faSWsE5k7xUiKTWsKQBImfeNhcE9J+hH0SY2QDliseZr60hA9KpJCcW3wNEXlSQhfKFvJExyWvIXUyRHamFQGoTSotKF0qL6JSPh2krlU+2XV929LSYhTiIEC1a61/pr16LZqVXks6gk+ZSPRmnd2dzjm8i2jprlll00QuZxXOJn8/Oc/Bw2fff6JXZaWxIsXL8DQZDQ42t+5tPdvNrNBsnbT5m4ogCXM2Xpy0uRoAKFeFUiFVtUWljH48lK6XJucDPMxKSby+knN6pWbmsH1/pX7OtyZ08IleBD4Hgzqh1w/AFVRMiRiGIhap3DBoYUZoZyNS0htg7e+1YBauK+kee13gJHq/h2pfnX/srb27atXflYYiEn0rVSypQ6FaIx0//L+FSqmPWwfUC0Nxemr508P99876jRuh6OTE3r15enk7MWrkfMRepM//6sfbcRQtfrNb399NLt8fLH50adfkOIsL7G2Cd7ACasgLg8mkjKJxUQUBS6is1GvxzSSoK7TUX95OhIOIM7EJycnNCUHD4XV1nY7MPFrgHsJ88vstbqwstFoX45mH//Nz1prLYZcr/xzRiz7Nq8DpDGHSDSWu6ev9pcav/ab33nx8tihxyvXq+srGzic7mjGy42Vd3tnW2DXPatjZbWH6mxtZousEDB38K9t4SVLyni+Ja+X8aHJosi4tnHYXMuQIS3Tqhi4zzVBMcryhPTvx7lOX73WleXe5/JTVTlxCt2yEOhN262tVpsFN8ZFGVzNm5uCwLIqhWCnXlaypmpDCwTyQHCWKcPvOme5LE35w8NRQV9diuPAL92JV1xtNhKqKkPMow+HKYACImc14Sy0h3JKi0EsflG34Ep4vLYZzNsBDYVn4ESevJrHg9cGdJp6FikSlml1i6fFigAoHDiV5qiO7ettjv7BtA/jBvns+Re6rFLMOBbcyTNiLSqcXkYb8C08FfvnF4Jwta7XjlY2GHXHw+uLyVi4iI6Ig5xVh5PT07OdrW1SOw8IG8su2yIl3IzOuoOrs9aHW0/e2fv0s+dYAdCnLuuNkWjkDJEEFjF1dlNMUXHilFCNn3z086gcORmGJl2BQ+r67Z1Nmw4pjmKGEKCExzq/AUrW26uNTTKDfdAsOiNslJ3s9t2If/jkvQft3Sal0MYez47IGS0RMG9IyTZ6yBajse1WhBg7prkQpVwzCAZMhtZTh+KK7ZF1OB08Y1hBnjk2+kbHDLmvT+qN+wof9YZrx/3zSDkFXhRSJ88rqd7XKwxAKOHIKUhYI7QjTcGIUXbeAf/8k/LTSMTbRqmqA5PIBS5SUbjhSo+SOzTEv4C3qAFKYlYAQ7Ihlb6teNw1AB1mWkkKjA+YGUqby6tSVIA7XaLoKYtIIbVh939qtmQp6f6nQupA3T/PDWqKBqu01lKv5ZtQLFOU04aW0KrV9sqOAKlCxzG/O3t6ZXFjvYHjFl3ERHzlnae94eDzTz4lPj9+eCQYgNUycCrA5XRi4w1ZgXk4p8papDtbO7u7+/twATpnB6olQFHnlDPNoTk175VI3zUqbbpvs6b5WUbbyp/30duqx8vgWOYFSDy8H4T6SekWOSyOWiDHHo8vvvjCw+FwzzkHkBR8oam2TxIqsMAWwLg3slSErHCvOuUABlUU+WbejDIX0TWYU1WXWv6OSxpZcdVb6E8+ZQYuSrr7mbLcp393Jckmmayo8mMOBmZh3iUlFyAKgCmmomNHjRBcp93Bw6/sHW01Woum482bF5+ziDpIURScP/rv/pKF42C38+E3v/ne+1/Rth/+5KPb650pdQc9SfrJYgAGkaqFseDeVpuqHMhwvcpLInIhbyACxG27s7O92TroXUzPzk9We83Dh0c2gi5y8rq5CoBfLfZOe7YFN6JJWOmd956/ebVLKmIRmF3S7DGFXE+yP2wy7DrEsbO+dXb2Sp8ef+Xrv/F7v/Gf/z/+q53WwRenF52tw9HVQquz3mO2uZwx5AvQsrW1uTgRIiI85BYBfWAw5mOWu9zPhyhTU8bf7wwRRdO1A2fbOG/jZiwzitmWusJJEkyK9oCBycqF7ZjZq6ibWZmr3z21/vOtWsR54inNR7yxQWhTkiY2OBk0iGWALUSLeR9oRkOzsNA9O6UMhO5BEluOiuE950k5ztGKA4TQyJJ9udF82PqsHp7RDYipK8iFQ082OMczS42Z+NEY+iPYhP6jP+qTWfUUs6i9gDbS9pKA5+N+H0fYTo3ZPUDqXaWt000eIuI0pdLrq9Pzc0tyb2dH57GkIIn33cnZmbWCsaNN4ZeIi7NnGjNnXdDHeEVoGw7tIeORsOR44DatX6c17IlglAasX3KeuOnEm2ZtdD46PR/a7bYmpO7KltNrEkcezue+c4WcrDq2a3x5Y2d0YigaWx0m7IK9lStaJ9hwwb5NcGkQec6jkKNsMjC2vMBcl5cafp6fdknY1qN1i9XEBRkB4AzxFtJhx1doqnVkZEU6HE/69N/xTGGa7aw2FxpjOwtv4g9PBFxbNEek+sAB8GD8sZtbEBvUAf1r3US5OhsTt0A6UAAOsSA4k8sC+dIJNdimBM0NFMpR9MJ1rabZdyQNsk8BBcF5GHj0f3zbSvyCiixKHR7K5hbwFXykjSnZT0A+L7Dgj4LigyT8D32EEJVUMwf3lJTq7ihZvDFKS2r5yvQznGXwbF7OM9RsBVvLkBIKkZMtvbhLfspYq6nPauHuvZLqw7fvPVGadJ+nvs2jOlw02BSZBdfX0gxsTRj1IGKq8cm0IeyQxkNVeGvHUReiK9vWwaF9MFyOvvjis4ODo699+NXu+QXQ+bM//teaas00N9pOCCVahSVrUobM7VW1Pa5WjnrNXSh5bJ2odubRw6S32i+zB9pvEmsvcoVwSjJ3nltvb/fUfR0uzKCgu2EmolDNmUPJvLJSzigCefa+2DYp4o7DXkULWxf71acRL+4bUOYOt+dJmL67Ia01uP67kjbWFoKfmtLqktLBkvzy1/O7YsP6SDWbq+eSPDVn/aoCfFZjjKQBS/9iM1+4frjXOcLliyA27lpV1+Ph2XF3dDH6+cc/5Nonys8/+vd+n56x3bp1PN3Tx53Lq+3BcNZPSB/bONNeAM6WsbBAl3tpPhDxZpsKa7WZjVkw3cbjhx/s736lfz4bjJ8t8AO7Xuv3xuKEQ7DZccxIML29OOnBNsaZdqs3GtC0Q5WImSBeOmeouYqjgNb8rNFuib99M+pfvGxvbX/jVz5s/9F//+z58+M3PYcJLra3qMIG49nHb47fPHuxs94+ZKaHfbg+L9+KewjnanMdnDrjMIgBDH9R5K0ynFl9GtOAdkpAfTp/KMY5tp7rU7y+rYoo0Pn2zkc68Hg37Iq8v89NjHqQ6XJ8NVfXtMATWLa/OGofbtbazZrSlVVnU+2Ax8pjBwawBIXcrydKU7iUcPGJ5SM2my1EG8wg4rmurdE0oneaBj4dYwWb8+RM1xjBbi5tG1A+gYOHH8DeO9h1RgieRcUkPjC0ublFgSD/6FqECMZXKoQWb3uqDpFxtXDYH3luRaBM2g/LEEQqagot7Pf5SmxudU5y/tkaisItipvD+TnyQCObI3SJfEyWnMhJmfa1MCPZmtU76R12jh5sP7y53Lg5G10N7F1f2tyyy/jo9ckLjYX/scSX/BSx8gJiLbJuNhwZamPA6eBUxBU+kpsbXE5W0tRrliDKWo6UwDILhCS32d7QElFKygwGx1imnnCKYMYzIXpt/igGjawOOvDaVR7gg71YR2wRkevL47Nj0ueQi4qO48TXW1O71KbX2+0tP01R2YWUkMJk4Y3l5u7yzvXabHCBYwJjYE17UEZAjaLWgE13y974mnK1aoqp9VNy71qBKZNXXNR8mucluDhYALjyeDvHhRUdwP+lQLbNhRzFZ+mX92gV1UZpAmRSAU7fsgqUg9pGs0eRhtkPtztHtYUGKI+4kAylJN+GKy49UXg6lfGunxRgju7FTcE4RXwq9dZL1lLtGrB3YyHdPcnikZRmUbpK9Zv0tDz3xCeSm9pOGfIW7yFH1lc4d1cZUhSu2V0wNVEw4ZmxV6P+AByIxyUwjTOfSavwl4G1Pt989jmW6unhYffNq2mPSLLy6rPP6PeYVa3MuJrubDthB1dWxx+rQd1RXYTVZbTtGpHwuJSSofNpay61X5mO0oXSqFw0Xhn1pzxVFKv5/bwfN9lqHvyp51IRTo0kCoQqoF7iINq8gYeicZnxNupeOHjQ8jN1Cy8taakVJ3uIgBqTpgbmqvCWIrP9prAdKioiUa3ub1/rgKdhd+9qI+uv0rS7wb/L8Lf/lkGZQwiCpBvQvmyZOispsIZ/IkZkWgQcPXzQfrjvUITB6ZtTrMaTh0/GZ+NXg2MKl8nlwm/97jebG6RelpUeP/PpqMfDzjERZANKHfiIIIDNxXqz0IE4dGS9s7Kx3dzeQUpyRFNnY2935yFu6+TkYnp5fr1Ia7L44tXs4fLO4jJHLA5o+PYFO4NyjMXWFqzXHfaefuUrInMviCjZbJd9h8KewyQiCbXs2xl031A9OgL39OTzB+/v/ZP/6B//X/7P/1fOZqtbDbHhGDGu27aIbg0vpw/3H+1tbUOW9ssIJrG1t3/y6mUFb5BgRdYB9KTOvYeYrPoQWAJgkGbwYgcGQaaSkZ0ScFWMc6gFTxONT3ofL1BLvVKssiul0La7WYtLrRnAtusXwz+IWWsixtPlh3tqiTxgjZYFhsR4DsC6vZuLHhKyORpTzV6gVUxTkAOEpl6qunxVbLSe7Ozt6oQxskY6HcGXtOoqSFnIV0cts9WRwBZv6Fo3tjrOdDbU1pMPLVu9ssSEbA/k0+5QmSV8DIGULuGq+pSyL+MmTKjBMUpiUV5c9GDewrM5YrfNTINcCDBvIYiGN8SR2LLMLj66tOvucmyZo1PO8lg5Oe3DCE49g4venJ4snl/uXJEzb4+2hbx9et0ZiyIY3/IBg6WjRDrXk1cLzky9dbbIshgohBocEYUk0zVshbowOI2Q/tv1DRHEwD5S0XAK6Lb16w3GlmnqzavXqKndoVaocE4mjwbRhFrRBvFy4XIYu3hxLygoLvg92EsPZjYb6LJpslNNEgCBYOgwEzIc7Ga/GB6sXyZCzSxWjjBrx1tyhdLUdgeytGNoJnZjQSWcXhC969myIFnV8akucpUFdbbbZhHa8lCNd9AzR9aG3luvLBn3kYWKMuc+M+jL9FRyiCxFWE9+D/MV9xHOUX5FG1AfVxxeyo/g53EomGLnFKPIB+l8SZ7fW6JSqHURopYqci21WFZ5U9L8T7lXQORPOCeZZZm/9DwKPCUXclWf53VJMku/cF/66Eltkpv7PNqBqZxLVImnFS9BSZ6U75OCiN1h8k5fv4nNfTTiECgZfBp2iwdkKNqvSX/t8ePH0Plnn7FhfQwxvffe+0av2WKATVg2i+dqkmmCEKIWuskM+okKapIa5xTyrqelf/MBl63myZiXDH7WxVz7Bc0APUl78qqoZO9zupHKJ3oXwc69J/oAvNwoCgQlpkkCJZrWcoD2lBcvEBJwKHRRRXqBsdJUNxq/tx9nB688kfxx/+9Kiq3DW3mCms1D6W9/V2ch4FUKvy9TG1JRSaVOa7rMkqWVRHfnrSJ1Bzt5Tc2z5BCFGw7TYo/C9AtnF/3j067j6v/R7/32zn4HK8wV6uTsOYVJa8Pez6GATcKFJ0wgdx/EnZkAn6jktYVGa6W1vb6BVu1v2kJbydX56emb12ei+Swsz0TDceKiiCWdTSoh7gM2V/oe3qWpSP8FysM38CjrnZ/sbBzAqsQCKNX4Cx1jKypHJ1rlzb2jlpDYi9f93puHD3d/4zd/9S//+qdipTswg7+H+blknkG/HhywVzmR9tJZTtSD3S4eSOcNT73ej5vxzOiUVF/5CeBZI8qSXSQYYVni0ZJVANthNKuAHl4kzEBJCijjX8c+V69cE4UvIISHJHMmhoR7EdNphMhvPvXWtx4CGP0FqMYXX79xyx2ahnCayOmtRFrSIpuI4FmyFNGKnsBfEgaa4ECqVju+A0p2vKt6Nxqdy/hq2qCfTZ05QqJsO6FvA9h0YjQcTuvQAJvvLpxuvJdTGUkn1i6PDYHTEyjZ6Y5jJ9HQyVsdRW9ZDlHTZkISdyvDglXj9KiFRjIbbcPR66VFcGvoeGwUci7Qw4qYTli7/cOHy7PbTz7+6PpYrI13xMDNmVkrzWWu5st7N+NrKB6pXLwlm2jpjfOpr0UOoV+7WRIXC7jxgPjZpx+rLoMZ8xibcRtdX7b5bHUFcTKM/cEFEEIpoSZDyi/Rusw4w2arQS8iO9E04w7wB3BNe0Nc0wbRR5lGz1jpL9bTTwxKmb6QDETSYoH6kQwWJMYqlMIYFnEuEgfOIPYwchuGTDRseDQhA8PyuPEv8fSE4VZihRjvtA/W8ERByVqSG0+kmo2e0j207yU48JAoYBrgpfpV+kb4Ame+WAzlI1srIo1OwyzUNLUU+AvIqDzJkg7jVUAfxqxluir27ZTMBctonm6Ub/O+3FhI6WQWAv39XUfINWHvs4dYtoK33sJctcBaTunrvLb6pNSSwmvy7sti55WWtyGcN0YWYZZnWXz8klJWGdXsyio8J+6Mmrh3fsHt7LLXn5xfWFcQkCkI4VlaIbbbe//Rj35sGk7evMGqfPDOOzaFRBxBr9bbZkt+EJJJX1pxfC33PAdZa1jvIoK5JUQsL54Qak97qrNeGbY526EfnvukTnbaWZIH/rre9Th/65P6MLnyIBob6nTyeBW2hBLYaE8AcZ4AQkGieF0X+UmT0C7lBBAsqDs+F+OrHJl1jSeY5/KoRcoE/rtT2lRS7UXNePekNK48qk/AqAIDlHdlznNiblIRXgf+Y0b2TQiwt+4CiHdrwQp0OC2XTOcA9Ydno7Kf+8XHn3/x7BXK/h/8T//xxu7G4sq0PziZXo229lqj7pAHBSql93CiXs9s1Gc1ZnfkEbO+2GwtOeN1e6/d2d+0D3SxIf7y4ss3L18/f3Py5nh1qbm1s4fxPz+mHer3umPBwW0XCttgYBNT0ehenZ2dHr3zEIIIx5+Vlis3qsAZ7QlzBDbfahYp6WrQ3t7sDs6h4N/7nd+gk/rx529samJpYjhwDtdSc4UnGyHRQEFMuP4yFBlEo2GCsDNuwEqw0h2PmOdvwYZvqUMwIVBi/NEaTQyPvsPFoNSIug8NCu6AByLil88z427KfWoEK5A+2kDrDYnn23Al6EGf65oM6pW0RH9l6w26eD6fUOvlZ6/78OFDKBjR1RFrKpFfmu3tvV2hZD774tOPP/6IpcbmaEHpB32GwyEX4gDz4qowVKCWcEbIOO114S9eMVwwHOKhkWhMlFwSE9DVaJ1ckDGn12rwm+eOOLzkAjtEmLrdiR5GSEKo9YF4eD0770alT52LyClt1B8HU90sttdjBvM5+0+zQYaOOhSRsKXq+mplNr49Pxuu3xpE6laatRInAWPMUjW53bQzghvT9ZhodxEvmwQJG9NDbiwubDI6xGfdiIH9OsKsesaEI6FkXfBn0HM+iQAGUkJXtNnYauFmexuZiB77jjnQi0WGpOyFA1cUEUHRmdACePxL4r0shMcaiTPepOAmLkTRl/HwxgOs0M9tOhJMvCq4rtFEnjhfqFSh/WHvHKV1gE2s3fhE4zcHDONJEx5sHugoqQDA/KInJs/bLxNGk4KLD0pZxgHZgv+0W9uJfXVhVyrlczcUSjIHR8stf9j9IgosrUZ1krf+waS5+gToGj6WPJXKb1lk1am0cFyuNszIRZdQ3QMBOIwis1oyIXfJk1JaloJnCtG28MJRaICBUnMKzVt/JRQ1LS+pfJSnKRlplgqBnpdZM5n+kvKyJk9KXfX93TOtVR1P+uhDsQ+MDOUodLAZxbxj1NYBS2OVaB1VbSmN7t3RjVbaF/3h0f4eMr+5f/De03e+/zc/Jn7ZRI5DpIJAw2DQwowu8nGwVkGARjHUWro8fIz3dY5rYyrC2RDdU76xUUkUyfG01OT6EOiZoQxw2oD6JL5XUlam0A8lAEo+974Or7HJERvOWY/DjmRNbu/uuEF48D3iPZ9edGHSKScl+2G4+Ii2AtncGdU01Se6YYhAkefxHLqbUIXb7l5rrDBKRaZKw6kN5VpmWR6QlYzziQiclPv5pXC4WqU6sAToQo5Kv8Ec0Ay6VSwlco44yb4/axBExG8nwCWByAW2nI3VxXX81uzq9OTs9OXpm2fPPvnZJ8SHJ++88+DJAaA+PntjP6hwCt3TC2gm68XhEotMOjj2sJIcoMybvkIWeFoa4MiXHFUub0jPtzf9l1+8NtqasrR23XKO0UrLUTDs/CZ362pjQVAE0lkCKIsXINANm8HC1769yWBAPicuMBSCaAIWM85M0NyLPn5mc3cXLet3TwlxzPhHjw9Is/+jP/yNi//mX/WfnUwm/fXtdSdr8b5bXGuNB+eCZNyy0IBUw5EBAyoYMIIW15Ao8O7nqAxO1pY1HmeLIAR30euYFDgxlp6wUzTghrIsLEQvIBfbvpS4aMory9DXeVRAEC+OAp2dde3OoHaDToM8mxuD/mRnh42zxLeJlZ4eWcFEpyE3pWzsEb58wgpFkRbdo4VglqGop08/+OavfNtBJzxK/pP/7D/9s7/612rd3mX7z0BhFAWUtwMNap74Fx+5tsUw6o7Q+cP2AwzFuE9ii5xHhOLRQHF72N6P6zgXwOE5AWBln1+kGqnBr3d2Dt4cvwrFZQocxf+Fwi3S3eU0RoBuj18+zhTY04vv7m5HYZZBybqEdy2LAOTNwmarc9taFi7gRz/+wdHW/vuPn2wdNRpnOYWH8YBFCgNueZuXur7UQtzqjpYFyZl0r2eLawN/ppOVX/3e2cU5N+MTO40TXdJCLGqgILmrdnOF46WJ5KUClsoOCu4qFn3TfGhk3F6IotMphmZJWIuCmX0ZtB66R38QqyT9M6YZPTbsxlxnNSzog3SlkbiLBSBNh9QhvfFTlzxqzjiJLUxtX7yyhetywWEA5QgKeJFgxQkICmE+gCUcKTD2DX1r87aJqpJHDWegkEqPIGJfKoirmyWZdkWSxiAHVcDuUYO6TcwtuGm+p6eQmXCqIT8ayLzeY1MxJMi4AkRGmyBsl2Y9XHb0+FVhCIbRrbBLYNu3WbS2R+hPIfX0JzFqWTzhgYJsJHJd5DSaAQH3FqL5tchMpL3oMIHRL+gv6C1EKu0OvyxQI3YtUqGsMX5aYUFLFTcVoDEy3I7DOGQpOaeDolZ8PiA3Q+TZjyaKxj6g03af+4SATLWK5bOunX6mdyi0maNKw9mBWuQia0yFRe4mYn79ww///F//q+WbWQ6vvM0p3OyoGbcZR+NQnen10sH+niCVXJGpoF+/eAnaXp6dMX+I8QwpA4e09ubmRz/4sc3/kjGhu39wdIS13N3eE/JSfAKRfbmiDmY9XbL1IfuxCmnRO7OvX1klfK8sgOV1xmhssB5WW7duGhbUEaXJiBurgnM0TyrTETWC/rK/gfLPnz0DXNpApXCI0m7vCZMwazAuzOwh2tndLu0NvjK8Gg++edMpn+LICUCUMMgZPYJxgLxMH3DTPIBmKky8LyNeUKSBxcXFfrePnPI68RhhTeGKXrZCxLXOpPqQE4uGikOqv94CpPAtEQ9Cm2ZhovBtRI7FdR5PPC6jabOlcW1heU1IA/pKw7F8PW1crRyuNR6tr1yevVi/XLt41f+3f/mJmBYffPOrf/CHv3cxeEaK4hwjdAwYsIXlctjTCzgFjDurJkHYjaWN/pG/qekIDbgnG+aXbEfsT5w6keBbNgRaj1u7bZy2A5Y3OzDw5tn5usEx+K9fHR8die69ud7cPD09ph168KhlqH/y8U83djsHh0eTcQRriqne6YW1sCJeSrOpP7jDzfXGpYCBi2svnv+40d7cOXzyT/5nv/t/+y/+mxcn4yVRD6Yre1sPbpbbp6OzKWeu6NNodVjJu7qvMYbbWQ+T8YifH4YdNjfRUDk+mwDEXI9/UjUOV86NdtNWJE5vMC5lMMoXadAOSqdkzSYWCexqvq74SK44VN7A4I6EYxRlHp3NIoUkd3bjT8iBI+cBqmowFiN179GhczEfPnrU7Z0OhuejyWBl6XbLaJZVttvaEBDoYHv/vD9aWW6qgH6Mook7Q7OztrXbGE3P/+Sv/9XL45/vH22gpjZHhyVvoExbAlI5OJBxzSH3HMCHF8ONrc13H7xnzY7OJ7a1Hm0eWST+ddbpLWjxR6LKbu901pezZ2ObN+fGBokL00Cj5GDCBw/2kZnTCzsgwy9OLgcoP3qX02CWFh1mbZn4sNs/2zvcxCny2OcgCmZ4UEJfUUCMtX1qH1WjeWj/OPeQnYdbjxu7rfOF20/5FA9aTr5faeLqnHacvbX+2YTeXJmc92y4bYumsrp0tLbV5Qq5uODUEuLqea8LU60RBddXueKQ9CCHm+su3Lyzu3lw+PDlq2eIE4uyhU/bSWIX0rez4eiQbJQE5JYPv4zNVnZnFxhIGDMqUQ1mZhTIicyM+YVUTGPkVNLi5RUPz83E6mdO3SbsdbY7Xjl+zFoQiHeJw//xmKsJ7HT2qovm2igr9q1ovxzc7QFobXYENsIVgYzgAiAiFSxU7ksI8IxrsaVbKsHJd1wsRCMFb9wl37oNCpPupU41lo292JugQ5/kHwRUeCiEHSmAS2jZSwWe3isAa0tkhCaVW+vyU/eiMfRpSgmyTguLQjJ1p5KQMrNen6c5JcljiSAHuWD0YcxSRCoKIots9EtJ9wp+TvPyeUn1LoVgE4vLiQJqpRpp34RceeJfGQcYFl9qJHXcK16rlqBgZeiwvcDDk+ckRQ3DuiLRcDRdM5TJ/d95iKbFMp8Ks0MCn83ae9tNSmPKAAqCsp0Fs9s9P3/9+jXBLYUXVj1LezjmQI3zucVdJAwuFKAVGQB26sL1izMSrwLTr5deI8NcUK0UP6H50r9wErpWO5hxStYAQeleLvBt/BIdfnjJar3+ta9/oCU6eHbidL1TZMxi+5sf/aTT3tje3KRdoZVWhkmRp3DcEbDQqAxm0e+Ttu6nz5M6fcScknCRoEGn54y4RZ7mFQkY3ZFHI9POelO6VqcCjxFaoa9gxACnOK3HFMZF0yyjWJZGKDBvXd4pXrDOt/hkq5AGW2jy6611kaITxg/T7ZBG3ML27u5v/97vMBZfXo2WebqYPFgbQVJ6+KpwVkWiyhFGQu+QVALzeR1v4FhI8De2wsSqlcPbon2IwzNaecsaIiz1cuNme6fxRd/Wl1cPDvcMQHcwlMvWH6c0bWxsIwUGM+MZ3QSLf3hzUKeuSPaUrVhJnC1DzO1liwcan5GZaAarne2jX/3Gu2s/P/npz1+vrz/E+uGinSw5ENHckQ4J6lHUGLhxrGQGVYooW6c7cF62ixZOBp6PkjAM9Q0j/7TbvV5vX7LPGAIbcMyqebHgtN/qzKx5kiDWmQwVmMiAmgxFJUvvbYMtYhbvS3YUhfMRGMFoVzzcoEUBf/mnrFNLiKuWEG9XPAFiGXTsL/jlbRSllu0fQgEvCMj5/e//xU9//oOb5djt9x/sbO5+h2XOQhJpq73e6rS2OKdofzgI4n7Z70sSfvrovdNzfudcRWzMwhmTwHVXSw2FJdg4O7ngpYtjoMjG2EdFyNOIe8ugR3rubNvQtehEZqBmkaJe4jThSzQMU2IwiWIIM4bv4GBfe1iPYKYilWJf4+u93dyCHwnM+83dSAULo9MB39DWegSPLOAcCW9OQE7ZJzScnC8wNtnfyMiaOOhmkr3Y5j2OIFAQnn6JQhqoD1DWRDagfseFaMMQqua3QBq2ItVFRwKIEGZzFvlKIRAJ6hLeQqNirMrzgiLOSxQYc6fx1rLn+oi1Yskb5PyRPqhHrpQcffpo0h/GVGYJEHQOrpsPrlvtS7tEbVzDfsQkbByyM8JmZlIayldOysqSMvB1hQcYS/KzpvrTFYi5Rk0dOLt7XNBxfVW/9VUKvHseSKT7gKkDqSmhphQzn3KLAPJUfoHfWLNln7dHaXdf/B1/aws1yXhBq6hE9OIaWT5yb9QUhpTdVyxnMZrIXmpUZ1II9n3r8qA8frvKLLFCApVZpMFUlEcZkSBfH+XnfR4lk54JAshticCEn/FJnUifurEN3lsIEhkJhodmimrTYGmkbfN4rRyJxFcTHlrOKcOtBfLV9mA2CZnAsTlTICpjWGqBx5LfObFC6IRFnkhTrrUoNsiy1HJ4O31bwhzje6wzq1apGe2IGTb+LEKl7Ns0EunOfZp3EwIoHfSzjE8dt4yT/pMaLVBeI9rmGFu73/383q98O7G04xB18Y1vfA2YOmQIxhWl1CgpHzS7Kg2utTYigHIOwrzh48EEJAdwbKxNbD3ZNMtnGeFwLBpTJ6lASHkYuPEV9SRUD3vpmvEEHaXNNOOi7eUMH3NSbLuWD9esxcX1Ju8bpp8Fx8IVzE4XEzFigYC20GmsXV4N15cu2ZxJKZz5h4O+Azs+//xzEQqevLP/27/990wla8d4Qj5dTsAb00gvsJA4I06gg/60SmepTALieOAQAhuIsuGGJkrjjRIh0FLPcYLOWLTbUhMgGvpHs7Yw3dptnpwsnV28fvRkD4JF8uFXeFHALdtCmTdIEv6BBDYGDTWeWYZZCBA5cyZ0FpFRDDbH6jrTiWfB6MK+2r3vfPM9J6a/eX0hZHjEuiXbcQiCgFxIHz4wRl4baCBstzDA3B7gxkQmlQIJsc1QnFxutBiqWgbg9OK0zqzxR33zzd1cVFgCbb7NxJe587Cm+5+kT8MHwdHKxQ/YKRj9kYl9sL/r9JCR3W7d88+ff/781eff+tbXnz55sAZR2100mRDKYToKD7p0pBraoxn0MDt2MARsMLOl2S0LcRQh1AxaYk2hL75rLbQcvuEIW0OH1Us0kfUtG6j2Dg7Pur04KkNhAMrHiuPxRqsH2XN1KRp46ISEki3eMZ4pOO7vnBEkI8AfPXJn9JlbXP4K7AfxEi+sCzekFpKWzCDBT0MLyGMtYM8K77fGSmbB2p1pTPihXw/XoPjxTWPkPJHsSV3kU4eiU0BxH13d2Vgbt69u+o5mmFxeC4o8o/S3zpdsPR7BdvbwwRozZz5f4YQSIlfpNjQLzs55E+AABNNhCZoIncGaaVge8DW6RtKCvupyM1zuJRmQHw8De84NcYTXyMnLceuHo1apDeKAZ9MufYUVfWWk+ImRIqNMhLOuOC4aQh6OI0GBr5ccgw6zRL83gQcx63xrI7PdAY2b+3u14sAy6gAgcDlHT2luRIf8vAOzgrXfMnS9DXyyKQT0aTHuCV6ND68Swp3Py4SLcLtqsZpd4g0xpyJpT54X7Jav7n660ULZXI20a7KWlOelaX7JYBx9bphrZg8Blu9KFRqQD93fp1/66bknNdU8Sqs3mboyEPd56is1EuJ9phJPNLTS7sBraXMG0DpxSgQl8Ux4LmfEQV4xyYoZnSAs2C0sH528jTnxl9EIWGcBn8J3a+fJk5wrXLwHM47LS87feff9r3CTZR6j+lnH5QkeAQbILEI0aVC6GBUZSYFKnPRE15Z5ReBZt7BcwkbbX18MNsleAFMHK96R0cP5sNbO3w2LblZ4MOx6Z1lutTa2tzbpCMAuz18bn188/+L3/8HvMczgLakDrGf1qsKEKtbnvg21KxGgywNvYtjQAMmKQu/LJIVamb6sIWg4xKiwJh6U16XZIspkN2WR/9LWOimuYRjL2ZXWatyeiaeIj84PrMNoB73OeTzUj9QIN4y6iCJfZOz6aHHtJn734vxdCz7RG13PfvjjH/O3+D/+n/53DiiiXaR5g6ToNvgXYEAtSsNqHbIfU3UKPUpg4haA5MaRtgAvR6pEg2tgGmlesbSQRbHLr9r0GZOMt2KkzThRXo8Y0h883v3058/YosUK4rixsb7VbDccrdda7bb8XmHWXnHg7OXSjaAmFpSSM8M4H1BCqEPD7XGhrnPGOWOH0N8s26fPW1uPvv7eYf83vvFH//KHnASbq7Pj8TmRnD2mubeZIc4YllUMogtD4GqaTI3yYWY39LcUv9gU+h+ChV5SHrS3NondOCTbOX0iRSzLN0EBgKvyExW8TYGK6tWNh52NjV63a6uMGZ8OE5P38d7etqPQF3m333TPXj//7JOnDw+uDnegV22w0EMBEsau8CURL+kygynUKd3zo4G62c3sghZTyKhELHNIhxnHPUDT52e9YXyvLx9TIApC6JAx1IkEDFpLlHvOh1XlpXQiOzgFvfbhKieig4R+xJzjAHgxt0SiQF/6qFfkEYRnEScqJc6ZtaDJTlTRcXBFY6YEySvYX0kO1ZjcjsnEF4NzoWeb/FYg7VMePGsbS0cjLjVB/kTTpTbJJATherXT2n5wsGenQ28BWesPJ6PGyqUDEUN3bp3HaDU7jRovQ5liUBiYaWHL2+hvgG2Ww9ICIxYGACaApRBm3yJC3CO5KOD55dEHDArihMoWoTC0Xx1ksjqPfurC5lY59mxv20DhtIajbmcNbK9wVpyMBctsLI8XxY0XiNG8+9wRX45iaTTtcl62g55O3xZsGoOrZUjKYqr9CE1K8lNykwm+uy9vckEX0J6CpQt4lQwAUeaa5KlfueZJhqPEoytPtQYH7UoMuC/TF7UmbDC8Y9BLXHWgXeoJQ2r5JThtnNY9zr2pr4QWDgiTDrFKEITpD/0rHmu1DYYM/Ie4UO/4F2G/pPBLX7ZW5rd+omfzVx7W7Pdv3ailVMdK/+VXnudViTZbq84AlHHQZdghLSu0Kzf6sba4c7DfG/ZiJlheGsf1xSlvC2Ip8hCj0wjOi0Mto3q0PCAYfG+HmUqXdcn/cO7mzuoHzRYTOiS1t7P78NET9sLxhIU/2hZIwghEj5wPE2qGropJ0hm4sQ6iFuk4MQuVMnzptWaXQcPYzyV9tUVJ83cmHCfhjCXPOrPq0NTE04wsd7S3p/E//cnfUFee96lwLk4vzvD5RbRNacqXVEeS8FMtNtLSULt6aGq5OCEGFmEFhgTJCbkyfKYx6LImw+tZSkjPIhkkfxnqwiL5AT8LMpNwgt149PUhMzMFYHZ2DxUIP5OwTE+0c6FUmA3RTlnIgBrsTi123eQRcjvFD/yz/+Kf2TL0rV/52uHDfcFxXr76zDoksmLwJo6ocQa9QY1AE1FKuww65MlCCU9rJQWsEYhOLT5jJjnUla6G4hGWu14YC5jBEL6Okjmfk/cEp7VloSnWNndavA+cqatw/P3u/uH52Renp7YEOYpmm7rCPIMBq8GoYlcyiepDJTHe9KB27XIEvhIDNkK2+Tx79TlXgO2Dr3zvm+/87IcfjejdRqe3Tk8nQnAa9imGPM3GECio8HZRMRZGrGAMw41PWW+ub5VTg/tDNviyyy/kyJqL5sAcGc+MRJkjUyCl+3err6ybzJE1auAqCFoUKBU96XQ446Mtim9jcaF7/Hpzv+0Qv9aauEONg53t/e0dWiXcP42RZUkOtOuvrHHk+RJ+K/gKH4iLZFFC/oxRQNlOEgAjbGAMMAjb7ZSbRLPTevX6mKYdcbL0Wlsdmt9wOWJZ0VeX+GgkWn+BmXWTCTbOkbE4Z6CNwTF4xPXFtZcvXz99isIeUPFxXyBnoIpnx2eYDWjIrCOydBzYU2fumi/gGqCJXQR8RLVOPcJdotNiD5udCKBMcdns3A4ub8+cgrKxEEMaxbrI7ukWzA4nmn6air3d/XeJyWerw/MXo8t+QBg0ZFCy3TMLI8CPc814McNz2zJVdA/FrQoQxSIOeHAeJj2TFawPCWHk4htC22kq0aqQ3bhUzCNup9/FeUrmgiHX0D9yqgEkJIIXp9JkL4FI82IyNSkhCU03w97wpjvBNazyOUPgF2gO1kxE1v6yWE2Mok5uXl1uRQCII3tNBWhy0ZTAXDkNqCDWPLzLFZyiY/pTU97NASwP77O5qRmCKzFT0J0BIUVWKlZoQ/0wIpcS80FMIoHlrOZUJLn3Rs7607Xe16tcWR13lg1v0/I7cuVLtSlK5prfW+rWeh/8nJaH1pY8wXdvp7xOhlxrvblzX8hVmQ+hViIEeOtDr3KFUCmkrHcsNhRimss+NooRA5H1xOWEvKzIVeTqoM92TZhP2LgxZQRohWYI0/Z2iOVsrcPfmAu4omYDHHAqnQ8fYTpm/wwfd+cdAUCFqmbM7DgSdKPZSghQPJQQP0xiODBKqFZkLtQ+Y8osglGz5mLnQC0W6YiFR7OJL0KAolRkBVo2OqVq6ODtwamDZsb0nZ03rg/LNtufvfjo5xZN9EJsQOtsP+3ZqP/T1y/e//pXbxa3j09eQxjmUFE+RODUov3GEC+mlsB1CWyhAZ5HIHe9E6R0pxCh8DcZ2+I3IaPGACJg4t4XkKNknvJcKmCJDSSSwp4rIaY4gEy/l+cnp5jHMTZ0cOFDm4UW13lLXLc71FsrM0jMKTtCVlNKEX9vZx/9/KevX798+s6Df/If/YfOOZpMe+2NdeG7OcpY51HHOZFN7SAefjCxTGA5H+B+xwiVjRwqx4z4G/aYoCGuHx0e++Nw0ldOtFP2zw0nNsly2KFnckJeZ3dz0J3R+9DlO+p2Y3Nva+di+KYPDyJ248thgjKFSiyHZs9XDfXdEsVjoVUBVLdUzBYKlWt3eMYABne1tx9/6+sPP3sxmA7f2LM9W7jiswrzh6plLWayzAKuJ5JRYS+VryKTJTGgQXXkA+GF4nkEnEqsZCOPBohWzpiqhEw8xuuubWAuRZdkOMrqyY8yYwukEuc/KQeR2Om0v/7eB4+PHr148WzlRvCgW42k/WIu4v89GWDviQJOpMAdRcKIkS5tRvWXCadgG0wDMuoGb0ZTx6yEFlR4A6VlMm7P+mfd/sXYyYWIBvS6eNtqtxtcXpqrmydvZA42v474CMyo023yTauBv1AjpfWwc4IFLeToGYPz4sUrmPrw8IG20G2CDeFpALA1he+E3I2bYrGhhk50CV9ZcT5EA7wNxZpOxcK2BOwLU6nTRrAweomFQ3JBsCjwcLqNCGKimAge6ZNpl6PNoSDsa7d9Ifu7Btno43mzeoI9I8PTL5KjmnFxpx2E0cOBoOkzpqMMV3BaYiTqsOmQO9H6YvlmkRIT000MioQq8+W+rmX6TAs/bbZPcC7+ROolm1nmqTQGD/TAnjRWcoHk0fqN7FS1YuJ7iyEhY13RydAc4KAnQJOzDK41XAC1hw1qZdGq1U1ppaojrEAGnqSHwS5Z2AGluxS84JOCrZKh2Nxc56mUVvPWMvVQCV+CZ0E3EE4xQRTV0B0J1LH6oTbUWvJhIdquSnOtGWqTys+i0rK0UDttrbVDGDUjrkOKYjvt9JVi67f1qrTStHxXPk2uFBsD/pxevp1fOVIlw+XbFCh/TYqX2czmVWmAzGFw6kiWUZTBNjtgCiDe+eBDxm3KnyyDhNCxPccZVTDo9POff6IW4UcpvphFsYuYPl0BsXUbhDJVDaSqBhkD6B9FErsWsRmbKQwPeRtrbwFzKWjYim/ZWrrU2b0hKFKmo+fwWg6M6/V72FSt1fE6zsrXi/tZcC9lKO5hISwhAsF9w2Fs1/YHvfzkk8lAAO9sdoYRYKnmlhPXHHj7+OyNzfuvnEZaEB1MR/jjxM6clNhLqGt2+rCwM6BQnVn14em0BNZPve5iaFM7wcrUalZRJ7pqklR/yklaymibu/Kde4DDPwJmschJmDzZskZ8gUcO0buc6D5tjEUl+tDqypXwfP3etg28yzdr7zy0ob5THCxF5/6zP/tjThC//we/0xYKoZxlzzTZ3LAdlYdnvF2UTGzL2saNJiQtVRwAQMSNqyfFsFZGNVuJME0IeJwAQ97wrT6H8VpMWDerogNQz5CgU9biAv2Jdc/7AhrB2DChbW0fjM8GoEgaX423NoVI4Gtny054iwyK+pQb8FMXJrzgJv63EWgpYnhmTi/OX0wurz58/8Ht0tmb41lv0BeBaGk1mNT3Gd6I6XEZKXrujHNmwVKLtwhyzItkqds9J0ZAQ3xPyOwZ/8KOYBGQD2AcWhVwyucpoaQ0sCTkxeuCNjU3XKtIec5QAbwLq+vjxZU2p/+ID1fnx29EPhCTHqLAmmVzRjkHkP7OkfKirPNlYDQbiJ4eyQ+oFrVBgr47loofnHzs9kRrfrhRTmBy0toVSqfYsZpc3m7pU3Hy/GrHlGx2AC+t7J2eniZsq8kR1pF8lyKgdbJUu+JrwsfNkMIgLubMZ/atHb85Vc7DR0ebTrEg/LVt1N0m2aND1r5sNixC7raCMHotLfXVSeEGcvAnXEjWWvTP68cvjzVvUalhjRfaDhhuO9sCwcjRmo4BFmeC9rLBJTVYh14zZyfSoa6vrO+2t/mw38yGWBLa1EVHSimEoB8cIsQTw/AlmZ6CCsayvMy4lWjQ3KPBGmkTlcrzkLyR5ZJNA7BNJaV1fwXorhRDd7JX2qI2/NFkwFKYRxCCUw8EZfWqidAPAY5pmxoUCeKebi6IdbizMuHp43g5uyCCMKtgI7+6srLCm0bin4sFRrYmnZGgzAJIeYsEeOUnkIsW8y5FzioAlzyFEtTSCpbO1x4aAt9CwhL0DSiRglpAWVAFK8kXHZ16lB9EX0D6y4o8UY5rbeF9XSmzQvwdEao/LQJ1yJyhKyKXa82sZPBdVpxcRY2J40qjvP870l1Tf+GVBkAQxhGEuPoppTr9LcJWZOusgTBKwRCJ+jp0DQ2NCL7oJAh+B7w+Nw8f8Y/wmS/4D6+ZXXAsa0zGt+K+xM1vNOYgHk+yyPpr3DkdH6JhJh7YsnwExReQcdWwig1YnJdA7oByCrKIDgovr+sgFTj2B73YnOkmNppahdk56wrd3DU+VLVq0X7QBxI80UdLO2NbhuMtcgWK0Eay1dL6wjJjt+O5eCrwg+Zlz7oiOoJzmB69++6bFy9++qMfXZwPbXcF/2ZTmw1FRgz7j5cHJGUqrSc1Vq7FvGB+zReMGT1uBKaoJWW2Dai0JcxZ0Cd1X0Gkmca7uVC4FIyY6/y1CeJNjL7CFJR44TKLeGelUqoo2TphTu9Pes6VH68Pm8uN7dZqZ719ezk6fXPcvbj4wz/4zQ8+fBpT0awn0BxfjMGwz3oEBWpNwDwAzj4ihgc2QRO0r0Aavj3v0iR9jJU9Wxt0RxN1Oaq/OJvYeG0P0HILdNGyhpajH2iM4xJtr7y1005jNxFgUX5i1hZUfEQdNtrlGuJNnB9iEcy4MW1D1whGQlNGdw1kVBb0tMRhzRTcjGZDUZqOHr334HCD9u7jz5+X02BW2Z/MQl1e6UNZa5otWfhSvZEHHNIECH2UeLRsTiS2cpoMt0Ci4TXDfmYgKXNRyil/6wW10H9vMgqSTCrTfshSOMW97a2T4aR3dnrQbD86OPjzH/zFh9/+5ve+/Z1Hj58+evepBbG0dEoGiFM8DC26kaPDHEkZt7coqcAwYqypBRWYs2vWHIqN9mabVtCWVruRrKGEclgWIbaVzYwzAvjSeDr4/NknPQLowHEhjUJX4h1AOACgZoSUY600bIYNvdO3qtC2dpBGtp8JmyJ5yd4Da8T2eU+E0sDKVKrgC+OmWAuBXIJb2t/fJ53ExyRnPo5t87cn1+LACoh8aDcVEOcPsr7AwX6LaGKLC7unzDSJk2xg40083mk2MS7jpavZWpzR7abCgTo1etgfh2ITnLOFCgAU/s8+HIe82AZE5eN8ALyiQ8xj6QCunmUlmghPtJZBw0MNM8Xa6UbjzT4q5W1WU0nyhz3LxiVnC8Y83xZjHt4jZrHuzmatHGzJ274oA6k9eazgxYKf5EFpZraUhOKGIbIoMtRs+MbQAg4NUC70ZDSNI9BXm2vgpsCotxV6PC9QFeIsp55UuV5OT7RbBp8UpBMq5X3hzaIADIgakaLR8hXMguX3MCVHyW9IoCT0KWtdb6unQNCZSqN3j1rWBymykNkygsFCEHba450UrTraw5yiRn5eEXE1CSelVZjW6Ft4mJSpwL7rGhBLmwsuq+1XjCZ4WJPCPUlnC512DYs1m/GCe/bsGTHCPMlpABVbUkwyjx49sk5evHrpydGDB+7liYosaIlFwf4SfuwrRub561fTm1tglQCCw54YAHuYZOc08liDqJwKzEdgNH51cmLNqQWR601H4iUDcYAHZIC7WoB78/Ly5PiMViFb6m5uZCA1iAKEQjFGNLY6VoKwOIyraEpnexN27k/Hr49fCWbnLG7bYpBIMKMWnUJoC6LMCVXKNw6umd2Cbuej4zfi6kCA2ZVtILZdGN9IbIZ+eWnQH+Jz7c84eflysbny7sOHCwuvznu6G46pAowxr8o7bCkj7UX3XcsAKFrz2E7oT0fEMetsbJlTQMKk42yeMvsx9mICKD+10FT6qW0mC3vup3vsmHbiH1yhLtmo2d3v7e5aiM+fP09UkbUG/3sBRjAepol3rV3YmB8WhdvJ9cHm/iL78drN4/3Hn/zoL//pf/pP/8Hf//a3f+WDz7/4aHn1av/AdhTyKsmolb27VgqTSxwFWfsF2V7FaserQ9Mj3ABejlxhoNjnUBWL2oAaZL58REHWD4u11dwWSFEo4J/99DMRwOl1QTD3r7UEUGxtHG1//ulrpqJGk+4Ie7DJOjK76p2dn27tW/+X9i2R0V8+fylEP4zsAA7cKscLgymKKTKsMTz+WGfMQQytDsTzc3nt1fOfLy06nKn57ntHl5+ex/vwarZaNlfVwQTz1glgM/iVTzWJNqXqzsvXr+psfvDBB2+Oz+JkUc6f84kKs3CsqcKOeAK06vQpluUngGRRaLoUupWgRG4tgilDB+X5evNwb/flJ6joje1W+IY//eM/+e5v/vrjd94R6qi54eQdBpibje0dI8oHiYel/fWIfBQqK9z8hpxyeZzjv2Gi81M+kCOQ3x5PrQLYJfR0Nju/OuPyIPbF+cWJhl3frIzG193e8kX3WNdAYOaIreh2Rk8lWUpc4VgNvRVQxjBaNXlRxocIZRkSyMBn6d8bCA5k0i9sbogueEWEAeT8/Y6OjgBqgHx5cn5y3njQiIA0ngmQIdA+mYy6CIRjZxk60dT99k7rptUxKJO1pcvGooPNNmzQXDhdFFU0EecdxGfnFyS+0BIB3mHAi3uO/KR06+yQv9AUyDKbf8UPMMfOkRoO9Qp9QqhMpakBkH6aJgjESBSyNIa7trY6bNAcvnQZZbXcrBfZSNXuLTizRszRyM7Giq3WAmZR9lAhxQ5oV6WVML3C/8L+/A3ABGqAVjVyNLydBuONqw2st/pPX5wJu2lnsVPCrJT2ese52NYCgSyY6O1kTA2edruRyljnWm88KZnzqn5VbwKRBVPkBeC7K9EKvX8e0uSrrFt/8nmhhqFP5U3eSppbasulgnVtjDHytuZ1LZ/7rrCQobvzOhGzysJZJyUGWMqRUkihpm6k8iRUFmlE4bQgyuC7VNuc3+7e6ld9X8qLgAw0Kx3yHLwGyDN0y9ixTz75xFsTAgWDS8pcyBEEs0763LIiXeGYIOY3x6ejq+udvR2k2fI8G2e1tJ+22Q1+9snHo+FQsBRl2t8XGaKxQm11NhClJLrsRlNAQYuECJ4YFvI8+9GPnr/44vGjp7Qco0H/ydbO4OyCW67ttwgmL7dXp8dGQmxp0QjPhheT3vVp7/x40B1ZGbcL9turXXfqENVRddVmzw1FIU8Yh8yYh5lDC55h327xiH0QcDzIEzf65hoPxg6c+IAcnZvb2dgbq30BpyCwJMCCv4i4W5I8PjSqKA5IQHFy+HhEKnHEBB+IegFiQzxVauOCNWCRGIlMIaJcJqsohFECwBH9cJqaYIaZrMlFtknac2oh+cRuR+K8+QIRLO4IgoWnFlgYWDiwiFMfJec33vvWxZuT/+Ff/JFTXX71e99qtUUddagPsaL6YOqT9VncUohThOe4emNqyMBcMCjo1yxR4xeeJtagjKdWubH9ElXQC3BSZLOrzsbuenNDuPTDg6eff/Js0D9//OQhPe0nP/tM6E/SF0XUr373Nxtr7QuHUzBUNDeKXnnydPMRXy2AQdIi61CM2WFtyCg/xVGxNUvMcSBEmaV5MFv0XyaP3k3DBe+56Le3F0eT0eHh5vNX3UuCxOUYDcBmh2c0QNHCFrpTJxANLniWOUdHEqPBEoD4onZbyJEfMdEVnaNlVjiefBAme45evE0JBeBivgh8J4E+JdCk4cnG3f5PfvyT7374jV/9le/81b/5U7uBnzx+/Pzk5MXzV+997WutrfXz/sDu2cZGC1gI8sM+b+RBMn0xNtcCtEzhYNa/MjOxgYBT8M1/kNLSWlCjnfzYI9izTE2c5SIQ2lBoCVN2xBh5PRFYKEEISePc9sZ8uzV8QBi+psqONgSvCSahdWUpB5Z3U9GCKiB6ecw78kBa8tyoQAiukg8FXZMH06nSdnvZLijuG3CCfihNYxBdIQIJJmRl5PmUSGyLtO3LtwlrZDqLPHk17U5GXBZ9uLk+bSz0GKDBWnOt/eABzp7bsJFYWpnerHA6ji2Oq3sAVhSuQplc15s0masPHz62Dx3dTe0O+x6PLQ0z0jvt6o4lI6cnOiKDbJaj9SVnIUvRfKT7/BVpGnPgSxC7+FXMfQlKWczbJmn5mgNro3GJfGslNGBH43DheryEahMB1xt8WpzwzDpAEei85blYUtePOtRXU33iWtPd4/yt2e4zu3n7XoZKO3QjPm+VYqXk/D//abmGIjIbhsGxGHCXfqR0/ovBgklZJck2r/H+oQmu8+2JpVYolIUXo079KvgiRkJrg763VFDkWaXVpiZfgZ48CXrL71xqGyrBxU2VJZlv3hqZtLGQUm0AW+49qTBXepe3r4/foFIYDU8Wjo+xJDJkZRZiML2eshAw7lvV7e1oxpSAep3wou2duef9ufXoaW88InEt5vhmPF0L9y2UQP/ijAXFntY65XAwDspZ3L6yX8QBPO8ffuXx4yfENaKDk+OYwajBYTRiGY7TicM0HgcPDtZg6tnA4RKz7hnoB0zPX7y0kXHFidwFn+pF6c6872UMKsuhqvSxXoPop/zv41uPGMH19qQAuwweNtkG26Ydp7dXdp5yCJLNuiqsNkSJdamT7jbmPZh4ZdneL4p7AUl53Idz4vwrmNviQmJrEmHqDN3QB2SdaJUnxra2ybU0fg7GkGHudMT5GcLoFS0oVn13ZwdeELYHVbENQIQ+Cw/TjQVhXb9xEJTxnE47DBcLCw93dx8d7P7pH/1XJ69f/s//yd9/8ujg6qZrnTnw9Pz0amV5x/AWrqV/m/CnDi+NuGljT5p0vTzsjfCr7BHC+eHA6e402YkhXlrPkBedD/EOOsgeFHzPcvOnP/7MxtNX3Yuf/OTnFv8Xn34BSj/66PV6Y6F7ni0NhwePHj54h6aHq9jS4mA6PnOGK2Z543apdyZS6QW17mZ7i32Fq7yNa9jSJfoXDHR7fdB/UdAoDJs1aHBJWzzvm+2bzt7e0UL7cnFrYXnj3/zZT+NAPjily4geErHKUPsoA67xfoFA68uVaLF/+MAsgGcCsWVIvrHyzV1OcDI7iTvFNzXMeyYItShsq/tgZAtYS/wrSDz5F1YHAmlOCAnO39r64rPPt7/+zccPH5m1h3vA+/FnL59/8ezZh7/yrcsBo91ofUtgZSeMzC4mA4Opm4IKiW/PmeF2YWyBF+fGEE1kfnnFFoGlfr9rVGGNmCBYQwHg7QrDI05rhp0kHZOlcsJckDWdjpnick29CRpNM+qoCzgDGtpWu2n6Ts6O5dQZogkLIi4KVBD0C0DiuDJuDw4PvYUE3JsFKTKrb8pZJIiHrYqAUEIAQuvXl+kktQZfbecfX4Qb58wzQ1xfvey+vhHceHzZXl7vtNoAK4dkDUbnJ47KsuF5sTEU7X/VoWos02vN1tPlb8Ym2tm8mSAYXBKFO0ayhUaL64uRIBqVicXYmN8bmM3Map7W6oLp00cN45dvRrwNrM+EJM3R6npHNSgP4d1BykDaqcSo78uXLw/iaRIMb5WERRLDDGubmcaFM2wytq+tGoNB4ujQ6DbiLhhGpwS1BSv2X0EtYkFhIAuiNHaKq1CoaMk98HR9O3muWeX9PI/P5pnLZNy/qjfJXPivTFg+JHRSn2fm3AMT/5UUslWSeiHuMPI+ke7LCay/VZcSapKhZoNH3XjoW/dxdS/5U0p5Xq+GXwZZik5E49KYLLzY1gqxfKsPXpAC5x+WvudJGRyF3z+vTbfG3MhgjwXdrjhPVWoGtZ7L/NWvfpVQL5snEkjFUJvC999/X9hN1urnr56b0MMW9+9dy5v4hUuyuZGTElW2hW77gw9NDJvJJVJUxB0saeh8sXCQv/9X/+v/+O/99m9dOfdzdwfo/8W/+FcPWjFQfPqTT2yzZ+38zd/5TQGcnRvjIPpz4G3X4UWX6vhg9/DNybkPVaQXNdUe1S5jKzws8xjpqqZMXE5zQAc4SbJ25vTAuPTcXLGLGGUCZGthTZslitPHD9b6kxcok5/GUCHYxrwTCw/V5uCE7oGNKHg1Nj10v8qWR4PKZA9+4BaODDdh5ej3Ukj46Bi1UgxvBZtCUnYx1RoczynEFxetMSPmE3LAg8MjNIaBxyEswswY1j5zCxk2dAYZXKAGJcw93Nneaqx87b0nXzis92f/9nd++zu/9uvfGg6/sFkOoNl31evPIC+H0oqBQSBjIV8Z283DxyU7u3osgd2+aETFEGWiGJlIUlHBbTY3dIG2pNXs4OhGVLHTG0QGSHz80Z999tmbhw+Onj97LbTa69ejnc0tOM649Ads/QtfeffwwcNd4i7QkGHhdjBatu+KC9lYoJpiO8vgOWlpbZm6hsST8Ejri+tsSKMSqIy5hVebRWahoLScBHHabWJHe02Iucn1wrsPd5493FLXZObQISb6zHgWf7F7ZZzL9OmCIaVk0GzsVPS7MoiMYDEGVjBxWeJGnVjvlylEvJiUMmXpQPKETbGmqswNHopfDQyOUFn1PNK++Y1v/+BP/vwHf/393/+t32PbR7E+/PDDk0H33/7o3+6/+1CbR8/7zS2KrAaGjFK3uS1U0QZ5Q6hyO8JuhvYVqUEtauNUC0ti/BvTFQHSkEjUnMg+sw1yKtLD6lIb80cks327iBTwdKBraeHo8NAuAk0CT4XGgM4r7iWLS+saa9s1kCtcyyLJAza2VOFxCBjsEbkMlEFr0s1x0IXRCwbQF58Aftif5hDPJA8Vup+XIrGtrgpVPFuYGaKNZptcdblwdTHqOu/qhtlqg0FI2KiG4OeXLSidN9OK804Gt5xc6T0vnR9l6z9OlFJjed22vuzlwN1OroB6TMHI2K3N0YImCR9f/HI1Wy9MAZ3Fs2cv4LMSakto+VVt1hGN5NOoncZBF+SXTLUBkUGzFRwctbgYU8WVEJqn3mYXs2XF0hQ1v63BjIxcgh3fhcdNpAP2Khg/2hLBDBv06vwfKaiBHQCKJCBQslZhc4r9POCXJe2qdP/Pb+rT++d++qhMXn3j591NMETelxJkAcql57mxUpURXF7e+uunx5iamj+6QT+LdJR1UaAXY0xBF4qRz2tetVgy4ZldMWrACOmRMAT5U/QJMW/Fjlg47kLPDI3FIifWR56SM0tFS+YpdZbWl0vkLal0SAa3GiB9mfmuI4qqgFjzuNpXwKxFzAe19VvzVI2TmU5STNEVhNLz14gtPTudtc1bFi8Lf4t6ezVRtkThw3Ow85llEjxNHf3ARquzI+5OOWIHM0ttYTcDNF7klJuL89O/+LM/fRWm5hAIfv+Hf9nfPNpttM/gney5u/zBpx+N/obHszCTzdfHx1YaU/Pm9naCH4ymQo7RmdROabwuG0bz6L5e50NQhBadNRM08Ba8+3gQO4jrcG/lZoeaibKz4/jwrhdModdVijdYBCzaKCWXAQgPm3LiXmGDrW7htWIb4WMSRXaZIohBxDzOdSzBzp8HwNlTbNwLW5PPg0gLBzJnJhQfDFumzntt8MAIZUpxNGS1vZ1tTbKdk1hiZ3N3OKqaGco0/MLteCi6w+Ll8N2HH+5uLP2//vl/3Wnf/MP/8W/ivDHcYrHbEENcY8BwjBAabwFz+pqszFRaxPrMzwYistyZCRU3tHKxajBwswLqcIBoGdWVl69CovChH330xeFh5/Bg5dmzN9/6+ns//emnO1vtb3/7W9Pxv/mDP/z7r169EDIcXG2Z/PbO2srVdDJotnZvp6Ql49Vhsbo4Fznp/OjRjsNNHLSOspFoCbL8IDfbnBBWHG1xfHF2+PABpKTSrBJzg2E1F1fXq22+MgvD3untMrFs8Xu/8pXPvuieXDA8zHAMUbfj06lrsjhxETh/eJ+r6q04UM6yduQU2qwEJouq+kMMohgUKNleuqtLjhuZBYov41+Aqi4qxSJu/nllQiE7hUvIvo1l/ZOL827v69/41t/89V9/9tkXT548+umzz9Z2Oo/fffTxi8++ePnpw688XnU4waq5vtk8aE7Hyw3nAvMWXL5hGlqYcpJU+t3aZjGv21gWVjfbezAkv4ngoYAKXdi1g6bYMpmObhO2EyYOOWcDY06yQFBbIwYbrXDaa20YPlbaAIQzYhaXRFHCj5KKXr985aERxvooFSzqI9KFh7CXzuKi8fZPTx1llmOo8CKLS29evXn69Onezl7loc9vzutobOw4F0sMRubMljFxHs1sJMQVwto0g1YS5eBYcy1WLFYH/K0vDKA4cljQqw013PpWNtaWmsGVXFWj8opoaAs8YifQRkeNEppkX3MINb3xNAY5m4LRCXgpr2L7yLYTJneZdVOPWLCQJSdJ0hRRu4oKgOUkhr5+fVyMZMsHBwcjYTxsHOOMTrLCq4n7Z0vMFX17g6UEEeM7CCQQU8pYnBPVrHkhPsDBWnmpB35YK6FeJvZuTbsxlOZgjpIKtvKzZAhOKSloK+ilYvAwRvOkD/UuXQd8JQVD1JwgBlQAHSBbkGCB+XmxqReaDIscrHufapNqUZX8uPe2PqnV8UvRPaCFTzGkKSrOdzmaJRUx55aUXoCzSJPVi8RiyXqZt37ezdrZQHd5lV7cd6reKF/97r2qLXEPsO6zmVfP1Y6dl0dLXD00i/KY/5rBJ04hIk9fnA8wn0wpG1sbGKhotruNzVabSPT0nXduH5lIkRW+ePXmtS4oSlxLZ3Q3V1pmGsRHp4tTwq1cXtpw9Zd/9qdn3XPZChiBo+H2V0WkvrrtrJ13zymvz559yg8IqdauHHWD5jMf0zuvPtek9lqLhF+HvVanKN3Raz+Tyk3wSxmBOOEQ7OMIFKlo59FRe/WdNn96RIFa8Gr2yc8/Mh1Xx+FgwbevXLOCFZuB8X1K1iRbYTZuBGMFuvmnANFTvbKek+X6esMZvq0tQAyslQNOgnnKCKcXdy2Ef8tjRYfxwrPorC4YVkyDwXcay7Db29ro4Cden5xsHz5mJohLwvJWgs0OB22M4WzaEfL+avTtD570zp6NBi9//9//7dbe8vFnPx+Nu7pg4uBwVOfzz16ynUGjJCcO9CAQbmMFE8NJQHa6LkcKWnDg0V96Ok21Y3TC4nZ9Y7VfnD//F//dz3HYrCR8Jj/46v53v938jd/8HhuLzZ4PHjy8XfgN278ODnff+8q/d3zyBlmOuWsGroUZFKSxNRQebnGTARFL8/LFyfbulsOqcAEEXt1HshBOiKrfP+06H/70+KJ3JozpowdPt20vX21kdJBNY0WptngpEo6wAkf7u1vXzenw8vjk3LFemAlLLjSKQFa4UremwLCaP0gZ19sfObBiSJUKU7MCSXB5/lnUWS6ZsEyEI/uY1OpD17Lag1xlBxF3dCWfkzMGIzcf/ezj3/qVX33n6Xsf/fQjqw7l++GPvv/gK08ev/Pw9OL1Wnel0VnuXSRAMOS4vLCJ9RuJ+kDosWuD2UMV9HPL1sBNnND4WJLhF9cEYXZuaL8/s6ja7U17qOzC7/fZevg9In/MjTezCTOq8J42iK+9On4VbXa2KIArpcYUu7WDBkV5ruUVujQYjBkfrKUuBCkvKlnIpkskzhMIAKaS4dNPPwUE0ALChgxAF95yKQIhGE3PFdtsr5Oc6VwTsVB8DR3L3gae7hWPGn+gfy2aE5WAcCr2Zt9ssAVHkWWXNchD4bKvTgj1cq6cPnLEZ7GaXXKPvLE5Xb0U1FXZo6nRLhSBaWtrm1uMNnjihq6IC4UEhUEUnCZ0SjsRIb3Q5frTcRHy48kV5Vs9slaupgOHQVLqb8NxG601B3ET6CZDwIntakxumwPerigdwyBvkKIUjKKSUdwEKiUBwaAIuyGz8hXtKs2hsMCi+5rqW/clQ4XXAqw+LOBVX5UCcqn5XXNTkJ0JMK6yAWOIA0KhdzHnvF1wLhAWMqUk+EtOv2SrNEbefJUv4nhTC/dTNskNSHSNkpzP5jon6tB/n4QsyRZEivcsuytQbZPRbC1cZA2UlKZKOuMTMpui3HhS+1Jefnnx0Nv7VF+UhkSM87O+qhK95whGfQhStcoyzkQW7Tw1iLWNp8aVYD3gLuOw3mnTjFAjaQZN2vrSqnPiHWYqnvHTd9/B0of3WWk4EkJUlBzNGHJAQVhW5BoQJzMtv3n9ykZX2hIA1Guszlrt44GQl6vtTQdDnFmx9Hb2owK0zMiqMKljp7R2Wh3h20Wfg8H/5qOf1u7X/upC/Vl7N/9R+ptXSwtjsv+a8CpXJCqBBq5Xl/B6GLiDg13Wnd2Hh3yf9t4cOt/ENqwhx3Yxp6PqkRRg0AoatLiy8pYdrAyJwXJIMuQIu3DgxDtCEbRtG602gRKCMJLcVGw+MqpWRSktsnDuMxuZ0jJbcckDJepxhJ4aEY83b14dv3wl5K6FOsTuNTafffESuTJNnOMXMIKjYQPTfTX59nc+ONpvf/bxX/36r3/t3Xd2zo8/6o5ewcqN1RZnS5I6Fqt7NrA5hqmRiGx++C7DDq/fnH/x7PTVSxRi/N3vfvuzT784O3PSeeSZb3/r6bvvHvQHZz/60d/8w3/4D4dORhosCAv+6NGD/aNDzGxnp9W9OHn3nUdmEPL5xtffZ5kXQEAcY7FzbZYcTY4XbhyFtXs9EwPu5uHRe68uv8Dx9CcjzPPJm/M2Y2ETBgRYlLKLm9sbYO358UvnWOBpLHt7zMRZJ8FnNzt7gzFevBXyNgbM1tbC+mT3aMei+toHj0ezm//+j/+tkY2GKJTNgsusSfwrzJeRJ1yTq3SNNQKAse5kGeKIy4owGfIgENaVex8aZ9NT9ReeKCR5MRbWaVYrfWFUUj45efHyYGsHLvjo40+e7B+0Nzbpt1sHHeENXx+/2Hm8z0ngzcUrckOCtg9HN7Z324XMUJqTKnjjg0lOm8E5aXuUYVbiDXHJRK2vtQY3Q+4nKGiLCbfTHFGQGoorlhURGVvxhLqZOpGp3doE3gf7hKoE9xNJ3bA5pjFhJq6v333/PcVCOKQW3hbA7+jBgcXCVQQ0Bqhofcc8XaVgJ+TAVxYa/gnK0ms6AuPAi0FmrBgNIXmFV0KaDSExTo76gmZcsTAqjCZ1wU6GJfapfJYBZIti52WHZaMjD1gCXBdwBirGmOZsFB42or2LsC8uMIlFaBO8oE1U5NDWkj0weH2cRkdTTZoytRDDHfeToqJioiNOwaYe0uO5djbClGPR9AKhwjat25gYnSFbcA6rNNF8yZBDtBTIqdsWYDbFrXbnViQYB8aN+jihkSMChlc7s7Wd1d0Ev7DBKrbwSETkK2ufC37CsGf3Nxsbu1eBIXUHBguE1RvP71FzWf/lZ70EHSTVP2gNbI8SeZBv7zRF9HPgm+wYsHYXsedKWDYmVwKBHyAT9jaumEBAVeAV9KeQrNViV9MGbav3tVLX2sJyrY0MqUh7ioBYBn3+pNLH2hHlqEKbArpJYUMswzirlZ7UbJkwz1M6A3Ne5NYz661oLWLACbsfiaq0GTtv9CI6SqHDVHzLK3BrzeY+OeNUYmnocg5E8WH51kCsdnhkLNxe9C9y5g1nf+wVvcrk+rT55npyxbj1937jt2jh5QcZpxfnMKXRs+RL26igDdfK0eGBgHIefuNrX//Or34XAHnLHfFvfvwzq9a55o52GIynDoFbBpsI56KTQDfFDmitt48ePj58cATCf/Kzn/lKSo9LMpj1p8HNOJS3USknhRC0IAQKHzr6TP8yHYFIDKw3zY2t3mD408+/eHly1utekEhyeF0Y8dL6DEathamMOmjJWbqdzsajo0PMJlyChDcbVjLngm6EgOwQtRYTaCPwcn1DNMShWS34TV8GvDIixr6s4gIJepAmm8MyKWzBzt5ovv/Vy+GY7xxHCp5ms/EAjZeNrZCblDMXLs/Pd9vLJ6eDb/zH79zcdp+9+Jv/7f/mH49GL4+PP7NYYa5Wq6iUr50138bxTfqTZ5+9ePDwoHAXwrxG1jQ4WCx++H/6Jz88fLDz9//+b/Os+f73f/jm+MV40v/kkwvc13/73/3zBw8O/w//+/8Qi2OmuFy88/TB+eln/QHbmNOwbB6/eXP8zOJ/9fpzQHTpZArM//XSztYT7qLdc/Gu2l978p0Xz0+5CPR7k42dtWefvvz2t7/K8c+BrHaroE+s8ItM/oSnywn10HaH3Lgw6vZeCWExHJ/xcRTFcVH41zF8cj6Y7D98t7n5k6PHHx4+/ODxLt5+JiYTjbWFIw5wRKAgwng6hrqIbJk91n1YqtFu8rA43NmDUJ3nRwwy/NGzxCKZtRn0kL3GFlDCW1hNhJJsqcnMsjZH05NsJcHsW1th+I6ODl9/+qyz1jh4+AAFvl69efTkycfPPxYb8ek33nnVO0Z0OrtbsfVi2fosKxsESpoj2D/Bx6MBUA0tFAaPlDNtZWfsSog01lbEURN2u9wQfMtB7GLIs2LRIcRssmrk7RMQ4oocZr0T+ntW6ekFQUoUEsTFVt1XX7xod9oEu4DQ5RDiAsCq/vZ3vyX+unOtGGzQOaKJf9wy47V4uwAYyFidjfWD/V2kCxaKMhvJX1u96J0T3r/64H3tZavb2z9UOWU4O61+aJU41kbQOuNMBuDRv3hH0OEHKdmKErd74+xoNqtSB0WFCMmUHA896DWdJxnEVt44zyExPrg6ZJNluIhsmJo53BJNEgdye2cDeAC8mxuA0yFntzpblhM61tlpk+Ey0Zx3b6+cdm2iSZP2rkSGu1lw1tmj3cedaUs8GNuZ0dwcJ0zNK6gHVUD2So9Mgi3FGwvOJt1kbFu9SliWCV4aE4SVkgnppCMjWtGyg8O0jyNDEWjSB9rJbEs0OIUFLghKbysYIUluiigSpin4qnIueNgEPqHmAYnZVI/tlZehIewzbUj8lbO7MBHZ4O66aVnAKzFreEyprBAv3zpEFC42DZYQBJ0qsvYhnKB4dC4PpWCgADmn3OgccBFRjEbxjRzIgkTmiMocOR7/Fr8QwLiWLa3YBM4UxK5uBapI71KQpYgBsLuh6KHC15j98OYOixr7looH4w+GHF1UWoKZblgi7tPWeGVy4WVFSxPzlWm0d11Yo2jx55QZANHcywHiVav1RnAqYB12ZkVU5YQ39qG9FxtOtOIos7rw/OWLN//8n4EendYm/hROfRWWgA47MbYb4uwJeHbbojpmW+Y0XdyNUEbln59325uOuF2iPXZ+wbe+9S3za/XilXDLbUc4fnh0aEF2Ng+OjsAzRwkcox0YwMJIOLRJpZQHyrQQQAV5x4xoqnkHURaHPrNdGS3gji09PT8/PethjB5SWaw0h5eL5y9Pmrw7Vnjdbw4vzls6XlaLkhUIJlk4xHk9Ozv/wz/8A34QglHx3eCW5Zxc+3ii5UHIFzhIfpe3SG846Wzu2LaGhxTe7YsXz4M5GuJ10Izl5AIsmMGHgxw0ZS7DYcQT3pZJLP/idDjiUoaf79iZP3K4FI/a9tFu5/hNt8klGEzgWa/iJfE7v/3o6EnruPfxH/77vza+PNXEp48eW7rnt6M3xyeWGV8ypvz+9Pqiz/X2ZrzRgZrts6Xog9C7/S694F5zt92J9PxX3//L1mbz137ra/wyqDm/8e1HWSgwefQwEyqTx4/b+vzZp391cODwJNY6mkZuoqja+mjSswvBLh+9woWIPcSzo3t+QRU5OBs+OVwU03R4PdrZf3R+8VmrsTo8nextt8WOInEYjcHx6dG7D95/8uT1+TnHx939o739B69fvfrzP//z7gWkGbiCz3b3DlabG48ebqF8zkC3qftmMHr07ne+9+HTP/rjH1xPBqIsWN4QILlfaKUw84AptqCFzlZrfbPhsIp1W9KtJ/EXsS+6kS01wvzb2nSVHVr8LCY2/+heApY3gaqRyrLD41UMQz6MOROZtWKYaGwwOXr4wD75j5598vWvfsCx/mLca201v7n13eZee4x/F3VvScDype2NA3L62vbmYDA8eXPaXGvu7R4IaNa/HDS5V3CnRnKXnMp3RbJcvN23zTY+NaKkb27wrCOX4KSZiAaiBJow6/wGCt7mOvnJJ5+Zd5TQZuEWn6jOLj8q291ZErEPAhCN+rNXl2/4SaXNvLoTffxWgJhR1Ak9K8UGOIT77AJXsXCbLUwtlIaRaKfTurGVZDpykN7x6Zu1VvvF8evR5aTVFDb34mbSZ3ZutZe6a7fx9hOQFhESFJaDHWvU5qZWWSzQtPUljAxRbmzL1pglaSDaE3zJ9nS08xSHw6rEmyZbOBYX3pyecBhlu4J92CUFN9EtlPz87MSMcaEYTSHIMRnp2fMeUs1iutJ4uHYa1GSs1qyThk0yYyE47aIxsntH2xqz0QwxhiNY/uIQLI4iZESq3LQbMk5USy3mRC4gth6u7O7vnb254eWx3+wcHe5vzrDQnIGwjAIYNhfXxGHukZSNEUdYRyUDqqBKaNRKlgpDE25XCgWCfQuTev/87qYo36DnrLXAWRFVTEI+kXDo5Yq99FdZYW8lf9GqiFShCzVFURNEX1RwYbDjOJj8WuNaM9XmuQbjhw4UtrxkSJ5QhZykFRFYKrVijXDi3gZ3WRlBWboakqSBhTbN+ztvSPlTe222/KKSTG049pCUfKY0wKjTMGPtbB20wkdr0nywVGENp5pwoXEYxeRouUQ9kgampLu+lXo1TXboXlWGwz8L2ANMmfcIKhCYDq9wjtyCDUA87px8KtaDLxwimG6J+hMNa/xIi8xHHJHMPRIOpnf2dh14Ycr5qdf9y8fHJwQLYaSh6ydPnm5uQ1I3+FM7SksZ1mAUa6WB87lQoF6oUy9EoNMJNlFmQyEDxE2RrCTtsdBBLfrv6ChGcnwX+oS8ic4Lj2PwRAvjPGb0MuAJC4QpsEt1jT9k1KeOwhsM8QeOfKDc5+slKBxny/fe/+Av/uLPHL9Ms3Dz6s3m1s7zFzFoW/nCfiut7JWh+7BMCkNvBM0NbgakZnpohWCn6L4kIlhanHA3s8ZyC+/PVT5uJiHSGVCBPt7/4GFnZ21nAzIzl7ER9s562h9KXwKLrpS45vog1sCwm/g9S42rfm8k6NzKavPDD79q+y9o2tk+JAVORl3hzzZaqqHNt80clx9nVyhU7EY3hiEjuno54Phuh0lCkQA/yzPLuwwVzkf7LTmND29MxcNKeHx6tiYwyYQse2z78M20f3Ey5BzngEQMt9nk1n7aPe5fjto7+0+eHO3uHX7++Rcff/RzCtt3nxzxkuBz3NnaaQos2tpkWxGmln9Gwxl6s5vX3ePtxs0GWeXSIUtC/4HMhkEGl3YawHRAEnOPA0X4TSY1GzkAJTZcWcl4BcwNiYO1yLBSUWDfrUaSGQu788FIaMYloJzN4l5aAWaQGpjej4VEHHLe9I8Ojy6v9j754vOvfePDkT2ww8X3PvzKxs6GjYO9VxPgciPYWKcZbJSxYaor2gtzsyie+ohEJ3KRMRuMe7z81xbWHWVzsLtPOcbiRtDadI4ALa5YCpyauhNCKQSJG3PKgWCEF6fnYGZzY2N/+wBmsR0NxTl+/WrWE8XD7u0Vx1QNu04+29raFYeCbSrWKRuzfFWsOwjMOqbKIAitedwd4Hk5xVmtg+4JYsumRfA6bG+c9NhNhX5ldZvgAG6bC9gz6jvYE/EosShEpmQEXehenCc6umhlUScaUiQ2RxTwZzmenUI6Tl5eWXBUGN0aZEAc3yUbAV2YmBe8qE/CBsMY2sklFzAVzJoNCXi/dRL1Db7Ltt+Z2DdT3kfTqW+t1ij/h5f7+3vC+q23wuhY1iyClNXcJi0pDErpdWQ/TA03n0n/gsWKA8t0MLoaTaACe087zezBH16eL10KlWs3FmUxCxnbMcf9SVZolKDhYrJGYAdqioIMo6eqSd2S15InVaniSXlb3uV1wTIKi2p6nvySp/yIzi9fwBSwff7GWzYSCkgkkUMF90klPgzFSpI5utcgaiu4llarnmeo2BPE18ylVSmZrOtKmirP0wo3yVyVdVHLlGXiEVRbkKP3oZ8lqVY7tMK/4HoLLO0WcBFsURCPuQApUHcga20jZ2RHIypWUgarDNe8Pdy122wkfA/KRpN48cYPStL5Oiy+k1mZNRV0Wu3iaYDkdcjbPCgk5QmRLCJRXOJKMpxAXy9S9bIFg8nBvqR55HEmmV07/Bk/OVXPZjs7uwd7B69evHr04BF7Ka3FNh6p2To5di7t0TuPnzw4OGTzj0yWQ5BI/UkxJ385remqh65GIT0tgzRvDDEr+wKi7dRDvBgfeoTnYG+/d3GmSQCAUwnTAo/HvYP9a4qpzJczaeM6xYBHEncQH7WY8Lx6CtGalNPzUw2w95nqhkEobnujaWuDtUn4DOHgbpTGjdA7OFw3ZdZlimdRnwBEGllgMkJ4kCm2xUULE84F5Q73IHIMA7iRc4zeJscpdlRFTp3z9+ThwaPHe/aAdTY5bsXgBjwStsrOlfU1JoSYEZBltq74gt52h9O9B6NtvvViZzl4eu32wcNDO7PH/JBtJrP1pbVmHFTrO2gFg6NVRiz2eg2bp2LW5s6HsQzPJmwg1RTUGdREB0Tlgvpa8PyUR2QWsTNuFl+/+vzp069BT/3epqh4veGY885ojzPgmmNtbxYmDHKjm7E4e+JcOG8JX3Hy5pjEyo/jax+8v7W/J3icUeqf9dSLGUbbX79+9ckXf3H85qw7W37n67/1zuPd/sRBrwIQYSwsKM4XElF8heoGa1/22BYAp621dZbyz2JhQIq5KCREf2kkePVai7xChCpEdHkQWbSgyIKKrj3RN2KmCGMbfYcNRlMxKTiIHB7sPX3v6Q8vfkDTsPf4ccPpttu7re2N2+Y614g3n/wM3eOARJy1IOiyBBszWgtLzoJw8ouNsVCLFWjC8Y48FWcnp6+QAe3e3tvMqcdNUSLD6KDu8K+DMQSwHVKfXl3tNNqPH7wjp3PaeJNSwAKw6+09YuKbVy9BE9AhquiFXW63s4U++mefYed6j1Ncb9JbymnXNhLprq14yuE3gLYIm3XNJX15ce/h0db2NmnEiQXjwTAHfOYEBgFe15z51CPqsW3SVTpRo+5MW2sIJnAhdNY4sSQcT5klBkPMbuIXbjsInGM5Jm4j3xKaYzotdJzSvoV7NrgJw5gQmvQX19Z7I/GFMp/kYb4dfLwMY1wFGk4Jv+HiTkUE1my6QDfcE6svbELP7gUUcIPLydnUUawn5+cXWiJehj6il8XpD6FZ5WG1SAmbE+GmlhoXJwCMV9t3EoL4cPRclzbJrk6dD6nd9uWPb66H2V9PjXMpzg4uZhOCzz4ZKyscpWokN9J84dzhUz/Lwzx3E/0fiKiY7D5rufF8jhmstVJmzeVab+RyA/kCC2VZkPIZSpnLTRaoagK+GKSSStW1AXP8nm9LOfPK8aZ4/UhcSb71ifIkoCYPfbiHkeugwCTyamz4KkNAikJepdoT81i4dfsLl3I0nCZYdcOhdSWUZAr0cYgJic3Xd6j8vtLaKs99lYcFB/mZZpWGZdWWYXGdN/7uT5pcaF4tP80tm5+89yYDUqrTQklb0k8PyyKByOQAYbB/7AWi0RQjbVnv2ViOB7NbAhtFroryrbhK0gr+yz/6I5o39EAeD/VO4QoR6fauXald4109MTgqRcLzNpMQHOSJkn1LxlJ0tz8gNtjWA8L4Vsj8jW99E4/8g7/+q/Oz04cPEYGjkeMTbUTCQ0LuZfeGcDvf+973qOBtrrQJDNLC7aJ6GvOVr3zVmV1ffPH8Rz/+ybe/+6s4cl/x3Ov1h9ZqtJeSXYqUKTxSGgn0YsA0OBSqzHjIVdiTcvwh6OXcQyThEiLx4WByNqsWQmio5YD1HDVWxocP9jhE0MNEY8XayqPWudj8koWsFVJOeL5LcQKHBcYiQlAHvj45523GZL+1ka3+usN2RIAQLNywU37jrMSTZZAPbBCLawoCAZlgFXhQqCJLHV408eQQKSNuOILUKccGf7FyYULyzJIDjWcjBnjmKPRgbTob4nXFDqaDW1qGH6973eHO5iqNFrbMPDXWWlt7B9tbe6S9f/PH/9JA/fqv/ebB4Z6Gnbx8A9d8/uwFWWoyvW5t7r733td29h5+9d13IJTJzSom/HBvY/jsjcJtrBNm3246jB+xIDxAHFOFsNfZRRtF1Wid4GiiVuA/bS4hzWwjyQAGKcKkJOBIWBlz5oM8NC9WKHJWKEomb3nJSYwaL56PaIGfffHpN4mr3/jqzz/+5EFrzelujCDEN17mBwcP/+bjj+FFyjcTKSY42kOpbhwJ/VEqkn4uxrdrjHabtijstTom3KQkclIcvvS6vzJZWHdARaTwpVfPX379m998752vLn8l3j8i9pKvzdXHH3/87LNXPF1tMPj61z589LuPzk+On718sdhc42zP/iT2omCCWTM5EHP60ZufMa+ya4IF5/PcXNK8RXIX2p8AQbeOxyNhsTBD+a8EKJnckI2oNXBBxHmHbjnuazgWNxmW4iybA9msQjSeeXtru83Ymc2+AUjRrCO3WpGAiXX21fjYtw4PTmBIGP5mYdBE8zAKcWfUHXsK+Aqz9OEj60KAmKMTMVUOTBGn0CnGK5tZRkHTWe3uvba+mhttWCSHoC4Rr6M2RVq63R7GkU4EPYMxCEzQoMxosJMi7NuGcoF+olyUM3LE2907eLB6sLhwMVm+XL4cXi30ZoucNK9W7SUgckVRtJyDzSYcS2A6WlagRq2kdOtZayTNkvysN29f7zL8wqv6ietdCRjH+eeK1T3Jks4fZet2OPRQLDgwQxwyVQpGLoKwfQQbhu29T7UNfuadVP7WRnoYuQo7FhVhGl+zKSEYyv+lXwbOktWEPCwkBxSD9jTVamHnD+bNFgQ89M5Wh4ZaCLSN5jqOPjJmqslUwdeWd+YjtraCtWvj7q7JWLYWehskVEbSfWhLqEtZrqWRXt0/14L6oeYFdEhXd33Mj0L77/qVcEecbH2u8YCPCQGHE9SYTbYrAF1wmE9//vGrV6+tNJnPzi+I2PaWh1Yl2sqyE3eGFwMRXwhV/YvuX//lX1nCCtFCowORudE2Xa4p96Vf6QMRswrNkQBJIkks3HpoaHF4L5+/oBnnN0W6Qk5MxJHdKLs73/7ud0TX1ub/D2P/HWzZlh6GfTede3K4OfXt3P365fcmYDIwAwxBAAQhUKAEkEWVxCqrpCqVJNKiZFfpD7nKLpVKf9kqu2xZLNq0ZYsyDZMiIYI0SEAIk9N780K/zunmeO7JN/v3rd3dMwLFKu/pOe/cfdZee4VvfTncvX/voEe9wEk1pE+dID/6Vzl7Z3dL6NLBQRM/ofrwpcvL+lTRUQzb9u4Otm1x6QKDrUkzl99/8IA3mh2xHRG+YNiYxaR7iU1PkJX+Gwg1+BEgbb00GhqR0Q4Np0bifKjiKY1pKDsUFYxMKL3T405pYqjRGL1yeUbBXomxGFgj4nNAlDn3SEQGyV7Bn7jPXAxD0FQUMYc7+71ysz/O3DExR+NHG6rReH5YnIyDHYvKMBAmGidACLPgTQjfR0jJAYRAjAUbORovyRVAZ+DviJQJCeuUXjiSMaIFyq16fZffYo9igaYN+eAwMTY2Xa5Mt/Z7+fFJ0MxcX9zZkxO/UIrMLtEpBUyhhk//mc9+gSneWq2vbcocgQZL6aDSi2Bvxj8hGCqqcAFbWFy+sHhpcDbWHa4OFeiKP1jbbYWte3SIUYdQRFigMrGDpkTYdI98QqLKVVT34n8cacujGj0ilGhUKOqDPMlWgqiyjbMsOyQ8O4Uhp9MU8o0ceWAM0J0VSrkaNaTMPaX8hx98cHb3+LOf/szy8LKA3kIFcQolVLx/RATVJK+RMSXf2dXGKrJrlQpjUcEwZ/EFFAyHKMqqA1lLaCGvO6Hm+IwzJ/GX+BHBdwVJxAJ+7ClZqpKvMgYjMZKCPvxnf0xGAWA8nmrqmFx7Da+xv9NenJ/9ha/9EgXgR3c+kQ+Fx2BYcMeGuelv7UoNuK26W24oP1Uje4q2KqJYg45dHUzV86BoiptFvbG7+XTzwYPO1jb/Cz6Z7YMO79JzoU7VqliIIfNgguS/3u1JqEss5B6MgXGyXIUiLvaI4tzxIVZh18R3AP5ioTw6uu8LlGVyoJVlgxIGk0S6MholxEj0TET4DKOlqWaf0wkotAIuhnEb4HDpwBe6CD866eAzNvBUUHPBAUeGOTY7OSC7XpPB0pfnpAR2DGE2dpW+tVtnIC0W6B2Ij5wVSYrWhOPEzORivnB2vt0eOmgP85nvRl7b4UESHxg4Kcz0Z2TAt5CXcwNgh3QVMPeCShlRDOqfu7Kbmqbf46+XD2ZtjTU4WrDrRL54PBBuuoCge+Yfau10ZW00Tegw/so6jEVJeu94x/MryKFufCYq8KdfrZWfYnvS+vrTF+fEF33GIkb53GAeQsiyJPo3fq8JMYv8FCQFujcDOIRyg4idL4xXBOqf1MVGJc+a6NOVxpD69O3FS33RscsXdMNLA2Ompfbp8mDWIPs0JBcI8NLw1nyxqtmvWfuEyBJjk2ib9un9Z0dYwlChxBicokadNTZojB0NjYEQ2v7AcQGm4Anw7R9HccTLly8zYuGAdMIpzul65cY1WFpII/W4+ERKQnNzP+3i88F6RcwlXV7hen4nyS7Zn/CdWVhcW4k5SbJKLDWtPbe9/d3dpaWFpcV5BvPN9fWDRw8b05j6Q/yXBobk4LHEf/zJbcaD+YXiwkKJ+ALlk3qw5fR+m9t7Auy/+KWvSD+hgiFF/MFui7yIC7LIZMfw8KC25R+fMjWrB2fPgxVJg8wODVSPGgEgEF9t1MeG69IJaHl2wGF6zBgQ23q56HwU87mbV6ffeedapRIVdvq9tuzeSqIM2n1gIKHZcZ81hQEubJTB7eEZ8lT+XNCGN/cGJ2Ot6mS/1igiccqxQu79ATrNVCOAH0CGRh76BmkWzelz0eMkAAhLWn4k+FBnwp3gqEPfi45Fcjc4zvtkHVGIUFwozXCjWhgaKQgjkkBjoKrwGIF18tByEv7aO2xa+UK/ejJan67NzS3NzC5SQ+7t74uwpjwAQgTSQqQqiMB2r2OWiwLDh+1Ob/XDj+7w8794+frCpVeGKkMUOAnNncLXpcrkiNrG45F2iMhE9LT98JzjRYskS2RjrtFVPoxWORwJHTjKGNIUcYwUCZ55YBE0VdZW3YMUAeeGs0CAGE0IvGgowxy1bRU2ovt4dU1ex1Ilv7q5Nvvs4YWLy3JVHB51PEvVKZCSfDk1Mbt993a72wZ+cjyy6NRDtXtC/6muhJwTbHtgM8/pib+lNLCF8Xphwgs9zqAaNjclqqwCmbV7KAb/4b1Hf/wH36TEEB1kWD/3s7/wta99TVaat998HYvxR3/0+3/zv/w//e4/+Ec/++UvfvnLX6SPW1ie5zmFXOkDZIjkbXU6+pdobUcFsH3RXR22HHfI9jK+tDaauMV33njjdPni6soTJ52yu3t09t7d+1zlwrGcKk8irEKdOpSoDlgMVnJkIbeHgBYOGDmbmKzg1fhzUNFS51Lx4TatsCPsIIh4YYtFpkMeEteQUpVaWgfToWu1ezyRHFzHWSfQRmAbfrfJaOREY9m1DPe0UBVJXBuZOEItMTbGl5iHBydlmcU8G+QeAPDHOgxjlTA1lwHoysONWhVjR52L+FgB6gElXgwD5rMypSlDk6qDyZHb6zk1IFtA8rKLo2oNxF1SF8g85fAGSCC8hgV2XXrJPn1xWVyXL3Ez/ep7QkrO2/OGvmRtUls7a+ODqHjIo3rOiAQKFD2mPl9+QTSCCmVXegFg1g/30qyNdXL57vjqyhX4McNBz9/3kizGgDTw+fyR1Fir9FwSlZNgpzeELwlV+gxbdzwCjEKACr1fW9EjaUHZQs5OmyP7hmT1DUkzvWmf4Whf/Jl680tcL0bEHzQf4w+M/Xz6fvUdWjS+eCo9mLXXjynG82lxdK5lIvlhxohu0go/X77oNwoTZFDFP8fYwqe2EtYyaq74/1gugitTRFc2KJkyqQcpizSeqIffx8jy84XipEs5oM9rV6+iWPxuHz58EOO2Vqh52vSX87Lw2US055nmM9tcrDNGghIt/Ak6KuV1Q5A5Df8o78I0PFmhF3xCs4fJnF2c10Disnfffddkb398hzmNWvvwpOVEYfRQCzXo1zc21jdWoSsbIen1frP1gx/9iNk7srPxtNN5u3318rXwAE7DsCDwuaGS1WSpwNs9F9YTLxTDhr0yDsYOBpSe0Nwkp2JRj8UGuBo+m5mqTFQnLi/VPvupq6/fnB0+awmPEX7P/CplkSxGJ4MhCE+dMGZtvOHIOW0bfQXtTRjtFCKUA2Kntdk/V+JoUs0sx00VM34mvDzSYjr/sb8cvO0cXG3HuLpin+LMhM6MBS6KprOQcsFzyxIFhxGzCzcVyiJPke8ITKHv0u3IMEdpj4hvFfTWqM8wi+z1d3N5rmjBq3b7JyVOaHkZEY/WtzY29/dK1YKMkaE5UD4DGR4MaIRv3npdLcGHj562ZLUIT9qTrUerK2tbkw836kuvlqcuPH2yevv2/VxlYnR8M1I9CF1OU2Azp31ixpisVCYnpidm6qs7T1VA5P5OEa/2ComW6z1TX9hI0LTTw/HTwfjZ4bjyKcQvCCwdh4RuIGWBR+HSgaxLdN48wE095n7An5pH3KOVJxOzE5eWJweDvbEcR0rTH5FKUt68095Za7utJwleuX7sFceWeZFgOMdzdYJj/pRASQYUdEu6ojwjkCMiQn8G3UNZy4+Hcusbuw8fP3vy7GmEQ0HNueIF0Y5XL0t49dlPfW5+ZlFNeSW0Hq483lrbXZhbfnj3wbe++X1pKZaVQ6tQdxVgCae11qjys79264oEnDON2ZtXbpkLB77dnf2trW12xbvvf39vrVs8ye0utbnUXZq57CBLYSWEXpTYvrSBLY47lL199FweGwnJbQeBxIIndpOUiLIch1pYjq1ReVYIvbF+sEycRGTcVehLXEM1yywBNwAWYyOPBmo75bfVU4mEMA1GjVyyeW2OuuHlj8bU6N7GZFLvxYNANF1ebZB+PemHtxEnGOOxoRAL8YcemGU0CGvKAyBOy5e4zjm5FA645vcOUVBnmQGOflsm5dPeye5Ivo+33O+VsJq97mjncGyk6HzQixPN0eRDtivO7YR3NlFq2/PjIFfZlU5UvMLM40WJxrgZC5EwV/zmS/zx4kaiF1kDn56L/0eroFguOCJrmv2YgDKQviuwcvQYGDlrHEIQdTh6nS5tsi9wp04sWnruOcHQoT9D1RA0LlponN3MHtQuRpBIhTeZI9qUmtrurOMgv/6FfTfRLb82m3s+Kd+1FxsHP4qI891B01X2Cl/sU7w9XVlfvmbvBQ/umEt2vWxmPBl5Nko/xcjS2DTQ/0+vTFLSRjZ+PwU3bjDp1b5H4/R2CFqHMePwkOfzxjVOpDqv4mTIigQ51MqSDNIAh8LQd/SPjzn0NDs1PTnVyEqrYbU4XKAlZCw2DPPKLrPJRvjTc4w7aVb+637WwCHh4sBt0EhAPnsADw/dkrO0cTgAd0QLna1jwaMWUSSwOEJlEUhr5VcjNy9HSwizdBI4OwPk9s6tb2Vjs9npy+/wo/c/WFi60BMQ8nTFPNG2G9duOpUERwG/koAADz1wV4OJ7G/Yh4LAhooDuIbiGdrA7eAVhZXsHzxbXZHMw1VMLhsUbXIFTtZLl5ZnXr3O/SS/t7bGR0GuNWhRApyh8Vp/+HBMHtVm9xA1Nv1hZTjOewM2i9GBLEWnpWY7Urp1z7f6J+cTnPPkqqDUsj02LXE8dOXB8BHKQjdjDcOcEFcMFfknT+HJSPgUswQQerFgLxiNRABL68ZabhP5XFIWhEWCRISK8bQcHe112Coqc1Mz7Za8diPVykSvt0tFTGDYb7YfP1lBPegJxiuVS9euzy3OeYQ6sTE1Q26T2X1rb19gwLUbr1y4RAG7v/JsY3isTXvk/H78ySeL1xTGXXlwb3+ssN+TSPA4nDNUFxCugu4SfshpYRRhVKxXChNsVkScfFXMjsRvUpYztREaRiQu5Wt9NHx8MHLc9j0KxIYOJAhzKJy4Op5JLITNDrcUySzlJb5wYSZKKnf3SNV0XywgvVYzbF1lXjZE8Iji2V7dlBOhOlaBmrvtpqTOJ62T4oULk6W64jUzFT5prWdPNra3N1po51GE55N9x4sVphH1NMYpf0cr7d6xkPwbl2+urD+dX1zY3Tl4+viJGlELC8vk/n3OgXSgg6NPPv6ouXdw48qNO8K8b3+0ub7ZqJQ3nskIcxx1vNXoabbWnqwa//TMrEnJIFypCo2tLc8vL80u437evvHa8HGfOWtEVcXOXrBnmJre4fe+973JpQtKfuyvbPVQa65PtGHDI6u7q/ARR3FcE2V+eM/C3bSWhz0G4GqlotCVHOwScMCk4QqUF251Juy9OE6ZRN/JdyO5Y8RSSV9zSg1zMlI8ZCMizw+dTqezhlVS8a7LydLhpJGlcz6SKgjsYyfCfB5QnBAyXJEOfhS44jmJTKdiImX+gY4zPEOlCrC1B9GhEiAM0h+gmjnhNIf9Jhs3+B2u5autLmesQb511BhgO7qjJ0c8CMNEKvbEYaAoOh+hylX/yj9KBZnBk+YqSSFQAFRlZLAnKsqkG+coDS1MS88lFegvoemERv3ovsvgjDVQHGoTvm3Okm4CV7hoqSB8D0ZkGnklF8EZcIeHtfFECiSkOIlQUPgwWxo/+e58GoovGbnyLquWNfA9dIminYAvZJQub4enNHAzodbQ3oaXbKINaYmbxiMTiV/N0qefDN7T3ujTixjFITLKUq/wRZvsV517xMa44xUx0+TEEa9LvbkTuo80cv3oOTBi6oGrtPtxM3nYQ9N+9SeUmsYcwwAr+qFhTz3H4kRmDmubSBeJPxp4+dgImYkWLJAXrXduHIwE81iusu7GGCTF6RB1OhpYpHxxiqbcFASkV5S8KBUjXJyeUDxsYwLLI+OCX+PVKfGuFZMkRIOQeHo9i6BP3JwRWlOfWsZG+D8IESjD/0jyHrUFk37P4YwxC8MPLcEwtfVJN0AQY0W5wTyDA7VrHJy2d3ebLUIMqBuRafMzX/gsqKFBDOadp698dBOTkWT6oHXx8iWHv9OKhFU2ywkBbKigrUSMzRSLajENWO4nRAnFEg+A1ljDKJ/N14rxXUVz6QZ2WiaOHqTFEXhwyitCJP3+7sZCY3amrsh6Y+hkH+NfLpVVPKbW3Ns52Nvca+33HZpes8UROF+sH7T6e82T2cWrzc12Y2qOBeDZgw0eDecj5aerHd1LHXMUHquHp8Vznn1YGOIiukVWMztsRkqOwL6MYYpgwZHxsjUXoIZ5EaZS4BfPg+pEtN8Q6o5FiiN2Er48JiRVP3H2lN/5YKTI2FKeMBPzKpcrS0vLO9ufeHu31601hDiQOE+a/d7NV1+bv7Rcm50Qpw++mSYkV3Aien0OYgPyk6hhCcsLRQGbxQlBWNWGTIK9zfba5tNKLfdzP3tF/VDWCn7ZkGDK6cC1guVJNkqaKv8cov1GcYJpMBzWRvvHvY3xSm15bqZea3gRaOl2OrWx18QqWAKcDfIzPTcJTlbXN2wfxoMTJFwZXNjZYG6msb21wy3cwNZW1m26kINnj+5Tei8uLBfLk0TMwUh/tlY/POhUR3lCD67MLk5OVURbX7+2HLZIceR765trT370w+9uboqID8vv9PTEp99588cf35FEuFyZGsvT+udmZpZ58DMObW6tPH50n+54fnb+s5/5mYvLFx4/enRhSTa/6UcPHrBmcZ8VWr44v0Bd+8EHH9y4svyrf+6X//7f//vLEsbHoT6lbt0/aK49XZ+ancEvcoUXPED0dHjwJ9evXsfB1Ipjexsrc/OXG+XcxtOHl6Zr0CQzWGmyyLLaVnJB/PnI2M5Bi6EuEheN5boyHA+f0osyV2J3Aq1RubcFKWJ66GdllLavQ5vrWxBptVThVsPqibooEk7hycrK0YHxShwAxtdZUF7GcZC8Q5nO6KrPEzIwPzAT98IJCyJEFZ0yxwpKo9u0U+GkUa0jh+gZtY3Nau6ru92AQMzPiQfJIS9GWVrY77i5t0+TAXsIJA2hdu9AlyK98CpkvQLF0AlA7amZIsXV9sFuVcqYdHAlGoOjuyd8VKS+PKIIFW4cePZ/8nJygBeU5NcMMaUBhUQf4kkgruD6A2OlK3Mu8DU1C/zu+xkd+wspRE/ppyAJaEd0rEHgv4wmYoEtWqhVsitDi9n36CoRP29Ob3veyCjCnJWM69Ey+RkFZmTXKUbhOFZES4xcedyBQujg2ngqvRQ9NMqX+DcNHtoIVtfhifaJekGRBmxBXBqnn+Ij+k+z82b3Y/TBPGcIPRtmMCYvB/z8ViZOJS0Wfzoj9Lh+AEoiPynlR6L27uswkZ8gov7UAxWWs8wNDvXCBdGX8RRA/hEY4gjGGxk4AKDiaqs1Tggpo83IQaeNnzd++F0nRgv787/InAOhdOSTq5tQYoaKlwPO3vjTf2Z3rM+LKzgSsl1aRKsUEpXLdLzIypPifTd4Rj3g6zunBWfNU1AwlRSpLryqhoe+/OUvI7fmy8WN+ZANwGbKUsXpi3kImiGqExdYyh1Xw3ZtrW9g35BwKgvGWwuIe0C2jSbklTQMJxOIGyPtLMZNsHClXDuf5VnmBHRlhCJk8AkeOe01N1pv/9oXP/XWDeeoKOjxbLLL/2NtQwXh5k6r3ZRDSsIA9ivTHFpbX0EqGtPLdx+tKX11be4mq1D/RDRvvnhawdAedCNnT7FGsyLGhU3FKkAaWKBQbmPGGa4iTAgPk4FvOkrWx8qAKexsOF8EXwSkNIl52DOsaSgEksuf6ZpwvlJD4Ti1Hx52hocKXFuV8BjNF8eGFPikLovqkF7Cdji3uNCYnqTHyVOK2RG8sH2U+np4tHd0QpEgD5hcYJ32oMJR+/jszp17raOznf7xr/z6X/yt3/yXuUaKe8tzgShw8u4R4LHg+DG8qR2ipbTBhpvtOPrlYIb9MXgHQmKUhHbht9m1MLXQWVnakpGh7d1NKJVmFvDHWDULZwtJOmTsHSfl+Nt8YOeAZwko4ODjIVW+yqWJQ47jncN3Xu3uNYVlt2DJekNgQ+/4sHN6NpDLqtfdPdhf29tfn11ovPm23GRXpqYngEGnN1jdWld1feHC9XJt7mRIKGtxY2tfmOLszMTZluj+MXGA1Yqs5qApsH3ksITOw6B4iuWin8BFc6X5+te/Xq+Wfutf+Vc5FQla59akWOUnH6+avi0pFNUrGW/ubD++98AcBZV88ME9trhqKV8v5qZrhdr4cLVAuV5ZUM35wjKGa2bp2eOtnQdrm7udHrsXPY0BW+W8kKuSoCXcrPj6w8Ou4h18HwPpB2oQMSk+PcIW+0WqiXy5ddg5O2QKkg1CgJcohVCYu0JUSBGcxNqoOLLbc5ScRFpQsBfbkgxdyVs9smqhXlz+AhqhvrHh+anIJ+DQ+VQRuD5R81IyleoFCNthB/fDbsdFkyuJVFYlmIdFy8YxffG4qDWGRlmXz4db/bbogbHh/PD42YDEfnKI4Riv5aTQQFr1iS+DhcVtjBTGhI+FWZz+3A//k1dCMUGNHKHMH8JkgpagM5BTSD7BLGgQXxIGTD9Ge3czLI31jwbukH7g8egqGgc2icQTUHk6n9lDznE0ej6caJUap/7i+5+6sm5iVMYVA3l+JdoRxMPfnoU0M8/AID8hToX+MJGrGIs+9cBli353dJwHJSwSSA+AykZBPxwwmtSWWe/ZGDyiW+OPmaXLHZeXIiE+4/lEhNz0xbNZM1/87SYi5NK5nQNDqLqbfvVsduk8vqSWsebRW5aAEtsenp04W6Udu4zsm1ueNFFImuS3dyCFChDBHdfoWmZnpz3oRUR9NvYoI8h9tswXbHxqZq7RqDFfq/2j8DFDMbz4cpwvh/3TE//pX7PvBpNUWs81lm5aE4NnP4rPhKRsrO2PqA83SPjImOj+lE4+cqsPjYjBXLpwYXd/jzpRTXPct6nBEIuSPZTrdI1I0e7uHpgnHNKHXFxeTuq+wNxWURRX8poJIPD2ZLsKGPPPLQTBPafef8ydtUyGAnvAN4WTlBxKtWL47/1b/85v3bo629vf2uj0eE5UC8OhHl3b2F7bErp7SHFOHjk87+wdV8qs3EO7Eu+dbu+0Ty7c+NTU0uW7W3dOcrXeWb5/XgIdSj7bkEoJ5SX+Uzsh16TeSIwJTAAJvJtYrySMo0tp9wEUMIDEnQxUTFxS+FqbiBJZqjYIYNVR1CJg0yrAYGgEmYxakgqwe3oQRq/wVKRgKvHzoKjzCgofsM3DZSTPPbolMLe5vWWFLQXxHJ9LGh7Pl69eqSFRve5xt3e0t3uwvrWKzBnw9euLr7964eq1Jd0kkzi1+NGErFiyjTut6eBRaQYewV84KcxmVEug06T4WRN07Y147BS6q3JJtVCJZmYV+UuHLs3P2kLtTZCzgw0MISA3vrS4KOtBfngIcp9eWBSFLgiIIq6SK/XakSYXuZV0XcmK+anq9ESp3SoGiadnPOB1w7N/WHBxiGEXfkHh5KrcYyOSuTTpIw0Hdfvcz32RbylFL+fZ3ebh6Hj95pGiTX3p9YhjihzIn1jIV5F0PgKDnjx+VBdYlzWHiFNkvjC6sKQQzYTlvXRVCexDkby00Zub69/51jdv376N6EYI4rSgx1lzevrk2YNHj7sSPEkwWW1wPnrnjdf2O6Pd/e3J8tiP73x8bXlRXBz96uz8zNIrN2eerDaPTj93fra9v+l4osah9VVxVhrIsDSM5scq8AaME6wLjwkcRFuOEjlmZQqTl/B8NPKeM9IOcKyTjcnwV0hhJ4SuEIb5nBwr5sJGIPyjjyuiqEddHC5iGMTDm0niXIQNDDh9zm4o6E4iSaCd0tLbMZrQGx4SZolMygG30CJlTx8bSl3ppEeSJiwWxe6A6hhHMX7KdBn+hKAySBhdW2/7tHXM7zRfywv7ihMiLMbY6RAP+aLygKFPjqQkVCb/gkt3Bp39mKHXwKecXglk+svQb0JGAXkwgzG9uOLPdNMXT734/gIXpmbWznEIZYm1RyMcUCjtGGIN8cullZsu3zM0FJ8JHbnjfryFiTwUcmG1DvpBvxD3A+9bzRh/cn1MtCPe6j5+AYZNYlh6PLywgkhQpOAXnLToAEUhhMoZQ+eOg4rRhV+D3YoegtAE3+u7K/r9qct84wqSFJdfsmYxmPQNBdJP1oM+3dWMRtSnNnHBVAl5Zc/6dM8dFRcVpuOtvra+bv3NAoGheKVstu2kFNIVOR1VqNTq0zMzYJcqDzsswYG+W3w3GJOcZYxL1JWUeSyqvso64TyqTAOg+QeqOoGVz97o8+XMDODleIISpInHMELxGwusW2sbEAJmbW5SgQZxjk2KFfbNXxIByObpJJt7EJ5Ll9iHcdYffPARq5L7cJt3UVfaTBz71s6eSOepSmSk1QNej4HZYUDgfXeQkDI8r+9WVfZeKo94JTwNeSbOIGQTwh1f/7zqBh3JMoTyMHdNN+qYqbEzVcSH/51/99+cm6IUPNh8+nTs7OCos0N/KjxHDjqolKNS+GQzsOXGlhZnxfHUJyqHQ+2N3WZxcqk0Nflkc6uLCy9UCcvHIxVMTu9ESo+x9uHIRFn1er7B8AdfRgbjGA5fQX56BpnYGmuT1tBqJq210cJCzOl2HjTGukXOHglplFpwE6sEJCESkJITm8VpQabDZMpisQz1ABIkyfCIoCnkYWL8wpWFhYtz+VpRKp/awuzBg4diA1jTMOrHh5tOioTxc9MLjFVbm/tIz907Dx8+XllautjZ23r95s3pipoUB0OCg0eLPB3tNYY3lEuGLSgxljlBQZTyjehhniDjyBZT0iixWKIl5CwKP5ufHaXsNs1IJQxjjIx0d5uEDVQXVJbCMSAy8VD+KPJskNwTdHn/k4/4hZLSJupTvQOHdBRfTyVIPhSMYPVATq1eBaHSOS4ulZVMiRTReHQSH+8bRqdY2RPaJGyaZK6zly9ysStGUfXa9OLoRR2qxjLEonHCxw4eoBcfSHDLl+2c86GYDYVCTiL5RSWnZCobkYzhlI2B6MfOSd/CQqozUwtDx5cu/7kf/ui7j5/cX1nZkz0T9TITXgqEVwned7a6pzlJRtR5malMSE8uwWF+9IRrwv733n+/JiZ9PBWeqdc/uPeIr/+f+eVfevedN/b2ac136eIkLIyA3IO9kGz44ASPexqJnk9pLAJH1auN5sbuML/384Ek8+qatLabYEzyb1gbqnWmqA3FHRZrxcMjkzrkCeQ0gTGHEcYI1CSnRbmG8WXN4mYc9Ec8dX1ScKdTti8DWUi6ddtxerIbBmPy2/GpODC8Ji5KJknbaGVkMqNX4KCRoFqI8VFhNHJxcZdCK60nxWHQVnCQH+uGuQoaHCkOF5yKMIQx2HDUCbdOKhoKiShT9C8kVwknR3yNZXDATANYGIdDGwgWEMFS6XTFF4QkbiTEEIctsJT2OklnL86oJ8ArjOV7yAfuBRnKcHhQIb0FG5yueGl6dfan7774DDT54oo7IY1lHHUQqiBYYQTQkCdYUBQDMPJAC4FeodLQ5tGDGUwIet7opgETcRgEI3zklBdtIrKBQ9zlIaplyC4xr8CkL69YkOB0no8q+2JrvdQ6pZFE5+4bqp0zBl+c7Og6GYqQWaugDZzoTnZpZi7ZW4JAG3n6A75+4603uckJS0Ra5C5hvZJgiS6FmZfrkeFPUOOgE+cjU7NzoiKONtdFAlZr5YnGpCS2loLOJBlpS0R8Rn34Ax9M5059LL2TmaRJxefLK5vCi9GlySap1J0YV1rXkFdphWIlY6lNM/tFmxi/z6joGv4qIHBmbh4BAtw3bt4yU4kNN7bWWQWWl5f8+XR1BT3jliX5wsqTxzzFhyX8HVYk4gDj5alLdCaJp9CxF2Uk3x3fs3fFnnpTjM8I/ScunJ9jhLbRowiTgUQZvo4HnfOz5m/963/py59/M8+/af/ZeeP0/LC0+vBgZ+WJ5NO876SCOFV/8UwsBNww3tmX/G2rMtWYu7A41OoXpxbuPXm0P8gNRmuczGTZGUjURX2VkxprmFfG0Xkqi0AxJng0vHNjjf2LGFtD9ncAInE+YMzOGzFVIS1x5BWFCoLg26NYOIooVNwqxmLHo/JtRqVgOkAkTP6D/qDDHlStCaSr0Yl1els5aQoqlfkLS4V6fqjAwfG8t79PcUdVE7S43d3b2d/d3pPbjvBUqU2RrqQ9EvQjq8vBbltp6evLl2q1yaHuefvp5onya/1gC3h2HYt8JQtwCYoDHYdXJLRxSXcZqkyhPFGxM0gSKdJsZZ+D7BCY2JXYKSkGSYF51UxO6snynfymlbR8+OgR2Pv4k4+BrmWZmp1avLCEo5ctqZA7ayxMNmW6bwJsiVIHYH9hYW6WP97SrPg00QqyHWWJQnlBk0V7x+f7otf7PSpSmjQxUjt7ETUvqx6v+qER3E8+UheOSx9erAS2wxaE8MgphEicL1Qp7NvdASHPuX7z8CZCxcOu02lyb5GCHZ5T1mN9d617qApaW89f/soXtrbX33gtivjwehXkrsy37Ea4Nt6IQyUVfo8m6vlOa+e4n1ucm6KNzZXzfdJ8c1tf3c21fGOCHPfeJ/ekL7p+5TIuHGVTTBnWQK62d/YYnCSpYtsMg9ap1JciwYscR9p7B4Xz0WlJ1RrTaLbYNAH1RqnQAwAUuTFoy+KpLqWTHwmwHBn5ISE+MpYDi7u1QyyI1PK2cviAkyblXPhDmddUedJzVOhJqDqvlBvOqU3TkkSPXB3xmpVZMfLQEL8o+1W3pgrHQNkWmp9zQV4lpsJcUZaX7nkfISGnyY3MoYJ/8/jxcGmswFszmDH5e3sDMgdngd7Z6UGvq7Iohfq/kFy9OPmBEQIcEw4yQZAUjGtgqUBXPvwUaCtDDQmnR4NEKjKUl/2oXdbITV8AvecD7RDjAtGlJxMez97lM2GlrPOM3ugjKFDWIL0avUkjibE8v9KIsgTDTnr4knihl4ZkFc4cMIQVNoMwJnjY6QFzzgPEBxf45JAJaZgzDBccYBI04Q+Xt8ff6U42ZP2nlXg+wmxBEqJ8OR73ohcz1Tgj0KZGviEVwURUEBzB9Jx1GAgtW6v0lJtZ/3qgZeZ4DXSsHvba4+rh8jWQQ69Wn5LmuViotFSX5QxULNCnQTxTlQaxrFStTNYbggup1h89vK8k48zUJFFGHnQiEd7NpHW4d9CUYDUjldk2ZW+PCaQrRmYGz9VYz3cfwg0XzVjj2EcNtTHa0HCGBJ8eSY8Hl6LGREq/pCXo9x1GkxHxK1+5IlGmYSiqS2KyGKbw+ptvT01Nw6rIufPZbjUVJLl0+TJR97DX45idSH/YhzGb1tObdGskCSZoxrMrwMa0HEVWIfydfIm2nNEPQuPodGFeloDwJ6kvTZzxSWjyVar0ts95YoXvOHvJ2ag4MOEm/eMBGxUfRb00BwM1D2lc7j99PHXhVdRQmIhFPDofo1StFWvUMcrEIARRBpWaDloKeA/bFWYsVicWyulyOpOQnQYLGxp8iIvHA6ckduOEbSAgGVWz1PhZrA8SEFJMOIMhwHCKhe1Ect0+hhWqqBdLNYR3YrJQqNiDUeWtpeUXAyFspladmKzVN3tozTllYL0ivPx8r9k/aG7BM/s7nEVn8blSK//lv/xb15dv7nzy9OPvfbjzeKO/02ltHXCqJ9Z3RS5EfougRrbcXKRRsMn0zJEwxn1+FICbDpgVM5ff3t1nenTKgCvAq9Zr5WIo/TqD94PBGhpavLBAH//BRz9+8PjBzVvXGxO1a5cu33jlOrd70N3qtt9//0ffvnf72aNVIc8XL168cOlivT6LJNQbNUIJy5f4L3slNQSx5vCk74y2eke7reHd/TBrLS/NAza5dR1tu9AWkB6lkI/5e2Nge51WKI5yMjYBb5SUw3tJGUscK+VkPVei3KQQs1zSYJnl9Gn5/HSWw4qIYJwSC7mcTKGBGRu6du3S3/gbf20QfuHQRdAAA6DofnD/UaPxyf2nTykyS6NH60/vO/iDzqXy2MhkhXt/375LNi0CWvyRIO2P7z949vBxa3vLe4k7jakpTobMUguzF4ksly+IKhbXtbNV31ATB+EEHBSeAiguTi3IrkKUqlbKs/Xpdqc/WarilwXqEvIpQ1W9Cc6GNxGTUX+QoT7jpKpgxGJvwwf4k7CkqA2WY5csnoqh+B4ciBAp1Ycj5lj6Lqd43FNoGJUgocrB16GibgL78JLd9Q0oV2pkunSR5DJWcP8E1cLFwPtJMYorzy6W5qcWuHcmXj5SLA4dRiWwdv9Ims7zCvIW8anw9r+QXOkxCENCPT4SFogPN1+SKxzrc4QQaALqoOVIZCM+0peEvBKmig+NA7QTaQmUF19T0ySKOcehTUpvyrrNfvVGixXPRg/RSeDF7E7YpQMfesidGFo0i6eh8mif3CUwsjHs9C7NDEo3/kyXg6YdNUvoXzQJyU8PoXNH0OU+id68xae3xB8R3fhc+vFo9uqXnwbrXUnoer4C6ZHoMGvszXrTQ9Ynv8eYQkbP0hx9zy73dYsyae0OGLKFfWLRUXh+E9QJ4jN+hpawgrhvzveH+KcOeylN8X6rhRmnPZdpwQRSFoDIyoy7hLhZrfSD9ba4O/t7geDxx3b8hfeNYXvpTz4zEpVGlt3MBukpAhM0igMAT/HPXiSHFM2yZXm5g6gX0uLyrJ/gqdNO21wucFien6MTQY/5DT5+8oiKHJ5668131tY2JcGZnKg7/Hfv3PaUpUNfcYDZMNxx6VA/2aoGMwIUjT1BQlK4ZduUWA1AYTlCMeJwj77+6nU58USDdA+2OXXnzjr8jPk/NZR0Du6MORBT6HjLeoizPF++dKtWn9042Htyb+tAcN5+i8apOFGRTGewuiuHreTxgaZHSwCufzy02+yflkInUYkollDJ+G5hAuSNGSNo3CHBE6HYIUKvkhIIux2rH5Qs1C6ofhRvE+WGF8baQBkcWP2PMfo4soJKb4oRIKzzSG6jHSjW3ML04nLldKyFBBIO9Q32+II6OhALxo24yZDIp1vGcNn0d7YPENUpdS7Enh6dXr184/qlGx98+4M/+f0/+uT792cL5fJZ4aR1VC4qQYIonZHIkFahUrSdhjF6zgFd/uGVUAFGNcDwgGRFYxvLF4qfevsiQ4idCs+gdO3tdLoqvfcHm9u7jFtbl1pO9trW2tzchV/9s7/27s98WrrUbqf57e9946PbH7T7B3CPgPNf+dWv8fUQfUFxjTgQR73IKeF9EBpW2WGPpfloJQXK2er65je/c/fBw7VLyxfeeP2VajF3+dISutjc3RDBSrOKeRpmTQ1rIiGAxux0ty0Gtjx2Ilc7J+pDqaXyBWkZykAaR5AOPrW3lbTPp5iQ5UtLsBa70dVXrgmWCq+fPNx6ykK1tram2vd4YR6aZa1sfa69tr4q7hCxr9anN7aaDx884bWwu9Pc7LfyIycXFmfq5dL62entD36cqzb41bCX1srTaMf21sazZyucTkqSsjSmrCn8xgf91RuvvfHq648fs4s9cHy623s8EYf56A4OrAXRpVARKc5VSbVKCD2V5BWYTaTqnqokQpuUHRkIgYJRchuGKMwu2uNwWV4aHTyE9QGu9EbUg/AnsYmCNLFTgS9Dy5cvUnjaVfvrKQDtuz75H7P/uw2RsfzQdFIADofKgOEy0EVfMtERJUYUn6n6iZ2Lb3gEclNi0xmenCvtrBoKR2InJM7Ac6Tzz/3Hi43MlQ6WzFryW+ovECvU5rSbDxTp/xn7bDL6MgINyCsJW6AxgWfTuYuW/On9lfCI0fPqd/MnBM+SxEtDb+QJLKnhJXwd1mUBmmolhVCXen6OSQNN0rvpMSOo4TUVLw08T2cStjGcJYiOUWUj1X82Bay3u/FHQsq2zZdY7mQGi5vJTwBqiGBOijPRJFIVJ8oHXcRjqb15ZV88G7oP03InPgIRuRnYCDdhEmk99etO5lthU8lKTvV5+E9ARcFm+tWzsHN0kfgDzCm2nDpWCPD69hZv9XK1jmOhSySGs00RvfsMo6GB8ayE7YxHHgZYpYya4232JVwfGoLovRRPSmRxEeepmymvfSdfYYvAZrw3TSr7ks3C8F/efM5zJEhwEwKOHQCC6QrrfrocazPGgXKqEioaB8OWQljG6mzUGwoECoS0irV67aOPPgI8JCqaBwl5eS2L49nZ3Hbf4o/ffIV5nROJB3F2DI0RwpPSGBqetcKnon2GH85jwTVlex4jDeLJy5uxVrIqJaSwvJHyQ4p9ozm5eWPh8sXpbne7WhnrHxxLY9E7aCJUjXqdhp1Rhv8gQlOtMBLzzkaWJn/43t1H62sCMur1ma2N3Vduvjq5fOnZtkQXPMrIPcmDxvtHuKQXmx3ZKDBP5mBT8jnspb8p55P5VGOrF4uXgMeT1ioSCaNMPHoZyyJLE0cG9aocCwxpLDGSFufW1kpvLLWaTOniMct5HK2kB4eHe1zThznZLF6WClaGccHv1Wm8cpTwwLvfu/uIArBGZVSf3BOjdKwgk7iZQQMnrmhWufH40erS4vJv/Nqv3/vw/u/+d/+9LAzs443q7NhxbryuUE19Z4+CrX2o3DogQ2vlYxURHKTjfG7uRqVRBVe0bd5ANHEOIITN7S1CIdDd3NgHbHCI7fMFspNkwTSP2kPi7d64OV2qjnWanf/+7/3djb0VhHosP/Lq61fnk2x05dplahMBH2ZPudrvNyGMjDF1h+I/rQoNULAr29t73/nWe3/n7/4P1JMzsxf29np/8MPvvnrr6m/+xq/h3zF/AZ5DIjS4htsaKqSofDRRLfO/IAr4FcCGg5DNEadFoeXYH2MXeYj2IgclH5/IrlflnCpG25+Sm3Dfy0vaWq7D1EuLM84nJ64owQkjLM1evDBVLkH6cqQQSsc6n38XtEsIsbW52trdVnmB2gP/afu5eSzNz8hj7yYduDwdldDARCL8zdVnSpOi/TNzsxQtUpepZvDVn/0azun3/8HvlMcrY5xiVDdWkrVak8BeFhOvKIxPC9eSETSSLFFVB7pTCNipeZ4h2uwcKwz6xNQ0XQVHdi4ehgdEUS+YRCJtkRWEY+wTSzl0RErm/UqZr6AdJUToyBDAyOKJ5IPqCPmamZoN/fDxOfuZnP/qlXN4g5VP6lY/jNbjkZKDnCb1dVRqplsW8YDV8zTgjtIjJA29SVlsyaSCZDlJdrNzwRMGbYfCaXNYISInX0DMAIVYhzl2dgkOhktPKhgKJkJmaWBkiwycNTp66eJFIBioGgqxuxiXM2fYikd0NSdQqETiD4BiP4C5UmW836LcUShAQVuwjTA55ObYw+iIsuOZkCY2NxGxZD3DW+J00IYgVVGOgBrWpMNd0qgsGYbaqYYXrB9TDd813B82DC2D7KTiDNSJljA+4XcTyfSQm+ldEsO46ZRFYZmov8NwRY6ke47KzE4E2sU5k28MG1VyFaGLyNnLQNOBPU/kFZIOIcwquuE+bxzOqq1xPqBdIO1Zab7gWRy7MArGT9KPxfQIDGsW3uBTh2Rza+ALTPjNb3y7c9hHq9iZA1mdDd29e3+6eXDp4hXd0nWEqzdWkHqwVptfmAKJlB6eFMKIFAG7ZjHfyRVpADDpb731hpQE8ke4T76Rzo0GoEhTZ+mH+cFXQZ4xxEoExY0ldYFJhNd4XInyW3AhnGhTxI2FBZieDduNO4sFCI9L5U7UFrNZGjm9t2/fwUSNjW6Q6tgSPve5zxm2EjjeaFnWVzcUDZHo4nxwNlqyR2F39V45Rq0PAGNzoWywdHz8qpUa3ZRzAozpzKUutaexoTK+JYcRbwQLiC9Fh5e39joco464S5XUPujcvDbxc199Z2X9dr2cP3Q6YPzhOkPQSadblBX16KzWaPQlVOIpMaym7ZO95t7m9idPVnZHy41SaXq/Tyk4322elutY+kFp6AwqHRocRJxBOIBEQgwu1Scd/gDH4ZlbV/mlaIRYMbHUkc+2QHgPLaWTRUcYmkf6qZjRaBRbUi44yirKWcdfNSxZkGAEmJ0UyEuRafb0+OCsRRVzMuju7m0gkMcnVrw+P9fo9ZrHJ92dvRF64ObeirDo07Pe9MKMZHYffHjbgK5cGZ+oFprd49XNJuGcbNHa74rPax1E9NXbb7zd2m9994+/e7x+Mju65HCJ4zw8H+0Pj+3u9frHI91RiLFCVhMcXKaMloZyZpZkDL9kLAVg2NlTM3dLVJcTijLRAYAoYFMYFvl3ShVen2ko6cE8Kecy5CvzSbmW29h9cu/OR5//ubff/dzlydlqvpIXu0BeQ5sV0xnu9ePkxy6fc8gPmUEcnMzoBSHGVvK414eCpDA+67VGf+e/++OFC7cWL92YWbq1121//8f3br32OmrEC6AqqZCIWq4rYT0ecyKIDtX6FE3BoN0uFetQrYoujjoETOXiYOMYI3I8d3LQ3RZPJcB59Ez+6BVcEOsNaEQPgKjpB6KL5GSBjeOiTggPtdHpmZJDwxFkEjILbRCAnwhx+WRpf2/PkSH1CBzcaR6oj7PTpELcRa17hxAs/bC06JYNWhwTAsB3bvXxfQTG4ZWy7+ZN5cBe+5d+5TcGj1eefnJ3bW19el6uVHURj7c2198efwftsfLUTxwzOJ4QYyQQAmzQOQzp3Hk7/Lu1s62qqmMFjfNOIn877ywNCquSc3iizc0uyQsKMQisZAifmy42apWuXLb7TSKRkuQ01kFjGIlPKTjbpUapIIaPj6x4T3o+KgbBDbh6UEykDd4R1aLXhm7HChM1ZrbQviT7rLVynlgYrWcxLLi8M9IVqCcx1L5k35NOK3x/oUo0FrjvHxxAKIPtUGsSMlISbCg7MuVAlFMRcFpHBCB9neokJC04KpRvcaEh7ocmMZCvpPfxosB8YTImXEcsKihMNAObBkWmUF9UIrhRWk2dhrQSTyW/OHTE98hFllhOz5K4vTa0LSnGCCIg/QbtyYSdkLrQrcDFLycbXaQrHQC3qUcM3EtDKPQPSQjfDG+Ektm6XwhAHkrdpDEkechbPQGiTdZPydsx6J+pRL9JesveFX+H7jQ4EZydv7LLr0Gr8NqeQTuDUsSYsRUax7M4AHuiT5MK9vKo0+pystjb3idjwRgIvBfV+vUjxnAG+6NjgeO0yN2DJtIBOES9xEIiHhTzRU4353ucsZtt5RHwAyiKIVFP2ot4W3qp78ZhijGAn7rcNF6UyySNNNbWNiVKFj+FEGGNws8TZxqhsFl/wzIGdR/ef2SzWYxp4Q3YeiXxbuzS8sWN8fzT9ZCuBGZKfbu7tVudbKQBRHCVMH4+clSFvLQMD+xZjUjFZgzQGScXuxAieuTV4r0WkZNslMl25bAhIHyIB62Nk+P9xWuLFy9Ocg9UGBZLt7W1K3WEZHMwCg/bze0VGeT2ZItVVX6g4uD509XtTiTsG8PQwbBbu53V3cO9QxHI/fbReGV6GgsWdDIqa4S207jOojqUHZMnSCQrO/NwkbJIsUVQSlQKUTggxB6jYYGMVfsjigWIjnRbYluiQC5wsneUS5GInRuoRL/0XnQpwP3kdHKqppQ4HDG7MG3WKiTXGouV6vQPfnT30dN7N4qvTsyq6CIh5ODRk3UYSGql5j5VMcT3tFw6gAHZsBRJRRXHy/WmvMGD0+uvvF5tzL33/p1vfffe9FBFhCYJjSMSr67J2bnZ+Qtztdrl6zeovdRL5MJTm5xk/5EdDyTuPNtgH3325Gmg72RSsyGhdx0aIloB6vrkhO/ATFqTV99849or1xTIblQbDx8//uDD9zkHFKrnr7x+YXZuYVgBFnFanf5JJ6EzyiSgcnwISK1JHHI4L8V7OJhnXQzhkEo1yg0SLlW0f/qU7bYwcjR+5cZbl67c+Cf/6O8XK9Nf+tlfzM9eGuE7UK4e9mlN2akx0EPStVen8zTpdgdrgObbgrAXZoCvmNxhPzw4zpXfatpPOQuRYOp5u3B2XuxLTii0LHywD+V2ViLxJDwoA+I944pTDGroc8vVUJNieNPg6WxSFoRhGNSZpHgAu5dPzt48vAUY2D5bvYPdJklhe2XlKR8T7DInfrgI2VdB/mBbwrLdR0ePH3xy7/q1h69fu/Gp5cv5YoUHPbYVaEECjhh6zscuoh4QW6xTxPvx1Ocra4wmQt0ghw7ZnzkK3gro3d3dx3OViY0x1gidohiB3yy1JeIoCCtiuEEmLIQIkM5HR7ClGDDel0BYAWvcPdVCaLFRbtMPDRLBK4IbWABlFAuPI0jJ8dKClJxWoIuopQTQ8S7LLkcbHIx9x7AFuTI4E3O9/OJ7dt87AkRS3gdcA94B6NoDJElzoC3LotlCWlYfdsxFuTDJncN+o5kzmD6fizv6cXmLK34LbBd/Sj4AKqJlDCEu9+OvNKRkyg34DthEsYJmxa84nviUAMedIIuDwPTcelKJ9fCigip57YM4qEvtuPC6Cmweirj0iphzEI64/+LNQsPTOkB2/htECzMQ3SK18S98dr3eGOJP97M+HB6QaeRU88gQFJTmkSaSMDg66Y4BG629ccV0sBixh5pZ8Bc2uZRPJMoYxr5EG0M0QmrIyMTGFkyMw2xaHPYIaeQZ3Y4OdzbbkqpSuXgFHQWWzt6QV3kWuLJFIwTqE2PlUkPo23/yDX0r0RuJsI8k49lLrwHIsbxGqLG3g0WP+55daa1erNaLHUyLEDDj0syfsUjpevkUvoSui7WBPzZ1fHAkxBHmd/4mh/3d7a3lpUWz3NreELaothAUTiLEIU3UGzgF5gHrMD21GIojSctrkftDlDAGmIOZN9oP7/JaCxMsTtggE1VHTFV37e7NTEzmhgr37+5VyvjcJVq03/rNvzDONyIyZUT0/sHudntnC1tYG8sdNrutnX3hLPtNbwkSJFaSV/TZ0Hh1qpwrTrZ2EC+UHG5TpSZ4nKTew6Uhl4njCFSHAwj+FL7gqdHNDVXtAZMvYspTgmEshW0ElGWyIP4x5Fhakcj9TxGQkgVKXnN6WI2yelTyCCZEQGlDr4Ab2GlxmW9euLh087VX6VdHpV3PVY5aR5euLD9dWQ+722GPa2iuuLi+9aSvOsOJ+q5To0Okr0H3QBGjAsVXDIPFjPAkmcLw+OF5/slWa23/sDA9dTRcteY3l5bm5hemZxaEEhXY7aUqLVfpXaim//Dj99TbXdtc6xJtofC2Irq2Jfy+yIE+gQRgFRmbw2OXyxPz86/cunHj5k3GJ/Tm9r1PfvzRRwd7zWerq/tNaXlDebbZ2Z69Ons61JYYBIpCnZDX8NmI4qgoOpVNnMeAushaLw0jRaCMXybCzh9FmPgcPXi6W5tYnL/8ypXLt8ZzpU/uPJIqZHe3t/f7f6yQFlcP1gucmZQxfM1DBKLPiNHuoPnoCx+CQr7G507OFqdA9GuJj+cQ4Z5jIRxgji0KMPkQz052ASpgzzAk+BzOkxuCbbVJcKGfngMH4O/vB38CNkDGcFDLhAzGSEi+BBxE2vjxUeUZ5XQYsIBMDY9dA8CiKZWMabUPV1d2tjabW5u7Y+dHG09sqMSvQ/1258mDj5Hr2SjaOD4xNweNMW/Lt8vLc7e5mxcI397rdA6IMlQz9G8qkltD44QPSYdcVylmsbiIGFwja6JhO1BOWVEd0KBjuI6Tne0IjpydnjVapFoDPzmkkrrFNFPudsaI7NQ7sESiQqhVwxIWOffdAmdDYoSOUUdqNZvnQYJWuMQL2IjCMxpFOTmYiuAJhwsEYAeBtZL27AUJsftmkL0p+9RRNEqpVMO2D9/IjsXmGkk7ulTtfqJ3ZPwgW2WI2NZmiDsWIyhZiBquwJiBR55/13/2rlAQJegIkSKgJNBc1kybQJQhXT0fWKbgezm2QHjHoQDNGoSzhOzXkUiUlIP/8DOVpPmG7Q9n8NPkMOvEg7Crl3pReleGiEP+MZwYEQktyWvxmailgWvpEVfWycvPRECfK9DM3dDTTzF+Pfoer3uOVeOm1dMsNLMkRq6IQRWicz/JGJe1dw9+i08ci/+EOwkI1FKtWemmc5zXL11cTkduTKKHo0HXCOy6zdIPpHgi/DJtRJgvhOklGZEf8/pTCiIhFGWG6ynpjlot6ATl894YfAwmrX827Bf75aZLxy+/WIdEirwwKjtnv4IN9/WTYMZ/g7tIs49MJw4xq6MVrQoDpg0fG/vi5z/P4ME6zX99+uYrcTxGRuZmpr/8pS/A7BABDEFrw6nP0TFOS2dfgzZA20lA9Troz/uSJY2lOZY//D9iZblND5/wlugdDJ1KK9UvFsf/2r/3b128MDNyrMge9cVIsdGQ0F7yqNbGFm3MUTOKgJOC6hPCP8faSL94IHXtFP4bGesdHhNRek6UrQhmbAzoJYqVkcxgQUBVaCJpgA+TLt6Dp0dNmd3PR+jMIuMDizx7cMzEQgfHGQvv0Fo2iyd/KA3XWLFz2uUtud3aTWyN/rEpwfd4jurQak7OK0015axv722fnu1I0392zhe6tLkz9uTZo+299YnpyuSUYsIze7tNNjBVk0ZP8xYo3urlwV/y7yjJhlijLpxeHB+vDxWm3vjMtauvfbk2PYNSQBztTudDou4dWYmbvMAePn5Ky6L+CmQM2FxAIo7uwIjCa9VleBDZnMpaU1M3b16/deuWdHyekZmTy8/3/viPP5SCr3OQOaYGfgfk7JkKAPZPvvH9D89Ub+G9wZs3+RmGSj8YfxgPq+pgB4ABNqTKxb5IxcfvHG4U2CH6fGNj62iodO366xOTCw/ufnzv/srFpel/8k//ZGPl8fLy3P7OJo4Nuws+q3DXWCjq5WIQ1cTG0ZcohvgxXkQFOWGRABQWmJ6Z4Mn0bOUBE6ms8Oenh/SgzDlSO1+5ckWGaGJl+O6q5Tg9bUiojq5cMgdCm3gsmSWcbAuFUAVDByWL+o1AurG93Q2fsSOEFDVE8kUkmYNPY2KGWhENahTGZmszUPflucVms7O2vvUrX//Zg86vU5Lfvffoxx/efvQwMjs+dpaxFFGzo4iUEp6tRn2qpoQ1iYCvPw5MLiaZTfIhOak1GslFsSykLumHmeZCKUE7D1zPJPzkti55f06TcqVotZO5ceAhFDrSiSUMZmp+8pmEBBtzYgDQll89eGL2di0KmUCmYRIIC4624d5uxijWKe7cRiBPkQckvM9iPNZQU9NHcT766LYG/yPpyvZnl05cYM8DBgFZaAr+sEhzVy8aMQgT0paTzT+uEs7U2Uv/bHMYOhGtDO3am9ieJLMnnBusimk4jt7lyGQNonFgaWy5rxluz0YRDdwxmPghiSY+46Zf6I9PY2DBdlHEBVqIzjUI6YMQBQOEcIM2vMQjegpyGPq0IIQQbOAV6CWaPX9njMs7wvqlxwCh8M2FbQNLp89A0aFo1HnwAsHGpxnFpIIrCcLJ4KE/wZh65toZk4u7DLfBO/uMtwUlilX31acFjx6SUjD96QmDtGb+H3pPRIydlNEfunMCaAWYglXnmlYg/PjwYbkU8pZEc9yKkkshmTKUTL575PgEnnX2jFDGSFWoJ6t1QAJcKNlki9sLeh/jz64Y3ovL/Rdff/JfM3L5Cd71Ck+FYitd7r9slz3rdrBnltFKUS0lFYRoKoXYbSIR6sfvvW/vmNOAXHN3b7tUfvzsaYTOcEzGXHU6vBn5DPkVRuC5C41ksAQ+qNJIH1hvqg5ILxiARG4tqq1DBthhxXl32zt8ueWK+Z/91X9zcY75+IwuG15VaYE2g2v1xPVrnUZ9d3VjZGpInkDptzuIve0cGZ2YmR/KV7vn+d3OSQSr0K2U6KaoqYfxw1RRljzYaYJ8/AMWoesAGDgJKl/ZbUS5tDv7FqvA6iylblAsW65tALTlYc+VB4jsAvKsnl4CI5THcqdjzb2mjWNF0dZLYsnB2DA3+s7nv3hr8fJFnlq7dEbb+0PD+bnZi/m8eva5ZysbA0hoaLC3v1mu0d+XIBVFQoSWMgjQDRId7ASjl+LpJ6PFwdn4ASPe0cl2q3lyzJjVe7jxh7stWYT2ZFagnQzQTpMqjRbSEgdosnVb/gCAY/xEXTV3lgGIe3Z6RqKvq1cu+bTdz/b2bm+scDR48uTJex/8GH5Phq6IWy8Pl7EsIPwwlDSj0HH/40fDwgTCBGkJI71HcItqQJV4D9ldl8VO51Gj4EnVyygNC5MKz7chDknc1JcvXq/UZ7n2/ejHdzY2mpcuXdndFx41/ODRDj5pay8EIGogHgBvv/Gp6elZyufFs2NHgfO33lm1GLqZlviLb+50pueXN3c2/+APf3TQ3Nzf34FlBQ7Dksb1+uubAo/u3FmTcpahEbliGQHmhipbBEMyrwR3pG4XeEKq40lhM+yxZSF+xYk4o+XMZnWuOAfLGTjnQ9hp78OwKAMKJ0cfZcQRHxeevbIXjR2NlIY/+9aNX/zal2DclVUBmd3f/70/nJ6p2VI0phNWlsOd1pZkYrligajD2e3osHfaVvM6UrxSicll0TvvEXEwf4Ua9z56LDTcCQ0SAllAFbzWoaC0xta/vL6+9mj/kTM4Nx0FL6V9CityMnWDAMMeUiTu7CzyHvNsEkSsQuuxOTHg5fAigSycamiQ5lOwmNIqeHX/kzHs+Oig3axPMGPXQ12qOE7APG/PSOjC+yHwacI58ZFAILCV74miOOrxBSDiiZAETMREtXT//j3r/Morr8Is0IgFz+x4Hvc9OqKsSqok0ADXJvQVEAbMAvFjClNEvB8d0xhAiA5JhPAfzFk8EneyC+rxRTNPUbe6AnlrE3SDyg/DEoypcSfyExJRLBaRy5cQ3dKJClY+yFdg68gHk0G8XuPSm45itulyEtzT33MKAp7CTSNQizEn4hK4+3nrF+vmJ1ur/+eI28/YxcCUGLcz4XDRPj3lz6yNLaSE8D3YbGkJYLyMdAkNSTpYLS2pPiyc737EfHI/IsT7jubErKnU1JPuSV3dN2NwLTW6x3lz6d/jVi8jIvBbIpMhgNISqDeFQ7IoQTyyugMqD+TDiSbGnhSnaY9iXWKZ0nJkX3ymm88FzRhb2iA8jJX3XhvtDkj0nQxuikHUAxyCL7CJ2BYQiM/+zre+zRZl3fwKr8nc4fRiVLGNaID6wjqnPXMMaA65Ah9hZ+XELObZmXVrpl5k9TSLU28kMTJLn+1R/OI7jg19r9XGJxtFKS2++Ll3Br3N5u6aCuMwttClTnP/uNcmlUtNA06wp5cuX79w4Wah3Dg6z+0c9Jr9wU7raKt5ZKw7vUFbnpjh0W5oVgesPzR7AWwhIcfl/VbE36T8ELzcDvW92Cz1pYRT9qbGK86WkTsWVjqIOJkBRmFsCMdOioFz8zwbO40EtpOl8ZG8s2aLQQi2LHBKrPn5uHpU05O1qQnTjCC8xtbW5sExH8XhrrQJ/d6E4mFE7Pc/fE9qV/F3so8On7eiCDC2Z0jYH4ZP8XEZT8r12alHjzbvf+u2nE1SecD4eObjHOHTeRkt1ieqM0Wnl/YtZksQYhqM+IqeCDYINZzLp2evXLmBDMLLOGJ7TJ/50aOHP/zkNmz+VIHp0XP1Nczx/sbq5tZmIeJJC9j2U2k54lDwpBjg7ujDulk9vsRBhicbXSWXpTN6LTwKhACI0LBgix1z11GHF2VpcELvLXSvQ4idmZlfunxzfunK1s7+97//Aboljy0P/2J5Zn93E9mTzEnkobzot+9u3ng9f+PW59bWVt1HSIQgg9vQR4U8NHz37t0f/OD7l66+ygfzbLi8s3eyve2wnq+stRzN6ZlCtdo7O6ufnm6trZ2USqebWxtvvjnNzG1gqm3s7DTPh3bjIJ8f1ytKLJ9F9VeBkDQb5SLndVrSmakJjeE3n46IXPuqZmHUeKf7dTBObXAkObfsSf02oyW0XBhIRcn4XVZosZbP165dmR++lv+lf/lXtlfXHj54zJHk6bNVmlVOnAuL07LDgH+GL//AEp87FWbk9EVKHNhaJc+39qApa/8RD1iRMPK/QEomEClqHFXRMlHEhqklbBZ2kNByRBZT4qfaUCjcSJ5fyfU21CHAX1GC3DhdttLXgOaYUIEc9nGG4igkIGY+smuKXtRFgMCFmm/u7EYFgl5IeGwuXNaAnC2IhDukq3RgMtQTixtnPuFhIpCfoLnALIla+LSFQsbanQMk0nnmVrC9vekJiGN+Zt6stNGJB32CLTsUX+JIJlKSkF4gk/AbRGN8jVs+gsP0zRszUhSi0/OTn25Ey6x/baLP6DVIVvanFyUFQYCvn0C+/FjBxieCFQ/HFYKUMTtrXAhBefBtYXBCD7xdjwYS//wZX5CvIIKM2sKH462YdyPF23rMTF1pVtEUsqB4jB/T5ac0ssD72QUZxVADKwVZxUzhMUwtJ2DF+XNL8GBBDo0g+dR4jo3B4y1cesBvGWP4TvZgIsgiKC4OXeO0PkE2tIQjECSozKsAJK+8MfSLGBwmTd7ewaw46/zFZTyDStjJiY0eDNIcHVKrxvLqzaet91SaprsxoewynhdfDTwWzKdnjZm9lJbAdzJfzDTFXzMaAutwmHS6AvWQOCNmz7hsiQx+rHP1yQZ+KIl6KlBGtOnm1jpbtzehfmAd3FNMsOFHvYazY2wdFTSLs0F6kUGGbpAlMOAoLT7KEYMGZcGWsy7VSqWhQe7ihbnJ2kKlKIUOvg2fF3Xg5GEqlwp7raYaksetLugQF6JMLc3oSK6jqG6LIjBfinq64+XiZG1CeaOSRIMjR1z/zscmp2Y2draDFyMBp39BrSMffPCRoM2+sw8qdlsq10YiNZ8iyJB50gSGwSLZLcFw2B0joSIoAUHBnFno4JZoTQlnGJXcgLMrgfgUu5wvV0u//Kl3VAGLmfDxGQpnXfvf2eeTxR10SppbAUIyqHf2j3a3njTqU+KLiIv4SetKocguE5sh1fpgaH+3+3R9d2Wnk4xxhfN8WTSx0ks6NwqH7Uix5RQ1xRIBzEwVvuXyfvXSRQo/28cnaWNnl0wQQIj4HEZCBMZRyIt8zK99cnpiTXlNwmkxN3/jcgqoOGDjonW1HNIZwJ5hh3Z6q5OmgzcPTe/QKAwttb5lVBg5Vjg7XsHGaRHAKPJqbLzC3yI0jXstfmuvvnFxcnZpemb+T/7km2pZvXLztXJtSkZ5e9o7GUPPaItOhyvmttfc+Wd/8N3hkckbr9wcHI31D88HTHZc5igqlN4sSeM08t0fffSLf+4v2HHxC6O5yeFRGt44nbaSB0qrVSI/1eqiyrZkGjD1UukKtGsREvqkTY1FkblT6tjW/rYanw59tTiGNPLZRbAX5+YwminZrJQvDa69Q+cF6dM++PCHV64uFmcn+VZDDcc8H/menJxL8Y7rQzwgDvnfR0abhWKjXJvYXf+kXC1/6rPXmDkvXZn56s9/jli8vrn79NlKWXYwOYX39/CUrK2ONrqj5jKskxfwK881b/GzI4ZvGeBbB6LUzZ5ClJM5pUYwvpwVugDlLHwFYY+jgbQavVqpgWKhXkPkt9DNHtlxfJX5+jMOJkLHTSiQF0+m0GSINrN1VMpQwmR9kkk97OUQ7shIvV4NQIp3ceiDQ+QRLjtN9PixmHqEa1yx5T91+c1N5weiyfCXAamzd/XiBRHlEB84Z2nA7SpHBGNqmXWV9eG7y/fnuMN3qCu7+5Of0jfMBl70xauzJv7y9vR4dPJyeN6SjUqzTLpCQTMKF+QxKFwQPMg2xhNOCEEWfY+u0v8tRAwqzfqn3+VBawAhxAkxnJDyEFknJPh0krjV1L9BvSCjQWytb7oZ94OKDId3QPY6t+yrV7BA2AAvd7mRBhDlqey3RQ5+OeQnbjMnmA7cnMeBO2CBYtMjTnIQE3QF1qb3xD7QD8BcGtgUYCFco3IcYRNAkEDtpeAM0eDRbqc4DRqnlvLhIsE5mvBy6cq1qzC+MvPcsW5/9DGdGEQp4WwxHJViXkZlCtlcfKIGBpOt2MvPmGP8izW3EUGoYq5BgE1EM1/chJrNdMDJxyWrXTKFeha+C+82xgMnKZejJ8dDvf76677zcnT+v/P979EBmot5mTsKmM/PVoT+12polc7tQIwhnQp/RvariO0zpLQvwYXDfiE2kyNxrpVyfmt19zd/4zda+zI4SA9b3eluJe8sBfByag4Wc+OrD5/trAnL7E/EGaQUGWsfDR0O5WqzC73z8cN8fazcoOcYPW6GXCVXwKncs+qAxDmybobhCkAK2BedS+vGoCwD21E9P8xFmMWi39luSkjKc5eTYBie6TLtOibmtFyRWAEYsHiPVeps1qOKIbW6fYqg0mhR/Fef9yBSMXwudypT0GihLBdJWfm+0aHt7R31tlgB5DhWqGR8tDR8lqfSnF+8uDB96cHjJwf70vSKguHWW0USRKicDecwbydnxbWtre/98AGeeHJ6Ep5Ryx3REmYrN5mZRQRjZIHCB50Wx4SE5hYuzoMfojAXTnhW2RfWLIUzmGLCKz8QK1gMBgXPRLcjY6FMFlzP+CKNlfKTVeWKjiVHUmsyNO3YnTzh6WzQD8t/KV88H84jew5uoOSwBYQyXJAiizx1SWhcw3Zlux3QAAAJnSlfeu3W4yfrjET2YnH5IlrFuhZO/OdnM/PzPEOJ2aLp6B+4s8sZLisSQ93VVxZv3/6k1f7df/ev3ZyoBcMXPrUqsAzkCBkeHxo96MrDj0rKcJQr1SbHi9vHZzuUU0aNF2l15N4s9A7Hjk/LZ0MVFFGq2OOzwoDrBwE8xjI8OGT1Yb86nZ6aO20Sr7cAxsGoWO+TsdGeNIqrU3StMnxSTqi5KjqgFusmYVHlbH5pKuHCEEigodOzPomdAwQbBdUwv64eB8VhYmX7fHu9VC+1H7VV72ajKamNUijwFK1XKzevXaWU5mIomfXaxtbjp09W1tYGESl4JoWmnOvwpZeXJ+qkxtbBLlGDUsDaSufrgDhqXknVR9nHB4iEDSE47gAe2pFxRpwWOKfdNae+SlUSdrEES56ZKhBBaI5i5AzHukGuYliF7iR6xpEQ7u0KGFZI7XxkenomeN3kOg5VRwS8Wlz93n5zF2p8Tq68FUdsQDbe4jpvQdiC1wsclOlq/AlHyO129dpFtUezR+AmZaEBZfCyz+nT83Mbw0pckN6Aru/QLUdc2BYug5ICfydMxwoQv6InoWSIK/7+yRUdGp4byIYrw5uwAUzlu4EZuS+ZJkbjuEeOMlMrHkmtY6UJD5Ri3kskNST9SJftWTysz8Bx0XPIT74hENkXDElozMgu3T7eUq/Il+noAdpViYBQj6l3eNwMlBqL56cgokinPh10ZMzwrBLMK9ulkhXoTSgN3QkPb5GzkeJHmBT7TzYjfdJ2xFN2IW0JXjM2SD0l5aDGB0N8PHmOnUe9hKdrq8PDGzpv9Tp8GEj0WDY8uX/qcdg1HVCd81/m/icmhCDy448/ksmmMaVE30ylUecWctDt0NNqCQNka2/wVia9HLFMS++WC2lOl2/+a6FxxoAPay8VqRW3Mlbe7CAiIletrIbNMAc2kD3eiDV3xYGUumZ7W9gQWCcXcmg2SLoYkIArlzLOU3FI5LEO0DhGgOEyb0HJQIIUbWAOGSIxUwt7IZZDgB1WkdYkmBUYRaE1SgYcOh/SbpuPx7Url69fvqDWE70577yJRm1Y4j2XJCCiQXORTW5cns2zbVid9arVPxwtqRElQnbm2997/7wyPVrsKTbRmJznN9FToyE3/ujpM8hXUQsbThHVuDAJn0Cvie+xpGRWUxCUA4odKbUjhqQxknP6nLx7rOAWKIN3wn9AQWaTIpqF6j8/LlFCu99xX9lHqEPEf1cd2PrU/MXLc/OLxZnp5upjBHFrrzXoHDjWmAJlYXXV3m8ddZQ4niiO11s7g1phdnDwDJaWQ7QxO/XJnfvTi5f4vnF5X3+2trm39v7HTzp9nOwI3p34RRXjfzzk5krTFspGODdAWz2tKzida9eghb2DPfan23fvBK4hPeOgVaetEvUgctg4FI35Ujijbjd36dg6hx0+lAExjLCsfkHmub2Q4uPgwXT4Kbqqqck5uxwBjnQlYdGSLDe0XkAAJqVh42BGh8bgFF79h8LXeGwzyOdlOVK4Gprunx4qVw3AZJOS4u73fu+fiOsCkyJ7hPCRLQUL7OwejEXyuvGDTl9c3fzSJeXY/19/9+/95b/0m3gHhFHEEuUq+438SVMz047M1s5mvdGwS6xVNJMn4acthlLaMvW61i9c/BnBUpgSP8JvO7v7b7zx2je++SdSGloBNX1U5+HKMTl7+XS41D8qSFRBECgVsTKC5fsWRwDTyuMDyXILldrTtQ6IkppmavK81dlb/M1fZ1g9Hpwyt4pucES5JvJ+lBMkyusImCjQuYVHUmu16ZR02ypSPiE412sS/YUKV+orruJXFxduXb3mVOyJ197e2u8cfPfj79x5cA8NlL6Pco//Yb5YnZmfFddx6FyPjUhaa+WhSjhO8PrOli1z3MM2waHGqd9pRQ5G9khHWLqsYE+Zco/kMGSGiGYwIc/jiCBUBWGMPBi6bjpZSGZnfXt1dWVpfsmuIVegqLm7C8ZYDpKXPX59pMr/i3G9XLGMSVWa+NPAQv9j9tmbAs/TICZ2nqsAoZWa0rkxSuI2RCN+EPpwMjM/A524AKRLf76bqm5fojrfsysjMM9/CGVY0AdUwku9DtJ250Xb+DXQVghMqWV6RZCrwFIuoK0Le+hdOGnYNgQsNxN/4Onnl4dT+5ipDhEYn9mVhhoDdmWtnRkkmBxMVMMAByoM7jkT3yx60CVnAAUMU2nqEHrXRXpF9B+H0pImCpRcj86oY5E+z8Jbdtdv6YkzptdiX7LnSDGZKC8kG5xEbHnSVXq1IXgQuZJbC0K3HKFalgUnmPzD+fnFyEc+LolnOEDPzs/rSqa4Rqn481//BTNVco0a9Cs/97Mcjt/70Y+u3byhwcbWJv2b2MCpmUnow3Ri18KO9pN1fv79+dr46/llaoZjmr4ANJIIZ9bQn6RCjkkhSWaImoHd1oG16vX5HrYU4/EWW0k7ZACm5Dvi5DuikZ+dRXDc4olsiVAvJy1Ghdok0YnyxOs0TvgLx5spq6FWfAhjTGwET6uAFB4JgRjpPyD/YFD8YvmuXFlWToJv3Nlhkz1AziI+TSLZseHCHske+ZH8/Pyl0ZE6jUXrMH9GsSR86nTkaEhmmMmtjhrqim5VRL0KJlMzifu4I7CzvyPnN/BI0BhknpI5af/DOwZYHJLEzsYZjs0PZwr7BycTeP0cBwlas0Mgu7o8smDPsRPx2u1Kry3APBDreLG8s99Tqb3bOv7RP/mjz37hy5N7klDQCc5IZhHBpJKjhLAqdQUxo0O/KcFAf5j4fkJTNNm4sL67OT3d2D3olidmZ5YuPlndW3sqbqf/8NnWhUtXVdQlu5CIyB9WHiMs+cWFhUVSMfp/6crVazduyOu4s7cHbFY+Wu+i/+02Mzj6FHxpgOf5/nbL2GMv6HYEbxfD9CEhA14qYncIpTTcyC8dLMxAk8GUowmwC/udkoTBUIrz4b2O87DBAfDP+d5giFPPgQ06nYBz44nZFQof/vgjGoKJiSkAYDvQhh9+77t46+//4D1ETQZCA8B2e1yH2Bia6z4Er1aYAoj58qDVCiPBCAfr02BPcyNxGE86mAYpX0k7fjxod5aXLnKzGxp6zNuu3e5TfaMbzDGHSLwyhpXi8C6+LnSYfMc7/S52kI3LEbO7tGoErU6fspCz3mynr7hiB30mZOfLZeC/2Tyaml7c2Nve2ns4u8BUA2UXN3Zb46Xt+4+fcmuUvT0BA73P2QFPUYeP8TIvK//R2s4zFUty+bI0oOY+MiZePmfMA1wwbyx5lVrITCirkZO64lQSR1avDc4Hi1dm9zv7inTdv//gycMnJFm+DxvPnvLQYyKoVyJVG34ZPKHTNhiEJywUSCA7++74AkIgGVpA608Uo+CU7T+MAXEQApmE6IWQ5sdZrFlNZGDBre7v7MJg6tokBjSsToq42f+UbO4Itxfxod4YHYZfYuBEL3h56T3AIzBRYHbjgBm18cxzwWdomJsQ1ndsdJf3Mx1FOLM6zSlwxOMezJ4l3/gzpLSAuERYUlfZGyFi/fseV8gkIc+4QLIbXpd+iA/NXnZr/tEImrQE2cIlbJ41jtcFVbMrQbE8Fy1T4+iEoQPdgTm8IXR3Wcc8UuIxz2adRM/pSiKEnEznuF/4JfvVsid5yRplDWOcWUc+PRpSbJzG4CkiGgeqgrnBVYovtmfpRYHoQ79yPlqQaTr8JM+7JAdsUowmBpChY989Hp4kaVSCYtQrs1b2MfpJ5BPqk/hSNlgWKTcZaDkpiA3UZyjFywUqI2yXUfjz1muvrq9tEt6lcldKQ5YV+f5xncHZIwMR9xPvSoOMeWWziy8v9sqdP3XZLIyvV3CgMkElRjUwBQsgjwGyxCAROIvnb1KBQi7kHhk1vQWIj/VGscAp1WHx+is3CLtOOABNNX6OjNP6WCkLgru2FQYThbBpa4C9fQwKFVQ/EXA5jcLhyneUCdKPDTFyqTFOBh4rjJxcv3pJnBXJcyAD4BgvIXqzQ68XLr21uSkzabVYn6zNLCxcbrYOZ07KZ8V+63iEtu8kV2nMXnzaeUo/JJVMt3MoL1+1Ninc1Vn6zne+ZT/YCiMLU5AsQwjZnuMLXp6ESBM7PNQQKhbbFiaqiL+CEYL0RgVkCdNJCFz10H5Cq0jUyOvPMAZmu5Q+Q0NPnm0sXbyxutniJnXv8e79Z7/75jtvv/Pum+zkPPL6p63W1po8D1wjt7ZbpbGqZC+Y+gT/5dmZuRvX6itbf3QmDJo1c2xka6enq2cbO6KsSOyPn27Ta0WaqFzu6tXlz3zmMwtz8+g39+O5uQV+Xzt7zbsP7j/+0fdonkVchdxq100zNFLkn8BHAHNGYdyUvYJqCxMjQYd0UhTdA+iZ7Y7vj62K8xWmKtKmzYuzEBqLsHD4HrsJJVD5Bf8R9kd3wI+vzhECb6vpDN3hedjqBAXa3tj0T/VeXgnIjAyTfPy+991vr61v3nrj7atXLls9uEy3Gg9OGS3PpTMkdgfoJHsHOOwzdjx5Qi+SDjigK4hzA2gIqZzjvNh297qv3ZpaXLj4/siHEn/gFulrpAc2ZOHc7c4ulbaMQAAV1Kn6sd/cnp0N4kGwUCgDV4MbaPf7DmxtcopTL2Sp/AfrHEbzoLcj70dFTZvxyt7u/nAxUqZh6kin+wfH9x9tiAco5kRzs54J3Qtrrt/hKNr+Dz96+I9/70/oIflAEic+/uj2pUuXbly7ySzE4lspVenYQRk9h7ru1kde3MzJRabIK69emz2aubRw8d3X32ruNO/cv/feez++d//hRK06GeWM9+EN5IoWmqK/uX/AqqYrx47Ego9xsqyjocJKbFmAme2KJB3qqfAhCpcxS8kzlvmLzsM/MAPRQTtU734i9BqS3yhwQuZgS7MceWFnoW/AloY/s3y7hMiflq7s3MsLNIXiMl3ZTXsQT56fyKCDqbG78sypPmAJCFrYlkiLkC7IK/jZhMRfdpihO8M0TzezXwFKNAgMHXxVQKQrQDmoUXZFg3gi49cCmLNfU6v40Ff8HGAXuhTYK4SQIFaB137SSYJLiM4Kuu1Bw/RGY9A8dRCNsx7jM10Awkzx4GzLgcK9Ax70vEMcjl5oD/6cIwuFvM06xFfSaThUCKX+I4kJVM4m4aik12UvSj0lGhagYAxG5UDLHuBfeNB6qoChtndcOfWA7CY7VppOEKqMh8gGbAuo9SAUN4sFusYKR6bVlXWy78z0XFVy8WSl1Cd++e4nd1aerYXqS4m6A9FyNQwXJOtFCJXjSUOqW2+wAD4NLHBEUOnnexovTWvuZjYdbIPO/Wmt8JsBgHGF3w11gjaAOP5O0e3+1FIn0STxZfp3xSE361KRSoDPIo7bmnL+xhSHZOlYhINoPEYN6MGsh+hKj0HVw/yDgFGrxUbS6Edj1GJMdAPKQQjhUFAtSh830W7t9STz6eyNC1nGax8J8IxYUUFSZ0Py2skauP6d795tsxEMFY+Gyyfj1SOZq3oierjeDVS+HK85+QNqwwQGzhu9ZfBDwSd5PZwa4zIOpEnQI5CT7S3sf5TfmDfrapkwNdgkBvvAzaZEnDhTFijsYWGDk18jn69MTvJRPpDq7WxsenHxZLhy5cZVaYY+frC/u9f69vfufuv7dyYmq6/cuPjOa9ejXuT6s72NzQgdtUTkNrltR85IWgsXzmfmrszNrzQ7+42Fxc3dgx+/99HRcGF9q90/6RZqkxcuLUuFwHIwMdG4vHxR5V2+J6Rh5SpU9Pjggw+frDzrS/HESq/2CmU+teY4O1DkfQAlih7xRTZqIhevB5OPTY3jFjp/C8INDkoyzfB1ckcsXYr4AbGgyZYi3CEr0NdxfTkKzhKeI3lBf3Yw8ktoZ1+PD3Hu+HTdCv3EMf/gRz/kR+oIhPPY+ZnjQG/hO97o4qUrkvjVpItNfkMJYgPP0ohAZkDOySJbgx1Ai+cAqKHezZ0po4udZFs0TVCtwlm7ddg6kJazsHzhKi3c5mDHeeJI44ojrnhG62Bxft5ZYjJIdKhP2XDr5nUwEApg2Hps3ALi3uSDBdJBMMrVA5n+yWVHXf4aBAWR3QsXFifnC0ISkN5u52xsEpEubm62JRoLgxHA5uaWG99WlHWoU64zpOXQufsPCKYHZ8PirU83tgcPH3/w9/7eBzyslhZKVy9dxiBakIkJ2blmJqYatVrVEKV+Z/kgNsCAMBU/mNduLly/fO1Tb35a/pFvfPPbD589ubiw9GR9rVitAGHbFW7rvUGhQGNBwD1vNbtWDKGyvBYzwthxXilKJ7aO1MBlhvWMr0Z4Xz3Xi2AWnVigBXogTJtFQ+h8B/YfxRYMBDLzuyFXGZiV1CVhq1FrOE/PhQYtvdIVByxhk+df4tgFU2M0xqFBFKFJ4rZdl+gwHC47/aCN4fEV+pbUQeCj6C5dvrt0Gx2nFm5nN0NaSm0CM2oTW0vRnzV9MaQwxEar1Evc9EV7KivngMu+P6GDON/ppdFV/AkFhFQXAmVo8YKwZZdh+OcO8SbwSnoKtsneCu/Gs+muYxaiWAwtLt16uwYMTqlAXOQHszhWxra5vFHgrj/d1BstjmMQlN+Q0qZqa1chKb9i9PATAhyCgrojY2ZS42vsNfwugkZ4HZgyzRB/HPQwREPMYUkKpUOshgN/+fJVe8EXZ2ysrWceogm38yQMn3Uzl9vi3ta2rEtepJ/dnZ1QnB1DCmcinDjL2mAtg8K82P+MJJi18aTZ/+TDS70l+9tMISzfMzYq5pvoHGSTgY3GrgCeaBKmC3wPgGKxt7AWTf/e5UHGBodKanY6TFsIJ7IBsG/HBgTGf7mB8WZLjTKhZbG55BeaI05OCYQiisMSpZ0PnG3HSI2a5EanpuriUc5UrR05lm5TFEq1XMeB4pThWKnVK8XB/nZ7bzdSlve4BRbyZ2Ol49HC4fA43fvQePnK9VuY6kZ9wtnBvW6sb6oh2Go1Q5qK4DbAZjUiFidBTfggGV5AYmi0QnXMJz9oSHA6cC/mMXPiGUHPyF78iY1XLIBcQxG+yPJXnxqvjuVLDeSzWJwYktb6eOSrX2/8nf/2t5v7/Z1Wc2T14MM7KzDa4lR5evba9lZ7LD+s2LGkpAxrFEFbB3uPn21UJi9fv/Xut97/9u2PNxh57q3sXbtx/eq1N2sI+AxvjMsLcpUvLEAuqtfeuXPnwx9/8Gz12V6b/lGClREu541cWfIP564yVrBHajCGTRB6cBZDVw18YnNxRSXZKcpWN6Rhm0WhhALZxQyo8CK4Dntl2dH7YO7Q8aMztJCrPbkHfNmO0A5CWLYTP+vERKh/cIIJRuOtvDZ/+N77GiNgN2+9Bsn2Dg4Em2tD3cdkuTQxJQErJobcGh6O4ZaNndFpHHccCm2lyynG0nF6PFKvktWlWHb0qPAifOV07PGjJ3/0B9+SAaTT7Pc7x3Ozi9PT8x9/8DGGcqAMR/AjwW9IiZRfFnpbVQA+GKyzke2N3Qtzy0OnY+xsVkYWCYYbnuOmDvOgRpIOkTZ2tnaNXAiHpHqdlV6r08F6DucK5Dqugfwa2q2hza3O+vrB1M1F9JrlGeg4y+1OzzHPi/gdF58QkmO7c07nN16ea3W2TkQxnQx9dFdS7I8DItHfEXhgSA2tGaHgFxYuXrrAZnz63vGrr96ampzcXW1u12p8Z64uXRm9On7rxqsPnjz+4+98SwIuDh6hOSgWmwJOkupVFLNl5xYIjOVccuSzw+6YoxRg2nEOD9kwdhYhOgQCGCDVfsS9gZDT465l0Iy+cWpyyuPmoj1Isde8H4N9jDt0yDym84QBOC+QiyvO/wsE5DuoAh2+BK5OV6CcdIXFNYKx0CdvpXgOYcIdj/g9+x6cptMYWCloiUuDdEEhQWNcz++9+Emb5y/QTbw0/tIsuoWYk3LM9xhXGqdfPWEPADauVttYoCDXeg+89vxxreOHQMWgOxllYjzZpU02O6uckStPx8uypW/r2pAAAQAASURBVHASh9grsJFgPNmuYuSWlNI19LBeh/uzIKXiGf6FhgogJv7RmeWfFqx9DNkgIV/5cJP4mL3Rrzphi2dDCYLGr+u8wNTWl/U9TPDnTIPOajgyxTCcLx5vkVDKSDAd+JFAbv5PTzIyIteDSERRGrIyIwBXL19lHHYat3c2L9Dk1CIHxCcjo2qegpvm9r4IQDZ8Xs4VJrO2ZBbUBIUuXVCsdww4m+fLT/eAQlrzbOXiM63w8y/+Y3a6iZYJfnyaKQDI5utLprazflljQBzuJOlBbkKsNJA5jo9nkmdkS0uOYYH3g+WIXQn3cr2JPoJfkHMzhW6M1rD1xuFWs8BshhDsiPs0RwHb1g+XMDp0XOdrfHaEPYyaOqxXvXCqTeQYLoz5Mb8XSkPjXY+Q9rBC4/I9iLvifECbiMTXKwWBo7gUDKm6t8aAb8OYd7pNcGgFPQkC/T+YIpsXqiEDsjDq0oYDF9gZHi7QPQXqhVZ5+tlZmk4bH+ZrBxuNGzs5HN1vd/d7wwtDjbml5Up1ZrggYhrvkyfMV2qLY7mJphLSuZne8cCifvfHj3ZXtn/28xcvTE5L782ofyg7+9FpWSKESp129aDbn5he4ir87W99Y7xU/cy7X3z17bfnlpdnFpc6tLW5vNymf/iHf8xbQSExqlFwJd+gMi67B9vSKhEL2ajUkQrzm7qFXDGCGQO/wUo4ChbBoQBIsY48ASIQPkiKiy3KOlsSvEUo1+j+NYqtkQPJnoZDv0wEKDvFNnsVoAaDxE6bCc0i9wJK7YYDETIQ2W50zOeTBw8dNFv/pa/8nC88tuGB8Kyh8ZPla2gEDyfnS6vVBn4Go2VCQIEWvdGOWHDbx+yKx19aWJiYmoLDHDV7Vy3xGRna2d37+MOPP/jxh2YRVthul83/8vKFP2GLGh8R2Us4gVQNWPkpKTBo3nbP99S6RJlb+x01w7y6oFxWcGXnhZJiLXJABxjb9DGVCGo1X+Af0gYqdfnKtfX1VUXTFhYWZQPUmxQk7c7h/u7gx+/fee3asiwnAuE67bZswJ32oNvqng3Jc1hu1IsH7SBQFLyzixdGSyfHzU169XC3HMnt7PVSPaUhXui7nc7j1c7oR48bDXWwawrlPHuoMuoyN3zuuBvPNq0w7MFFa7Ix8xd//V+dnf/m45XVZ+ura5ub/aO+xbWPVsNo2RmReVo9mylxhJvOFOwUBy4JGObuuwYEKZl1KSGsNlSCQRxjmOSOX21MMFs1GsGaJQmaHzUr5+HIsQSegTxyQ1IJwuj05Lp6Tq7icL24fHfBz/GyRDMCFxSLzplt1o1foULESMxaQkcBcKGLT/KcbgJeA1sB4z9NrtwPgcrrEk4MqpiRoIzIJPOduerWfZf2YeNJ5AqEAdz4I61F9iI4NhkLEu8aE/Zykmmk0gquWxepfRoPB76M+vorLr/Ep3OD8KUxhyrHkELMM42YiClnfcSNJHT5AtB9xJsSw4gGeAaugmfMnCwbj0fP8QqQ67vjpSunHGtJT26E8DdN/Pg5NjoMR4w/RC/ji9ecnQsgjOmrvR2qUiPCFpzLpKKmXpAraVIJc8nn4vxIuZ3e7OQ83N2V6a7bh1Sw7XLStJpt3OLmetsAJLfd3dwCXh9/+GHE2Sb/Odiat3FD/dBCcRPxgHtiHWL62axffqI8bv7zl0lBTu57EM2GRDwCWnBhbtqybJHdtBPaMFdwrEd0tYHKLQjDOADjW+XQvv/++xxtsTlQmWeVoE08Q2jCrQkDkvTe3X4XigfvMCAdt37x9Uwu+uSKFFpTQII5Qd+DnwFpgR9TcsLzqek66Ihg8VM5lprylR628MJj/FM6XV0f8b0To1pv5Hf2olLn4KxwpEyGdGpUTxjHQXuv1QuNU75JH8xzy4zEkVy5fGF/P+0yEH2+RlYyQAjdJIHE7KN4R09dYomuufcfhptiOBaADuxJYL2AHcxVaNvUAkzqYwphEQrl06FqCyc9WuJGQ3F1wCOxKxH7wkTr7FmzV56YKebPLixOXL3Yerb2oL1/sDg9MS4lroRIysjbykIRQVIYUKmTxYWbs5N35y9eeOdnPiv+uN8/lb/n6QYrTxT4ADMnh0EMSPghu44Vn6zfEawJlZweMwFEfgL6TGKs1BVEFntEbMYwyq5TQGyiklbfsbfTwVKIuSYwya6RywvLQt6gaRgf9EVyOglOnidGQz3GEW6xSccVpALNLujCkoB858WWAX7kird+2LRGc2yu/LDdBDw8k7VUNlf1QkClwSF6fnRYo/kNitV2Fqwzkmk7uJ9h8ghGVhOZ5aHDqeTihQuvuG7cFBbWlaZr+JDD4dBIWR3ee/fvqyZFfJqdCR2y8C4mt4uXFiYaxZ0tLQMAdAjP8TLwokqpLmN6QnvYspGdrTCX8Dk32cAeomED58CXWJUzCyybzKyMTUenuISjvHRQ3HYa0GNR3NmkwL1jvnZD/N4POrc/vLf1hXeuXpiMGs6nQyrV1cpHwhboYZcWLi7NX9rceszqOVorE6yJbcWJacdEpk2+Fjm1Y0Zo18nJYM7JcpqGOhu9tfXeVGVo5cEztOf6lauIll2jz7x569b1V2/S4VyTDOLma5/+zOf+zm//XTN4trGq0DCEzJqAwCMz8AbjOqYNBToRiIssQKcvqEksDj4iaeboShjquDV6t4ERupJvQ3C09N/jIIaimBKYEZcoVpWzIweCgttVkcTrcJE/Ta5evsMXl16CBeDDJokwD8V6PUQQyDfSY+Tw/gKuiYS4FiyVdNFQVbwmtHnPMRRQDnYmXbCPZ6nrAvvEqQy06Iq7iWI5znErarrIO5ehy7Cvxs9JPehHD1EaZBJAPOtKGaUsR6ADV6heQsILVKGwEKzFZRbdCpRlXfBr+D08bODW7L1ekRBa8DvxqhfkMPXtFXGi/HN2SHEjmNCjM3ZOfHL+/Ji2C804HVh3r5RWQiDb8XglZCraasNJWS2C94w5CNiUaUIAlslJiJ3Z2MO9nmAXGUZOaIEGh3gEVrfIVdJtM+eRqFTeCRFDkgrHiCqgLN2x4AV5bqPgi/ERkznYbKxsMGhubW1z8wP65g/9VeuVe5+8j7DyDpdi2cmBaxR6kxtHyG230zLE5u7O8sUl0Ydy4tFohQQavAQsatkQ8lhm2+BFP31lC+hO0GkzTBrjMNNI/KYIb3FccIj9xwcHa2EjQkK1hErn9cpKSxEihfhLrgBsKhVrtc2B9bhKTuc9DGygGzBNinGQ7EIQfi9xftn4wsbbk6PSfgE24JepdAi9w6f0d+Q8v0RNHb7SZoLm84uWc104R62M+1DV3JtDNpV35lDqrlDn0AINq52RAt5UJxk9G0MqcoMjZd+HuyenEkV0BufdkxM+ZmJjK+WKI7q5uW8LnItwHghRO6Rt254YlJQXMaAMy4R9UW08x0e8WhhDLUMD5hkAm1xvQgILZ6M8NpRTtf1Xz2F0vDw/t1SZnC9VoPoJFerDcHE6znDMjoKZxQ5fv14+XtvdY4Ocnf3Upz/T33/26O7HS1PzTGMb2weq7lanxI6dr+/vtbvNsfze4vW3X3/zM882Wisba//s9/94t9c6YTkdG6pONMisDizTkOPLHa51PNiUV2h/ZXJGEELMkdBr2Owfgff5rNKkmXC4cSpmGYyOIr6OXjgvK3JdrgZgZIXP2ViOOgw50IhXcA0gN9txTJ5qg+Euo3BvodwelfZJkhC0CrQwXQAWy8KbQcR5+PIBwTAXHZ7fvvsxgG9MTS7NL8wtLqCFzjvSCBLAIUiLI50YX4vvjXia5GnWAVc05+4YpqQP3sIl4Utf+pI6W8aC3YFJPCLOyBdnQe6JV25cl6vDMP7r//r/hpoK8oQKFAsABqvPHhlhkL3ExWL8dBtsfSSQDLxhYNC6lyYCk7g94MuiEqErCJizLwN1SYImhJvLj2PCDapUK6EZqK+xcf5Bz86OxoRWw/QPn2xcvrjATMYYZIT0vCK5HA0ltg2p1/nkiJ+hpTg+ZWQKDkwcPaABUkK8odURfINTFPgxRKBQ+xA6R3KNCU0+uff0zv1VaR+oGxaWv335ypWlyxcuXbv7uS98Xvz1X/wLv/mP/7//xEzL1SLzZLPTPM+dlavBotAxML45iafhJ5kMWLDhuSNkY6OaDA9Ob0PJnDiOcTBtqBEiJWGUWm4OHzAeV+VbGRlnvocuHQ85BcSEySpiH0eGxh1lrgG+h2ETZzc8iH2FCGybRY/enOt8aNhtAssHJbcFypAUIQD0hlASMw7y6A41KPkA8onzCsBh0hOlR2WxBn0hZ1Bc6S5Obzichworvvt/yBbBnBuN/kNx5+zGIcd7Mjc4PoGt/R/TFzgo2UqAZoJIcXaIQ6TwxYxJQJUeDCTh7AT4en1uPFytRvj8FwU3wDJR+o7SJg5DXIGf+RrkQpoE9EZh8N6efnRohhyzw65YzWYN/ZeOY9CeKOWrND8ngwtTIjNOW8Kmun2TFiqjRoeM2Y53KHeiwLODNx50lmVFvwLohk7bzQMp4MQ6LM80FiqVicJoLRZulF2lTObF+fd6nmgdHW+3emvN9nqrs9Ppi/HqQBKtc1WF7DpnpMCDw6Pts+5HH3wckaE8lMjbytIgEIjD+dDm+kpYi0aHtkIjTHcsik/B+YK8JFAuvIPpgOzpBkknImRRQZ8AGpBJgMnu7BXkmH6EQD1fEyBhc8zEJqW40fBys+CwkIzaFjnCPrptd6IZRUDIQVYNr8YPIdA5H198caRRDzHinIYF7JU5hszNMVbbcJBWGs9XLyyR1SoVcVrPkymUynma80GPL1/SxwpXStKbVJaIhUzgdpnGDHGL/PsK7wWhFYV6GGGIrY2vffFnyiXfBdAqsTYxdppD6UfqFEeHQmqZt3rdkc0t7sp77cFJeXrh0JOF/LFjoGwkGnIyVjk95wxbLBn5WKlashSqtyxfuFCdmj5+ulKuzUg1p6pCJO45UbCB/SoUldx1KBnpAdk+iqWRAjQl/DfCaMTWRG3o4z59UTk3XgN9PVojWqLG9MLipWpttlydZlERIjlyHt1Gh3QpVjZ0myfCNO3ig63Nmxdm8kNjq9vUUEqeT6LVvASqtYmj49wjlWa3D9a2u+PFzqtr69eHqzdvvvbJ4wd7rYPV5sZ5bnhidnJw2N3dWrWnuFK2k25PQFYlN8G/mhySky8fdhAhRDkAtChATdwBoRpKLuzwSRwWxJFqC7cSCDrgEyTKAN6CUtiTSGIBECmjSu20DtVA0L1Wk/BEQhLEgD0/zVOa8fYX2NByeJHCUB7KNObMM8UPF4ZPc9ubmxuragHXL124xC/TmVdGI8ych4ehKmRrZEj23WSS0gJaaffajpcOHXCQ74wY7fXr1995550333wTgQHtyAtghuBEHcldDDEiq/zX52drGCN83qfeeeeb3/xG+KMOn2Mj5ucuvndKQziMo9I1gqB//v06dALUgYeDyKKQbV/xHlmXqpFdutc9yOer0o9EAF5ePHgw1nhK+gYH9/7DB5x3yLgWMJyhDjrvfOrTEFW1NHr39ni3tfoH3/7RV7/2lcmFQr+5cXbY5TDQqBb2dlbPR4pvvnH19/7wWzRf0xONu49WDrgBj490QprNMGswT0ofwrdGGoVn2KoLI8WC6MzhrRZGZJiIic5NjtdFvNx+tH1/ZXf8e+8LXPvhe7e/+KXP/9pf+LUvfOoLr1y9+X//b/72tRtXR4+Gnj5+0ihUmKPsIwyJlktEYStJpZEMPeXzDCyK1xFprxDA6EijVFfOwE1QZM17EW5q63Z5BQ9qEsKVjWtsqHDU2UUBQktOOW9kQ0ejxdFmv2kxQ+2Y8HKQCpf5YWOyC3jhGzK0DfdlrwFVUXgwYXPLqk1wwVFtM4FjYoL1o0/A4dJDsDqIgP88f1X6M9oAErwJUhOXu/AMJjqIVUC2Nz5viRKZdwa1njBudNKFtng1ohmiQDoMUARQ8/8AVxry0P5lWpbUf1IqUmsh7+Q+08wG6Yt1iUEkIcIWPx8siD8ZcApU2zk/1aAHhtkh03qjcNrdO+qPYObVY2l3jpEzAtPpyMm5TGPDx2PhEBXJ3cQmYxC5Gew3W8iGFeNb7jdkEB3BNI7ID4IlPDsKbe7ZQBXySN82fHzQ3a9BTfnhsanSeEF4iHw5ZyfdY4gjivUx0jnFZhbciDnLSViAAsaL+dq4Mmv42jCr2N60h0Mi3C2oBcn2xBSsm8FYJUcRkNlWW2zWltGHptYQ5xg304b40xWrnH7KvgCJEGSD5GNOok93oAt39OwKliqYgGB04nl7EybGYEPcgY3m52dtkHwHGetdlaKXl9XgkOX5Av97mTELo8JRB91wdaW3XFU2t1jkY01nRZ2OWYmNSz3H7sXpCCelcQeQMjwWFunimjlQo4lCvlxUZaXZHpyF8W/Al/1QdUrROdvrzX4Hm1I9Oc2rWJ+vTZ4wjxdY98q4l1Mk61xFdJ568tFEhkGnFAdEHU/ch3BBuYwJmIQwumA02FBdwXUbVIA3Yg3EeMAc9E4UnhXUWZ2cae+F4SS8YofH2j2a/a5Us61DJQaGX3/nVZByPlySGp6XOyiibyOVkEusDr0u7BP84ulZo1p589ZrD+7d3994kh8+fP21t9nS6eUt+177cHNn5/7K+sZOf78jF+LoB/cfzE0sF4rFz3/+i3/3d34bdXm2vSqIWkAqyz9ZgUmTo9YhDefQcWWiBBONDEsHGIKIVQ20nspkGPalK5dtt5NCqUIKsQP+lF8D/QAD/oSQOT1TFvkO0ozHszoBli5/Whn3Jd3RgERgs4AiYZpQYnltnR6AVFrIM9ZZwfUSGMncMdmYXFiYB7G2Xoe6EjwH42djCIBITIzXAXhRT+6biD/BuUxJKpFy6Pm5n/0aUw1aZS7mZSR41swFA0uHrTJITDltjS9WwOscqtD7jUY+UoEBXABEIxke0dJcHAGE0HHgmIhcma17/PikNfKwtGLkUMJrLjcFX4ZZwssAayA88s6xaJNKrfqjH79vSAagW6ay7//gBzdfuc6hga3x+LT+8MmDte394Sk+ydQqYjaga5H43tyfnWnMzZRGW0P9zoEC08xv1DmiktvyccQScdECQlpiGkNLRfFMBhCFhdwGBA/nt/cRjGK41NSnUBs2mF7/8OmzDQHFv/u7/+T99z74l379z1u9n/viV3/nH/1DVPlk7vjhnQd2+Mn9x6JlbLoyY5j0fCkKiFpLy24RiBxSabO08b6lnFYtLrxJ8R+Gz5fU5OHM8+F2twV9WhDBitjo8NUntvgVdzYayVRBmv5eWFnicMVl78MGkFCMXSfNBTAlXGNAFjG7fHdl+I6aPYaXoftE8FJP0ZULskvkKLrJuvIncGYyTl0l/Bi67pheOt1hUKUrD0cjLw/1HoEEV4n8GEGI2QhQWGGjuQ0IhJpIlV2yF8aFmunbTWfCZqEpfgmnyXDA9DMKquv4F02Dx9FVeiA8lAIp49JjYDhxfmSl3FEVy4zwQL6heMiV63R9qqJHFQnZjYNiSDXB1C+6fKxqzBgXmj/IlBYebsYyIvfhLH16jM8r5cZ6rRbZZaIwPDHUqY2fFCSDlQGpt99hD7QthhTpHyU3k7QiBeJIPXk2yIPSIj0VjaSjBVZjDSk/ONk1qhOiqeiyuiddv0DS5+N09AWxVEHGCBTqe1KOhaLPFNR/6pspvSLpCmGi7IcILXw6PyQnX4Ke2jMHyxeN8WaJjscSuzQKU5upxXkNTOQCBt7uV1PwhO/Z5Y1pu2PUrlC/DQ2RyD/7uc/RXNNdOCoiVCYbNcLZ2sqqP2GuMwrRsVEea6AIT4TlBMr2bHpiklmOs74NNIFY5hxNmhFZEN5cwDeskdhYKlGsFcTlFUZltfSA6+81D6yjMoze7iw1xw6bkqTi7aVwLLJcz/bNPSdEiWU5J4doVLQV2Vjg273DgOO4V6lpitVWXi6l8cN+F1pK5DLA0iKEUAU4Qw+K40sOHwB4NB9VkronDOMo2Fhert2h1jEtEF/B0AfI8jBerV9/5Q0JBsmjT+58AjNPTMzh9LmkW3xWyYhQ63SCM7CRcRqGd/d2EPuLywvnZ515CYLPj5rNfav98Jn0ijtP1/dS0ZJxHPWDR/e/8ObnSrkilP36K699973v1UZLR6SgbvvSlYvWTDqfYqVE0JBIqVopUQKAU+nzzIjNCadmX7wLXWG3iGVOlzgWW+Or+fKWjINDKk+2AOM0WnhcYz0gDO4jG4EZU5HGvb0dq4oP8CxAhUmkIda/B9EJZMNT6IrOPSvpm3w8Vy9f8XbwDOosimauWq6hB09pGU72od3xMy6Qp26k8PeTMZg4Un316lUYxDgNTLfZgI0ZGvB42MsSIfTdZZE1MEhv0QlK4lc9gM+W/HuIRkJ6mnGX8AqjFdmYjGzYCYU9I2xImW0uL8DY65yaUOcnlOcpEqrvVtXn8uKSZ7V1/mmmRJUhV44qxyhuI3t75z/+8OPJz7+mzjGlkWSzgu/p93gPTk8tX760dPRwZ3OPt5a58y8vSgIf8fSidVnTiYVAMXAxsAynBOufTdzZAuykYYk6s5FI+mfMTnhy/D5uTI7//u///ieffPLX/+f//uc/98X79+8Lyka62MmxeoieHcb6skmyJ+tTjD+c5H1EAoaOfquXPx+XnMLxktFxMACcuJyShE7wDM9nflOck8fHe0CGfp6jDJ0tkLDwzg4GMAYjdj0TRLJxWzhj9emy6DbGfaJoTDJNzC7aUWjAHd98ZO2zX8GHp7I7Pl/+6nuGImOlgigkjjNEpXguKI7F9JneQk2o62QoiXOYtYnntQt0wGYdVrB4ixtOayjuwlYQDDsSFyoAX2NsZhH6QWxC6GtRU0pGu5vNJU0qWv3kygafvfIFKdUxcuX5k/ywYu1ejwaEzp0/Dd2iwoXnMhtLa18UIz5ZqTawYJPFGi0QXXwxV2JTsZfM57iDre1dOl+RIlG3QSB3ITc4GKuMnk6wHKh4SjM5gv89yp2y9gePYehMYfAYfyjSI71suASZV2mcapNXEodm5M+IQlwZG97a3uRbbOMdqUq1jBJYNGM/kG5ha9s8cYqOcoyHcB3McnilRTSTtOL9w2azNZDNj4o1wAOfEzxDbGe6dJVdP1kv30IIs9jxYaf06XVOtYPnO/hxqkGjO46obuJPu5sLFwmrTW0owf/rr75K5w9/wQUy+njWyCUpBaBq7WCK6/kGXOPxeOpcDL8se0mxHPkRTgN1yoiIPRQPFLwMHwuIKlxQMObS+UX6TgljjENR856TbN9o4s67CsHxNqJwPzpt1GdyoxPs92ubHb4vyPIR1U6lJuJNpSsEDnuI0thHRDlcKFX5ECkzgkQFDMnwJijE+oR6NMCXgIxEBq/kOMkUHYw0z4VwKB2NHNvdln6mpB7MGWaR03mNPtZgD8/L57mrt94olhtYoe//8IfIYr40U6Rulheu24fiLSwlc6A8llR67tHTyXqFG/0br91YvnpZ2vZWcxu/3OoesV8+frxy0DnrHLLeDol84YqsIHj3cMCnnxXuZ97+1ON796h81/bWhWMi2yPE/pwKjeIxSKQn3VZbxuJOn9VEdu1Eg0l8EjLU5P+OdPiOmF2OK9LthH+NvebZle0+KsU/G7Hxe9xPl8dd4AR5Y36D36E5f+rfFoMB/ZD23QEh+vE42AAMGgAPXSEGUr8jbNqjJdlTWvruDdZfGzf1kyiNqoYdgGfACMznP/958WTgVPseT9R0ZU95MLV3oMJSHP5bCen51Ep7zTTQObOBm5HArNF4+vSxw44vgWv8I1SJGmR8NXhPQzkexOPyLxDjGJ7E5aJVHSalRzBy4kod4BT16AR5BXsVKvjJvbtWwEkGMdtChpVhXFvtd7frlaHvfu+HX/2ChACj9ji8Eolvw8Ot1l6pOn3t0vLDJzv42JOCemxWaBC57jlSHnI9zYlyCdSYwjf5OECeqLc2KmvRFpiaaerKyH2iJVY+fGSHkQrTglR20KS/8R/8R//xf/If//lf/fXHj/6Llcdr8KPqWfPzk+XwPaYZkNBK7RDxvVRuCGpMX32dQXtw0N8baTSYdY66R62mZJsnSpJZVjgmgyInKTc6oLbz6gDsMb6aFcyl3VdcGCxJTmbFnktXxmqPDTSwfGKK/el7nLNESOLT/10ZitLo5XbClilztDueSr/85CPdyUSnn/zqZvDtmPZ4LxoRFCo9CRcFl5pGEa1MONbP2/Wc/mnBtzk1j4egwLTOqZFOQ54Pwhgkh9wOksjLSAY9Y2xHyHxkDMGKADKMuWiz9wUlzAA0Rh6OFZ5IdJHu/LTfC6uhMRE9GRvDZzqHZmAAZHbjG3smMqAunyTt/riCnISqtCQkiKCsUXsM5I0Pj59L8aLekNPX3dlc7+w1SzS0wlNGTxVOyg+dlOX7lqKQGkvw1ulRXcnpyfJkoXIwlFtVpWevdUY+j9AQVpURHtGMYyRokgQeanJCytMFg797/z5Yl38a3odZ/uj3/wBqsxiQDlCQ/wKisRCVGivj8NT0rGxH3IcYxsAwWzq6kxY6hNMAauOPlUFBLUiSsX5qb22hd6EFuBhEBVJw5DKs6j6oGD0ewylDQ5bdHdvtPFtInD73QIHM7mtgPCA4gFs+yVTqjbrm5s2b6g7UphuKDEF8FgOc7Q32jaQxMbV1uF1mK5mYzGPTzB+CCFUndxj7St1NyBqSrpdLFOWooryN2mI5CngfdVrtcEHr0wnuba1vPb7/RCocuzpenDobKR6dj5NoD1tk0nB1YcIdzknJIebD3MHqKcdfFB668dntdOF/kgjmlzorFgbrGmgWo04xGToAkJiEAOdmXMO9/cHW6rOH94++9Pm3d0+60sLLvyUgh5pPooS5+eXZ+Ut7B71P7t9d39ifm10aL5QRJrJjqRTFOBTVxJCE8jtM1pFXrXU4uLA05wzIW7p8cXGn3bt9+2P157a3drf3z6ihikyjVMi5Eo9Hk1nZ2BibGwO6U9WJL77z2R/8+AfdsRK1zO72TmmmLpjioNti17TtOxt7SwuLdBr2EY2xTU4KKAK+NstlOP6078AsfhU1JvP6YccywIM2xW66PKuBRXFTA1QK0ve4n2B8ygZnJDvwIMflcT3rVodwt8aeffToEcRORJ5s1I3HwQf5JCeAwXvbK9hdzseZCJGPwGle5XEtadj0//a773CpEFWmK0xe4O5kcDUGsKc9NJGgPAQspyWUNsA9XfrxOilj3GFo5BNA5TU5PdWYmNAb4HcE/eSwOIpEXwRVn86+B0GNBfTForEnIFcGg0lyeanj5WT5D07LclGBFIYK1OCoOIGVh5mAJy4qUAcFjqgTXnjvf7S2srHz2tU5+hOW3ThTo6NiYfu91q1Xrn3w8cO95h5tOUdjSIarPP9BvOfBvmKSjkQR1xZnJLRKgZrQJFZ8WJDfvwVncnaEjd2niHFpi+0L7sE4JYVgaNrf7/3n/+l//r/4X/6Hv/Wv/KXf+Qf/8PHjh2++9narfbAws7S4pLaq6pCP8NmAE9ZDOhyGSqFid9Ux3t/YZ7HD7RVHim0JWA8GAqXpZayYt0hkkROHNix7M9LYdXJKpS50ZKHKhRp4kPrAQgXD6z/W3afv5pDd0c4XHWV/mmFGczSITUxPZY2fs9jpjk6yfrKnNPCnz5CrAhwS/gtM6Io32qigWwmthw8XWHEKo2n802UwH+GaHDTI3mpsGLjFGHR0xkEuFJqUewZLKafIXKI7pgS5eCJ0fuGsEYrQoOTZ2NMA0iDSxKMjAwoaFR17v8ahOMI/hBKK40y8hWDP6DXwn9N9fiq9keHdw6NdSYP5BczMNKZnK8XKdGWCRdxZPAuvqSQpJd0nXa0IaGaL0yEV+AjoXNIPmcQH0khGwgM+ebCsSkbsoPFojgzg/yXuXQ3osVeosH8rwH7n6bNmq4+dzeULApDQGL5IjDbCSZcvXq7XJ1rtIxiBlMBpKEpcDIfuxTrb0Jn5BTW27z98aB0mVfrpdqdnZ2qV6sMH9wCJm/3jU/QMk2LutgORczPb5WxlYtFtTHbF+oMrGxI6WQgIZnFBSRk4WWqPO6tu+vRQdt/BIMQhbGwwH330kSERmWkynVikSIaC5t6eQ6sBcuV+s90kaXkWkUASvd5oIQ7Bh95Nh0pCgrMCuJHww1PBFszcnKxr3B6U+Ds5LIyezU3X+TxIHYLxK4RhiyGRq+DIazff+PDje7sHR8JEm72RzunQbvd8n3rs9FxeuEJVjm14eRfJL/BjU4pK8lm2qbjGD05aW1sbu1vbFIxQpyUKEAMqSesOeBG7KFCSGG0b2+seb+/2n63tH/U7c/M7WNJGtXTc423cZEWbnRpvnI9uIjiD0/c+uMuVeVSFkNokCMCrwni7u2s7m1vEEYYBK2pVR4t0ZW2n0VIrFvzeBx+tbqw+frKGGnA4zlVGCtUGv47TdpQMAd9Q+e17d4Upv33r1cLw6LWli88ePAie7WBrV0oVUb3lcS5xdp6XKYQmsQXMZbVtrm21i2AGACAqhFob5HvMOrIqh+uEi2bVI4ANAUNFbHpGumwfPimJUznUC6ECBZrBcT59108GKoUC5UHkQfYWnu0WmlxlAHBZ0BupjaXkSao5bZCrQiotbSSQWpZUxVC1MQz8kCyCX/3qV99+++0MAjWzbnqj1PQJ5LzX2F58+j1wTna56fIWj5iLcWLyp2ca/jQ2U6B/BtbJ/ZSgbJ+HjSdAFyIOIzc/x2PaZDouQMt9TgBJaXqKIVlXGTn3BTrMxqZbHqfWkNZBgjSEitOrAcikxdSgSMegvdEdDH1y59G1i7MSr2FTSxXGOZFJ/cPewfzc5SsXFz78ZD1fqhdPxyWotfLlSoMwSgtrHYNEJbwaqng6iMSrZ4TKUM2j0xHVixuP1QBX0Av5vSsYOVL2CaYWQD1+7+7G/+5/+3/4D/+Dv/GLv/hL3/rWt5g8D8NwqKjOJKUIZTWPpwrczhzAvY69Sl24Q9mlexhEeNjOWW1IO7IdDI3xF9ve2/W6yemRwqiCldC3h1SvtYdUuAVU0xLZKXOxNT8hV55x2SeffgAl9imZv2I/42ZS41FXOxtBSdIVzySeO6L1U6P4TJffs133e9Y6Oo9eEJI4PBokAuHPaIKboUXlQar7MFoFIYt/wdukgXrai2OA6YvHQ+QONJjeFBbEoDTYXreMJiOqRuuKxlFDBccHQILlSf/wqZSE8bMhG1HWEtJJ41M9QE1spcmUpIvjJO8fcqLRYUcZFifqRACV6nSnhZGQXI+lJx3bl3kzIn3HOAhKkWWtjQ6Zaw66NlFyhRFxKCPDk8OnHPzUPJiQJOywP3LSy530R0/UKThUdkDVRSqLPg89iYyjhIban6O5qgJ5o+ObTRUESGnWLnwaiM95KTgnpyYWwyVsrKggidys9JE4Qr5kYidjTZLgEjkjpufWNzftLEbV2QM62cmPrRkdI3SAaRpWf8BB1tOa+seKaItiV62jNydBE01DrnCaVLTIlcNmeUGZK1Y8rfnLm76AqIBUOroQokYdS1FWIvMBpbcDR6nGtufmxPl78907dzZWVta2N7vHfakCzNN7ueMzFPkilzSuEhRgK09y3OrQMIOLKHHur/lI6CLWRS48pr+DYv5YsXNLyEFivHCsjpGDS1W0MDl7cf7Cj77/UaM+1z1q35O9qCvgvnaWb6gIG47n5RqsHGDDw8DupuhDNn+uDqoWWQMxPZaAMpAQYJ3TlANAk+HqBOk1U6g+js+IYM/e3lZzS5TmIHw3PvxkdWl+4nSR/MdRtc5fvSFGday0utVUAiNfmhgdK87OLovdhI/YMWX75q0DB9oXUCu/rjHhJ/DyK1tbZIXG1PSjP/qjBw+fqiutTXB9zGFRqu2MNIRpzQtLK49t7W8XR8dvXbl6rqzR0PhrV272bvcquRJc0mFcHfRl3JEKw/SFzeKpMETsmi575KhZBMSGA6G2iIop27isCI7v7kv4ogGgCkQso6vpDsLB3a7pIbI8qQBQqSB7iBAZAjPjT7TNr2DDrLDziIEGkJQH8V4Ij56RSK/AzbF5oAeGtL27hznNiA24DQk78UWEnamZucuXLwsk+qVf/EWQpjej9Qp9moLvQfMDRQRcZZ9+zS53Mkg3GHeMwZeExyNJ7vDwsnESCg1bM1yIA+7t2uhnZ39P/4jk7sZWNmXYKTs6nuq2O2O1Kt2LiDYTAbQe0b8rTBkwntznYuhOTjkTkXezgdEFc/vEPIPIfElavyd/9s98WcIw3jY44ijFeXastuJhr7m4MM1TK0JLjgdTE/WdFpVn9/U33ja01ccrPJgiyxosRz0VMoN3QmkyhyX+HK+fmEs00vYRyyz76uoa+Q1PKvc2xw2bVa+Nf/TBw//y//hf/tW/+ld/9ktfffT44cyVKTlqAQFTMfcl/wSTjlAlpbT6faoL0VTusYn0BwoFWCtcBV7TupIL23zQAq8Ms9xGqaVKETeRQQIW15AycmUw1jNkUq3TA7Fttif7UyPP+DMapDYos4ezPbCNWTOf2rj//M/nnQVay+4HOKTvPuNuonlZ4/RX3NMmXuOKcIQIxEvAhLMIsgUcGCORQ+efxoccCwACBuIKD+l4zjDCLhekyp8vx+YRq5btulECdQTREwCCiYYfhhprGmdsR5hrEhWl9aMMgPIso8HoUVM+EJFLZCSEFUn7GSgaYyMT50NzRP5CsTQ5Lfw1Qqi8JhLKqOSTaDyVEIbOmayF1MIuIH4AWxSpBQ8Z0wCsgjhe6NyFq0+sRIidNvJASN9gPFzre7nT7hCT1djJaH55ecmu4EctDrkOFQNbTrtDgqMMmzyWqlzONBKSxAiu4vCqR3k20QEFdXCP9gySBRXOPBD0iCVyhvnGZ6vxcgGzxfT5p64MMHxmLaFQWCO7dOVL9JMuXzybffriEUTFSoo4wUahb2Ji3PdIp3PWzAdzqlYCt4t70pR2W1MLc/JsamDZGZ/QQiLsxQvLdpbuxDH1NpwyNWxEZ52coVVFxIHXs00cdA+7O9MLJUUTFPOiuKXD6yrPs7a+u7U7MzUn61K/J/Wn4PrS2VqfmNaJ4ODhXKXOxEsFByMkhBiWBpcTwWreizjX8LvFX6tG2ahNWPBM/kOQQaJ5BzRaAX8mpGLJxfZS47T2VBCksKo+erb7bH1zeWPm9VuS419TQ45bNvbi7qPbYrvlf/qFL3/5wsIFNjN1UmCuBw8f0cdJu0Dj5O1cfKmUIB66FIIONzC5U197893tVl/C7Y5IFwzHMauk/aWXAZZOxikUAkdJqWvHxZjNVqrXl6/+ybe/UcmX28PDO/1d4FmfmqDUo8iZm5njrNzmuZpYBCjVsTRTs7YXU4U8MoDkkCfMFcEGhyZOhZDhcYKUBplazyPG7D46ZA3Z6kMqKhQw/ng+C2v3feo8g5yMVgFpnXjQfVCB3QbdcD1Y0on2JG9cV/aIpU4EMizojsMbb7zxxS9+kSlIhKmXagPUDS/QWormAXsJPKM3Xbn8CTwTs5XdcFCeozttjNazsfLpcgcy8NXrAusk0dDJNXLvQrBlBgl9YzD2gaBcetO5XJ3V6clcsXQqYMPGJOSZfuJNMCKQ1mgtlw165623PrrzCUw0MTlJfyEUL1+s7G4MffTJg5299uIEggAAPCrVmz0Vxt1dmpuulsdawhK7B3NLS1LsW0BGAeEIB/vNgzjpIqaNVs5lXCiqOY6Joy0yNcffp/2yEtl3i4wzkQ2Vn4/UZeKrCFv4npnpxne+8/7U1O/89X/v3888rCZG+Xmt0WVIw2FASCGAw+AKHueMSVHj5B7sUSoIcE7asmO5DYLXZjWjObDsHWYvkfD53OLFJU/rJK1ZsC++IAqGoX3yzE+6ZotlR+10tn9gxX7gnS2xJTcBaN5j1td+CNPRPlvrRCDC40W/cIcXuB9Ln/RCPrFEiFRMI6UqsIUkHaOE62w3rJZxOvRa2ojP0AuXN3IlzsO7dKXn0PXhmvD5LgqaZC3E/dPCmC2ggdf59MhtIMpPk0g0GQZ4IZ9hOAE6OAuby+hZ5/p0MsTblwOFKMSYEa30ACBG8pQgb6xermCOUY9Q3h8Lxj/sk6f8zvKdHykxnNpw0mtDnlRF1jrNnqqpSpsjraNj3eASSvAysOMXZRlpaZmj6MxCw60aWr/Hl73oj1qpcHYoomT8nOIOVnEO6T3Oj7j0mcWQqpxDTQhyOD/CoFmWbaE7PV2JTcRujUu8xGLJ8H8wNXNLTdu7d+/LijA1RQUUQvB2c9swLRxuTsDjl774+QePHtarFOjDMl4szs8uLy12ui3cLakFSMV85SfvsXNWeXyXajWShAWxqqSZ2NnYxGDM/AcEuIngxDE2IwFtKQDTF+fNmgN96nWQA9045zbRUlMRxaE9IISi2VTWxZHjwC/gBLxBCqHSoQvN5bDh7/7Mp4v1qgX0oE7ggoAxlftA5uCQQCPF1DlmzA5HALxgpJPDdnd+YeGwsw8w9rdXuwdrn3/3C+PcO7r7fSVLjln+1YE9Yz94eOfeQXPQ7uYOekOX3/jU6ciWAnl9AVERmZqbnV5otw+8rlquYg+frq6xuk0YTKUITPkUBgjLfZzsEIadnR3wjDElUrhjoew+qucnDqKPnjzd35NiLi9iWIwXzmhLOtKzXfWrmr2Tn//FP7+zvc1Njucw56jf+sv/BnniYP/g8e07W7LxrG1aqAvLl3R7//5d+TcMrFKv5SullsphyTVmanpegfrvvv/Rk7UdkMktjg5KpFT4b0rNl8f+n3NKzk9Wekf9b33nm7/x9V+mG+Ci/YXPfPGbd380V68dCjs7aaklgfg7wI/bj3F18aIkRthBEQ/kFbtMrXewEl5wNoLARB9rBzWzia39lm0ycZcpcHDQw97eXkaxHjx44DtsTvTxaWXkHAr40TnhOu0+JOMOsNEPMBCzZe6ggg7PGx1KHgyKirlAuAZLyxdIYN12VzPInT8FMxXg8SubJiwGeMiFKJUvsr4HxwuKUoGehBRD9e8OTQKSzqtN89BWYY8TMwbX4ZJ8rTbqNFf0mKurqxIlTMpzRvGSDJVe5O283Lc3NvSMQsglzfsAYiLKkQsddFdOsQ/Jt2g/jsvh6RRMTbDNThZ21oApFk3/+KjFSUKDV1995b17t0Xh8vET7HHUbU7MzO63tx49W59tXCqWaoM2haE6O+LZ96h6JiYm33771b/933x/YhY7d37r1q2P70QhxhuizK5fV1GF8zJN46NHTyAjg4kDy2Sc0J0VluceW2ATraqMt3IQGjMgpzU3QiuEbuH4xMuZ9T/+3X96/crNd999WxYlLicCtu248nmhw4wUM9wToXd5BduFMfGdJwJCLaulcC4QwBpj+/T08N6ujjPiEgFRZ8cMb7vNvbnZebxIe6AGWN2CAA/oNADDGhlHRqIsXHb5M87Yy5wUKDhClXRldjZrHBsc9CkkE3dCgZbwUdaD724i5M+/hKCE1kSoL3mDoiJUGnHpwb/gxDmRJ62gJ5LDBLQUircXDleY5wQ+8G/yZPAIJWtIXjpCVex16p9o660nvjMiYm79aq3DDya8xQSs0sUkNSKKNzjQKerJLF4M9s4jPoQw6y1EK0tjDSjJCLL6C71kzEnufz61TweniJMkN4xOkgdzwhhFIlR3V9gNmMLymKt4tfGonjQx4a0GLECNgzTfQdUU6AUuTtdHFanjbX/cHTnq+6T6MVZfGYsHQ73BMIvSGNFqSFnZox695DnLfi8SsqXMD2ejnNeHj+9/9L36xJSymb3m6uhJ5/4nYTRq7u0MOnvWFj9Novz4o/c02NleJ9t02gc2aHXlsWMPfWK0OLtFZKZgMasp2UzGd0JypE7MGPDPTnWsU9rx+DM2Lu3jOdyEoujTr/AOoHcf+nDH5WBoGZzG2Tkcx79VFwAUjGEqPOho4QQtGvlP8VNtgNREfYJXA0xhI6Abial0Tu6R37M33JZQhzt7MVeoVgrjvN1iW05nqvVBpy2ObG9z5Uufe6dReVttIBECR2ddit0I0uCNpCi70O6uswdHUF8Nk2Y44Y2VJNIqcgXpqh0illMCwfFR3g3SBpmL8ZtUZN/Fz/JrFEpiMpzHRzug24CdOsKuEWYLlUCeZRI0DdNrcrykeYb/RdwBK9a3Ur120Gv92Z/5yl/9N/51mfwfrX7yjT/+1te/9iufevez4fzSaj9dWZV4e3d7d6e5f2Nyut0f7B4QNw5HDZXSZywnTBd0SoI7O7f09qc/+/GdB2KsyEOVxgSvr9hGi0wD4Twknw8fe83dofyROhaPnj291JiDZGGoq0edvdxhZ5cpSAIjofQjp6U8jz3LVZ8WCB9bSV53KriSgytLMTk1iSpbEBPPDAwUZeFo3ukjMLRh2rg00N5CyZlrry0RQqUrtM2yEs50YgzAA2zgY4JZYZYpFlFE7bOfsk6QKX/yktGbnyBH79VPWGqHh3Xr8/Nf/DJapRO9ASptIC47km2KBr5knz8Fy+nnFx9m6tIqPhMVS3+GccRMzSXrwdSyMSdJIG4aFXCwREaOYoUiHawmTzxP6S6MglG7vgu6yKDWBQ+tli7/VE8GgvXGwHcegg2TYgflm57Z2N1mw+OiJNnxUb+50xl67/1PvvTZ16QQw/BRFYW5ggaQGu6wd/Xi4uQE9x7egOJ2wuvS+ghihObo6kqV0uzsjDvb27vB0AT36fwGHxCW/5FwzqScNxgMLozscbobZvo0PCgxlFh2EVtItf///H/8N7ayVLiJV0lJciJQQc0CXJc40bfeeuu9H/xwf2uPt4XD7xUZEtCJ3cEcYFCGdncEkpdrVXdMujxeIpUqGnlA7434Tc1k2wKftDwGjWhkmdL32CELl5RRL6SlFHcVy+1Kks1LATbbRbcTraH9SHv7Ytez/8ZDwQyFLQruT2QAQoyt9FgwNUHjPBkKPyYQ0PR8SikNc5w1vYbHRHiFWiu0CgBACRJ+8YJ0J+kIiWkxakCCXeDFDE/q36vHx4ycIBckw8X3nB0k6PMp196hSGOs69BFGEUiThE7R89iGPGFkldkDHmvOHoqk0FejctIOitu83xmmUsF1x3OHSkyJ7wFCzJW8UxGmWm6xBnIXxWASCqNOAmVfmKJwpUH/eJOKEhvbOS02x6SyUs60iNK3i6PYkEIzufQyppCbnniHz3o+UjhBIInRLQrCs8MDTdPj3tn3A2RZZGwrdPOYOXu5m654qh0tyMpU3/vUXp1BAijKXx/Os2jTz58nwugmrN85FSLCJxyPrSxsi9LWArV6Ec4JLdvPIXY9/SJI0jLGJrhWKx0JfJhC4OuWVWQ4IIdsvMMst3UMFb8xQXMXP5iSKW51mcEfI3mJiemHXzP3rz+yo9//J6Qolq1rIAFTLSvPk2nNT+1UDgrslfI3kQbG/B5rsJpYfPZuly/ctUSHk76x+rY47/kNsolT07sfaNWvHJ5cdBfV+RWHFG1XpIpjDcGtWtXps/zwlGP7DsiMLU3fLrrdEizRZdvm4ZHwiN5MJjkajFSpjqj9CdRxiKRJ3NjkjmQ2CXlyBUUH6SHKzKAkgzhYheBRpbVCAILs0pOjrr+4PDOvQdY17AI0gQ4B5Yid/rmW7f+o//wr928frksR/LJ8Tvn43/2z/7Gg7uPiImtbu8pHj5o1U5rv9mXz3z4HNoKCiFHgBRW0LqMUNNTR1wtCvn5CxcbEzOvvs7WVu8MdvfkTHH0IqunnYQDA7fChQqPi7QdOjqRHuvOowcL787AdBj2xaPOnQ9/YFaFMz7Qp72TAdlwTHBneLsQqqp2PxUzC5FXVxgLeI0MoWdqPZpbtMeWgqjLy5efr0PscajgIEdkCYQgLR4HJG66g7zhmgkQJoVnMmD4C/BAkYAnNjopCb0C/kkoKA6uP7UhohkSJr0qCmBsnCpy+dKVX/u1X4M3AxRlu6BHOeSRb37IVXSVXd7ii88gSf9Tl8ez21mbbBhuWgrDM3J3jMFlnJF5KDxdI8uRETpojrnVwAGkxwOvIifiWEA85ErLCi9JkdPPtwGSX1FW2JCIjtQFnx28f9yAJOyZBFfXrl/ZOXCyk0uhetW16frkzre++/2/+q/9GiWBdtg3zgDhhAvO+p2rV5aXF/Ib+4fVcpHv4uzs4NnKlr0jyyL23Ny5wkzPTlOr0xOziiEAvLzQqmzidH0CQ1gs4VLbZ9bmFTgsXTEpm8JVEVQn14m/+Tf/5n/6v/lfgwRCv/2lr+YqBQA4RXmpPr0UQ+iS7AN7SlazfbRN1dHq/r5U9HuCvYiOZDKsiopHPJOuXb6C+FlGSaupxGiuuRUBFQ/+JKvFy73Ttc2wMQACFXL5KSaTEbP03ZNZMy2TBBVkRht/aO9LDDBdTjgCk1llIrk2NRLKFg18RNhPguoQWtKCkJwiz1/QqGhGH8YRi9oJQZKKVD9YYZGcASlJH0nIjsA0hBB/gVgowaOxITGqjuTOZCIBFuATn2GETBvvvBb1BRxjGjCOXobvjZ7i9wDkcBTSaAYgakEgkHVezpxRvhQpjXaABkmMxSki/VBCqXaCUNLY08zltBoV66kVPzFsk6mZJI0BDAhkscIxcRPjMXR0zB9o7PyEDkX9mqGzKr81gMNvPlMH33j7HVXkFBFgG+2djkp+cBT4dFTUcGdwGMZjeTzl1WJpldI2coRHram5Wv7CTM96eFGsngywOR5Eo97O2UZKcllbGjUJjybfeOsdflYSb+9vb0ChAvtkyeHmOnx6RD8qAlHBePFhJkwSSpwfMMgErpeQEtNxOWU+M4AB3GADKPsCfrI99elmBkUaW1bBUPSNuDfwzUnXUqdTEXkNlEVeWlqenZ2GV1QC1J09pvrjd9So1nUVw+Br0DvEomLHBu2emtjVQrVWKMPdNJnCF/jaqVyoRN762t3r12eZjTnEy/GNVrATwga1xmKxcryytc49WNbglXU1R1viaUero8Wa+CGglFxvnGPoKQyZFhXfWZZMh++2pVJXDJak3Hekg+pvbATnFnCAVgE5ErqBjgxaTYkcode8NBloFIET9zA89Nf/xt/4i7/x6/Ua30OFVOTX6EmXvtNscwa89+iRqi6PHj7e2tyWrwtsT87OUJ6CbFtP9oZ1pNujfu1u77DRX718/Y033y1WGpWJmV/+5T/3D37nHx60hfTygnbA4NbA0LFJcQpwHzxTD08LlYerj9+69Vp9eKhM50uKVdprNN8o1aS168kuD644auZy+IatHf4hHfNCaewsrCTYNvofGoKSEB7soCOD5wgxi3dScvPziFmj+n4ibwE2zyJRyBvU4ybSRTGVmU7dCWSanNc9YpcpD8EPoIpjmGgDtIkoMtJrmeKF+wuLS5oBmF/+5V9+651PCVn1rOHFAc/lxFNLyGHfHP+fgOz/f9+glGiYPgwGeOsQcJovQI1fKMNTqMbx4cCJRi2gYXANlWhDVRBz4ZsL94WhnBZBsF8o+lABlRzhtMpEHTYLh/uRId54fD+dJJglTlS4yQSXEanvh0Y+/zOfVRcTXsS03Lj56vqzu72joXsPHt+6Op1SXIYpBLLhmzI45Lh44eKlxZORPdkdZ+ZmOO88fLT6bG31Zz7zzqUrl7Y2V7mnz83P4HwfP17n0kCZYWGT3ABQQsA1Xx0aqmU3C3cMJtB8wioQsJ2FO93kYlMaHP0X/8X//j/7z/5TZwPPwZSr9is+Z65avXfvXrAm/NuOB2HPDYHE7IjmEQYHWe03d+07jzMbGkNiITnq14uNr3/9651W5zvf+y6Tm8MlrCKMC7h+CNPgvPhPXQbqjp9tvL2Bdt0J6mFdElny2mzP3M8u6D26yjBy2uysz9hs5CdEqaAiGgfGN/nA+9GJG5EeDIGkQ4to/oj/CTnM9OTskLVgJNSrWKSk3EtKRSMKQQvnqF9DMndQLWWfpGFsV5BGlEMLKSdUbrj4qHFt6b3vs5+5AXkGY4+MsghGmdhQlnBRIE/HSLEqzrXD7VKE6HzA5wj65tgbpu0w56eMIHpLYlIi5o7uaS4Cekd4zoC84TM7hIVHZrFO4WXHJTXAnD7IC/gZKlsTC5PkR19iTbDu8U7o1CoQ5bW3FAzc8KvgG9RxSHZwCxORJeEXMjYajLxNkh3GhbXLWE6Httlmo+7a2ocrm8HgHx6jcPJm2o0oPHQyKBecpCPSXb1akAnNUpbkxuN8MgiTL/MZ+VWOUuoLi8Y3jS4Eh5HO0YvDn4ZvWwPMBX8kjtv4HWPDiAG9uIC+CyS45EcLP5HkB8UzhAiB0YPpPG7YyxcWoSQxFs+ePVGUa31zbWd/VxCJ/hjuT+YW0pkZblQaUQIHO9npF3PFhYnZ6nj5qDNQOojfsJRLeJHxUmG3tVkTRqsGZR2eDcc3fpShAhkpzCzOqDN3+2Fza6+/2zva2D1g1wJhfA9nZqcD9Bi9STHSMLaPQIUxk6MCZcg3xtlfDhMRsRHuyQomCRtTR2RSZzQKgMb4BGgDoRFqjdVV2TeCDYMWHDqoAZBv7u7luZPyhB4abalTdCKN1jTMcO/uQw4561ub9o+zPsJGIgTfBu87qLfr7HSba+tgoDE7feHi1ZuvvlWfmkElQNdv/MZv/KN/9I/Y3muKhqRdsEEoHLzvi0BE7B4A7p32zzrH91Ye3br2KpdJ9pjrV6493l6R8DJXn26r5NJVOfYABmUDgJ7sJGStSo39dY4cNpmU7SnUrOfpuYjwAzZ+1ZITtvva8KSgowMPWpKxXMgVVOU+1bF+LBFrVgYz+tcMcuTq7Cd4yngpwbTRgza+gB9tgraFzmBYLvZf+qVfunLthmeRRkhNXlc7QEsMZvFDDNLSzIBqXXk8VsBn/A8uCqb4T1/p1Ae2Sq/zayiNQg8U+nzuiET8QJspMAsDHKxw4ubNPTqnpTwfQo+NH9UkPXgxTOIwG1UABjBB0SK/EIyTwrHROlm+Qr8aZwL0RO5C2nkgF656mLtzFaFEJW9ubgN+TMLU9Fxrt/OjDz5+980/h/5nKwObQYDq4UjkcfXKRdKReEpBTosLERKHpXCm33jjtQ/OBjJ2vr54gXOA1GM4yhh5pOKDbEJKEVNjQ/UJeOyUTfTd5Yv5WXwhayIdQaY5xRxbB3vv7/2//z+//bWv/uzHH3+gB6/rdNs2iqgdEBjhh5FcKCYXq8+9bEg22/TGEFp2dnb1/6lPvcus9Yd/8keWwtEeKbMZV0JzxO4+OjY/i5zNe3vQGLjGA94U43qxT27G+ieVfXbfkxpjwn2+3CTNnKCsQTz7AiyyO06pxkYLLwecxF2cSOA3PEdwERbJ8cW8pkMMl9K2SI8HEgAnikW6Ci19ZINitFamSD5bKBpAq6YccpDi6KAZzxVB4/wsCgrCQA0QaPApBDMDdIz95qJICnsQUjAmu0EMJiA5Xm8tiThQCaULDtyjQVyifkuYbsKOE+7vsUJICD8IpIn9GgULkdl/IgEvPd/ICANDrAgzd6igqbCDYkkKTxrjom8kes2FupFyU/MIQcg0lfqhWcrQcT5Y8PgeoV8ZgXZcQvAfI28F856BslmG1MczJU5yKKDcjwMgF3nooz00VihCe2bJnY1TsdgZnniiGjwFLhXyHH77DfhI8uajPmvQgGeBgaEc5DwHx446e3Fm0XbSg97/uSMeu5rwlE+LrL25GE+6/fzDVLPn6FTsF0k0lHrJDZrHl0YOOeg/OFDSok8hCeh3g3HfoG3npRKARA2LPIc5cGh5/sJhZ9Dhoz+9tDAz3xAir6ZGp5sXehCJoBl3x5qddr00Vp+ZikwN1iLSi+QK5Rr/fublYqE+OyjMLe384P37e72jVq+vnJ9k2JyokbrIoCgZfL5I6QEfdyy4/Wdyi1yNYgDg5wWDN1QdO5MW3Nk2Czchm8BwKfAZB4blJwowkgVIaZzSEACJb3/3ux98+OHF5SVKG6SFnwvTFoq0t3+wvrZCA2IHi2X5D5RROGRvbDPsBeEaR6t8wXPcvPXqu5/97JVXXpmam6/WyJ1h7X/15is3r12XL4d8D0fw7EmMc6y9IdlFlcQdG1YOUQGP1lcWLlw6PD8Tdi27+V67KXOhZOrU6Ynz7dNJ7O23kQFiU7at9he1MKPV9TX3vRGrAY+gT7HGo6M7mzsWwbtAF4kT8wFtacN2ZYn0Q3FEKjUp+h+666UlLn/hzqq9HjyrE6P1pxXzOp++uwPWve70JLzdmPD+7X/73/7a134emSSTZO29SwyWxp5yf2dnL9jiuMKErB/NXl5/6s+4nyia1vH1eeN4OHvEHeM3zuwnn95iTTpBkCCSpGHAjiRqGkJDrcZCBKE4x5FQC8EiYlCv5cYnqjVBk11u5aRAgcOZmFIJr0gHHqGKtwbe8O4or9zvtnmNilW7f+9hv3o0MTXX3Hl85+49LCHMw+qcw3DLtzM+zhGT8zPpavdAbGfkMMxXGatmb9+9Q0d37frl2fm52x99DPXUo9JW7SCwM6BIdDEwtEMaGY+cPlAdXIIXpChDK5l5x3ERBKtu2gthNtrYtt/+7d9+7dWowfLBBx+oxyhpr72oT07Y2KXlJS/hHBdrCqHQpVix0VEj4bcS4MmbSY2DdBkS1crasxVuH8TSUrlkXrrCFZIULHhAgweM2GV9/Ol6iWsyEuZdIOnlzWz/Xn667zttiTYQvc+sk1jyBHwIX9bxy0fiRfHS2JhAwjRyYRaMNEkyDZGQGIKsKcaEmaMYIsTY9FQdFmNa4XCHcZDwRY1J8IL/oBvVEjpF4wjdxCC8C5plJPqHsmPwwyxNMPixglNMZXE/LIthNg9/QC+iggypCCcEsn0mcqUsGNNUcEiGik4EXSOLuSW/HqOSyIfoCjrHHgfFHatOzHAyjg5iYc3fPwMHVXnUI7jvIFe4MkufqGSJ+2NABYxsCSB8rp5JisHZ2xH/0itigTF9o0xvmukkHIuC6UMjIdPQwaZ3IipBJ7wdTATWjUj1QZR6CYUQSkQjek7YQjacPStDRvEpNxCMA5h++J0feJbieG5uHl6wYqZMkYk9cPa8MAijSQC/xIrG7NMFfAO+E5r2mYGTFdO5n/ypVfBHiV9ztLAYF6/MYKIz0dAJAbW23Utr9FOVKtsxxQUNA38hc9S5eu/GZn4COMCoSOflhcWaeE+G6MGRdEY0gmqU4xRkn99rtQ28fkY8HeG0IiyJVkLZeDoiscL5nNQWw4uXbq41z/qrW/ISq8TAfQKWQCqkyaWfKaEOJMVqRZKqNpqKjyrkL6CPM1Ozs/NWwIqF0cXgkpyttUMVHGVk2M1jD/j0bW3tcItKXPhz+u1BCHZ9a+23//7f+9Vf+SUZ8OhGeQDbI5G6y5cuf/TxB7vbW2srK5AH2yFsznYNXKUt4ZOA1Xjj1Tduvfr662+9JfWX6uJoGMOrMiJq/Xrpn/n6158+eeSpiEQPPXQQAJddY30jWqG7tNeypxz0u0831y/MLZ4dNBdmF3ab+wJzOicdikEnjFCLHs/NLdg424c4qTKF6phyhlwQhuwnJhC7DM1h9pU9tkf+hDIofdwkVNl3ykDIyHa7A3W6AypgUrZ6dMumB5uSYms8SwjzitjrMEkHxPluHuCKiYKd/8/8mT/zV/7KX+Er6MHxBMkWVf9gGwLwHNFUb5S6vJMy1lMPusou/fzUXy/upv+mZj4SVxanNa4MenVoc7M7WoDkQKOONIeupCHMmvmO9+I+gBr5Dio0JpOZiRMu9zxlQVi3GTP0WCxip2BtLbGhOF87FQACL0KLFPGRWE91q2Kr3b/+ys3WHl9fUn1xdXX36bPV+QZZLcKYrKczJVQ68gdOTkxONA+3I7RWjPjCwpJkEw+fPC5XCn5lKEQAGvVpTp7CSAQjQj2JalhniGQEO5uZAOO0pqqbpix7HIcbiG98NI9cWRGTcmkvk8He3sHf+W//23/1N3+DAMoLyV6L/u52O/606DA5vZQVh3kTjx6cK6ZwEEl5jqv8GnO5JytPLMj09KRR4XLsrOUFcsCDxGjAUHiMJ8MsFtrlu44Ahy+uuAVBWzPGsWR7sIKW1dJq4742EFza2ORf5yb8n37KfgUV1HQ0aSFBIRnoQXwDPzKsh17MmAJxMfGny6melEmgSJSmbqG/E5/gJEtfEhIVokENhibpNiSaIHEOYVA+NAY1jnUJDA8zE2Zos46JOKGliWWNZpQiLAsYNCMIMhkuGI5BuFSE/I0SBRsUlkffcQRhonLeDd9FaLZJAVCxNLKTEubRp9gC7heAjsuZjD080mEFSJkwpmvyV1i5KKC4GBqOdMn0ShIghbMw+VEFCDCPSqVBhJYvHFMCDCKQKALAnFVLnXFv4Fhw55hQQKTSUvo5wEBD0qO9CXAbZUqPcH3Sqx6KtZlcrw3PEpZw5agkIaPMmj+cq9XBzYj0rGBIyg12YCP+8he+bNBPn0bFtsdP5J17rGQtvMzqnxEq1D2Um94U/jKWB+8ow8uhYCmLD6SYYeS+DpBEL61A4ZyjhOPnJ16U/U47Rjk8PFGcvHLl0sLSIn7L8caDM2YgFQ8fPIjFHo8zbLpwIKOwOwSyowN61rAc9q51Ls9ems41OGI0FVI8OuZNKyRO1kSCq5ih8WK52Tnotg9uvHpZFkNhcrvbXZEr7T4bHhgdF2PFuXzp8s1cdT734e3D+w/4qJ2pp4CHZ7k7V6lrqE8kppRS4KV92OzuW9hSoQJ9J+qb8XkjdMlwEaByqBAtqEsu2gJn9dxI66D39OmK40JqtKvAl77HrjlBtnNrde29H34fyzX8tZ9f+NyimYoCdjihpK8OfuFv/1//VhQ67g8wanhSghdZinbr4qUrooC/8KWvsPvXGpNgWzAtxmR9Z4t5zwpLjs6Q87f/9v8FmovzC+1SMwQjEwnm4Fq1drF1tBCyOaFzTzZXli9d6h8fzfK3zpeOuocbm+uDkUORaCwQ3Ahpa4lE0PSTJ0/QBhvBXytRgkKr0wZmIbRLTJ5MO6NYB1WqI7VSgcQukYEhQTpgyWm1BNrb64zgCZmy47dvfxSYOmU5gXC1Sa5oASKehe/diXOUjOLwrzatTu9Xf/XP7+3te5BixdjoDh0T6m6heKgsDITadTH/WDH8qPMRavmwOkOb3hW9B1II1c6f+nT8/RK/uQJtZO2hRUc/Yq4hFD14kMaHOkTTbGxaGqoDia9Ekq1AHEwZ0s5VgQq6BWlx78Uv8ncvjeVqxepYuagXZZLHObJKjRYZC+ACQ4y3OpXGd8bflXrzSGQ0F/BR7uwnR/tQXbM59OTx+uSrS5gopg1OGzAkDHdy2C2XpqDM0XFxm5yYT+pTkwoLsM0+fPC429xu7Uta2V2cv8Jd8NmTld5pG4AEE2qy1JZ4u8gfEbwNbOmMuIwj8goi1Zink0P16ozHhYDYGjKKdM/f+MYPX3/99ddefwVhQ+TEFLe6ElocNVv71qEHy8g8mMxgVsxqwJB6Xt/cOFl9glwd7Kv3OMaW+WR1RQUTqdyAQbFShSxVmXm2umZ/wQMoioOXcQ3QHMJtR+OfHUnbaRvoRjQLvKnlobAYSrmgc3HnNDJ6uaQpi/9QNCaLnHB4ga6MbP3OPmHDL5YA4LHoR5K0sWGqSTRJlTP/KYUPsNhJ7zybmaOuiT4dCQrZAJdgrUd3dnczSPLSdIUtBFqjrKM5I4WHs3Vo80IqSgsSIhQU4eGYpAsjgqREdqTIcsR/lD3JK0KNSPyRR4d2ESaONPVYITXpT9EWxptM2wnkdSgRYwATNCpDNkPIEPoUQqB9pcGij3PuIlsQkmTKrFHhzY7pRpNEr+ZU/AscHLWQkJzE1ozFOaBA4vFlAton6Kc3FCtEaCDxp/Mg8yDWSF27sfCQsV/2IsaTzp2NkcLZG8GBZm6Kjbdu6AT3IQuOlkUU3Emkmo34JBqAKHtjB2OfnRahxIyugccsxshoZWKaYf21t96+futVcIbzFWZIr0U/9+zJUyk7vYs7F29FjS0ef+G9zQ0yGuM4RYw3GkmYW86YEgk759bFdLrENcl1KuXd/Z1HK4//3K//Kmjek1TqcLDV2h6v5bHVm63QZTMUD1fGhwu5m9ffau01nz58etTG642XxgrXL10pdnI3b17rFDsctAVydYfbBycd8z0vcJYJthQnIPG14LdCfobIsvqM4qEpoRG7dqE0gR3ljdtD0FHUQmX54vXzXL1N4qxOK+tELNvc3gJ+qnx1BsfYxZnFq/Up2v5QgAw6h72WqqwnUHCrqcmR9HGObi5fE8WJbAOZUpEa5HB758CvcilRoOJTLGMUgM2PkjZCw3N6YiJvvfr64tw88cKG1qoNoTOTU1M/9/Nfu3jl8u3bt62G+2CD0/zU7Jxw0ZmZ2XKlhkqBgX3FpLqyWUaIlSzWmDvALZWUGJ1f/5f/wn/1X/2f7bUzpNqTzVIDpCuhd7FKd6AGMj8AgttJfkRUx4/ufHRt+TIvRPjr9/7ZP+W/c/nm5ZWdNSwkmQ84bW1sCxiwIE6W8B/6PynqJDeCUHbFfh7KQT5HsuFbb9PnZ2aF4knxRz4TNINsLCzMWR/GKiI7M55RXbhwkfnK1O7ductff2Z2igL//qOH83OL5C3yaDAuQuuPyOWhlcLaHTTbckh++tOf/r3f+70vfulnr16/aYWxFs6+LyzUqHWGL2A146RAgzsw03B/oAkA4VwFfx86CpxeuEDESQvClBEtJDE4wDiDwV0kYhOWgiBoQ8NiYP2sfNvB3gFbBKc61hSYnU4ID220yJbpy7hxXqo2d5qMdjCSqt8IFi1QdDsWYQyU//dXN25VJy9cu9hDGMZGqvRFZaqBqsyWkQI7Oa0IueFLxQaJEuvWeGhdpXLPFWpyvk/NLj5rNr/z3Q/+7Fe+2G2KkWhxouOPNDVVpoEUKnLl0tLK3oO9w67ilNi0N99993vf/COY+fLSldn67N7m/lZ1Z+HCFR31m022dUc1EeNTzoVRynVn68a169u7W4Mu340Z6JlyWp4wWj5WrRMQdyrn8qCQF68S/ARrA7z13/3D38Vsvf7W27Lx7O1tV7pFkaL7Bzst+d0PD5fGFxl9wSoBkJLcabWzpTmRnTTqJwtXApFxAuIGub670233L1++dOnadVp6PIulI0QEGQI9Cb/7b2Lk479xQRnZ/eefmtlai25zEzWIRkkEji8vOnGKfM+eRYFoeHIOWCHSciMGTrt8QcIBcQNAGdEi0Wmv/J60QphvKJWReXDM5UT2IbHZsjIIkGF6CY7JZddN2JVeSIgi/SZOAIkCZGSkAMG4Q7rxCSgBm+8YjYivCcAUTEyoFbWSVHIRVoX6iMGtGph4Wf+drpcnysXJemkKUR1XxCwYAXDJRIW3ilJ7vFhl6R4rqrnHGxEwC6B4Tq64VjteyaBFjoEPST5kLPYyZm4Sh+XBDwPco96J7NewSdRI8idHry58rmhAWNlxtVJUOMw4NdYdZ9Jlg5v7HVYNawWI0zpYv/iCcQDosUZDQ7RVkqS9++67y0sXqsWKOC8e1yXie1QcQJAZMEefPd3gWxA5GvxfqA1dt9xep8fTUoiGsBV+UDBySLbRbQTGXr526Y3XbvHQUyJPndOnT570B0db+y2U9yRtFyoKCrGUClKUOP4dRTiEMYvkj5Oc0hJy1rLhjp98UMgkZkUeEK7qMJTEZ91+B1Ovk1qjbkHUDr966dr6yPr20x3pWtjVri1feefV1y9euHh+yC04oskhiO6RZAdRqRknQSd/dtjLj50wEI4N9aUuOuq1+PiO55R5rs5MTJ2N5XZ4c++3eeaMV4sT83NbLYX4JhqTVRG7jx5toAGl2gQXj/BJOUX2iCylYrmCBQHYnqTnOjrpdKP485BisDIEyZdbr8+RMwQFESZE1ck02myqecoo3S1VgE8k3+MOwARL3+Cc//X/1X/yM5//3JUr1xiuSZA4AhloQDfAt+IXr16Zv7AcBkjIzjCFDItnTgEx29ZfkEMkVmeEir3l9cFIoHZW5yQqM0nz9tWf//m/9bf+FoU5R+FgmEalgOtQR4ANEwm9huS4FWA9zgTbOWqvbK6dT0WGpK985Sv/wzf+B6G+Uapqunw2uvDxhx/1Tjv4WpKfkdhHQDJZbwBBICpVArHYT+AK+IEZ3IyftLRWWOyUdSLIPKsGSEDhaHuq1Tqz5O7OHhJ75dKycGxCPLK9sLSEOuoQRUeVvSmYTF48nR5C9Vu/9VuhRTw7/9SnPoMHVQPO7niXPgFMAvznH0GU/Av65P9Bq/zw4jO7E9qvQA7pM/2a3c/QTKbJ91h0kP1qOvmxxALSUkgPYA2d85SpLmn4LWqQNRe4dYqN3Bo7/XE8QwBO9rPAjMbOX3lsojE1YQi4G3oZ4oCYRX7FWZk62UkjabJUB+BWmAQ5zl4nZRCXwirHmvmVex9vbojWHjhl6gSx9wsOZNHg0EuJfaCUhGROh6fMn7xwU4Q1pUFuenJ2vb96sN9SF5HGj7Vpd/XpoNeCRPDhkCcklaztkml3gu0jnyRboG2AY+wOqYgQOMr7jekm6eEsmXIzqp7xcgR1f+Vf+0uNGpDu2b5vfesbM/NToWoaHlIONF88nJiEYCowjkzwFsdFMgqO3jpQUxyfb293ao0Z7oWYFckSYX07vrmzixbY5ZCZPGNYLt8DGqOTkGksvZtpC4JOuPxp4V7+FOyJljEBZTSCqXnZ3nfNbGe+PlGgKs/M7/L2nwwddkMX9+DxOoGAysKFSvnEqvgP/AYPe6336xtxAlNAI1MmG0IiW4lHQoRC44YkEAiCXqEMUAmmxv8PoRogG6QLlxWcVOy2r2A03SdpgZM4wpHNFf/SdCecJ0bPSb/5kaFGeWymUXrr1lKjXpIKVqBSVeGQqJ5QyY1L68LvF4RVbHRo/3JlcMg1xFj1SKYmRKV/vniHNOpWFv9FwRGSNdYJ70zP9ujZI7kkITIHmPhCEOb0Ra3BVTStd6y/ExuXnQ13kkhZHYxg2ppYf+9MilwTzjZQAHn7gHsO7Cl4aMKOQeURCxT6C1iOVWx0emY+qkmGtzMOw4rTagEMwefd2IsoUcE1hEfJELdix5a1nTMDZrZYrV2p1WmQZucX9g84WneePFtdWV1HXOFWPLEv1RMpnMOdLIMZPhv6tPSQKSMq4HaKLly6ZD5M71LJx3EbG2MQxpJPX5ohvaFMgyKfi5xSdjYMVZubnPn0m+++8crrE5WGw0xFuL23fXTSVx9DPUxO3JGP4PTYp6LSmETF4MbPB2vrm5y3MLBK69ItUF0PhIrnSntrO7zGbwzJoTk+OTU3NFJb3dpb29wRlkbk6nESB6QUuZF4aVjot0xPrCcgtDYxD+qsiPjJxljVyGkpt2U0Gj6tTy9CWHxMucU/frq23z0kDXIpCiF7dJxpfbxYwq7+wi98XYTQ66+9xrmbESKgFzN3XLa3A4q1TkceAkeC3t6sgZPYy31+gOcj3cH/j7D/fJI1y/PDvrJZlZWV5c2t6+/t277H79idnZ1dcNYIoACCIkEJBEIhhkKv9AeIfKtQyLxQyISkN1IQCpEAsSSxwAbIZQBYM7Mzu7Pjenp62l/vypu05bJKn+95qntmCYp65k521pOPOed3ft6dJJSbgpRyTc6pOIdq6DQJ3dqEagvz85pLwYzPf/ozwhWf+8IXv/OdP/UnSUlcicqx84It2v8y2o86etjafxcL0tvrpNN/+ebNjc0nzZmp1UuLtjaZmK0923m619mXdrpyaRm41zefy1+/9cJNvFjMnx1NMF+7egUeMjAYhZYbGjucuXb9KpIXdSektTyw+n4V0iCooAQ5x72s1SJ2+dEH7xDSHkVfgXIO1psRQmlCjtyiMyk4/e3f/m0dlb7zne9gKfpWeAiEkfHoejD0Z2jirx6f8KJPvph+9d0X11bfPznjSzmd877kMyIvRzmTXipeijTQkpNG6EzB8AtWGdZbckwMG70av9A4r7zIHl0nY8ZWw8yGqOJSluuNJpMBAgiNdHe3SAHGqPniZt2D9jGn3UFfrMQF8b4XZisSpn/i6ODyzydqO7utd9/74I2Xryg60ODJ8x2UCarn8Kga9OYHz56PHLQ0G6Vksw4fP34qRVgij+yfxbUrEhe1EJpbnHvc2rU69AvYTo8MZ7F3V4lQeiBjiBaiuFA3ZevI1DDxau50Zl9KdOhUOh9UfOed+7wlfGoQTevqr3/9G7a7YR7pDTihS3UKwBUySr8/2d1IK0iribWHVwaE2CP5Mr0wt8htC25LC0sa+/a7h+1Wd29nJ/GfXFUA4bOMM6N1VCtanfyrnwGcUfoMCzWuctCifXe41yT9yVtJ3zzT14Z1kd06ZEXhqAUlfRT+DVNd7FEYpZgiDklflEhSDcDT/BSpVY58L4fF87/i4mUYifqce7dnpF9fXPQXrNxD3Fs+rbYAkptzU0kfiLvPn3GG5e1AlRIJUNPlO+0vBCQ0OBhMtfsj6qmmTydOhxpDY3Pn4wujtdkR4qrW9GkP9BhPfNIgyX66EKaeSGh5fNoeEoY8lhRa1h5uQQJjPTQSTmmTV47DKdWYOl1Ztu1mc+3SVbkPpnA5vGxCWaBtsxtT+C1NNMX/Oi0BO8FTgB13OWem80G4ohOUOGNsXDDG65kQUMIBhEAZYBOYgWzALkWPUhHNgEs1wzlbXbnsP/hFlii9QLJRnE/eiWFhj4AWfGiLY3Mra/XZxam9ljpTHTH18253+8N8Q0PnghO2JqnckiiQ2h6PYqfLE2JS+rIJ3TUmGo8ePJbYyW5DD5B444lks4XpiboISvt0AKH3tndeufYSc21xcd7G26+88rLJcBdQb+7d+whT0EerplynMT47PAcNjFk3ZxkTvEToFxM/PD23a0L6wo4q8ua0POfF3dpvaXy+vr13/bbakfOV1au16eNne72xyeadSzdUqu22Dxq9tioQU6Dk8hgyoxU71cebmyWdCUrOLUw2pmYlXjIr6o2FS5dumhqJjps353WZuK68t9s7WN98qKqKWSC2x9P1t/+tv/Vbv/VbMqFYbABlX6IGX3h9XEJqAF5wmOdOZ256t80+MIg0UoJCMBWGFo/T3kHraDNmq3V55523Nzc39HL4L/7z/5xl8zvf+q1XXnxleXFJAdYf/P4/mxd24iY/tdFNWkMBD8bjRrteoRR7hE7Qa2ep1WMPHj9YWVxZu3rllVdeeuv9n+71j7Z2nh/JVZmfk0mBkL1LZPHp08dR6Y96CyWgxTl+6ZIam1l7bnH0WZGpBv9JjCrTAQoOQGwRfko6d5KjT8NALFcl1kxz1jVusbi2oZJtCH9kbBseOQ1j/crS4if4xjd/k6uAJvfDH/5QeIN9BsEgInSFwz6N7YJXVEIoKmk4mM8YUB9LJl8uTn58JheU4xfXf/xndb5cf8EYiR8kRlyNzMz6FUFZ8eoyn57gMGzjMTyDdz18yNk4GK1dYpaYDP+8Bnp7O0mhnByeFmtBzAIkkiPpk+gFcWvd5jn0bmojEwzvHhk/ppALrBLPo/MLN67f7O89eee9D7759c8ppuJjoAzBCFopa3VicWFpged5V8/iYRg0OvbqK6+9/eOfaGaBHfFJG95Ba5eKcOXKlU2baalWLochea1ZOwP4vld2Egq1KFDITBPfF5FTyTNIfDRoW9r4mRjV6J/8k3/yP/rbf5PD74MP3v/mX/vmpz79+jvv/fzgvQ+SBjeus5RVGW1OzjRq00VWyaSNylztcoBL246AwTA9zees/9oc15q93whxGbveFXFlcI5PIG4ovleH73765IzvIJLQQEmzdP6TI4RtQUp9GYTjDKUCq3ugMEaj0LmMFy4BvOLQKzE6sPB4Smumbx19V3UwZL9eXDUgMwafOYwiOQUZWHXC0B2JsTEJTDdHgSKcgDqET6Jl8RaSqm6p7pOKXQxKFVyRTkk4w8gID5xMtIksk1rCdZgtSgYjGqemivxKY7ZWb65OTK2O1hfHJhaHxmaGbIY+3OQD1LpHdF0uXzqheBsFiu6U5IMiyNNTMN0EzDGWFrwjXeVayzrJdiI1Kv+1m3dKdOoM6hMtZVpUHDudH3Kf8lxHMkU+F0tS8vSRRPnInmrKmV75M/Av4TsF+NVDrAXjtfhDQAFlxzRl4iAYwtNWx8UELARv5MlaT36XFj7YIv4SPW5MK3R0GPDiw7YyARuW17HOqUTOlOZTNYEUqc0v3nmZ9fnZzz768O5H6nXYHMwTPD3Omqy8hkYT9sVdXl1xJyyQlXv7zh1Nw6SEowQCRmxDXJMtTJMbXlhT6K60165i5vnFX/n8yuKSHS8JDFDjOMMH63ON6wvTa1cuzczbfXZ8cXUREZomq1SuVO9g52B34+yoO+jr0iRlcNLejjqS61fU2Wl/9y++LXRDhj1dPxiMTe91nxydspZmV9fmpbFo+bg01bw+rRQsSQFBZsYWnYK4nmrMjkx1+Dod2rfbfvfkWIv3qdlLclUJnum5peasc/pnnl27OaEKeH39ox/94Hsbm9svvPjS//w/+J+98tId2/6CqoPAAVgBCT00PBPyhO0SyI2pSvNgtReCyjYZ0rIFiuyi6RYxaNhC9qvdee211+68cFtdqgTlF67ffPXV12gSWNrrr3/um3/td+/du8d5CJ+ckRWRbKfi6R1HGOkWH/SAvN75wf0PL1+9gghm5mefPH9meywuPuKKj1UmLlZF8AgA6jjOXLt8LXsyETk8eEDz/rs/J8bwFP2XJ1STNZq8m9icGmJo6STGZyJ2jJQpCbM0EmROPXr4+C9/8OFXvvR5KSWMLYfkEfOyFYlXyHFHtt/61m996UtfUvDlLQ8ePAL0r371qxUHgFmIyvWFjfyCZVWw9VkI5EJcVSed8cXtFz+Vaz65vnxJsUZ1a678+DfXQwOjsi5mhL6sr+eYS+Ez1fPycH8iMmOjn0FsmJLnFFZWPcwaewfVbXdzS25LgusarMTTw1ikJ5Y0Asb8aGo5jhpSReCE/tTHKdORAmp/Gu6a0dqLr7769g+2Hzx+qvghIXPqcFg+k3Ri69ne2MyaKv85+YTHo31R3PPxK2tXH0x/NGvj1uV5NXP7ne7W1sZLL90RRKRGiJ5+AhzwNFQAt2SG4ZOEZvORo4CAN1fwBwQu5WpSviN5fEX/F4j607d//pnPfGppdZU9t7y8+uF7D/7iuz9c39ww/iRrUr2VNGiPwunAC1VKO9hZTkJdeuzhoTJQht8UOci4mK43bt+4ZRje8gtxVcG0GrRB+DnD+u9Ag+CBX6tPE3BUf1YiCj+tzlygkfLhlNZipVY/kg7TTKaXM3Fe5R826WnMJWQVLRh/drZAooyA8kFeEQA55//GFYg6ks7CUknYNIhW8vwgMSaH++acb9hyQqzYdGSsu2X9klcUHvCVaJZfcqOIVNL+JLtIZZR92lBiqk2RmEc2Vm+OjM+MjM9pGzQ6ph3DlM7ddva1+ZHMQbcnA9BnOHsaC2bF2TyJWjGwON8kJRZaMTXTIH3sxcaYm7DjMJPF7Uk75CsAB3Aj73jJqu+4ZdXoxQUOsqQCrF+9KzAo6OUPD4ABnuGkPwMfcTVLaYHKNU4DQABZtv32VuhIQsehGtFvm8ARgRM5Be4yKNbwJ0pAc3bBsirjJOi0VjXLqSaHnG4ynekZDTWmBFEU873yxutPNUnF2ra2UGx2TLDP1sKyyPMXPvf5z33h8wWYIcW5hXl4E996KfugzX3ti1/VxNfC6zvX1IdXXPr4+OnDR2/+5C1tXm0tef3qDQKu7NE8SrwBhSYTwKm8HJ+NqzW2oO2sLP/JOYfrwe7bb/6wJ4DT6lxdm2MNo9yOviAj9RfuvHL3wbOfv/fwmUZPvP7DtbmFS8QOu4HzDSw0UQUoXHVlZU0mSr+n58iI+uC5weD51vbu/ke2rTo8fK5eUhCCrfT6q6/1ttqCDRQzmSbcnnBzv6XvauOrX/3aN7/5TXWUVy+vNaezIlKJKz6b75ThVqvUyaXEhAXW2enuPn5saexehj9q7SErr9PuffjhR9g9/vKlL2ZXXBQh0X9xYSbq2uDs3/+7f4/hsbV1wNtrr83l1Sv/6//N/+E//A//w539N6FCtw/rI7g7hz36j5JnxaE0KLxPY5SEZSemHj1f39o/uHJj7dbtOzvtLRtiD457+nhQbaHP+saW+AGAaH6qecHNG0sIV0tlPWoNldFjTenUfpcprfjXBK0RVuiwuLKTMfqFhaV0xDg+FcpqHbQlaBSdvcXk4utbu3KN0ILG9G7nv/zlL0dW2ZhydJSo+8EPfsAUYGwRhBA4GF4ERmE/xXUCmuXwk8M1n/xZfbm4C96Xn1zjfPVZ/VTdUc7kp4vLyjVQy4wMzCxycXmiP2EvCqsudiPyiwA6PydujZzc8hMScAZhUxWsVHKwhoYFdC+tFG0SD6Qsxr1EldOkyK5XMeNYUbBLRNNAwimTNxBiL3lSI6tr1342Or7fOfrg7qOVOWqurIeu8WiUwQQT1x0+1w6O/DuUWxitPgF1NXwnM3PzGkXsvfXW4ycP7360LLXRMjGbrFHYSwFBeUsqE4go4/fF3B0mAmtiNYoz93r+BJZq7sCCV4jLajv5Z9/5rizB5vT8THPm7Z/+nAy+ffNFuGCSguJaMKm2vvveXcsKDlxAHiJSU156/vpnPre9q6ohIcw3Xv80zeaoe/zk8bp3uf6/Q1wBrBFU4wjr/3jZqi+m5AK/OkDWQQ5bFX8yZvEvYbRqkVzpYB9EQCQDGRDTHLDU2J9QAS0fL0QSJCJNwm7Z0kIOXuRvgHO7GVWoRcvwRdwsuPJLh8JL4tAzCB3OHzYEdh1ZlwhWEVFh4BFU5JJPm3dAQ6KF9MSNtVFiHvnTf8kutdoYzsC+6MKkkihqejXJ0pTStWiDtBpBNVyXeCM/nyPtbEib69zrX2RlRlx83iytjCBPJrSyaaRvKniKFe08hbp0Oo3P84j/N/YflHdVMDv9WtL8mK4VxyZW5LkUGa5tBzzxq6MAJ5LHd8+B3xVUEh1zU8ApdphaYIISopTB5UpeJy+TKOpcHuSDzVUZqBGcGQzguNAkMo3MbaR/mFYgXJe5J7A9nZySV1mTooDhshknGlNpSLgzsKXW8solLVhk0ywvLfECXbt8DZPl3ZabimtGMPJY590Rir7Qp7RTQmzaJTqp1u386HxTtOT5s/t33zeFl16+c+3qDcEPJJAb3EYts9BnycWKO1T1Oj1zWFqWvXHNDC+bUqPEF6BWjQnTY9RNSFa0/87x5asvvPT6r2y1fnjwfHO3fdKyY5la1KHu9MkEUdbphWVYME+VW6fko33WO9jXwl7x1el+p4Mn2e/KaJeXLksJuX7t5tzC7MMH9w0LyLA0KXUsLaZPp7X16Tdeeu3lm4tLC0LJU/VhaYqKawQ/sC35MpaPh40OjjGJfleSyXzxAkREj0ko9ySW90svvnjj+nUYhINwmfq0XeSVtUvHQsFF8ceMNjclXga3jd/dN1+4feuFV+8/2bLDHn43Pt4UW5TkrxOwoaLasbMky261uUhtNHy++fY7isAYaK986gt//J1/OXaspEY2wOibb72Dl83NLRK9xIk2UOwq3+nOkjJUKHNYcxtA47VLV7bViGmfenqKCRK9MNYJsopkwr7JG3j1zjvv7G1vX1FiduuGMBixpzxAKZsW+3RzNhtXx+de+9Tf+3t/n+gSDJOy+Oabb4p4/cZv/IbnsDUr5gWGDq+g/lP1CkL94iOojpVVeFZO+/MTeslPhXCqG6qfyskLgqqu/ORxfkJiaApfDn0V6woOVA9xcQRVIcbqjMg0toErOmm0uSWSRoiIBo1rnO1v75xc5xXH0Uasx8RYjZqfQGxCTxIfwmatqZxDCmXR58PBUqBF8iT3fery1Zt76x89eb65tnqb57TX35fGJkldPia9cm62Pl2vbe90mUPULB4OFtLG08e2iLtx+wZn5EcPPvrZ2z+xnWw1R2MzTp+G6oxPMsySwT0AN2vTMVj1xYsry9KzZMcgN5cVxpogDpajfFGeoyH+09//Z//u3/l3cBp7L0gseumFl/CKuLVH7MHdVwJByWAp4CQmDFtk21lE2D45NYv40ruTlk9eHOvTffDw/iOD8fYLa64acVmt6uuFuIoCUw5n/dena0zJCyKpRDSqo+wW4bw3u8ZzY/GUixGeXIDiEOMYK8Im3FEHPAzSQ8ODXWnaWCQBk/pcQievyiPCdYvN4U78v+TjxFz3A9UBY86GI6RuEUkQFtMvzJSyEvQhwFhdcEIeBA1S0YT4lolErBepl1d7VoJYsfBgVExBrGpcYL42N6taNFYq1kCjREWxjDwgelL2B4wBZ309LUIzT8SIYaYXhjIc1qd4I+GzQRexgJXqPREZBg6sX/8CVQEjf6fUxHNSWmuEmXzkOVBQQgRm1I1NZKhxJwJzsQstuZvS7oKo8X+CzRVREJiYBB3drDzF6xKbDpM/S7mQtxgg+EuWi5cWSGQGiXWk/iMrReyCeC7M0GMeB3jxKBoUK2vcBVIzAimpDHKHuz1J6pIsNApjGdy5c/valeuKeT0tlIDZw0sN7DkICzVq7ewtWcnE2OLCJ1axe17J3kGHRXX/o7sCd7xJr732hqIHA4cYvPkwjS7jmbQd9EXAxvEphyKbiNMrk6HPVWdG2fF9SpXF2c7+weFgZHZx9Wzk8OnG9tT9J/3j0YnphenF2fbp8xOq4djkyXBNRbCtnScbc8wsu/O0nm+cHD8DJPhgNWDG2to10fD2wYHer+B4sN99p/2eVyfhjet4Vm5pdhagK1s1DOL2jZtLCwspXxwM2zkzVYiANzKkEEUEDgm7Ui6oEl0TIGZEQKHc0sKioBG7RgI3Gi4myjJYwWGrrAYGZaM9KIDadHQVhUaN+tko3gJ5O99rfrH3/TenZhau37jDMptktmJAvY76hY6t1JRKHeyhSzlCHNhDk00Zp1oUzi5febi+p+ftytpNNebtfuv5s3X8cXFBk/VZPtDQx/m5Dl+bz7etmHR2HG1hPgnrOFpJVV+H+ZRizD3s5+REDpHv2XrqSK/LNktR2PyFl166tLr2wF7px0ezc83Pfvaz2N+PfvwmMCI3MzVl/BFb9MUbBf8Ak84OefwJARDI0Wkq3CVdAvV//+EWF3isT9+rL//9t/zyr9XtKMWNlAmQrMQVDCw/eWAIBpX6KTzs/JyA5031Z6Vm8o0jHpRDAjlpFjLOu702Qg510LFLnmFTSuuQjFNdQkd51wUIv/v9Px/XcKVsr0wdcoRghkcZ6Ndu3Hn+5G6rI6taxgxz59AOz2EaWjZvr9+59MLcNC3kIL3W0mb3dH527vGj+7sH+y+MvTCvvnV9Yndrq721K0RkPA4TBM9MocDK2pmv5fBSvxon3JtqTlNWKKa0B01TnHSXK90IMlUyg2R+dvZffv9H/9F/9L+698GHLGO+FmPmpJbw75nNxqygFJ5dXlTp6FxQQu1nOwftpeXLFtdPlTnIIv/a177O8RBAGYofUIgjNIAXVFu+Vqvr2R+vsWkEWNkEAXvx6KQmw1HhYgO1POH75fBAD43NMXTet7tF2G7kYhFQzocVmpg3FHEY6If1ID4BIAwWOyzsslwWf6Yj4cgghWhjcWH5kukyce3aAJBRWnjafBaWzUDAq3Le68gDd9JS7ZnD94O5Q6tMmKPZMwtCUTZjVOCD+tBMnK8sza0uSorWGG68rvgwxRWKhwZ1zS/U42oJ6F1BNdYxV5o1jrQza3wfMWGYhHTZrFHrP+dlYbiGtOV4w/WYmyEeW84cd50PFWVymHgFkuFR8e2UdxbZH2h4WJh19ZSgSOSmIQR9/S9GqMeEjBJJizx1EARxI0SwmhlZGe6W0kV/qNSONWsZ6AsmwuFJaOVRHlnWD9llNKblySBIYqUcgCggubIIzHO7LvFAS1FL40UxvuXVVe3Af/LTH7/88quf++xn2gftnb1ddEJrieO/YOHEUJo3Qiu83sOjhJ7YeNLeEHwCI3vb+08fP7YxYBS6Zv0b3/h6uJNUzyMuu7JZIl3V1MvQzEeCL7zCu8EzQvHsZKI+ddzuTExNPXj3g/299pXVFQqd1qozi6vkjpQQttVEY+7GnaXVK9feffDBZkc/QSVWZ8O1oYmGLuzshBEhGOONOEkmZ/oI2y9V2G5v9yDCANrbzQt91sbn5vhXZtQpU3Tig866gfCpcqKb11auXlmwSFwysT7kCqNsUun0WP8O0QA05TSJzhbBFzwNqVNK6CbieTON2ds3Joh4L8IgIGwI7vh0Shx1adW9OrbNzi08ffZcXEfAiatQNSjrR9ZzozlP0RqfmP7c579CzZL9HO14YnS/qxOgIZ4nC3F/L9oJbLZ15KNnr3y69vDe/bfff/C3X/3U17/x27/3e//wowcfaK64uLSmoMJOXbduX7GB+4/+8gcszbXLlz1QhlvqzZvzlN979x6gLCf1WZpfmGOH6aGFLYh6MIt9McG7d+9vb2zcfOFF4k3qBByanp1VLf7eux8wxxniDuqOtAvuRK0jX3jhRRKOiuMMlUVhMQZllX3CKLLfE+CJz1i2CIkCWQSSCyp2QUErxOWvUJkjdBrFNFf+a4eTcDPo7afqmvA8pJKt2uIAwCR9lp4yaTdeHhtWVh5fWF5hatgrv6hboo+lBy4PXd5maVMvfDYMAiWPcndOdwx73iHOwYjkJjDkheBVC6kPDdsViF/Rlh70QurFVK3pHXt7+3PNKZv0Tk8vqKEfn6Ar7EvoJzOEA0R/J9q9/e31JWky/b2jY4g1iYLn5psmwkG/u7cN3+yLLa+XfQylTMSWdeHYGAlGhxsntnrsJC2Bxx4bMTAzopEwtn79138DHHjpMU9k4hpzSVOYwBV7GNKD46dvvfOXf/njb379VxdmFzRuX4nRPGh3uvxtdsxCVkCaVSlCiwQPw5IUIoaXzbF2AVmra16u1lF7bnb+yqXLhoT7VLwyN1p1R25DsYVRhvUH3hkFWDhQLlRAP9WRulBSi5mFRKvDndaclp/Zh0Ej1DwwEamCMQRNhERVJBQzp7wwrkn5adzo/lsNw6fwIdjlERgU9puL8zSesXKXxyvdC9ONrUIgpBUTR47E+lgb3u9TtxPLIO3ShlG2FeCU84PmXY68SIxyHFPgeznVpWBkMDk3MbQIQs2Zptj6lNRogaaEFSW+2+zK/2X7JR2D/CLj0iQuDyxvM0dNnwDC6Lyb/CE7bFONKxgexmXcTEETTKKgS+IndXvGGvqI4l3wWvzFVR6b2cZaJSX1a6BEc1gWVh3h5WvoLxpdtexuiKQGqYtPb4osBxpGFkop6rHis4g1YjeXwgG7o6hc9xRRW+gTN2CBnufHli0YFQ8mL7olMHLud5ZQsMJNpIUYHWKO2/P0KMnip7//z//gX/7RvxLCAZ/UaY9kP9a11VU6IxpmOqCQRTvzDA3t73fm55u9DtXMhsIdihgGxHONnomrKWVMHLRKWwGEfsYA5ElzCk83Gd2C00rPwugdEM8CcMhJhaZ7u3ZbTE4Rd5on8Udtbu3MLV+5dPVqqzu63zmTInjQO2Fv3RqrX789MtNc0MTJxcYgi5FWBCWUK+WvHjUuADPhzfV1xElxvqFlFAY8Oa62gVGlcZQt6kUZudk4SRvTE1fWLq+tNtNDx0oZFjIqJIIq6FgkCvuPdlSvNSaWG/AYKNDXwaCzON1kype3SyrpQBX6kvwFnIFvZGhEAypRsQ7vyX6r/b2/+MkHH917+513pSfLGKR1oXlhD3Lz5s3bUmAopxgZ35F/4ovrey2prosLszduNuXnQxPPFGL8xoiemcOH3R69UH9gcHj1lc+SebXpUb0JZGNM1Oz4kO2D+TMXllY31rfHrtRuXLsloCPmJYJFY9B5lr6C0VhETI1ktpWG4L+D8eSM/NDL17TbX5EQiKEvLS/aNfTd937OZSSpXaqlJk+mIEJJPv35n//5tWs3PE1aB+H02c9+HkooS4R1CKwCl+9wGNwqZ2B13k+fHND1k+++VBf865d9co2fqjv+W9fgclbEi7DpaBxl3xCE6fllLBcPKHflja53pV+5ojhicOLkOqEF7QmSgiR3WsaSqo6k5LnME33BmkLLAitHqciCIZi7CnAML++J8R0VU+0EJJqZXWo0F7q9k3anrywU6dIk/QqV6EWa21xanrm8MvPwiSzKPg5JBhFc+xoutttEFzJEJlgUqDKYjBbdGQOuaKam5hPY0anvviBiG1S6wGXVNpum6adqsgUOhR9F4qvdPpYX86d/8p1f+cznrCDziCKVuA1/iIwMbaj4usLoQAVjAkKA8pmwDq+QwzSctrrHPPj9/u72thddWFe+eZ93u8inI08oR3WPdaoWLKaVug2cwBGn4C8iJW5wMS6b++LF8kg9ceIZK+CO2HOuzNEyWz+Ha6r3Vg6oCC3pZ4SUL45I25heCcWZm4FZtup8+Q4FIgi8jL0Q3dav6tew1PidYmUUo83PNpZWD3B02KW/+N02JAScFpKKXDWb8FIpfPqhjOhvujgzsdzEUGemlRtkLxGC4WRoYNsVzJyT0a7V52olcOpCLKbl7wio6CYjNcUDkMkWU4F8jfpM0ksDnLTXsBUCMcAp/oAUgVKkZDQYbFx6ZFOkRADor2JVWoh8r+DpZ2/XUxBK50I/ZYFxuoAW1udiN8fqin+SFZntkg0qEoM08e7ziE5erVEqtmKh01Sa+b/BR3bCGvK4/OUVFgnNGIzYHqMtRxAm9BTXII9grEaLlECfPoo2FB8ewY+UW3/nz76nwlRGny6uS/MLQmXbm1s/G/n5xkYSMVbXLhNIr8pqu3NH2Jan6Ob1m5Dq/oO7ypBFv5xfzH6A9q/vTNgWLG0AQZlWFEsLxphrhnyW4Jw4H8Bkx5Za7aTb29veOukP7KXNuPCodisdnoSsFX9wBUNxRC9cMz45HQofnWrMwzL+3gbPYS35f/WJfjyxaR4Y/LOtFTaCjqIRfOrVVxM1aiYN16Ih8gKPMww6vV8MSe3X+Jh88QSaZ4Y2nrVpSqRT+eflyoTZmcIttoG21MKBkskRXoghwqg0w6W+8PjLALRgysSRqzPeL7FKm17lyErd3nvn3bsPHv75D370+NlzdW/n3X6Iy4MI79HazOLSk+db2OOVK8ciRhoM0CHaO61Ll6+LkG3t7GMfbG++y7XVS9LuD9t2JBheUpOgnolO3Zj+/Kc+YxvIVn///qP73MuEzT/+x/+oe9C7c+cVIuqop0x4nSxngpa5j9qmqDnX9BPWZikFby5fvkRHMSh/OhCIPAuSnuHlV6N641Ov//THP9JwRGgTx3y+uYXHSXDXEBQjZ4opuGEHfPDBW9QO8gwSI5+KY/gEeQSI22cJCtcJEMtREZHz1ZePTxcG5ey/dv6TC3zxq4/q+dXDyh0hcEc1gOoJxuOCcmUuzI1lGM5AS/LYBfIeS44CXdPOCdSuZLhhSlCR7SKjR8iXzwYHj6Zo19KSS4XHkvEmp32COXqpvhWZLadWmEhmzaidbs4rfNTuq7lkf+3AwcOzY93YyGG/tTJ2Zo/i06N9fonGzAqESpD14cOt7Q07CiT3NjvCHNLHV9YuSftEIN4g/dZ+V2gJf9O+ZPp0Bu3Yz9Svc4tqAWekKd67f9+7sAMDi4atT7/+HcWBY7kTNFE4dHryox/9+I/+6I9eunOb/rH+fBNzYNJh5NKDmf6uj758AbfyzRXFWUr5gP+mHJYDmhwfJDTGVF3t3U5mNcrhpMPQw/HKlygUrChto0rzN18cyDU3RnmgMkY0eEjht/6bw0hSooOlFiEsKlUeXC7Lg3+BPZ5TiTT9QEtrBFJH9XjIO0kG1jdylFqa4ac1hM3d83zdFsZskIDF4qH+dE0U/qgpebgJDJ3Ek+VddGSpTVqN8Vth9IJeQIDp2JHTp8MWeRMjZ/VZS5kWq7oCNlxEVkUtIprDy22uZl4BdPxw5COAU57Jv0IYYDE+mSqfpAvY8fp4guEx1tQ8hUYcyenSSJtA2XMMMI2RSqOOCgKJaiVcZIjZRdeFPqNwgbOniluQG8VKTYwvs44Fy5Zie+WiWFwRiiyP4kxIaC2DPcneEcVrZuBAc0rBQy90F31quC91nMrgIvUJp/yvDBYThRYZh6iaVG5YAJJZWu/zf5vvjstisM9UhxqDTyFRvJXIQWbTM02IrsX4hx/e7Rzs6+sgko+///n3/yJPKAlgX/ziF5n8YGhHJO4OQ//N3/zNNz79Kd0N7XFhGy9hMFXAVFHzkgILbnH9Fb3VdFN/WwJvxkd3kqKwsf740UO90fpLs4trS2t2NrRIVW7CVsqyW9vt053WUO/ENnU6aQ2OJFqyls+GhQBYypqVsbobIw3vobosDiX8wCIlmpPxfcZ065ObjiyKwwJp6ZHdV22bYsMewXMawUB2JA2019l/9aUbHhtZBd8oXvYoEXTWCB8Iqzq5s2zvUsg+TgVUVuGGMwjOy6EUFFUExyJJ0uX2llwGtpQk9WfrW4ZtoSWmji9d4ohTiAmT8QuUc/PmrZfuvCiTWM0evmm9FCZwKsK0hZkFzUileNhmmgo3daK/TlNzBI4B8KDM91pAczyhfefYxBc++4WioAyk6slFvP/gHj/f49ce0S3UY3kbScN5BgKMUX0zWGB7+7ukkfZqBqNCDlaYr+8+mbnsE+5Bkuy73/2uovgrV9Z4mUzn3sNHvjgAQcADNLSW//znP88bJiGQUUvR8SLwMR2P4kEBH/hYmEJo3NSCn1mYHP6EvdXJ6k/fq6P8/q9/+BF653y+VZ/VMwt7dMbYvM6vcAAPNIzy+8X1ubMcBoYczFGmSTYxKv3kUBUvFKqh2AhX2UVAbw/m+fLUhOormx7ZVVxwUAEQiMX6KSkWjBBlLVMoTm9icQUusQluoLPTSepivXOw0+0c1i4tJl9Ij/DwTNtt13btftne1tGiPmG/zfbW9nF9ehFTw36oDgxFY3OlkTGn4upYXBQgrIBjUibhJxNEsLQ9g3GXP9WDu4vMM0EXO+NPKyKYgPAhbVYnIma0VON1mMhrq8KuNEmuLP1cTCq97VFXiKg8JUuZFzI7AjvobH1dUwHZr/5kAvopq14dXuNv767+dGmeFfM3fDn/KU/XD0hcrfRMystcbFWxVIOEJv4szAwLzXnMOUmb2G8WleZP4484RemuQ/DhsH4s5rzAhFlJcjeShGaSdA8Rh0/G6CMy2cw2yZgBR9FLc2e67xpXEgeoleDrV9+xYiPKe7wzUD3GjxAJgz7FytnPIz/ggSMj9vc8BA73Dp8dz9BzbDs7ZT91bkDqrRanyAyc2V/nduwkqjItLkFWCP2CgCwTjf8sL0JChIcEGxOoSyEg7oBGA2bBD4nQ56MJC0enLxsdBaQ8QgRICVPFBWet8vdAfNWdBlZhQ+aS3AGSLhAuYspfJEzO+aSD+W8srUiXck1wbsA+5AEFJBxxRDbOwM4gR6M2Le7vIajzQd8LbGc8fNrks9Q9SJ5BzCXZH16Z5xgZGjnnqLHe1T7o7APr2IG+h5zRcmB76oo2t9Z1iuPzEecQ2eE0s0w7O7vLGpmVODzaUjtE99BEjnKNRbc7GrDtvvTqKxD9w3sfUakkC/z83Xf+4T/MptqvvfLKnZdfvHbj8sLCXFYife4M4ZRblh2lwgNtGDHwE8neBVa+7+3u9Nv6Vu+tzC75c+v5pnVm6yDOk+3j7b3tk+GGogVtvvY6G7XG4fhMg4FDlAIebKHmiDuBmIfCvQqdgr7MlvRTHFWVHF1XqlEpBImuhtOMCgkIBYsipM8v7cAFuhbMLwoiUOp04NaYMft/0FJq4/JlaqYc2oGapzZEp7DiNsF87kRsTlDKA70jawD5Cn3pw0TZUnsFk2HF2vWXbrz4GWYiYUZQSTc3R9sJJ9gw3VheWAwtm5Ucde+TOHqKbI/27n5A2b+ytnLj2pqswo0NFlLnYG9reI77SEumc5NsMDJ7Q4ftzkl3ZHlpbl9LLRCcYCdNvXD75hd+5fO2jjXZjc3nT58+IcAgA5XJFs/8fj/8yx8QVwQYHmePTbOQc0/M4IYug+heJ6vw1Vdf5Q6ljvzK5z5PXBk/mfTp/QNw0IlLvOrrX/+6uUMnjBJtciqCRthLsXsAKtDDOH7pAMzq1wCtwDYEGQr5K4eTjr9y6hd/OF+JN0tefQmH8nvmSE8qK+/PIADtpCxiuSWPqJ5bvc/tGD3ML7f4MOKsL37BwxGV5nxwoCZ1e6uhL9HaSiHpUHd5SJA6hHwutjdHJLR3t9s2iJmf463VMjeNaRQX9o70IJUaRPrQV+M1idmGOIalwh+gwsP91aXm7duXnm8fbe7Bms5I7Yw+gzkDqWQ3xh6zFdqYHQ8tUMM9zAe2GLFPU3DG2kGqDKPdJq7SDnEo+5FSTQ2DXHENDSk8P5aurvm4jb63bjnSouX9jz60r82Vq2tIK4hMEadFJxnMawPWsGMSy5EO9MlRAihsHhRcAvFEYwgd5yuHUwSywyXVJ1j7rVoeo/clzyqHSZuJr07msvzLpeAU+eDUhaj0h5eFr1eGh0u4cd34Cfp4QvhPeVRuNezhUSGJjCnae2RncblyB3L7nCD2+MVsr1fsLe/H2vXFIkzdbpUcTubFFwPJ2nt+kQpBOOchECeOPyQNeEvRkcEQ9hCW6YTVqHMP2dtPdqAUuSICw7UcOJYhKpWAHGSVfYK8N2lpDi/yJpzJdZBMkvDgXHh9bGA3wkFE1NmxqiZSXyR+VH2yl/Eg40qMX45VeB8RpWkPtpByueyDZYBVUpA9wDw2ok1KgkQPHi2QI6G9tIhlw/ITdMEWnSqpFpYlVlir23JtuC1LibIu4eTYu7p7u89Gh3i0YxboWxyvIB/bxNBx3K4SLm2hiyQ8jc+TSB3mgBLhY4sR+pK5MZdE9U9PPvzonrbK2AoBYFQcaEHxbvfps/U7t29qLqfb0K0bN2R1EwnSwHZ3tr785S9+8NGHspmfayW7vfXW2z/D2micNttQBkG8KTT74Y9/9Kff+fbly2vdw5ZtBcL+lhZLXYHS4Mva9SuM5f2T1ISoJPqQo8DFCFZbRJurj0zONqaJnRR+jadDtsS2+q6ufdu1Wcl1tnjXn2nv2h2bOIOJbAo55XQP4GOgB4ioASJDrUCD9WLVEjK0P54AYDyu1po5jlwxCLISW2FlUZT44uI8tmAseDHUUi/BgZPOyYKRNDa0SkeuNUtnTLr2pHutHfsJZR0fdlHAVHN8dkHLohmP2T9oc9/xDaxdX7v9UoMHqdVqI4PGpP9NrayuJcCqOKmW/FIDBRBuFI6EVKwjBI1ZKeG6wMYvciwuptDLnoV6bbAv11bmetM1pZL2PUBdGi26aG97vavnwuC4fXb0ZPvp2o1rniNEL52MfBIsfvnlF2Wi3X7hhuWWpxKGUOJyLC09O/7s29/5p//s94klaKxLxfr6M74gNGIVgJFPT6q6Y3lp5d/8H/6NuBCbDRyToFrfSs+LJ4+fQiFCmgqPJ2KRX/nVr4OD20m1drdjmlmSwqB8qUie2lCd8cml5LM6ApNy5ccn/v/81/VY2l+9K9TtNtOhEgnxRDEyEzGki9TWPNM1uaxwTn+6wCwWF+acRNpmJ6hA0dZPpGb9Y0nhQye61ttJdf/gYOnyWnR/WqxQoU2r0KPkNeHm4CBVNZkJUUFiPOETyuYY4j0NRJQHcpkWLh2Kh7Yc/QkVa9A+OFxaWsw2EWdbL77+qcfrrfuPNnCpvb3dMtgMTECzkqmki8OYCyNKfbrhuIzQM3jizXwpH1WCvowYJ8kCZhlZImuG6miNqst8L+tC6oxhFN/97nfkxy4uLpAkWKZu4Il9lBTBMjPnikXkxxiscV9xFXoCGPvNqDz2r4grVzhA2St9MUooSNA5yoszMTPxZzUUVxp9tTZo3DWg6qQjTjh/+CgrGK9UeXhOFcnH5nNZ9diKG/jFGeRNbHgFAUBuRg7G5+RF0S+7+mDRbyEI94SMoCJs3AXROUuweOfJsyrSVamV5uItPCoYgYOSqQkIVp3ND7VSTxeLSlzRdsrcz0bxtNmlqdm5iano3BRkr4mYMgdysBg+DDXP0PeudCXkiTbqqh4ghtFAmqAUjOQnAvBJ/ey4cz48qaWTCh7aj/yyPi5ni4FjTdi2nqw/x30kTxNXRqvXA4zkDDEpzjHaRzIMGXVRvQBPCsMxY4+Yhr3AWywfpMme05tFe/gLosmvQFqimP3jbpSCo/M+JVne6vbGUWd79PxgfLgraqYTtHdNTui1ezKYHJLxHdlqEx84X54KVLa5sWI+tdt98mxdtc3WdvaVePZsnWiSuw35pE1j20YZGz+Kx9DtOy88e/b8o9YBjkO3evnOi3OzM1yCstKTR6f3En3sww+ePH363nvvLF9axWOJNCWoCFm4Qmtdt8NqHrAP7n6ATuJIGx2l6AmG+WKGsHtxfunmtevXr167c+v22uplibjv/+xtneUnRuqS4BsTMiCmt7bX3/zxT6YXG4TiQ/vQ958NRhYYCvvtvVVbJJw3oizEXpFMkx4Otq2hDnV7LXRADQhmxtstlYOMYL1CQ0tgK0XJyqHkQhHZ4ohEvLSyxMV32Dvtalqv68lkDbliEBBzioNGVMEjSvQC5zUpOIL1CGbDdd+JEy+3ZVpThuTe3nsfPAK9jq0jh85tCHk+rlrhRJMCHaGaCzNQZSJGJ4yQ/UybCfiRrVYcFH+NZydgDuwlG3XrJz2jbdnfpTs47ui5etxXK1yb0sF5vHEyFXNNhFBFAl392c7GUW+fv+moP/Lh+vOHTx8SQp/7zMvCB73epf7hyVtvvfn9H/x5q72vTxX2jX7VTck4kX75O//G7ygZ/rVf+zXqiNgV6DGeNP1jcmEgQlMkqwQ/2ROkkYxINoG9Qc3dQtuWyTXsRHd9+8++y1cvSQQz/c1vaVslp781cVpVPoQdhV8VvhHGEh0ttU1uzHGhsoYBxffwV4/c+P9TgLk63K88++LOPKRcj2niM+ZbMUkT4QMovM0D/9uvMUK4YZXDJ9N5Mht28w5pJU2X4X2OwR2v7TiiFjd65/5dxZ44R2p6HRAOhdggptsX5BfFWZyfe+2VV5UZulvPSKa2HZ/rtfPtZx/Iyjs5uYkn4r55Udojye/gPerVZ+am6mMirZfWls9G693D7Aot1hixlOB+aYtua+YgeXIuPMp8QbJins7708Xm7ozvtAcOTDFpGqQ4loNh4Xj33fcNF/f3Hb3QlEkatyj1e7b+7O6Du8K9c825NHRLUjQIRyN0JGmLbmztsr+NuUfrQt+YqnMxXIrrS3mGwRAHocpPDpf6y81gbeYIyHcHMiBmFTPy41f2kedllZJaxMGWpAs3xh5EH1QBnNsAnDDJsqR58C8ZUp5JfEGMmDVxahGm1lUOZcwVf0ctZFK5zNkkE2e9dSDSuy3Ao2FQm0dHsv+KGJOVzqYsRhsYVHG8MqmsfZlTYAfmNgQyUDB1SwyociBq42H1LM7WlxZkWfCt6MbICo2h40YXJMmPRM1O4oeCx0yxEYWpMRbhdq6wQFTTslcWVDEeqV/sibbiFk1XT84mD88lVYmamPBo+/h4c2sL05d3xkYBPauC9YExuvU0LQw8HAdBIQ5TUKmgKqDyfPrTkbFHk/S/hCJdj0gcnuaw2GqiDzo7Fjg2lRDTQWv4tDc7OTQ3NbQ4fTbXGFV9oUf+2URnMNk9q7dHJmfqdsoYaYyeNfTsoHFwI1tHEHv/7r0HT56qjDFm2gGWLcWSpKZES2CVEgbvsnD29qMTci6y4PqdldWVdqf1X/83f/js8eMvfP7z1y6vSUx6tv5cXc6Lr7zMxCGE5Ctvb6yTJQ4boQL49HR99ubVueV5i37n1Vuoi06nXoQSpz4JNMCKVtVttR89fPbWT982P7HG2elZ297P1odnpxs3rtw+2O+/+MKLn/30pzc+3Hr49v1rt69de+EWK+D51jq+v7D6YrfPFbaxyMNL2dWWYyoYjTLpd7AXV4KZtD2Tio6UbMRUax71aJrpFmPNMG71wiicfvzw4T02Tb3std3r2Na1j+iNs9INWZk8Y5iXYQdKI0PKNM2OIoVavJPpwECkl3BkojaYEIO77Nu0uLyaLbPrTUE8PSms7Oz8wsrqNZzCWtuHh4tPfbbHwlfwZCXL2aBxn2B4jA7dL8dsaUPC8hIdv3hTH14jYZiNI1w0iJTcCykn/Pd46GD7pDmlpfdJr3tAQ7x2aWlzf/973/nT3/vHz9a3N1ysk8hP3vzR8+dP1KK+9torL7/2itZzX/7KF6VRyOt79vQxjqZbxWc/+2n7jW1ub9+/++Hbb78tbf61N97ATX/6bJ3w5riQgHNpZfn3fu8/kxlY6LFGGSKgyACtBXd39l7/1KfbHTVaWx+9/0G6eOBiaWkWUzfWS3RO7IXfJYyicLoQezkC5nLST4VMckOO6s9Pvnx8fThZeUKqQyrLGGl9LOvyWIiBKkV0aSeWAOTHxqZIVi9OUJhak9qp8Bp/eVnIkDIkpZi4GomuaaGFD0VziRN3aWAxwbXSiF5MCyG37ESUn4pt564y/iGpNayyBIknpqh5ZXODc7U7i7Nzde6As7EPh8ZkW8QRyEWvWdpRX84fTddcLZBusuyx+Zn6z9/64eT0mnbol5YWbSCCV5gRzPE6BGVZQQbwzdGrMX+o60z1p/l+8h3S4gD6mNKqhUWhNGDiPz9/9z1esfRbixzAYBGIFsrQWEfgIR1JWNhogbpHOySCiI1wYfd4dHKn+NA9iURAjiYTzwD3BjlQ+JtGMC2PLf6pc62ydWqwrY5OHnr+xJTL/UGJiBxS65C/gH0q1JMCG79Eu407JDpuUjAzJYHEMEyXsVfZyyUBLr3jMhrXVIe3ejRVGTRgmqc5U3CFXHOdcERebeWDcUmbQ0oEYNR9jbA42GGEi+TysaUi4xJzPQYqIM7ABCvsyRLng23nYmYyKiEYwAkr9w5ZRX4c7sJ92BTkiZl+2peSNLk621xV+jhrR7kp+4agdtspcXFxzuGJCu6khJ7bT+G4I8Meohpi3CAmHS0cqArqZh0AtJEWpr092ROn51P7HRG28fbhWYuhcz6mS+ijZ5sSurR0M8ICgcw4gCh/eqLppLlGaZoJgUiyMDhdN37piLS0EgXFM6tyBKaBfhyq7V4rRqFFVzk/OtKcHDucsqXp2cLUgpCPtnHDh60RLsARmQb7g+Oxvc7Do8HY8WDi8HRivze20z7Z7Z30Ts7W7Zxrp4G2xq9Ho0fZEI/7zjpFk5Hnk1zbrL7iYX0lVFRr8Lq0ool7nwuaf09k680f/XBrY+3Kjet42aNnT6XNXr16ebY5xYNOWx9baF65snznxRviLlQDHcenl6SoSG3ofepzn8LCfvyTn1KXyGxZZFLL/uzPvje7fHluZloUemGmyQepOwT7Z2uvA2yPttZ5FN5++OG9rcf2oJFmvXPa23H/0Jg+1pL5ajNXehIjTo+fP1lHeeSLaihW3RFy1+jyMJuXh/Ofl3KLwdhRD+yjVuNHliKlEMKTivfEgOunj+7d/eDdn2k9KqsC5O3SpCOozHgkitFYX7W+2x/dI5OMs8IV6+OJUQqLY8RJeEsp5qtOZqwutzOzK8uXrqibvXqDuNKUCw+H0uQTK5zg3NmzuUxnf/99WEyCBik0VhKjhs/jwyf9Fk2dKCSotC4cH5J5Iot/rlkbajYmUlNOF9chbGi8c9zX0TEO4xP7oQzZsVXJjr7dzKwYXEf1k07r0frTnfZBT1t9ltzw+Re/+rVu50CGJNtf2dnXv/qrX/rSr7CG5U38+fe+zU1ccta77N1f/41vfjmdt6IWU3Z/9IMfWjI5aTD/Vf0TX7z5v/vf/xAa0Ejee/99hcOXLi3RIXa3n9oA5/hUdc6J/Sbu3f3wg3ffu7RyCVu1NujfxMwUoQCbwWM+0ZSLYeQkHRcwCinQfSNQLIHzGI7zgXNILL8HaMAWKop0IAtpp3EQ5ef8EqGVh4Xf+IfvdNuiO35BRCiUJ6zB5UzxjnchLhD8jxonPDrGTcoVPzs/Q6WD0t3jE1W74eNCBUSCQR7365QJjaSPj/l77VWWKNHMjGR9mEYe4NUcSY3Jur3N9FM+7J289aOf4SZ+wg2uXl7R8/3q2uV7H3y/rwarPr+9dTAxPiXtF/lIe9jf21+0+zg/+dCZhv8yM8xjZnLa3pvv/vy9119/FQbCedPHJ+2pdvvWnadPnnPzkl6QHFR9QeDCkyWyNWNpLOXeztafPH0WDW5klI4C9xx2urKFq0iBPmRkEFQGDG5vO1hgvOrT33zrzTsvvchxXm+Ot9pd/W52dvf/m//qX2gdSTlDLy+9+AppwtGiSfz165e0ThPRNTxUKztbYSTQFv5ellDoWJaoT+uJx+NC8f3Jt8XpUWrZSJucwD1xQ0se5eFCj6fIp0+BRaVBeKgv5F1iARk0OZ91j+CLZELPwSFChFQtZ5x3bzyVWW/CtUhK3/PEoGGkGNEh94DBi0OUTL7ktPAFV2kLCWG7KhiJffuUPMa/ZQ6i8WI8Ks8GopRk1f5BNxZJblOwczJuk4dxWwcN1dMhQUzPlufctMASMRjjL/VrsdxLDELJS294gGAkrCVD3YtIiookCHcuGekV4p9+YXfZtXYw1KGR0Z5OegPp1t3+oHt03j0b2++f8ox17NYVwnBlpuqLo8w63gMY2Zc9/7G1FMCqHa6uD70l8GcAFfkhD0vjQMbVZ/kyMj8/E0JOonkZ0PBgSnEb1mGljwQrTmwdWFrJHyc3UHhDC6KBGPikcIYU3L6W+l2ZRZHAmPDoxPhszF1cG1VHM7D/ZpAhG956r3Yv2RhMsBbZG1F3bP8kWc38PV35tutb60J/ssLmuRAlGQ7OVBB/6Quff/H2jbv37+lvbFcLParsz/J84zn3DqPk5Tu3qC/Q0FPISO2ddHxQjRTJYc0ZyJPnJMPQNFtw1r5bs2ziGh/vCOZ4JIekJyu7K8/94ZMn+/YQGqnvtbX9P9HJh6m6d7A7N792KsU7+J5WEZxUyqwAdaoRJ29VHShBz3K4wOrw7wWZhbIQf2FbSZ+37/jR4eTcnI2xQIP3Aj5j2Q7ISJ47PJzF6wny/ALMUjHtOZYJ2pFvnAS+LC3OEYBUJramc66UCopi7z1IeIC91evv3Lv3iG9tf691fHbM1qEUq9OCicgePrClQGDt0pKt2Gy9dPf5Azvav/bqC7WRlw5bY62tDduT8pbOzE+fjzEQe0pFccCxkYlHHz06sD1YO+nVwycq4lVwnPeeHcrKF4ywPyeDcXpu1kapH937UIN5DllmJZH5nW//6Y0b14jd50+fIApaO6RERqamAlpk3mSVglGxOW/txfOzn7712U+98aVf+cL/7f/+f1WtKmUBkLReVZXf6eyq9rlyedXuGcx3SQTqwGwysjA78zf/5r+NIMMp1PiXFGoU4TvkBlUT/+QozAShhJ8YiT9DXSGcsJ3qe34KDYXowjLyLfIK5fpCZ3ZBTmaxPeSTu8r15S43whCEgbgENTyuaIkJW4ag4zoOUhFURfx5UFqnlqfRdjhmo/rbBUr2jk32rl6/xhSSTWpbTgG/Vc2gu9qtDa8/3+bQ1v6Pg4GWxuZef/x8f2aGVtXaWf/Mp1+6vLz6s590GaZf+Nyt/VZdf1OYDzHV9h5tPG95/si0JhcP7u8vLGmVW+f9wLuNkBFM9ZH+AOfpVTDNwVriL/ApWazi5OblS/ke11fFc9hJEqwe3n8AD/k1CC33RqA7GPQly6BKDQMBs5YgJPYhMHn91g35sfXmpA5rf/DP/+sf/eVP+KopHPutez/+0ZusLPzXMhDbn/rUp+hAV65dXVqJ36h32I0uFkuFHUYlMUCCKeIKWPGfUyLKxkGMKt99Oo+Hp+5HcrgYoNAMEpZnXJAmTVKzzLGQsoyR5MbOmqve4C+SK+eCAJCafpgIW8GVnKn4fsyuzLnoNr7BB8Ijkao8DSlyRHG5xyriUvArueElcIOEMgA9AbWw4O0loBycYAUH+TqIzngjg5bkpWeGmhI/LO9KgTqFmoeU8or7OA/rTMM4fZiNEWadT+wrExcKi87jCsp7ZqbpX6aVFvmk7piwvwRUuzSQ3IcpILU/+kja1R6RdTSsVPzJGxSoCU0U0vGS8iWf+LhFgiU+sfVApIDVIDzfwPxp4UJQ5Xa6hTGXYSf6X333iXe4MiEwmijXFjN0INgw3hUmtU2tLA4wGBvo1UgImYE2U2jT9aNDR5SAyXF1rKzbIXs1ck1GJ49j2rOkBhiLDVDEYyDkwMI5rCK8gDByHLrz7S6XHCe7UPL2bkcr1077e9/5nliTvUolRMi99PLGRI37juONE3/jyfrNF194cO/R/UcPjex3f+u3keXP3/rZ8+frujYszC9Rw/trl8kM8kWvCP8shKATMzTwOYuVl2YuA85V/jucYpCNN1MTORU7RtuK+dH+IPksuDwRCAP54jAUVEUqyPPWHJ3YoNrwkaB54LXNlStN1lFWAT7qGWP6sa2DlnpbrK5euWpG1FKOFBwII4hTBSuj9LkdNlbCiZoF87zOkJrTaV9UDcaf8cbEYZDFpflxF2MlurALYFzUL3d7VSDWSLxloi7DkHaf6gIml7Z76JzKBQ817/zeD7/XPdiZn68f91s/e+uH/xmP9GF7ZrLWam1znNcms3B77T0PxHFvXn+hd9DTLFP4iqxCQUZmb07NJu4+fqDWefHS5frCYvv9D2UHJCRoAxjOz/qo3nRW+97992S3FkTgx+GqRWCwlx91am5m0QQxR0Sg2TE3jS1OfuM3fuPb3/72D/7i+/zx/dMe9w355zaBOjtzM6D1Rum120SOhSa6PvrwvadPHghTImM8Sk4SzoPl5JXhA4rWkXeUVZ+gEcmRahA8B+vOqlUno2mFA6EwlxUiCj+q/s4XTv5yJaKKYl1oK1e63haq7BCcLwkQHOQaYiWtgUlNrIc75MbyItwPXlkjOoplMrRyvrigomSWfGn6+8kJIaTgb+3aFZY0ccWFi/nIQyE/bNXaPTxcXZXlPqkTdv+483zjySkN5MyW4rNLK4s2EX66/rQ5zZU9Kp+l3V4S7+TwYx4ZL3QyZmS4tLpE2QI2/2CK+CU+ADPVQhi8pWH9FGmU9HFyCEcP+9a8La650Lh5wV6T0wFOuFYF1c0X7rz44suLi6tMAMjJwHrps6+8/947/PM8Eyr5zdcRIU6ej3Pl9bd2dt96+x3qjpxrSq1N8n70kx/vHXSSL9ucaM4SwMfIjZkDAtD+O3/67T/5oz9Wkfn3//7f/9a3vvX+ux8YXlqQ4cooJPw+qWeVqEqiRbJr/aecMUVLajVD1hh2Ufl9sVQYe7WnV54CK8RtypGlw8ZKqhW5kiWHSwVFwliwddgRg8hfrjWOqDTZDpMXOIhnUTk5RxKQxCgJyyK6xJwECRzw0eEqTwXS/OUP/pT0cPI6iBnCAXkDYdRybMT715jDcDEFD1X+j/Fkk48RgZwJm/DywhNaJCK3ot9LFWC4dEIl+GJCDZi0kSvASmIerPXuIncjDAmx4LeRacqXjns+oYIcU0Iz/QZJP0MzIFTISxS2m0qrimxiLsEbQhZgq43qvdVEAuJy+JMGEXgVwogwL0fAVQjLjQFKCSW6mMULdJF6kJQkJTmzZIKYyoxOVcY3apzj9D+W4ondkWkAElAKOJ06NsTTSTlCBJiu55yogp+eDglZn5yoQcrC52NlYwzww0KaArSxJXx0tIV5So1eLvC41zpgYmxv7sCgKGXZqFgccWBIJnjz+i1yQtXkH/7BP1ezq3WsNvL//J/9AX+cmYlUSsQg0jjFKCq85/HRhD+CcJyxRpQQgVyoo8Pky8YKt/JxHYOfiZH74vz2fJ6cbJwejxshVYGgguPAD7l56gAMiPA36KTPHrmTUoLxERzWZaAQkTPUZ+QpR1Y3wckOJxA/AKtJWl2Zs/uV6UvUbkzNSM6CtSentrmP6uTBMUnxznJQjYrcsiVE4sTkGYKz5/ezzR3mHebOg6S7Wbk2axyBhU8mCh29ADqQeAYwSfWOpjWHx2lg4UXbz59vb3HmPVSFRU9Xab1/3NMMd6o+frC3aY/sk8MlJeMWin159P7h5t6mAb6VdvKn0xPNucYMzZ/SUdqPjfNektpUVtCrNefW1i4fiocc9vVS6tRHl+anF5eaPNYMIWtBZcmubCNaSeXhmI7AXhWLtcPT0sIc48DJr3/967SQ/+T/8//GsbUNYVXqHSukIWAIo6yvhCTNDLRVnG7MDjiXJuvtvd3v/PG/+t1/8280F+clZHISy4JBwkaKysI5kF7wL9iC9It88CXYiBwBEMQCx+IYD42EZCrvTjmdj1xGhAerQ3Y5EZ6Xo6rogR6IyFIiUWNIMzCPdb2nWanciL/l+upR6VBslY2hLFncwhbRZaFgunV2aKMk0WZPVJ1xQJAWL9x+0U6+mnqAg2QcRvfMQlO2gxt5FykK9ua4eS019dTAja2HFF9ZD+QiLPJF7p63IEjbW3oaoY5brl5aHpxOCX+aDXESlLZVe7drtGxfAtV3fA9ThUuKwoi3alKFr1RZ+4n4CLBNj9WMMwrWVP3GzJzpaxcTXmpTuHpjjBKkXQtDP3o2fs/jTRzYa1Dawcnz9U2bpUmfmZ203fYeJJGhwx3u0sKNtV+AAnFjQH5P9kb5OP/gH/yD3/u931N456UhyBg0I1rbKUE9k4zPCSg+IQUFkaaIGuh5WbkhsCnsNv6GIIH/RKYUeYV5AZZVykLECeRfshiycupqmfBZvhy5OTeJPOV7VKFcFKTIPwtYyYCw3AQILKmjknQRfsRR+GL0++AUMyHWAeqNV9Phe5yF/C2SwIPM0DQiCzLxUeliamtVEgKHzpWaqqUjA6F2NjtVEyDhiOeKIQqJK2k8xNX5sIiFQZovtq0kU7KynHQSC3mQj8AhppVfi2JnaCJC1onCxQXFAiPYUvdsxfDTeNByU+QJQKPw0q8iyTUGT5wFsP5femwHPsW6wpYykTLBjyFftJ7IyoRwXWg6eUSgFbKsvgKnpQr8k0MdSETRjAk6OOh2GAhTRdGnPAE+xhxgqnA2wkLKhj4xfCoiw4BVAjhQuT08xm8kQ1uzRk4s74ylXZABmTIbogcIGef8IL0uxqeY3OQW8XN6vEyxe+3VMb2o+90OpERjk9aqaMeYudZE6cs+PLa1sfX00RNLL8VZThSb47h/srezb9noE2S8qjjxRmvMx2kFWIJcRgYQY8dkcRAUYhFwFcuBvbH9NCxT229rj5m54SO+gBGPtSvIYV+BRPo6YscyT5Fu3PXkAPaAy4z12VjmF/U5eXVnGgdy9qbrU1GTsS3KLBNoYkIfKbUxqa06HnKOpzzVLXKVLecvr5oHm/vD+3eRDBsOBwcHDKIspeBJTdQBM/KrYZgLPPVJWiuRsT8AxPY001mQRKrzx+plqYU2A3NSaS1B3trZOT3pz0wza7I94ONHH2w8eyQ4Sygf9Vs3rq6qSyZBLfoM1+XRSbPW0Lu71z1pD7oS/Q5O29pHxqbpqyg9Z5maOHLmdQVWpYpS5O1WbRZkRivtkW0lY+M3vo1w/3DzqL/p5Uh75QhlX1IdzoeOdIgxhjsvvCEV/z/+f/6/DEZBhBgl1yVtR6zEM4NRp6e7+v+LwCisUGxH4Hd7aFQXjzc+88ZnLy/Cr1NNuM60UFFtCm4lEAfXo3KHq0RYREbhEPCw8JhIlAsKKqRKyBVjKIRSGJCfC0cqf8X3V5RnRB2OZLGRUFCAliTlzUsxBBpdockQS7ko1+XdpBuVOP2hFfyCG94ZW6UoghWp5pLYWHm91deHXmTCih9PpBdGe78Fi8Zmo9AQ9jpm9ftdtifLX/rEwtWbUL82XGtMr4yOUx22R/dHrfvR0Strq4t3t59rVdjpiZamvHdjc1eC1vUrlw+7G7qO4fRamugpeNBRWSjJo6Ykn1FiPxcjhvvoV+meMXAwGKFrEJmFjt0SF+LwxuamtGnbPNrI2JQWl5eqJkkffnQXAUJCjgUkbwM37Eg9PAQgQrBTHaO3tvfu3ns0O7c0fz5sE56Ddp9EISOtkQFXnI+jxlvof/7hv/ABBBwcoRFX2A7ICm9EqMlXATJ1M32R54R+YuFaQEoB9ImBhe8HIcykWsXCHKMv+NNi+uJMdWRJouSQJXikpXELNLCyPrFXQjjfgz1BJJeG33q+ozzNh+mPDqQ5qFkxs1JS4NUpSpA8QuTFbIq48jTf3ZjYDVcexjkUTbk8J+czCzybBUk30qcmYwhbz1Bx2JEhsT7mc6NsGGpbAETodVykKIx/i0Wl0CoCJs40CZeIFYtnyHlQjEHkijigMv+jPxAtHz62rlctx5Eir7jDKQWkV4R+5Ce/3Bk3UfxuERoOwzHgjLZsg2RB0tgAIytsy0XhA5VmXRaymnIlrtwY9IoumflWzyGdqAWBLfQnRzjH7ACq1Q/XElxBdMxRdtG0ElFmlhJce5IquE8yaa108hgf6Mh7bhMwu98ckVWpJcYjBHAn0oVKLxk+PG5jPb6oCUd9swBgY9ZMz0hwC2hD9cF0OGdAgByw1YhVo490+0le4A0ANdmRxo8537xxS2BNhwsbLA0YLDcRZ21pfunOS69EAZwYo3mJCZlPJpoYYY4stHlih2HlRY2lg4faopSQ4AZDI5Q/WcFH9IsFs9fWTnANbABPYVN98oSAlCrM0IHInkpqeHjBzGjWaCkhTgTs3VEfIfCAurq/t/Phez8teaZ+IRpVWSIW1U5JWVXzgBSDEoVhluVVxtTFZo02UCqHL3DhEHYU6zkrSG/I20MSkNOz0DYglKQsW12uzczPd45OtQrk2BEGd9ADFLlr5j5eKHJne+vJo8f91rZo2nio/FRd9om8kcMuYT80w6HKY51NWLC/mfrMYFx8Av1AHG7vlJG1+l0kjTKGUilBrogi6MjT10lGyoZmBdn2Uq+nSQsCiUaOxGZLEvYEoT5m7/Wd7d1NdvREo7bx7OntW7dUG3/329/+4MO3+U5b7Vppo9o1WddAG0zWSy0aJxNkP9K8cWQcK1OcgAL/8i++d+vV27NLrDTpMpQ6n5AADIuKEWZCZYHu/peEPZzLkArAXeZXn0GUQiDgXX2/oLgA/OLIBf+tAwpVpAdj3elXn76XhxVy89wYBN5QWFjeFFFEZpTXxCBGoNVa4ztRWFOEFF+0hWNU6QNij+H1p894dKnOHDmoyf62GJRkDHuYHgi87+43JtLbJa6CseG52YlBd8BxenS4y0gDawNDXC6gBsGZwcmmDV0uX3tFf/2BnbP58I/7tHSrq8UEBsPvagCud7jXG+FY5+CAIWACRutM8KMEX+NMq8Xrjisx3C9dvsJWJspcxhyk/6FB9gzsibim45QtVyhrVkFnCW7DJ8+ef/FX2GANTre5hTlZJHz1dMy27Un1DbDvq7SU4YTJjc1bJcJS3eA8r6mRUKlxH6Q3lHhziR8YnJxnp1hU2LGXU42SnXix2CYV6eI/jqxxWeZq8TBU0jhdR1MEAFPOkiJXRBH0sn4fE63bLa1/zlh7kApTyC3JvcqCQwkvCRSLRw/fs2yAFw9P2GACeln7EmfyQ4VDkVvyoggcD688lvFthWeyNGnbJkJweUjZ2VKQ2p65BnwGInTXsBcT0Gwp6pTJC1zhMhqeSHno2gRccaVUC/nMvHmIAXzIpoyXapkRYGEEVXEL4lAoNsZldEtCeQQGECgkP2tF3z4Y0O9u7rY458zSVMLe8wCMMEFan/E6RIAHDHqXOoDIXK1bri/2MnA5uLWcCbRiPgWGjnjMOLssALeJwpQRhVXy+PpSkkYOO126cndoMK8Bk3if6PspNjxRAtfMx9HTsRE7DxzJPCWph/sHrf5gtEOgaSilYceY/L0k3dYbNeKK2930x4/gZ4rbo9JijiBtXYt2LHoDTrFXXQgK6I/n56A1PVVfmtPN1hbytaNulwExGNaV7iUklNayvZ4NeoVb5anL67TmV65e5zmBwUqOzM58wYeOVabIjZyED/+gRzF+/DeKPmzyJ6AVJGG0Na3J3BxZERcHtmOp4/iWKk5nCjZGMYB/yYelMI7j1DRMa0FAe0E8B/SSLDN7WCaDTJLN9aEpXWJ1tDhB9MltGRprWaLoZ4mgBvPzqrKKSYuNYJBRWa2pWXi6GocTuCsQxx+dBD99g6e07+Oisfm38YMD+xIHNHF+lfsffaRlre3sktORIGupgk+l7+k3v/n1+x+9++DDPVzPw4bP7Ag1JDY7O99oH5xPTYw165OQRhKi6ZqalC0obzJw3tvlbiARiZioH0xo8vamBP92MicpZCxSTHOUgxZenJ7VpvXanEp2InwwF7pYaVQ6+PGbP/zo3ntQDt2ubzx/6YXb2oHfv3sP98Hprl+93Ou1q1Q0Mw3zhzvpZsCYFHPlSkrsh/jbN+apxk9+8oNbr7349W/+OugBLahaLGtazHtInxRyK4VVFPaB7HKBURWbBzZWbCtiyrI77RWIt2BFdRF6Lte7rygNYU2FmvJzCB7uYmTxj/j0z8/VP8Iq2ljx/eTxxbBnk1jIMLgglhSk6GfAU/GrDKJIPqJlb3+HhsfW5qQrDoeoYlLLvGNnZ499Hno33LGxg3aL11eaKLtUdeeDh0+FXmWSMn7CGyZqjA1XegsbzOu4FjUpECbu2KFvyObXNQpHolcn5wxmhgvO5S6mici6lNS4BSZopSBnyOmnC/UppHIrPA3ppVS0d/i5z33ud/4Hf/3+vQfkEETl7Vd+/v2/+IuHBwfIyZXQFfHwDFkUbmzKC2qUuddUdzk7/+DxEwqunrmyXqGUNqvCbKNHw5O6Pcl/7bZNgQPFc0hKDye/LUE8gVbMWJ2NQCsZUEjUdTEWSJpIkvDLIkLCkLNwH9vIkVtFLJfxZYgOo/dZ1p+qWw+UMXUstBQfBKE8BiNOBMdcilywmmHLGE68je4tR4U6Xpi4k8Jesb7y8PA9Hr/QO9szUuyiggpWuBCMgZULh4O5uNMiroI/qQ6eTIi65Bozium/MrJtCTU3S1rp268WHALH+xPk1H+CyntOxZa7rMg8/bazU6dmuBAwDsCIkzKLyDbiC/rhT/hYjEapFqnQUjUMF4jKcYkaNqug5XT8O2jt7+5vrm/zVLkUlPIJ4uXwHfY76SgnPNCrMLW4lauTEcBlyUyOEQvmeJzPIFkRXemVKMrK5xgVlFEX/dfFQ6cn40N2gTvReWNCT0MNvyfPD8fZsIP56QbGZTHOtLAfPdONmVg4klk+FncAN1J29bPVwUS6+GK+9klKHi4Ud2W9fjZF0eZMitwN0mAQdFxAzNjDF3iuejpId9p53OGxOiq7ZK0sLc6K8Q6P7DufeqZDvV7WbVXQav/Zd/+cQ12NDo3TpDSR09LCcxcXlvnlSSzXZ1LwiCwJ5KNh8HO4mIwoLNiCuCOONToAF6RwHbkC04icuCD4Rou/IyQQ8RQ0TZ63zTsTmuITzQL5HuVNMkrRKvw5ph8lthbJdWhDiMurEovrKAiy0qjovwzB0uI562gR3WKAuLyR0LuhavkXNgStKaeJysr0YenrW1n0MJ/m67F2DHEXeBoPXo/LrItR7baebu/ZSMKi07dkrPABqiddnJ9hIO3u6C+4QZuO9Xp2zK2q6FAZ08He7mxjar7R3NndsZzEuVg7cE3WpwUkivLFBaBMa2xybFqhj7a6AsiYAB4d/prhA2eyS/E8baf4S8XsdfaJIsazZyewSB7taUafPH/SeX9fsTO+gbj+9I/+crJO/Zcaw6o47x721NMYqgiC+B0dxdtBqN/vENYQBn1j5RidLEjLPTUz+53vfEdnZGKXml8xcStJV6uN2gcO6YbJx7gC8iLJQCyY8TF9FWliLdi+PrN45hMJlyMEmP/kiF7omnzmhwoTMJO4Z9jt8KL6BxTl+kK8+WYMWeugO8WzuG3LBXmF8z78op49AyxyNWonD/zY+P6uvJhFTImtDNtu335BH/67jx5YAtvYQw/tNDzho7v3RcA//9nPvXDn1u7mszff/IupWkMzlCePN5YXbsGETneXvpFFSqpULRFP3eBqmsaSPycL89P9Z60w3VLrqR8NSFp9yAl1cVeY6V1GHtCEtUbJ8yvq8IX9u7i6srO9pwiSNinBfXZh0S2Ma/vF3Lt7V2Ouk6O+OXpCOZJNrv7GasijYQjq0lLf3LZM9ASZfB5S4bNO8TALj6e4IEjI5gpLA21gBUGOhwiep0DV+iX9NJHAi/oe485yfQz56vVWAiG6zDh8Gr35CMmguwIciEiikFXO5ozEBlfmsvBh/49cpOf6dAseJ1jG1VWEWZ7rqYSQJ+eITcb7GYvSYKq0CyYRayh9LZCCvr/gP65f0DCngCMYwtwVJxxKgjj4ensiNvF26j07ztFFMUxbNdkp4rviS+kyMbKwODPXnFZqJbYxWRtIhZN9KoUDIQlrsUcHJ127SQjkDyWuqwZLmk0wz0HZsvQwL9MrfBlEwt+CuM5TZOgfbrGJmdBX8hqSUmnyJZisTuHoOF1HzdF8nffdioAgb2ylPZgXjuypJkXHcUEFf38CMkC7EZQqs8MZ93pCgGb8RmhgaNLih6vTAFwf7OzITjw8nBwem60PzdWHe5BlcNTeP5OirBcqHybGLLA3OXIu3U5xsXazGs+yjqgxtDP4DPLazCHhgCIV1EejeDXepXo/2+zgIKyWY0Pi484Ez4fEPWbH5zm4tzY2D/oHLpMv+HT9ueYUMBBfdTE3T5UCTnZQOyQxSnxQSw+Pvci6RCjHjB/itoaiejfbYMmCRIfJSCyZxJBszAZUvGBejcc8fvL4QLbH2diRzLLm6vT8mqANQAEIUiXr/QNpmRQ+u91qw2/ymssuXJS6xLXPFDdCxCuPD1a1Dg9AeW/j+WtvvF65LG7cuFVvNLd392wHLwCF2+LvVhDArRe6IKadjOfESAtzNDywiriSYSilWEJQ4RFelJ/S6T34QPjJJpe8wI/vkxouJsfGFWDnHvQEm5hwDAhpqXLe22k/fviAFppdb85OVxYXKGLyzrd3ty5dWplvTAmQwDwqTLYenZw8suUAfB+pkY3qhVnMns/6198pEYizgW3fkCuTjmzgJsf+OCLELRhJQCQ4iXKw/Rhq0iaVSMAheyvXGgenB8wjVpfJrlwaLx7UuCU4F7c2dzlLYSaFPVxCSxjuZdmzCeCmd9zRSfyEzF59WDl/RPmePHz0j/7T/+x3fud3XnnlNdqaQM/09Kzx241sano6C9dDpDHTEF/KN1jLYSS4i+cF3H6FRf45CcI+nfaWoAo9jfpNf4jjJ+zIAfIOs5ZFixvhcPT3CaKcN4FZcJqijTO5N3HaY/FCbl4StsDZXqUM+owSbNeMtEEIAaKg0C36TG8BBDti+7ErVy6r5tze5K095JrvtFrQUgMuHS3tEtvORp0JDaB0MsaWz8+ebiKVK5dvPHnwM1vuSkjqdRWGhid7LtzhUWeUPHr0tH2wT49pdyR4nozbomHohHPV7OChvHkNoN2iboW+bpCwgfiBM8ojzE4iIoRwAUBhPuahKSj/hD+l3XNgbq0/R5iQW6GCrqGACRWjNYBf8Uw6I1kfVAB4d3vv//R//D/TbwTb0sCH2kFWY5zs8smJKIopmeV6iRNG6StvkC61ACooU5FFERZECP3b/yjv3iTEgDnhRVLJwFbGm+8GgOPFj1FW3TOy3qDjvxbVJ15IZsA1zkPLVo4wR4PJrwRQeG6MhmhBvBMpfyJk/QUMyVEgJy7MOIjinnjmCj6h24oFk2e+V38KAdtdKUIBfVCYylG01yErYT2cR+jUg5wE8rGa8k0mGjTN60TusINa6lQ8NJwuGX0eNGAeBK3MPLuKcJvz5PjHs8cTQvZIPnMxpPQK0tctwfQIdWelivk5U8IqWGYs83G6QpVRSBdnEmTMJb8S9I26iFVTxdf4ADMdy+ZkdZRphZacT95UNPRwQH+G3vx/ZISGkv+ErV0c+dO2XvL3QncxEqNmRYpGR2N46bIjitUYo62PdZsymAlZG84mz4oMM3br4pUhNg38VUyPD/E+HIl34LycgtJI6B5jRYc0UAAKNSl1sn80JAnZeFHFpmGwdoigjREERGMjtmexRvrmSROfPB2/+/BROqVRL2AO446WI+qrdoTLzeDPk0BlysYjXDx0VuPFwyXRFfqn9vDjQdQQW1aRhoRkzXQUrOAPAk3hoIaH4s4nyuia3iXMA5v1fkqosogHAw7ky2GolYwxcq+4EDZByGycRkTx2BAv/fbw/fsfYiiY+1e/8hWF6XsHB2ymhaVlFkAZuaS+8GIWkofHM3M+MtWYFLuyPt6YZSpMs/rkISk4yRbi99BoWL1gNuH94N0PQAsDAgdHGErRUaams+9isuEp0snzAPNTXu2nD5/t7W1RurHV2ESpfT2TD3br+o04nXTL3dlnXc/NzNDs9/d7MwvLsdB52kfHIT1WH3kPh+EJ46pRkxcB5o3GSGtjTyu808M294jIHWcxTyOH6HEvCqhUASw4Xuhij3a6RKT68vTFdwYuVdMsPrb4wAXKNbOOtcGeLRZtmgKIno6la1yeIpOG+iPyarsbqDUy+oM//97Oxvrv/u5f/8rXvrq6dOXAVoQ729zI8UnbIIpQKZtTiG7QaaxnfB7QvnCd8BTjg9Fs6pg3iQ2U/+Yv6Gqt0XAIJTwr6+MOf+LIhgPyMNzPZAbEEHrxOGsUIz+ulzC4IipCO2iZFzSajaboOBsvC+z3FgHsRCgB12nS+QxfATlrZNVbe3vKFPe1ZtftaXS83enpFCOyelAbHfQVRYJ2iOsP//APf/VrX9ndfqZfjHghs+ztt9/52tfekAQRmF0I53zzRhozzUxV9+xM/dLK3JMnOyJQ0ZxHJ5luIE/TqlDR7IJdesIpxAvms2ek48eHSZ0y39Zh23cpPFIZK8GJIQu2SeF7/713d7a24gkMT0MjaTyP1kHfgD0n3osSi/IE5GCJjbO488LrXIBp+gKkSNs/yxOIJWoYiwjhU9sA1lUprwr0kpUbOMoECmuLPyWH27OG0TKDdpE3hX2GDCAVhpzoFpdK0IIQr5DDSptjrvfjBbrkO9TIJ0z0pRJeWcVIPWKFM8p8gldFyhWUiQvLGY4WVGDyxphML9IYpudCEMkiuYZzg4ij4XolcKtPBFZfqk+Px77ABSqnm8XZmDYCelnrUjch382QmJtkdEmW081G/EKndoJK6gQBA7xkKt8AUOS1BS281x8FPIBHVQAoA7ZmdI4jACtxs5ghanHS5jeehOJcIpRYs73QACZF1ljO0BFOJKEqTwzEA4e8Km9xZXUyfwZINKn8urS8AFCOcN5qqcu91r8I02R7x0CPmMW54taXQ0Hg7A71t+vDy7MT09w5p2fKpbE8ai6tHG6Mj6F/lcRDkrI1xcjmWQm+EZhQCQPxNGlSsQItUOBRziBf382luE2CiwbKnSGCyn9kcUWDuL9SmzpVz/R5iqR56W6GNQU74ZMW5pwXnc7GjomaMm2KNI35HjsZI4mPgsxge0uQoZpRhkqgiOOTOKcjew/ZElYFvyXNi1+fDzMUmFbLQ+PN/snosULZOOhizjpAz4sczsCWirqsi5f61XlvDC8bGsiolRLILdRp7739szfJQa+yx6AeB3Nzi6EkWZeNJgfw7MIqqQwangJKEz2Vv+PS4Zz0FodnuresXMaLWeBq4d2pDiaoFIdyoOz2s8d5irc8ymU8BNhHXOHN+boIQLOBz6pbZvFIAoSfH7z/Tr/XklWhQZlgweCI77mVmuKJic2Nzd5Be7rWIDUlr7PvRyTYTEwjF0SKQ2SDYQw9jvQyROtM21KFrHexxloL9dPj7eG4x/EezeQH+0fbR4ebBK3l7nUyLzzB7YZasR5LIYTpz4LLwRMiAxKiMjtwxhYI1/futDTF9oGTFsnH7IEu4kwxNlm0WonFdTs0+PC9n8mTl6//5S9/dWF+pUHd1AvARi4nWjbXoVfqRO1EJIfQLbG1zIBCGbcgFEZHtHUvTKwprC0Er8ka0sCR4GvhZglB+hNjMhkY4D9i2/y0wONdEv9tmJJ8qyjc8VwVXT345v/ol/En2Zy7ipN2e28HruJqoglhC2Qw1SJMVRaSTCS5nClopzQTbyhMB5Xu3p6p2mkYv+i73coIJwhOjack/OCg/cd//K+Er85O7NezS3fS30PleGBbQR9WJwyBkCWR9yanjhiyCrEX5mdwCFw/fNfrRYbaLUqtYQyf17EmXFF7bWMN1aVwNeYE5Arj8MzaaL910OC6Pz3+0Q9/aJsyu4Bub9mAYX1vZxeD4QuIpziMwJpb9IgdGrDXeWZETdZR441JMaoWkXE+EB3gcMJR3IaLuIHeSFljgriBVeMLuQ6qkLyMKkwth5m6GlRRft4TTEoKXoR0UkXO8ZQApBx4iv8GO4t1VL7408plvG7NOMva5DoUfHEb3PRThhVZ9fGRBOlk1lUZ39VZCMZuw5iodU2TLXpWiNn3iyvC38ogy9+F7UQ4GTQWwHZC1VhPYTrssxphwWVEQXcF/qvOVAmeaPa0mshR1voRIEFBAhso0nndZn7ElTS/s8N8kSXop1RsmGQmEAiU+QcG7kxNrWxvcQ4KhafBWl+gvEkEj2LwFnqgjuFfDmyx0toKsobFe+YwH385TCt/hp4j480FnB05U+JV4XSjozLFYYMvOY8sPz5EUMJltc4KcXhyfkUtFpyvRHK6gp6d/e6u5oFSZSfPGvJUpKLbu9Jy5GHQWkxLk83a9Nn49KHrk1rI7qbqeJjnZinK0pbPIDULpeL1VsoutoBvRTgQGBw2uPXQ+BPDDnWHP9zUiX19QwKQ9DHclsOFaDGPKb7s0VE2mUf10w32iAPKNU1tqBPNqWM2IMk7xwnG+25GNDlcKIDBIKMmE/nctqyuAJD5Mak9m0rY2ebJ+WQapumsYa1YwSZRgOy7L95rzL7jl+wYygNN03lC2RISjdqgkVcaEW1tPDtq7UqPkKnDYJK4L0+3d3wibqXdkkdz1k9OTbs9b6EYzcqFG+wedICCv4v4qVbNJ8znOeW5hAFaRXgaPxuj2UG2UWxxRVjt8DQHfT9RroUlQks2IBxk9NfCYUeePX3w4Ufvki583rbD5jewvT3ZoD+k+qfOQQeCTzZTINXr0gLsdXRJ+yyUHhNMNik4wm7+kZCC/yuC6k3Xk0h93F+fXlmbWhAUmRpYPJ2supr0U026x4fcxSF37CoeVuydl8UTS+5RaWgXOqF4gHEcHxDAp/6S1gtw3VWWDXmQGxh5mE4WlEYma8CqUBlOj/r7a5eFLc/vf/Sz/R3VZR9849d+8wtf+NLxSZ9pAm04SNJYRuGK1KbiyveH5S+EUcxnUjHu37iTkEb07fL+QnXy8j0k6myh5jA4WI121MINj6gk4HZuoojCT22QWFf2T511xgaiJmeYSNz0wqLIGYt91NeI+GwjCZMkFJkP8z01bbA5GwwFWzDTkTM9zuzqZn3jZZH/7cBE0BYMxuH1yFGwwYesnUPqAsnK/ZWl+cmJoamZKdE+mzljDiScF1m/YHJoPWECCRzzQ6cwgbNyfbSlILvVPU15CgIsG/HMxI8atySa4r85HGI0q6wcg3Us5uxaYoFcYNpn5zbh9HDOYqF/i7X+/CliIauErPDiKExFE4DS4wKjVIHM92IFrCqOZ3Q8BVypvY65KipLl2S3eX163kVJigfeElmf4JKXh62k/CnoiDv79LLw+CBN7BJTLX9FtaxOui1aRjnyyKi9+H+BDXsHYIOAZQGCguGzbL3qZPVZ3WoQ/vR8X/wLlPLP0klrTgjn4yNshAfPL3ZWNbHy1GJehpLYUTblRGUZsBGSRgAn9uC7F+U7RTy88kJcuUyaETurUh7wbMobhYXOWTyB1prPNHnqouwJtPmi8zp9IJY+NyBlgUVhvrHoaPOGn3mJvae7wYVELjPNNfmXClTOQ0wkCU9luqDtV6vviH0SQVRUs4ix6DJRP8WBAKESyqBSQS9AK648X8r3wlaK8bG7veN6r8nnxwds57MzDCqrKXBZ5JfoBewjtUfoUkrrCNzd2e/PszFHxzrH0oelfKEbmlTeYopGiAdZGC7EUQws1qG3CnaM25Yt2lSYQSr48nr10JBvZtYnzMFVGbi+EFd8DuDKY+mBFptGYZueWFTDwwfq4+Wwng2YXYvMAb72+sTQ7ExvTBcFhoZkzOSCNEbjtJRBPUuulpkakcfQ3mEHzKCFgDK0iSabNK8CabM1OgMycOwp3nDJjyp9hienYWB+ABjA9y1IoqnS0FkqrgQ3E1ZJjwDniSvEpvkEtQoObe3v3rv7PvbsLRZXx8+5+RVp/w28WQXD2YmKSNkQzdiW6bpExniUWisLHQO20HBFYkQyxaLXbs00G7gDEUVWkVJeh9lKYo4ILUjuITQwnx4oZ4gbkF/SIeEAxdGJpZy+8/O3Djv7dKz52YX62Nn2xjO5rytLS2Gfhyeq4RlQErE6p4fNmaXpuSU1PG2WW4rqsIXS4ISqYsE5t86Hphma55JEB5PD3UsLY/Wx/b/5u//Gl3/ldbDhsCr1mTI2CK1k3u7ttIhdMj4tz6Sg6X1iBYZGNDYxawzYT6ymUtlJcdOeJysE/CQDrT5ashU1k0EnBZK4UowU3abKQrIVJodsrYYB4gmd9uaf/cl/tfn8/tbG/U9/5gurK5fFpAHtdNCDVCU+gcOmXCNoW6BdDcZySYEpCnPUlFBffg01y/O0RtwuECLsPIZGEuTEqtwiqkfFZVnB9BgedgxPt4goMUVp9gTyNSy1YqdYAognm82IE+TGMjLdMI8UkcZDGOnEcXCu901yfjw55AEi53r90TEOCzM7BhkeL2l69CQPwaboUIqC6S3ox/vuPrhXmxrT+hOi4ujV4Y2yyfp7e0ydmo6QvcPNjWcCk4pqnbBZRCSbjHnsF/8PmNLojhoHX3lpeETGTBATtwx2L8L/1cmnvtgE8JlSJ3M26KDeTsuY029oTJAhGA4nXWFsWAXJ68PAvMEbQy/FNJFyHeoDPbht2PH+MaRDE0WlDlVaMu93WV7HZMY54w0l7cNB5GbwX2u9g+RyxnfjpucAuWWxI1HUHvcGpL6E6Xp1lijKRYZRZo2ZBRXQm8/q+Pi23JzJ4HDIy+oVRapMDTRwXD9FjBUjJvSHh+wf7JSHlMlF6YmYKtRkcnH359DsUg25jT/K7pOKq6L/o6FgFowKKQgQk+/OOSnfRXLB1Eh2+qFGjwxrFcy2K3Z9HF1EF2wLs8Th4F9kVeQKOZ+pGGHmXz6hPuU+ggiYoy05KliDUYRZNLSywO4ovxpQLqiuzX/dXeImZggs1tvJ4HdAFFhUB0zyIr+W60NjlKlyTaAa4BWoOuPAlMU9vc/iB3WKgWYU3lQ8ev5GHDLRj1odbShP5pvKaMY4YMTLQQKGeAhtS25Ot40skzJM51EZ2z3pU0QB+vy4TnSbkZcL8aFtwPfJPWMkvkaBJPrVe/UOO0PDs/NzXLhIwiLb2olS1sbITk5p/dnE/tjmp6P8VmiMC5XLRcso+pGiEQkBiobps5Kwa/BVqCQWVLzadJboNJp1ROup4F5xkOjURh1AuJpDkqmXWpf8LdDTOcwedMZZAbOsS7Qosy6aRNS16lcAD0CBNNhBXJPqZ+vPHj+49xG+YxTCS/qRay+wdOmyDaxqk0PiFlLf7ZXcVuO134oXMY5eOvKYrolaANOfKaTOELN0WFBFLHvbe4qOddMpVl0ASDJ5r+QUEIbhldiD7EaeoCtg+xecC+2B8/b2xqNHD2RJzs8mP1CGtNomW3UwvPYONGNNOg/SiJOcD7UxLevWniRcZpEVYtRxA9gCkBLhuWrWVFzrHyhM2OV5UmL+ja++/mtffXFlLsiZnjB0mDBYZAPApQZLlmNpEgh6UDeYejbU6nTBkLw3S76EZB/FgayFsVRNnjA5KTpQS5jONcoiCO+QUDHTgUIfvHJ9HqBn8aEu0RP8eWP7rf6De+9ubT1aWVb0DBJL6Bq1ybTH+qRsxE+Snp+pbQjvQDHmiE8rQA7PS+574W4smnwjS+kF5g7aRp5PAiWCxnxx/OHpKStCGWtaJmsmDYFIKdo+Kx5byi2WA7csVibf+WF0fGcMKN7aZANU/JPh6UbfMTJzjf83HkmsCcPg9oyaw00TFj+k5wA6CzZTzXjEr1+9tLWzQ1NjIMnVssno0emQXrSeYxBEbUiSuspampigDInaYub8OCrhYroFn7OvtbVgyae3Wb//bG6OkgS8PKl6WU9DDTA7PmPoq1nHN5pNUUTB6kQuoLOE9tboaLW1hwVPFhNxYaasRg0y4pA40+Elr+j1RJczJHIiVBTGVaAWngiH0RlsSYOSJBLGJ88pWqBEgsjfGSo100ITYYtoO1RZHod1WNnz424/2ioZXz6xet+z+unfQpBZv3BmRlvEnpUI1wyph39Gl/E0I8niXdgIGVgObylHatmMrDrjM7eOjPZ2MYIYP/765Z/ckjO0vayHXylPngCveO1jUaFejl9wpD96LAllnaIXhvtHnkVlxkAb1KT4KegzUtj9wG8bJ1RYLUtrKPwsreYilmAYH5TstiRH5L1gHQFtDv4gYTIkQAAFij0B5BtuVpT0xG+YXMUVJbMB4RVvVZU1e8ET3e5in45AwPdCIQjmE/0oE0/kIBd4vVlkLdNqMuvlPMBf3O6a8h30KgCm0IpojTgJGtFfirjFylBsqNFDyQ2acYvkOOgtTNfmpmpJGDw6zaZOIPULIzuKEruUaj/Wo8ofcZOZcZfLWz5e8r69RU61m/DRsV47O387QInzgVdBRkBWpCy6tQu7CqOSdWkD5ijR/BJYtrYhfb5siWEKgEbPb19b0/RVD2/+LkZwAJOOgNHUQIAKbVjh1FgSDuExMTjjjymqOfjE60tWFZKRM2YPqFRHqvwCOVQMnpAoJU850KCVdFfQ0mU+43WkUfb14TZ7TbOi+vMma9n78ME9jhI4pIWe8egp0Tsa6Q+Gp5r9cfvUCHjK9F241HOtRMNeF6UYnk6Jc/PzEnPRFPGsukzSh8SzSjlglSBv6Cb9taA072AUO2LKYNLRt5hW1gVKi75mpUP9ifEgcRsPvPvuO8w0iYsSLuyMbh91/WHxSxmFsgTsatRr9VhnK4sr47XpzmGKN3ViPyF+aWdBargdTSCRX54I/VjsnZE0od7U+On80uRf+8ZnZ+v91u79cUXl2Cu8CoOnlqjZg06Z5FF3+KiDHSA4TNL4KT019rxc6ulmsUVpkq5ldNamQjRJ30TAGOik3iKuV7WdMWjYmE17uyQW+sF+Oz2YK2oqdRODZSWPiVhxrl67ujAzizqOi1mlVbyoJIJjRnJbxzuFGtGPJ5geLi5mnOfgZJgdjkWrN1hymhCMP5m2ypDyE/qhSyTNeGRYl02Stb2x/nRkZJWDNOxVCnHh0clYzUNyFJU09hZtgkpCvVH5RvGB0giQTyPX+CO81mjCQBx+LpcE68Ao5ob/yFkIIJOoTNH2ZLIrvIzgbErlPyJdLi9T4oa/+Lkvz803tzefB5HDGzJ07yFg4Blc8zRbst26dfP0fH90jPSYG5+YeXV6WsYp1zSZxJ1gG+KrV9bgEY1C30It+wiwBw/vmT76vXL1qhiVrArXC7M8uP9Q18tr127QrgCh184soCdGSm5FsA1JXLzsyRJ9deNkVwdDCWDjw3siTbGLsKWiFuJzOeOHsqXSEO8l6vNMM/nWt74F4fVf5DdEpWGy5ohbxvtZiNJ14Aq2HlAdeQVKcgaGlZM+gc9ncLxcHOKhZ5d3ZBmwUMhQ/rkMYwoUw55SsxLrB4UYgVUr0CWRrT72B12MiGWUgSUjVrWdc4RixDMKodmr9hgeOipGOsrVnjsUhp3ghrXhvqYx3BlhZTzLWC004Tw86VhuAFUmqfpEZoHS6rnG+MTwiQb7kpOFQUBTUSneF4YSlynZYZYUSfDklyNyMjBsy4TgVYRbuL93lez/SHJiNeRR4ACqVoll4n7qV8hBDrThy+3QqEg2MbbgpigGfkrp84QCoDzB80NGDqhM7oOzOioPicgsAM/p6shFRWNwS8BPGvHsZNPos1pWlY1jBKBsFgJsOi/gQZS6c0GW/d7JdmdyrmPjqIgBaxx/qDpFcImxFTdo9FP8KO0LQCipVbQH3ChijKKB2UVY0GT55eRljEr9AfMA6Eyy7/lkTPVjfdbknTO41FzXho8WZ2v1kem2xMnVud3xs450Mw/BRcZH5SxcWpr/ymdfv6zmaHkle87yxbDSSnbWUwlR6XFuEumNW1SBtGjQjoXRnDXDcbh+MUVV4LQMhT7Fxj0f4U84Gh+dnpmut3qRBdaTvou7BIChhDh1gRSJQhgWCIAIFPicmhNQ6/ED6cmx9fy5fUOiiwHvVH1mYe6l12+xne7ffzwytnXzzu0x5V1n5x988B4hbeYKpVNXdHZ2sL/74OFDG4Mko8+GHpPp5rCzh57zinqBmTQNYulCXJWmmfRTS36x0gX/E5zFDfk5MV8BjRJhsvWivUzsebww1zzqHhx1W+S8dAZxEbuLcbrMzqR3C+1Xl/1h1TAWsMYNdTQ0TipDqArl0Dc+H6sDKBpjI/2TtuZQo+dHv/rFz0zXDkdPDieHupAqv2fRkQqxpn4cYqUkEQ5DS8+CIcZMYh3Rm8KKIgjheDkZBn98GAsszGtkVMp/iCtdYlzKtIve4xcxtKm6Hd0kTfLzz9GJmtMzCmO5G2nygEhoYYbYiQIylBGvV7rVyTjkKoit5U/P5If28CQg+5U2kT/z9l86OAO5zSsHJnyIri4bimLFYCYhjnvbb/742++/+/3l5SWpmz/4/l/aIQgAwIumG2KADohKJqqUbyx7TBBhjx6gOShlLjKquDEx1RhUCC20HD5SxViit/kT+5XxBIajdv+QdB41Ex3xBDItQCPN8s87y7NjbUrhRL3b2mqMT3/rr/3G6tLC1vq7xhzlGSFBbLNLvkl2z8C/Fpfm33j91dOzR+OTHLWEqSydxbOzpbW1VRLFitEJIF6oqhzS5tS13r55BQ5j0rILb9z43Msv3+IbcOY3vv4lWpMLkRizV1GBmZPB+mhsb6/LHhTl7nVsEd47lnJifx98JFEA0+JHAnWuvzQkj4gpQgCL4Xyxh7jtpu2bo11Ac2YOufMpX758lWth7PI4VZUeYsVTvqeRTPSeBH4Cd+yJ5kSViwKVpbCxAj8B+4PHldrKKPGywL4ipOix6Aa7DtjDwz/ms0GJ4G/YQZiCP8PbCmvIOf/PL8M2HMKnDcBvORPulZsoQRlW9YCYumbuwuNmfS7SETsaOwY6nB7s5GjroiRwI/GP3kd6kWojEikGw/MzTc4VPecak8NcX3rSzdV5A/t1tROjeh0k2AZfo8gN2WFM12chd3VqcIBN5jurPGooNlVE6YUqZFxhGgE6xMzknQkIKFB4yVAtLPWMhCCVJMnbRu14uH86Pzq1e9IRHpVhHXEVhh7f5+l5tQkADhqULbI5HACQZV55NAbgs/qpgjzFtEAzm9P4wpSmjOA1aqKB2moBgkQ/Fwd/HUM2A+FLsAwno2fjzfr41MrS+XRjrLHA5PY0G82O17nss/IQffRwMD86fWV4+vaA72hCqsJ4zc5y9fB4+gVg5RWVPZaeDsINZTPblApAHz6QqDUEc21IVFy9lIorMsunFoJ72ztHNxfv3r2n/7cyLHaFDWcvX7myurJiI9r5ZnNhPp0vICC0hlFCC7fv3NJEVZs+QgUisZMocbb3JRJsMtY7bLHUSlXzsIQAsSr3aUeYPa4GqVyxWPawxUF7/f25xalet1NvTOOa4AM3WVGMnMmJ6dR1nI+oIJe1SZzQ58GcEXDW33v24f3miLW2s+/0iG3oFxcs7Hxj4TPTy7tbu7vPNoIv/gn5NKaQtIol8SpllfaehAyPnj4DOY2ABZ8EZC5dvw5Q4s/NyWnI7kUOYK1NcR4wf7PRn1UswMx//MNW6GiqA1TaEhP4LFvnzZ+9NXLUW52ZGj87fvLo/p3b16ioDx/dc8dEY5rOBH3RkwAbwYA4g7D0pQkJQZpy6asFNPIuEV1UL32ZNAU+GdjLozU3dfz1r93+1jfeYFyf9w8iq+S5FrZQmoNIWunDp2I5xF8T334EFapPw4FoOo7oEVAw7thCI0aA0cBsPCTnE0/FVJhEOJLLEk+PGeJ5LOrTI1kg7h3f6ft0DytqvH9Az5TG7N0aUMom5THqGT4lxXNgHwZCUxtLQp0OPracH9/ZPVR1JovNLYpkAZxtD0UIhnhconflppgIY0OzMhhS4sn5PXRrbfrv/tu/NTc/LQmme9j9+hf/x1rwSZZiqxFpCQ2ewEG2oLYMHdlPSuLmF5bE6p5vaK7fRpj9w074LT6Q2Ho8PaZNcUh5HJAWp9FYksAm2UWBGJIBQQpKRFqOMILhbILl/vw+OrS0MH/96ppGmvvbe+quVWxSdcgPiZS833pEaAytC+PoxGnncJsmtLoy/dH99+3fKdi09Vyy7vlH70fpjFPt+JhBg4hkVstToxFCM01bJD+RRjB2qj63urSsOkETZbnUNojBWFjhh/2EYFxweNSxqWa3t3/KkBgeef4kwUi+EqnF9ZmIhOyHjPuMDE83FouP8Xx+QVZqnwfk0uX5WzfXlLvPzC42prUGmLh8bc1OpLX6zHvvfaTqbOxbv/oyLpjit3rJOAhzi7bEP4ZFh0GgDiDBNEGYbBzjqWf4QsUisSL1C+t0X3gg+GHcXGnwLfZBTBAMLTyNNPUEWOF0FKy4HQgkwsh84Jen+4bKy+F70CiKQrRd0M9tF4ItPzm8LL06vTLaWdghE1o8hjyBnVlJwjs5OmyucOrwS0MfFy6Oyj0+fMR40PnT/ovMAUOCpIkD8rlr20C6orjYI3WMtaRl0pXYsvGHkzBFEYphG9B4dhkpBpdRZ85R3YyE6UTp5smSV0uwuv34SP6orhFGNn750pVwwcNOBHCh6AIvHfvMSBgxwQkKd7A6FuqIbGzEXYpHcd3yKywx1KSvjcuac42CZ/hKeQeTylzL9REbeYrnAx3nJ/XQWRSSlF8mApCNDU2fHk8MYUPp2ZROh1aJiemO5L3TVcez+8mZ+l/wicvF/IIVMVyseZbW3/6o1ZuScFRDhTiT1CDJuJ+4c6driZTITmhAKGFRc6DmSf18+IP3n46d7c9NjzSnZqdm5ufml9CYbi2tziHcnJrWX0PcRqwGXRnb8FxtycMEVOK7wh6FPNQTpvGp/O9eu7/d6x/o+NfrHgHtEfZ1Nqp0d7Rz3jnSkmP4MHnY4EkaYxsjcsqwOkY9TpAIetpI03IqH3o0TUCjnVn8udk5znt7xj/84OdHB7u18VP2ioCcnWVHx9nz2u9Oa77Xx7BYfcMnG1vrqJ33kXOfl9+RBAnvVvHd6WhOIWxweCxOMJ29P/hObZCd/e01yKkbAsEfUy/ZQZDgQhswsE+WkpC2pr2D7vW15d7uhlzFmamJ08OWLcqvrC0TR0IsBi/lIanhDGuqXvQLdBF3hSpvymUV4CVRIFyKF6KT842T72oO032jPiJZ5vhzn/9UY2K0q58vFLClZzDVM6hO+LDghsAWiitIbHrxNwdnI6GqK0OpYQKh1cIT/E2pC29IAiDaj0pDn8uZYGq8hfRAgSfPLbeEHQjsYh9iZsgwftlc4bT7JfslfhotOwjrjtHUixfykHaZzAL4PJgUdGnv669KtkEC6qFkNXsvD59OjPLiysZSmk0TSJgpm4Zj62qE6USHa0vTa8uTv/4bv3Z02kNMgzMlUtsSOYkrmIxFpKFp9i5KXQegWCjsRpPx3uEtXIgkiHZldXk36MaJ/CG/tCTVcCrpx4WnjZwruGbAU445Pw/09Yqdm58KIMsnkw8aeAv6ol+MnFFa1BEfoHyylipN1iJA7Mg4MYqHj57eUurYnGb0X7268Gujn62lc8qMnSBF2bKnR31CWJhponEyzdqGpdik0bqXb5nLvH/cxXlkvGqbIvulvb+HrnnmYaamUO29rjgoBwhoHigx2H22f7DBrX350g1yNg78sNXR0Ga7zbSdnVlRbo4T8isuLTePTw86vXW7TaoFx7dsx9htPdtcf/rw0d0bt1+7duMOtU1t4divfvUKUATFVOlFxSFRLDDy5g2IRUVnRiaRhvhQ8twijQpO+TsOdwdQuhJmxjEWoQCPSKyExMbPeX5Y/WHgLs6V5fqCUZFVEVdhmTmgXDKmivwLKpcrLZNfRadgZfWTh6CwDETEWD+38nf+EkQto4fOKZSORiJtBDcXrMlcMvQiurCiSKVQUnaSjqswcazoYgZmoC6WcMXkPjmej70TS4qdJP4JEaGXBCJbNbJKkQd5Fp7ulclfF/eXPA2CWHG0TLKL1lTrsNlGG415mbDNq3dmzsdmRkbrZ/6NTyZWOK6H6STLlVAJBEYEqFCu9Q3TNOSI2sJnyEtDczLnszohyo8P8znjNQIeA8PRDEsACp04XB/pUo54LtXYU+XciVVEmU7M17oNKwM8kwwp14vWaNcK006z471WkCzfyNnwIDJYtEMyvi5TsTWLQ+dCFYmU0xG/sCqLUDQaQxHzJqq7gtN0FfJe9oXMZGYBmvvUq5duXVsgC6dnVxZXr83NXZpuLtZ1ELPPiL4LpcGr2XHWGLrRRhlMVirJGNTKskcnluTLzyNmv2ePVxM44hzsqTuJULN9VPuovysoOz7zdOu4d7J12AkMHQWcBUPQC3P4bFhlCWwjqCqIucDSsKgnR4+BKAWr+0/rw30xNR2PFpYWZJ0TVAqU5DVnDe1VrqpsevLq9Su89p7DeeIhwGeccrqajUs6UwgMOHQtwmmU3XiXLX+FxTFrVhddxY0mZX64RsZZkgA9J+IqIV4Rp2HRL3VXdprf3d5stw64r6QWMuEXFuY31p9BWjvESaznAxVeEh9ki+hhnH4nkJQykdoMlmE9j03sSZqPpjAaWQFy6gAE0/CHf+9v/R1KryrlodGpoRFxiCPmGTrDFqPHAhbqg8qfqFxZlNB7JZzKGjkRVL34jy8oJ6m27gm6h/GE/CJ54qGh64UxhCXl6aEBssp/C5PKs1EYDYkUjn/I38E0NFhYR/LVIxSjhjLl4gCHgWie6tTtQtyUsXoRUjkiPZK/MDU22VC2hcwPXRNmzNvC9CG07JTJ0yxnnV2ezKTuniQiW2Uq0B/YXtyWXaULQCykUbvapzGrM9qOmIT/2ObCROz3QqNDwVICkU9kktETcjbtG0nzAWvtjNXwq2BTDFCV7hHD0QgcfjRj8HBl4OB2zUyHRvZ2EbEg46E8+/TnFOwkxMBDO2ot4SdVTw4Lcyjr3t9sK1z89GsvvPLa6zduvjQ01ECCHqP8jsbHEaFEQbGKHXBEeRlo0F7sEG8Ep2xOFppJiYNPZXhbm5uWaHVFb4st3FODD5z/5LRxcrai+Bl6rD/bCNth/JL/RKkUfF6Kw7Pdnf7G8322I2d4n7Q/OlD4t7w4029xSulV2RmxjRDL/qjz+OGHuzt7X/7K1zm1WVQ7Jo/mLXywItgQnEIP8CQmlLJd8okWCqOiPyeNMkgHdQJa8IuMgCgwFbJEaGErVsFlZyMKeCgL+bVC1fy3HCMp+3J3rIiIOlfn9XSY4BgJF/HIEs5JN9g5L2icI8ZdQdlQxuh5LzInfJfREbd4RpDQ9FTRrwgq04gWk6fJRZaeG3vLUocWjBc6+0qPKJjghfhAhIRY9kASx+RcuTcvcYQ/FuuKpp0jalSa8hW08Tu9XI1Coi85MHdSirA7H5taEKWfGgxP2356aKQpSU2jWPZVY3Y+PilkH/OveigUDPgiT8M9Oc3iEHCNTy/y/+qoAFmGF/eR+9GzV2Y5SFuVQ2zsPo95bgskCxmXu7Sz1NcL50flJyBCYIcREPcy8WQTlcyUOIsp3KOcfkM35q+GmMwWdYU/0dMzisjpmPY5AC3yMyaXLmGYR047SY20ojgCRXVGOOtcszko2zo6bNu+Ev27TGxDR4LaxHxjdm26ccm2lSOjTTWRjIqPRw0fLL5Hpegp2UJUC4pUGUUmN57mu5pe2TlmYgqpTkeGonOtD3Gqs+H+0Q3G7f7hSed47MGzzvPtH+yIlUULDlpXR9CkHAQkh49fG/WkPBCBJmIsh+2t5uigu/3oyuIEU5EHcWFqaHL45Mq12yeDRnu3vdPbm5mfUcV2eKajVXupuTzJD1ebQh0SpEQI4I80P+5QKIeOl+aaa8tLaUthq6HR8fWNHVRNDSepowLErxtebJAXvBsMosQArHUDm2GscWJqrn+w//TxfZWXZzptjJwJmB/2vW6XUcXyG7EP2NFgarqma8noGOvtMJUa7JEgGqVe+2EBeR1L0s6FJmFjv5Gh9tjIoY5D0mFefOH6xPQC5ZAOzAVUV5N9hEG7mxMbPaEgUHNjRa+BpTU1eJ8W6AKm/lO++vXiTL75fwi7ICdOQsGC+fSp5B0VPuDHUCgOHgiEU8Vqw6mT+RtdNtYgRMRwoh4W9wxScQtadpXoHDmlsyU9EkkfdofAZfiY5Cc03GLbxfj9NM9saBtH32Zyls4aIugu0rUoO+dQU8QLRoZsCLa/vw5o1kVbopPT7bNBO72KtBKN0ZSSamPRbIu9ZYktHBUrWzhA9IFID2WIFoDRxQtq6iZa6mfMOHlhjoAi1lWMewQN23My2kUBE0WNVLQ3aQQ5W7givrh4phLcxYo5AsRrJsJ6iucNmVPcbHGvKeTQhBGc9A62Pnrnzf2NdTCEWZQ/qxn4nZ5NTk532sQW7ADYsEo6kxF6d43jxQ7S7S1Ptj+nOdjYg1XHltDDM3w/eZ3SDuW7Qgz6EQ9NSr8BAUexNQnmIOKM1z5+9ODn7zw8ODhZWlyxe+rI2MnSiphqtjQSGdGHK5BJGxoy8dgOpffuLusUY5m2onvHx5Jpe0HBmwKccBlaOV2RBRLGYwaFbIKDwYWgWvGMpS9R4f0gm0sq+QecHMlpRFEdATMAB+aRfTmfhK7glecXGwvqkl95eDlbLvYSNZ4lBlMQF//KUSExYilrmVeZQtKQLJyMOAatRwT7i6TxMteNlqqlGE9YeIZhBJGTKE4/FcqlmUl9pAVL5FDLYuL4ZuHG6CPDtKSmCEoIUiliJb3ynBgyKYmkXhSiwWdQb8UNwUa7ztNz4aXJwVD5JwI0UBQ19OH9e0ncpcmxzUpUODCKH1BKTL4EVBlgUQzFDqemCmQisA3W/80aDHj/WFDSnqNnuM1v5ahfamZcRdLnRAXt9JjIvsEuStKRx4cLWDftdLpAw54mCaKX+iMTwndiNBshpYk+iPLxRM5SGeSWx4MLZwmWlAhE9KkcZSG9Pn4b6ck8qEcdbNuOUDLNxkZ7gxE9e2SlZb+4yYl56Wz1GiZyaOeWKHDwDfljqt7BB2CmXlVMuTTsyZgqMvaZWEfAJbWEPhPiJTUFYAxIhnDGMjk7Y9jA0T4ab85f+pM/+wkLrFEYI74AayNeeZH1ZKpaWfdsX3AqUAGkeL0nsAt7rf3G3Pju7qOVmWHN+U3h1mpj/7hbHzlemWsO5prrG7vbOqQf7x7VIt93nuw0atNUB2Qs+Cxqh9SxH/VVHs5d6bPEpLJwalQn6k29JyQBswxlUhkWzA7mJsUFnCB57CrLHyWbEdzrC8YeKWI9P916/tTOIEoA5qZnONDWt55qsAkTNPIZn5iOjo+2rHERgVnWFG3A2EhCqYkggWkl8Ghl4zjpH5319HW2/6tMkoWVG0PjR3vb26eT54psFuesu+GlyYraOUot3TTuVQpgoTxIV/RM74vGGFzOu9EOQgkpmZRLcICInMggvwS1rRH6KvgIQcMngqUx0eEUni6/A4akCDASipICWyqLI8pT4e95FtzwvFEqI8hg+9YqUvm8O6Z44ex0d+dgYpyzjuZEmT8B0WHb2Wiyt7aSvCEJQCP1uFX4sxUkHPbtlHJkz7XtZzOza8f9XZkXgzO50/JatQIYiBpmYh4f2VNSqs6EhI9GSSAbd3Gw4AXG4IyrItNgNT6OncT/bLz0IbgbPA93IobhMzxmMFHH3RH2hRFVUPLJUYsYgStTtYCBKCBpUxImxHHObok4jJvcm3RjHrR2dyQr6cXkJZpjPX+4tbf5pFB5omKwAswpyuJ5uzvtmSkpGKgo9p+f9GVijChhF1ptdbZIvxaxMDLMrZqsv4POpdU17w8zDzcJDfqMvcIXig7SqSe6Pz4rwUvaUHZFSCr86URt+vatl5szArFiicft/XWxS1E9UPDCw/NQzeFh680f/2BheWVMalZwAZDiSIvmHsjEPIdiIEkn4BPIDjT+9s7smhZlhz0D6+BELCD3OONGeJPbXXrBrmA+PIYo4WkFovkAfiw2eOo6QtHIMMZA3nxlizqRqF3GBdQwjzNQfWB4bb476WL3REKGbrOaOZ+7Aqf8Cp8zDCM02hh95b06X7FsYgb6k5fSTfFZqaaemsmL4HekHTmQ7TaQhHZUNIRQW8GIiI9qogKUpnzh/PSYMgb0klfR8VwIFDQ7s4SsQI+D8yMoZ4IBWgGNSpMRj/v1X/sKeyVmDpW2wN+UCgS4niBEDgDjiOaJBTeAdAbjzqfXGL7XsFHjOQw28/yxzvyVT6sSyOfijDDLWsGKdcWKMsEycqwalYX/nU02GzGYvCk0YPhhEz7PaWfepZ5/SPWi6ns+JZMs60oLCID8Kxe7kzxL8kg5DUpoL8Jbodvhyd7G4Njmft3zoe44oXVu43O+x/OFZiPR0yZPOCrLu+ObxpGG02ckMMwnDD1F2ZQ4k89KZFKBc/lShsDHEunEsebTT+5G/IRyhKvWQfV6k/u+ubA4JRjkt4J+BdVBK6gYqVHynbhVPZzIITcomCASRcxiyevo7A2fdKdrp43mxDe/8vqDzfa/+O6fLK6+cuvG529cI83Ot3qt/nEfJY92a32ZlXmITAT24xivS6tzoIFQ/NtsAblt003cLN5iyqM9q/p99pyXosZkDzYFvcf1rwrGlsMowSM8wDZsms+ODQm7f+/7P9hYf4ITyq2YHBt68uRRu926fPmK3RT399sLyw3cQrsrUbAiyEEpXA4moZiCURNcXxxaCTmBZ9yEmgP1qYm7nZY+He+8/+CbX3tj4YXa+fGTpw83Fhfk8Lou8iN5CeUZua/Qk58CLDReDCyfFeU6nyNI6S2OOMsK/8izYFDFJnyH3eUiLMcKIU2LG9OJ6QJmWXbfoQge5Amwu7gQwi5Cov7ENbOcRTiG+FnG6knU6KklW2jWb6zeHh+bOR+alEnKHgDXEq0aPenEmxqUsiTZ+QWZMjQOrywsbB/s1ieEedRdoa2OfuKnJx1GFXFlOJlgSMJssJMhvmbqkrAzicvFwm4CTXqelQ1S6qYG6aPkZyHwoeJINbVoXZQAHx4DAmn5GSwMvMincjKAYwlnmsXuRLiuDPWZv24j/PXcKr1cDJKcKJSgtdWr6qt2tzYrpzQX3OrCtC3nt/a2PSMtoHllUH3GyAO3peZDwZg+xcAAOJ2DXaOiqt64tSI4OtIotVy9rliyerd+u9XUUdT9oBB04lQmJ7Bum6nb/0qyJn4fZwj/NjPAqNoHXYPVVn1r82BhqUORonaMDKlDb56d9HSkQr2jE2ONqaYdOHmndfWVLs/XEvBl7YnVEGs0Zo9GYGW20KA4HqJ54kpplBRUSuTZt5BvQatQ2sdHJIGhhFeFw+UL7b76E+t00rMiDzzA/XlYEMssI0XspRQxmZMZjdsq/LuQMV5jrS2v1XOLAj4OQI/Ku9zh/6QXvE79YwZAm8lJmORdcF/SgS/uzMWe4xV5vgt0rQvC+TTI1AWiPIPjCLPLtXuw8CBOEdH+xOugUOREXuNEYfeonAlcDRGCJbJSzud+2BtLNWWV8uzHuYcg5GDocDJBAsOx52GmUQEVIzKa/BlJE0I1/HxKrcvbyp8xsxNe5o20ZLAF0iUllrtbhpfrzP6kZ6oZXig3i1RxijiSij8vXKD6gvwtF89clNTQXfn0OznhD6iMOXLBR4MJHXgXgNohizhPzY23wPhKPJuZi41Ny8TkTemjpFBRz6U0eeZHkoc2LPin4Vw3xEk5VzQnp+jk+fmZtgjPRXAHpzLiVJW2jNRrwleDmYEnqg6ultdHc3LaXxkZY2ISRmYP65S9QprxsbMkNjIfMyt01Jg9GV3QgOawvTfhZw8th2sq4OCtRbrQ2fPeFP2oES/JR8wh7954vkndprPLp7uyPPm516+sXeusbz/64Zt/8fzhB6986iurl28vX7n2vLP3njzE03FdJ0WYgUBObU1CJeZx3th4/nxO0xVJkLx1Ew0rYDvdhDlI8vbBEYmD1ZUGFtqPxaQuBBbUqmaqwRdMOzly3eCwZaeVn/7oL9lDS7R+oRWVXN0DLhOClc6DpPkA7ZxFJl5weqAKiQFUOfSElCVNxeZaIFtFYni58djYql459O77H77zsx92D/76//J/8Xfe+/m96dl52w7rM5c8B6wba4FeMtnCanPGQ8sCBU8r2szy+Cu0Yj2DyBd/BptDXiiF5upr4RQW2/loW/kz1+fT0pRnAJRn+JVEwabCZfH9KHXp/1J0qPAYX4LMujvSfcRawpJJH0750fP9zScjIzPsIiEiBA4F8rLByVJzyn9ijsWaz3bGsmQZW7LddCpIZlDkh/rAg1F9a7mefYSUCpkDlnHGEyH+EV2EliJbUFVu4gGeB0q8EqimkFowWSjLpCiByXj0mTCw30PeOcA+DsvgbkHL2IeBXbIyA2FUD6AWuGAFZ8Lw0KSNibxXOVo4W4LuR7duXuMSlvITmA7ZD7o1eV6HI7t7W2YXbZxTCKZS1XgF8z6jVrZ9YhIA7d70puAztf1190hekjBU9AQZKDJOqX2jNic/Svs0e+CkqZCHeILN4uinPYJZoiMAGYn+ydwc3Z5yxunLl6+3958Tqwd7h7VasxBG+kXZc4q7OdmewxPZr5G+1e5oEGNJVLEFX3FlgWTuhugGgXKUvixBkA8iXhzADA0z5xyAQTcN3jFwKp4Y8PoHx1jXNB1/JXbLQnZTxIBXpWqPpJUWCrGKMRLWb4WCgsRhmEv559G5vmKyhusJ3ukni5TX5594xWRkCghBBhzHyayIwyXlz1xW+H5+Cspn8YNk/iyqTcYcTpuZxNYzmDwr8QyXEgYpmDDUOM0cebCPUIWVzU1G6bOCEX9OyM/YvcWPhb/7Le8FPeOMkhg3sfsIxDQkxdnjH8rTyrMJQgse4BRCBhh0UP5VzwsozTIxqrwoTCB7wgZpkbNaNG43vu8sLZB7EclhDQtTyDplHhFs7krUjZRDM4aE7QwO6VVFIOTBFGemjEqUUraHk/rbCAtt22MiGwlLTz3XwB22DI+z/mL4p2PnodCsBowkp76LSap0rbDX4KTXOhDy4eKwCWgy2hWU6jPG6BCJIchV2o9N18a1ZeM0SFrt9JTHUnJDpoBHqlXOelNzGClEw9kLtaJNfLdBn1XaCT5mKhV5/DxSSQkkc0c7Qs3yTkaW+iezm3YVGky5Bo6ZVLWCWK+Xgn22b6KQa1Esp2DorNq586QrK3d8c2tXph25o4KrIYg92lpdOPu7/86v9nvrH374ZH/zrU57Y2bt9p2XXnvp5qtP7u7ZVz4JgNubB529VqcXrBwZeeHlV2aaszE702NJpruME/H8xsLIYrLUxid5S4SvgFpLQOKqd5i0scjcgmnFpiF9pOeBzMn3v/sd+qtCLXpQt2U7sT2Vy5jz9s72zPxSsznX3u8oPKCrSZwJN00GAUpEKTAD8o0cj8inkGwcmmWiwTdGG/6lpYvMU5kaNif7oz/543d+9p1/6298afT8+dXLoHY6LjQdFGRjsWqosVoe8TpEyzbOi6OI2FxQMNVVJlL9Wc7kStfHEx69E0YROWJF4RrVAVuTDQhPSRHUDw+CnQiHi4fVG1LzJ3aRjJo4JyL5xBk8OBGq5M7IWVT4yPWnnEXwc2xlccl2BSNnfDkQSoqTBvBpoC4dsDghCGq+U+y5p83wyVnn0toct1qpKxcyOPVYxhGahY8AaF2QYhh9YIpuDT7MRa4lV6kBwCuDLzAA3gTbrEIgUZiEMcdDfIHTYQJhluZEV8RISLJc6OfwZ/fhBdx64bkFJuGuRRM9HYx9qKb33nOuH9nzmuFiCSzK5dUrxyfDdEOueykP9mFVDgye+9022inynZ7tqeaBedgwmg/YXpEn5LULkqHJ/ew6bRz6g97R2dSxNRL20ILGXiHAzhfFbIijC6nHCZiUYLE6yBFeqvtJnJ9Jb+DTAW1xNJoaGZYe1DqBrV2+RcTasQDmYxIC7nIz6WuC6sJaYju+u3tscelKAQueB3Je5C9IEYbo0+GJQeDKOklpUHhd0CXwc0CdaLNSrrEOK2VY5QwNHD1Id01RlN9zku2Soqg4h3NxxpIWP0mgTblYJJw95KJolMOrsvRlJcJk/XkhgSLeyr88ECzLODOejDiHt2Uw1R8XnyF2bl1EALsjf/KECivyvbKTzKu4ngsb8wi8oJAfceia8sAgZQxncMgAHW73Y/X7KTeUb4BJZvghUM1nvqCpj2eUG4NuggTVr1G6nIumSG2hZ5laDBeyDSdjy3DTuKFkD2kzw77RzQwCxDNGnMiVQKkxt1A80iaRTdRfA33n0hFA1MMbUQ50rOgGl6kS7RJ1j42V0UrALvm4CRozpz01Wl32OmFkGZi/cQJZ3+oEJrI71VDdXqanwzVOzmGZ3JK/ibij9pBy7EFn5JxtJ9ZFLPViDQyfHZQw7qG6K152AwpczTtdqHXGm7bJel3KcSfZpBw4xt8Hv8QAo0ly05EOBS+pVphFJqLAq3DerH5iltmpTEmC66M2qSoaaOGEHQc+R/sSL6aGan37IHA6orAZjWXC/jQlmrD32ubW5sraZWCUII5XZkHSGx7tCNUEvJOTM1PNpc7u8/X1reVGf3WpeTbYORm05+cX/u6/9+V//J/+y+29B+sbT7A27WzWrr8xJRN0ek6N88LyIgvKhikyjgFT/WOmk0yWKIrw1QpQ/jETCaIlzsQT2DQAHmNTbzbSZRxLjYuyMHy9jPRVcv07b9u4wZ54XaH5dvqWywrBNeRV25egQfpicaSflxb8KqwTqwP3krKB4QKVNBAYO6oIu9cbHdYPa7s20VfBPKXkTK9Yjp3RoY31vc7O0L/4l3/4177xsqbwwl2ngy5dgIcGDE05tXTqH0JaoZzqgDGxCdi3WaGY7NDOVwvkgNGOojgimpwv8lJXGilX9NpCouAeAVQ5711O70F+ND8rD3QQIogQfC9kmXt8Q8eiy7bd8sKoMFpw1dlRWt4xBLfX7yl7VXhUMjigLTM7qrghyamT7ZKuIePn41MTej+M1ObtZ3K6k2JbxnC3vy+F3V5p9Ad2sz44hpIcNEll0DONm3Vuo36wvUI4SZOmVcTFLesnSb8mhG5RFObqNaSIZSVUgSmMtTAOurlZSDC0+vS0AiaMFBOCNsqrsTLGgucSwy4kFuIrgpyn57vSfHWsqDdmOdC6O3vDtRnKKLWSRuAtaeg1IoDU13Raws/SpTWN/6Hr0kIzvRwHNiA+39zcbEzNsgVsPtA9llEz8ujpExTYH4wvraz2jsOiMYSDnlnj2Qubu/sapKlvWZmfNZ9+hxo63t3vN2bnCL9OW0ML0saWaeKbh3q28K8btpJ1ddAbG1u7ey2s7PU3Xhwfa9QkUDeaAq52TOYElyrcOSQiJjjG9dRR9GK2DtAMJMv3/Bn2WURFdQZCABkFOFiX89YIiOhXhIc9KClpaTjrtjQxpXsSy+kgE0x1oErCyWv1xJeqZ+iRW7HPSK9CrpGBHv6xKCJsvOhjcRU1I4f3RjkMizOGfKbuPTiehc6npxj5kY0MItFyFKpwaaEggpIrqSCFa4MSWWs/MkF8CUnnKKyKcpNodOwhwPTSPARp5DJWFLGHxfup+lfdFSxzJgQWieWhcNMnZn1xhIqqr65I4l8ILSOI9hz1JOJK/SvgmGxED+mI2cb0o9JlbxzdX6jVCWilQ4z0eqSR57u4yBYsogyTYXjUFg2m94Upq6XyrDRETmgiLy2ilG0SbQLJ2h9d/4DYkbyLSclNHoQyLMMKkLSCZrQZ1dTxUE9ztUMdJI5qh9JGzsZsxsEXl+ui8h1eESzJ5imd49PW8YleP/3YD+cnHRupeX8C+hK7kw3JSjTo5jS32GgjnvWsXhQC9B/1CevFbIqGlMJJJV5RGuyWaPDgVcBWVtpXU0Re0UTdDjsQOWfgZIRB0XapAIpfOdKku5HqKa8bG48gPZGZLqUTDGw5SCrYb69mU3YgYrF4nbxk+iyF8LRzhCcwXzVDOzraXF6aHTnvjI+1+PCak0P/7t/+4n/9hz85keB7/2dzV8/f2+lde/Hz0jr0yznL9hq26ZhUVGZaHphR0dvMKH6NZFH4r03K61MSM4Ak/QWMxJoblWoVQsU1abzLDqCgcGxydZ30tjafaWJL3a9NTWRDj6NOOgmFQq0vlEUmhahhBxziLUDCxY0W6EUDi/cK1xC50hYrFIi36yOcsivStYPOIRpTc74xZOvHpcWmEtUYtLSCqMxVawZ5NGhUOnj8g4gO0H75CLJ9fPziWxYvf/3yr/kzFAfpkBzERBXhORFsBo7iCBUnQ+c+SUcKKyK54EsQpcw8nCIPOuNzzou9giDJnrhHuiWPra2u6Ydlr1r5bvJrcmQRbKyszsyjaAlAmY4KnNdnw8ezCw27Yh602jxjp4Om1Bs2VbO+TCuXycMOQ8RoWXSJ1sbJKyOEn6Nko0hI4XAQFQIewsyz2StWHaKnEyLS1Y1dLhzOmUEWY6Cw5ASfzMZJuXwX7I65YjXxXM5b2n/UVWibGSIlHBVbmlta4eRMV1iZjKOnshbOhurqHaAZDJCtHHbJ1Sw99fhkdm51Z7vlNdeuvkCW3H2wodvP/NKV5xsfNudnj88mnj7a0gZldrZ5XpvZ2NnpnPZH6icStfgePMbiYRrn4/Wjs30b+dx66dYrL97RSCVl08cDOes2eNvZ2914vrvf7lGjyTb+kJHBmIbWKyuXpM1v7X5kTd741KcVgQ4NM81HvvHN37hz506nZ1O2zof37n/vz7+/d9AyQ10AAO5CDhScxgEL9siOYCQWJlAkBCwP14QrfI8x9Cj0VN4ISPDX2RfXTJp4OktKTmMw1eo6GlFKYQCXTKl0TZckSygaGHM8DZh8iaVI5IRsCk/EiNFPeXMlroJzwbZqYFFAMCnMx/+zciQ5mo3tFV2lfKJB9e7J0CvE6A8D81kRDCrwImy6GBM5WX23/0Hw2mMriVV9UglcABcr9l9GEmFz1ul0XRyY+KMcvoCh2u8yQgIiLraPvwMW2jOzX1xAX4e2AAEAAElEQVSccbiINPSgfBjkmJoMWRgyMpRJYKdFZzQNF8bC1sqnPqZFt/bMQkykCCS2EjZEzubWGYVpeXMaPvkjZ3oH+6ElqMoCT6uPeHodkDu2JlC4IYp2tHxv1dtS8gq9MhWUarAhUNJJ6CKgbnhKSuREwUVZVKftln0ENIod6TL8RydPElcbUX042xj58J0nM9B6TLCnS8yh3DCB87OeepZMB6lxZ8SkiK5cyptkD+s/faqnBklJ00e3Me0bWWkLbqygZdL4ZMZSFrGsKWzJ2qE5Xq2Eyc0wpE7WYEax8PkiAg/2PJnT6BNP2qIfM0mzMV2/zWOoDRRhMMztRpB7Uh4G+oULgJm8B7y5MSHNyVpx3QSGqrtn52SmUIw6Em5l6s7NTP/mN17r7P4kTvvdp2svrI5Fi92kPtunWm6xuiVIgS5kE0dcRT+DvFzvbJx4KdJtjXrnfBIzY/bxOZgvVii7HQzpKu3Wriot+XriDu//9K3W3mZKTegsOHH0EspfbgkyF/gEcIx4VBZUi+4VwzripczQAlgYaq8MoKMjb8GrdXixJ2W9ngCgHlJTtaHl+alrlxdXFyeurk0vL02fHLfoESEs4snyhMiCR2Dl+UAXCBaKzkujw5hv0XL9YWi+R0tzb8RKSL6M2Le4DPydFc/jQrmCBdFMrUgZe9w14foe5M28Eq7IRGNvGUKZdHm+K0iVwCS6dc7TVPLSodE3f/Kds/O6iCQGelHOJrdpZES2dPE4l0qOyZoeOMwtJCBkxUQ+fzK0tS5QuDc3W5cQ97i1vmCbbbabSly9B8yb9Il+Dsy8ZFEoE+gdOdTNKJ48ncBsQAwWeKgGm6mt9gXsAzXeTEPN0vmvqdJQ4/sUA8sW41AjIKU+BxbREoovlOzyL7CKnTDQ7ErNwkl7X3h4vDk1rwpF/Peju49XL9W9TI7d4lTj8qXlL3z+s6SShG6Ut7N98LOfvw2WX/zS12698Kn3P3jw7OnO0qUXbC1wcDjUlQl6yis901y6XV+8TrTUZpfS2pEjlt2sW1ANYh2O9ETrxuZXFmYXZ+AvDbCv3HBwurh0iY42Nj47tW/HgWTCCopajcXlhb5UDlpRY/L4uLe3v23zR8gzOj/7lz96W3cO3gg19V/71V9bWFz+L/7Jf/noyRMOPuXpCSnnKFK9+mrpC3EH34JFoXwc0Pii9avgFh9j76pr7B0R13gbP878WH28oQ3fbLNm81EKWBopxM5NBEHpawlQBbu5FagM0YbiwvWC8JqgqDGwfOOvK39Gt8rJYGJBb58V0rGXrJDH+rRfjttz+Aya5CtBlv/QCiupc4GqHoWTM4ejD8VGj2KfE+GCECDaVxzU2utnC26YhCqsiYujcYfMPTsOcvgVtg8uSoOd8UyfHs+qDOY4EhbKAWrls5pFNdQ8JI/ClWIxIPr8w1XxlBHh8DN+No2YlKkGSlY30TbQH+6PjWltIgsclHhZmUEqOA7ly55xP2A/xpGhVeoFIA9R+SUmmT92KOMNvEzXqzkxcqHf3OODqzBbikTvSi8FimaG2E/xBNlivKarY6cng5IXiAXos9QX7a/Zpmd973C3d7LTPmonEjuyODP+0s3loTnsn3Emq+JYHJ9c7p0kO66A2DP6UTapPuJdJ2fSjYQN6rVhu0TWa1o8AQcSZZtHnof5+J83g3OGA7pgD7ZBJWgBMZBrEVRJ4YtZHFXcaZfBJ4Mvd8SX2ddjGqlgCAKiJfXmiFGX8mtJ4qOjPRITlLkLmGY8AhlHeIKRSApJeY0cZa1Qel3YyU+IRZ0PH/EzyQYni27fvPXv/Fu/+X/5f/w+v9GT+z+5PTe7p05laGx6Zn5yeo6GYJWsXFHj4v3GgEIlTKvYDBkqn6STpgTFvL1UeI8KZUH6to3HO3ti5sLdkzUtG7pPnzwQA7dNn92P7MyssJ2D0VC9xiqHEsKePdBn1Dp+U9SYk0We+S/dM7pi3mWyjIP4f4DULn0v3rx8dsgpdKZfIzvy+uV5+yth2lMTQ+qvo2oGhVM8hFLxdGMOySTAHVUpf/o07tBfWElWqxBRoFqOsF2jjGjDDHJldWPW+5Oj3JLLArwgc8aX1UU7GDv1wuW51zLlvsitilpRdXl7uLrzUrGFL7l9zr/wxZcHZyRN6qUrEvNy7oednbaaoaCIImHaEd+5MtrB4LXXXnn/nXf/6T/5g3vv31WF/fKLd+LzPuzcuLrqP1Zzds42amklDIjeMjQ0XWg2/OH4ZDKe8OhokFSYFsfO5gNwP2FpBbjI0ISK+y8oUeICka1BbySXNHurl+nhm5AEz8KWEhkKr3SEh4QDGsba/JyWEDtc6c3ZhYXF2sLRYryH8XaO8g3qGTs8vMKRq6uYLRCmV67PHJ9/6vU3VD7bCHR2bvm1N+TRvFtvXudimLDJrb6hXB610fT6Gj3X/EI7NN4I0Mo47SwzdtxtbeAFNrvAOFpdoVM7wbX3tg4M9q2338VR+DlYcl1daPiPLR8rsF7f3NmtN5uf+eyrpSweAAbN5rRhtLsPPL/+9An16+btG8y4udnGhx8d2P4TYl5kQGWxs+g4Q6oBwAJ8whwitLE8kfvwwf6Bncp4uvlMxo76I2oVBjTu0ana2NLE2NzE+fzUyMxk2A6Lz7PQAVs5akukC4ypXiNQ5M2J5FgDHrNweGAvLq+O9fsYV61BlqPc9DH65kr3Qkfoby3dXgRDtEVoG9mAXJVhRn/EW4uY8Wl5fUisxPIiS6LSEFdh8C7TrgcyhPXl3SHvkHNAAlcvQv2wA1KFIr3JMxDNx9+rEfm7CIOQSiioGnnhox/PInTm+bhReXoKEnFQl2TzANoD/ehYGWdNxEWDOgHS9JQlSyCp9APaxXBrYrTHQw6+46O2KNKyxhSwfOqzURlC9c+yAb7O+rbRAZ8h26wKKfvRCB1AgW1GJJcotP2gTukT0ehxLPH2xMVK9nxAYe2KAzWsAcPAisRna2Onk5PHrf2N435pfKHPvx1cNbelZSikbT8/nqjrP6fLpz17CUuCGN21WntATDfTFrbRsIez1oQ6pGXvxGgPhIEwsVQuPEJY/FgXCcDG2rIQQB/wFykUazVfg1lZFMCLGBPPC1rgGFEFUkERfmaVrIcU+AQ9yKqBrm4hrXpjipONwVOoPQwUVIALM9UqAuPhEgwr5xsrTSWwp7FhrSkHjYmhPptjlP8jPW9gQm10wqPmGjNyTCTJ//v/k7/+e3/w7Qdb9x/cnR6uL9amZjpqmA67DLCxUXaz+rmml1ZZ16BeivKhTTQX/0E5oEQ5pTmAYIT08DkmsLP13BJoX6saTGLA4/sPs2WhrVn6bHrXKJ7m7JNoav0YHACXiF0QIpicBB/PKX/gntC3eCOKv9lpBp3pqNSaSg1f3T6sX/js66/e/EptlJtUIsaRpVQZg2NoExWdhnD3ypAchssQzwLkZEVD2G1B8vDR4FAOuF5WMDKpnIgi4MjYy6OKyM61gUDGnCPDDjxC96GpzKL8EHYeyqv+8mP1BTlX5xGa13iyBbpITcJ3BW6Ku25cWJphAjeCXwRD/n/l1jx0dwvmXlm3wTJ2er0BM2anZl+98ylJQlhIq91anl199uHOowf3pVmLdXpAiR8lOVcYVta1JJm6jV+V1Npm1Caik0PNmcHC0qRkT1ks3DbEDW4X4F/MMgp6ABkIJdukTLqCVVlhk3Qy/sRwSbgZIJkdqOQ43dvZ4HQv3VzOtgZbFDINjrnmhs/t5WkXxwNuvbXLq+TX/u6eLpsffPDR/NzyvmzCdmdotP7zn9/tHo689MrnbfYIHcYmZg5a+gafTjMzZ0kb1S9iPsN8+9zB9djxEpF6x4M9xTmiTdvbLdpWe7fVbXUPdlp0rfWdjbRgGZskotOQnYoavfmss4+ORucX5o+ORnd31QVSFM/anX2Zhy+99NKl1aXpGW0Rx/bbB/fvP5mYsJPWYMKGRbwWUCPyKSSbaA46JyIQvOAgnpC2mMfeREngs6GaThCGMgdHJ6cb41PZfWikOcFonl2UdgvHJXPYjXZIJJBbRrnOSRsHLGsfFQyBRG4VnmJJPpEoERs4SZppw/ssD9iHcItp4j8ZY/keRI/cyeHKs6qjfFYX4rmhiCsqKqM7irlbq4NMyq9CPT49IW+JIMmvzBCDyr1R9vLWfIfDwuwYFus+f4BTofHIKX/DsByxfC6++QszSQZBOcpZgPRH3pBJhalWkiwCD5wxUdtfD+kqVloc2T5tpHs43Dsc6x1qXXrWU0jMNZ+ohihjbWbqfKHWnx4TR3FOclpa93HRpVXMmfpAPNmYrV8SYzIhHgbiPJ2i2GOG7H+kM0PJMpuE3eH4MXKXP/wPr5bqRO7h6p6KgAs3uND0UQV6gA8+XUwATU0MXnlp7aB3ttYd2u6ebbYG+4KwQ0y60ZnaCfxAsyotjFBuqt1HpkeHr966DsoRGwEEhcJ/onhu7TyLuJanL/xkurI2tMPRPLWDyUaNc6XB+lZ4eZphZXDBitjgcQkFwnGPBoPjMPRbJE0JGrhI7oGwFL2t0zub0eEBUk5O1bnIU+cKkHzxo6MCwHGDlwMJBG+LJu+Blk8rgeHDVmOox+k7PTEqwRyK6o92PH4wPVCYMJ5+S4fr09PXX3hp9X/6H/ytf/j7f/rP//hfNpduXbv58uLyNRWlGOlkY2xyQl/0OtZNNGY1AoYyRXwnybon8M1E6aLeK1+aJ/Bgf88n9GpMM3TmmKL3N58+enh3Y+NZe3fTdg+GLSBMXeAIIEBNpqBtVqsKh4SksoKA5Sv05o4MhSK92PiizCpjs1q+MyuHveXa2vJhR4C9M6pV5FDP7hkicCzLmGIT9qhM9AqUI04MP36RLA+ZG9p0lNUFS19ZThbEdPwZPa8cAXOGFdyrfnWjq3KvU9X/qws+OZUv5lSeme/VM5iSF6IqP2eaLihjCJEFScAZA1A4mqzPUbG6Aygs4TySDFyMH7JQrA6diNfUeHyjJRa6Hznb2aU+fOb1z33jS7/emJwVz5K6vTg7R1t/5+c/+973/uLtn/9cekJfa2XcJY/s5cnDbb4kj2ZUwyCeptden7l9Z+XOS2uzC9B8ylLxLeAl0XnCUWgZeXtEUGg19xa+lC8FZpFn0WpcCmyR8xfgKgbGoFmf6El3lZ6PklzE80xH3N8+XDaOUxkVSrzbB/uQXfc/QsVGNj/48D0h0Vp9+vGzuyeEwsTS0yebV66+tteiO1Np66Z03uGYaTBL2IWIbSDmN0AsAMuDDthcjhO9rmrC9kn/eH9rr7Ov2eGh9R6fnNbw47AbxRhyBvV8E4c6PD88sjX5852d/vZmt67Pab1hKsvLy8r69GN54aXb8/NX9L9Ql2Hb6K9/9XMuSfPBalWqlOeq8g6iy0Ur3jJjovKWHjnHo0eKW0cn05FqHB+aqw3NaGZfH51tTMzYZ07P/MM9lZUcWBy1acKR3IvJ1MUie2HkbKHHNZgcwCATdS8JtXhfTFtKYdR+VFNoNwgXEVQJobCjsmzlZDGT/BDBc3gMvyL2gqDlCbmTXlnWKr8UrPVbXsj1J/MVz3DwDBQE8DU34OnliJ4eDM39dD37pfo1bw+5BWnik4qLI5cFcy6OQhsS0/PGgkBhOH6Lh8cLiuitGOiFOIzsCBQMLcWItAH1Pb3eoNOVLTqyfXC2d3C810r5BIYtT0lrn9X5iUFDD7iTqTpfEM+jEhJGVsQVZhMBHN6dfNOwP5KUb74pEobNYYOSX0ZjUsaLmaQC8wpM3GN4BRrJSdSGBJ+R8UESM+EAiQDPKhR9EwTCYdPP1KzU/O3tPDyvzdnsY+7S8s3avG6Z8qgmR89mJ86mRvvjTJn+3kF7t9MlLJJReHS0n2imQA3NTMlgIWZvv/z6zWQ4Ssg4pEHJreLkl1F4mm10w28yGdAHxggjp8rIs0qZBLq2vqEbc8o6ZdFdHC7m0y9n+mZIU8lmCpIc0gmHtZc0Zzt52ku3ncpcvsfeoK32Xh6ErkiVFyjWAo6eRnSpNTzp756c7g2dtlkbukVbPGEtyRqtoz1iYmqkwfdQG+seDWrn+lMg1dO9pw+ZIx2oIB4wMT5j064JzUVVIsMiD83wcXykX75QMmWiEAOhn6Pob8CgldbxsQ47c4vzNmeWSLGzuXH3g/c3dWR7+tCqyr/wECsbOc2GpqUUORUEZJwWpSO6XXhf2B4o5aWgBLfdMpJNnIUGTDBpghJ5hk5XVtYEIIZ6e6e1ToLjNpke7pNVxuZVyG4Qwy+11mFaoJ/K0LB8z/ZWOFP0m1CxFYnYLyd9L6PKAHJU9FLOBUtRmVHmI3cVvlw8iv7wZ8Zflr5cX73oYxrMw8pVWfHghWfj25wB4T4G6UxQuaLLyFhXpOFEcY4il2jpgrsutqt2JGuhedFxSS01u19oIPL43sP/5D/+RzV2dfbFkxw0Zo+b/d3N7k7X9g9jdL1QFM+NpoMRUWEKaQ+QAAg8NsF3ftbSmovv4MVXVmcXeJI1s8bwokBjHkjKDZmpS+PWT9OQ+COLsxCK8uf7taBMUc5NInwpmI/5ocypJmdFGnVQxsg9hpZ9C54+enzz1jR65oORBPjk8SMObSJqb3dzZ2uz0ZxmjW2t76kqhAKt/d0r18bef/+jjZ2T5dVbS6s3FZ9JP7LJKE6yu7PJBLedJqVKbdboyOHKogKKsfbBeeugf/9sc6ZRa23vnnRPxnSxro1P1Waimhb/sDoJ+o3+abJKFucXDlqcLotTkyNLc0NagE/JAUyn6OG9/Q2R+KP+wd0P7VJ8cHbSEtU66u+Mj/aTdgqkye6LOq6ZiBA2V+Oo6JTXEPy2PB4c20BHKr21HT+tz6T0xm4bZ83hocbwiTZSQiJlD6D0M5G7SffUDV4Zm67jR93BrlSspIAlCWNIiU7aU4yfCcjHPKepRSFGWxgI7Bo6sg9PBnQhq1CghbQYQbVy3rqEuivrJ5gA4Qoal7MwxKXWMxzWNSGGiqFFKmipQnmMVwQDi8ETgy86II3L/q9Z9BzV+6ovtNTcgd6QQNFkcO7okLETDSnXhoAK/YROQwWMD1ANCSNfv8Xd7Fre/Ty+OiIyfQsBMliCsuglNQFCAeEferz1+oqU2u1YqvQyKFU7m15M/zJChTcuhSXw3CcEDkJD4KhcXmvaF/Zc1N6weddUxJxJuJTC5D5ThkJ+ivTOs8ogzTAdMRJMjUyzAmjJQ1jJ5hNiwbyzHO7kW2jMLTeXbzQWrkzMrtWn5sPVGbG9vfPjVtKC9k7bmqJLp85efLZvOIYJSEqKKNkeNcQ7hocPurtBAZsWkZPxlUZv59I67ukp4GtZx7BFfCSWX4aVQft/WQJrmyP9kyxIgXOEtxurCVpi2AAR5XQqP6FZR6PlRNdcfaQuel4I6Zz5JbjQPexcXrh8cJAQJsQIOun1KyiUyIcmNkO2PGid1l77zGuLy8ujzaWDo93t9oGFphhoGy95mG/B9vNvvPb6154Pfvr2483NZ7XJRmN6bnnl8mSdp7GVsJn9XDhKMjcrIlDK+SdPP1aOxs3Ype5qZSFccHZpbcmyS67gUmXkEVfrjx+193br01pIy8BEeUlptOpAZ7nhE0wEouhchUB88TcPJ4Kx2J7jSkyUEpOVVQSjgoDPSDTuRJR0+NLS8kmvPVuTtsvPK35zfDqsyltZIl4R3cXh8RaNTKVwyY6RejE1qrAhsjYvtUQs/bJ4ZAZscX2wP6hYCCUlVuEmoUAP9SUX5DI/w1LPyf2/fFTs2QRQmMAq70AYWCHmGJTBycy7PArtUYSNMpgb30jyplwe2o9Whv84AxBhEzCI5p/MZ0a9nFL4EVYEfeJC4Vx98ujxBz//cG/mYL621NmhmxMIbPYOV59llCDblKKkJuN8RD28lWJVJPpVMFrEJhwglt7Q9vr5o8b2/IIk3FmBS/VGTsogKlYdBRH79co4Q7i7+F3krFvc+HdLg8A8IswtdG4mLjZEUDRXc7CljqFON4kGOwV3O/KgRuc1GxO1mm7a6VGbnhE1gIpGNFV5770PpBc8fb4pQDVKaeudT89hLJPt3snDJ3ZgG1nfP+/95J6mky++9IoCwK3tg0cPnszM6KJ7aherXufAbliNqWsLC5ckLQ1OYP7Jcfe0taV19fni3OzYxOzQ0AwVJKRITIXDhPFag60d2WEzjfqCoJDKNUU7+zv7z548GB7pXL48t7fTa7XW77x4s9/d3Xj26PLlFYqFFN0xK5Ylx7uIomyxG+c/SMg3PpI8Ja7Mdh6w9SYF1XkyeqcSQabkrbH+BsPClg1wybZzh8dqJURgj7sH/c72yeGBEtGxmpbEneHxY9RnE4LhqaHzKSkzHC4nh/LY1dsBTsSBWBKMB37Kai+YW45g9sdHRbdQN78EuS84P09JsCC4Xn7yxT9YmTLYi5Ox6csBSwv6hRAoNXF+0qagLHavZ1p5Th4fXCjPgTVylvOcUMLFUWhK2+yQIdXSfxC675YimOQjBBRJWXhGUDF/uwyXD1f1fDpTeYsTiZayNEgDnBifOKVej48sNGWS1aYnD/d08zkZSF3Jrhr216gfc+Nywdrqm7qdUBQFXIqK8QYCHm0wJmrYoHTWO+1hFGwZAOTQiZ8+/CsiDi1hc/RljGQczRqivtCkQ9hYxHoEKRliGmENwyzASOdwA8+PzkvU8Hdr2z7YWj/Y2z8f+sAyxsQVT9G5WdSS7XGsoETaoIRRIFf/d2gxjhlQXh4pHeaG6OwYJUMNVEyF3wE4JdOTm1wlVjqCqBzGTavyNWUyDuwpYwpCBJ4WlgSU7apmORiDFbssuSFhncejjZnF3V69dTjYPOytXX2hvrLWG5vcPFDzcjydWOvYzMK0gHNzdtpqUkyF+8js6XqdMmqYE4PT5szC3btvDY649Pc7cgKltg+GFqZfWJhvyLiAEPwDFD5olRJDu7g03/jpT/63i7MzfPnf/e6/2O90v/DFb87PLB71pEvMYsZt24XwUVAg9QXWl263Oz+70O8eymJXaKKR0oTm7o2aTvYS3G1OZi6Dfv/J3fvtnT37UiRncOioIFUCjokSJ9if6uaPsT5IAWKwI2tnjDJGhmypxCHEiMAG61qT9UW8JISPi1P1ZX9K2ertHkyvzh/3W2MTwsAp/ww4z8fYDYag/3OM41QixEROroh/Q2qx4ZLQVyxg+mjW11ttixqvVCSXdKCoW0lGEJzs18dnGA+Wl3c7oYJgHXKKP8agrWplbBn9Rc1nQd3CoaFEkjtonwXVI5WiioXM/FQ8OqKPUU2yGWPRWoIzoQ432hwHb4NaIZNgf7A+Rco9qr0G6rIslaszD3T551qjjwjA3L5+bfJ4YnVyvj55afJI9HYglhnd8uy0PdbT6KJz1Nf1Xym4rQkjzLQTlkHKX4AdRLDyWpxzp20+a68/aa2szovZxHl4eqgmnG1wemgpU90fzjScZV1eWWHKMK/t4cbVLGrB7vcwQCvqQmmyjSiLWYqhCQ/Z9E02hHw/3jb60MbmI7IZedo2Lkn8SdQf++DD7G7a6QxaBy3PnF+au6wVy+TsQfesPr8wUp+tzYzcuLL2bL3FRpO73+51p+vnz58/7Z8ezdbmr12+jO2g0od3393ca125uiQEdXKkufQI3/rRKSfKUWd9d3LyqHu4MT7R3G21x6cmtb4gXgIGm3SP1i8tj3b2n3bFxo44h+CjFE1hpMHu5ob6Sl6Wtw6eydizOQ9exaYXuB3rHXNxwiPlLjVp4ZHQFBIhIfW9/IaK36VTc6eSUvrijzTOZCRkj9hSdBGhkZC4rk76GQxTA7qt3sFme/u5fXfOjnsjI4eTs5LyB5NTNq4cHpseHp06H9GXfGIg4Mnq4kvAD4w+SA1/SMuYJuFNEMsn9CVsgsQyLqN9QanqdNC6HBfiCnIXhCu/Bn+LzChXREXyf08MuUTOwVNnIusl2fh/EZS5My/MT9WRuwkT90Y9sDp5TtHbInaCIlhz4bl5pKfkBUZIoWM4AGKGH/YeMlAckec5XX3CUlNGlO5jKKWIMHIgokvDawX3I2T88NT01ITcWM0yBE2np85mG8MTNZuIp0wEA/Uut+DhDCDfDS8A8+FlGWiYtp+ZFBgTesYVqio350OogUQZjrkludZYeBhdXz0tg6vsGMMuMIngj7pw8ebhrpSWrmhXy/koUZlwmAKGpS8CIyzhGYVc2TxEr00FDhLVGfMKH6PVSjSxbBl2HAZkj3vznnjGoKFbTTLmAHUh6kWZY1aBUATYwoOcpTVQRfM/Kpx9A825FMZkC0FCk9LBoaEoSL9yu9IdSKaoTw2NTbb7/aetZ21b6U422AvawOzs70doh90GulFqsDqDQgNRsc0iw9EtzvYkydgaq5vx8WFt0LcrR1192V6boTYmB5fPrNvbXZldubK8evfx06HsoTx492c/1lz1K1/5NwjBmVlO0SnoY2rcjxJrvYGpQuXDnZJWK4JU8gPlQBMzug4alU2GWlqtbm0cd+mwvH/mCuo5QAUKFnYdyQKIHx8Fb0E2NAbJMCyizSQhA9+tnXoneUWyUaKlQewucbN4qkjk2XlX7i+xnWozW5Mc8gXNzC9wjVFmqiKeZBumfUhoeXJsWmajfOX4V9QWJb+m0K0waUz2iAXCBlOWQ6sDP32kYAvw0xbi6XIUFA6mVTgXhCiT9CnW4wKBdciWpnSwP54hOwAcp4xvuGyzUuRisPiCJKEUzImM8w63h9JgRZDc7b5EocvXtPoNkBk6aQDBh6FgMtESgZZ0uHBdQ9BOzkBLRZaEXBAQ/uDbO+3xA2TXK1WTFM6BHHkCSvUD1KQQo2hOSQJRfhzgUiYP9jU7Jl34XRJ1ZT9hG8VnE/WKKZJO+bGjQkFwDHAN3mXoy8nQRtDckpecw8IjOT7Hag1IWoosZIoqFm6wgXmKGc3giaX3O9zOo+w1wm9v1+7do4tLCoVfSAHWXu/ps13N4FbGV3Ry/6/+6T+7cev1F196fW9nXy4JSGud3uoiEPp17FWtqAyZdFzf2OJalDmMKuNIG7VV2xhugnIoyuK5z7d29BDvHB/yPUykAGOy1T5sTvXGGi6wtyJcRPAq0A7PR2P1WgzbUmet1VRMDEksZuRLjlXFswx1x4f1EuBbRTssqqMzVpWoo64dgHM2oTJUT1GZvhZ4WstayZjp1cJa7mNEai51k9rf2OKuGjCtWrutnWwTJ5alPnpifmisOWSv6gk5zLSOBvWAxGKhJYgVn0cUtPjwoRAK4ywyVnjjCJLmKOyprE1h/TkF9BefwbyLKy/QuxIqhVbhQbkyJFEdZMgn9zrjIdX56mQe/fHDP/5eHh4uHE7giHhwV+RBVPp4oaLgYwS5FbzwXBqs3/KmnMXNMeeI5Fzst4+PyILU4IbNYILUUhnJszPpE7Es/DeBNKbHBTryZVL//XpNh4bdwYlNzbNlZ19zuez2Bl9FFDK6X4w5VpRXU7sUtzGGSI5SkerTOoouSuII74LmkQYuRcxuFykrUiB8L/MJx/CtqLFeYPThggWq0PZ8yI5vLDZANSe2PiBlOUdHVAjiTx4a00ayB48vLwslnbOPwSaYAN0jdGKP5cGaSJGftHYkN6ilA2j0tAGrLEMAqDKc6BXlQNFhqeF+udsVZbwmkKpaKqxMpGjdjEe+X16ybFtytn/YVei4fTh2PtfX9Lw/OJK4fDbWWF5aw5w8yLDRkyBBHmph7Z6OagQMPCoGQ1KBsa3sDXR8Nlmfa0wvUk4lsGu/tL3XySYdNmafmTntHssDG683ewft5uTMyODZuUa+2nuPDL394588vPvst7/1tyzD+Lj2e4uc5rby5Yis80hP6Z9aMrMVFmi1a0eL5PphTBo/DTgSRfWebTxbX3/Kra+HYVSCLFMGaMwVlDAxC1HOX5wKzBCPs5OZJvKv2Sg6hY/6PUaJsWhETsmC4psCsAFFZO9gQva9v9LFyq4mNfafrSV6mxt9W74GD4JDWXfQUS9Id+4cQgKplUnxZ29RqryOVBulqGYF8xaLk44P7tM4DOkHX7Ktk6BGxlzonavKxC7mg+Ff0Li1tejxkQQNPdE/Kw65kgkJD9CaZSIcnAzS0KeLDhSfE+WCdRP8DNJETFy8DmIWn1JuIRLgPuuLqg+EkQlcA5gy91RrdrKxMrM4tKUmv5uHKEDMxqrp38jhFsOR2C6rwflYpGXYG4cV140lCfaWjE1+qO31HWbTBIlbvB0qklJ8F7Gad+p3po0fnYOsipdXDWaOMA5nTMGDXPnLh/H48+S4bVy1mqxdxSnxCoprng5quqKAHGJnpXH8HfdPW7u93U1dS4afPVt/tr7lfa2OBai/+PoXZ2fmn68//9rXvjZWm/voo48kFup/sb+/1+4d1CZTwkhqsqW9cWlpqZnG9llqbzfyqOoWySAEiM8lvtePB7pjZ8uIIWl41hWBTU5JSJsgptTu2UyoxRbVNAqaHF25spjVDK6AXwr7JLvWTpWD9q/fvDm2cZCafy6M0PuhWLedxogrLV3ULx/pUDosaHw6UTYNSgW42FLgGw5FseOVjKc3ehb2ZFsU+sVh+6jbPu11pXRIxzoZF3ixp/b4aaw4+oRda6PriP9E/YCIXg2SVg24o4HB/ZCVyVefQcKPv8PlXz5cEA9iQbtfnC9kAabB5kLDfvL9l59WXVwuyFdfPvle/Vld4DP8OQ8pAg97/6ULWQdFIQsBxjrM26K+5T+5yxsxYoMPn8ayq3sNKkiHOVMPOa5SQ6FPF+Ilv0PkQo5jk9Nrl6/bBSAbNyVyjud6EqAcbq9roNCxv1xJQit4XGgVEhemHriV5eYSzFfwJEoYKvJI2cARUrbzIX+KqptdOtAx8wSrCY4Zg/EXZlfmAPDVY/1GUntgZTICp+mQvocH7cgEPCfLVVhGgXz6grEv/A+axGFrsm6hRWaq0f2VHhfflmx6yWyJ1uT9lAEKvWe5L2wMZIKZgJVlCpYEtDComL0FvJhTCIMh57y1KNeFKRcEogoxGc76x+eiYPvt41ZveH1v/6izsTB6eaiJ6sam5uZE4MBjd78FADrQikTYMI6gEkSOFm4FPQsZDo8d6Md5yLAwyeFJXfzPx7Xg3N46oJY+ePisddCxO6q0BQ4h+2QtrFxOf7XOIe+k8C7qTATi7Lj9/Ok7P/3Rr3xp8mxSXvjpxPTUvG40nKHnJ9p9CySke2Isq2FlLn392wbZJQ+7nZwc77f3t7bXdbLjAyx6NDQLQKojs87hVBYuI69IKw+LUohhWAbtAGNPZGsLwsjCxlbNLdYVjEs0qt3tb2+Pzl6dnZmc0574wf1NsS27/01NzTG7DvZF5flvhEAI+hgimJTxjE8e64RFZY5HwVolmkYuKXoRphH7S/MBeKGnEQcOO5K0Sf5A8T0bAcQI4xsmHi6c8JGj5EzsXZipnZfCG0ynYBtjBwuJCxGVhI1CkPiYUWEwEroq0MivphbdquAGdCSoCnoEPtClgMprEHQ2BYRrHEy5Cmhi3o8wCOz8oo/+0tIcu7nX3iXA0/T0KCoF6mdIcD1FN0wP26LRlphZcUuG8g0t5CIDc2xc5hT9ZmfndHtrf22qWVBdPMW+lyjQlaFYBBtwShP1l+XH5kJwYWKVMHDG4LPEIJDplVUfltgnzq3PrF3H58V3Jus2r5ko4o+vKzJPvVcEis7UA955zcb4bgBUYoE91uzXO22o9pcih2688OmP7j+7dDI0Ndlg/V+/clkJFB7AfrIhtsEdjg436ks1vujTltcbpxwpo2ZXAWmY3Nlpt7+nvbKfKC5S7uR6dLoKVA47e22tUdgxmoawzrV0tjfm2DhogFQQ3vPwlcJnEuLudo5nmotj/+D3vgepkgPmHfYFj0/vxIZcMlTYTHJTdQi1mxK1l4CUUj0/OxskhOJRh+KqhzmsiRMZUbIOWZtyhpRYxrbl6srG0FJdTsZPipMpGdbsulinMeSlIEVRCsiDlYW8PDVUk4cba/k0dCjOVXFx3pdyZLUKm/74xMUFuddhafPUYG2REDFtggRZ4186ggUXRP6Ls5+cSTQl4ZHytEj9GBjVr9i+YfnVMAvOhCPH9Del4FaFT3m5scA4J8wILiLkYLg/iSvuz0I7FCiqa4JFJ4Ps32lb2DjiU1LIkR7miX0KaI/8f4n77x/bsiw/8At/45q44d3zL7PSluuqam/YtOMkQhQlcAbSL/MH6TdBxEDQDyPpFwECBsRAIIccDTlUs5vtqrrLpak0z8cLH9ffuGH1+e7zMqt7hhDAESCdjLzv3HPP2WfvtZdfa68NIa4KK+M3DyvNdET66aKe5cXljZURiOwhPMNCnMCiAqsTTVG8fsACd9GYgj1iYBgJFAijMJcBXUABgFpDhM7VMcnFQi+56EURP0rtUUM0xo8DFAloeZ3wO4JA6BFXZiCTneYBpr64xFZP4D2J47E4KfIhSOgU3gmTYjNBV20ZCn+SL3mdL5kF3UrfijasP8GKzAdwI+nAPGK78CNtxWbVFHRn+Y+vZnrjm9P+pczz8Xx3YcuqNaWg19dWVvFc2h31mWFEH8QK7LvhyuyS8CAUJ9CTT68TGSZCiTbIidFQMUtI+tnL/U8/+UIqo5jT2WEHiDFpoYvnC6+PRvS3cwni2K+NS7qjMb/4wmbryecf372zs7tzX5WsR6vfuJh05dZYR1lfJrmWOQ7Ps3Nzth5nZ4qPMFH49xH6ydnxi1fPVbi3dIHLqKBzGBYolOl5g5zYfkHHwtHND0oAuxRODKJEoSnTZ6ShZFODzcQuCe6iG7+Ox5PTjrJd04/v7y7W1waj4aeffKn4qLKO9oZrtTh8UosjFcvZgGpV0ZznLxfro1pdyMbs2aojyrWVR24gkax4KmruFP/2UnuJ+q1svAXI2tH7qNfqiYRH4wvxl8UW4YY37Yl2FTJLiqyS1kU7KeMxOclIMOuy2oIZ+UxxrUKC5golhcMn4TF6cmRbuS9tR+OJpw6WeZG++RVpRDsMKaV0DzrVI/JW91KmCyLyCth+R+UkiTCyn0r4JLmA2CtY6kCkTQrpOiOa8QRcw18843m18c2JfFvms793fOfeKgYD9KF0xSuiOyTRSTs649aQRhwg6VZFts5jp0u+KKkuRFHAFE4A1SWT9lkfgjs25KE6Z6X/7cS8JuxpgQRAYu+RONMJf9fkHdNTS8KdbC5VmqBUFixdt1eWX77cM9z3339/YBlVr3dnZ8t6CVV7DDEkG4aVkg6pcSRzNZv26ckFQJOIRq+HPCALtbaVGLWyG5+qVvhQ5lfkM8kRo0siRUhYtZZyZDl0yTHRfJiYOTfZl7bFum41VzfWd+f+uz94aeZkXICmRaQckHYP9ClVc+5ySoCpMX/enL2y4q1kukqlEpk30zlMiVfHmeVPYDw7EUlSwqxoFQGy6ZYKS6adz9O5TAvupjwZJsPmjsfBZ1QlKkxhSDAwrD+tVUdOyqu8orJOvv7pDeaFvr4SP9ooqJhnDTjOG9qdLmokfk78DxQKTwziFg74Vftu+yvv/boPiQmlU0FlF9OHYHJBKY/EnCAX8oaYiujcsL0cZGI+eWHpm2dzXvhmfHFRIJAZ9TbbyQcvS+UcjMlW7apqTE33YoPA87BlOleYs+bBMC8VHi/91w4cjibGXZ4+pBvlE98uwNCX5OZ6dwy9dNzUJJQDOL5luyf0yIApcl3v2Xlh8kbi8LDWCsTj7kNmYdxxToNVQKpJPCbeKqkTUQCjHJQXazAqm5GFMbpXX006rXtepfQMLAarLDX+QNks0vjtVoBdZp/xOJNKYWGafjTe5CcagVemS0UkBdsy2ZiSHlaiC4QwaFTjLkRonPzvemDgUHI8uZVgeTq8Oji5OBvMXnNHz9fVDbHW0f3eH5K/vsZe8Va6JC0eu+K6UIkK5HW2AgWr1ubiwGwjKLKtO+h+/Iuf/8WPfmbjzYX51vaDeyuNFXpeX0KkorEL/PWnC8LrZplIMKcylKy2zTqU670Xn9PclKlQB0b9zuV6UzjMFvZ6rjZM4S6ysRbpwiTC+Whojqz4f/ny5dnZCa8PToFfxbFbSCbw+eowEb7ilS6EY5Z7YvcnX6aEOqK7uqU8k1Ie4RcJ4MSKTIwkXiWFe60xHxv+wv0Hu5aOQcVffPYzmxFRYKwJNam4ij+0rg86Q0Sub0ytrEypzQsB9IAC5C9SYSYlIk0jIHMHSWZhzRPQUzfnDfWpmI2Ef6PBNvWpM832croUg+Orw0DmWMkDSfaFhxckjCDIYAlO9+elppuPLvGe0qtaHRD4JktQOfYEYeKKwQYtg1DpXvkvgf5zmRVgrqWAQttW+kwGI9vrggcsICoxMH8ozxFffFYSOUMhwZH87wi+xiWCY2NDvK5BVTwPrLAHcPbq48M+fxVHvRBt+HIImbWdMkuYVFRQ2wupZKzMbbgQDhZQhNqRTFLcQ+wVZy+iixRToISQVZCWNRPiQdoaVMIVnHTW9lTjoZQEIi/Akp46Uu5hYdGgsi0V4ERLNHYFi7NBuYK5e3t7HLcrK+2Dg33DiplLDl/Ci5i5MmAlsgC+zuSIIEsPAwGkCnyEWcmep8t11ZKhsNqLeupK3hANjENbax6n+YCtYeohoAFoxIe4wCxLNNyD1FxqbVg2HACTVTV1EM1rNoHOFda8K41pGRLN1mzdznmNBXgl7HXFrREpGD8S/C6VKTgBLDjWTbRAokc5Ms9RXkpejpo/rOVr1p5NSqM+m3ARfbaenyVUhSVqMf+T1YZaYWiGnAMOQrJcr1hkuZib/YVYIzFDqy5UJ7kBMoYnoqX8ZCYM2i2s/IIMeYObvz6KphJcz7PlKOdYvVa1m9arBp2Wk/KuPI+BatrE6M+bTOLq5V7roZBEnoavCRSE/XKPRmYR9VPjy2FYOjkEHgI8kTOCBzKaAj0UEGGYT41h7oJg2RABpE0qN4TGuDugfzSdyimq2QLPEE+Gb+xQn9CIvATMvMJ+I+rizqeGrAOhyU+gW1xJMbe+IHaEO725dD0cAQonzkH/SpFiGqb5RSlpOq64RCKC5kZEYkXnSMVlLWiLrPE8iSCB3AY2PPGJpkKA+Pr0CL0ZEXZl1AK21HD+lBT6QECQxSqpEIAHAFx7wBEujOR8xtLJD2/mPTOR3EckY01nkiM9kcrLV1O9kVIWV6e9y8Me55wsPovqG9a6EzkoXx/oDRgLEmVzptR41IVUjwvChJKhN5yyyA3Ltwsw46sPj5uNqQ+/9XBzuz1WUupiYa29e2ft/tXo8uUXz8+7w/lm6wd/Y/2f/+EfPP+Xe/NKS+GCUQVu7Llnx6zB4PD0dPHpsxev9p7+xu/+7je//d17uxvP9o8mil+k2KZ0msy1fRzabTsa00PxqRvBM7/aotzA+XKp2XG4lSOgKBqDT7ptARfIVNArSAQcmc0gcCKamSuqkki3/H7ICZxSYvII9R6D7t5Omuvt16d7k9v+o8f33/vmO+98+IB/tL28eHT4yvCFx+X6y6qNysKYmLm6f2+tvVwXqHDdUgywHY4p3xOB7BLLiEIDVbr9EbTmT7MhlKPTVWckqwMhL041ZhKEi6mSRdqVLAP4pzL63O369hrsW5yXdyR8ptp9XlYApeJGloEBArUPPFAF1jq+6AdFkulqD780W9FOGCHsLhn/AUVBojgAOQzisbVGye9UH6xOon4Kh8RMn54bX0lVV07GIlRTmawAJADfogCS85yi9FDUlAWTsRQQBq4Kl8KuCl3RVOYX5b1fnB0NLs9ZfYs20xH2QideEImLKJzjpdNXQtZgSPxq2RB03gGGKAq0QhOZy19+4gZGQ6+EL+Qk/7MpdhiZzraXFJ9NHQYsAJuwLMK0yYYwgXG4WJp5Owf5VbuoNwmPK6FcTUM/c2TB1p27Oywn3VLuy85XZBgRyJmva47SiaonZahlsHC1qXB2u7WwZGdcXobiN7ZUwxpp5XipL8YWa5LKG9yIXkjOUzAzLpPlK5Wldufu2+qGMANVjcmA/QV3w6MUBL1FyuoJ1zkwaBvo9lbsSeHVLD6r1Ht0QaO3rjAsKngWj/WlRS1zNOirSwavvW/wqhlZG6U4j+xZdhV/IZej+a3UbvjC+DKhkNLwYhTHk6PfmdsM2En6nd7jGmHT+ertpc/JDXnza3WPL+HI7vFs1OpyW3m8/MR5qtWvHw97C/VqNs1UT/kMg00LrpGozqAxVC4Xyq0REY5o/56NV73cns4WdQ3pg0rIvrzNN27QsmLQL56C3RBTULRIJb0wbTJbsMUYMUadVN/UmtbXOCDo0lzqXo18ARzfQtnSqoxQyBDHyuvfWFjVKHTWGMyn8emLzgZzEUTaLPIbYcRuAfDI1IjYmN5RsPIKt5X2AgqzW8RnBFVkA6inRASJEPdCya4uwMig8mAKmceLBV5BP8Mzr15/PS0rnxpjiCl4PL8Y/hIGaqbsDic6E+84xmYvcGlp3F1ygWJJlSNMpTrCdCKWM778iP7yDz33zToMvdIsoMnbyODnxFRPhhed8S2X4PnVdP9SyUTlNVt89Kc9oeDpFJiZnuG1r9WapakMhEFAwTXg8I/IVplAlySWWJ/q2zeCiBenzdbEkipJz5L9rkcL487pzWj23u695v2G3O3u/M3v/Y3f+NlnHz3fP5I6rq5cykvLL56/7Z7tb2+uvP/+w3/1L/7bk+7h3t7zv/n3/pPVlaXT/pjcwIWViVHA0HppOwJdqtCYpMFzGck4F6XV7FWUAgiGDxY6nAkoR4bgB6AxHeWncoJmswoGfuFS9DzPOPcEeLkbLkc95hbJzi2yhCU6hqC5X+YOaEvra6stGgVsbeI+lHNJhXZZYKKLe8f3gHdNiPjrW8s2z1kpa+trbENzX28sWxijVBz9YDQ5Pzw6gDYKBF+O+5x08ImiUHSe8Eqc8fTUMGGdtrgbcEV88QL2nX0+oKiwH1g1BmLctJLwedp2fQqTpWFwbCrS0Fxqq4GkBL6UxTrrVTUkywXUIbfoT1aDtKWEJWER/I7nh8MnyS9TUwqeSruTil3mGRWi9dQrYZ2fqy8s/fnitmeJqQJ0Kpo3LdePKR+hFOlfoKpdOhB0QWdhLnlT3OTR5rJsn0HDH9g9U9DuStnKuDRMVeYwNOcUBOPyu7WcttXr9cny9FSDElq47ZXfL3wPAyknnszDIbJZgas5WwcEdhI659UfF/ux0UysTHhioxCARWAkssqTSerOO/MZiWgjrbIk6+ysYxEg2StWt/fylWSGtZXWH/7Bvxn1BxAJjyB4fuV738l7eTTQBYyEOUxOUhUfYbzGkL056ZxYLGxX0tXVZfPi3EQPej35/jNLy7LIJAlnvHGD6fGspWIIjxwATMwuertNXKzQaqy/3j8gS+lo+Jc75U/P1GdumzaGueYYvG1MGyLnHxF9o+RMXabK9XljfsUEJAITOQjHIxDCkAhlARayN8FJkTOVXDBVTp0s5SOweHhoEJdwQGiNR+jCUtdSHoiyYpkMQY/zaSuTEtZcmF4UCINxyZFuFoJ0XjiU66gxD/jp68/MaxhmeSpSo/yW33OABBBjRKSARozCu6orAX1EXcbnUvk1IjyPBavzryPvy6/lMUp46YS3IHof8NxQMGsx7TRjEgrSFPlE1HAoWx8LXeKRi5Ca5kZjLnNiJTwVM1jOLJUTk4L7M1ZW8xywbCKxSvsEFLerbicHNkKq+O6pKDFBy0HYmGy3m6ezs36J2mM5EfaIH86SqeHlHjV8pGZbEvZeJBTvcdRSSK8lFOFSiUzYI7SOMNzJ6R59uPTeHTRLffAgmPjVGzziPEtenVHzQ1DBCUrv1fk10MwuiouLrxtU0CAtXV+vLLXPRxP1YRS2MA49TDhFKZvzieBxGEEYSmSTDhsC2R5w6F44MPd7QQOLfyXYIRxoA2wz1vezEpQYuO6OFGGyj3v/8rZ2I2Z3W6Ofr+/uuAsm8LcYM/joGPCPbV7Q73Pt23FVOhxH3KKsawu0R0qhdXCy0UjtNUPimGK99fiLLrnh59aPji7/7A8+uerO347mt5a3lRS8WJ46EV0endoBcaxYhMSoxuJYefXaIvvj0y8++o//o//kG9989/Mnz/7iL//0yxfP/qP/xX/aXtky0IG9ay9v6w25orXzwdCKLFtaPPvyiS3MldHhv5OiAxzhzsXDpvNB6HKAfxAgR+aiOvwS1A/a+sm0RQen24NriSgk6akoW3mkqC/E2YzpU0dLjvb+0QlMTvaPbaOazXfevX87NRiNDi8vOrWauT6/nPR1QNidxqVNRf1tryZj4uYcP5oVclN6ivtfruvJ6cGzZ1++98G7gibNtXqvf7LYWrzz8P7xwZEEAdmEJyfHirOaavgVnGXhxncTypT3TqqpBoWCOGJgWcGvlC446511el1gIl0lNb94ftobvSKpaEiixalcPcpS06YKZiWXgnJPXs7XucIw7sWVtU2uYA6E1bZC3Ys4Zbu1PDdblwS31N55vXdo66XVjTtK+/bkutFi5xYbtebgdhyai06ZDQppcHpCnshpKyxSIepomQEKCouFNNOYq+kkbRQdf/7Zk2997z6VXdA/8ePr666afdx0qdF1QXmq1+Wa41pzAj90WMSyurZ+enoqj05b4UOU5dSSz4wzya3VC/+xID9V+KL3hhnQAhVxazTt52H6llaaveFreXBq19av7QBl8ffsYCygoIjXdOestzUet9or9i7gDFZZCuCNr9M5tZLmcO9Vs95ijsMFgofuo4xNv9cj3c1TYjsxiIroDiu98IrhxXmzZTtmAY7wAfbZksUQjTpMkbWkd+ED5pp1PUyZbWzQsCD2oh26bqZPTwa/9bt/D2n+yZ/+eC4OVsw9kgLMo45i4fSoSKIYTdgcJ2kckjpjKs7sK2pmYrXesCmIaIzcCzFeTBbLRQ98zPhX9H57N5B1US18km5RdLlu03BU+niUcoUdGt1BexwyCRG7YtYrqWM+UBf+WEwEbDE0CZUzUYU+35BjWqgO76sMLF+dO77+KdD0XVPlugZypbQUD5XruVSwoEIFeqevsb39WkwTJA1ioX2gKn5I0CvsIYY3ZpS9YFRntCFNwt3Fo89WkkuTRSEp6BLvpeEH6Fw2NDbpsNbanIOgjS0mcyNs9jJFklIAF9yjoXlZVr9KxpTyS0ZEnSmQZSBlEMileDzyjyOSAzErzsStbCShdaJKU3h9wKHYCSXLr5RsozOjBapgG7lIuGo/KGCcKbdw0e3Z+EDDgaQX+tXPGqXGxRtoxsqMVL/qrN8LPuHmuEwQqbiaYAtdMksqLiyCLMSmX97/9OAlzQAzpAZKjwwLFnlOMCnrpiLF49rPA2Gp8alWCJtcx6LmxNGDLVAYy+yQbU6S/xYwzc7Z7X5yOytXVSm3rOc1NbPy7hZ5PxeV2uCMwOGkrC8kawA3cRi7c+KgbCU+Eny+GnLAEp7yzdhuXIOjYMFsZ25WWldssq2t9V/53uNXXwz+8o8/6RwfbT24c//hQ8Wv1dxLCQZGCtcZYqElQPG56bP9V//dv/xvfvBrv2lGD47Oup0jRZUOD463d+4vr2zJHzg7GjXUkbmcWDpi2GPCqt9TcHupCaPmL4hiLQVv4/HRga9n581E+Kf86oYcQREEF+LC+3IBoeTchNFtijFg5An8RKFCzZRt2VcQb2oy3e9fd+oXHEhqK66t36wqvlZbt9hybmG8uCjpK9NkRW2C2tErojxlclhrShAQKLHhCBJ773RpFcNRh+yRdyOJgU9TrMWVG9Yv+d/rnE96+K+Dyl+sLHY4BBGH4AWlxtmNRZ3kWpwbMDG7Vg4W6u+pI8tAsoL/wh5St7Wp+cYgm60JqEuIVrnOIlfrp/oWgfBbel2nd2KXAAij7uXB6Qs4wFaUKZPVPKk5GicE5jk31376vHd6NNV9NFaPzhSOr25Oj0/IPdmmren5FptNElSCTDGUkMkkqnjSfsJKA+fYDobCawAq4R/xOkydD63bsakpgR+mEOwOcXkpYlXZBmMQpkK20A0/yGMVWMxSpJE2mHYxRWIDynuSj2PjKAcYYTBBMy3i126yzrmhai0Grszu6uH+AcWMNh3uosdF2y4di7MlzuQbEaloNFpmEUKexXptY219eWnJRuDwBUnTcSlOxPxpKMbkI1ISEi2GiRsnlaj0Wa0YpCkWu4AEFK9V0cpo3JinqMvZcFw/RZOigAZrs+dRILO5uaP4xfMX+6/3zywmZurc1qX92SNK4E/OOf8gLstwjRNKvEJWgFybxL6S4kULIF00JtskjC0MLIrs1AKE5LnRRZQAzSz1sWjMdny4XnbEvrCUuNTEotriHOiGParJlDFIgAELMUpwNbwiqdLnokD4h5BzilEVgszVcKfyez5zlK/Vafnxr9wDL8rxFUt987U8pJncmXfmbW9aSwfy1qx7IJ0q28rgvr7TiWkUmoOCWVGIyy3WGM+qkpjdGKvs3BTzgP8KFpRIXaIREvFKRn8iPw6WxMgczS6cTy+MZgRO5sZynxZq1iL0pflEUdAD9gQFiyydodAOQKKk71EXdBKn9alr/g3odMxhTNh7VBH4XRg7BYBhI2qSSTM8RQJ0n70X0Z8XeSqnIdEMUwtYsROqjhwaGV6BkbuDjVXng2mXyaXBM8KCK0hmjjSAB1DWI/39FLRIy7xwZ9Y5hQf5n1GEGLiBdWlnYyWGbpKurLdM2RnKl7SLN0ssipoN6bw6ck/Yxj4lxYgE7ag46bAD6isjEGGAM9N0hccV4rTPCc/iYDI1lvpKBXav1Pbsm8ypZIPwqFbo0+jQORBmj5wS+YLkRszgHXZOVxRD657KheF+EjRizqlo4Hf7xl1PDbIs6mqEbr/9Kw9/59fv//7v/PbU5Vx9qXF8fXo06j18tHXy8ye4IP9OqWESdkDl3L5/TwxAUcD3P3h7baP70cef//BP/2jn7mM+fvqCjYJ2dh+cnJwkY1wptCtJ7AcygZP9QYC4A2PNDIaFZWpMmcFnHjLvYAIq5TPXTa8bfYUPgU+U1EKtrpR/43dwY9QQKBCfoASvS2O1yR0Q3cydnVI6BGtsWDz1f/o//u/+4f/yt//23/xuq7E+uXgtcV/V3Vab369oitXMawxyZOEEVpwtvogZYL+8Gi6vyIBX5x67u2k1GJom3vZjhoHNX6CkpoLwb+bUpIpvCNFlWrN3dHighfLyyaSqsImjETEm5Jqzimnk01Ot6bllewPcSHCeVR5G9a9saMTPTOYxa2yvDuYLDat0OS0vFVywqYB9yeTZX/bsf9HB8Xiu2dYc7frV617/F//F/81muza1GvUm3e6gc3xMkL3z4PFpZx52DMtuMhadWCYIeBwWUb0L9AP3AD9RbYA1PifsP8waclrLRA1VXSnP4DJRycJmlJxJZujV7WgUszozGrljTkMx2EjhHpGDZc7jESFLmnXKcj1Cyx4wysEWHL4tO+Im5WPa2jlbaw4oI/cfPRBEHih22aUXZpbMRCjXO7ynom9qKvZe9nRFEeiA8WR2OEZ4RrN5lbXt5jbbnEL+6NXxe0RExpSsmIrZAeGEt3Et3EduxoV8d/tOBdFKQpT4w7ViExlZnKnTeGklvAgwBdrf/sYWTvDFk5cHh2eyH9B6ctVrIsBCKYnfxvfErrTvb2q9E7IlHUxGGP64iNtGVCWBnb1MyETke3Ui675FoBe+GkZl9OlCiY27Hncz6Qn69DXKdRZ+JOxjKDLmA3kNZGqTLAeCoax8DbF5vBzFWipsq7peXf3lTzlDk29YZ3k6j1fHX7n5zWm5IYStnz7d9tfvQfx5cblahle4QOi+rIwzAfSF7L2XUEPWoMTLQlm1N/wcUDWuprkaUAXRn6JUrM10D9rlRcbIe4CzCFHxUAXe+OWcLeP4BiaKnuLXkpXjWIttcT0mrsby0PHKsB7oJU5e5FQJY+lnruUvY3FCqkXK517TYIhx+VVqtc3do90QcoFxjgwz2gLQ5azgTtVGdMzReJIbiqwyNUHOoGdJ99BKiMnvlbwMswxbzv/UEaGQCJpwm+mZ5fa6RvTF3RrJDuHFlukedzWYsL2Q+2VqtahBRQfA38kjtXAIkgg5AyhC1FpDkMzIgiqZuNIfmQg2lyI5Yy1gbaPJdd+KyMl0d3TRn8zDvpTtmFVG+fr07FBWLnd7MmF9L+oqskeEnU4n/lybDegmFqKGxbA7GDaODl8qhnh7q9R0NgjjvgZ+uhjZZx/eqWn7Cx9PRjdTranG8mIBfnfhetCcvnjwcP1HP/+5lmgx6FFYvXtyzKJ5+Oi+QfW73Z3dJftXid1JpX362UdPfvHx7t1Hv/f7f6dzPLW6tJo9banuo5Pu8Z6UevG922uRf4p1AiSAGfj/EoGhTCb7qzn1b+amQCk2b04wY6wiYQ3ape7M0rQSRQyPqW6O1JJaycCiAiRz6+a6f4OhT3MeyKFfVqfqdu70tDff7U3P9u1qaScwO59xOWk/fTFPQTppaRig3W/nxuc3zWZjMOgTGDu7u0kCXJyzM5KwQbfbBcjoClV+ZqMODbAVk6spXuqo8dZxz94qiwS92Mtx/+Aj07xqUaukoPNKJ0WGz0yKgTWMtxaoLs411zBqXG00vBmKGtq/Fs3O240lNZDEdBBY7UZduHkRpaZRbUq+79hJYLVdHw06NMTawsreXqdV/6eDjmWpFzSJ4/Mx8futd9/7B/+z/2gwtLMgvHipOqb0U8xZ8RFbyFvCqkWTJKssAPd/ItPmDsML5aVWivrH6koknCKvAcvn08Do4G8oMZ6YWSEuxlPot7ruJGog+kJ7fC8hr8gqmeINi2852cRhKNBGD+zmkvQRJpZ3dzU7JgJZBXN1ddgfmab52XCtSXL03YqfVfQL1hpP+/CVMZEexV/Pf2Z6zAu274/CK1k8NIh4iv7qPpMeFRl6SliOc0TjyaCEdAp/MFs5LuxvdxNlc86i+RB//EQCw5lgggam8R9KfYh0Uyt7vnb/wWN1Eg4OT+2oSrAbFzYY0V6ULdiMSYURmPaccMlGOkWw6A9RGSINS8SCI+0zFfynuK13yl5jD4YiMkVageeEkeAomoneFwBg6XY14ly0Uo2cIiwx0nDV8D38JJwPyUVOpBlTF/lUNVq+Vj/ksxJvv/xezoIbb0i0mMJpINdy81+h6uqpN83iyH4N4MpR/ZbPZIhXFKxvoUAOCZ/0aFgCmsSVT6FzY0DedskgT/giuG1vRnPnNzOjC7H92ydPnvE2WVgDObTKv6wF5nGq/8lzYsRbxBd1A/eI0FAyUm10+zmoDYYAJiJaVuLcKGelFC9GF45AMBXcCHs2EaX/AV3mr0xnhpy+G2N+jNkdQR63p6ARnDfL0C7DpF5hLhEzb0AaRC8w90BmBXPTRLnZNw/kG3u6DMfXIE/4Sw4/xiJ0EgxyHcJoLGXaXj7bA8Y0hQjyGaQyO1zuBMRyo1VbJibgrf+RK2tVUZkUoXMEIR1FWZFspgUYhWPTzaE9wCKMFMcoCr755LBQLsdi9+E5rZyNRV9SqiCqBqsoLik76+F480r4hKgiClVvCr8ZSyrg1YXjCS8qWG7TJysbB6dLq4uohkc8akwisvTBrH/MmKgRGOatHdKfWS6p817UHfUVTHz78Xq7qeAZW8hyneiV62ubHMatemNnZ0uSm37oy93tjZcv9rO2aandPXnxR/+vf/Y3/tbftVmJ3G4ctnvdu7nqzlwP5DXgCshEnkq8gRQBgM9slMM0Zh7Me2buq88AOcyFvfoG5c1Z6DsHyRNEyEyUVSiI0jmT2Zo/EDJ3+J+1VLd9fRvwEAkJ0XsglPr5o6vL3mQ0WVhM9Y+BZdjmO0H1LPgVwWU6IHjVVeUuiHKBLS7WbrYMCoCznNO6P3RZHP4mEffjapVaUjQsPrJohpm0zI7s6qFh8NIkMTnCzGEmplWFmFL0cMYuTVCnPjO3NLa2bmgZxzV4UrEp29O3tpxabtu/dkFa2iqXlC0Hr8bD+dklHEKOohhlxwYY4+k+5WZ41Tk65IdcX55++eLAflCdg5vz3cGdlZ3Xl5dLC1PLizP9oz2dv7e29qDZGkqhOTzsn3WvrhsYxIvDvQ79tBjp1JBYVXi3meJRStKr3qO0KVX0AIT/pUJmmOGk4Hlch9P1WRZ54YxJ2sIXDVhT4fA+Q452pp5eUECluVBTqj/7t8sECgWwOEO50o3N9xXPypJdoBjpa2uNg/2XFyIFXKuL9lpUvmSSltF94bphHRE0uoobRmsBb+xNPD13QSx9xEjCKSIz3Ekr1qPMSzkylsjTcAz6JxwjhcgQdgpOTpYydsViK5EGJxE+hTRrNhYoQwZOalsCb+HLbL0pAXSVFfiLz58cHXfmiAqkls3zrACHE/GhBAXiJub6D6oFSASaMArmT+zhMMWPA8cE5OE+UmGVJ1e/1KdIR5lSPqB7WRAn7pSFY0Sjl9l3QF10P4k71oqrkYiz8Ivf04SImaMY+AhBjd2ATYp/35y/YabFxiqgCa39u450wRFB9ebZcpc2K60zfCg8NEzWoN3sPFdIDELtqyuFlWLFoadwucJHAx8qQDHKFclHl+r1Rg2xUocWP7qaG44n3cFg/3j85OXJl8+PD08Gqh0jKAsPuMJB2YoA3rX6/JQNxdda9Q0qdLu+3JhtZlU2rkcLw+fNN3E/XW/QGCgeNJEr2nk6Y+LT1yJCClqYkaKZlR8C/LArR0nPM0kh9Qw2XjtH3LX5uaS7gaGxZdLNpDq4AUj4FXoApbiE8SqxhfIiTZecjoLHN4XXlBdr080QNc96X5Z6FL5F0zPrdLeEoqekzFVkRivBzgh7rs94UwPdMLg43Y0wtJOOSnlADz3CJCkZuoASQ7H8mkm5KEkqWRoD9P4rdwQlg5QcKlm+hTugPL4HDp8JPYnMiittnu4s1iuEi7KE4UmpmdnFoktKuKDCGwgHlS080OlEkdnTkyOexnsPtl9fv7LoyDzyFLGsZqCAGgHxX+iEvDUWTzaBZg97VNQbpO/trjy6v3V4umfBN1LW9uB8MB7dPrizs/f8BdVNV9c3tp8e7otR1Vezs9/F+HT/Vf//8l9++vu//7d+93d/FyiWmtMrS3O9Yx5F9QTiBIQiwBrHBJiXwySWsVf4HDj8D45IavE8T/CoRarQfYRrEvcyZNoHTsS9g365QUwD36kFl8KIVpuii7nzi17f2uT5+w92pKGfnh5P3XQZTtN1bIuWToDFm+Qt2TCIxE7OgfWcOhsWpyppXw67JcdDCwZoAKoQkTlcY7PyDE0xmDPgMEx5fOGGDg2bWt7hcAKlG9kBScsKNy/uA7fAOuvlqOMXN1LmMBdJY40pBU4lHA5vXu0d9066s7IT5xZXl9ob7TZvmTzMO/d2F5sSiGZsvSuAPLmamR8zi1cbayv1uevGwvVoSDm3Au9279Uh3Qq1orGZMLOxndtOXj75rz/+ia6qk7YkZ4EjKnWocEr8dNZgmojQbBjgAijjjvFTd6RcplgG2zzagkw3Hswlju2vZvDNCV+9AhiBPNXBIexnTWKmHKHxR0QTDJXh9dYYsauQESiCtKmnlpItmcUQMAVFNZC4SslI+SJLlzcHJ52h4tTUiVl1XM86JD5PKfIxQ1AoLyyHzhBNWkEdVlDEDzc3L4k9OofcCHNCZaNiM9ugv4lS3DJHhFU5yQdFA11Lw3PRPd6FSUTGCTOWIIqI40KT7h7PnZ6abjYlvUqTq2sbNPPPv3zS644i6rCtuIfwI08zLUvzjClhYdErpbNK1Xe9Nk949yV/FX5Jwk2y9I7w4g7BQabtdhHYFGQPUykOZZxCOe4LJRGKqWTy8C41COcmnF56Fr4RMZjU2WKslfdTO0JjZsNReGz+zeFVb6CQiSssCWfLbW+O8kgl24q00u/8gnEWks5prCh/1c/l2aKLltti3mHpGsDAIy+T3hO25VqMzYqfllpoBXLBH91CZhJ1IMRgMvf69NZC1GcvT1687h2eTnWHU0MhE+t+hvFlV4e+T4+mZvvJLTk8PGnXp9aX53c2lu5stDdXFtsNSoaVRyPuJkZYMdssSooPGUPmEqqAoSkSGTwqcx3MYGZgVEYadlPui1PA+3K9kk95uTEaS3Uz8zm90lBR+lhFUcyxnAilUukP08FZWCikIH7hZtjoAR+312p1wUWkwq8g54rJqFSeKzh3eCLJnJQHCAKSHp5Wp5JISOpEJeTwSu+TQX5yCpVBMgZX+uqZ4liILlnspxhPbqHWpR3WYfQ+/0VOJg3SZxCnyNo0qcA5d1apPcWgkbWqIKc9u/lmo6pcXRwfH56dHmffyNtFAXivprRpH1joIr6CW9RIC1UuxgrkP/nFgb0J2hut030sIS4EQhP9Wq2W8LCsk3k75ViIyg4eyqzEoKiwtxctrGZmqvH+Ow9/8vN92owABwFXW1qhUwrKcEh++umn29u733z/w8HO9keffrS7uytf3g53yEuK/B/+wT8bDg5/67d+azg8ajZnJVmQgSF3hRXwq6w9Mb2ZFp/hThH2sbqrKz511Fgwt8wHIvc9TK9MS34IfsAAP6SBGG6FBlyCKVkHySCYEPweTbG88bn8i5X2UqYre4JGgeBNUJ5ekUeBE5NHlwG7iC7zr53oT86VQJWTncT0fm+k63bhm7nVmrrW1xLcsb/kWF4Mpc5T/2J/5EgpdwpPzrj8km8t6Q2DL4uQoIM+0rIurudj8dnPaM42mGZPsufFZOonH/309euD/mmfOixYttJa2l5dV2JfKby3v9HfvX8Pazo9UzxLmjotcmb7nd17jzZWWwv1+Znmyo6MEMVrT0/PxgN+yAXJDzfjUXt+bgnGjXoWnG2trCijeNXt3sxIuBYhS4q59QZK6Ddo5GgrakFEmDNahvVlvtFEXZWODjOw/vZaPKiODNJkpAgWraGaULOZCTV3xZkfTx1A5QsV1dI0BEdU2Z8eU46SmX0X6B2EFT9bsHk6S/SsDraSXV64ikNnndHUzLFygti1bUIjA0SHwlmjieIHwQJNZc7yYt4LuYgvnj/Hs7ca6/Z45BLM5sgQHlLEQ5j92NyWiF8oNJZ+ebWnHeEV6UjU1+KHSOIfIpAUAsFZuQ3bQ8q5J4dkw1zKRgkccIbZR48e4y6WJtrdGwAgit8InDjD2JgJrqoPDQWITNk0CU6IpEmyQX5GI+cGJhXWjVRIeB2LlpuKuWVo0d5jhxJX5WCh+xIeE3ibkGjZsA+zgmjFwA2ENOMzsfnww7wibKiiwzcOPePNr9UBBsbj8406GfosOnnFfAuEAqho+Gkm5zmiOHhfacTXgAVj9GTYZ2H3ep0bKRu4n25xvKGTTJ974wak9kgVmheXmrKjl7L505bEWBpxorRv//bnX/aOO1OHx5Oj06n+0CJ5McUsg5+eWWSlRm46+ENp42VHPps5jybuvOwhqf7lYKMlt9YGa81FhZGm6jVLSoPtFCaMEypwehU4R7kCqgyk2ByJZQYmsQL1kzwKiqSOpNhv/AKexRQKN/ZYcgIzJZ6IAWnk4czQmyYUlIprIDwnzALezM2tL6moP80YSgp63ONEbaBKFhVgRtjljR6z5h9o6CO4iI4XEQeRIqFuplR2qUy5MD+iNjwvOhc9C4nC+GqOcy6fX3pvQGduY/AVhMpAtGOYeVdx4VZknOkRts4yueCGviNQUwP5x1lkAXQk0CIXAhkqwtA7PT4+2l/dXFESmqmEm2gnstCyx2zIYm+QWH3W6XkvnqCK5toSQWH2gvAyBsECrDgSTTIj0UYIWATUmFbFyZhupDgHycUI+DC+9cHDf/mvf4zX89zr271798Q6//zP/nh7Z1M7qP3Fs2e//ms/ePb8CUsPHCw0tXCIDxCh/uhP//Xd7Xa2aLkYrLQssGza6Wo0HsbEL7NVZlA/36BE8cMWNIbxAUZQPIhhukx1JrzgNASBTHkos055jGSFbKE8t8fTgY4BPqAODQQUDAK6COdb9H6BwNs5ulqhjHhiYtwYu8ZiHhdHXTAiJRsE2mkPHAXZXpqLlU5+OWk3acZ4K0EVtT2GcIRwELC8V18LfpqfsPGk2Jp0JiymrVewD8tmxnFUZYoVoJtr27VFa19++epnP31ydNbBRW2Uad+j4dnwbG//8rhDteofHX9+frH/8sCDPdUkLbiaqw3tWsHcb9Rt03c10d+bxjwPlTwpK8e5Q+okpP6u1Gu3tiOcXD7c3rIK2iTJsCiVPa/sFhtYQaPrG0Uw+a+DiiipUhYtCeYLi4ssnAVvJOiRddG2TIB54zMLFSVgSGAZX0HzDL5kk6dBDkMRgsRZEoKAPGjZw5GBTFjgwk6nFuh9k7jzFiWbzM60dx8+nM2uT9P9ztntbMvubfbqFQ5HgbxxUzMyKULIJh+qmBLn3ODKAsMDrIGTw67Z1IHL3kWyzmdmNxd2onEm/0KuiaxmGqAAWZI/MdjC68OOCoNJlySdqbfVbq9Qh8gpyRXiKEv1ln0ZCSQYF6q6uSDErmeyRDdJ0VO3zaVlNTl/8dnncIwEEjtKRSl5JE4hA+SIrzF1nJIAKFzCC2jlB++G/CgBKqBBiMwyLjOBMnjNpoSY8gEM8WI4Rqis2PgSbqcbjaVgrcQKWiYzcGLKsYQau824YixhWLqmX1ZfspDnrr02Bk6MmqrIU6EeQrvETgoUkVqYV14qhEomO3BkMMlneDBQ+zWIkjk0/yHd3GZGuE4Cl7wberi3hA29C3/nB0wzach/SQtRwCRxk4RSaElcGvGPz9PQuxNM8MYeuZYrDEYzB8e3L16OXp1cfvJ0YkdlqgAyj1DyAiJ63iYgGga4dEPvdBO0UTElgEtXAOj8VD2e/snR6M7m8uaafUOIK4VfL7mFGjV1ur0cmJIma4WbAWLMOFWwSifjN+ArxOe4/kVn9JNaiz3dDs/PC8kUbGQLRyWjrCo0XuUb6UZZ4sAwqmWn+q2tHeDSqMYjk4KsOdxf5BpSDB/BsMKubq4s9I2pElEUOBM9OG/K2GYeTH5scgKGnyEH+NIWzEyx5KLHlIse5OExKVEqM7jMHTqRb6EAeIBVaMnl8pYwTXLQbXmHwaTSTxhuPASBLDAn8s71R6dUk9lWH8oqIUaVNHBUq22TtTk3/eLzX9SM+N7WLPf/dRTP1kJzosRCv7++usSRPddqfP764P766vMnLxQC+a3f/vXt2uTT3mWDxqoatK2Fex28EVb1LG8sh4wDgAAkMZvG/BwvyvR1Dz3sbty9tzN/fNrpn9+urK29+8HbP/vok4VWk4hbWV2HsoNhh4x+9/0PP/7448vJKOXKOAyHF2srK/z4P/nTP3z88FHn6OVau7Xaato27/TqjFPYZuM3VvKpzDunU7XETW3iTVlh+UZJsZqYEU9SZecRHEEqBI0yG9cGS6AIOPsjMfhTxwhY/VV8M54qXJRkiHKdumuohShYUEFnZqbTm6yutIfjqe7gsqRwm+BxnFGpaR2yQsApmz0no1CgAbHP1OfqkvvsEX0xlJRvh6hxp3tpJ1mZljqmwyKG8GjY6wuw6zrvc6RjIduqqxVGKUAQRUV6CEUp616wCWgmXrGIiCzxbjZWTk7PfvKzn3z5xcFwzOpdXF9ePXl9sL9/stVeXW0sWp172Z9Z557qnME/iKA8d2N5jTtqeNL9yR/+0L591kJZUgzP+4Pu4nzLAi6yK1bUoGdLH9X9ksY81TjvcSXPI0jUAJJoPUpfKL7AlrLI+tDvwFKUE9ipjJAFEcdnSEeGr8qhb+9KOmlMLrvhFnhd+GtYk3JfkWRZLmKQnhqvLG+VzbNS95MsadQay1aJkcXJiZngAyo221dekJQvtL60sbrxVnPpDuZKwEk9vDwfXc3fvPfN37DH99ng0h5TuMpcrT01Ueu2L6QuYHQ5ykrHFHmZnR/ZBXt29uWr52zfO3fu0iDfuvcARlmVtbTcpoDCW7wBZ8Tk2821mrU2NJJaNjoRGQsznrEWQjLaQrMd2WH5dvQ50y2gOC9fisd0alTqnQh7yG08p3BY2yOB8Orm7W+8LeimCtRx96zRXvrzv/gRhTkIC5qcFLCqoC/BddO9ulR7nm83koJXNmzF/lS29Q6wpWbA9Ev2FnGDOyCLq0mrvjSz0EzKi4jY1DRYj4io6ES3F/Cd9SsBEa9XXGd8YTGbSiY08lrWa4dmksxB5wibo5fDxSArHoiwMKaEEPGq8Kg3ByRwRrBXqW4FQzzocTAMPsTQi1IYNhoGnF/0QrEOpBxGGdmUAUS19tXr8k7Iz3uuPynFEuWVoRBvOZFgcuepLXLyZ9SNG06mO+OpzuDm+HTyfK//7OXw9cnt0XAKf8TUPWlWYrGwrhKwKgiIsLw+ciTCJy90PSupi2SzOGdAYRXfmF5fETq9qS/eRqMLk85ibVMhaAEoNK+4XRPn1BJIaElphpznAM9if+g+sOgJjzNNAy7TxWAJ1r6yskYmmPB0Js1Hjybi+70hieJKGgk6RDZUToUKku4KrL76nLnpFWEU+wyMiSWuHvGhNJJmPK6Txa4rT8F+TWvKUdSS8Da3GVK5hqIzivyaQ8ZUpBsrPr2NjELgHE+yDLKQOXfkiACOcR5ZPvYdRokkAz1COJ9cDZVcCGeGMRAEL6ZJGDGL9HJJiodlU5xacZDGP0GF5EJn3E3fNrqDvnWXAgO9vfOHuxv3ttdvTl7UxRE9zbkuc6uu7EVPIkyMnLDNiPBo0/HBcghCNSzCtguNk/7B7/zW93/6yT9vLs19452H/VHv408/WloWTGnr87DfPTk5sn72nXfeefXqVfeMoy/Zb1Em9KNee/HqxcM7O7bEUidHWu1K26a/9Z59JSkWNMlYx+eJiNC+PAN7CSm2ElymLJvJcA5dLvqBOyBetCcXKMJxGKe8HEMyqJgdwkyIy6YB0DMvwQZBAzw6xdbMwsnJcEl52rpcVlQd7S7Vu/AmHfQgp51IpfoSZiY2howwd+GOtWF6a4vb1OXzSkl8sMTkQm1SwGfkG65ZqLd4IwqxBLkzgmSXlrHE2mD8GUaehh9COzaSF2sS7JxZXrq9e7c5Pp8768+cnh2oyvg//9v/qx98+N3D53sHT19tLG9S0L/88mlnNDjqdrdrq6zuk87rpUaNd2PvyceN5ulC7YH6s6124+jFKaLw0mQyzM6p8uplyRSzMAkK4VnJzySigpZREEI81GiZHVGeklmGxBJWiJu1QlrcEOYGGeE0dQNYhvoecjGYUEaF2JizzKiIGj5FXmzVBblXrAmz0A13ZtLrUV4S6gDr2YVThVumm9hqe2Xn7sNvT82tS4e8ul3s9KTlS4c8uzjvmduFxdUZCxFvLq08o3zPL9SNTNkRRGE/L+jAPEYP7GXxJSnv//pf/+vvf/f7v/FrvxluZS6xctOHRoJUSWvU56Jx3vKiWvQyn+Q+QlRkl+1Z46yMMukr9pUxJyUNaVvfZFL5UDORNzfCeC6CtuQzMGy02hjW85d7TAxL9Tnl50YZayoEwhq2UoOSq8QLnFmYGc1N27sAdySyPBYfNcyopY6ZtziXQ4om/Yh12t78qmF1ln/OBZcbi3UrxQ0MWAWScTSzM1+fUzbD8q7Z+SubYrLTFjm7amp93NT4jQ1o3mz0+CMNKJyorGSkXUBHmpc3EjAO/5bPcksBaTC5XI+PvDqCyF8LKWIsGA09zEkeNy8QDOBwheJoUlommFNWCaS6pyqR0GB2ytYSuRr+Y81BiNr+Khbx2HbzrH+1d3Iun+K4c3XWdUX8fMpWheRvRFMlRUj++K7CodNn/+efIhnDroOagEpLyWWxjjhOB0OJVtfNVut2+Wq2YV1dkt+mGLE4F+nlTphJ9pCgkCYnMtD69lMXs2wFj786oqgGDtTkCKRKzGA24PBy7wAT8yAo6wcBw1bG3+XckNtQp+oqWHmKKy+TXg5Pu1Kd68mbNj1SDsKMoZV0huLFyNAibYHQXIQI2WE4T/VXvK0gE71E1hSKM0sGBBgFLFpM7L3cbqDEUfzIpsWIqGqBWIFqeQq83UmSa8wLU9q6BMK811jSidyb1KEQNv08rSeCz/4Zc9Fll3GhuuvQjDngtRCHG07O19dX1Fzt9Y/aV91nTz+5OtmzMIctAqCwBBIBTdWT4jgz2ZVdTWcB9vj2a2rX3t7aLuqb33p7Z+dP6quP1V777//Nn9lEvNGqYz/8q9OtxsnR8fOXz/7OB99ihZ2Pz4K+N8hHBGSm2WjPTR8/+fLph+++//Of/nDz8V1BslZtffpExe3bwcXUgB8yS2FjOMPnrI80AZCbNppRR26F3yeCGOgGE78CcVwS7o6vSWdDebnPacALP8GtPBSEzhzL9AhDnlvkxN4/HM7xLc3JTJ5qiPbMTq22l4DEysqosjHIkyOmqo0ViUw6OZC+jEeKMjTUEpKfatW8jGgvy9pOHbH/24wSt3YDQepBw4oV64mO4Y0wJ7LUmCJIIXcuoedsFylNQKqLRMzFxoOHy3fv2Eisfj272mptjWkU/WuVf9Z2doQq+6cjrazevf/BnZ0Rp1FrfjgZ/Ms/+FeTq4mir1fDk1dPXy23z1aW3llb2VhuzFm8jcCXFUhZrB/a6Bl2sZwksyrO1DuiI1AAmQ7h72W8cB9d4B56VFA09QEKPOPToEkWCssexCA0GI7Bl8M90i2gRwWhcXPBm3UhM5OMsrKIAeYr/8kkOXocWPYttNYt6l8gE+fU9UydkdVe3tnafbS0cnd8UTs+6B0cj047F3t7h6MhrahjX0bblrWawnjy3lmSoK68rODVnFxzSp+8yih33OCcliJttzd37tzZkcC6taVLdDufVpdwrmCiZVUDmgl/ZTpdjm1kbDnAclY9LSzy2SngwhcOOAZUmHNiR1AvVijWQ6fktqEd2sst5bysMxsI5i215F0nzo1s7QyJxanL5am523rTvAc/ST9DV3WBuCIoFI5kT0QeBoysK+tRxudDJUBgOjYXgyO7bXHfR1x95+59w08063amLY+qhCKQLquQlSVYjfb47ZqycxZl9Vya5rnZyfwMyXQ+c8NCShoSPkdshJLCTjJlupi5zIU39JV/3hy5bHZLbC8THIjk15Ac4gKXwqTycOgmGugVUR/GhX2XaxC+yBPRS7FSQycDqA6LNr0UNHbggKYHg6NmWLIjIMu+7IyuDk+vTro3r44vD05yIpNCAW4rZjNPms+rQ2/pD/aIyAwincphKOXffEQQmq6ieJTbw6KTPjYYtu2QKT0mLrLCeRdmG6qf0a8Rh/hR6liXMCtuNzf3rZUVzRgjDLPTARqwZF/jXMYFjAECPvO1dImKnPcWwV264wb6uFWrgBru7shA3thSnNNuDiRdCQsLm4A0udlpBlWmjTIIssCdr/7cmWHG2MtnYu6++gImwfEEvwKWuCXijk9d7Vx2RCfiMyHe3gTkMhFf/RqkLW/UnwhjyjUuFkHmfel/UtutXIM95YAksUQZPI54Sr0/L5IYvWhRMM/h5a3t6SKzx2M8AM0YGS95s87JJQo26HRe/emff97ixpp0rEaMh4H+wjkcX2zdBmTxUJnk8BocGuvJKkvmneR8a77Z6PJFd+/d3X3w/qdfvuLiePzWu8dnp1Qyq0wtGW4utdhVx8f73/jGo+PDl4N+93x00ag3VauThXDv3oNPP/7oN773fUvNe/2zna1lQbntzbWa7cCHlmFeDlQHwnvkMDGbQBoBkZV6GZjrTTVHKLfgobxfWhrNvBzSdUHQ3aBqdtEcOQC6FCgjyjzmM25hUbVk7k3PnpwOlDzqdE+Go/jtGo2phqzWOKvtlT4l0Lm80li2JlWRPsvn1LGbz+6tjx+uXt40lbGfOb2sX4AuJRWbj2zkqrk4R8sspHgUdS3KaelsgFqmsdjhb6go3UoPCxOI8WHiedEwdzrCmE+M38mC4eHltII/jL39w5OP9g7nb5aWFCJurz3/8uXunW2pQRa9XY767bXF3/mtD/vjTn9w8tb89uDyaG660z39skkSz7T6nZPV5tTutnSo5bOXe+A0pj+Khs1OWckle8wrs9AHEOF3QkhRsdiWicrjM8aXemA3Y8t+U61vPr5BwkDMc0rkTIkM44i95VlDSsxAm4lXI1MMEF80VBm2CnaIuqrKiFNx9KCa7GjtQVOcObsxoNV6887C4nZvMP3s1eHB0Wj/aPD8+aHqGGg/Gz5M+LzGJO14o60M4JLwuM3dUdlcHdxU17Ttr75JiJw1d/U6wic2fv/3/wYXHMbC54BqGByFfUgopGRcy/1HbvR53N5go0rIbWVfWkUVrpBUxtBoDuSRDr9hHdFHCBtr52AaMzU6MdmiJHICW/Xm2aklecp41i8uT8m8uc0Hj/m4SDZkqaZKUxl/TDqN8TlGexdw4xRbW1/Z3NxUMpKHG8dfWVmx/cjq6jqfkqgHKBNfvMDClWhAvvbh51/+4he/6Hc7n/78L5U0VOZsLJHmYihIZfvh2anJ7tZyff4qURk2liDNHPdOvDE4NULTdYMurCmcKz6ViC18iVwuoy4jR5OyH+FDxUCxSdOKLmEHwMGBTH850GAMFyE2eiiPhqSuMPss7I17jfGuvkep9ZeCjHGYlc8Ux8y2b9Dl4lpQfbZvQrt2Vrj6xasvD7vjl/vXrw5uutLTddJqX1tR4RWUp0gOncKlQ4q6ZESFbRqICSy81nfYXLpMtWHJJ8YXnYU1MzUZWmCo9DO0Vv2jBBPk9SzOrKhqPHdt/ngoOZdxpJRQY9Q/3/M+6G24Gi48J07yrtWLlfz23io9wXgMRyqVLNRy+Opa6R6+FWSqgOYz9xY8qzqv9YARlHEQjEL3IyIsqqjcsC5pynMEBjCXg0cgU5IJ1TAdoMTzC1TyAw9eDhLXZ5Fg4fk5Dw5EoqbR8jW358URc2SRWQ6HDUSRv0EWroAfc9YxI0IBlr1nqyu99lxpJjMC2Fg1AzVyxsI3CgqS5YC4UZVACGRR4U8iUiMbWxsKiZwev7w4P550n591Xu2otnBJoqeHg/Pu1e2y7gZIEbpEYOZWx/1bAnX0hex0NTVTkzp83Jls7ezU6o3PPv+cfCWinrzo4ghWApW1XuO1tbUvvvz0937v906O3v7o5z8nHMyPHBUbDlFvoeRf/OjPP/zgvR//6A8f31+Tl68KkjhBs3Xt31NbTI+nbT9jgoz/OmvPixavX6VPwVD+ZB/VdCDxIqsKuDFIfpQ4UFhptLrYqTnJrnoVsppzvTGzVrUTPgv1Jch6fjE46Vp6ZUtAMyioOrXULpXUO7cNhtcMesd9Q7/y0vu929/6TQy19tnnX6iGXatZZDOzUpdPQklUi4Cqfru+Xl9uLQVZJCKV+Y6+GLlUoUryzcx02HuZcJ2ssAUuYANxcMUfa1GP7Svx9/rUBdu4ySNw+OrTJx8fX5/Xr8e1Yfdqc23n5Piw9Wxhhg/o+uzBWxvf+fZbJ91rWsP5ZWemuXY2OBZTnpsaqVknAiZ4sdpeXVtZOz/r3YzUtZQqJZeGPbOIPbA21MvDcTDlsJksQClWT+QX0AoATg2Ul2UrCQ2AuCoh+k1Dmyurg+WjCTqWrFioGdaeskuhYkg6p4QDA+gmS32VuWfMh2+luLBFV0orFVEnhYWkn1ra2H2vtXKn2598+Wzv5X5v76BzdETBVkBrGBqPB82UzPRFDPd7UiLv7G7wJ9bbqyZ0PDlMuXaeWH8pbnDNlWfCIaHYlW3bfJYQVzJzwgTiSbB6wwbX52IN8T6xdqRjgID4NbGNN/HjR0XVDOowaYVSsQA+QPnOic6E4WBc7HsBLQojijg9G9zfvsdieLn32kxbDcVYovbP8UfGoigrX0gppIdtkFWSZ9h9lsN4Bf/Svft37t25K/x47/0PgjzBYVjjJI5ui73nlOxkSA36gkmvXrz8w3/zb/7kT/7k9OjQ7LDWZJ4u1mab9iCps7w4FPGXiTFPLajPwvdHjTJHxYVhuXGInhkd9oYpmHvTFsdusBQP8f8bSYb3nMqqjL8J+0lqQMw+45+T77uKGF0hfiKWk60Z78jyxgqpl6ScBXtnEs02U87rag1eFzKGSmx2Uv7QgSBfHh7JUO92efwGx6fnByfnrw4Hx53b/miKlLJ6QZ76xbS6fPNkC3qmMHFPEoF4Yviq3oRRhjNkLGU8mbbqyL8xBQAzwUAzBi40HEXWjNYTszyL0dKiCqOJW8kdXuHmLLyemxAWfJuR1vzTySSVchTMSLtaZV2hASLMQIrgccJQo2dRL/gw0qUijSInI2YqmYVR63NEw5vD5a/77LxIj/APN10lqBvzp1zNI/DdD9hcxvZmpoJFTl13oxmsfspn4fsuQLS8DAlUwrDc4asOYli+OfMHRCwGQoxohgQSLHQW9Kq5zuRzvtGm5xZ5WAY2bLOU/2RkRf+pvPCANHfnPfHzs1AXRKbMFgixUYn/2szCZb8j7Y0mbQXO5tbq2VHvaP+JXIq33lqb6p3LorEyIwLeWo7L3u1UEz8WpmXvppfeEWsTW8c1+T1cbtu8e3LFW3txeDJeXdn+9MlzxHn3zv0Xz1+1mm3ENRwNzkfndEnv5fr4wQ++//DRg71XL7E6lSQRrZq7FhHf2d367NNffPubDzc2V169evHu2/fGo64dTJZn2TGNZmN8dDy+6UzECYkd1gkdiENKbyAOEJmLcEf8PVOX2XGEtkJWV0jEjLFsIuTZSHG9ZrmmmzGScBrWcJFjFgyzffhu1f2Zra1MzR7zTsktoiVwWksqrisdG2t6hjIqks9pQX/GH3kgavX11lLj6vpzXqPB4Ipe8LI7VrgR2FgMm5tSse5w80ASyKh3BZHTz0QjqYDOgiaVq9k39+iNKc3mg74oU2xJLswGA5mh+s5E2X/1s7XlB//oH/2Hk0Hjpz989rMfPz87Zg+MXxw8uTkYPn57a2qm1+mM5+e2m4vj88mpcrKeqiVMPzMZnIz7M+oan53cni2fLqVa0u2o7Hl6XqoHkir0NWGshEehZcWewAoCgHZKnjAZ40wfKOAv6EU1EoYiD9J7OCy1kFeZcUXAsTOt5xUZjVsUe0zvlcGklV4itGxnwgfgsebCAjYq3iSEhLHJS5EBODPTri3KJnncGd68PuwfHI6fvTjZP+gMLWufr6sVg/DZadWWBTqsZu7sCPvau7Ozvr59v9VsnpxdnvROZODpDN6vOjE3OQ4WDLy4wEW14JyIgjSZBiuQMBe6fk3B6IaSjCtrq0yaxO1S2hSxErxJAjentENEl5mM6Uk+iYDRd2TSp2ANysWqMDDlrFgL5nRzg+9xToFdrPtU6UwLpSi1r14+Qacy6GlMhFYiUbg6/66cAtqSbJ6pm3U6z0pt7XoVHp+9fuUxh37G8+o1N7J6LvssqMHg4PXh2fGJBWUvX7w4t2XronrHOg+9NYsyOFIk8lprds2oKmVzMejrrDkPntkExTxjfAx7rhZZ9bT3yCKgkVxSMCFypxI/Rmh27z9ecYNzMlmiiZ8dsUOjaptxe/n4Mcp0ROzM7WjAjc03mXU2lltYUaC6bPpvFbsDYkVp4MO5ssNNTJAUmrzujS56A3sHsNxnTnpTZ6Ppk+7tkMYko49ihf6NUDUywbfJuaGaG7w/OBvxGhs/GqbDPCCuchiU2fNkobpIBKovoeWrVVe6wUG+MMlGzrKSQI9cZQme9SY2nBNAzA0AQzZnRVwUE5/RdgIt78mfn9B0Yg00HbwqMlvOVyi/11PxXbgCl9GEPiXJUL+M12OxlvxTGgFJ/1W/asRBJvh0czhFBET+d6W4/tKI84iR6ogBVNqLf5dQ5PYHBI/nznS/8BsZhTkpA/KbGzJ/8dl5d75WV4A5s5m38TRwJEUzd545Ti6JIgZTdvwWypULZcXhZGbSmMws0ilnO+WFWfssB5QvBeHxs3upBsgtFWnOhfqzcwnfYDyfjpOj/avzjgzZh49W//N/8Fvzk6PXX3xm9ZFyP4fHT9fW66yEaI3Z4pLCFXU49kup8BImMsV7s8itcnJ2ftrl373tjU4//+zZ/Nxi3Feztzy6WQfNEZ0oBbYy2zkb/OQnP33vG+88ePDw+PAojEvxOoWrZ68fPrhz9PrLj3/2sw8/ePjpxz+emXmwaBeMK+R9FVlrZztK+NzsWfeC4werCS2RvtF6QBxwzYJ59ekoMwiyhX+QAdEDQDrIE31BvkRcprGSCTN3ZT4SssFik2TtxmRUzdeXag056ZQkuF+fv+GIPlKcRZ701E121qA304E0bci1xfHa+i5jQfqqOu8kmSlq1Gcb9UWjgGzFqSg9VeZLP/uueZ7R4b2lf3AhgsnkRXa5qF3dxv7gR3yYwTgjjVdDEDJs1CKk5tLmdGvmfHz4lx+ftev3f+V3v/urv/eb+3vd509ftRoLraX5x483b2+7p91n46vjk97Tq5vu6kZ9cN6hbtp9BKtoLCwZd2OeUX3Zne5yWWB0xITmySHFDRTdcwNhGu204CpkFMmhs4BL9kHjBrSJ1O3VkHXDeCoObsZHckXEQibUyuQ0ctMhfVY+8PKXwCtmOd9fItApXUhvzfiRhU3oFWbmaTOlmL9w8IXazrXVZut+bzDz0Scvnr3YO+0NOx1rsEjBudOOkF5R6mPqgBFlD0lwJMrtHOD9d+5Nb2yu1prLt9M9lrLcCymESlmEk0aLMVIFiOZUblNvLoZT8AaL0E9RSTsiNi5H85f9641WWwQr/ARhl5sy92arBJ0J5ZLgHfyTJIhj2zjs0aNHK8vL2t979owPHL4595MUp0EpfaYFRdFYV2Z7brUuGVRjdqOIA4ssERbGQ8YFlcOCbrOs7PBQ60oY1PZffBY7ZXqOnSdZw1qTgYIlPcOom0Vwev36tUUUhmP6mJKjPkc/5qU5uH65MHdrqaOvKUOQ1KRUYZTzhyMLtIlcb7RbZoGAtebO4aTiR15tkPCA78a1SiBHAhXNJUwn3iS5RnGeGICYJAF+bcdqO8M5bHLHjM7gKDqxgoySneZBXkNSXdpxkVbwIePD9PmQpOUzH0eXt4Pz2d7oxr5Ip4ObswFxlT9L9S5NOISwIrRgHgbBfjQWPdEoREZB0CVQjBj45eFC9SWGzBtQGx+lN/NAyOHsuAbcijMwznBdslpzZmhghC4CiZGU8LiBFEEVQmE1Fggkbhcq15jVslCU88IKFT4u98ZhQXy/6VSMr9yGgZG4MCLRoxzIUS+1Xh1lW5o359GSImYiBbPsFjrmF9/CrnPQb6mVEYQucYXgHm72CPvHsyjga1gkPhkuk0X7kU/FQkJkVS9cceS8+ACK+qE2EmU8wkrydFhDuYGuhQbGZM6sgI6COjBzbEFbfyzmGpe610Ryx3IIDSn6sths6BKhVV9dnZpbPjruU5zdKBuaX662OPXy9edLTYHfmc3F9t/92z+YGuzd/PpjiwrEJX7+0z+5vDq9uOwl18Ky/3OLh7IvM8kTRVnFyOkao/38coEDeXQ+c9adLNQ2Pv7RT7MN5Mxsrz9WYMBKf+tLxqPLZnOJDY1KhHpevTz44N0P3nv//b/80Y8Yf5KMoLPY+KOHuy+frCkI9M437tAgX+4dfvDufRQo4Vn9DAJ3S5cpnvPTkoBOu3253fHP8CPFbWH48T2lwnIBVyYmEqgoVXJ3J2OBbItVrBywGH02yfH5KdkDJjXyyjTH+PVVmJ1eQFAYLOWgDsH5HkVWJrM3Qy8CaUMpvLtgKKDLuZTfyLQSV1VSgOEl6E1ceSlFlKZBsLWXG0urLUlkgojqR8T4CFIFU+AGGRVEIRmgnu6UDCmdyVLOCIssGbRsjDni/TQXz+rr1WWfB06ZJUnsF+enz/b+slbbkv3y7rfXJHyOhp1fPP+hfPVZhdKuelR0PZlcDxbrwie4xPnleO71K1s/U5clyF3Zzbmlfmytdnd3h2/QRFpsGQ31/NLqlri0SJ7SXWyNc4apO7q+UkBBXWSy6NxUxbxAKKFIWjwnqqRuq8azjAy9pD6DIaSSnttgEy7CCcWrj6RlzadYCASLGykAARvwGV/YrY1ToV2rb786Pb+aaQzPpw8PeywDG5Nyx8Dw/nDgAWCxjp9BYuN5E2HdG82NBnxyOtzc8LMlny0rSvWB1OFtxn4o4ufjMUasCJyRYTvil5FixfYOC4qSditCBBoNuZW2QyPGw36gTchYpxFprHz8OCscWYRhXx++9/6De/e/+eH7vV7v9ctXpwcHsbyveMuuZNIieBt9lZKJEgvElCk4KPzyZeBLi8OYTH2+mG4QZbJEHxconb89P9v/ZNzj6BWXygoD3B5aQ2xQtdAdTI0+jia5EipzCCy4FFhQK8aoV5yF7qeuYbO2uNZetLckoUUwra0pCaXeClnIvF1UOm/VsHHt8D+sG32kL/6SQOKzIISdVYhJMEIZp4cHrgOQn/yIkEh8jJ4HL7oYCy7WUpKLS1JBqMdgM9ZcCaB5TkwkPhXkdqfVdX4RPeKTvVRubqyegzXv/fGUbfPORrf+uuMphUwhZvbIo/MlU0ZzJYHd/qhFNdcwmvIqdkOojpocms9BX3AWth2OwOmNkcvpL1tL6HP6BPfTuGCACctimlnl7KflaMNyXiezH2gjzMiB+J4usqyIVUT2hDN5WUYe+s57KxEB6VF9ehArC5FLdg6vdwC4S+EJVGpSsogWAKx+9YkwAl8aYW6OLPFq2niiJNGCM7ZKe9ds+BWjsbw6PK3gVfoQYyypKxrJKIsl6I2wWfUyv2vBr/whfNFwDyLwIhfvEEHsxsJcM3fpBi06i25VyhRD5gd1XF33lHuzC8XljZWLSkicjeTFxAiWsZmUV4RIksgAsGWTPRUXUgucmnU86M/VV5GhTBPJF2vbmz4Jw/aS4kJdMZVf/7UPTo+frVvTMnn9i08//eKLLyYXPe7Gd959AGyM8M3Nhz/6y0++ePq61V6ttyxLnSYjpSbY4Anv6HRQ+Nonv3glUwGuIL9Wc6UvPWOUCnsLi0vsMLTtukGsrsx/+fTlw/u7f+fv/d1/9k//CepaVOZk0l9dqX/zw3dOjg4//ejj3/jNH/z4x3/xwfuP5OOdj3s7W5vPnh9ubdxbWZ69OB+2W00KoWJqvTFipFM1qGn0Hi5/K/9prnRVU6l8d+zt2Zr1yDwA0p1azcVB71RAHjs7PNynMnJ84I22ihqN+qpGqPeD+6AScyxDcnN75+X+wakCObM1VoIbCG0MY6m+sG498+WA4K5Qjljibmo153tnvdV27eZquGgXvXa85osNBQVn7Pd4996GeIx9PZhWprigEbRCwObdtzBzUw3b4rXIujC6D3wNXqmvRysLg4+ildUEHgy6WxHF2rpQQgqjbODtk3FXRenOYHq+S76p/y0fV21+ufVZrWyTJWTMJSWpEiVxLF9edqz9M2IiXM4hL9Ta48f379757re/XdxWNzjEyctXWNInP/mZ8vm8StxDwlSUaikHI8YxRLWYaHpqdDtFDUfbmQm/CnoVipMHYcgUeLkQqAwjQrEIwYAqSvEi17H1xsKMtWMQOaw7BaB5thRYml5fv3v//re64/lfPPly/6S3f3SKd+Fy/EO2JNLInd0dtlHxlqX20ebyDil+fGxFU+e0e75/1Fnf7Ddby5tbWDhvJ6ejXMFIVhOP1wzs+iVEzXd5aSF8VuVh8fEjJLmBLn1rzxcaHr7hBpyAyoKf4IxRqrP2PynrrsT4KOlUq6tbf//v//3PfvHJn//5n1Jf/vRP/i1+0OucUQXODs+2d1fNrTZFyz75/Klsi7DqQG3yMlwpfC0oULES50K4zovA0LW58/7x1ZhUtvMJBMk+wUX+U1OTNYu1thahEyAT/AJCK1A2xurMzDLim7f+a0EuvnUa7aWaZW3yA9fX7edN4TMxhIt9NJJErB+DowMOW+LHQVUxSZVHbjwcVvqU60QXqkZyDCn7UZItjlx/o8LDU1yJjx1HcxnTj5xLgxhZbwAuRQLyZpafYxPkfvCgTmCh+gFlvIJddTm7aKkp66p/fi1YZY1nH+/T2XkmCZXQagiAQ02oXUNGUERswJnDuyqE81kdLlaiyk+kFing9elx4B9YOFzOjIT2YmSJ+3OfCH9P6L+yfznF4yal1eQ5LzBuWylFCBRJAlARFuVgqlemTN5eZIjbvvrRw3nol0e0bdiXSBKW4EhnIpf0Obq1CxGCsVGi9OodFTg+o+rI7y6XiIfngg/5AY54ON8y9uK4I6AcURSjKSIAzmefDjjjujvLRF/PYGD0TQwypR5Qcz79pCpMNd2VOuJSxclmrPpUEkxZPRLrUvkAc5q++sM7kq7F3OQ4IhisgS9amzI4qmrYdNGqZNpXojhzVmLA9is6Fmv1YmLVsJzzKcvlnxx9dtp5fnlxIt1JOdxU3Ob4mp578uzg6fMTm5WJJdkDrz8S7i+2rTUGQxtELfV6152eJZhT0FaA+PzcYCCk4YKrKg8ADxFS0vfVq4NvfOMbUHFze+vBgwenR3tcvdJvxch2dza2d9qvX/b2Xx+++86HP/vpz3/nNx/OTg9AZ2u9dXq6t9hYvrfT3Ds8/f53HnWGl09endzwo0Q/ozEy+CKvMSBuC2K7FPS6sYGREfrp7t1dic7AvL21dXpyvBDv6LUVlMEICypbWaqq0/Qvj0fgJaH5enN7rb22JhbMuBz0VHg9U9ZqdbmxTE2XEiRMAxeTXm/VNDWB9LtmrdbskWTFkkLgdUu0CQal3EW2VC2iU5lK7lEIE6aHtKmT0Co0QTkL1fgsqBX6KJheIWhIEWFgY5XxHmFF2CZLP3qcTYow7t70jMHax0SUjdGZWCbjlfBTykSqBkSC3SR9QUIqHc8k1uE+6pIqdjedcW//vPP6YO/Fq5fwENeRCG1RDtEUaSBnf3GBxUFrZlrBSZKOrhnrjBKGFnBsfHymxjAtaTFRLTEnRBxVnDWU6ncoOzSmTEfInFPFF747vRFV8XwCNlLAMBuJIpx5ywv1tcH49vVh91gd5jgVzo+OTryMS81eXHTup198Sb3IWmxuvfkZ22A6GDHtZaWHrWhi6Vn0ojhL02RR48Y23WE3REH8JQ0DQWgpcsFPYXZ+9LNJwWClhAaZ0ZojOjNGGk+C2FsS8fJTwhZEMiVzZ3v7j//tH/z0xz853N+jAXCEEslsbPu5mVwZfNR0hSUlzSqQhaE0Gk2MY+4f/f3vQQVMS7vYWbgFhcfshQfFzU2++8wd0WcxnjrcJVahoRHSQJO1MjVtb2nDi/eci0aydZhPwkaNZtsAMrbky9GYNMwoYKP2I6UgvaXSyrKJvdAthd4uRxCrOrjuqhMgNky4Cy4Bhf/p9ZGGKhGwMiy8DxvLfEc3CZM9O+0EiJAhOJOnPQcQ5KMDLB1FSBe4Uzh4612mDxS8DL+/ram/YymVeuryVkeKUV6m+h80j/nEDVic5WYB1ZW2vMPUgVb66ZaiIf4Vt1cRQ8CYfpQDOcVuCQWCS5QZfYcA/ilUlFbdG5RFUtRyThU6ZbCXG9Nbo3zlViyzJIJn9jKVsZycaB/OEFhlpNU7febtsYRy5rx6Z5iDl/GUIpWImWBkrpTbQlEG5Si4mMa9K84LrnhzWyFIQZKQP0wAHHqUZB10GmxAY8FmSFM961PLaaQILexPo0KF7Asug/CBokj3R4cmFATMbiRVDlPKRMjqEHiQMIpRUpQtHZy3zoN1nRRhyVv+iAY+b6o2AJYs+RpCItpKZXya0FWrtZJtYedqI6UvRK2nblpLWHMtwftqHZag2uX55prUsJvzwfH+q8+7nUNrctF8AVjgg3dQ2CnvcjU0aTkKx83l9YLl5DDDdihzszyNr5npdgpkfAvPWD6jGyguwCobbsFNzIEEpeSq7k0PuL1e/fZ3v/Mv/tmXgth2FBRWW2o37u3uHOz1Xr58+fCtt58//wRX2t5o26extdbmMZGxpRjH/PSwPje8qk2tt4G5dmYJqoA7dFB/IDVN55XXXVlVy+BmfWMNj/AuriGumGdPPu91z95+/JCVkG6cnlKxcWvlD0MXwTXyI95Ppm9qVM1Pv/MNqcV1aR3CER//9MfXqsTWbrc3llasCrq5JLpSd9XMTk+3ltXq410cEVdLEtGyFPhipsWyDh7Ze2cRa7Fww3SJ3ERD9xzSCAyLwAr2+YvMrZA12AmGMbdREOlnKtLHiMj4AxAUazJUEK7LW8gg4JDzo8kTIC746/7cGV2GPOakgG/wF/tDaGwNkfjR+dSS3IHrW+m6Mr8biyt0mFdnp8L1uJboFXsHlyEnxeZVYZEVsNQSXCh8KisLrDFWEC8hEQ5rkSHGqN7OXNlmhD2SonyL2d8Rv4wtm/koeqGOhdxAXKdE+cu29xhsolay1G4k74GXur07C431s8Hk8+cvJFDs7b+2d7NMcql3fLyCo/3B4HD/KIyyNIhzEFEwY3V1bXl1c2CDbG7XBFOF0NT8FRumQYJpoBjw+owrOeZKAabxmJHCYrCoWApGQBVITTJQi2ummhrV+xbkNCoDiC5dzYOYBEzqdo5/9MNju2aRBQZntb6cQ3IWPHEMqfN6PYSUIxVm+pqVix7r6tvvr2WOOaZjWetFWvMPlqDT4ciIOG5BiA7uC1dTtqFVSIMb1fUkDxpV1O/MekICJTaB3VbygWkjOImlgD8jIdxIhSluNsptzksdPCKFHYxJTa7HFhVV4goMIp2LVaQzMBL7oBNZEEO6AQ+owNDzIWd1pJoLBHzEUgHVogR3bC4SCOQosBX7FYJP/mPGqatxPYV7GnsWVOclxoG9xzLL40lhT4EvsWuCin1t3XdEYOa2QCuwMwmGjsXnkyDQRk7LUc40lqac513eFprTM91TBT+/5icNhU7ynTgKMF2CXv5So8FLYQg7znhMUFTIELPDhRKMcWNwKK/OuyL7OMBCx5X4y9jSbG4pL8gI84Ceplf52TQwGoJXGs59vpRuSJx3j/NqXM5hFfqDiXwEOU/oCLFBDIrpjLije4A3NPjVkUFHxkSRhJcO+qiJdoWnAjq7Tm657i1eHf8YURSolPSKjFSgw/hnSBf3m1mBvdLLvEOnqLFBBjlHTBK6RdYsy6w1WZy2ENiqd0If32DNAMwUG0ud9elF6yuZSnap71o8aVkV8puaOreeHQDXEfVya3rq9NmzL06OD64vh+JmpqtYdKoNhZnbGP073/vthcXN3kjhq9vTjsXkBjB71u8I6572VT0+6g2uOt1xa2nFO6tJJ/NwaAeSLsAxaQH7s6cvWt96l/X18N799fXNyWL36OAwQazFmiXGIs8v9g6fPnu2vbvz5MmLu9vftHyJM+DOzgZ/0d6rvS0O97mL+bb1KevrF3NPXnUswzNm+FH2OZySQ4877Gxv2v19d3vr+Ysn9gGBNid2zIUGVtVc325uboMPHhI8s3KAuacAv5HzSAtjSF5dvDnvD1dX1utLLZEfxd8mk/5ijQ06tbZca9yeY8lqqgWbo47frq2p2MUvce4G2+Dwa5lZkn2uHkqQCG37JIOPNCpTmml9g5wMCTiQCQ/+0eyC6EVXCy2GAoIa5tNtiCFYGmrSEFlrXLnil7zPXSGbhHWz5o/R6gfYP2siIX1adykVN+F9VEnsUo/QIMuJj/rBe99YX1sShWHo+//D9z8YdM4IN7mD0H7/8PXgcjJbm/30sy/QEg6nIenZdltWOoJipSfpPNooh9EAMktibtla6ZBxWWVhG/HoMm4BDz1CGfgnQSaXKDgjV1Ak+nax17torm40WpvWq54Ohi9e73P/Hp4cY4/WHaEtK/mO9g9CaHKBxC3nLXoNL5IuITIkRNPYsRxeQXlevmLdQ+yplHMT2w1h6QCIFVh6ynczgswARM+LRpCTROzAq/AE9xq4jKjAFqUX96YGZbG5QT5U9gienxkPQPVaoWTFUbF/uCkr0Bgji5PWfztUisYa6v7IowjEkGGAAHpfD0x5oJeZY1boH1jQy2knTuRcYkBUY7OdFOpiTGQasBnOgWJkeCrAjfDVEgdXIoOxY8UhxfvEscTS/Si6RVxxPjQWa77iW4ie8A5ypGzO7N7TVzgMMzkj5KsB12I2XWT1igM+xXzWOJ4MYnK4QE1ut58iWmN0FusQbvvdyIKLOleYr+LB8cgGpGksExDOCDPYhORQMgMBW5ev7bV23rugT9WGF6yra5sV6UJVsrbC/mh4BcEJ2LQRCvIygwyRVTQE03ypPkpfyhf6ontDwvoRjNBOEQrBZKStu1AdkRcWoXnaVuzqiMnYFOUvwzKqEKjn81p4nTEhx5wEj1yv0lyCZ/nmM/0srrYy7vQk8AkFhVMiiaKyBB0qpMjdcQ7HmHXkesHLyKekP6QPUQrLwaCCLO6hnwVDysIA7hRR69hESBcoIYW5/erABx1eARlhkF6pOuarEzNMmJRu+KReFNeSCYQGgmaBZYCTKZaxTb5KXqI3Wsp9LnZ105cDeiWpR6YHvXBBAD5RTZ2Pehck8ThCBu+lRoN9qheNxgIObpe+4nzm5wx8Hz24L8hj98GXT59MBmO2kbABvIwdL5YodjW5uXv/3vad7cvb5potydqbXz47/PFPvzxRSnK61htevXp51LGO90KEpvU7v/M7v/jic8KmzJexhDWY8IIAisFbTTxqNGuKxA8H48Ojs2+8/f6P/uwP7RR/dHi6urzy4P4je7l2+r1nL55+77vv984XDk9G93Y29zt7rVqdC4r5c2d7WQE23kg2d+2qfnQ6VCDRslLhLNkoLBluwOw60Vh8++3H9BrF6R8+uFfNwsbGhiQU9mK9uby2xpDaV49qTl1J4EJswMfbZmYkJysiMblGcBZOeZbiBUT2t1GzdKk+W7No52aGuCIygEhDS20rB03nJGV+LL+l1lhCEGMjmOoFDO+gGpgHDWCR1/g0wwlVQlN8Amup8NPXwi8xj1SmD00HwZM7Ht9BMDpkAE9o5Z6O9HGPN4QTYJ2h2KzTDTGTBlgc11LZ1xweJKHRUjCJCII0Yx4ywReqX31t+d6776yut4fnQ/ZGY6n1G7/267q4srHVU/vv8ODPf/Rn3fPh/Yf3Vt76ktuoc3D0+sXe8+cvjW9G0Pl6EtjFe5GRRV02PHsnlSN5CBg3hUpGBvUb2vIO61jGFSuXKMHt8WHwwcNlmMsFu/Po7kxtqTe8OO50pTofnJ4aNN8D/U+e9v6rPZwT2VLTA7gi4uGbAY/kBl93WosrgritZp2aWFWsUPAey9VFWgHeyjNJDACbKSZFQqOgSVsJzRboClWUCQr15jfDo6OYkXxLKnzyzMUWk60eysssRujiA1Y+kVOoSD0JK8Xlalo8UGsshTdE57wWXeM/JOoNx0SZoSQCFM4UB1hOTaMmyfHCC8LeyMH4Wbn8M5MUkawbwD30ikptF2pp6DVbsoI2RnTOHWFP9OS7JjHJylx1is99UlmT4YGfXE4GXauGqy31MLW4F1Jf5NoKamuqoxK5CGBOItGsMUoZfEZSxFXkU46cUpPCZV0L+Pyqs0HWyndVHINBzK+PJImVA7MA9YrFu7BUqlRpJkXfSrhrAl9YVCTtNR0/OamJL7s1in5eYXbyGQL2md+i/5E7OhHa8X+6lql2G6Zu3gq7TyM5MhaDAPwohEYX0eMzDUATl4yJEPV2yoJPfjr7E7AmyxPGCx4QHliK/ZrhwMeS2hCUyhvtQludaMzM6WJAUfCv3BLz3oU3gij2fPzBDGdWEQGU61H6pHpb2JGj3JqYU5APCKRjG0VmMKvV2M6xlIVWyRmdTx5R1rpDPufRMfjHXM9k6V7GTcEJ/Co4xOKF8HmjK7koQ824AhMCOVvbRaADnXsoK0Vlwc/ydGzb667UySuFsiZDSwtTh9esRcRzQtJXIW5mqhiO6cZVUh6m6qIPS4zu/mjI2yZ1SqKwmhKcNfB1Mh6srayr6Xfef3mw95olaYZ4woSP7TYlsCLrW8dOz/r1pbWXr1+d39SW1m+/fGFLofHtTP3yevz81d7rV0dwCUDX1jbe/eDds96ZekvEqHEGDZG2bpG2t9PD8UBuKWQ+OjlTUctLPvzgu/z3f/wHf/zxx58KmHMGcow8fPzgrNsB1eX2xpOnr+/tPtjc3LpOIfGL5WWrHtSLmU+tjuurRTlbkfNBqcvxuX1FcT0AMLR33/uG6Rv0kzunIpRZMuNCGi5KMTg769IQHr71+NWLp3YdzEL64mQ2b6nRxsWbrcizSqVdX1IwFluhu3CVL6k1MK+m7exirCsoqtCSQhXKXticQcIQb+eibVdoypjvdCNJhchLZAzWZcrDYoADXprVBPcybyEjHiB4EErJb0W59pMz8w7tg9fgJTIUeoA18AqXD3fwW9AomENwOQlRVmdBrRAcemPBkJgsS/MSu0A8GCL3+2cojE6tXBNaUvD9ttUit8nrZnv1k/1DXH7ndvrg+Pj569e/OD55ebTXB/0l6WR2prmZP2VGEDmW9En/g6oo2xt1ovB2517vh6juOeSH6raTGAYVFWcs8sgJeL7EdDHfr1KWcX5+ubm0NblZ2Ds42Ts8IERJGtOHDXdOz44PjsRY4gRjCNMKkyihcK0lG9wMsjCM7tzeKJKuyWouK0meZpx5E1MffMKfoEqhyXAyvUF+xYVDdKUp4HBj+J5FPHprFNTXcIkCavOlrAloV+QZ36x5pcnmzisK8Hg0ULGX0iIeRI4lHfHiygJErMJ7ONKOjo60KRmPcuhh9q82TUe4XgLR6RM9CbMKEXKLSQvGGoIv+UlNz0aZ9fBWNwfydK7rqeOXX0b8TBQiHF6OsYsRRolxifwF9GGypSJukCjmdmIPkUYsNNkN0aBYRxB40NVaNbwwQy9YuI2GJlHYndCwKOnh4zAZ0hXUNKI09ctUi9RwrBcKDfqbJzClUIcO7IhTEBYZadxggzAcPZ1+XACyLQyo1AP2wkTSZVsgJu+lPLo1lBQeHamV6QvHhV9hNZZYJkpcQOV9Wk333JW5D6hyBPWqL6E7W1qKsHs20+D1UaTc4glIkhcWNgZtiy81fUseTv70o3D8PKAhT5avhhbaDJEWpJm1kjh3ZJILfWSWAw4ZON7knK/OzUYkjd1hyp3Hg16spVwqwpQKBsqOYi9G1SKegEUstMyt1AY6iWzRiCacS5Q+jCBaeCV4zLmOYHqLYULpnQlB6YgW/CSaxqtHHtMVzFX1UnJQZMXoMtuZx8LOADu2a0JQKM6sm3dYISkU4iR4UPa4sjiEUcUoi1PC1L+ht0wXnIh6hElHd5kZDs7Pzl/OLNZOu2dWyQ5nrkepARfJHMqXPjEzqxRM/+kT1cRsRptFTaWYLMAkH9n0WCQ+UQKu/6O/+Fn/Yq69fnjauxyMONCmRuMurVtNLHR094HFmCu2LeGtVE0F2FOyCkqmU7YoTQawvSpd7/TOmD69Lq9jtvh5cP/tz9Y+fvni+ItPv6RPrK+vjs77tZZeothmZ3QiWvHWo+1hIiFsAP25Xpi9Lts/1W9mG9PXhzzpK+1Wo9XaOxvJtzfvv/qr31ejFg5cXsx/8MEHZttyh3hiyg7OOzu7P/7xjx8+fLB7d7XXP1FgNFIBt4UgReRfjtVguZhXenQwojMzOEWLx8MRXrq8rP6uFIpajbAsCQGqh0l9t1RI1hxllIkpti4VjldQ4qfKWDwsRm0uCgEJLSmaEBEThTnsHOqYDZqkrERvgDMhriA+5CpEo5IFuqRJI1bPR9RFiy+FsbCRKH9hcdW9WoNs3ogSMqxQNvT0FlYfVCMxRCnkf3EJjDrdY2hC5Jtq/kCrIJVJH8/OCJrb12pkvdP8/PHe/sHrvaPT00m9fnJ59bLXv7O5zQ86y4Jttu3OlU0vhP+KxxdiIUfkCqPxupBseIXBOAn2Z8ihmxCkODk+xx5AJXASOSRsY8WObJ3R7dbGQxJLtbWXe/uvDo4gP2kzHqjEcUJcJZZJ7zRfQIEcDTYQMXANYOlgG2fv+aqlPvPtpcUIS9uD3sgwslLRGvMiRj2cPoXB4oNhQEnGJQfPsQxTjxGQkVm5aFR4V2YxOmG46tQUPk8gUSEjA/wUdpONneVWSB7jkZaGmnoKU1fS8ZCmu2CgnuAjyo9hJrL0WPzSLoBqLlwOWpTJ944KBXzamAcRUjNlFMXlEw0n1t3o+BCpa46tpi354sy0CCaoHJYevqm9wB3C3d7YyvzaFjXpLIsPFgFCENPeCD61aVSZMtnYvtwo5MITp/3oF2GNxGQ1nXEQYTThxq64X5t+YV06Lb6dMFl9LXgpr79kWmFkjLdw8gK/GfVTxulZDFvQT+Pw1Cc8wNMwc4gt2lFY3s3oerqnIgIXlqjVZTY+E31nu5rpZDYUMy6oZ144TONB0MESlgADUxbhlhf73xvhHyQFFPdHl/ZWR5F35ZZQTgUcl2PZRJYUQWKIOJoHGeZJYfIu8ivNIr/yhmv5Rl5SXXRnpF/RUOst6Ug5wn3xmlCphrOyTZvOIbR3QRGfuc+riGM/RCRnIh3UsIOjU0hZhJF/k5lpRZs1P3RQ3QoEymdQG49xLXmfWvKftkIylTGK0WdaTQoLOE4RRAM2+ERNb0K21AAkicpiixUfYvCeuBL8jZwLm8krUCxlIn5FVjnnCWzkTQldmNAoDnRl4+AzIRlSkdMKHz0yJHxZy0qvRbzeXKsOfNQfWUgxGPR2uMJkXjSXb+rns1NjgbDzzrixKMlvdHZyWrMlyAw3nVzdYtpbKUgkJleO5G2u7zy4+2By3BfmxAtu5TxfDEavDw/AisW21Fr9O7//N8T2To7P3nv7redPPx/OJUcxVpoZ0c1UMbCcIW4MpWAllNiUZGd7A5vHaB4+/sbHP/2LT794XmvUf/O3fsA481BM3pub9vr2J18+XbaD5Ox8FKyrS8XRrIkMOczMDy4vlB/kt3jw+NHdxx88Pzz7b/7lv9xYW/3e978t5R0w1tfv7x+8UIzKLh8Wopkn1tvSUvtnP/vIplx2tVCxVD465tG3dxSBOpuNISAMuounysI1w7upHV4dGjZtdjkxMwWWrGRkCoR5cZ9mz0611yZ9WR+LdVnBSdDKbjwaUDofryhzHAx+cxR6MZWmOmiNUwTFTH/IBp4U4yhUGP3MHcijSK5cj88ityUwlRuj+DrC7CKxQp1hOsmHjxlf/nxol0iKAkJwJS0rd8EtzEyeELtbwWsFkIQ5GcGqsrGxGu3G1samJQFKe48vJ4tL9e6ot7t9xzTQ5pIWlN7Eq4+320goTBr0oipD+xxeq2tIwLxXh54h9ABmSuHakHkoOru8J+UXgeB6Uj3tLvJw/f7NbXN8MTrrjM9sTZN8pCjX9vvt2ZHSEEimsvBAK2Cg4XDuLJxKKIgyhC1TyAb92amtLY/iNCjFNk8hv9ApVRCf5SnjZs4yLvu/p/IO/9hkFHYbv2K4ghwN/Bd4jQXjgFdlGpP15P31bI4eVIE/Vza9kaYwGY9KRVncTGl5C86BHktRzIPO6o2WKo3ssCmdcqElfDs90wWcORuze0cgEp3FCUBKNICNUv7w737svSInqR3ex670CcrBK7M4c92q8WZbQ3B7fs5RaSlWXI3or4o/eTFmF/EWd59PvCJPI1QzBQo68ZVVpEUsLp0xU9Gagke5livB5+hC+YJSMTRB/QIX86zdwksHUEvCRdHQNfLmdkgKRRw+M0KVq/knEIyUkbgzYlJYdwk1LS8dnFtkoEqBdLCLa65ANqndF8eXFu4ksSbTrG8MIZ+BAZxmIegfcGOELG8okQl2IW90FJeaWwqrLMEW5zqUPiEcGGiSEX4EXJyOGTUvVCSvFdax467YgBL2KWlyfiV5JMIEiH4ySaUldorpqyRQERAREt7NK+0zX4pe80YseT7SKx2j8OR18chGgks34v28oE5La6ny58zclErJQvGmLDRexhVgYgNyKqppgtteVAFaR0xXNVcF+LDDw6YchnkdTlfJQk8gxMQwfHpNwSrX5BuaVaYHqdmkQHg6RizXzKVqIyEPWejcjJwbDOLYJrkj3CiJItWfV0UB0kdLM3FP3j7+1GhduCxGdXE1r9bqk/2nJz3Dri1e3K40VlYaG9ubd5vLjeur7vLS7NVo/+6vrE9fPyc2Wwv2FpizpJcqxQbiMjw42l/Z2Mx2OTMttT+vj0fKYH/x8klJMqz3BsNnz78QPdCxWn3uP//f/mcr7fX+WX/9QVOxzeHZ2X/5f/0/b965O19v8EAILEGYLHC/kSKGXK97vYFdiR8/3BmOZ5oi/I/e3T842tvfe2ty+//4Z/98eUXO/aTTGWxv3VdI9vnrl4fd4Z3dpc74fGd9iy9PhSDCp2sBmv3gb686g8sH7zxqb65Ptxb+5s2visN7oWouBwd7ZN7VrVIp2VCD9UNiLa+t/uhHP/rWd7+1tbvz8SdHyoM26q1n/c/ZU8giKgOKv025v9dHe1t3tjltvEvGnPVadzYWdjZXFhaz19gSAE6GggUSSSyqPe91pmYmu+uN26s+zibvQubzzezo/HJkgq1qkvOSCCS+pkBe2ZbXTLIoYDWLHeHaTCWenBBLcBu6JX4YnU1uffhSSfnO7+XHQl2oI6jB5ApyOiAqBEatMNkiQFcK2ZRqEy5iEey+Kyk2tVkFyoVUzqea0hPOryxn+uYH7+1srDC+Tk72rC/Z2lr+re+9j8NxF0+fK1tyZnnNB7t315aWrTAWizpbnBzd3rZWlkkIuCkVfdY+FUSiZLOyhzzkRVML8/AtY2GmUm70qD7fon7ZNQyfm7oek6kIxtqsEnWKBt7tn69uvt9aetAZzXz6yV6nx5+hkmwKaB0dHJ2cnOEalnYVmEQ1DFO39KKYnfgaJ634K5K6vhjLBd3eWJWEwDqhFCJ3C57om/qMHhncGLgpxrf1xtpG0F5aXr64HGAA+Lz9gF89/7IxN9Ve2oTDDBKSg/a4mLUXqsLKj2XYjEpWnbyLKjKk5Bhf4Gx7vaF2kDWO47Gdz+wHvcTDyfaJPJ6dO+6oODx6593HmHOcJZZ8kYrhPpFVjqK4R2LxTDeiBMCV+L1RfeQKecsgCdciIGi2GkiJYHazJa12wPPibAELtfwSZYNn5rKKnYA2bly1Tz1ATVHt43aiVtrlII3iZ1ntZMQkQdE78t4iqJQqkRORlXSgGaEXaReBFJav6cL1qR785BaMWWmsFBXNijgCbkpNyaXG0e1ZZr8rz8rXlkdo3qNo06fkTHJ+miD6tvi8Iskj6RV0Cu4EOkcihygjSj1Qeh8WGWnopHgodcVCX0PERsOa9awQRwwa7LhoFiGbPJIOA0dUPIgZ2iFEw9UrD4FbUBNnHVsKpLRJYkmzV0fWZBC0FL2SpofkU8ujBEijJrLNDdMBEY06bj5tFveCV4BW+SzulaJbROlDU3blw7f48lJx6vZ8gMG9UfyQT/pWFAj/xk0SifCmr7qrqxwnEZqmrDCQ4E65IaaxYeRbJE1keZkvrCHDffNTbMZ8TYwtNmsEY8CSV0A4X4XDiCVxYJhk3lOMz88zs/Q7XgU18rVLz9AOsNNlK/B6ZeCPB+Z16V3C6lEVfQEqY6Ff0H8nL18/t83ERvve9tpGu7liW9h+HxIPVAyanhrM357WWqPawoRTBkqPJ1ctFdE5rWO9hz5khC9IWb6elUdxMuQPm0UNdJjxaHRyvN89ObCV++NHj1ZbyzZUv5bOO2bCDdHxb/3qD/6f/+JfZM/1GyrFytlojLtlTbT54faZncXELe94vf+q9fixhczbOzvbO/esNnv2fO+996xSXVFv/Cc/+7HtFtDQ5p17r45Oak2B6Fm1qIej8cJC7axzIq7UqC8LJystmLJGM5dbm2uraz9Atxjb6trSRx8f/+KTj7/zne+gbpjz4Ycfbm/tyjw8O+tY8rWsrHq93escU6bfee/9j3/202H/bHRx3mqoPjU3vBgpVghxLHa2W4T0DeKH8r3cUht7rAZcTEbaLnirzGBCkrIs12CS9LaY8GaNIzXh+vhTzVMhmhBJas0kB4ptgA/ErQCxIoREk0LyFXUhroJKHpUtHUs9jYSmPBkh5ojWWAwtL/JTLpWjoFnwolwkf6vLkV9ME2TFzyq5YtTHbpJwzh5V4P/ifPzq2VObimwut/26XFv45Mc/wkM21zZPjo9vz0fZpW513Y6ap8dnl1OzDGgvItv1y5itAyS5RXevJlLJIbQyPkV3J8zeOLp5TVA9ZYC+5qEkF8QGLGPRVVRmPHzgdsVtNDenLEIfTogutVrxY0g56PST5MwNLYcnDDWUF5BlnGFWAV6upQnjx0nx8DgMMEOusZKyW+AvNU9Wv73WFHGgQs3yMODQke12ebBn5bXKnJI5TR5t77Ku6IPQZXL8TCaPrTrm+nA1tBkwgJ4PmaTheUIOsi4sx/PaK9CYsv4wq+NkgsS/1VycXZTBS+mXI0yamHZTwROIn5Pf3KERVAUb/OM8ssQnaZNsQLoIPsVeiJzwoY6AnNWYk/4nqCK0IrduuPUrjRh8suzRM95OWtRamTAcMAImcauwpLCXiCKtoBOtVUextQqriqu0PJUHg0maxTahOPlGMiMtjJq0l0PlV63FeihOLOdGUGFfAOz/HDFAYawtX8xBbLBYfRFXCVWl03plG287EIDg9PnVtBgI9nJ1W8PYzDOujbLwV/fhUz68yKt81VCYDClYYkJpqxx+9m/lWy8eyb9GMPwY+TXNVccbiqm+AF0MNjCNX40Asr2NlS0qXi+oFCwMEbmEYcdfG0slIjHwyVHJDHDGwr2jmi9RJRRidVuhkxvpZ6QR4POdBRCxbILOpKE3xvkIhnm6TAfwal13itwtginYQg6FU3iuADCDKZNlhlXMy0ByK54Q6SwICxbzC630KysEzEysuvyXN80TJogm6VHU7AhSuph1b5XQDBroJBFLTPDXJrPPxMWVg/bSAW06L12OLPJeN7pezUIGEjEclwg4wfC8FepOJo8evfXeW9+qLywpDySDSXVz7jcdkxxE3VSKcn6BA5nFHeesLtB/qFU8w5C7OxitbCvbc31iL43ucHzVkkgGi07Pzl6/fNLr7Nvj473Hd7/77e92T/fb9fb0zfjdt++/fPX6zr1H77791qdPX3J/2BlGch0mw6uRCkeK8GVXORbFULXo+7u7VeFLa4cPD15/+eUTZuLm1vfurG/fuf/o6PisPlVf3dh8/fKLL78Y1edt3b7UPRmR48reWoV70rfh8PnW+uLFuNNstScGENfrjO11d3e3/87f+tvffO8Dpompenj/EQbROevBt3ffed8uR2311ROhyT7kD++9/eSzpxLkLs8lHEtlnJUaNV+b63S7z148k+nfG3QgDoaysly/vOjSCMTdzBIOk1zCUAmYlRKvXgBfCRSrJ2eEeEyxeeI9TvA4XFXoXmI7Pg9nrJYKioblJjgsmz8EHke2a9VRMC3fc2gAqQZLYHRYmedyOT9ElDkPuuYvvsVyUj3pAs2JrczcV0a1pejpUH0PS+Uupyy8tVPfpx//4vXe3tJSI6rVZbTDh2/dJfstxu11+jCXlkkdEW5Bhqgj6wr2LSPoRmkW8VLiJzpiorvGn03XAyVpLwTDIvkirSo+q6IXw2a8mngwkFBkaNBXfJwhomxVs728DtNOTjt22aDQEFaAk1VitjIqA8ow8RDnFSWUkYNKWFWhF0BC13x8yYRCj7kfS0wP6EpI0CiSr5lgfdwwUQ8CdCqIAh8KfukcvjoU11sgYW+pLv1YUWaThzHbYihkPACr9ET4ji/LaGlkrGwcP244pQ/5n6X5M+aydLvWXGR/WQ5j2ZUtkGz3IffH45gYAgfDiH6zBF/MHH80zCKeDCRuvKiuBCHmgnxou/gbD17qShQpFW9mZHqRLeEmXH0pwUekRZUFGT46WIOxxEcn8OOeEjGanBfWU3iQ8eOx4boM3yKW2BD1Oh4dKwFoQMs654KKZdbCmqGkybvt9rvRQygtoQbvNqhAh3ZW4WWEoyEkTmWMbnpjB4RtgX7+sv+F8FuZXHzKkFMzEEDioZqwJOOKRENR4EHH7GdaI10qrNBufoFPRccPUZTDDY7yWKwlLVYz58RR/eqkMNYgVHWl+kz7+Sl7m0lbkxm82phvLtyscMEsLa602+R1rBL+j8wAcsYPrEKFPeKTMXF9mi3JrZpyA8LQJPhnFlS+rIWaHYWpaygyHhwKxbqMtKtPk5Mjsi0ahknNBU8ZNR+/pXd+CrSMSCvl0JTGXMyDZVw+HfqQPSDRW9F4inO/0O7NVNd6JcxIy5muvNGJt1jqq1twIxvohGioOKEooIk0010qfEgub8Bo/Fb6p4GgtJlAnRlW9PDIUh0kdzStfbT3+P69999/797OvaP90/Gw29rcXF1Zup3mFaatC2MkKwEFglngU5tThV3Bl2SrenyhftZPDXK1u48FD3pZNytlv3PasVZ/1D9s1W5XWxTswV/88X9/7879e7sPP/rJT344uvzWd7734umnO8q99/r7Z0PCmVKpUCyosXUl0uhbXqrI3enJ0dHB3d071u0qd3337t29V08/+cXrX/2175wcd5R1PzzpAUNDUL/efPnqyQfv3KNmyVY3QrUJ+FJevzgwzF/7lQ+311pj/rjh2frW7h//4R/983/23/xn/5v/9Jvf/hbVBx/hljdSomVVnYPpuZ3NLSR+dHDwvuqFb3/DlOzubH/8k49eWs9hByABcNvvzNboFn2684snH/7KB8PLHjea4jX1xgJqTOBMhlDCrqKt9Ncw4jLDFbKEhqCEdymuKHJNxzVfZdbMkfoB57gBXyHfR3hOZjpuzWJtFKyiIQZhw8dNq+BIJZ0K5mi24JAv7ggG0DNS3Legu/Yhch4M0uYWyFMJLm1ZnrHA1zLTSKx6HJ4iDBm8WVpqMY06pwfngySk2MgUk/rZn77EHVWrYtNwZxGumKwm19Y3hBkMno3CcEr2Y9w0Uc+jiCigATOT0Gi/C4RJUOkdh2dC5+AQuYVweGwgtS0rqMlx4CdMYw8EbsLN9fVms90dTA4PjwhFOigmCGjEA0EQ4i1KZVoKUMPbM9K/fiBl4wCfyKrqYFpg/dMzrBmUxfeGcfnF0KR7yrdSfJXmWHIddcx8itnJr7EW8eyci+G8n9U3UbUvaB+qRQvZaE9vQm1qHUSUeJ10mxWvma+1BfW8J1UTFWBgdNTqinxycPFUnJ4NrTLUk04vtcpAbM5eJfqH35TP6Dn0lri8Yn1kHIiBDCCqcCwKuwofjCyskPOokljEGFkQ3yxueJET6/ZxxnBDfTcFYIVjFKCBuZirrm9strzSxBSQJXsykknO/5vlpQF2ZHvppc8qo7EYYbHGwn9p5dAYfM0ESijz4bM6IgO+EhtBalY+O1+XMn/+N31YPZWcghU0sdjTeQij/CEFCEJJw+ojOMrLwj+NJc/m0JhPbUWFwzPzxpCkswQh83/6X2EIbSI3k13EYYFN1UL1a/qVpkNCyMuEkDQazDIZGGODudYcLV95Fx51ipks7b4oSqxbKwTMRvS1mEpZs0ZicWrqcqFUnfZnMsL0k8Kge7A+VwKPCBbT80acmMNorxlaehKRE32U2JZuE/mpTyCeqc7AUadoemAV2oumFgABcRkKBSJdiuM18jLHzbVgCiFTuuprOhn9z5ww6gBHy7qWN4Vs9KPWtm86wZQFWIkWziR1q+pt0dZSMCbGAR08oVPLJ/BEACwZP29gr2sa1LVMUrQc1pXOFqS7s7V9NZ48//KL0xPa8fXVWnvYPxlPzhpNKN6dv1HeVK7NgIuooDueC9Ftm2kmReAWeIxPuhenvanhmN+YEXGlasz+/tPTk4OVdn13Z+v3f+c3v/H2488+/mR9bb02dyn28eUXL5RNurge7ey0x5c7J/0vR/TKLMysmx48NTDOBtxR64zoyZMnG2vrfhgvzHPQHR68Oh+draytHx6/vt9sraxuntnc4jY7DtfqLUbfYDTZXFq5mliuerG8tLS7dbWzcfLwztru2uLzg2673py5nmytLn34weMHu5tffPKz999//2Kowun28fHp0fEJjPv5x59ube1gDi27QSzWV9or2DM2c2fn3hefPSmFjerYhny7USor2jvt/NPPPjk8O4RjK6tNSfL+xIblXlNf6VHCezxDcg04/lN0zVTbTjN0A7l4RqMcQjjMp+g2XO+GLn5urint8hJMFt3U9ClBxt2UmwuWUfyDeiEaydchnSA0LNGgyYfkMd6DDXCYqUezhx1Bb5/B1K/+KlXGVUipkcKwptXden38pWLWVlMcnnTYzRZOJYYg10TL0gV5590K9xdrIVjYObewspSMnvH45JKRo/g1HkjxuRgaHR1SH+g+5tZe6h7k0F9dt9cadFJVj24EOJQ6yI9lgZigbEwlLjAWaUyra95vEqC5uXlfKcjTs+6h3YKV9VNn5XJEbiGWMJaALCRZGFYZb8i5ImzXdPvNEcWPKiGOacmJpQiyL8KHmQqccl6aqjRhJ8Lnrs8v0hiA1UbRmImIHjEwGZxNXQj3X12IwF0Mw/aUJwmt6f9cXJ7mIPY5m5VXzL4ZTcmnKiKxWfkxJAcAG7nVtPHhoi2qha688UpaoHHARqOLrra6ZjT2dT6sWI9PQDLQULZqAkKFZJjkFnKXaDBkX7MuROFOyBREyP0mIU9CzbhZWLzCXbqFu5UcBjmLqLpMf1ou7qO4idxpC8vwkAiEyrsYC+CGMVuuYLthwyDlV8Ki0ZCYHrhXn28gXjHcTIQX40Ck4ZvJKLeVNztjBuivMFXKby+FITIdtZafHMkfpy9nD8YL+SCpmcr144q/MuuRMCzkmHPF5RDWFwrJEWJBUGBumOR8QRS/ahcGl/ZN7438AOdV/xGKG5ynlZxEBLAtnbuH/KxEQvkpDmhBwZ4ejW5HCxhE9jB14M4ysSOvC7sPFZEfxVqtCBFAtJAlF45cSu8iGyIVdKm8intBx6l/YJFptEEhJ8wbILvZAJILzolaOeUSDQqcyS1nPNnyr0uzgQY3AGrnWEgeESyNlGeKl4vEVgSV4Gz6WVCoCG3vCjRSqrp0IBd1Rc8D+ZmZviKtAVvUQAxLpyGEhIqmShOr6zQvd1IACXW0evh67+yUixwro6IgV6MuzI0GRrRiI6anHGkLUc7VUEd/sD873UoR5rm5bvfMTgOzsxPR/dub3vTCRECQqsjMNlbaohRtJgOd5PpWDLlGB359MOhPasNLeYa3/YHd8I7OTo6ZZQ/vPnr78e7m6uLg5OX9nRW1IJSEmN6oPX74g15fxHp2bWNl5/6uxTp2UDsfj9or9dGkz7vCEiCgC8JFqTg4sPTzdHGn0esPHty5s2uzh+nNXteG0RZWTbfbyydnp+wM1t+Dh9/o2EmSo3Shga2bCpSLrSoX8Mf/5r/befp0ZnH1bHA7mlzbGPdv/tb3NpYXnn2+v1L/4CdK9n7yk7/7d/8D/hwLcX79+9/c2tz5oz/6o3lFqNvLs7cTS0rxr29+88Mf/vCH3U4fSx33BXZh4FB+uen7Y4VKr1NUVJI9yo3/j9enePNKwumttIqoavH4UTtsgAB/cDSJ58Ex46TzVPRh/iE1PhVnYrnhRolBSQJ2IJR7Q1mrZjdmc1AEpngEyQZnoinB5nBqhxZRahDLb7ScTH3UrJCC3lVSL9gHT1zJAwpReFdraTHla+ZuDzuvH3xj8fGD79dmV1k6rAeOr5oMDGWxjgd2I8vyVdCwMcVAmrQCutT7YHitpWCKJkhp4iqt4w+krYnlA5Q/aVfjRdssz02tbwoPKQU7xoTS/8IE9KV0meKSIq3xBtvXY1o+jmQJtpz1e/fGF7NHJ92j0zMvRX16IuaIm4aOvRGwjaw6Ypv69hWIK4oq8AmMQMLAw92Jh1Qj96m2IYsNBy5MLNRNZxzPTOJOYfNOWfcxXbdYeXw7Gfavz4fzS3KZ1F7MpOcR/adBcvjQuBkhSpjMNZKjO8eUbygdHHevIFajRWfFgLHm3mDEWBQVQ5ekDHFlPZhqTGCLdb969VKTdu+VN4imC9eggRDzYRu2epTyVuUZZ1iGUu6Z2Sx7+QBCQZNsbIf1GCtByhEtbmz0FCOGD+MMLvJOZf68MGmdyNBpwlf23cL1wqWLCQMcUb4LiNMfsq3MHM+p/JbAvHTLLHw1AwUD9SxeruhM+GDU7jc/0+izljsviInG8Yd60rXhoKt9zQeBPFHuJ3Rsl+Q+ktbbZCksWJzCVWrt/bRspPPgfSR5mpPE5LWV0lEuY4LhpeHtJpVfubDakFJBmsoB2Gi03JwRFkGRByvCqZArI/wrB4GSI1gic6YTR7AKw7fWj1rDp1aNbsfczW42ScHwLn0wPkPQDyMjTjJqRczii81JyCV2c4i0IFNcIwnrmz7zXf5iuMQcDqk4IpaqeUZoNjNyF8ke3hL72zhQRqcrzIfIg6O83cw8U0xeRSCVNjWmP8HfQsY8eqYwQ484zSD1VJc8iTf5GsC4A6RpBzIb2y0YbPUGgIOGxgueTG2srklvFTPw3ig0go4z53brZjyZCA/mvQFFjjQJTaomYQtkoOuZtZScEQpdlo8AB/hSdIp6mAoet9jW9eKsTRu44rnmLV0wvVFgxjY5U2nYNiVXCzMLreOOZaUwv3bWG8czc3rGEthYWn/70cM72+3OkX2Vat2YT5e1hYSIhr0D6yKUJVW5qezLPbV3PKrXZXufW13opbybiCZ4a1k0qE6unj9/vrq8bhd5STHq3p6eHH7yiy/4i5ZWjuW18+/3iaDLqe31ze7JCYWG/n41EWBIYtj6yvL3v/fgo0+f7z3/XFLxSed6Y2v7Zy8+5X397ne/+dmXX/RPnmNMdkjaWp7//MvnFiP/B//hf7zZtk6oO3/bvLv9EGyfPz829t3Nx1b4Ep/n/egEoWNTfD1Vb013sm3SVKsxvbTStpscWgrnz8oqe7zMi4MsLjSo8HGIoFQTYHgsJ19iWoFqVEYUHwJ33OL7aDl+MbWDilxTuXjGKvSV1nJs8twcXoVFqQiL/uUs61L0xsI7CuVF3eIzDz8pRyEKfMONUIn+4Xr4WuEDOsONXFheKkpOjSYXVtLuPlj98Fd++9d/8B+0m7vWbUzfTGDCLFjDuKFdnvsnh0csSFqOihLKNdmng50iMHxCqitJ4DaaZcasB5nNVanwFm7XamqNC3YwbNQObi7NPX/xmXZKl3RQF7kHfIQH6K00AoYOY0O1poWa9XPr84vLr456x0KmvdQtNP6sLMmWu8H8wpRBNwPPIHMaKvB/mDtyKIeJcD9qw6OSl0EHVWa2LC9AUzqMr+mz2n0whEYY5yAnD9y/OVfVtyYrBd+zvzySSuCRCq8gH+UuYGXNcjCvWRkiwjnfYKFcXdiWRbmZhIyX2m2TeHlT82pYIVT2+uiUD/atBw+Bpd8b83VLNxUDYnltbW292tvXzzlrLIykmk79q859Ym0uwqsMCRTfjHamP7BzR9hoQTMyKfYXdmE3hMgnK05wJcUgaP5oSypFehPoQDEmISdVWQ9Fe2LVBqf9V0EzsCnWUd5evc4/Ya05gK/8G6PASZkG/UcWOp3uFfWIrVch3K3YtXsIlrSUt0eWeJmEuwjk4AN+kDG6K1IIMjHNazaTVzwyZSmtsJ1i+veJPT7o0CdQ4HFYPJ2Q0Zwu6UwcYO7Gs0MEGCtuZcpjO5f1TJETScFQO9IioaxYchTDMYCJmzQo9QaTMpByaMrLKsTyIDAm1G9RgjlXiTKbjdPF8qzBpCPMh0xfceRqLAl74gZG/6Z4UvnqrkCbIgLaJTtEu+leAWUIPfjJBqMJV8IMrZtuQ79KxLuELKWJcRyUVU631lBknRMwJC6kK2nM/1QWn0DzBsL5MfJZdZlKHJYpKz9SwPw6a3O/bCQETnHuMZuajSXXkvCaSIFNNywTSpoPwLrLti5uMwvGH+5wcjLs9cXrMp+cECFRrQYI6Vb4k75FvycT/RoyzbRNraxv15Vcu5o5ODiCIHe3d1vN2bOjJ42lLOGuGbx9cKRIAX6mV9hv7vpCBIvdWh9dyHVZH07G8/W20vEDbsDDzszN1fry2u726t3dXfXQxnb2LDOuzwaAU5HsDMTOce/pq+PL28bkoutbs7l6eT2AO+AGcVgS8zfzbIlri1Fnpl682nv78Tu19Zoq4A/u3T05OeoPzrs9y1cv3/3wPfuVvHz53D4HVq3UGsvUfHGfmpoK1+oFpKznxtrKe+9Obe7eO+kM1Z6npNJsyWY0e2+DaB5Yhf/WvfZ/+0//yWJ9nq/q3/7r//ov/qRh0p9/8eM//YN/eufOvaOTnpbfe++7Zyd7lhKYSfmBlssgfN3DqSxAVgTfysNabVENm4VmCkJARySQsAS7Q4yk5CIzUsMGIXHoBbeggcOg6OGmrExccJj/UA6KTTTnZ1u1xtpCfdVyAHRDR5ONaiYIORgF7/1jsjWCBNNK2nChCsZcxcorrAE1uZ7ZJwfCTskQkYC8NewtwiEeDqMRrJik8NIid/x3f/U7S+1vLG/xsk6kCMjxmgLd/lARcTXna6tzW4+a0RmlvRkRZYcj6OoqQkuh0cmFnTgGuV2dU8X4zyFwr9P1EhTN1emNE7lvc5d8qpa2VxdjOjoks6CpQj/5CvvksN/GupqxbWRj/epmvmOFF5FIJuKq2VoljE0yg5GgcvRmvMAPNAGXmfJzSKGQYiAWGCEgF8gqlOWuArrkNRC6HFEIkdHGRcx1sb6uIop9dySFSg1QlAQmYdnx+FETLb+dLPAN4oR0OFUBa4p4IR9hJxUo5+fUjRd8znqH1jIDa7HbU25dVsoZKVH4Ft2HH4cIUC+lLumi0x3azYPo4mBttZesGMlwEkXOUeYyynfOjcRvGWRhwS5lvFx2FCoR4RIgiVkTuypoY5i0ofA4tZuhXlnzS2iFkyYJAjJEeSJckktCTS4CzyvCA7wsb/KuYFiRDelEkLiwHLhVbolvOkjmCJ/R47i4GcnpbuGWRZ8PW8zjUZXMMSXaUfJBw3anFlv1YnPB6ogU4NAtA1H+MXtdX023p+at++9I0+KHmr5cuJiZt5sBldW6ZAze8EqXBRX0xlpun+Ya0lAY8Vavt2qSi0ZYkvTVmQw7PbEqImUUfDFMwITersZdkC7nCDIRepmLjDL9TpTWQDIOA5LSXVOuwC4XAQZOHQOiuDjCTYOPrhQXP2UjYgMQyZjK1AF0N0FPn+7UXAFOwgl5ZabS6/EDM8VU48RjeSM0C04lm0o5iSuv2ExBe08rIWDo2WQ9r3J4e2Yz3fClyAMNh/zKFOUGigCnbkSb0eFkcTvA+ZzT2cLc3oh5yz6SPHTZOzvV4fTZ43mucCN8xxZlfet1YriTZOJPQcXkDkm7gLbpghfrT9ip/MUUYSLgaWASlpLPqoTd2ur68vrm4al0uL4JXVluW5mLpJR7WJjpCTXMxJN2sSTBfG7m1fHpYq01vNT+Im/C5ah2cbPI7J1f3L6cqj9/fvBy70R+j3y899794Fe/9yENtNs7mZ9WSOnGfo/mnIOcdzvDn5ndO3jdWmrPN1Zv5hcPO4NXr48W6ivN1hpbCrXQc6Qix9u1MF1LNGH+6dOnRHi72VJe4x1lVYd9q75e7x+ubW0+ff5ETGtsK0GLnZR9upl88tnLO5tL7EJ+G0TCzLp3565g2/qyPaeanB5IVnbC1Ez7W+/u8CLARmqXMAN7wFSH1Y4n9lxVD7vX6x4e2njCHkgn/+q/fzFIYXgFKhoLSfqzAZTdm66wGF6pxfrc3/ztX19e26zNns3MivbxmUm5tjWQNPqlmMUh6GBssIhvNmauyREHTPYzqBDP5Q5CVkgj3Nc6pNr80srqW/OLaypa2beV6LcWBfcUVcvN9sXunlm9yy1nGY3tlc15WZWXVTVqzKMVpRPwWWtiPUUttSbVYoKt9bVzhRUU28A/MCn0wLmiZoUQpE1SlC/lcp6+ffvthxvb74hF2OrLdChvAJ8XVm0bpqSKmBaLvAuhuFxhStwNRAUdPQvUmCdOkKwlRxa8ZhWjgCS7kcorUnKhupO8wws7pyzANzPOVUBIiJhAUst2hJgxN+k2drgnq6xwBJbF+qrFf+9/81f2DnqHJ90vnz1Xv5JG9fr1S4VXvN30oSG6EeAU+BQ2rqKT1BAErKUE6XP4NXpwEknqoX+JMQm7XDelg5Kj511uhuSmsz45CWNIWMbbX9lcscfvLF8GzokfUn3ma72JMgUtuzPWsrtjvb2xIVWp25s02+16Y8VKPsuiTCeUPr+YscTajjxlvZD9ShTz42mX1XIxGPeai01jh3t0R4gK7eHJg0f3JD9aWYVCo2TpXPhVOarzX47zr4krY2FZJIZE+GAdkR0kY6VJx5GIi2VLsUijZKdicFTySBuX/PmZYmPY4cyOaL7lpHzNq5MoHs7kx2LqvZFYrvHbAJwTQM6jRWPyhHRj7/VMZFIYn5PcWTEmTKoc6CJ6FZPDovSko9MQvK0E291rXGoZTFuuIByQvNUrxM8+pbhY1+JT39OtvD3vjlwMgocR0k4yYn9GA8t5Ay+YAhNWM6sfxGngGdl8rLGsJLC/AJ2qHJFHrBhwjKMNFGLpFADoW45Cz9E8uVFIeq5hwaLIiiKFA38d8J/OVepqxH++pDxx+KKxCgB4IBPsIxKpCA9IZqaSqGkZAtUKJfGqTd92RoMYxMXDhmIrz62ueaE50XheqYuEbvpSrDVNlxH4ITOZT1gHVl4cOKfDBXT0+rQQeZYjmGBVC2+NpbwxWBxBAIDUz3xiYzZ1jgr8NarkZi9crDV8OjQPsAQbyo8VWrVcyc/09atD3/0Xc1/5dVsrWJ6X6UfY61ttS60O915auTAzt7rUml5rLFz1xuLFdYqjcatyYjuO+jKt+WZqcXQxz/fGCrqerl/PNvoTutrlR58+BfbFxaVuv/MHf/RnFjO1FmeXGwtb61Y+zeNEKubJ2UU3Qkr+58Efnl8QKjvzy7VfPJcHC8FV59u5exc6VWGWggEW/FtDNe/V+/v783fu6rx8v7WNTb4ntQtevNwbDS+ePnn59luPOH6b1o3wVV5c/OKLl0I96ohCQFqBILdiHYwqq0It4gw5RDWIPwN2RqTReOemWjb8mMa8+F3tL5x1aUxY8qTXP+8Nbw6PRwoVnnSnVFkrylQNBWEg2cuQd/2ahXo2+cbW6upyEoQvZ61fjvp9vWDjodjgnolfr/zrJCvgEyECk6DqV5jvxByap+juM4uX13X7vw/ZNrhwvS0s3j0/X2ytLtRrFP+lNrv0sRVma1sPoJidw/F9YqOIAXsC3A76nZXN6DSORjv0hnetb6u81Z+tXTLI4pu44kFBVzQ+CTOki8VWBP9skydqzpQl4g5v4SABS5YGx4VBtGrDkav+7PSQuLpUCYeE8m7ucJWFBopX3gxI0YH4lo0kFFDxu6INzB0YS5DLCpjErAw7yd46SQIKO8C+yoI1y4HQD8YRxUCBLiGsRYk/q1vbl1fTJ2f9A9lB+FTMhviu2FgsNgKnAmDoq0CyOtFEvldkGO4aw6u8L44WXx1OUESM+9upBw/vYVzFL8CPPXGLfbPUTx+fd1Nsl4pRqpYTlosNu8HAdIk+q+BiuyVluTjJl5bna5b7lVCF1YV24EhCpBij/SQvNDivZJS6iAgQIpweHpNGu1u7ZLqK7EwrQNveuQMcz1++8NPS8qrOVMmjb8ZVJIS5qLQgQjgGZiF/3DgQ4cWGiE4IIr9iJy4jLuoSSGBDcJJdCjVJqZIOzrqEPdGo8nuiPlhVWGoBZtiWR3KO73zFeiqWWPpU1OkCdtgWjToWfWFYWQQQTxDrHGNMzClV7kwtmJd8j/KZL+VSwYbgAtkjGRbL1qHgR0I+ETgHx2fD0dXZ8Lw7uuxMbjvjm471d9zQZQ1WusQog01l8svUhn/TO0qSmZmekXGOlTTXBSTmRQgdrWbc07qr8xJ4IAIF2bioDIaCzpPVmdFrL/9XIKhOddWFaryxVMgA/SWqisgHSWAPgWHW6UIS9mLdRjToS2J1+S0CNXdlEoO7qg6K6pkyVDmMV6pUvo8Vk4upTUSjlGOQcGM0xcxJcaLMcgGnuQgRDQa//QojMvls4uBCbo+IypEX50haOQmUSx4sPnXQzph1J/rWFSfjG1FUHtD/kK9bqs+UyAxg8oAX+Syvnu6MztBMdWjcT4BM0+cVybO5vXQod6QBN2CLGrBAEOODHQzG9vLS9tamvaEPDxfX19d272za6JYdq2+NRQVZ6yrRnY8T2Bxf37ZXdp7vPX3dtWFn+yYpmytTN4ukl0032FU20yYBzYW1Vwdnp69enhimNYFZFhgFwbK5KdsX27eX5JLi2VhaOknY4dXy2s7q2la3BxVSWiUYFsOW+RfVl4p1TZu6mh1dDJ88e2KtMF1HMG+pvfLg0aMvvvhFlTFr3c3Dh49spiXv2JoVzPpqupYPMkRK441NBeyWZLX8zFIWd2Z1FL6JfgytgiGuQWoVeuF+QUcLCucsKrkjJUx8fJPGvNhevnzyYu/kNJtMsvItRlb3YXlp+fHjh3fu7o5GvctJ58sv95e+uSWJldbOPc33uzAjkW7RVkbwFZlCakRvNgw0tGy+Zc7Bk8wTmUG/cYMYajgDjOdGOr/gaIWcarBOTjv7criYsLe3XQq4eUHAh4eXA0veWo29V4cbG2tKWF3cXiw11i2ybi7ei/hkQt7cIEkFFGyg5MF6HaNXpwoYpkp9iaEUgqXa7fn+0yuVKK4ofNPrq/fri2vTtw0lxUWrg5XoguSykIc7/1xgajA1N76eGdAvLGuVigHRLCZOXZ0ZMV3UZh3MmM6VbB20AdPtMM0wS3EFAot2BbOFRaJARBRGVpkRm2eaujQa6YiWeQLlwts+dLq2vfuQDXba7R4eHQVTtBLzGDUrZ7iIxZamKjIMGfhalkZgMxXt6IPLxU/LfAmPwUd1rZr9MFCwgiCsbmuYgGVtpY2LSk9tr7Q6464MCCqwLYCBUo1Yfg3hKHz2Zob7cMWGUqIq87JH7L7DljyX4J8Fv47o1GxBn3NSHC88UmRoJEuV3Ig9Ls43FLC3JaPbQEh5jt27O48ePeoO+sng01ldD4OBLmE3GWHM3q+IvfrFwzHbs44q4qo4AMNDoB2dnBuJcUF1IKjkIpFVTtwWrlfxqtyJP+VFRVYBiJ+K0HOpeilpEp09vKZ05n/4GbgWGvNZDFX5hzdNpZiypYEfQ235p/DXqklsIr4GvamyHNRCZGbze6gUnnmGD8lnS1o+Q3Vyba+Hvvyuq2kmhh3T7cdY9J8SBLJkOo2mcxglmGcMhmSjtGI1N0VAVfZuYURL9oFWaU3pGiIKbuCk9n0wTGqWkvgedsXB35WxRyTAzyKIC/ADkRwBmrF5R+QQyYCMU8TIsJIn5x8POYoIwehLDVx95FINToYVdAc9Demq12V2CmL7Sosp1/2UQeTT60iZ+UqzlzSbZt1jckNUfo2FVnE3JFuOzGclKCOfTK1ulptD2m/IQvcigioRQtIRufEbF7sSIJFSPl2JZRUXUdAgvQEWlmhxugYnHeWtZcTROvlNKB3kPTiU3gSHi5srVqXHNai1PChZgobIo4EhXGRLLb4NAufunS2pfIOxzQ048ebs+I5fmE0BxivLqP3DcG02as2Fy3GfK+cvPn41vG5s7q632svXM0sqUdiN5/h4sLd/rCA6NtpqKbC0yjmDD8qYIjpf772I+JFTdj7VO794dczb1qWk2LWUXOn82fP5+uzunYeyz9V03925byAhHJyweGZAHec1dyCi2xw+ZBW3m3zgldm1xuvW0fFBogaLcwdHZ+LQBpUiTrONy5u+ZZhga7kM7pfN4sAcNQ5V7OX1NpWmpQDHtDu+Uu8yxQBPtS57wcQdJM9maW12XqlWZJftrKjDghgbW82d7TuRgRwas/Prq1v4PyffzVQL+OnoCiDL9lY4J/U2JwQ2ISjtTNpBBFTwhjMG90iIofDL6CLRUvTUreqB0Zmi94paXU33VD/sdJ/v7e/evXNwdAQU3/3ud/ZPTs9OjlDZ5Lo2nMz+7ONX2zsXSkyhraup1kef7t/bvdOzEXmxztUQCe1cL9uE99mT/Y8++tmg33v0+N6d7S2rktvt1sZq86o+pMfIEUZgyys7C7NCgNCHVUTZwi5wjdEVB7GDJ+ZKWo3cyL4uZ4scyluWQSbBIssfE7saIzRJmrHsQ4GC97aZTjk6XruQShHemd/MR1hxyNgESukKIHhwqaryH3D/uhpLwgysmO6Ih3582u1YjIiHqTJMGIQaxKLKYUacl/YztwWpfmm/vqFS78nEVRnabgn5uBIytNv9YMDmtn5lY31lfW1Vv/x0daEU0wWclxI5tuB1MFTj8mpmob2+u72xKXcUojDbOG1kVhu3bSF5BWB0eTyWgwkujCQsyd6QgKjgU9aITvhbVSqkHlnAfiQPxbjU21QV+h/8g39gueH//h//H6j+Shxiwvofxld4TWE/hXlgYbGuYFUadx5jy4k/MHXNAMNAyxU+UD+ST3Q5Pn/hK1joRhLS43kuXA+O+vRsWWNR3ucCPhRIFccR7dB5dWC61YnuJeZWBFIlkmhp0hmsbpy2JUFS0AXMYgyWLgXy5Ll/vLgITqN0uEMKk32ew8o5nzWuTTdbyiyFHVHx1THshze3I+DWLpwRnwFiYNCJwhZ1FLRQFWU9IyLHaY1MqwXbjNZxGcUm2gqvtZoLXDypMRjXCulIg+ieWUCavGSsJyBxwLKMHW4U8VJAFZQtR96ZIy4MfaYQKC6XPkMeL82UpVfmGIVXqhbPJd+l0UY42SGAly2E4vBPkX/FoDOcNFEhKBFS4rs642ZA9wq/573lMFBUkCt5GXkTSvBL4FtYXtWRqrPgVXqVbjmM482DueAhjZiuyNPAMciV65FOUC3tF4wobeXxQsOlEVApY81jprvEXIOD7nFjDpRQGq++/fKz6i1GRa/Lm60us79OtrmqqQ760z//qS0C7967jyUpYmd1CXCr28wfMemfnR4Pmy04rOZTY68ztby5fjO/dDvbspuU4MFZh7I+tC5OowwUsgqgLYaDufO1JVt3tLd2qKjR8ShN+T85SL4fnhwtNdc7o+N+/3r7ZmF9bZsPWYywEG2YTvbryMj4SIN7ZhQJfPHk85U1Fbi72Xzv5np9c6tjTXJnv9FaODo+tSxGcj/g1psrs6L8+CTOKTE+7iyGYOKRxLFaY4QDHAn2Ri0A9nihoAP6LcginZTUsrZmGhqr0NU5i0KPWw56PQVWlhrL9gnnXSQb5VPJ8u2cHO/u7vIXLTaWjzsSKcerS1L6SDxZYS2rBdiONs2CROK5QhVmIK5qw5vYTpw2kauUMOUJQmhQISHaqD9kGuUgq6CtwJtKYGRldR0zbS51NjbvSVO0GKGlzkRrVerH7EK7N4BjfUOr1y1GXOgObl/t7xe2w2lgi8i1+3fuX14tHBxd9AbQfHl2fm04nh+d8tvNLreWpuabClvbxK81X4svJHhKV5C035dLcnXdu7pRuGFslZEwNuPh6mKoOHuAZl8kMSwTTEAJ+iaVQOlYwAsPiaCydnCi8EPWzJB70bGNDZhJUOIbb3KgxFAMFI8DUrOSwIkrTlGK5GB0uXFnhbV81h337PsyHFi9BIqKZqFy6kUsdHkfHi6Hk7RVyFkHq68+kY+jUDZMyzmapN8x4qq/BNDk/xX1lbiE0cRh3HNyymcUxFHN8hwyWSqpqnKb+/xu8+233379+uD4BKIMxxHQyaKxlY9/SSmoi2Pjxep6JAx+cwPUCBAbTATPEuvRZG1lVXkXTv6Dg8NXe68It7/7H/69f/gP/yEs+8f/+B9b4EQbi7hKf8vAqhOT4M+FxCUiq/xl/OFOFYchpMI6jDHMxq9ERVIq7AslPsktizOajqBjaQETcTvQgVNmAgC1H7CGXxZo6nrO+GiTT/718YZt587ymHHqcF4Zji5rk2tLvJ3KEgvGQQjpp1f7zBAKyvuVWYqvMg/FrWksGLpYaEYX+hSfpM9mEfv5rQ3B/c3xqtoYI6FrhI14Mljtlf++6oxeulThV7rvFTO3y/YMX14W2tVJ01BBQMdevtr3SYhSy/zqcGJ/mucHe9VoKW9hzQX0zqLdVvZi4guIXjJIZNpCXVGrgM7QYpw6gH7qSgQeM+ISiIecxgBOJYtDM8S0SS4Nl+5G3GZISiVThXxiZyE9t/kUnTdp/oDyDfiTjUEtzVNRyP0YYBTRFVVJX9zoH4d/qhcVgVdm2hOZioI85A0WGe3E/JG9pGwWIPhMm4HAG5GUZvKSvEVQ8s230rEAPcMvbK3c8Ut0gUYRt6WpCLGqn0GI/IJ1z1jwn4u0Cizv6ZefHfzbP3/28uA3fu9v/co33zkb9FI68mrC7cKxPLPInlCM/2J4NrHjTr2+eved79Vba9SS2Vr7fHAhPPHsxWuxzTk5islERQgwhmHKjpA2pYhrNiTJDnCqi2rSOhNJeX6cmd0dj2S9v/f+7r37D4XBlGVqr0TJyJhzhDDQOQZGAAOaMQMpRQeDXltfQec0oa2d7dNjyuhhUiRupurd/t27ttnwpOKhO2Te6TWHQd+mbSVBOfnGqe5uw9XgapmLkmIQtSSwzSSaA6ueQJ+dZHJ6Z6lQo+ix+hJYFVcToWD1sFD5/mt71b5iV+kt/9B4MJwMb8bD3rP58Vr74s62FPKeknKT1fiz+oLrDAo7By1o5AL/zm5faCTp7WgnZBTFVs9QQrHeYUVkamzLrJGQaNBcXNq6+9julKvrG4Djmd07Cw8ePoYM9iUTIPze93+TGW2iUXujtfzoLetxdO2M9NdytzNYqIl+NUnlnZ1HhjDs91i9nOLxv800LFwlcNXZJSAWl8RdYJ/QvgHiF5KQxlPXZ1M3fYsc5qKZG5cMrHBC0OPSIIWSpmJNAT4tJHwhnhSnOttMZIQFmaXm/ILulPhX0Dj4HR4bfDbjRSk0S3A75hFIUcolmEhh47IiRAyc214SzPHpKUo0hUKHMFlrDGuvp6VG9QBRjRYqqqhDywJsrlSHi06iMWS9UricI1fgIB0HN5RtkWVl7LZoVxkZH5QEsUXLDWnkc4lNzcyqjdkZXdjyd237/FCJlpNj4BDGMm7DWmhyMTcYpHEZXigAd04qcO+XwmYzsv+Pj2UnKYuhsNf1wmZrfq7xk5/8XD5ao9mkWPzgBz8wy3/xF3/x+eefQ2kuXIsWMipHxQWAKUgbthK1n4svJ6YrvERiPcIni4pdAb+LyWXe6Av5o1v4vORrR2FmOAZDcf7EhRTwpWlTAS4MhICxUOUbphieBUapIBJOVAE0PSuMMq7P0ohJhL54deU4QlJa1rbOVIEgJxpipRU8CLMMa9YKp6pN09XMUYYz5h2VE8N2mcskxaTEUK5m+JjJrVkeQ4k/aicbf2HjxJVEOuOARgECr6T+uGKW8X/P2+5pbBno6ooeykEy5bzj6RpedXnZ6Q5gjHnHaKL42upZhs2gW5Z7GWPwNTIvCSBReLzOZ3GZJP8GndNJyNvD/kHlXzUH4OAtEJS8Cq+MvRcYO6dXACL0LKI8UMSedDhHgX91g6bNJjoDH0ievmbnAFwiGkl5LKgcQwwYyxHMSDeDJPk/AkaHQyG5GMmVB/Gc/JxrER55PCIKT9TXDFcvQm/V68xSeVonqv57rDpQlL4VF2GaKY2kWdNZ3eC9Ou5K+cuLqo6/eTx9BgnmBJbBzElpLmBzz2jQ+8sf/rkqivD2y49+rCItr+5777233JC1LOF4sNaqbe0+ai8/5lhbaNZfH3bbW0lB5lWT3bT38uDURkNXKROH4A+P9pUurR82LNSXFyp8Qkhls6qbrvLt8nflNNDu6d2DbvbQa7cUcb9qrnCp3VH2jeg6Pu14yj4miR6CPxLKbIU6AJKyiQSwaDXo6JuD4XC53ZYHwfNsN6Bnzw+pitNTJ0+ePn/08H7/5nrBZNocYHq+l7dd8t01mynofza4FLtiNiVwVZJIE7yNszTWKiHps7zRhCQlek5lPOYmIM/VzznRag2ZHdYBnpNfjnA5y6Eu1YrC/Kzlf/VKUv7N5Y5wCAbZUebg7KC/rMqGogdzN7XuZGH+ujZzlS311EHFUoJPJeGDq5L/Bl3jEHPJEJEpaFUwu0b2ypfPu4PhzHxzfffuY/4aMQ5Hv9ulca+sLJtjYRvaIaOT9ximy7VDgxvrLfH8O/fu8lMZArOWJJOSgMO0ltuP336H4SuynE2Lbi8braVwu5o1K8omMeSuusODy7HeNiGgTt0QTrddHn1LJ1hqJBANiF8M22A2o2vZPpdjFUrYHjb15P69xOp56SKapVnZEU3CiAoZ7KpAGSmgMjQaThLyNz20k0x40FgxRRpq5mRmAScRBLdaYKm1cja+Oj3rnHXP5CHzAjKzzB1oGDUzRlGBX87gG/nnQnQdr3DkC+C/8VQVJpYctfAc2esyRGSjY1EQm3QRdEIyOiR+6VhQq8FWHcKasn+yaAzbu3l9aJ+vU74sijOtgnuxvphgBytTswynocJNo4H2mI4KDdZbNcgfL4OFbOotScc7v7aByHJrczKyLlYKpTTKbMxoQqn1b7311m//9m//8//nf2ty+RlLSD3jYf0BU8aDIZo49ILa4jMrtAORKirCJoNWWE6iwCkDRYlgWpEWpK+MHtogWeVxR9geugucQnUhh0Qcor97G0oJL8lQy5FHc7fPnJSfsNDqxGdmstzsPBLPgofC1n3VrEt5R6KTeLe3BCPi34AW6UZajPUrGSQSx69pUc9iXfH+CV9ZMcbMciXcO44jOeqZYp2KLWJ2tR3XJuinwXQnpWYEgsHDHE9NvarXj01tjMCZaeCm33n/7p1t5g4biOVuvQF1BRelIIcQQrIspQwCGnmFz8q1nYYl1trqPT58uJHFjXHbaNoc5PUxuj2LkWHrpfYznh7kAzadczEIb5wRrMnTC6CNzsQKbZd4ZEAHsoEdySX9UD+icqVDmUEzmjwXRxAkGEJ8VBDJPH7F4vxG9n8lVNxNhEQYmrMiRqun85bA05GPqk1n1XX/BKT5tbrHv3pWYJMR5WLEXq6We8rzaRkkXDDn6XYZTPla+m9q4mKO0PV0QCwNG2YcHu4ZmmtPvriovX5aX2rfTPrNxfrd7a3u6dGod63e+vKKwPDUzn3LgSFIHY6Qdt3T3qeff27Piw3lH3Z3KdNHJ4dUSFii+vTJofSLjj1Kiav5uryG6UX52IJDbHssJZ7j+X63961vfQt69M46lI6V9jI2p+iRPB2lcCCArpbDXPs3+FpQYprueXra4XWMQ6ypuK0tj67tLYKJ4zIWFEsRpM+SHNPN6dnBcHQpJH85e9qZq3VBdqVVl4TDh1HqcUJA4YnAw7rVUKNZDWxcKdMQCiHpFy0e4tYZJkGAE6iCaYQcRQnnatSkmGeJPSzOpasUdFDtoVnTA/V/F2fnW93ekYUYc3NjlaiYXYvqxLHVQmIhKWpfJhJSQk1+QWjIoSQndPG6WV9o1+emLjjSB/Oj89evnqvsKwcdrUErLIzMlKJiP8kvPv+c8BYbbrdXHj58+OLFC/aWlBXiPNUXbG1cr4/taDLsWQ+gpMhsRwhgWlp8Vr4KTQXTzxAH16VMVcXXj/dfjvs9gWkyJepffIQ8OvRYtI8hE7A3VgobQZQYZji4cwRKoWeRymG/AAdLYuNqKuF88+gt1r0h3kiqMJLoa4Adl2ChuajX1cQzz/HeZFSBoRyem7lGfdXW8IPx5f7hKbPHyqaz7tFoIHImU4OweVOgAEAq/PeJEfmETsZFqulnKK7oxH4CdpHJ6C4h/BSJ59omfol8tpRpxjMIJpvv0MlMNLVCngj1mFF1xryLEysTZhSQnz1kgb2VLySRBTD9Qbc+uVSCGSOQrK/cSavZgFqYgp7oC+SzEGLQ4xqYbG/zBbbxxi++/AyW7e7u7L169emnn/72b/+mZj/66CN+Z7OZHKnCHsKNClXoQFRkkAwfAsogMPwBdDnpFc9EO26TWAF3mQ62Doq4UtQNJmNsMcIi44LxlBnQQQZptUAqCjZTgI7jfa6X2/LWwmzYMIBZ3elKjmLbpi1H2tDPEHPeoT9FKuLcLlYznfiYI76OcuQtuHYaiFSRfEoxz0sTdSuRLVdVCL5ReFpBVQuumFY8KposcpMimMb1osjNiCHsuvS6dKdsfzkn3TgRcAtIIaf032l5FnzfdFofZtr0n9ne7uzkfKygNUiCQup10u1Do6ANp4wd9LydAp+VH9RL/N/SWsRBWTAhkcFebUiFW/sw/dgg8DEW3wy5MO/qDsWpKkdfkMwcAw3Y+dRioFQdGapnA+rMdiEZ35zn9zdyoVJrKnGkgcwnkBQ6ru70RNoJoMtD5RPipIGwwUxEccZSdfQVsrsjNAqHSclMUZ7zhvLedNaFzGGpDB3FIk0XjKRGoGNkWTDhqzciT6hZ7gg+RyNIX7SaQEMSAlOUJB1EKY1VBSEay8urViavrm3gd1lvZVmSukevX5+d7clhtx6zv38hSfBs8ATvYBSTE5999hlWyOUki+HhO4//0f/6P0Vw+maHqv3DYxP9k5/8pCiPo4PjA8Ppdk4xLgU7N1aWMSoF3q1+Mtk7q8tm+KTXOTnpng+G1O+lnQZvJA6LgyzZZB1UcpyDjGUVxsWhtLd3FMHWakmXwh8FcgwSd8a+B4Mhjry39/K73/7O8eGhePXa1vzro0FDAd5Od1rN2Nm556+tFwxIqgPGJcd2jkC1nFfafvZNg91xhS4ky7+12KLOz8yrLWINk5WIqpicz+LIkwuFgOTDolzJiDTibn+4ovAbxji5lP9xb/sDtT4Ojp7tbDR742nVBcQ5Ct+Mvz5CDTnNquUj4w5VJr81imascvMTaQAR8MXp+VH/4NWHj++8fXeufy53d7jQzOo1HBWiXl+8EmOCdL0uAXPw7PSpoP1ye2E8PO13Dy1q3j/aByvTurzSfvT48U9//mNQ+uC9D096hOs1C5WZYOEzPmDgN5djwcupS5mRi/WpBSG7m8szRbjEXFRmiCcvS6eKmgj1o7AzSKy8pkmwJhRYYl9wS8bDlM+UeAgbCqaHm8ZCkcedvApEXjwz0DdeH4L5Ri2CQicVxkYlZEHMCOowrS6mFoXBvvH996bnVz9/+qWkElVRAJNn2NZ09cW5ybjrJVbxygWRfI/hmBcoEfmEVounseJCEkHgpCskhmRDHrPWUnOpqV7lLWuqd5FiQAhQNjnrDeg8pRGSTM48BOzZMXqkStmsK+QNpaLTPbW+zTlhY+Jg18SGbwpaXM91Ts5a1n8sZxGqRhJKLVLAq2N4jc9TBXiKv/r0w833T7r7P/zRD0fnPWkPewd7zeXWs2dP/sk/+a94Al88e0oFOdh7PUcme0dwN5ZweDSydALEqNxJVO84Urn7MnivyXVOsshsMxzugZCi42cBU4xbwMEpzAigRAcpXQzUCvMpL3pjTSS1PcZc4bl5XXiUacMGfb7x93yt66WT4UDB6Pyq5fgUXfaD+/O0AZQLEbc6UH6tfgoZGAgGpx8owSvizBSjUevFtQXmFtZaJEngkF57MntOBQwVZzSRmnehML4CKTwybsKsr8IOcHszJ4XdTKN2MIptO35j2+Jopqq0hxUzUuOVSptYdgadKchoUlEhdm0wneKkUXFUvzlJz9zguXBqEPgrn4W9l++5qZpVD2UiMoICtlzOEMptbz682VHenF78fzje3Fnd/1fvrNrLZzUC5l/OS6O//C24kXFkKqqeF90h8xRBUqaIsuNJYA7ipVfVqP1aHblYDl/95NSnf6AJaGvW1OALZsEnYqtOXOQwKdpDHEmVJuGEd8VT/P4ODXpEgzeXy8+e0sdk6E740CQQi5dYqEAJJaj29193e/Ia5t7/8O2Hj+7Yhx7eLLc3sO+3Hr9Lwf+d3/hNQLcW9Ug59aPjo6ND64HUaB90O1ISFCIdXFx+97vfFSFTK2GpSelcIgWnpj4ThkgIWDJgBScSVzCEGVEOGIj4EAzMSJx9MGo0lI/IWKROPXv2jGpksPXaohKAyJu3w48bO3duZ2v5C9xnGw0oBdHDy6AiNutV1uken9rLfLIwNwwE+QCTOekvKX8UsEDTimCeTX2/vrbx88bGlvYwBD7t0zEosfRUfB+K9FPCtiRBHA421tpvfeP711fjvaN9NhuCm7HhoeTWMIcEZrJA8tJCF1HMbByopK2goXC/NfsxPuDPjQVMJ4rqqnOwECtrYcY+zy2Ix92UulzaMn0t+WjTk5vNucvrNpLaWJ9vNa62N5SdneueXSxMjy20U6RibmYk8tK/7hwcfObl29vbP/vxJ0qEPL5/H/O1ve2vfOetnS1LMMUJKOBqisdVaA9kKY66G08NVRJOk1UZRLC5mhqfvgUg8BmHwgDD++YoooxRN6M/t2ZIOUAcchf0rr6TX0CB2+TIp1vLF3xF7SWfi1fSV2tLp9bZ3LCZ7RQ1w2vGt0xWGnxMd324uayw3af3u17ILSAyU7460m51Vj79xK6Sl39du5IpZhorruUkg0qR5VSOxsSCh/JqOfnO0UIObyGiOF3Rka8BobvLolJTI0WaE1g73uPtkQTh8w6uoETpFPmVIXLWO1taWXp18IJepgKitT1ey9ilOPn0UhWYvIJOWQ0temgBkwEHV80JuEMm4DMdBpepwA3CgFz1Sg/El5TYa3i8iSmflQCgGYlgYcZRbVNIO9Avr/BIOUlz5XKZFrNXmE7pQ2kndIUDRCw5Mr6vWjDnQVDt4E35DJ9Ll6CQpl0x69W7itX1BgG0kVG8uQUupKeRVTHO9ERv2Q7BqvKDiUbSlMDAodCNjmi2IFD6U02/Xnmx64ScT1OiwVZKgc0zGpQp4hsIbGKJ3mAvQO9hlO95jELTlMmsUDOWZASlKUcmtOBZuvjVFb9Whwtfnf61f6vrf/Wz+lkjpY18uKLl6uSvPfz/oy9ljNjJXz1Kb345JJ00V0W/AyU3YquZuApDAASUyq8g404TAamrAzajAUs/fCWlkJADK/fpa1WirTp3gzsdHk9cLIfTTIruILwsQmhYoJQOVETCeeB+2vX+6+fDwWltgWdpTmhkMun+23/7rxgZi7Ulyyg5xlaW12wkv7OzsbG5vrG99isLv6LZ5LXbnuT0xGaqTz77bG9vb3VZdYAhz5W8JNwodZEWFlSTWkhtxnnZ3YbuQdMHbTC9gr0pEKTLCPv05Gx1Za1et83HlbCNrDypU6i6mlypelIEdV6bfCmEEj4SlGOCZxmbI27hHNGkHZbT9rBj0pHB4F+UIErA+8x8gPdgw82Z++QkSPpWyKDXA2rizEqvBp9OrbbEjdBas1e87Rx5wPiylIU5+uzp3d2tqbnmPMHKcSA1nSqb2jCkU0SicgvEla38krqAXm4nsxfyYuh8zOF4amxDMT5/PRqfSkiRCCSrZdxfRGnVTJV5m7kcEl0pAW8nQf27He+NLo4aVnHVZv/e3/hO0jSikcw365eP7i5vZBHRgvVTK/Xpqa3l1frM6lLtUuhnaWGlBc9O5hcshFZAXSzQZpIIG0NP5a3CLiJnvTpkxdT1D47BDsSVDCDuwep348yPRRmIIyPiCrSDtMnfKH+RG9GH/RNhhkVVTCBsxnX8jfRmceJO/qF/MJ2fvj4xSWZTE6bACVBA3XhYZmWQXbdV503ij41souWUd/o3xobpC8IX/S/oXo7c4Aoz10acKyr4S9iL5xD7qsQPZIM5HnenQ3YY1ysIWkjgupu9Szdevnzpq854O/KhrFfteLC6rnvu9KmRIJJwYzEBCbz79+9T6zSIIspa6QIB6TMXCt0O+D/sD6Bui6Ysisj2huWIuIp6E0xIpaVKXJE6wOYbtZPiR9PJZJmjKA4p8GMBjzwF9Oy57CXiIqFS+L57srdqsXu8ooir2AUODeafX37km8MLIIiT8pn5C4BdL6zKiUP/4k2GWj4TtsTWTa535jPSK1IvyECfq8RaziPVIluQnJ91wERz4ij9kuobJpRXQv/DGyKr9BZOeiRSs2KXeVMOr45oAvRy7ooG0+ZVstUleYK7iXGY17J4Of+kw8RsebtHMoryqYvp5VdH1f6bG8pF5xp3WmGAr//jw6/Vxa9Pvr6ntFERyP8fZdVX3SlC6M2Xqs8+v+p84FzJqq8Anp+ArBx+qkBaQBvYwl40/PVRxNKK60785LM6qivaAMCqqQommTP6MO5YGJA5dcFX3aMV8h06qSDvFZxy8ik6p0eS/ba21qQAjMeH83NCfQvN5aadDWZn+pLuvrj8AlUqwgVH7EDRXt3QlGWtys3ZHOedd962iMbrDl7vEzDDUZ8zTuUDO8QwskS4VFPxfn+hsfC70Jn7PeucHY/mXYdlrCtMW6REkrDBklhcQ+7sNrruVEQxsYQCMR1woHxw4FpCAWk6CFgcpgW1JCxGqc26iwYrkh1ZcJPP7RzE3FiirbStwJ6003JYR9IHZxYVCS5cUhBIoIvfDCF879e+r6v/1X/1f1+xNclR//Dg5VKztrbSXFtpLdUXxNbJLtudT98ojcHwFSThGZKmSqUDUsl12RTDeyVsRBqIKduGN11XqcjWOanSrQPEN5JSFQhv9TrokKWyIdlpOX6gdXb8BVete2BCo9UU6d9o48g3yvfhTbtbjUd3lwyPVOYfv7066Q+eTk2fzS5EcQmXiklBeRZQpO/aMSM7YYTJ8Hb5iw8kM0UHgzg5D+OIpzq35Er4iP4E3CH/MMN4OXFaNF8AG5dPJa4KokNHWBem5v2GMTNPieLkfnzvPisrOIOnF4mi/KBROzdBBBVRQKqRE+BZOv+GyPzjq6NChjCbQgi+OorwCl3kXDvFhUZOeFF17vHq1+oGX8HZe6GTE/f4hFckFg+Bw9uZX4r9umiC3FC9+uvHtQA/vYsYc6dPz2rNuFyvaNwjZr+6YXZ2oJ179+65IYVN/KYJvQLLcPpiV3Fqw5ZiHhQRYC6jIkgNEHiEDUQSsy2WW/XJispaK8sLwvEJgxxBvfh2ElXKW6CRfpRZAz2vfCOzKvnkhwgY1ypFpBINmcPSvb/y8dWVYj4zUkrXc5eBlJujy+R1LkUhzMR7dX6mwxVG4D1SKop80mHrw5K2niSLiKsgYQwsYwSUPObvrxwaFnXUMS37pyBehuYITCWBlWqEXk42YVuuh02UCTDTTGDFOs0NZE4j5fi6+dJM3udy3lwOz3598vWd/+MT9/y7L/67rv+P7/z/+ko1U6UPZiVH1Z/MdXVe2ZHla7lURmWQX1/JfeVrBRYoD+/BswIppgN3nVMDfVLlvpZVTlyBw1/fXxjrGxEVdCwwRDau+/QWVzzlRabCxZubePydaMF1+oyTMGpUND3NJHr+7PPB4Ghttf7Nbz7ksmMKnE+ORsPLl6+e3d19hybO4kEyfBBWiHa6h7VRzf4gJplGLaVaTHJ7a+Pk4IBOA7csbSFjGq324fHJKMX6yD9VarNsR0KynkAUy3gARDcoOtgJtErHIsZstWOvo5Pd3VXszMBXLFtZUMnigiTDI4guINJzI8XCiCsCDHegjhbwVhzLVhvB0ExCFH3Mq/A8UjFkgqTFxja14I0K52Af5kmbam40FhegNJc3cTXq9zeWVx7dv+8R1Rub7aZUMfXw2isN0bPbucW9o+7RyeXr48vbJ4OZqQNqQLM+pUBP0sSW1iNI6vOENXmmUJw6UPhuu7WuyFdq3Jbp1sFwT2lQiXoIlikWZVMS80hLJbqu1pYbMQ0vOxa8cc0LnlyMZgTYFlvLlI7I36vp0/0X3mVlb3reXrNU8kTNx9spS/s9C/zNtqrGe9e3pyLRWk5WrdC7yP2MGkgV+wjzwkVMH6DwcImrxgxjgdHlCS3efT6nIL+/iPx85pE8nkhE1OdwNlwDD8SWcFX8LBgW+YXkK8KpxBvvga3CWJkLd+7dt0KpV/bYpY+NBqyR6CWUFa2xheE1vw5UyQQVk8hJmi6cxCfA+TSb1Wd1AnMK5mf/EUAuFBRQO68ecVt6VYjFFTcgBDdXwQ4T7SK3Km+EOx2+ArI2q24QRVUfqrf7qUJsv0JRj5vfKgmQQ9Kz+j630IzSyttugueVo5Q70+adCmtdrLfdpDcQtiSiREFwblzsWaUqzJlIqDpRybeYSq1XtrUkFNUhLFPgMZBAy4RSaiNrC+JhM4uxiTVCmJEEVqZrrQw/c2Pgvuo0yVG9WQcyZ+mFn4irQKr0ISeEWD7/Ctx9dZS7o8uUn4rZElUhwPVrvIblQaKyHFSk4JUxQTz8hxUomQpvYWunny4mUTxJFkZbDHP/0HLpNmmokrha99WrHZr1C2jlR7Z2keeKNupANW3uQeHm3p3wx4h9hUnOzZavRlrdmabKU7n4FWZUr/CTE4ef3OzElf/JRwUcj/97t1Og+u94779nf+Joqo6qwWpaC0m4rHsOmI0qHJXYcEIsVQdm7XAFL3Yb7K9uc6fDFc7z6txnBduv26yG7GJ1HTyD5GEwUSr96rVuLrcpSttURlYbKmdZMtI76+3tvbJI/9237j9+a+t3f/s7tQYdc2gDh7OT0dOnx8+efnZ8fL69+YBOaRMNEQfJbhLa5X4zg+BTo7Yw6nV//NOfDLvdD957X8IFZ06/L4wl39kfFWYcBQ+aQmqJcTkSVzZGJL3UWnZCPCBdQ1MWwadv8F+CdDUiGiiBpMt8jMXKz9osB9ABl6HRYaF9wWccmBJgDa8hh4tRscJGqXnR0oqqmgSfqUUr8zwpG8ON4dqe5wK61Q0/83euLLUtlkYgqvKIN+hSRzSi1X71eh97bTTbCoffe/juWe8nQItF53Pq1jrbUV92ynj84iUW53F8TtHCxqLyTilxzt2qIM/KcnNFoTqZ0QRO1IiF7Z1HBmjsWfAtICYKgglRNSkcc25zk+bCehg5teQgDMFNYq0HxrfnRBn5XLM/0PTo4OAFvzzYjl6nNu5SszEYnFye7zcal7ZF5uIDiCrFKRmMvDYOoElnI9xzbq4S0MfNil2V6ElhgFciWG5IPMXNdNKCVHFf5WlHAivlk0ZctG1fcs8b9lWRuZ/cF+W3vbLeaq48//ylpbq4ttxSyGM2KxdU5qeYj5yy0YUpPuUzbyiHGxxg49MFLyoX0gcXYQh4Ooc8HnTiBtIIgTicGyFcdO6nrPMtPmpP+UpKVYdmPe5wAuA+3eYrcaVxhyve5RP7c1H/uazdADmduBnXz9bkjJ4YXnmd+x1ejRjJZidSJCmkYYVgU8E6scFYGLqYLblEYPgxq+Jy9lnggYiI4g/OILIhiMVFLKr4LVlXsY7IqkyPAycA8TDy6rsXFa+Xy56OLRcpEIEc+Lkr8+pbAPo1G6zYWhLucvg1x5v2Io3pOfkhy0gqt1phem6oXuuzut9JsQWDY7qNbov3j51I61EWhhsCgkXfoYFyMjIyqcnYWdVCWqneWz5BrPQmHfIuksQVueRGb270ynQCtT7xxvoAa0NOOCuAi7fTbdRI3yr554oG3Zmfyw0aBE1XKliU17nr3+P4n/DIv0frf+3WrybGxTKhRlJ+rz5/eWuUBUc11ILBMNIYC2a+sUoryeQT3sPUiuE6rw78JehfhJNPz/6ydSxvMVqe1rzhq5e4EKiaJXcGL95QqznOGQ6SGQyoszDLiUMLXlcm1hLX/uv/N3d/9rTZdZ0HnjkhkTOAxAySIAgSpCRKpKzJllym5ZbVZbcsd990VISjoqP7osvtP8Yd0WFfV1SFb9sOD2GXwy5Zbrs00RZFS+IgjgAxA5lAJnKegP4963nfnW9+mQkRsjxELST2t/baa9prT+fss99zXn/NGDt+zGlaP8Ha/8rL337g6L4nnvQxqUMvPP/5X/iFR/4//+//+Tvf/trLP3jDoPCJBN+AP37i0FPPPO094sx5onDdGfUDh+yx2MVza37h8iVfSHIQw+rrV0wi4i7CfcmZ987mu0HTraSIvpRmsXnkYR87P37CGwe9Gu/YsanFByJ04cLbE2qd5H1b/LqZn0kJnYmAFrPPBHafjUG7/5axd8+d0wczqK/45d+V7Ga5tPSCP4cVXY3mMJqPdui71v6sT26SDGrXevqq0apjywqwf6YAswxbJz/2tLPbmsLZQgutdzu7y/T1B58Gd6Tbq3Se+9SnP3Eh7zJQmsY3SvxLmG9dvmYtz2VcTp7duPmePbnL2eLwuy3nLDzaP/DBu7PV5ppdNHzb8Pcd+hCKY97me+zwI4+ceughq9S+o16Z7smV/VTnG33ld7+vg+XrSO+ePecMtDMJRlleEn8wH3BR5P7RIuc3W16I8c7b5x0a8/7Yc2ffy/v9jjhf6sctXp9p8HIj17ez52IdNF8ZvIgJmn+u6K1qg3fFgqY7mb62/4KDrHczNnQ3zWshyvWBaLhUj57plNt7q7kOxuWzqH4BdvKpZ551p+ilEX6xqZV0Zp+QNu9r4kzi2X7IA0Wnvbg9XT0mE+CZQDQrzjUoNg7NxGVZ0Jye9NpVj5MZJnHdW5LhzaLQUyl6PJqC02nh1PqOQhgaxoieqcgi6sfjrpb0UlmXNXpTOtS8tc6qg6H83MZDkN0onysStZv5P997M9LRacCmRfze69AbZzy1400ctT8r9eyfc76opuZOherx1uvcEXhTkYs/7wa+mTdXZp9QqF3DuCGG5bMgWausAZv1xvWFbRbjiDtprTSXFSEt7ss0YfNo0oRhdFoaNJRLu7xeFLStIaIjdQEifM0OJXt9cTvnsYn3IsK5cEg201GiNV2BEHm8fMPvRxO9+ctCm0MW7gjz4lfsPrs2F0/OnnbdizJdNaN0czXEse2t1abtp26d/8YSAc/L0ktECIyXytMXxdOTBiA7PUwHO+yxaSrbzjqVpSf5gWLVLG00VvbDkY/E/OGqPsQ0N+8pqzcPveltFisSx4AAboLgeclckVkezN1mIqlh0GXJTF02/NhAERrQAQrtazjlKfoEEKVWK1K8LUIWUboYZKuNlCGgyN6Q+Tqnpfd5K+Bbb775BiLfnnnmiU8999SVa+94l8Dl4/tefu21s2+f/djHPnfs+AMGyKGD3ovi0ydXfIzK96tefPlFP/j3WfpTJ0+a8Z5/7lNvnzljbrYNonbAT4JMqca2heSVV876ic7+I/N9Ez+4NMzsAR32NvdjeEwKBq2fS/FTkIz/DMUHTBlnvQmJbyhqJ82LK0+eNFOYCAB+dCG1Y6OpnvnYx1x9etFzxrtAORXoKtOzrjPvSm3zuZW8fNkbHOxEpMPRpMcKiwlHlBwiQxYZ7a69BMRLxV78/ncfP/3oT37xi44++wjJEycfPXvuXYcVTz708LxF8yFb3+4SXKlaFDRfVWXs3rr5pK/QzqfpnNBl01qQmcYLkVzmziaEEeXXTH5ShltTv/H2226TDp2z4Wmbxw/I9vlmiHrleJNDiTnNuO/hh/yO1XR0y1rmDUGnH3nIBPPoow87ne+FC862HfXipuvvP//8530d571Ll08//onz589+53svP3z6mEvxHGK8le91eXukOSnHnOe5Qea3GZWpvAHt+n5mN7iJYwCDwqxM5jHh9c+Gk0KUTHjx9PYo3rkOdk2qLFdOWchctee2jPj+C5euHTt06pHTj793wU7gRY0m7D4dacbXFjhdBrtUdlLHwOCD5hZhkNl78y3guNYOv9vt6Qei2rGDh7YF+kxXPjykomJGuh5btXqUtUcH87yKlC7qhun111+nUBG26aK5KOeMlJStPzvS1Moy6jdzmIkQH1/cBfn2Vc5SqKM+bKFiGsK0LQad7dB3X3yXpBsp/tkcS5pTB+6oUote12TbNmuMyTM33gJuKRQBFdSoIpuJISfqUzVTuz/TLJrA9ZeDQJk/6lOuKzY3WHMQffyMA7N6x8hBrzDP0sJWpv4sLlGWITMOJGj8GUE6dSWV1b5C6qefuuy8oTMuKp2la3aLs1jlIsary3KPldWWw3knj1mBEsPXdYu+ldN72c3PfqataDOIVZCetFnqEWf8ZiJV5kW8nLuJWY9NSX7BbTRqqmnjeDmdx05uBF1W+3FklMY6x/N159xxeaXg3G5XP1mti18V0gwDslpX+iHQIJdh4+riVjawKe1svu0oG67WTqabFRCUqbGqBvFvLoJ4yDEgMHOxM0wZb9NIXM2lzUCWmRwz0Uf1Qi0lIDq0zmdNQunKZC4WtE7iiJgBzkYSwiJoKNjFCW/QakcpK4jjV4Imq6gD0kVXKVWlCB3wBN0XOqS0MWfxcFrdnb/JF8OLL33H1SI9DkQ9dvqwvalr1y+9+dZrz37qye+/+G1f4/0Lf/4pu4JeU63/P/nkY84kfec7337q6ccu5Z7p/fzs94Mb7757xo3Riy9+3zBzcv1r3/jG46fnCMYpr1248taZtxxDP//eOVe2bifMrdxQfT0W4vmWW0ZZPnNe4viDYaW+ly/fMIwvX7ooYjz0Uz/VPHPmnc985jMQn1Xkuc+OeEl5J8/nPvWsZc97wBxE1Am9bdDDMuPTDHL6kcc20TM28mNAWyvi4eVe73mKkJnL0yCDPzNCdiyZc5l8/siDn//sj/zYj37utZdfMYDeOXNeE/np1bHDD7zz1luerrl50fF/8MqrPDeijhzLro73s+r2nrJ7O67zCt7CQ6s+59dO+XGc33od8/o7l3oZdWqcq2KbRH4Me/D9z/ykL29d8FjNfJ3uZ4fTO1JtJb2fVwBfO+9HSre+/7KpPAPywP7LNrk8JNMxLWMPPXLArO4Kx1usTvji/Iljflx79OjhTzzjUsCtyZOOfnDAQUUT7D7HWa5c8LzRSw6vXb/oB0aMeeDoBsnIzSvevRk15zDcDJuo7Brk6lwHnEGSnSr/ckeV6cSfzU9u4nPGSu4wM8GomRMAvi7tS9M0uMubH1HqxZ7A+Qjv9ffPP3bytC8AvPjy655h+RbMlXezh+x5D2O6SeLjMc1cPbixeOZjT5nlWXEBBNzNC06HlY4Nx6nPC6zGLd3QU2Ei+phUYPnX+QdboR0Sjk4D0/2VlasiFMPEhh7xjujd8csiTuBWrGOw450UQ7oQYprPY7Ppw+4+vOTJbaKnuX4H7XWRGPzazfbuYyeOH/r6d94W1pl1OZkHOblhSsznRmeO+WrrsAihSVx0s4m3gTTD7N25WwpkgjCvbaYV+TDQ2DlvZ3LMMuO/meV0LZpNy+yauT2NGl3sbe6ihh4n66e0QP1chcz5+gPWFc3t3I29+Pe9tzob5Tk5OP5YrbJX+YGRkWXJ4GPDzZwaeaClxvtNK26MLLZqpAtsXJ6RmfpmKonH6Xwp3QIb2Y/cZDPAtKUc9duFJrWx/ZK+HGKGOkQbe22Lp8b6ih10qWbThxRtdd/jL/33oPJy1N5dRC2FS+eGTcOMHi6BXanMR618i3ZKo2T+8RwMvl3YNk5t7lHGycRh24OPQHRiw2O6cj5LautAx0U3EgAReKExbMooPXAVAfDWZRfhv2yhPHA1xQkgsuVpTXc5MRg5HGD6ijdtDpg0+OaK3k9uzfjGo/7ZrwABAABJREFUy5NPPmEiePThB8+dOyM+li6TwiOnf/SzP/ojZ9+++P0Xv3fx0vknnjh84eK7Fy9c/7//P/5vb7756r/89V/7xLOnfRkrv1q5ft2P9l30XDh3wQtqbbW54Yhj+S3P+6xevHxZEx7wwVUfidA15trFPNSxLZ3aZ82u861Rq4O4qomTLId1JLMVujibF9ROkQUH7pChE3TvH3EE42Q2oux9+6CD3YYs2FkGrvmVmd/Z2PH3nWPfaM61bC6n3HqJiXtHK5MZ1v3T8WNHHW586NQJC4Da6RWO7LvGyyGNnBB+z1d0TaqnH3rYLqS3vSL31lAHMEH7feuNqxfyLTgHlzLyMmXn9X32tQ7np0upbL6EY+h6RZoT/7RePWxteeDww1m7cyV08YLnE+Y7I/0Qt/hvjlJfa8tNH+a6ZElm+opznuev3nrnNY9n9p166K0bV727wS+07CLue/edr3mZ7dOPm3z2+bj6z/yZx/7bX/pzWkLXMNhvOQJ67aK1VE/U53Py3vEK0+P7zr843KhO4iZEHojQ4DUW3mZrLjmUfS2+a7GsTpo6oz4zTbLOYDvOYqGJWjNLdrasggSzfWcROuzEjgcRvsn71Mc/dfjwiQ/2v+OrxO9NF80BB2ozu+beaLZm7bY9cOR4nicB1RdhYD3QKO0h6InndmuhOHEMGrdIpyBFRoTw0gNkyWJQOvu9OZckzjqJ3oWov0GIdKHCTCciETdP7rqsVfCujoJAhG+MGm1S7ikFIhZX51LSqFSq0+Jnjg9R/uZ5yk2fdX7ejJBHMFYmVw3oeamXn3vQpROITXjn0jvRGhh5CtIIadHMxWmYNIMFKHcqmWJAOED8ySd5pPP4KjSlDBk83irrFng0WAaqinIybqiz8hhVGVhjpWsVmwpMmH6IiA8iZZib2XMf3Zm9TAOe8Rp30c9c9iacDSUai37iMc9o06SK4rRFbTPTWaum10VXbiCm4ceLOA/EpTN2bpzyQ65cLmqz8ORGPO0RxellAQPNjalnWUZFmuEB3xHPQtUUw2j9009ortvLecg9zGXFVLKprAwetdhQuzSGNK2S4bIBdTEfSXVNJLcF6y7qQQ+CvShiFh6dFV3/Xppn6tkoWb7VHDtKy7BcjXPxvCnyBvJDFXN62j3dZEv2a5zNJVQoWmGaOTNczv7lxyLI71579+w7Zxjlm+tBPyB1CMqwtDLZuDAgzV9nz5374p/5mW9/9/cPPJgX1urGn3z2s9/61is2Q7zx1gaM3/w+9dQTTz/9uJ51+vHT2t2M/+1vfcebYX0jNT+b8D2OzCOXtLX3qnkDTX6qv98xuYx2TuceJv+b+vOUzsXv0aO+RZmJQxAmYglMR5MYHjhwHLOd5rlId/+63zW1Kpgm+MyxN954jS0XwmYQzzxOP/q4wHgXq0sFI86FYz7KNrsA+ZTRoYMn546zwX/4oUfiZ94f580bF4hfuuD7iJft15l0zp+/fv7smddffc0PnD/3wmefe+6T79/ylqMLJ44ef/6Fzzqg8Z0XXzpz9ryGsHa+8+75tuT47OPF1/yi+eETXiMiSPbxHjxyXHp4n6+G+QG1o+rO2+XBr9sMxSbl9LdTR064taIndzvzQo5jx/MGZIPOIzezTWfJBsp22c0bjzmI6JpZFRy5/KzXKLzvF9wXDTn18opbn2B/5Am7G5d/8LrfpbmQ3ff6Gyp3BMOhQ2kG36zyHsjcU+VuaX5panUxMc7l6LSE6Ud7mEXMINLMO1Y11cjRs9mwMT9w2oIsvqbRaM0zd/1P87kzDmde0WUWMWF4S4A3HF697q3upx7/xKlHHj138YpvD+U5d+bStK+Q0sKU2NkQ13NE9cFjfgUXUH10obBZp5k4KU3HNwGtUTyjw/MId2zWRwo5pR/AqdLZMANzsDmLQu+5oMEL5HQ2SupDmxKzLt3Ry65lxj10bqMve4/zW+JMOZ40wdxL8ZDDWsEo81jID8sNVmcJ8u1oP8XTJ93Kz+2X0SdsOmpel3jipF86nKKL51ka5m5G13HvlWeLudPKyTevBs2qb371ZdDcss1Vj6bJ5lvnX8xZycAEZab7aMx0ZtLTNgMjmElbt8CYiWXWgVxoAHOMyKS1cbtqyDYdyUw82UK0VtkezI7xlM9U5arAWpNbvBw9z0KFTJUXIMdA0DDrX+JowfMLdR4pcQ9m+zB3X/mX27ssdOMgkdnRdb8/nw6MjihJT+LTZCVRklkjSEq3iOZka2qQdGQy1yPi1/CddyqlG63OgVLBpZDOaoYU9mS35PwltVJsVcKZ8sgWZJUuaFZR2bzGQFGJ+OZfSsKf0ZbLHJ1Xohag06he0ayO6GjApNlhmN/p5pUwSp1LVdMEefam8YgJ9+phVG0hHFMdVuoMpMSJYVC8q3QxoywGeHlWqqiAf6M2Z3Ny32ZEGUi9FG3WvPz22zlx7jNITz31lHkfj2/96LcOwb7w2R//7kvfcKzBwvfqa146fOCxx0/P9q2l7ug/+Af/X99TcC/y8osvuQX59Kees4Abp+fffdfDDs+83vAaVlOSfqJ19u/30jo3GHk25Jv3jjW5ybYv7/rcj3q9/n3iaWymn8wx9GnbTd/Tu9BVR9VUQRj98Mhpw1ZfUYFO5uDetWFm2Xc0NwS5Kcnl2qGr7/sKe3Zg1N1QEh0IoOTNt97I9Il+cL+fXB886Ft9JyyO3/zG1y5cvvrpTz77yEMPmfTfesNT3ptvnnnbAUjdnDNmIvePHPMyWdrFNgfjZ1ODWg2LzcuembfwZEZzUuO9CyzlgbYD7DnpZOfeNbXDzELjjiEnAm9cdEwi67rmNeWwOqMtX2+xz+Xc39FTJ7SvoctndwgXL5y3AIuw5da3GX2Pzl3d2TN+6H3YF3/OnT2H+PBDpxx79/a/k8d9T/nqj/3oU8eOPbZvn5OL3g95yZFo1w1pqpw+82b0rDx2AvNDYG+hy29SPelzs5WVzF6WKd+EK7Tz/T/Hu3IJnXu/Wa28mtxHgHKQxTKcjUSfCaUhNxZuaVxKezWRczCq4C73/MXLT3/mz9j4OfvO+bPnLvoksZ7mQLdFaHqyNTHt8uAh5ySOW+1ybvSEt6Tk0AQGndamq16R8E6brlGjM5QibkC3wT/tknGNUoaOFEWYUTBox+lFOUfvSggFP4rUAsMxF0ma3mKGQcyzps5PiSnhCTCm8LsIsxRxLG9/PnSIWved3Ms6svaqZpwaEejPPPNMrJy/boSnyXmzOSyXlzFk6coWnCuc+Ormw3owB16zqWVqz7KgD1GU32i4E9n+aprtEFHJdAXKLRotqfMsFNidObJNHC0gE+F4ZuXR3lk1LS36cx4mKc1S6tIoIcvKZ/8k042ElLBLwfhDX++4+Brra7nKRQJZ79/T27IoGuUu3KyLJsJMz17Un2VMjcZEnpVmbXQPtvEtNmJq5k2eJ2/WZDAktcAnFdOW8NBULm3WNCLCcKMILkpTcRcC2Wa56QfpA/gLOCHjWhRgzp8Si/1HpLRV4bJFWYlMQtDDMEZL9yzKvK52YCaCPGeCu5mAuDsxgyiXwmcA5Eaq2XyAZBYYtfb1QxWlc9tPslq0dLpNkmbxwDts6ifBxGSgbHFyB5QOy4ZnU4stQ5UMTy6toiGb29nYcrDWGPOLJV5pjR6xhfDfBGB+n8bZ59MH164ePHP2wtMPnvaLjk98/GkT9K0L1994/exPfP7PfekXf+LCe57fXHrllR94pmw0CslXf+93n3v+k9777gCEkWzim5XDV7CPZJTpElYJn+a1kOe9iS4L0/9z/5fwZymaYOY5lkBxOaMi7ud/1ee/CBpudmLGyRzBP3Qt22LcVlmIqcF0YO5QlC/A5t7hqLsHz6PSlIePxqVcrZkI3P4ZYNNRp0cYAax45DumM45l22TU0nn25k3r8Wee/7QbC2fZv/VH33QE0acn//Ab33rtjTef8O3b558/ceL6X/uVv37i1EmywmKVYsd0b+a6fCHHPuhxBtkZkPOX86aGD659cOKUW0af+fPWQJfNaSR18XqmowdPOiw5oTB6s6AKlaKHHz7lAtudtcP5WWdneXvwgwdPPnLKjZ1fij7y2COHLlmtL+4/+ICP/p1584wDC888+0nMb7/1xsnjj73wuc97S9O3vvG/PfH0x2984O102bhzWtO85UcG5gV+ZO9kfg5smrI3adb0DNHbLr0Iyd2qKHlvqgsaU7Q5ajaoZpjP/o2BZSfx8FH18hZQlz7qREgf9G1eb1TKC5Fdzd70EihvW/Ki/U+cfO7AodOPPe0pnkfbtovP5WcPH7hHtzBM750ukfM4ASuBLmGJcr+EQWR0ABsDNuKsIkK0Gm6No+0spDCXO2tM4Sx/EQOBQvohrpj0SUsRWz1koYisUlacpLBRKciI+lImTIMsXzW6duuBHJmmUGfT7O1C3HNmFd2IAzpznur3UbfLLmeLjhxxgNUOhJ94OxZw6D07vQHK9dQc73aq3q2VWxhZkdJImdQ9YNcxTB8+S5d7kPRuPdgjSYNF7cxXSk1CmYd8oyUXv7lOVw2jUsNrPjN70tnZs/IAirP5JwzKWdWiM1wVoRiZXSzVOxeDiSlNWakynmbImtssi1aPLKi5VA19Vo7MWaHP3CWN9fQx3IZ3XLdkze1dnnWZNbpbxBbX6VdN65W//qcVPcGXZCbZgOhnyMy9XZer1Gog1kdlWTvA4MKjvaVwlZ0fDLiayg9HNKQ6g4rcM43F+8MqhfBCqqaQJbF8K2UV4Sy4aFEUMdf6W4DzGXRl6uJkhCg/ar986NIuwxWae9Ys3sBVZJ1RNE2aVQcw1LDQ3yxKqy8tETK8G34M6NK7YSsYtRUpIlW1JdUiFHREUtuKZ7e9I9PAO3/+nAr64ZRbCrzuVxx+NZPYwrly49ZLL7/hZQ7HTjx647W3X/ixF/Z9cOSll39gJf75n/+pq1dwHXn55VfNknbhTpx8wPTsxIO9OHv8jjYwOz9OuhSvXBx7W6h2v5HPK7i7svDwyoDlniIRE8BUIVQ9LzDrSBDj1ZV1rgw/+GCWoktOG3jzG0Gv7+sdoQpqL9MHoEGbmXt8vOHw0YMeRlkfjX1/Z+htQjeR0c2pTVfUUImtrEGWnzrFk8cff8zdiY1B5zWe37/vtTcc9X/FQvUTP/nTJqN3ndO/ds1vWt8/8PbJRx41K//Sf/uLvgQhCGSd9KMQYtYzp3v4lK9gOHN44AMvdDW7OubhmYd31lpZNcqVSxfc+ljS9t20tFw4eMCTtv7gIM+D1U4TvvLam0a7JyZiQo/OKCxWxMdOP+Z2Vld96N1zhrAh5orfcuxEuNj68aldGS1iyXzn3Ls+Nvno448dPX7s/KWLxw7vd8xQWLIKubtyBL8TDfZszJjRHGScQWJBO+RzYPg0U7raTENC52o1H6YwkToswHSeEN26kgtse4uaL/PLfsd8jhw58ewzTx0+6vcPvgfgrKQvpQHPtfOb3NfeeOu9i9d8WcMe11zb5pzn5QvZ4qPI/yIp1Wmt9EaoS222UOB6hfgInaI04oDeks4z2Q5A5PSnGRToxNNMs0rpNqYmDCh8st2oQ7a/UZ7rjQG9nRVZy1qcSlDThwPm11kOKWyXliKLPw05QerHBHOz5bdkPnhYV5jL3DFPtQmqhfO0lqte12fDTb9005hfzuaWtsfkcvgixvPTWX8tX+m46iVEjo16XGQ2ShsdPmoZ0nwu2BIqlc5d+r4rl/MzWwtF3h2RBWsGxv73r/s9QeYod0NZfDih6SRm8c6uHMg4maxUKLNgzEKV5mbCgpKA5FavPsoOPTt7xaqKZMBalbcrHrHb4LJkv7cM+Jc32tuQsKbPDdOMz7g7947CWg0JzbTlKLoj4djuLEJA1QGmERoXRwttQCNJ2jOQtYdrbC2tT2iVNML2CdYdZraZCm5zt/+Sup35UIwGzO3ikPhvjhyI8oPeh5OFimNdnPRRWXOfFG6oAAgJdtwb4CdRDVKZcTKp+yrXipAaosEjCTGWdUc9P+WhY641pgldksg3ehqcqlhpa079Ympm7jERPZHfQJDSEfcAnXVsOTMO57eNDjqYE/HjMd4oMTbeeefWs89+0haf2dPeRp5WeGWJY5+Hj/zg5dd//POfu37+pvecPfHkJ8662Xrm4y+9+Mb3vvc9t1b2hU4/8sTx46d+7mf+rJ+j7D943VOwZz9+9uQpP0m5+uorb1y46MSg+THHU+l0oZgzwz5594DvOSak6qSOitRmmiL36Jky0o/DAJk+N38d1nLtfeuGka8uLmyvzb1gq6OyU+ucDKbBnAVRzU5A2tHjWRH0xTxTYUKXWhrapBJMS7lD5rE4MBsXyWLQPbwmLq9rOrDP0iJuH//EJ/7S/+EvezvHv/71f/MHX/+68cKv/d6hrsLXbvxP//Pf+5Ef+RHHVZyn97Nf4o+eftjt1POffsES9fiNR8Xcu6xIcU/T2Jx05+Ki1TaHU/3Wrdkg3f/W2TOe9/iGEqkL7106f+G9OR5y+dU3Xp/naznjnanE+cWcyncufd8Tpx+5cPnia6++Y8LRA8+8/d6NG9+3monYhXPnrTrPPP2k1cjKe/L4B3/zb/5fHEC5+O55S7hFnBkX07qwJ2XtthOWPCbwwUbLj2NoXgDgBz9zybE/3wu+pmUPXPXGftcgudmyR5VvnYqw2ri9zqc0vU9LSxw55tWOn3z+hWc/+dyhB47aQjTwDhw64nt4b585e+4NP569lusBi/qBHF7XH+wl6hwmERXkCRCx6ck5qKVpjFkfl9K+agrcWikVbU2P2FHQgYBZtgMZRRY/SlcpFAqNC6mOsaYClxraGifTDp3CdTk7Ez5unKgD82l/mUBXfrudmYG2cTbxtzLRtjzhAIrrGB3AciU+1PBhnM2YxUBKY/meyKGz7101Rah1/umucywwS1K6btaPuY9x/WA6t3Lli2G52dJp80kNpxW8I9pG88HL3l/UxcUd2sy8tja009qsq4msSmNr4pNdyqiaIapIj+gJcZTWPUUpN07VN6xaKSEJXRqhuD754MYyt9d0PNLdCx077t/ziHNszfJ4kwe5YctEwUAGL8gGpyOtucIYP3JdhTqF9M/KFj4Nma3QmRRSFXtcjvTMdCC1gYOn7RTv1/Oe2b4QGeCDDTp6rupNXnMVY2rnZGq46j64JAaybE/N70xjBsPELXEZnEgnpspqe+JVpscUQdSfdAgAt/ut8mrh1zw+RO1trVLPg1G0tht0v//PHZXv5BrAc+UumK1dVdVEA7fMlYFFnQ9bKj69EALQqao/smUgC/imaJWW2BQ/pOJNq2HxlGFXrSLZamMFeHTh2LpRbe6mRLiktjkd+H7hhRceOf3Qt771zdyy+NjIgydu3rrsqt0e+2/+5lc8237x+697UvXxjz/re5wXzl+2C/K1Pzjv2e7hQ3/khaS//VtfPnnKS+r2eUfeiZN+6njCe8qffuYTDxw66lrbKemXXzXhvzILpN0SmycBHW3cS73qpwjwuY5NB2+Fkqr9vJzmggbwhV+cuaAznfnPK/ynddTR/Ykic5ZqPnTyOPpMBzc8l8+UdPXqsZOnDHc7D4yC6d/BM2VMxPRtaqdbxaj+7rbn7Lvv/KVf/JLlx5cdnDn2/ol/+ev/+sKFy6++9obnLx40+dTkJz71yZOnHv72V77iN9EXr1w+9d0TTz/5pO1kDjx22muWPrj1v/7ayYf8NOqxEw/neohvNpRFz/u8fUDr6IPHTh3346mHDj/uot4/W1EOvHv/QjZa5qS9157mbYoOmTrS4jbMjOUGy8rtjkKdbvpA4uUrr7/1unMiXD//3rs2rFTN91xEw8Wq/bx33jnjJ1ynH3vConbtxs1X3jjjS/Y3rl3cf/3yg67IM3Hb8JtemlR3t/64wMjdkv29nAa0oDoxc22fn6v64qAXKbhqsSs4L3UTPOHPAQa3z+9/4Ms1vgL99FPPfMx5JLXwFq4Hjp7+/g9ePn/OxqgPOB50nPKds+e8E8Q1wy2PS2/ecIdqnvHtoTde9wIkX9/MY6TpAbk/P+QHtHMFacbvcqUIIp4dIDE/Cwy6/qAnSFtaPWn0AfHXJdIR57VklFgnMKOjiJjlyp62LNzH1TBH5KqP7BzNFLbeWTNjs1dbFNPPB0Oeh1I4CtOASHc14kOWBht78+M7TzH9Qss5oqPZLXj5pR/83u/+7qGzl3LPsQf4vvV/UzbbXbjMoyisWMBYyh6W+VN+NFgmMsyAbJaNUGdpKXUWKiTlnfo3m3phG8hd3AbdxG+Ty7OkwiyVLUwXGtOd2zc+j+08eBuIuo17KD7Le9MesRXfVX9/uB8GJX4rxUcPCLSK0WzWmvnToI3huZ/MXKFSPLeqieDoVz1Xumbzze2FpkVvq2tLjdGq6yHz6Jr7+cdmU9xCtvkXO24/Q8ke7niey4NELJNX1mt2U8gPdx92JcxuKYwz2ZW1IjGfIDGi4nZ70HjLMamqp/bjilKI3qOv95JHP567KB3a4SJPudO7THSCYLaVjoTt3vx8SnzUrpf/lIPbfmY12gSEc0Kae/P0mVzfwXknyv1tVlsnrs5qzb3eW9CmMq6xiQB6wpk96cTFME1LzVae2HuWzRkTyAxFNc5sO2LpnMm6SvHeuNmOYNo4hL975r3vfvc7tjswy7pIbGQcmvDhbQNVKz35xMfMZfMhEN8Fdrf4vleZPf7E83RywGz/ne+8wyOffn/2kz/6zFO3fBT44nk/6LzsdyYH3/Ih8DSQCdorKTKD+E6RV0z7hrk3tj/mi1v5UpR+4um6rS+3FD6HZLrgjy0W/psUGHJpjAJc0vNQfFwHvvTiSzaKPNgmrcO41Pe1rueee/bo8SMP+c6k73gePHjBo5oELfcrWta84Ii6RnXRfOuSj5X4bVl+U2ztsTPlcmliroM7UJCQi/P8y1Sl6TUNqkAJ/Ds+JXLp8ptvv/PGW2fF3DT5tW99T13Ov/ue2wiHIV57/fWf+OIXnFL5yle+4s09Tz75uMdLeZm3UxK+M3/ED3KzKe8a+IIXHZy/YlypKeCDphYrJyWTWKXmxb55fW06a06yqUK/J6ffHrmRZ/X7HzzxyMMnnnz0pDHiicb0pfwm2U+iRWC6azwf51NNIWULW3Ya5/2qDqFcufLO85/yjsFE+5amuHrRRxqlpHypXTNd1qqZsvNWRrflXnNPvS9UazgP/BMx27iWuCMHXH7oKyc8pVaLfBggr230glafdBFJsX7P7aN1yVp35tKhV8/84Ae5cOGV55emIZCx5xLqVr4SdimL/dXLF95zp+muzv34zO15+nH02Em/fXbHKbYuHVTN2uniUpDUTur1XbZAzr37nmbidp5euMM46AVXp5lw6sNAzMGWD7xIL6dVIS52fCg0TgicoZGv3m/msddfe1O4NscoZseCRV3Dd7nMevAM2umipkWnTNzKiIt20804kBjNkQq/JkQxFphwl+aTN37jQdrXBTP9HfTLhWt+UXf42Y8fOeEe9JHXXn3D4adDN70O616Qle5OSF5XyP2H6VUm08dA8C2v2k3ZpIgzfWYhKWGWz/BGzT1hNh3vLrnbn7t5PpySud40Oqc8TaaOqWXkz7xGsO0hmoYmPENyZkMVUNpKQWZPaO49x0/iDUGaYaY8OrGNmkw6SjP/zqSuCC5FHP5cu0Zn1qf8m3UniVm9jgWfwBGJZtbcbcSdQKYSYIFy/6ivkOuqPkU4zQvHty8lqg8Z8HPm1eCpb7J6rXkBgqebfhCKeauH1dupRS6LWsQ6Ftkxu2lLnHFnQoofjxiWoqilsuBuHPMusdmqimRrOsoRZc2Md6vij/GPASgVZGlxiOkArqZzQ5OnqtYnEwkiHEBoFgGjCEzt/Fjk6MMPn6aGlOXJj+W8vuj6VT89UX0t63saGN0HnD710E13ohY/qqQ56evX0tdtBnq+47tAnj+f92TQ416XwvxhS3iFnUs0jMM2h10Uh+KnviYFCG3tNqqmRqQwI/pB2KuvviwOuixZPfbylYu2ZqvZ6yRUx5rnB8jvvHuGBttfhv3TTz9J5PjJUxwD5kdBUlktlco7n8iT2Y7QZ01WrinoyTCeJmi7pL5Hj/oY2Le/9/3WQsqWUvMxfq8lffzJJ370R3/UI43vfO97gsxEBkUucvQcdaBTl9ccmX+I09n4ywIj8LpXpqf/XJ7BkgtEkCVuLryanTT3CkyLpIM/WcDmEt41mE593JtA5nl6AuDG4vDBI/Nk3Q/FauXatYcg4pyG3HfTO4vdP8dQZur4a4F25ZPDBXO62s1NlixLxzlXJZfOnbVL5wPEvnIyz5VyApm+A1bTBM1vp9y3zoWdVUaw33zpRZt+It/W7ETDXNcSq523upJvlT1jnAvRjCMvG/HVNPeCwpZfqfk9Gg89+jJs7VDnnfZ5AYQj+ZWlmR61xgAXn9KLkMWvVLaI0vSBaejSiStF1GEsUQCiV0/H8XYg9/HpFXiAayNdk4C2lCWrCFBoQJltEImrqd+EWFYdsjCg9GBHMxyyoJYDbvftBEBIaedbTsleu+ri1pNLB+h14LhL9UeA4U8S3/zZiG/nkzq80cddtpupoWVtIXtMLz176H+KWZ6k+Xu6ZpqkFCngMMAglRG4Xf8RVQqlLQFpA1dQ2mzTsnWcKNJUxdHplwI9aZ52ZyRbkg1m/3LPJGVnhQMyeHphbqDSo+kMotP4Nzf+yzpDBoDUpkrxTotNFRnVqqAIRRZ0iKJAaG1d4BDeohdIyYJGwHVlfNgCB+oVQTy8RYEDLCt6ZadhK5eVr84j0iBFYdGoxqNoidQfyhEBTmpbSoRFDIuy9JcZA4XmJiPHaJFiBnVVqWg4quTxL9NkKTcv90dXZnZj6fU3Xp2fgrJuaTHg3TPmmbl4OnaqTSwbYn/q1EOPP/4EWbtNWau8P8Lr1i/7NGPeTMoHo5Q5N/Hupby7b+PnB8b2SRTNwROzIsd0VC5Zn+BEVESK6JrUKycQtNXUzp30By6iTx0/59IVAxGLhDq6ND9z5vxDp1Jr3yCnWZX5YPcpz9veOYft9KOPMfqgD514mYdbmO1FjOdHDR0PSUllGyUhspkpVfcGHN1nDVkxe/rAsdJvfvObSxX9mDkPKKFKjXJpP1Bi6YqaVVKjkDpAvkQN3b7BIxQOkH1n/7niNE+cDBV3lunnu0C5LMf0BEijTdxZjWNH7btku0ypBW6OnGcvIdsnecOTH6t5/uen1peOPHDx2InLRw+/58f+9hutWgLuHotpF6pi7gUbjp4DXaInqnIDm+PWOdSjXtxQKcB5bBA+8AcSJWl6n7NUu/xqSucBiA0FnkaGnxYDTWCtcoN14Z13KCl/ajSXRK179Vec6TT3zi+0+AB2eTjJYtbmS74FGkCxV4gnMI3Ih0iJ9sw/cPrZbQClrhGkiHywRDn77ppJH7MxYInqZ64MDVpyvNh9/7xCsEFg3cCxhBk1HlwZMvmFXa3vTXemkt0iY8Xo3qXswclxDqBLNdUehv/82bZr7erl49XmHRMNt1SI63DZUFKF7SxZDRvi1Au+gGzFyWqbZlfagbcaklp9jmz0z1uQZXUvDIj1gayZPs0+gNhSHLCMT63AN0qmN2jd9jzWQcfhjLdDdv8h+gEGiNL6Q4QDQBYOmJLlDAqL9bB42cqwPGz1MUTL1EVRS2Vbl5YiNruL7MGXCLrKglK0F8quflnAmfpMc+M5ocpMWoamBOt2FSo15EDVkoULfmuN2cRtRBn/hsqSFTpxQ6TEkyqjywIjMS8byThp8LCDRbOGV2MTzNdx50LbRgrZxx970rNAWzSul/PeI9ugN953M+QRxZmzb1ljrl67PFtA7xuTKqdqhqjoWagY7VyGqB1Vp8Fk12wAZ02RFM4fs0CKTqZBafiJn/gJR6q8FuPCBTV9w1vb/YqZQq7ygedqwei3vv0dzK7TwTwK2ewPP/RwPvfXzqOIoXAcPixQ9jMtmSJZUE3aPCsSTB/6MxNZruCf+exnTU9KSRGPlRlWvAX53dBAvS0ukgSlGNABegW1V3mkGKQKyy9Q0NJRCvQYWFrY/t+EikKRsQC4qhAftzJ6mg5vbNmIdzoiR8Cz1eFBRVrQRWQ8ydFNg25f2sI2YemU8yc3Si4OcsOEkMtcD7zFXmCdz7ePxiLZKPFMY+faqK0WVfMr2uWwbIk2sJytgbeZpHh4J+Bug9lqSC1U9OufUkVN+QkRusYcZ3sR5UARukaBU8tEOenHVnPWJ6uFm2bZ1iuTj7DPP/yYifu/CJ36CXqVt8/YgYXwTYexULGof7pI+va3vy101nbaompe78SQJbTOqAjO6brHuKSLxkOWPhJMb0j/KMTdO2EYQoIs/E6W/5I5DoM6VrzhTuCW0zMSmpNiWymkgCiscKpWC0GAfqCFNEy7CwqeKiGiGaRF4KBdQVqe6s8oHDdKrJWQjK18+uH2qtNuYU5B7MxSSnn8Fp0/OmuzxOuzLM1VXg8VFeE2HkWxNXdXspSgcBJP2eDAJVodXmlNqFd7LbrK4qzCli7mheBfzkCIlB9SkSW42MiWiFKirHpVFkV2AWb+mD+sRrYgnnvuOVOtAeNkUzmFjpNdqzqw6/bSMPV26X3El1ePHzstGBhocJ/G+Zdf+QE9eoR7sBntdFw3IT5y+qTuI+p54rA/5w9tUnmQZGJ3LfzcJz8t0uaHuX7N+nf27LvUmiOMTw67IDXXd1aiFsIKc7zCplH8iolyCGYUp0JsO/ppjuPsNmFQTBOOjUD2fXBR+uKLL+L0rF8K/PpSCVcdEVR9X6ty5Nm7oii0uKqydZRRPQp01RFhiAmIFIX84RiES0Guecx5zETjAIsHV/kN1oG8cwtz4ywCZW5gEVEABJ3FRZEFLW1KxMxfQSmitO3MvQjONiYEVNaVXZYJR7jiKiv8zJ2xYYpn5mHOoxv+MZ2T8PktzQxLgfYNrfHBoz22XFhqccnWtJh5uOotq33Eyhmt4ImBI4Iem/hNm18OZfqmWQRcltr0V0eU1WT0A1GlE1thqz8jTlSnU2WCIphnWyb5w6l+t461hQsU2d7EQyjhp5jo1YKPAkGprWV9orcZ5o28HtglSgtO377qwkGweBwG0W6LiON2wkzR3D/pJ2ypF7WgFbQza3PCVReKXt2LmDNvv20K41WvlGlWTbGue9sY+DToFW5wXO2IGwte63B77SH/xwKNE427GNvrZoeQSiYZuIvpvwyBM3sM1z0eipQiiHgVKWdFVi12NbRepVSKyNKjK+h5HeEQzIUO6baKjqsrAMRdzQsnorGpRQHVqcNRba0COiITNQRB0VFkF50Il+iZB0xym2woA0TaOaSLqIQ52WVaKYpUUfFV2dJphhQUkS2oWo1W1ZJlF6VAaovebgJSNOBvEbsQlIWUTj8ivEpqdFFqbpeIIuBCZAD84i/+oiYweIzMzEjbcSKGpnjxVCqSTAAmWhGG7Nj6MrwrXs4INv1uXD1FdxFi/9Cgstfu4Blx45ohd2AXLlzSaHSO26mU2+82QnbC5v0FNJtV9Brd46mnnjHdmzW46lbJYqPdGZJVBZrjxixUbcFsxmcXIDMgNosMn00Kvt7kohuPa+TPf/7z6m4+IN7br5/6mZ/miRXUd8d5KBTXfdgwkJDSBlgRGS6RolPtPL9ptKllrkU4sTGNv36aZdxduZQWEzdzeWv3hQviSQoz/a0CZqB/bZH0MXi8mBOkRXZTgoXFNhrSPUq3XMGbTd9Xx77dZqM2wRo0T/X4U5c45WpKdfI7injIj/zWhD/e6EmJmy03u0FyLZrtOOuaXpOfAeRtTG7QHNxz55H9/Hm+LRRuxeanpJmI0+7beT71rd0VYaVaHLGNiAEoBXk9/WwjCzJ/VBMzRDb+zJv09BDiiuYBW6R4675Ef3YHrO+1YyNWnBUizBGXUqV7ZLvAc7kBeHqaKZE58ZqQNcL6WZBWZsRpAPonrwCdcM3NBNMff+YZftLMHz94MOIyprYKc4k0FUlNRptSSljgJOAbwIWYLoSJuruBwN1ElK2jdxVWTfpD6jiQP/dRv3ju0vOfh5CQ97LsjnlwNxotly6PEtGBUloklBCglzSmcAwNMfYya/5pms3vw2U1A5HeUxklOQnSBYaWuUVrqiu0w+lzkLywZx6xtEPoGbKsFMHcLArxWHcibjuXlSgLinOAt/ACV1OT8V+KuGrK2y3XdmqYYVOGpmWofm4g0o9Yc3CU6qyJXRx/DE83VYuJzOaGbElVT63grPgqlUWsYBuFTiIYQBcAlM9+9rMu99y7OIZrWLq+pklVXDzY6LP8zC2lSz8hIn57cqFc73cnk7/ZlE3VaB6vct+GwQUgUG/6bXd8/et/aPKy/CBaPFwFWw5nFeGqf6RTG27mzzbaWlYB5jZ9PVcjI5nDq0bYZOfOgQ+inQlOKU7Wvff92Wef83PnUXzw+ec/44e83lur9JVXXvOoE1Ln+cbWW2+fTaeYd3vzjaq03gc+iZKLoVGSRDeYOBzwVAZdKWKu931E6vABT+yefPQxfj58+hG3Vp0E3bBaMnXd6mG0wARVXhu4lK+qoRsg2BQhFuAoHCi9SqYoClSnjmliMKXTGeb3ZNjwhEGt8vjH/dT+fLKvv1OZbh8t2V93+DzVsbizRW2iag/wlk1ICtLyNuhMctk6dGbU23H8WNTNmWKjXtD8wlQ3zguW/IY1ZwgJcckI1bssCnUmngy0SCujjIHNeGyWuFYGCZcXPuU9prmrdjtskoCbFtzdOOPjKkrAve5L/F1bOOTCIiX6m14HGFK0nFEkq2mYtpIBiwoNuW2yB+uycoZk+rphNb2FCOeliibp3VHmHF2IM4gauv2cY/xEtI1hrPHHw0ZR0m/xsJVYJugBatObrE/z9WFSjdIm/rNWqcLtS9048cNAOk3HWbhZWkJjfuU2yGJI6X9xmNfUiwVnGtxdhHcNHKStotQgqNetiLRIiRgAVUDHIqUHCDqAt1RaZjyiX4CXbrqsQikRgm02uMsTLaTtzXdtY0XeZKNIR0RZl0i0sVsNUtAqQHLOfrtcLX/4wFB56pu0pZBRsEkWG/2sA2zEWYzy7WLQulQWESxOOCWASKEWl0gRRUzARzqhY0VICZZfirh8U/1S9ujc2JiRU81EICZlk/iv/uqvuuQ3Jv/Nv/k3OFHoZ5Et86PdueJSWYJqIWUIMwSzSaFTBjK2uTijPm7nV6n5BIlTc26Pcozw3XM55G1GcGlJCZ/N3TZGzCBmcwpJNYUUeAIoJMUcV+HU8gdiZkGsM/hRTJ0ojbZsSj/ILgpBRoWUrLozZ98PxWFpBzRUHDM2arlkKqGJJxxKmopGJxOeyRXBDxre4cmShoKniDmIleef/aQNwO9877uINLvXdLWlvirFkzYx5aIB8PATUoXSIaehd9sXEWVTNE+nZBdzxSmnLY96bjNHqyHHw8piAFWFmOKB0nnoNsoq4zBEFuz95lY/wPAhj1j35ZFUwQ0phTOmNEtey+6FFlapeW+PdS48GeV56QYTYmKZlgez/t2eYVDYlWITYfWFoKgIb1GWb23EcTL7rkQEUOPj4RhBKTPoSr2AUhdQRInG1YsQdRsMKOy56sRJBB2DzWGlFo9sVAryilXvgdLDt/cf4xBZf9s99G2G4ChwOmW1tXY3NXGYiX//7/+9OyoHNswClmtELc4uZ1pBKUG1bsWzTM46KhoQzMJT5hiF4ZbeAdN576DclanQkt32tL18usde0p8o37oRhUhrd1lflER8wGhbPBUJeS4P5+9mplg8YiGUuayaEUgkWQ2wfcYDR5Sij4VNUg1lhrfxxBrIAgiiPkF8aVhKNCJcY/fmSXtbnCxRsiUW1ykpocqLACiBSHUdTpSOkpGx3eKrUaUeJ8MhrIDyE+GY7DiYepVf2q6MjlPa3omBVzpZp0viAEOlqkcWGxF9FKX9lXg11Ac9kodlw7npoNvVlIaqQsePU0pbRRQBstVZtUQWKAL4O4ow0GOmJuWkHFV/7a/9NTtUp08//D/+j//Tv/23/xZuq83cahJ3AWiqFWTi9arapLE6gaLBSzp8gpZFHcWZ9jE991j7LYcnfKtK7f1+ystf/ELL76weeuik44eeNEzPctz5ogNjP3jpFYIaS4g0LoDIAjV1mjrpbK1g40DszlFAXaIBkbXSuEc8+9aZ8DyQm55xWEM7w5aJ49VXXyP3C7/w8xYMp7Bc9zz/qc989zsvnn70oXfeOf/v//1XvGPCa0gZ8vJ4P4h+6Qcvmxp0/ii/dOWRRx922tgPY155+TVNz4pJxwW4UHBPlHjCCqOKEEVbyiu18Bsax+iU2pOU5Rs6teNh4omZXVlId9sowZ+6jEIpE81WSlqGzbHYbWS4oWRHfNOFULD432a4Xs9o8gnmZhnQk8OyYzHTol/7+PjWvHI2M8FUiizTjsy4fZ1DiL7rkaMV6mVJuuW+y1qF1xMsY8q912yUQHOXNSMsk1JW2Zk3fO5uureA4C+gGFyt6dQoURIBcObts9rFDgv3vOuew/BGG/7kE08/evpxwdQ6frGg81xzY5t+/dB/89/8Nx2wHT69dulDSCacgqGcXY9eEwVxmOmlPsh6RpfhvZ060OkBdRii03aO4mr9N4L0Sc6wa1uSReClF0T0YDrbCmThqiCtNgj9UoAHg24DwaPn6GWyEGM5MwKZsq50aVmUPzGydeOHVbD83iNQl5Qub4s0oPAlWPrd6VK4OFEWLjoVSd/aDh5IbmC38WGDQPVoocquFAIoWaoaW5wAsQwQMD04M5G5QMeV6mGduXrzrtWVSpWCukS5LkKPIo1aUCrr+kgWghPDCGU8uBNuz0CkrT7g4QNm2VanUsWrpHirA6eQfiklEHRAfKqy6T9L+d1qW7Q0y8LpoRlCLQSRV9WcEA1UVYm1WIpKVVAWKFr86K2d1G3Er/zKr3iCgt9qJEp/9+/+XczeX2cGNwwcUjILGwyf+tSnDDOyhjF/FFFLJ0qVx0yexsdDFmpQNfAo8HpAP+Wh3yGbucy94cb4nbffffDYEeXLt2FOli0umTT7kgUUhljwlkIR5ioHAESLQzq5NPIYVA3x2MnjHjq0vmS5Hdxbkz2j8uaj+SWZmrrE9tOWRx85/VM/9Wf+8Gu/7/LdYRPiVnF6zCnUer715S9/2TaQvnrsxFEVocRxCacH6aG8Id2YmM4jDkARgKiLBx/YwjNzMXrr24Ye9s3gqjaU1TnLWZHiixID2yaeJoiSUuhRIltPdJrhTdKwK1OEodBSOMEtLX+H3wafKTKHLkhQ7GfxSf3YNYC6Qfx0l7iNUj8+yQJGVT7yioczpN1/4HadbiGLJrPGFMUlu7Y+bQTqQ/TcGYRoGaKGaCfBWWJ9rquC7MdQRz55RN8+9cjD+rl7GkSriJM1li7dBphMiNOjuZWKNrXVBpFdl/X1R1ErrzuiAObSoAOy+l6nKc5ocZqtIrYlGFVqHLnya+exIUk/hYXo2sa5+P3SVl8pQdb1fAijxkLmi3tD2udumCdvd5Onge9FVtt7kj8ykcd7ZBZlIWVQQ5QSm95TsGxNMdzmvNPjXhfsaiCyspVqN0JUpDk1UttJE2MIPpO6HtCGN3o7JWmAJ5562rlhXc0eka5WJRioahchgkgPYIjIblEVovj5ujTbtPnVlmcQeTeEIeW6sM2/+pxsoRTKZSmv6SJMR9uOXTyydUlRnUFB83+ZpQv0YzyNQ2VXdvEsZPRESSO2awuOvsxVBHF50viggJoQWxd3UgsSBzpru5fyG6C///f/viArRTcX43n3HS9iv3zq5EOPPfp4KuPllw9kWybXyYl3al2jGcfe+e0boAmVRrldBKeWTs6YIzxS9oZc4/bhRx9yd9WeS8lSBcml4wCt+Td9g7gDGjUn5YaeYKJpb6EZgq4P4BThZjnpcmiYkQ85pYZitnFz87Wvff3nfu7nvECDMzx0HvIb3/iGLSsREA1TDJ1WMiY+/omP/eDlJ986c1YlCzwxHc3mZ5rAs72EJ+cXunRpFD3Hyq1QNGwm5QdkTNdzCG94pbJqIZtaT2kRVmRNRvhRpAtpVgpoKB1OxAvCpFOyEbFcNCv1qLYWRyRqfapIWhHpUlVkqdoweB7lfere+5C2V8Fc9+gHIJ9Qpj9Yms4bwL1aJq9gcq8l4nN/pdTv7iYq2Re0LqVlLVrOK+YUBj90HrXNiKa5IEpRPRGQWkXQmbAYANkpLB26WUWoeuj0464PNKUbPadhnn/+03/1r/6VRx865YMAtuCsIvq8TqL/a+UuV7SBreX8VZ3oF44B0Uttt2tV7E3P1NM0Iletf3VPEdwqIqWfkKsiu8q6DaNKUaoT3uxKIYpCvQtKjw/TyrylRpobxoceSjdqwR2C2w5xB/FPlPnomjZ9ca81imbaWvUJw/bCZC/zD5FvrROVcbFqtxfLt0NpPLG70dfKyOLetuigaeOFRON0uN7uanDM7p+0NzDXaGPXI26cNYCjrppAP0BXylD1dJIdidwzIe7WSbZAFlRKmoE02uAQ2f4Spcz8KoOiOBk3I4sI37UiW50VbCdGqQip9PoZSPa0yiktVMQ0JFt+lBpCYUt2j62yIVZkWRcWVvCjlLhSw6/mlggTlFv1XWl2HjdyjKXf/M3fNE3bofoH/+AfYHZjYTkxrowu5+JcrZsUPve5z1WzsNO8wgKpt42A6cnbBISWHvTxK6j/WXRRadvtq1/9ihsmmzM8v3ThsqMx7T/0E8AJIrrtP7G7pStqW4RoftMI+tpc2pJoD4HwEM5V80IdI8XVBhACTpw45tn5H/zBH7gSsq2np6mm1E2kUFh3fDzPGubeS4hEzEuNcn/pxeTvvEMtE+LjXjqfAJ635jDBPY4V2vqlcElLLU9aCz7ovYgQIqsUMwYAUZRTd4PfL8WDE1ASMb/lHSg/eptjk3WDtIXELrP7VlBmYERivdmlrfodP88dUxaaDOo4uKl1Gj1Ll2VMaf4lIO6k8xMA77D1tate4GQdA9twacV4Tl12CY2LPgwbntu9S3y4VCIeoL16gyKM6AIuxVa3nbo5+uijerjG9THQPpjUA/9P/8df/u53nfL5tgnHiqVdSKlI9Tc2NLSyshPTTBY4WkoEormJdP5p2iauJxh6U2Wh0lvsTxhTbq04jKHtzgQ2UhPG+FDPF9LsnrSl9bZ4lcw2/un7313tUfOfK/vhlfmP9ELNd/Vv8MZR2QAT6IX0M916u1ogKhVKoFVAWNvvtbdGhyO6xN0+e9Ba+g0wa2hgSxTEdW7bnsEDBx/U3voine0WdQNDSgda61qHl6HIxs87B7yi8WsG9nwQkjZEDpfOEJwe2VRjOyOgmHZlS68JLtSiFAUoBSUWKX2lipiQrml0VafTHCnMGIrU4qKUKK1jS+0uwqvlJz2VRTSATeXsmnCF3UCyVv3jf/yP3Vch8sq1AmalzviaFNxLYbPtbvavEnYBh6Wl1Plk58Raxzijyy42v3/S7P/uy7/77e/80dVLV3xLzdpw8qE85pkdxLwOugopjaZsGU08vaKv+QRrR+e8HJFmkJrOE/yK8Eczoe+uGZGeSW0mzT6jzuLnWbolHFw4/57brC984YsvvfQD72d1q/byy684q/jUU0/2+PLE5NH33sutp1MRvHXVrp3j9zT3+JKkwa8zq40QgfpKHbrDRiFc96YQTgkERVEVSvcsV9XZFBsEVKRSXa7gQNGkwatQfiQmsF2uioZlFYXFyhLrI3g7za0UUm+o/MkBQHxELTbYRsoYz7/5ZkNOss+mobVoSeGbJs2KF7Nz2cHXIIwCQRMKSL2FQ2Qh2lTE9Eazv9RJGndjnHX8ki5AKKvwPGa2TmlTHVifN6ELMgZSmttdl21eCGL7tiJWBBOkR031XfgwCjazwxAx9NqoM9JIbCYBgmYwtnrBZJUyxOh3fcZtteruYqsTdz8qzPzZsLBFWlc3YVq8BeQjPrvqALuXB/crmerfS+Cj0jZdc9P7NuFote6yjdyq7hpBXNniUm3WXqAHuRJYPBuy/HbfFqVt3MZLAxOdS10BxVhgwoRoqrITJcpwPUa2Q7eTYH2Dm3a8ZpS4boFBDyBuwHfMw2u0CLzA0OpAigooi44iK2Wg2yOQDd8UyRoVtC1PKouHJ4hKpQBdSpsUf9Vi27W1NNe9eoKhPBVUVAr9ZasSRNmFV1WJfBDkSqFTWyXlUUQzwKA6u0ZF0i0COk7H1m36ffWrX9XdXYHa/tIiLkKNZCLwd86+6xGOyFNlvBn5xt6yBaGkHsaH3OlkoqrypjN9+DXuI3jdM7/99tk3Lr566OCRc+9cOHL0wZkz4/KqNTyC03noB7IL1DrcA0RSw0wl2nL66gzgoW0v3reN4lm/kAiLU9YETR09XOYWyszl9X1etsqW2ynTzYs/ePXxxx8xxbjT8s4KfdWXOJS6ovIdZC+8YUIWZMYe4FH9qauySkthFCLLedETf46g6Nj0ILa0zK1a01G1ISy1EKSVQgg2hexZrtABfoaKDaEjfehZK+7Qxs/yS6NwYCG6eekos5mXvyjbMCT2eUtr1jX/0gq3IUuapqp+RcYO2bwbEa4O/hz2xYa5h25YdN2GqNFDNPa7XEkF1nhRIwioIfxc8nM/3fjRRx/Tgj/xk19U5PUlfPvbf/tv/87v/BYGUk3pNNHLVpyh4koBtRQKn1LTiiYDvDIQaggPEVOZMaLIRZ5Ukc7TXYpOVlEyGiiHF1DEYuwkqQNNlz+7xODbERcNxoJaHM61oysqPtz37ure6jZ1vsPwh5vfRmmvV/fLz+C/X+Gm2+0pFohdb4tLG6BVVKTM8MJSpVEFBWgbPGKFQamHiRD0ZqVaq6sLNnguok/mRTUjfdBJM6WAbHukZlZKIQoRAKGHISJHjh5xQkeTo+iHQ3ftnBN68AVEAFmdeIj63KbblU6lq/spykozFuTyrjMMq69Hy3ZsYwOYeAIox1ZkOVn+FuFc8cGJCDg1RhNt2vDH6k7XDNNorir6K9ss5l0EJwoexPEuk2aJtbKylGBQ1KapUVlEA8nVH4p16A//8A87Vn/pl35J6OzB4ne8QqthszF49Mgxy5jFrFY0WdUuo5DlOZ1tWQhAV5pJbZ+3GORE4p//hS+99OIrh4+ccHnsuw7m/Hwibt5/sfSMYF4PT1otoyGXPZs4tP9H+8ShiMpC1C0SkZvfwRSvD1sn65LAmFpIXbyo9ldU01zm+J+VW2V/9md/9qWXX7WuYPB8SzQsUcLCD7Vz0N9OqV0ds2GehOUFD5tTRY2DlDNNiVCSGngKNdf1zPXKDF0kpcRFZrVplZBo1SYItxXuKi9etlR/6uiOrwgKnVsl6eHBt/1+rMRJm+Hl39UG59vw3E5G2u2Tu5hN3+4dWG6v4q2f/fork+UqRaKcJ1QuqgTBP5N+eHsQ1EH4WOy9aSPG4PhLkLeA/4BSuBlAi0hlRQzesPOKq3Cpi6XlOUGNJbD2n4+fOqnD+w2cr3v99m//9ve//z0buaYdbaERidiygxCZOt6uMgrTiHTpABoO0AknzhlGWXFV1ykODlz96CGAlTq569WuCXXRSZNu++du6W0/drAVkNCmjpy3dhq5xux9n13dfcQg8ptBlZbYA3f5kcbBcxd9j9zebIfrXup2hl0K1Z/mhGG6naDUtxLLtkwXWVmemdfFwtKUbqhDjD1tpq1y0Wh+Nw/Sv3//8ZO5MbLeaEVQXGpbT1NpV1emQCtWP2SmJ+PB/l5wcZgOZ+ZN/C18bqpGd+54XDXoLe0rZFE2XXMT6njWxk5ld04GjpsppRxdt4PzAcimc4O5W6IQrFKcQBWKMD2MGfAdLVE6UBPRMyDbCFAO4k1aYcs9f1EUYW9A6CwnWYAlkjNc4aVARlPaECDWJbKyiqQUlhkSph36uBYitaqpXhXXy3/rt35L1kh2ekpqsjYL2LtwwyE1BoxJqZ1AI5B+w9IIR6RKKHY1j8345m07i26lbn2lTBvSpq1f/dX/8z/7Z//M7yKd+n/wyOzDZMbEGR0aRxWlIlmdQ6zKpFmSBlrKolyLJxC5BJYNC9ZtNMiE37aR22jz5vwQRxV8lgRZxVXwJ3/yJ61bsr/wC7/wL/7Xf3n+vEOMOSqGqDOffChfSRdHC9ULn/709158kf/XHLXwDeVp67ZBrLS9Ou6muUtMs/rp2Y3rNqtcJMkCPjChLTY+b6s2f3PZrhsRV3q/tHWv+Biamm5FaOAOOlvSDOjE+PZeQnIzBpvK4cK+0kUxE0SNr8hOJ50ApwpdruYuSKmZwSRusbKq5QlXKrhdTthRbtcOGFTxCoFDs9DxJE1rrZslXKqxAJrO41pK36MNpQxMw1s1FFkTVlRPf8Cp7lYZX2L7+h/84c/82Z/zaig/yBCG06cfm9rZhqU2Txl8RB4vZMUZQrnUAJGOKkM2UDZWmjW5WSe0IAqjxpQ3XjrG73Gd7laF8W07ujvVcBu//6kWBhZQytxUjVDuBqqEn/8H8y6YfHnFyLUf4BGd1AfgN81/p+T2smBMpkispwGiq0gomZimUJua4UdH02kshRzOVi++LadqANWLZ3V6O2POCBwlk4zQjExseuKYRiQeQTGwNowNZvJvul5iP4AtJsAoqt5jR497CuCi1jNw2yM28eGeM/vYRoaZKD3oa9SHLSsujKnJh3VmeRc4iHULkWbZ1kjzABdGml8DTwNl6WJ6qukKyATol5Le2ZV3KMwqaTDnogyPe2wp8HUdP6mqcq62p9Zn/kNaRT+354NORsQ9gQ7EqOyRB3PW2Rv3mfYuVaYhud9yxzb/UBKHGdCsQLmVjYqJktHg2u1BL8RznnA8Z7FsGECz0u5RQBhl2njAzzKeUZ9+iSJFgSzArFKIrSM6HrhU31VKvIZkIQU4eoeWODNEpMHhgBFueoWY/RE1ikc1flEkMv/u3/07W38OU9j3o4oezYff9YGK26HFQ8QhC0fjlMKlTKB3xapLvealvyYw6E9mD8w8x9PqME0z/GMfe/q/++/+r87d/e7v/u6L3/uOh1gAt71efuq43ihhwBOkShH9OkOKJsguo72kgDNqndDFklBqFE2QyWtu5vzVJZyJzh6hdCZFRG9ineuSA3YFsqVpljh46PDFS1d+4zd/+3/4m3+Lkw6e/PW//quf/vTz3fFzr+LI+te//nWBMh2oY75rfPjBz73wwmtHj7340g/4o/96buBSnj53jd7poxXsMNB+4+atI4ez422pw/PBwQ+s2V7/qy5t37adsMsGnykaEl9zUbj5GTjKArLwJV7OBkfapoGAiqSa03MgM0pEI0OvpTMpZvrL2jFdsjhfZhrVV/V9Rrjn8tVWvJ8GR3Yza/CEL/MOwZh0ziKrDwNGVd5hMUadU5ib3rjtWbH+nNqGf/YeunRpSJVyjkO7+6uJWdX6BpRUiBjVK5rFMz5oeV8b8SnjfQcPb17ySbF+StwE5gvUJ08c876Sf/G//C9PP/74v/pX/+rJJ546eeLUyy/7oYLfRR23SmksM4RL5Dx6uKUd0/FQpBwwfvIzz/mhJ4t6NX7pM089pWqmGssVxCNhP9UyUny6bCKZeHambwMZskWkqXcAj6exaQtIZh4lCdBccu08ZNFWeFgp6IQ8d1bIC9ytlDaojVzAr809wWi/I+E6oAW0oJReDXUCXQIbrtsOp2TTJ1UKvVooRN0qXEzVLJvSHVh0k3cUjODGH5zTTTdKyrqTak6cHfbSgnD4abW+glH9df1OOloFjkdqSIM1Ax7an0lZEdmqJ55GvZ4eo8hHU/1TBAeGSjmpaoeQ1XIz65EzEVvtdNwEixSKlCreFiiRJTvMaUUUaYRnilTEB6meTQTzTsw2KDq1MufPnYPoK9gAPbk0nOlbKbK0dhUBhaVEKnKc37QehEWma7RFTWlGxEBECmRxAjie0mWjdNQWkSKqV/WM6Ea8Xql7eaJrTEtRlHah0o6sazJKHMmzAehOwrOrEjlMXZ88j4L3FVmQEBWhGxvVVnN1AKV2EVHqG/3VQDMG0KLW3SDHjEjQ/v4Xv/hFN23vvHvWL2CE0M2W0e4lA/qVGLtvOXosizQgUh9aO2vVCteuS3Xs7nQPz/gbLt1DD+QMBlYsJ3ywILGi+j//8z8vi0cplvPnLx44kBuvVkoMeSmkz33y2VdefePSxctmPoJKdYgi6jubCnmbjoXKfo33A/oJts1zajvlYeeA+AA+qBeAF1l1idrpEqVLZVmpP1N4e1qgHJ3bTTHXn1K2OtNFK7j0jLZUwdQJ9xqT4ji3PGmLaNsMHVawKY1uje8PwABUR5oFK6oyVEEZimtTvDwVVFaxZdnb76fi6SejI0MY3lhVFsVEATAIndqhUBhbU+VWCr1Sf/7P/3mt6VV/GuvLX/5tu3PPffJTv/d7/+HBw0cYv/DeRXvdmPsDg4sXL1OivVxS9FyfIr8ppt9iaW/clgOKTgIsbmZFPnTP3DUfi64J68asWKmT/1Vw8/+2XUKLt2kjDrsNADORbL4Vrw9Y+NkCw5sJ0NAAbg+kqqN3AesoHKWciUiU3QUxM02+9W/TlRnZ4c31Xe6JQXwbGOe2GW7O3dXEesswjWfmLXEMKYoh/zTtDh0x9LnbyO3buMRnszgPIVKl0jUMShHoMqDrOiosDc+hTE9KGwjKZTWMZbx0RdjqKsrBfbenjxKJYAA4AeLqTEHmyo5jgEWUdt+ylV49cOI6AVVwajsUY3S7d4yCh/MocDOsFEPdVlTmXR/gSgHT1JrNYw7fwCrlldIUbfkhQ4nglv12W1ahImwt7SgSXVIoLcIGL48UKC3EpwEMKLWCAAG0Ya7syKUWFVdatgpKAaKqWXtsanv04uSuTXxPZTx59jDGBoJHNWJL0D2W8c8iKcOyQRZSRXYYRlkSWSk2URXt1q5EWcAZRstTD2UhpbAFIWX6oFzv8hTzqaefnF8f5wQ5zWfPvl02CwlZOjVoLVYzc4j01JYsqIkitbubbll2aDMSydU9FpmwhLvh++//+79hhTb1+FGwCUsouDrT4+V33nmP87w1O5i23GwJrB9pPfnkB2cPnUWpG57buhewY3D8xPELPm77/n5DS0OY4MTZ/PLSD15il1crkvVMlRsoFVTUtDWVyoJGXimgofzNwgFVq5/IKmrc0NVlcdZiGRq3ykqLYJi4xUSRmmt2lSLSD4qUsxQpTyxXdbXEMkjrTwXheKTlmTfob9q3Skovrj/oou0klYIDtjCg8LB0VrSd1tTb1d0K5OpNf9bQXj5jQjMEpE5DfOr551w5WaUoMSNpCJdTjt4YIALup1MWObdNho9bKGp1jNwizy+6UIDW78svXKXP2qQ2u5D6zk3JEKf6qzjRmPXBUt3wSpWqRVt8apQprnd41ike6lH6If/RN/P2xPCPv7uq9mW+wZKNHwP9I4qTG9daMCn+3D4PM1UFJSiLWHZFKPg1DIqsFA5B5HSlpmNvlhN09SmP0LduZVNVnKQKijoYfKm1YWo4yowHQw3F4Vk5qIV4I3L5iQOldUwfQodja2eCo3S5ohZnsnNti2E5gF4R2hDh2MpJQ1VRjq4XytJAmyJZdFI1JEXHVs5qKHON1pCJkhKv1CaOczmGSEN5EIFswOXFACX4EaRwgIxfrPiAaJozunQvPC0qT8WjaqAiUCKtXdmicWdtgy/BIk0bgXKqI22lQzx0MasaWn4Uadx+4QtfgBhanlTxUH0RRcx4M41Wg9ELqR7ETtkNKbV01k8MBOsSCgYUDA2ILFxpAZGgFE/FhQWuFJv4nzz5jKXLYYdvfeub7rF4yCVf+BXJpRbz4Ol7C1p3Sj4cJvz82XK1AWe54k/BLGZ39G/9rb9pUWHdhKXuECnPzRQuos+du+T5uedYWhbd54zdI377O991Af6Vr3zV1bqvz3PJD6VZ6uaVT9pym4gNWBTxvzbvmBcQUQKsq84KjqwiItICniKII7HJImJGBGVoRaqzxKbo/OEYtkWpIaYVwYsUlwKUKiy+GOiZ8k378lwRgKBLAR4QLE/FYrqwOJXwJAwjXhPNim39kSW1RiVZXU5pO55qLs0VxICygBIz2Ne+9jWXRyZ3pRqxOi1OThgZDrqcvd9OMo0h5aRYkVIl6zpPFlgkHMOhh8LcUb38so46i19uQ82PUgHwobblwx3Ine7dUbSToQSkpaaD8G3m56xPxqNJ2zYgImfA7gAhQs19765qguodW23jLhVpvEaw62o5eVK6okK8cw82oaZs9CWTzjg/RVl6IBHPXll6UvulBuCoCmjaYdgczIvWAY2kCJu6aQOVVESDWQyFIGgnliryZYC23IQpp6f0GGRp2eAMLVw94R1IkFYKQ/sZVSisk6IQmxNfitrn6jypmJ1R10ox2jrWk2qA0yCtOFl0Wbbw1yvi6CigRbKtPsoqghSX6nz0dLeiUhnTU5FqoLmgFKfNwJHeWAlloDwEW01OouCE0FNVu5xVglK1mOElFm8QKCQrxQYUrXQIt6+msbW0SkysbgUMJzdYrhM7VzLhYJsWFyiOOVIB10NcP6IYk5jZ0knw+9ytUqcJUGgGTNTJBpwhPigl2yI8rVF9q6slYsCGue6tFN2qQCE3fvqnf/ZLX/rFM2fe+o3f+I1f/1f/Kr+nacg90NjUbnOHTTMNbIE6tizeD6FgtyhT6TwRVEfKL1+68nu/93u9GX355R9YtPjzrW99ywThMtxgEU8vWX355Teste5W3YEJ4F/5K3/lzDtnHRh5/vnnyKJcvXLt2HG/UJ7fgL///unHTn/qU58217z51utzgOVdP4Ov2+14dZ4DZOE8lILWFyJozaKInhSgtFGkYBHLL1t622Xxl7j4K7Us1oq0ILyLAU/jDEGXgtZipaVLgcACyFwSyKrc5soSf4u4AUc3FQx7mCBOooBRs0nKzyJOPNzTZJ0KFIV7uxIUWbJKv/Od77hWMO+5tbITboF54vH8KkObuoF+5PTD2k5Xd/HBss5LdtzwyvaLb7/9plsugEKzaPDBSHFYVI/1rj/6QcNLMEHZ7P4N+sMl4tD1v+1CKB8+nzONUlt/s0TpQQG1dmflpZeHHzgszZK2na6Fheztja891lWgHIuOAphblC2Sb70omn6QdBhXcruPVmELyEKaQhS19zhXA1e3DjNFEFXS+9GnPll1MUuBSjaUxTFjI+WqFkWWqmWLlM97oixzu0VKFQEK61sie/j24EHUfi3Fhp8e2aUNxakKaTkpB7IAgogZDimuo6C0iJKlZ49OIi3FKQ5SDDyBAKWcoXDxQNBRpOboWJ95oTyoy41ar13MsvmGz1QfsXWsKn2rzO3cVFErvHVjWVxurKotBuLwci73IICqCja7m9ZQqjDLdpVIbVUZnIiGK8QeoGFpnsXvpur73/8+W+5pFJmIbZKIm2vGNm7NucPQQyxXzdJJVspzYMxTXq+ktEnrWHGcjZtU0eppeBSB4d9vHrGJq5dSyAeLAdz9n65p3+fA4c0FEE/MVmTZ2Q0mD7TdMl0H9qQrpKVvsypjBsxMxDdXUapvyXE/+vu//x+0psXeCQulJjsXtmQFxxnCN998B249QxdSwaHw2U9+4tHHTv+7L3/FzyJUwYWZ1fnYI8cEXPx9kcTlvInZl5jfu3ixbsRn/2t0/3RIAVEwPXOTbvmarSG2QEsgiIUhhy5bOm8LpcAh6rX4UXCiSDes2yuPpaT8y9yysnVt0+KyuoR0KpRuDNrKpj4rQSktxSkrShrU6CsCBxrXs8nKYgZ0NssTCIrGggM4CgZeNS2CzjTcSoNh1OZiCK7n+6mfDu/nhnrUl7/8ZV1Okf7/+7//VbWmnCpXJ1pWoyvVyjykyhKle7j+i1p71DOl1BO2MiSsaiarzYUlNXfCttUWVevB55zkLHXbWdc6BHgltVwVjA7ZPFmYtmojSjUcHyBVm5P7y8AuovK8BCWKEYALqVQ3KN1QGuRgzjWme6XTtEi0iYisbM1jKKXhrvKq5RZPLA7urpjgogogKhVidRMsROsWIAimtnkDEOWKRvx2xUSBuCIa1GWGjLo4dJXeUA35TZJnUwfjoTZziqr/1ENN8NDgRAcN8NYLJcSpSCmUpyHnSiqcvo2zncgah6aNAxwPHECapYdCFKpKYWJ83oROFs8I3V4ay1knMei1KLK7Oknl/NYsV7WrFNR/JvxIBF7AMJAocTNByCH/+IY+ePcq1TdupK7zSdb6v5GeP7USuwM836WUHwWdnhYVqS2UaoNgbvVRGiIItvZbj0yMMY9YuhlobcBskxBD9+s1DcQ1IykbcUopwYaoGzRoNSca9aHewgEppXvaom5IaSsPK9iaQgA6/fH8oBUrnxgWbOuW+cty9cILn7NauLmZB87GTs6DeOe3UzsjfbsdZflQN1q0J20nWsTl84bygXc0u0DOL5+459zHn/25n/OUwpTkXLvtQau+yctYE0BTmFHjCAYn3aTaDLTqv/XWG1QRtyX4zMey6jsA6eystyz++I//uAr+3u/97uuvv0nwwDEvYzzn1Bf+9Llp/biu9XXsdgb+bVs8lfKvfWP6f3zeli56KIs4/aHRGE21E1vaSNoWGTUtTz9J8XbiS4tsQQNt2mi7BJLBEDcGqgIK0dypy3bwtg8k7/DbjNwWcUOnEuqmXavaf6Q5UGjIqPI028aMP4THLkNyuwpnMMaB28yDtRI4tYjW1I4mSXdRGae+Nvn+zT/61jetPW6zPAB69dWX3XupmsdajOv/eoJ2JNsFFcUYkaVQTJz1pNRCIXpMqwuAaHffxObunc6Mb0Nbfg6Cnrhh1k6se68pheZz4NQfvPO5OyqUtoX5FqJI2joSF55qRtwsPHd6kByOMlWADKj53VKDWjZ3se6yZlofuUxn6O1GDHMXnXgbr6sOBoDOjVlgH1QlAxuzLDpmNdES2CBGhZpwA721FW502loR+pVWp1S2sYbUB3ujOMtTEapwdnWks0bxIwI8dbhsKBio6tzUgPIWP7pSY74MiiAFdG5IKUGpEj4AsuVUhKcUbvCnnitt6MogbX0R6WGXSGtXtfTXmfrmXaqyvRTEqTo6Aw1uOyKb85XRL60e1z6hb/sHnXCw5uJml2nqVh1XkdL6XPEqZKK+bRybaGAAGBAhNDStKik9QCkeda8SFKoMRSuTbStvatBDDE7dg5/SirufgGCTEpc1qq0W6m4upg1xwVJeT0qvHqlSFhUxzUNWMMhWs5Zq1RRhWES4Pbn2ZAwcw0BQyoE5K5h7O+eglZoEonBzihpLehpVgtJM0ruh5elThWEe9FAejeU0R50XH68Q/OW//Jc5j2JBMkO5DJeKjPnLHRWvvvSlL5n1dGMbTRbUc+/lyZ8ljchf+kt/yTamzqP0L/7Fv2j3zwbjm2+e8fsOftKjoR548Cj9QMhUYPNP46p1s7v1UrWd5WFbhfk7wyQiYAVBO26ziYwuhGH6lQ4a5i6KjZjiERdGILaFZlUnI2GmRVEqgxSR3IiWcZOSZbGgBYlLk53lyl9ZoOJdoujBkzjMUKr+HNj2OlxQD7k3/5TyoSbgBIcl6hHDP6DIXymguTdJOpU5UJeWdWKCNcMBG6KbKjt75hW/7tDEXLp06Yap0kJlfepMZamzSjnbyaUsFLOJ0rVKdRxzF7ha5Iw7Rj/M4H392abtfJsuiLn0QWySOSydUGdlejBn/PI3b04IDpFqB9VvWxzJ97pu31ElBFugNovExHkzQ4lO7UGKN3aIzc7vzqx7iRo9ZGmB0mPQ+vUcYzyoEikiwTaGtHQiJeJErBLziEnH68mn7eIxZkWsQEw6dYBsKbKgGlA0AGZ1RkGnVr8phWYaEOlkueZkIeVR2jhoY/oLSvUJ+6cQQcBDvN6i40EBTFfzBvc25/bjbTfFiacAV0oJKE62RejlhAiaimhXdeEhoBwnJ8usg0H4gw2CoTpbKXog0rTdjCNjqxowT+e8QrlSP0FD3wVSsnxQ2voSgTPUsYdYK+g1VIdlCSqC4IQ0Sito5a8IXKipVUEMBA0bLqkFbaD+FxENFZSSxWAy1Rnw++UQuo017Ws0MkcbEWqBIhvClJtGyQKPuKxtimyI1dxyhgM0S2mgx0huPFG4yhl60DOwr3rla1ZNbSEm8XUuSLFhphBAWimIa7lqiE+bn5eF8zOf+exv/dbvCELcfsCbTW7ke+v5OFPutDA05RaEBuku0oyCPSe1toz7zAmeM9U3P7o4dvwoz90tqThtbqEU2cqz/Iinings/1M/9VOe57kC8GYEDLxFF162zIb2TskKXW9MBd8GrC89unvBSVsqu38/K/GqsBDV2S4krG+LU8+pQgQ3Iq0sllK2dB1ro9Iw2VEQouFGfpaZje5KYePVXD1kEGQsbC1jyDvmc+qBgpjfIjrA6nuKdvHY2sKqhG6WGg1sC/PXlxwnO08U55ICC1MHH8hyWP7aZQKiG0hrTil/sZUuvHBFU4ngOiceIq4k9DSgaUyADn/6DCc2EymKp1PG1PnzV2z06d32JtWOzitXL+lv586n7n7ujNIoZJzXlt0d3iIzhGdcSdZDH99fzi9SN0EbV1M9S0wrJcUORBzdvQcf/Nq140Vq79mAtcqqhctyLvEf3jhMxQUkXqGITbXBIJv5DtMy02IacSCqwKgo2S1O9uLIto6lwjG2pR88kgWjglL+4cEAOgXUMy6Wwkr14zx65LgqoCs1VMqDAVAVFTN9VGH16C5KUTA3xUOhFANPBEvRNEQS9W+NMOAnW0P6rixAB+hSWfqrhwP6h2ZWRCGkOmtrRLM89NxUZaNoQCkpGkBNSJttN8VVHmyAxZY2VVr6kkJHbATqFdO84oyi3QraDFxAfEE5dzUrIrs7/dU6TiA+0oqTYrRZPiDWE3Q4egWjbZZMdC7B1QIiVQQpQ5m1fptAk+GEY9N2BqEGavVlXUKqJqILRj1eliemSHNuRuC5c5YozrBIbf2REtefa45dPLWCQjkcz5p36GdIESn0VrPaqrnOwBFp4wCH6cGMAgfwgt/kNCtVSlseD87Ht7xd4p//839Gj9+I6qZtxwj/aQATbcogW7AU+fGy45HuogRExa1PwLk+l+SeP/29v/f33GZZrdVRHKQ/eOUld2BwW4gmFwFXU1fxv/u7v+eHnBbFy5eca09XNE/I+mT8xtp0hq3lP9W/NKejprMFFtLsnWlapI3SdDGPhtVeEO0l7ZUKHY2behVfnBtty0qdGW2r1VfhLlL9KFUl29LbmrfcKGDxb8l3/HUTp3UsS5pGz3cXpf/4wVwPysuqiAsqPFTZM3fAR410PhTpxok8T9yG8Q7198/MZYObXGFVlZHO2k8nQwnO7ckqw2eOo+eH5J2HdTl3JQY7t4Gs7iTIvJK6qDFh1zZvKdzQt5v/GZktjrEd6BgmIwpShklKHW7YjSNcK5ObQTv7nvO+ohmUubl5+KHTNCdAs6J0dqijJVKrCM/We8tbDKGDhWDGs2DR5zmKmlqoN9N3fWaQDlO6f5rePxQ63M256EoTTXUp1G38cizvtJhZZp711HisX30/dzZAKSv1mQk42XqFu0V1r3qaLllZpSW2Xs1W4a4IVRhKl4Jy4gGKmpXWq/KQKkMt1kRUTW9s07YIgawq4J+HdHhjDiB6tue5FamIiJt+Of/I9ikonTHt19DTRtqdOCLAo6iqtGazUTNQ9zqt40FDKWK84VdUHgp1P0UWLf3Ttrv+bUEq3bpinwqdxXpOnKCsyZQUYunwpZB+pfQgduSoLB+miyVG8MYEJ/Hpz5tol14T2DAs07ShqGk1NAsfF6Zji54OJlh6dV7MIsiue/Jaa7998e5dy4BRi06EnmWLkgL9W/Qj/KVnnLIZnDmFfsrdD/3Tf/pPeyUunu6u3FFRqvTv/J2/Y45zF8UNFh0RUEsX7++9d9WjKU1jjafKL0+PHX1PT+jPse21zMNaY0383YBOwGV2fa4fH8H3Yb1TagU5lvbA3ZRdBp4sZ8opEDsXFngb4RVn0VjE2/i2L0X3Ugg3fTXbdKtZGMO5hSpnd0u44+9yAMJim2DLcW8RVxOu0ii0Erjg0CFt9tr9s0Ore5PlSMeUcalZjRHKvRXAP9+SvEcYt/Y+/K95mY9dqsqZvm256mWKCiaX+42cUjtw4OTJ3Et1uTJJ87NLlGVprQUZGnPx3WE1zqfWiFIBgXSM51PrlIKWSQv4VE+nN24h25ozkUdKShW1LbULCjZZoenKmbh7+9YH3D0ZPB1AqStZY5OjHHNCxiwj7Iy7LXBRFh/W6kqKTJ2RdqJhFLSoHnZZpY6HUpxtmJZySaOu2mEw2SHG5NyNVZu0sqSWIIQ2sSYCMPABhUJg9JJqEBt3WZrVFU9l+QlkQTnRa6guKR2RWRq2Y6AUIi2th7JkQQUp2ZqLfg6gF2qxnChdd0Z0G8ypV5cZC42iGmI3MCfT6Ky2hUTVGKppIgB+9VreuFPAA6FDWrxurFL8y9zSrBSRlFLEZivOSVt5nqkIuAAaja7rnV4TfLMt5kIbAq4zmIu1LJyeegKnjSp0LYhehvpW04gLGnCydRUdpUqk6NJKlYc2+ktsqrQg2yIImBeVxQ5ckwFbcGo0tY+54dpEANtWzZ/kL1UbsezDZRVEsTR6HCV0bkPdTgmjOy0HVWwiCb7rcXOay77x2dPWfMXR3oRlzHtbnK3wpNzE52yL18/7RfZ/+A//gbguyVUizLFyX1+XP3s4fuhqNiBqEYS2Co7a25Xdo1x2j36sd4rsibOKtC7VtHBthnK3IeLRsP2nr2xcmICk6E74EArlehSL7VdxNJWNfGxsVRWxJhkUWg2/qwpXHhYqXRHRlKXU2RntazjMWb+cIaTNLEkEtBv7quS8l+NOFz80x9z4snFHVFBofj8/r80NAx90bAMtR9IPWV/4krsreXN+fBjAY7QO0RsuEtjK6nVFpFE719Ccr71DqqqgJusnJlkTNARTuyDtbLOXeZ5VH+kcwGO0VsMo3TzwoApx6N3TjDLimGfVTdXGqLsibjnYZhPfhaeZLhvK9afI2M3sDHhfvxUxAedYKU3b0rvVQQEonCHlRdMEq3PcS6whLuQhgB781Zb84LIAvQwNFEp9QCyCIS9hHliUVYofHkXb63FZjslGcAtTvplSy6CkNRIBpaqMDjeDo8vqENoLWz0vG06Uze3VdqQR5CsprafUN3tqWgrqSQNVi1JEFKXVT8HwbhwWyWalFcEAKX/MTZXJArjhVCvN4pySJKqgqA3KPUUGnnZB9MiEoJ80Sj070WktY6ZdjhmQOEVAre3R8wc/Q0stHINSLilqab2SOrqHogjeSx94A9gqVFBpgVpIRSrFB/pLbFqe8ivCTAniIPZf0i7pKfsP/vRP/7SnRFYR64cLxzbiUoKtcDdlW3Lfv7xqLXhHXDwF1iaqxeaFFz5jjcyh5yNHfu3Xfu21196mRTtY5b3vpswohktErrjN8gqxG15D12OEeH0kBf7cc8+bkl568eX0pQ9848rp/yN+Jqya6pYZHExD/An8j+x/SuBS1e/xjfPxfxprN90loi/xKrk7bee5m74Ei1RtFRZvp0LRc0Y8na16IMWlYm6ud4+uTV3AOTjjYs6qoA9reuD57uOPP/r66xiPmyi8ptImktli6qs3Gr+3x0j1/zDp9OSs3fOPsijhj8WHUR0G8EHXck8FMYRXigG/FUSKzVDNF3lsgHlou72OhxgXGZfzTl6jx1QnJhQqyg7JGmyoDNNFb+W3IUvzAIWccanleC5mMC5muIqdwLhJwlap8dz5i+3lxrRxbeEZtxI7bjFKc+eFVkkp5cMTQ9hEHFNxPPSMVLxFhFekiFIjv2vS1lb0K+XnRPz24a6yUVLf6AFLj9lQRUhhcPlZNln64Rmom43QnP1D9Ps2FEZpWCDbaRSl/tSHZukBpHYdKL6cly1bU/QiZWtAiqOXWTrI3jV+6YRwAH9TDtBT8fKgAHgB267bLRUcRKC0zIziFw0pHFFpA1WessERKwgXUiBrQSJLUEfH6Zf22ATWUuQHJe60DEvbg7ovToK1gqFKiJAFEJR2J5XiJ8puL6qsIsAuPZUthQYM6ACFnl2FisqGXjZZDOUp0rSccPo3nL6YPsu2LuFg8S//8i//o3/0j6zKjhIb5fRg29VTx3Z1fiS8bboUWqi+8IWf6MkUM5qp5MSJbLSKrW0UXdimw9TdAFTHXAOJsYYiQpVGMaJFXtbU8fGPPevl3B6Jif9eryaee4k/dL61bih2hTaU7QzOOZFFvG+UuLGYKRr5Pcy72T2qbhdt2zfOjMUiUb70496sMSnchY3bQ7qtc7K7RQjLgbLdL4p+EuHmSfNZrgApuHtfqS7kYsLlCMTvJSD/4l/8C4OohhDh+UyK+6HMzen2HwHmh0z5sNfOhiJX9Q39mfWC4QmMaCuooVfAo2vNPU+miA7SIsWNXStdK85PXlUtSomH9D+sMrsjs3o7j+/WRK+gzt0VkYT1QJ4wF9dMg2SbzzBXWrU8zlbnFlxZpn3zsx6dLHv6U6qVrKfu2/YfPZJnY3w1s0jtTbnN1OMswpGidHuflNK8gyEPVxK8PKDKGEsNfbT7/etE6GQZo9jm7633vVf9lkuN3rPnl/9O3PqTNy33wIvZIg/j+JZJY9N7GG0NqKJfrTs/chVgizMD2OLNEFcKIaK8pdG7FaG5gotZETYeKoJLFdUBWXj1SHkCELs2QArlb6kTStG/3a5R1AGgcTHztdrgTIBbc9CpTHVDER786eVz6VBO9GHbbARts3EeWzkxVEnXCZVKf5gQtb+1Icqmo4uqw3suEYwxdxuMsuVMmn0n86mfCrHiAYxFS+2cxyVuPCC6ksBs2jV06/zyhyfYxJ9d2priQcejKL4O3lTRquCU5GoJRUoWpUrIlg1R7WQBniKIBQNZ9LUkh1HWrGF9stXmjW34/8Jf+Av//J//cwwXL1zo5Q7O6vkTpwyRrT/1WUprb0bFyhpjQvFLavd2brD0I77zk8jUOlnjx36NM886yoGDXgtyw33VsaPXco27/9D5cxdOnnzomWc+bgFzMaHtVMoPGRuo5Xl9aLqIC/nwmt6hajcmu3h1bSO/NG+QRSfin+y2YbZyabLlXhsaBbLocL2k/NGww59pI/PZaE4RTZs+UP5WcIc2s9VOHhueO2o6lLbanYwbF/pHI9pj4JvniAZLrnguX7bxAPfbbY179eplRXYm/uE//IdEcILpBhy+Q9VHyCQqG+AzhV1+HjiUM35dooo4/WewgzG7EYNzu2OBlgZHFl0M+OamCz1B3A7DlqZrza6YB2KKCdh+wWpicrIwW3Zu3ebWxxJMm/+jyJ1GMpnSM12yjWhsuE6EoDDDnFlg4AO3hHnXflYEm32zCOTRs/9ZFbND1jzapL6z2ZqMhk13McuoMHrHedt16rYzJ9KU0eRBtlaY5eTwoSO+bOBgjE8WuOHz9np+7XvAvJtqZ/pI1DjMSTqFiedb5zczODrQAK2gVDMkitODpPgRAYTCKilFOoybaU4pQMQjLV6GaqtULZaNY1W7DCmtCalSbKoAZLt21v+yKa3+DLPq3RnhSydZP1XPpwBMP9kufeDmB7llAYoogdQfZbWLAm9RSmdVn/ptKqiluFeKtBUkC/ADRBqklBRv1kxq/92vkQxCNbJKWbTwO1dNicc8NFsYjECIuwQ3B1oHJ812RRDtdPWeDIUPNQ1RVJ9RapFa+GSTKq0Il4RUQxOJr1P9YdssV1WFgpMUQCGro+rD+mH68zQ0otBOS7EVTnS9MUeB5wrD+8tdDqsFi7/yK3/113/9/2dLnFTkCwnvHXPftuCP/5tnkBnXXWJdencE7fO70LfPnjGyL1+98vSTTz32xOPqeOLUkauXr9qDcZ3pNpVNXwvR9k6DHt4ndJlfxPnCe++prAs8ldUQ6XyHLsGfe+5Zh9Dsav7xbv2pcEyjcC/K+PqhUUoEsJVHuqQa55aOV23TFf+FKNzFh/d2IjLTTTZdpbjiNjekTbAEan9l9yDES1nIyu6hqIjIGylS65PmAG6qLl+59tTTT5jOta+P1GsvW4Xuhmd8L6/00feduth+3eOH7mN+mvWAdWWzlWIoGSscUNkTx08ZNUaf6Rpil7h4ozrrS1aQ8hPh7Ypqh+TMxJl21pxAbaNnEDWehw76qYfnBG5rDvt9ljuA/NzXcnXlfc9y3NOYxPLIiuCsok4Y3/AKwNmppGpz7Wzv0fvgOYrS6cOJCoEWLD9AoH9cuZX7J9+Ryt6l4FMYnfDpOam7//1+gBLOeURXd/nqpK9lRpa8+UaVEKlI1G/mtfbo6VS5POTKretXLlteb16zgia4SfPT49wImic9Xsx+6ezavX89SynLdN64lfczzWbn5qszSl00qBc6B7S6SsHja64R/I2gWfTW9fiTn7uZv51dnmgY9FpFEPKQfV7+RBlxSviPfvP9D7ykReNpYHqEDk2WxTYnIhPFhQUbHqbxKGr8aZvq+xuobxAMfD5sBcp8muVNnPk8Fwi+gTo/YNQKdo5zi5tfYFy/dZ0JFQH8BEzQA1AYReE5H2QVsaW6KHCl0rEVx4g0OG0pI6rEUZbmo4oIPWrn3sjC07eqN8ge73/lK1+xJim1blmNIIAUE1S5wVJr4gClPjQ+7C5bSmVJQfAIAimlEZslWfeULRDHAJYtgqA+Q8iyVcEQc2Oe1jR8cmOfPklzrCwenz+iXPba9asrOMJGlXde+32mV0y4QXz8iUd/+Zd/yZv3/vW//tes6wj6SPZbUpfMyWaU+D9vMpp9AB2bTetZHL4nmPny2hJfazywb/Nm0ozTfd/81re+8OM//tLLL3/hJ77ou0JHjx2/cPlSKmCF0w9U6IN9vjk4Tzf2+5xZaqZvT8fQUl7CeunqJbdlV29efv/KzZOHTvoi9mNPnZbNmwZ9m2k6RtzbTtYZ4bKqUdIgGwY8829VgVgkZ1JIu2wLQlQ09InItoTm6Y0UbkkbmepBrK1Sq7LaIjjUpONwwj0mzC3hHKImzA3yvSAtv+FKK4+apH4Xvdh372VEpzx7XGo29Z3oFcHpCbWOh6a7tf90HtMcsr4JYokyYfgl982b51x1+m2HO2Krilpcvnr92VMPGUTff8mbSm5YSnK04vot70afK/u8gi8fSFGF8XzrcH5r1SD4nRh0OmE9yl2H8TQ3SBkObqiMGgPZB4chJi740I8+OO8D1P/idqbfQ75mYpgbjyprqt5MoPNcmXZySo0hFmmgB2IsYM4gnGkzJwM71HGsSMFPnsy0FV8HILLGSx6PZfhFCLEjWRFf+YFCtvMCYmVRrCYeb9Ukeka6VSLP+bNlUYrVDd4po4JSlOK877xTYm0pZ4szvbcrgxTP+BBej40q0hpUIQfMuaVLOSCm9UQKMPC2fnfyQtQYUvwAQgrAsWGGR3C+jwdPgLY7TujjZ/jrHoSJyrYueCATmchSWCstrba6tPgpIQWWtorIFhQRxA9apJq7WQwWFsy5MchMlWWmshBAqkjxKpHyBFDl+7ElEgfwZotgoA0dM4osPQ1F2VAUaVxBtkSZ73RZ8XSf5NSZByR/7s/9OV0UheDM41kpZSkBNKsRSrW1iE702kKBFG8VmqKDiivlQKtTKzRTKC0zNgAnsgwlO3TEiWoyW4ZOVUktaZaILGYz3dCpa6D7IB+jgMjFS+9deOOCB3J9PoQzVmjPNJI3jwBhQlwfUyWlLAV1ItidMFJ3kpJzNWDJueCJ7LvvOoejS7sgO3jtam6yKRO5qHZrpS2DZ+JNQYBjEKlaeKO8VdZsYMdJLcXPzbDAv/H6mcRN04yH8S6XgIe9Pi96/uNhhl5bocruF4AfxtTSo3bFU8eBRLsR/lBFi2ch1bOypHdxI+Se+pYn5V/Wd+mKVhaSS4f5rb1GZMKFqGv94w+funL12sHjXqfyvgn36vWbfhuuNGNgtsfgumNUJe3VfLK3obXe8TMi2+ygmfGm8242ALtiIRZsDBpNpIyLB9yQeBHGoTw2QmQFXZBlObRLwYzuKtf/HXq04WEam60XstGPREULiiy82SqtlnZCeA2vSqIAgphBccohlICdCierqLLoNbd1Mb2ElNKVQvDjBOhFSKmL//MyjdGf/DBUEGfpi8iECwJZiLkPv6hhk8VZi53+aGipYaxbYNAntEp9WwohAGdt1VxxIkWkoIYwtFVQanH/fPmXOVl6AIUtai1kR0H46RRbWUg9XEVLHKXaCKYhbmQfDFScIASg4IQs/QuZ8kQDM2K1tb0U1WJlK74EEeHNLs5mpaqGKA4UApT6IKVcWKQYjMAOQjdVPvXr4tEMOz/Lzy82KNFw3aNfLUUVWC5RvnAKm23EsJVS4sglQVz0IgwtnjbKCh3lc1+Vq9SR1RaWzDqQRgdbbWKYiMlOmrWK21TRqZqumYxDU7+l2qMs2QjPWvuBjY+BuscZiNGFRhsQUJQsDB8Fbl7Ppxr7zIMDguxqQFad7qFGVGfAs8kBRsMz/VCLjEvxBM3Oj9VLA128kFfY2SXIvGxcaIttE9xD/0cnqTKhph9d+g6JPUoSUj1hOg8Dm8r+cbbaSXZdqtpFv8PkTmaP9T3ZWpd25JJb/iy8y5WO5HmVTqUdL53N1tSaqTQHcc968XT+rH08wL71bZ0T1a13aXS9a0o30cY/o+CDBx20O+wHIdn0M5aZcH05aX4QVYq3tNTc2NlczaNwppQipTDasckcoARgUEpb/JzhoI6QTBP+lCrFWo3CvSJeCqXDPGN0OGuVOMBcq2zIMkyKSQgpYJZZ+lkpj7TEXUqLOqQXG/14qlZaur91csWibmDgGxxSYKXuEawe2V28DmBDrJLiWqLbUxiAWhCkvPpxIjKxpB48lOvlZqWAHlC2FslCpEppGK54RWeJpZd5cUIANiKg/hOpOKRBwKOonCiW8uqUkl36MRBcXskW+oEVeNWWR9qmLI9s9ZRtDy67xMsvXTwCyHkUpgFVrYvJzsrk9sJSZO6De/2Pc03qgm2342qR1rR6aMYgxYmyrNc0/aBFLZWiNMVs1MEL9QexDbEUolQEBQ6ygzyVgreFa87MXIRCfR6/GM+/hNqwQOkqpZUsUc6PmHSu37iq1roZ2abMqSMRFKpIwXm1KOhMo2zOeBC4E0gZhHfSeBoCE3zgnieFfn3l3ISb2tucarRHLnVMtZbChOvmDQ/e1MLxlnqlXYAni24T3Rzb0IzOaeKJw20LPzwWo3fCBDykIo3DnSw/VG7p2eW+ba52p91vE3dZt3jivHVmj8492UrorFvRO/6u6txB3Wb2+CALRNVo0k+MDm5AsOtOjz722FYub8/yTFGLe2DCRPun0prTRYLMlF8itW6xk254lGd8gXY/b1Bym7S7XLHOtPFLBJusboBCkFdUjfRm5pGtHldmpZOqIBFg6nJHYVTCMasjJVJS2DIkgEz8Gs9Q8eHGB2T1bIjQQCyl2PADgvDyM4CBIArt3WqTtebXajkxl39dSDKEUlX1pEZLRCk/0/TAC9XJO3T+VnwZEq8ypwJThUrxAT+LkF0RnhPZJRIvg+jPjuotKQpt2BCrn1pZodi4NRWBKy2D0oIeA6nO8svivHZzE7SqQiTICp5qaJyFtNkiqdV40rRqm1aPVBZwFQ+pZV0RVShlkDaLgtPvkJYGdFKFxr+UCpbuPgOC3iK40npVBtqAUkQpHEPTClaEn+6l+jY/DCbBdlnDT1YQiC/ZpbCGZCGAfsxSsGu9DCVKG0MMVYgCKZRYl9BbVIQUcHKPnPsq/OhjdGxvahcnS8/r1Wa/kMFSxFB1Ll58T0qV5cp9FYSIIghFhn3r23GBrucYLLLoOLGVuYak9wWO7lRNT+Wax2xdq4TUdfeXvvQlVwbeEqLKnNyo2hWMFNiq2o5HJAcBL9joHAZXGBCwnilasXzIPbvAMzrUbfT86SQMVRHkttt/Krq3milbVj5E8R7rS6SNtSu4KZoALvriL4W2pbBFTRdddjEIrM6Awpbucf3alYTalZSh/WCebBlBngdbsYI/kOeyOli6meuR7fsDRnN67G3N0w22VkKvfiMUon+yQrMJEyB2v4oDGQt5KhYPSVXQ+QRSgHWmW01ZpXUGBT+dNFBog7Pb3p7v6PY8x6zUA2ucebolU2F5ZYTprepm0TFQh3MWqc1Ki4i5wLYsToJwgkDWYEs1trM/hAcoFFUtqcIoNysZ25vwoeNZsGUMkZ6mXBiDVAbQhdLgWctD6ZjrUn8HVluYRYTD1YZzeQJpVa1kla1ynOXpcguntoJlkyJKEUuRXVIooKqa2gysQmlFpGA3Ww1tEapaEUhhZVuRirNCKo29nT1lW6Ot3OYvzkUhq/nj4pZIqvql1Y+5pU1z5HLqWyXYIjzRZg6C3upgg+tFiBUphQi6HSSd1SplMgUt4v9CqlMW0XSPmVpEVlplSsosC19WIC2CFJfiqasqBSdID8DZyzLjELG+VWF1lqcaUBS5xuVSVM9+2vKBZs9wjF79S2/RId1COXw/JyyCM4SBCWAYApWyOzeq4nNrKjJkpaXUaF2qrfL/kClxdkUYv7Psbq38jk2lDEraEDFEVYdeQxpqaEBEpOFBOZBf17kh5oxmNe44rNJmNDpVqqfblVbzKPhoycaZEdpVgn6Htx9Na7iJ7yqvgqV26ds1uoi7yFKykJYuwT2IsC0Kzl38foI0F5ZdWYJiXrpRA7lx/S2R9yRS43r1EWYt0k+aQfDj0VlXz0HJJgE+Sf/T/ukCSvIHaERWdEsapG3lUmRnrXIVlQVJVtO7HFKKDhBpcMa82lgflek8fMAAKeAsM7quiE1HMmQA2VGW82KjbZTi0/OSnzuPCpCkhQClEFnQQw0ocW4A7q8RpRQzulT1mjWzKK2GaqtnGCreUg6gA+LwFqlX4zcUlWRx002ZGHYWM6pJ1XOGMMsCDHygCgVAZBG3snmzg4goEhFFRMqGAdQxrwKP8OisLBMqi7KyBBuEiET9Rla2sJhlcYJonFmVRxHYipSIIRUYtS1Cb7ZVkKKXQidP4NG4nakRS9Ely4C/aqWlSOtJU1k8BZQFKPD2PxFjAicYa+8f9H7TrfOIxaUtreywxxakAa+fKDwH2NyFd0JX1OHRZpXtAMAM70rmckQpbRVvkVRYpABnnakDKJBSpMOSJLh6zNkHT55z3gSX6jpwmjeEpTpRNlt8stbmxlzHcXyvGlCMnS7ToUzV27VSBQfX5w7J8yFglVIF7jleYZZ5+OHHbcqrjupbrvhPFcAjUDSroOobLGRbJCUeQ/6fKnDsbjA87i4VA3X1rTqhZsLYhLgfEnAnx+5Wov6IE4RETbgbxmjOIaZ0DA/DrMAdfapw8dZFOKQ/QrCYMXS3J/ew9cORqqqmK7EoP5yC21y7SlCrZ4822Vb5ttiHYhW/m2XZ0ueWzkWEAFJNFyLbnrzrVdtcke6ha7mOcX+M4eyZdzocrmnVy1f0GXu8Xlgs/mtceJLhHw9wtvfPbVbQXH/4lweOaeWqmlMyfUVFXuxkEvD7Jr0F0GlA4IQAxyv8YopUcKerby9XmYEXVLNUJ+G/2i0NeFDcZaE0RCxiA60+hpzYVqzahoG8SrKkOJ7N/gONHSHVi0fpZsBMfFf1KshkjeHHpmIoi0in+rRIilMR65BW1VpOihWl1dwsnkq1iBKlQMh2KVzthEhhQ7asoOB06FNKvFGoXbWW7QTBHBE8EL6Nic3UDCeIiFMo6wMNKHUSQ8URASUr5Ri1AA8QFqmsM8T0TEmiUf5hSSIrxUDVynIVvyK2IrCd9Jcb1Vbr2hV/RXYZ6CRIw1JSE7UFB6M7tQCLkxu0SREx5GdtEy54kabaCwO8+ovjETduKC0Dc+NddhLgmgy9UiIGV2pKJZIhMhu2ONHb2bgBZBGZAPjh+OGKqGIURYoiW4psgdH6I8VGHIO0g5yGLeNmZdX0KJYrRiGYCZoE9BrZ2QCMe9i4rQpdriwMXatQ6OT8F7/4ReuEF0q5v6HEpONJkvmFXYKyXdioon0sZoRS63B61lQ1G9/IptofBVSZKlZ4YqXhAH+WAgo7IZbSOm5Kt02s4e3xCGsWrYNOG990I0WQZvtEcXJCrb3aoLKCu1HyH/en/iyvIPSt7EfVPZW9PU6XeNU2tsvEKt1FylNK3Sj/Ls8u3uG0OJcJXQ5b6RD0wurYq6hsUo2ot9jrM33pJ/qY1jz9wGl9QxO4DHImEAM2zVKpaNs2BP2I7NKsj7HNqi7hcQDQcHCzMeUup9y3STMAD2aNgJC1V0chPdUf2RnOzVKLp1akLW1WkWxlIWwRQUThS0sRWeFe+6pXeMTbaqwufqgkSZVcfY4BgKEgLvVGDdFprCXaqWIJoggbvEXYWCUuC+dTZRFlQd0irqh2ycouqNpdDTiZUBNC1CqiE8BdqNYHtTDmWZGVKqVHOlKbo3pMtF5Flt1yMvHgsewrMmee5ao+wYTY8XPxYCPeOvpVE2aArZRdnbs1glOIDUM1tIL1h9EyUMXncsJbazyUA0UoUkWrIhSCJc7VdtkVB/yYieBBlMKJcEYHVApHV2VsxAEHAItlrmxMbM8XkZUlG+IsEvWhmunBIK1peDVQCEcEpKRVAkHngFkeTz1RVG00qxF+WTohui4RWQ0kiwjw4wSlCFQromq6HGZKaO69moCDCirSeWqUuCxVmMdEhmitU6uUHa7qaT6orail3Og+hCGtCn1+QOHTz3zc+7OtUsY/TlYcTHAm0I9j/D5aijI6ktRzVgDn+ZZY+e3MjPbWThHkbiAe4p2l6RTz9hnLIVXq6+rb90HsQJ47917NoXuvkkDbA2KUfvSlpw0kviWzcOiBjGLmVDPZg/nun1rQo76qqVSRjh5/dqCeU7RDC4oO6j/knqWLDol7OxN98U3asjtVlLYEW1iFe9j3ZO9Us8nhqeyuBkTVX/y7DJqwahELu2yLggcIAigi3Uqkk2oa3VjqQuHXfu3XvvCFL3jue+3GdQPBlGVh8aOUL//Wb7uHwpZRtv+Adtmcf+lAm2bVoHPZsd8sSS1nDj/g24mZ61TBub8o3O4Exi6BvAU765k1K+5lwUozGVNeGgnnlQFiqauHeNoZpJGe6UV1ZDkmiwFCOVmCczcRrw13g2goRty81cL6VCYjmQycMGBeSil1zC8EQ/W2blJsGNArIksETgR0XqgqbEstdxBlCzhJtZKlVCE6tkJ9a4qiCOdKS2mWKmx1A89yFc5m/VfZKscJMcAqpVSWqxBOIgprNVRhHRCu6qGzDGqK//qVrG04KVEdzIVqaBGKLB5p3cBMD4C0InpMcWy1xQoTdNYNpfQgSinhP0rt0oOOKHVScRFx1gEUOMDDZ/zUqrJ0854rnm2vAKjFZmrDj7hSCEFv3pHeDS0lC1oKqed8KKBggxfBVqmFoHct4RgfDBsMcJXlbSuIB1CiiHurjy2XyiBbHmzcqFEpbSiQRqmqZIUFrtaCD5EF4nnhQq5XAEGg71ez0304UegBcN1ZkedD3l/++c9/3ilHqwKfldJvBueq1B1VFyoL3nK1znOsiJRFtVvZNgRVRBbxh0E0ICn1skZqfAcifOzKDRZZXul/k2bM0LzrwL2V5wRGRHJ7+X62/ffvy5VuW4c4EBMc2ubeGv70qPdweBz4SBZI3JP/o8Y5YZz+vLyq5t1GrKHSF/+yXotSRVJQhWXQkQgiWoTcl3s3ik8g+mku/S4RrDy+n2mYAP1Wcx87cjQapnbaYmkzKCkkNZ06fexwruWyAcjE+hUwitFHlcUtI2F7P8QHc5Ck/tQ3SlCkdTg846qKAN2vFhEXJxyRV9yAd4xUHIU5vUg2O2D+yKzBRiOcu9VLRXVhQzEn149WGHORxVwKEXTQaY4sXIpeF6fw9kgjXh+Il4GXldJe889kB0kI8IAqVJO6R2qZgCye4uWRClfdaFo6nsXQCaWqNNL1WzlgUyVElHKMckUVgXMegyFaKWwADvC0AUpsik6quGc/i3kkNglDK1CYqwrF9C1QtYUOmFC64i8LluzubFYl1UxQdhRsLk3gPHGxVAalDCHyH0UQ6jDldbi1brZF0maltVWdnAFKiUAUgSVSBOcqUlpBRW1fClH4Uz38EQHEdhJq4YiACBxU7TKEfxUprQk6PcGhE6IZEQfSwSBSzagdBr/pqVMDYl0RJx3AmEXUw70rFFGpldT/bQu+0fw3/sbfUAWtJoAUYrbCUajUvZRDxpYrF8jWLduGrU49r5OrFuPYJkFc2VXTcq70PnSVyj/RMM1J/RbbQyaDnZNkXZna3rXB17ZY2u5GOJA9yYEEyuO+Gx9c2XdlVsMMMdB2wak7lvLDp/fxfzONfLie3dB9OOd/ulJR1hETpZ1BEXMzyvxtT16uimHxVryCUnSw9EB07UkTfcyC7AbdXfJTTz5toTp56pTv454587aPbbqHVup7uWzNPdQMOjIzOuavJ7aZowyc6c96wQM+Ua+vAriNQEXE4RiA16PU83jVS8R5WZFLH0teKphLq/SlWsEMqQi3gaKmEHRQho4aOFBEfxlkyyO7GfbkkYwWZVIuQpZAszGVu6U8GzAm9XVZUkrXMENZ2mujXRYxwlOKH1j2EUvHQ2c5i5dOAxfhELKrDpibVYQIIMWLSOu8IpxcbZaejKyBckLrZx/149cwqkOkCuGAuCUcohSP6mvO6qkz3AZUHT44BzqnpiOakJaTIAYAqXUpqRoqUYpZygR6+fWSEjEzF0tzhVIcm1IUzAJbo6UgPnBgc3COzmqrWqnSNqIiOJGpqb+bQbJKqzkF41udZB3svpKVzgWKyoZSu80uDWwpkiqFtL4QgmMnPhBBUX31wqDPKDK3GpYcJosBVMNuSgq9tnbTMtOGSKFURKkq85JqabNNOcO6PkAWM2IfL1mlfJqBhx4bjFS28uxYeEeRL/Y+9VReHq+r2HEkYk0CWd68yeLi5e9973sugS0bDYWGFXBPmqsfT03LAtldaBHKLk85PzwVmLZhe7hdSpXyFM2CSpU+Jxr5psNs6VC1HWH31Vof8qaE7eGLVkdztCnbjveVv0/B/erF3H0kQt4NCA272Q+R2i36k9nd1XA3vgnReN7OhgdRiBaz7MJb2nRP5yyRk43tbOjkddsufZxLc+XhwZVLkO9+9zs6HlmDhYjGxbPHBHqGTF4Enm0bvbSpT7pDSnR3BcEpBbsOVxwF88yKm0UlOue9mY0kmcWJMqVpl2pbFDwLryBOgFNNOzngySzQYukCYxKr4nDMflEl1Z+8dE8XXMzoS0nFRQGlVjv9EVeEKCVYbR08ao6IuUAbhirEtjSX2Aq3GfBXZxHpYkanZ4mzXBOLooKANnRuUA5QMAjOgQey/KDLlq10zGDZXdHHXKgSKVlAlkuy0gqWzVsz6mqLimOAYCBYPfTXrkkTXWmXVaVAaduxWaUcAzi9PUyWQjgNlUWpwzW0Ugg/yxzZbVeDd5JVVHNFyimtOQjNGJounnqFBx3QVk44ZOFlk+LkXvmLN6uOshhk+UmP+FCCQsluu1QzZoBNWoYixDEARdtQba5aFr8iXWtZrAn98913z+KRtVBhqBLBAfb6Hnvsk6579Hnba4Y/ol2aK1d9Iu8cVdrOqnbhwkWI+yr7hFYv2ijhPA9Vyo2aLJyJegsHfF4UdFnEck753uQ+RbmOnqsUN4tzkv7WLTOdcx+/8Ru/ZeFkgqAuGXWaaTsJ7NU+pvmt4fWplOZ1uvHHV6/SHlvnhVG3o4rhu5X8KVIaxj0K7xOEPVz/SbKCsKt3eZJoAC3O4+mcLRKnIW9GBFzpSiG7MKKbBN0ocALzyuWrfnV+9OWj83u+uUiaO6Sb72eG18GicGbT6TdoZgHT2+bOqcuVhe2I27F53CV1T7V6WvuGE4C6kAJZppXKoXSmMnGWn60xIAzpDsVjcHuJCSeOTcWLV9uDR3I0D50UtUoNlhs3c0WFIXnc1SjfqNVYHSqxeinqVgZilxb8LcIMAYoKzTK2PEOBE6GH37I1V/76VwaVV1SoOH5I/ZTKqkwrX7aark5pi3AC5orwmWKloEaxFYxVrtauxmALmGLm7WkJS6WowlP/aUDEBmkK4RVb+KU010rZFk8dpiRqt02JkwieAh/qj2zVUoK/bDiXoTqmtymtzuopJwqkuJQ2XmFQCzglDNFg5m3d3QkQAXgAnurHWf3NtqhqS4mNAVl/MZdHuimYChZXWs0MoXCJdZwAHUXaLDrfzPuILUUx5XMbQhxn4ywLVszRQVVBFDEKUABVZLnKIKR0WUjp+Isg6gbNEqTf8576pohvPgXgo1w/8zM/46bK/FBvR4+fyV67fOUi/nPvvoeZQo8ZvvnNP7J14+0PSnVIqjDTDxHkmzP7cxg/c9KFxO8fGlr3u9gTEAptWGaBvZq37volqRtB85TrcUXckK7Q3aVhQ8AA4lsjauXKvGllin6RVVpbERh8I/nD/YnmjwjLbXIb36ay91RT9+4u+hPYvVtJHbgnfUPcjhFuAEZ1jhTtBqoRmOFTtqbVEJHpmfobOuKNOdTjdsrSNT+F2lxzw3Xg0b0Z+5qYSPub5UonBPpeESNLJwdVSxAnkNVR3YbhBC2tHimpstU9lELtKuJtVdEMkV3jDmfZFJnH1IjDHYkVodz8DM8rbnHXEiQxGL36cVXIFq/2buXjrFU8GGovkg3xEOFMGpN4ABOrkuiyDSJXQOtT8aWkajETF8rlXucRxOpZ/DEzUNP4wZa2mQFVscQlBaGQn+gqBZfWJR5mPpr5XYpTlkKlzS4liJyRtZnTmlatlFptIIUDbOUkgmi5gKA3VUQc3gaD4wFlkDWt4EGpA22UlVVEFqDAlfILvvRAtALZtmmZd1NStbVLhKtC22tPqVAQKShiqyBQDDFHFp0n9QGOeSnhBn48kDLULiInpeiYgVIUslQBOM7y1ASeIlUIL4JHEZw/9bNtTSHKuJZLEEU1R3nsjUh7Hf5O7ojqhMEvXdxJOQqoyHWf9/A6/Udh9bg2xXn+/GVXu3/4td/3OSk3UjgfzEcPch/so2tWXObUsjWCcV+RxY/ngIamkMKQk2C+J76IECK72YUzl5Kx1Us0H5hwrsw+EicbWDFOeKfv3UfNVj9HclPV/jZLF0EyY56fYrLH+eXJhyP38//DpZQS3I3PH8v/n5vBiGhMeTnt+OHxKc/wbpLVIo1tO7NpwS+m2v1yuvtQZtet1OYhYtp03+1dGSMXODJoaENok1rtnAwkaGiIDKR0qazOg06PrCIUiCyi51xKgepsSueDGShjN7Llb8tKS6keWQiK6pQuLUIbD+vPZjOwVqkjBiA6LiJYxAqrUoOCgQHMeErEuQuKiHjMIIVjXn6TRen0h8gbSmRp5hbOOkdbTWBGkRLEI1UU52bGkQU1UX4WIcVxymIoAicFx1/KUsgNlDZz3ZC9eiPLlSwpnACiUU3H1cAKirQ6TQHmOAFhsTyyNC8HSIGKkDp4+I7pvi5JNVvtUoWZSCs10klqEWcd4DYGWcwEW2VEH8OJFV8gU+N8bUmJ74jgOgBPfWz9vP/BjfdvZb48mGPrS3N9brZX4thl6xIr8AK7gFdSFCnZ2Lhrtor56Q9t4opjozMqprEwQGhDZ1H0umzwjVoiKPyJ9m1ToldtGdB3HaOtvPqRWzUPoSinhFE/jnJvQ0p0cM0Pqlh3FekuU4fUdXU5ddlnFnANanHaf+CDFz7zuU88+zF9W3PbTGtD1weGhMEd1e8POICnFXyI5+iRbC9zW6k9Ft5OH9tcNySY02prMzCx2IHVDVrlppSIzw7XH4vqG5tHSi5h9TEuSX2f5dFHHxFkCkdzglwT99OIc3j0JLE1Zo3NXNdaudIN2oKoOoOsf/+JNwNjYjrecph7PIkz9wKl9yKn192T/lGJ99OjAXaL6iTlWj/pjle7bLtFFdE6+s90APci+cpzPvi378DFSxfcgehyRHQq9MtXL2Fuy0J0JKBIcwMfiOpAoBbxwcObQzcOWXAAccO2sbU5jpvuOsAH+zEUku7wrNsKdYQM9BnsrANFHEjRzkIDb7ap7XHaqMWpO9UH2ap1d3UElSVb6xQpAFj5o86KZLHq1qnMTOj1FaW6pNgaICZHNtMhOsBW/1AAvMB7ekpZ9VREjxR9lU5NN7WlUFGiPOGbaUKUVW/zrvQJSoYcHVrfpgfOuXT2iP7BCxcuERXZ8aErqCXdM6psIl25cok4fpW4fPmiuoTNMSqz281Un3XrHjFfjqZiDY95zJyK57nYHIswBcg2XCLgOQGfx7cajQOy4uYxAYuyKk4/keL6mSyjQFFnZ6WkpnNEHJBtf3K1jnMqnt5AiayUiUxRTMwXA/Qe65OfmvqMhLM+1gGsLoPydD2XxQZrzvTXkzrDf4acLGCrHZ3acM7AhitlpQ3dLAd6maIIGyJKcXWpEvzTfDkjTjO8znO7nJtaHDjkk1RXbubnAVWFWX00AKO6XWvtfJN/2Sc/tH+WhJyAtx6xojoYR1btnbzPSQdKVELHv3blkjgdyCfTDI/3/fxX3dD1oQvved/uVUPbSfSnn7Th93HfyHDsex5Cqce1i+fP0X/i6BG+nb902SaM2yng4QFcxBxuF6RxPN2DKt1yxk0PenA3A0RNp+7uefy3iS0ngaLCijnOFrW0WTyLudFuFt5slSDOAuxXM1km1QHo/1/72h9+/OMfszy7ttZXvfjdjeO0G2fiXmAasSg9Ah08taPAKTibgEZd5orUaphrup4k9PeCW/Mz/3uV5JryHsAj1J3IhIe5me4br92o5RPv94KGOSVVtXV489zuXiL3prV1d+Jftt2w7xHcUyQLRBFbY7XLPx1jM79vGcJJRHtJ9Vtjy3sszAOGku9Tp0Hy2D1H+DSfi1TXY9PhMyfkV8D52J+J0FqVXzQa5gSr01zqH8Fjx07UNBMQcn7MRcnVa7l812m5SpSUKzaD1xrJTOaSnN0gEp9xuqoxNI1MX3iXpQ2Q1WccMkRxN0etQcptnL6JlTGbgROgxPTse4J44IcYIy8DRvvmCbPKK65qKY9lhYAKWTgovbKtwJjI6qUUzgOBKP9u5VHKWQ1lRsHDhGxc73DZ2qr+0jGUB9FIbxRqDoMiakuEcw8RQMaZWVdm94k4iwBb/dmT0qM5qxCOH+CRamP0BfR3TiylausDXGnrpVSWhsVGqg5wD1HK0HJDKVlZqpTKYpAtsUoQ+bP0EweKqsShNPpRIrINSymI/MgC3FD3tuyWz7jl9CoN+hBgWmV1x5prBODo9LC7nKzdstWf+oCiaJXyBKUpBE91opQnrk6IZJkAEJSKFDdC2K2tFlWcgJWS/3RawrvM68waWZwq4vbITcyNm9duzb0EQaNASgRDe2zHvydMzz33nI0yCp2esAHomqZV5pW+QaTD9Q/+4A++9rWveVcsx8Zc9gxxHsoPJ29fRmh/d55kG0+et46CWetqpHTVCwNoVtq6r2wpu9lFaYdZWchGj2uT0ceyxu1JRaZ/8id/8p/8k3/ivlNbd0G9fVB9j4E92fltibWq5HooXVwbn3coq2iQ25y79F0Nu/Tby+cu9b8cfn8/b7faHd7ttOYd9PtnNNzdVjY9WcHmGIVRnB5nsWlP1ot0Wt1Alm78soi6N9BFNbTU5a5/9o/owYDYnlP9BGtdEe3Sa9fzNnBEbGM8zUehgYahdClgCwM2qgwKODYaKgWpn4YPHvz00HDV488BRBqqhEiJefG7QQVoXBx1rqwU1VKCMW8uL12WH40FXYjSWi1SQWzElZazxLsp1VDNSgHOJcuxZQgdyAJImWu9uLR66Kxa4kXUi9aWcn40JawriHS2tMpJFUFscMoJbwOgg5jZgeUG/SWjQOoYZNkd2c1cvFsXVtjFL+UntnaR+owI6Gm9RIksnpqr9eUVVbUoBUpbkTLXqLQKMVir2hlowMkuo7qUfoIN4GlakXg/OqsWXgZKaACYcUoVyUrh9Xkxy+Ipw+Kvt1og76qrnjb7jdRdvTxdgdgDAfNqIgpSOxpMxNyWtSpUoW88MaHUgLRWYWBUNp+jn3f6UUJnhvJs5GLwROpnf/Zn7QGqvuoAiGXMRp8NQEfA8aC4kYL3Y5IUehMgr3QPCq1n/YALnDOr1thk+VNKPeQGE22v8tOzooG/2V1EqSyAKAXwIqnaDiyGaQrMaQvm3EsBN4K+JIIHMpwKxTYO7+i4A12G7qCOw8uf8lB4P+aR3Xi+Rw9Nd1H+90z40BBtKr4byT3t275EickAN0QLlocUMJCB0S3Vx0CXK5t+aewBPV8pWdooqeBSBUEkiE1RGXAChhDpQJfKYi6wYpjUJXSAR7/CVltlQ6RHukts0VjYXL9mudJfjS59l4papZRGKTNGkVSRFBthWuBUF2obHbEGdhHiZCtSh1pKdomgVG3F2SXS0l2eKqm2pZPDxGmTCmVdqkI430pZ9ApShVnKFg3SmsaGgTjBmp7Nk0iXYaVlW6YhLaoU/qUhwvd6gSEiJdmOm8DWVUpWjXiIQbtgaFsQKVutoGNYIFuoJ7G65S/eUjjx1azE8cuW4uufLAJu6Gotle1tSpsGfxVyxoew8dBcoxBFcAi6KkAaCrKg/uOpCB44oiwofRfn6iKWk5/4uyowRGf5m049cjWH2SaH3o9S59WCYHzbnye66NzzOzk+0Pb44497LmVxAuPpQbdWRof7D5yUO9T3rW9966233nCCzm97ewadrFKapWxZHekvjsiKLB5Ag7rIAvrbgnB0rhLZDUI5WyPpCIUTNBookIqXfjdezpYuQcRxpyozMXHS7qWF2QfGvPl2YiUwPkiRkbtHydJ2P+Seju1xdVf2fvr10V222/hE7Hb2v1bsfvUy2P4ELq8ALmR1+2VIU+pCBrei9rd2eF2LRQuViyepcT0dYHPvZYxvusJ0VNoAPZSUDtEZ1iRpvOjnGEArQhueDrRaVFQiQTiFVKVLzZTLT0CkiBQDfhp46FkaZprjx3bWhWBDPGTDhEaKcJNB7dJFUhZfJaW0sOFyEjMEBUDixaFsKuIH2CoFAYrwoGOu68OVrZJRELewFZdyoEpIKSogLjqeUZxEKeY11GuIZqC0UniqdiEtlcUPIKqMH73K62Fxyxk6HkQpnVIUk1qRUjCXv4hUKVhZ+ouXLi2lyilpabPF27HUTqm03mIgCEeESzWcIHdmJKiUckUt1TwlNqpKidQxDHUDcYHra5y6Ncqa0ztrVwqdwoVTUlmUBfUfnapd5nqCrUhVlWExL56WCsIq2tXGN3oUtQVbF7hHU1ILvZGjLiD3ZwNRuP99v4JyfSYItvh858LPqL0B0oOpT3/60xBqdQYAN3HL4rQ4feMb3/DCUNrOn3+3tyN4lmNFWAT4AYqUV373tirLC0RZHjbVdogaF3S4QspWJfRgrjYiC/AUV7RLXNnFUGSlYgjcX9JfE3xWQVXzmqhXXnn10sXL+x9Ib6eW6aVnWflhkEotZ4js4rsa+LCb/d89fr943i8+KyAEd3l0rRahtyidLZDx7o/AalndyeRgMteUKZt5Hl6QxUytoipvl4AroraqMMt2xbJFXOXlgQP6jRQ8Fj8WrQVMk+0MhoFa2jpId9VWJxGjibghcOnCRfyUE2EXZfFQeMjY2zVMF258iHApHEJjcUpb1HpK6wQ2ggBzQRHAzHDxpnW9RVIieBaD0sKi0MYEqEiVEwGrqKWyiBXvRCA7Tm1MwMWlbCslK7iKCOInqI5Ky4Beu1UFL91cBiHSrOo3ArThrIgU1IEGUBZ/RYpfuXwZA1l2S6GBWkQi6LTJtjmrSooT4KRKiq0UzGAsxLc4M+EtvYLVzxwGJjCjwynRMz44tIn2ElGkL+qItSVbEVEi4ll7OZfReiKLMw5s/YEDpSgrhVSwNa1sS9GX5gq2lLeKNFkZWEGXVq16KcIvqzqQFhWxXGFwL9UHUU7EfeHzP65qOBezLDDkLNJs+Y3UV7/61d/5nd9xYWcNO3fu3drFD6mrbNGPmSC6vmFYKXKzZTOwDuARMURSKouIH1JKs2SxwWnDBsoj7fjHXH4pTgxD2CQoxapkt2jRTTtweylM0KkD6FreAuWW0XL1G7/xmz090Y5B/9K5R9se07ulS6TIhyjZldqD67d7KM1+iN178v+XIq4g7HHgT+b/rrZqaFSlhRVqHUf/AexqRKlO5dq6FMy6nF5qFOiN+pWLYTztZpRACqTQy4/Z9avOjHj5St4d2t5OFeaySY0OD3dRdCcb5noXho997GPGgq0I3awDEyc6DdwwxDJGbtxwgNYk03WOBnY5jw0zPznfCm7uk+RxY0LFZLWkor7ibp9WxF3aMXc41VE4CtutJyl0FCkRSClw0CIUaqWlVE/Z6iKdLWq2nJHfKuRScaGGtEq1xQ3ZsG5hVz/N9bPM9XN5TqLM6NuirAqIiqjlT50R2XKiE4cX4DWLDSCikKrC6iyDItmySSsIUVrBBhadXfUFtU6wGpqlRFeAl960WbJYUSisaQi1YOlcpYrwHzl8xIW2CReDbiDVEwAcJ4b6xgE40PZ1Br1FZWvVpEpRAKPNlh+lInVsWJJUyUrtqGEAKMwtKTu4iCM1xbPcipwLQcOjDs9JPHK67QMXLp73ZbETJx7yeqQf+7Ef8Vp0g1A1HziQPU+dX60pUl8pnJgZ3NEJa9WLL74owiKg0bWPVp00yNQlcXA8RSmPzBfW/SNHMkzi7bxaqc7Xf/TGBLIq1Xq1aLEpLWcR6dQ3Rsvf7Ep3+ctQzqZlg9cuBL9OpV3UDtgMFKhTD59UBUS4MLYjLRML2dW5iEWWG83W0B6elf0QPYvnv2bkfv6vxvohnb8f/67+3cCiFxBLl9VztN1cimRZmpnDHY/nVfnyp76tq+uZ1h5ZzARJ4FQEUHahnpdCueyuRVlFKLqQ4UPJOBK7RoplojNkeaqkPNWjgxl9OphHv3BKqhAPQKFNikF3Vco9DJs7R1ZRFYOpQy7ta2P5hKcydYswvYhEMAPZFqF04JWnwwOOGSweSClSPGUzSNDh+Gu6IlUlbam0OIRXraGoEZTVKvyJxu16UFxKG2ZW4HiYaC3QW3fZZQWilZkoYCiguzxHrNoitEFopmr5hgIH6GTLgwEoApqWEohSxPrDB5ReQLR2ZZDSMNKpRZujagmyQpUUgxQFaAlSNQEBNBDRV+jHtpToGYp8chqxFx/tKxhUVudb7lFSH6qNFSIrFIrQSyxSSnmqRLpEIACntPQhhCJL7YqbKlNbnsazRssAJ6heBEWV2xcuvOeWyKWlu6gf/bHPudADxipnldJmUF2/ksexaue4BOXoLgytUp5UAbtkFGIQClbKUEP1ZDlMA4WgztCDQTy9URk/wAkwtHYYUjp0nOjDlYT/YAWBQnjFF7HIbrYiUpylF6mgNEqnm0kxCCC7lLMo+93vflfqwIj40IF++IHNNWu17UmXlT30+2Vr9O7S++nR6nczh7Kt3b1L/6uh3q9e9/P/fvFphZTuUbiHfzHYUXPl4Wkqfk0MdC24rW+pXmdodHQQ0QM1d+nYyikLFBXRPUwU+r8eTtxeIJdkyy+th4waLB6CtueTRZfaQlekO/FEEUDX8drr0KnCtpZPZ+5lMQDIcqn88Z7f7bVchAMapQQgjEkNbBQybuuqheEyKAX1o0rZYB4buvlCtqWsVAk6uzVHiVI8ssRlVQCCgpkIZqpA6RBF2JTCSQE8slJF0kXE1t1OwWpFsNFTWeKQ4lVCtlVQRBaulKwUQ71iAsJnFPTyV3AxMKF1lc7kmBiqCIXYECmHgGiYz5/XXFsU0RSJGXGuhnJamkL8KKw3jJiLy4Iy4KG/JqrzxMmTiuoAthKltcVheLPYwANHNpsAcNpUs5z8aZdCbzUVEfRkVG8GmHEC1jGUGbG+oaA3AlKArqZSeoBAaSlBo1OtUfgsDmoJJ4uZNoBBxXFSwi6cUXQm8M+vgK/ZZLAYWWX9TOpHfvSzxqpzE2N2HytUUcI0ilWKVI+qe0Bl1nYvhcfY00UbYcp7AcToiROniOtEUyPOpE2Bgyl0IuqbcJoFSv/twj8iufCsQlk+cwCoGvHyy4qbUkCbiksxoEPIwnmrVFFLWzQubNbFhhp/gQgoQyJwMMF0bnnIeWrrh2IGtYP4aqcVKDciuUcPEyRwwmmgsHoWpdndFD+2Kq9I3dijQREeqZ81VqSUEmNoSmuxxC0l8939YMO5dZW4qx1+l7+eLFnZ8O+UKtpEajH9cYhufV+W0by3CvfjX3RS42icASK/zZZSc+I5vWnz1Cac00xulcXTlCrBqR1N3TMcNmfKsGl0acXLptHbkZhCkRpZZPVeHRInc/oz4tFjxzFXHKX802cyGLGRAuh4OIAClueUo+PHQ207GGYMUuD3JXo4HoMX8wyi/BoVA0jf5Sh5SusoanGsEO6iwKW1ASkQrE8MY8NcUAphW2nnaxQ4ChNVIlvXIZRXFcpWR8TLUFvYilSVVCnYtuYmOtiqQRGvKCmgbyGtiKfaEFc7lbL4m1VKVWWXIPG2jVJEIniaNlCIta49ihDBUJ0onWtIeZ0EIj0AT1NKzJWyOpZSiAaC4Ael4ORV1dImqsvJstUcP6uTFAqoBtnFXyINioZl03vqDx9YR68bsqVTi+jHx1KyiKVTwp+KVAp92arzwxtis5jtd+tC+qgiJnRZRdRaiCsuaPW8UkLESvW0/+jTguarp94q65ODbqQweEx1+tGHuWFGZsW9MjbZJYL+67/+69YnN1Vf//rXOeBWzDVWByofSLHCeuNTi/WBngK2Ph7ATLPSsknzC+xtzOs/Iop2wQbIFtpPNhp3BrBSRClmspA2E6TZUpRWtlaqbUnVqGyhqkw74qzTCYJFSxFPJ85zyby9LtyVZYIsKEIEPoKbPrMokAX1v+kusbKLUqRsrcWihHNM71GyK7u8usPcdtDhxFCeJSW78CIisIfS7N2cG7Yd/XcIbjXvFbwf/x3CezN7lWyvy41BrDsx4fxmTtCOFir9Wc/s0DAccFIltqA9xKBrD1ekh5eIh0g1t/XxG1woflZCDwbQ68v6Sg9nqgqCH71WpOWvt8XZqtv0o5QZpSI12qxSxMpuliuZuqsAa7MdUSpAl0GoiMccIo8HUjYMKgCvYG03rT1pq1QivBqaJVWonsWDjWBlpegcAEsKXt+UwstDVT0pRQp2LVYhNkgBXuV1Ej968QpKy1kiZiKdleCrqIh0bG78JFKXVl+p6VqJeL7mFeC2tCakwgtQumIpbWXbV5ZaDI3bzOy4NpfhiIrYqjiviFR/PSy+iPU5UtvfbSjCSQM34NU/TsWrFqF7lc+qL+sYcLY/VENNw5uV0gnqQOMwheljxKuto0i2fQ0DnVqSCVyjRLjozv+KnCH3Hj8Pe53xs974XG82+m5kzTMXG1ekOcauCdrdJoozFK+++tofff2PvBxdET3GtlGKX9BQ6pWUqwQ5BudAq49fuKQApZeEHG4TtF6NQytbtqpC6YAqGyLNmPE0AjSjtLSmq2SxlQGRq9hANVdKtgyyeACkVuZvzNUf4l6IiIFdIi6u0EciXzOqFMHKrirIYh7ypscqKpCFVL90IXuI6MQjMo5sBxxt+TfMTUdFmMtvcKYV7oZ6uOg1JysUi7jLg6EOlFj+IS72HwrZ1b8r0JjvUoJv67mXrqQzm3oOz8ZVIdrxf1cKQ2G0cjzV0U/zepe8o8YvZI6c8PWrkw8ZCLrWA/kt8KZxMec9NwfT5xFXl4a323OeSLuBlF5FQGWNcEUQxBme82R47sMwtDdC4tDOTBjXppPTRrbiJVa/WpTutycVlLa+2PAU37z9oloWtay1qjLVJUuyWZwQgBOdpblMS0+tFIb6h0dph2INqySFOGuu4hWEI+LHsOhlJltKTVc/IoMYBsk6UVxaPegcKBEOwaMIsjzfVYhYVRjKg1KQbZG0GhZDWLeAGVpbW1psiYBsnalFWUg567lUHSuFvoC4IoBSvIJlwN9SypdjimSFmgE6l1e7DNWmqEAPpB7WB9kaxYlCFtRWuyzijcu5y8FZK3UJG0S66FUuC+EVKxioapsiQnShdndXRdthY7lKMJXisVuFgZKuLr3BtTK98MILvvztV1MEcSrlEikvj2bCysTi0aPH7fvB3ca9/PIPbPr1ja6X3ruMHwNtBjbHWLHyOaq0/G8FG8/Osa0+5bxqXUhxjFHQSrXUBzXwKCrAm8VTkG248APapMMVKYgsRFrlTNe6LOYue+WsCZw0KyUrrfLKRpv34WisA2XYLGNKXYMPT6ozjeNTAYmeTPXUBPzuLEpNN6Vnl3mVFpHehv3eVxneu/nLs4euQrdl78RwAqYXWRYuFtLSd9Nh3zvYw7nk/+OQPc5U2T2Jd9jhsyqM50F2qrNbNSLafsM2tdu6rXm9ki6//+vxV4grMP2BSKusTQuyiG3fFjEBlOIvfXFi0JGGGN4qlGKg38VlU+OoqloppbJ0VlZa2aVftpwrpQFeuwThUnZrMXdFSMTowqoMjtsYNvhlTRCKZKUuPA0VDOVZ6hQVp5TfxKmiGZsiRFDD1S/FgwGSwTdTOZwUOs4FiMXpUUThrioanMvHA8GgFLMsgEvrGAQdZZRvRr7sAvSKLLstQixU7W4p+hIvXRbSiiutwyiUAx7CESEVlI3bedtZWh3sGoULi7SlBPGD1ggdvywNtWXaKiiqbzg5s+mkd3ULpbVYPUQKjEJqhX7aQAxPYDEXFlHHKIUgBBuXFox0XK1CdalXOhVOIq0d3FoF1+XIWjmAUsqNBD916mJAFlEHk6J4LPVjP/ZjPn7hpopCbtPjAz3WpLfP5IgEu3rsd7/7bTdSssC7LSxXvLKbzxBOuChRCOiPhgcecDJQKgsogSvFz0NPnYkgwiEY2uI2vRGJo/BEEf4iOIu0VBaiXkuD0ljaCtJTVdgUFTBTiKKoGmRZ4diwJ8J1TApaih+U0jRvVtTTDsRzmhFpAxAUoxbRXRaK5QpRp0JZSiCyOKN3AM8WvU3ZJS5xxbv0cMsH9tKRSKXghwaVWoYWQpqz1VFi013KsqCodhdlF7mfM7sK9/BXWxngAMP9+BVhSOmdtRbrqEWfVkhpGcpZHI92zGjypOrEsaPHjQhbBUaTbrZ6Wrr4jG6GhKvOsKit0WNlem+z6GVLbxkrGh149tnsKkU0+qoZM6gedEq6iLTrVoR+oF+VGRFbmaVTv02vrh6lIFOZGcPgr4A8FQRQgUqyJIs+WhJrDOj44cYwe+XHU6IUUYq+hhPmKikzBu6u6UApfg7hx0C/FMgiQqQYaMAJqp+GFslWUBE2aYS37ypclApiVrSHs1YohICK4IFLKS9/BbHJAtl60iypgnoRXM6LGFxRxWNg1DatHjor2yx+la1ydMQyo1OCUuUYQNRNWy56+VuqD9lfqxQGRKVSOBMES4HgiSJ71g9sXh4Px4wTVGdxIorqA0rbURbe4FDVjtQmK73mWoRZttpKL0/Mj0uykGHLT4L0QV2xl0HORDiDLv3c5z6X2s3DXqsLPbIccJzPFzE8hfIsigiGN9983a0Sty2BvTCwbjk+y4QrUP1MmxME6FI9sP5zoPpVH736tWfDQhyy4hb5aUdSioBaMPq+H14NJ+byE4HQ1mrChz1NACcCIKD0ilNeilIUVvDT0OmgPHQWwVn+jQ/TuIiyHpVGvzc3B9A2o6Zutwp2Q3B6szBYClEAfhRI6cvV0lu0dEL2QDXcJkYl2Piw6KWm4C7AexcthDJLl8Nla1The+iLUvqytZCKr3S3pou4lOxSireZFp3awqJ8CIKzpXzTLbief4UGSzWnd9WK2d0wdMHkzPrp048dP3ZCx9YxalGRjkFax9a+0TktmNade4l2bAylyxJpdnjT3ABdajktkSqUOkCPwaULYWjHMx4RZdd8XuX4Eatc2mw7c0WOHz2GCMoDKb+xiRLP6CWQzACkHJ1Kah4RKK+vzY7azYUzEUoKSsnCyULKvGrerJQIQDcpSFHq5eLnGFCETRGcthpdFKXDldCAXVnWS5FiK1RD6QTLT+eu7FIyImlFgHlpo7lZFFAHSMEbz1akdKmi5Uxt4azaprXYNBqnvooaz4rQI9tU0eIppfqldQMDKdBuLosuSwrSrLS+LURpLUoRR8Fm6sSJgkGqtGFUWe8wcm0lW0EMcA26ukqVE68G3RpPNUsXXbeuBvxqASC8tjL5+aDh51dBdvz8asqjqeonwoEqYZQbNNsb7Dc7nB0gz5zf7Fq3IOWsA5T4aD3rjNonlBoPsvSQ4jwH8EMQmZMyJxslt/bdnPcWtr283dUdslcWmRM4QBUN2EKfaEtRFpSIoRRK2KogK5BCm6kUnBAURRWEcAaQbcBRGjScfMBWPdXQNBpm2Jn/hqHXXnFEdiAUNaBh5skU1a50AWKVN0UP3xYWcQ+/rKJFDLLRspeOzJnFTzGKNCJ5NnMPqObyFN8wdQDcObcoWgp3RUL80OXwHobvQ+I/zW21mkOhH9xHYjMq9/BQUlhKppmiXHPr//qA1Fo1+35HfT3gyIN531I7A6npJpm3IfUKESLlnvGLs76hgPLgVypFqa16DocQqdpawQlW1RYPVej6EqCHCP6lJ8ZWF9iGpaX4CdJDAxEAx5zjwkajHp/MVp0ymy31oN5joAgD5kpWC2J9akpJbcgqEkd6cFZzSyveeQFetyB48FchThqksuVXtOrQUnQwPyOduO8EHb01qhuUsAIIWvVNK1xClAWtCOWjb9M8xaWappxS2gB+dPxwRDjNFZcVTzoVtTpjIVk8ZcZZYpXMx1c3Q6om6g9xnGpRfhoKZGuRQhQipUAWjgGgY+gy0Loj4oE3iwGC2Gy1mc1LrLkS8bS9ZGtOyk/KdXc4JwGe6pcqrT/SQTZdn3JFagcIehkQQcTL164bct5qdvnaVQfzGHLA7/Tpx70nyWc7vCHJAqMv1S6FpHRFQE9tlfK//ca/8eMPpyds9OkzqmMxNZJVvaaZ4Kdej99ZQp8OobO1o4ddbLJrLYRbycow8dPit7ccGh+ClMAbTJrhKI4r+CRjb2WoVYpY4Hmz6kIcToSgUpSqKq4IZdfD0lXcrEStrBQPwIxTtg4sDZDq2dJjYvr2pvcSUXuezCq1OQbc8VvNw5/OhhNwFR0RLCIT8IJSyN2URYeotASX4FE8KbWCyX/doxRVE5/QpwoxdzdUbem7Rts06GVYbGM93pZ5ld7ycaA/DVgKq0y20HDdbYEby5NdnvaNpUQRilR8tI7rsC5UerjOgJIfUXg0OV2R1HBmltBeWg3CSoRn1IzJ9B+gCF3axi2zbM1hwIx48FAuEBEB4nZcZPYuT1VVG2KlIjhuS2tCUQGlCNfjT0ZJZtcOEMR6Zfc+mv+f/8P/K5POXKMZ20jqD4x2ArzBDdABxNip4WjeWQBxUo3Sq1casLFq+hbTmqijKMa/FLHjjSx+WbKu15USJKUUYpJCYY5+PFUiO37lQTpZFW71IDykvDVSQVLweivmc9wpbQMo5zARajFwo0rwI2JQZWltVQmRZhVBEpQBOFWAOW5j5gNi+xA6P6XEq4Ha+i9FUVSjlNUNLiHKlq1ulI1aPEARc4po4LC05thiXSnxIq0OHDAktqB2saHgVHfQvi7LFkMtZQKglAjHIMXATzrRKbF00UmJ1NuIom2GDUQjXLlyLQ06oyMrjJnxhl8lp8txpk1M57ETxx9/6kl3UU89/fSJk8c++YlnqRzL6VrY6Bz3IyIIRNTX+vRHf/RHvtv78ksvtcX5wDHptG96xaVLF/ArbawUUXXtRn7qxAfMqqMIzuFWTVo6qfLUE0bj/9x4oZPiAyKQJQWUSlkBEDwAQqGKIK7YIgKyKMSrgavcoGS05iNefOAqHsTqVEQbTyCIiuqnUibQqaKHcrgUPuo3HqJYSskiVidBd4r8RIQDFrFB6kl1VtViq04M9GOAYKCBP3WMODpoBTEAUrL8P+DV+p6T2QjwFZL5bpY0P5fy2ax9Piw6ZxSb1tJ26NXKst6KNLus41nmEAt4IIo4JpXlSaFNXwaUitf/MiiiEL3Z+L9ttaW8pYuz2pRCfEhM3JZIEfz1BwNKOYs/cCgPa3Q3/5dNiwDLknnPgGoWIrxE2tyU6AkNeLsNZkW8VRelfAAYzp97D2JAwTEA/LThATVKpM7guXEru+74pUoViVh1cg8DcXSG2ntl0Ym3SCorgHgQV1E0z++63Oy1vRThWW44CoR/c2VaXbzEispp3qR4e+laFShtWYqADEcLNMgiMgAHEFLcRec9XCm6LCLNUsBLQAk6EabrgyyE04jY8ENoKBG9oK97X6dhiI6BfjWoG8O86ZHViXIzl2mbFXcYstXDlgZghYalv2yscIn/qdLEejmGAWwd2UxPpgka0KUUQvDjCesWSqkhaSuoEJtsKa1sBeFEAB7OIAoXNhRpBUsvpaUNGuYCJe1keOCIdYcG/CgijMETC/TqkS5Qr/LjBMRJAaNFtkWy3CBCFQYI5Shqhg1+/ea1U6cevnLNMpVfLh+YG1rCxNTcXt8Ln/3sMx//mPuqY6dOup46dOTQu2+9RT9VVUiPVqDf8yqLk9/M+z2v3T9HKlA0pcvM8hPBKZ2sddTqrgtxyWoUz/nDQSsA5wcPP81wtoyF4vwP9/Dz2bBvZ6YWA1kMRMjiafVrt9WvIAYAry2yeECz3FaK2KyUrHQ83yBiogksWuiCoKXwVGH5+UyhRkdfLsHBYlNKCQpmUuPA5rLs+q3rrBq0LW206wPfisTjGQIU1lvMtS4F9UERRIq5RBoaGfygyotET3Tk65qh5HLSuqXumyBwytl1/s7nRdO1lgZ6IjjAhCyQW0TZOs+Tsq20PHUVEVIov9LKIq5aVLYm4BDQ0mWx9HIitoeUWA81AZ0osqXL4mzDQXbNJev2P90yvZQ5qRsqnVMfoNwhwAfMo4cOu8rcP9/ToQebojWhVaf4azUWW80aldWfMZRYncWJ8xDQhiKFR8OBLFEdAgSHJTwQfrJOCYalUxFvM7HMjYd7DzyydLJer6pZirne8h/UrtGBzY4L/pDwISlmTxbOG1Zbt4YPDyiF0urdNQnnUOlM4pRlZlWpOF9xYqMfojS6tiBr86a1lTYoBJWbhjhQExWUgus3Ej4FeFRBqruyvqBuy1I+FUzHhYNdhC3aSqew4igUygJFDQV8rGR2K39CM7EmpV6II5EhTS0QUsRKQWq3JtRuxaQNg07zsrIEidcKCljeVo9SUqClQtE+TT8HCCpiCNAs626gHUK2TaMPtQ/UCv00w1e2mulpWJr1iAhy6IHZGJzp3lUdVY48CIUf7fbmmDmC6E6Tm5H2z4s1KTp29MjR+Xj2z//8z3vs9OTTT+nvptRL16+efedtv6E+NcOJk/RYk6xMDl/ou96TJAV1ng+85RinOYy/wWztREApHj7gF6s6r3RVs8RWDY6NCKRqCYJSFIGlhDn6BRaRwmWozBTWVr2Co1BFvKaXHllASfml2FCqsBZZQWwfQwEoNFBezfjhVV7ZPRTjiBQ/lwN1jNoOn2qTsouiFDTLRCtVSolwxOVneaRFFAE4/VJspJquInTEXX5FVbh4MBRKWfSF4G+lFgU/32qUdfRSFgOkVvCUTbrCq/8Qx9AiysM0UE+KC1EVNlUEUbSQmqgnijglbbR3telCONu+SyeGQwezLNmHqh7pWq7osUoRqZQssMPBFhFE/QSF51q8ESBOpxQowmm5wgAvkdv1ShYdAwpZRDiKLa8yEAFLmyIijNb5RTcLYeMAPfxRSo+rri6T2KqkYTc/XJtX6NYZaf0pj5R4XkAgWIDMrpdllYK6TkAdZf3BXKhnyzAN6OHbXlLJIjKEB1AFEHWImsOMXitwRFBOPOiyHWMEm42iqSorRAS55nBSUOtVW+uYFcHtN1CCGVTbaMqBXQygDqwUDwbOt09wgyAfan03rTlsRfDgrP+kdjlrBVtBUZnxo8iW0lJFEGlBUWski07V8gcFXuWLp6Ub4fmDAjR3VSUm075cjcUPNjdw9ABFIc4yTEo0VqCIq2zf5uD6lx5satre5FETE5hJUQLH/P7NLAOG4PFjxx999JFPf/L555579rHTj+vGqmJQZKG6ctHWkPPoUXgjO2CIFsVvf/vbtvv8WMq6xXTbjocYZBnCRrktfBYhGBag0Ga04Ock/s74pHAqQgETnk3fVtS6SxVVUDdgpWx0AtpkIWWLz9vODCFVitI6g4gC6EGRBapQRDqObBLitYWO32AGyvgMIMa8Ino4UBmIomomq3T5gKE4BF0pNyD4STUgNVeFilpawWabogjFco8UvEUlwqtKWvpuHRePIj6Uh05Q5lKWbJVzEuwpWiLV2VI60THTBlEE4CgtklXHpb9GpSgiLKoYTKkdIzRgruAyt2RRllEacKIAUS1dShvxavDoRymKdNduN5PxaIh26ZZ69onZDQkipHh5Up0DeZBBipWqPfxgLpvgoDVqf8gh2G30dkspJFvxhWDQ38pf5s7eFLqdq2NlXmlr10BhkJWS5Z4w8qFEtcBTYLo8lBRBYZQUigG4iK2v7GbTphxYkVhqX4SD5RCeMZB+sAxgBjVT80QgGKpNluCCFrW0vYE4c1L8KJQpxUYEUkEMmlO2FKUgzg2QNYU3BDRoWvwNELaUjir6Zb2XDoKyNNBJVhwh9CkiojTGtgO+zI07BsytXRkqhQ5Zdy0VwUAbfzrJlnOlSl191PO6V28xEK9CKTaACNRLEYWLCKkzijArpVBqvKHASVXtMoTiKrvVjNIxJ8Xg4q8zNRNTEk/glaWwniAC5h48kmPfiDWBYuEQKEQiWql+6nBHjz3Imyee+Pgnnvv/t3VvTZNlR3nHu6ePM9MaSeiAToRxAEKyb4RNBB/HDtsBYUf4O/rCvuQGAkM4EMJIsmYkGGkOPX3u9i/XvyrnlSClWZ0r88knM9dee++qeuvwr777r//gS19+7+4b63zrga8pvH/Hq0Be1/WXrbtvLO+D2/ccqafPPn3243/80KemPJfyBgpriFNV21c1S0pRpJKqUFJGJbHTrQ/JCMM41Z9D/OR8N1rIYOyuWRJhyGLsLlV2R5/wElRidcdF6bgUxdsaHuDl2sHVgsiiVNPCTa0Y2RDMAgODudxUZL1z2TnEmrCY1lT4jWXfqhhJtVE2r5AYKJVX3pA6VRvLuiLEwF5seuTGFV6BCZ3kYllMJFyMJeIybXF+w84l+/IsW4QxhKGDEVvR2IGjhJFIO0VFMtDryV6DQmB42SHLG4YRQ4HGqLZ4lsBFWcCdsnzlq192lDtBsIlyxEnrPI9HzoscSMr78ME7h3CeKoHBizjj0Xwm+BhVi5wJj0AiKmGkNGanA+dlacrSIWZXsPVfGAxXjfhi7BIZ2XMZlS2k1VbSLheLKaG4IkF6NOAzYa6TFYBZ8dU/Bbyap4YVY6EoNjlyAPj5G4CysBO+hEXkBF9P9ejqxMhljKKuUGOg5xXIC2aVGeNZcgUVxZICoFskPeJkJJFsYSzIhbAnpoxT+luX1xjZAfBvbdWDPMWSAaiqwtiJKBxCCC+Z5s8DVSvFS+dSHt3yiU1nr6Sq5WVnacULxMZLKFyEPaFjELJRyihXSyRqkcAYTJdBSaZGIfBG00YYdlvkZJ5TYhuEYWwHyAsfM3LildRKtTtNkZjSu16zmMKT8s6foa5//MPJK5cUUivWsxdrZcV88cQffu8P3n30yFfNzgscb81WuT8XgTtWFhg/mN5cf73c99nzZz4a9U+/+uX/+h//0yErhYwOFn5/1vKioiyES1W6qB4LWnmMBL+pXJAUMMam4elTxLkIloUFpmUpymia0K1GDCwBTBUWFUs7Sjq0Zx2mEvakqJYXEqaMja0epJAaSS+Fmhk7mnicvMIhedkhEbIXW2D8jACVAYyHvi6EvJGzE9OkXCy8BGe5Wit2JIyN16DPNyoAPK/jywtpZCFNKdFWbQyqlddIAISzV4ORBMt407W0AUwJZjzBxJpapZ3GBsCeS6lN5c2bwlipjElZRJkumLHiGR1lu1oNERZlGtiU3gpnoTtflor3nbe9qdXyzu3quvGmBZiJPberaGNrAwDISBQDiZa9OstuhOf18LRAFt2xUIhzOQCjWMJFnIwIE7CMRmD8YLFlZ1G2Mg7BMAhhtHkY42ehEHaCCLlO6VxgZRmXhf3nBwAiI8SvEV1rKgEvCclSP+FjoFumYCyEpTFjAMWJvXFWX/ZNGOMJnQehm3drnrwmVvnNrIKpsZWCL5dpDNLR7Z5p+1y+WYQQFiRgKUN4valQ2NFWrWmViFJ2yCwwpC0Vs6lYx4YCE6eRABCKxuOpDEicLIUwgtEL2SlMcmhmnQmMkV1SSBlJTWGIxJilHRMYScwY/EHby994NKIMNyMPeObd6vPBRIui8in+ICfMdhTrVm5PeqCPUIpDOBCfrv93//4Hnhn4bK+HVF5686F47/ZylkA+eTnP//xkAHEH8vmq93/+wd/+8Ic/+clPPvzko7ld/fKjL737RRgAbFu5qcdoWrB6uSrJCAp5qfAoemmKR23Xc37WmT1vy2IkpeOlTw/niENaTLq7qdH0YC8A+vIUBUBCGlXO3iKzUyoDJzsvC31u2NcNH0xs4T3MCmYUok7Sfq42U+ECm5aRXiV4FFms7ioJhnAFC2lkDLnLxSKEKxFCgSEU4QBomwY2DRagjOlVWN7Tx+VaxgvGbl9VJEtrC4YcM+8Kb8JeauECm8risiuQBaweAwRmTOGqvA3PxU7oMuLprBGSkR2ekWKhYCpPwVXI2JpvL589no+7uoM8fHueLQlMfDkPO+bwlKQt4QKukWuKOTqiprLrM60t8tnz+C9XS5whu8BOxBFGLsVjMBLmUrPj7zazKxkPWIGmpGazhKQT9nXJaH3sXhb1myJxEskVg7yMXACzE55//hNrVcvuAQQd/q4XhcpUKZLFkrve6Hi45PAlNMsipLKEMPJqEgxhRbD4Y3h4dgLPi60sWfTDXjP+QBgtF0xVYbPc8bAIh98py6vbs1nhIwRoysBITBUjxcN7s3wAlgBJuQIvQwuCn5SLS2um4QE2EaVAWXjp9QgsI710QgBqyriCf9JcZe0Cw7NQCGYoKVh4BdKlYOSqJC5GGaskOz22eOjAjAKFx89IIWKNccJYdi7CIqqkVcJCWp8TOgOLhXJmsZP3vvjIb9QKt19njzq6D+7ee+jEm+esXhDw3ROffvyJpG5O82a/93/2k5/+VNL7784blrwJozq3QYrA6tfOKWGuJmBIiLXYNilcDro2hRCxdBa1BfN0PkIWJFHZG10muFiMgY2xKYO9MdoCkRTCVYh0LJjXXhQvF10IMbVuyK1SSJZSNHW1gmfRo8XkVaFHA3QkJHBRqKqK3RKVnc6uNZjw7HQAsRRTunR0QmGRlI4t/pBcSiXwvGUJFl7gORqXB9EA7Iz1QifwxMOURYKxyEUClHQr5C3jRP762cQuBINY+6deWEy5rDCqOHllNK0YIQSbkYXQjZtamwJNRcEgNJaLsRNESIXxRuXoqAEShmXZwJALR+twBDCGL294IcCE4spaGVxKO+O5AJ5vgMTWkyEZPbjkjV9g7Zi2T1gSdqWSOw8+f8YihUpw6FRtZ2POzhSuDC46pexiU1CR9Cn3AKaQs4Zd/z24xGatiCyqBYNBEhKYAtPWBTPFqdphvz7cv/2nf/Zf15qiLAJthMaIRYCiiScD7Keqyy4/bHP1BM5lrHqu5aHHsxguRsibYhnxWC9G6SraPVUDhUsNUCwqf/ZQYR/u4zqpp3gL5AhZDUZUwkVZKW+LrWAjS40YcYAxUlosDL2PYN7M9vq1S4N6XGHVhodFLgxCtphysaCqTcqUd76eztMLANcjU+QdGG91o2CGxGbUZtulKxSdVDwYUUMPN7CVXZQaYoCsMFPi3XRWj6XrlLOCrsFaAIAnwmWRGr8pDAClpVAJHnXK2EoKhD/HZS6dwgX6ZljPor797W96OuWvTU+ePnY30qBl9KvYlsqPFUrxjW9/6zu//U0pfvGz9/241Ac/e19HRBZvdfIhO+tz+/6U8ezli1vPL8erqiTCANDDLFUpYwJPPTi9UGsEYFetmi2RnVD9ijQlXESUTaAjnPhbBF4MOEW1ICxWrx4toFJZFIANpkQtAgwZ2usJDKOYjFKwmxLMYESuhIvYbPYGC1peZTDKbnRE1IxKOJep7vBA8nKJagojF288vHSW8tYpPKNYIbIYwVYwEFP1E+laDVFNUQGws9QXMIVlJQY1CKlIAMICAw/AHkNskHmlYyHwAPAVn5cRkj0XGDxX9W9IKcq15eEhNzEC41kXsAVBa5HdUB0Rl91KslbAvBh4o6IDt4bA56WCyyuKssPXl0TWHDljSTEQ3h55SMElRccLp1jk3aLowEIlck4ZX7+67FUhCMU+efqZWEiFFS4kV+cyL+GyqSy+b20XhYpOyStjYAoLBni1MXr9sS5kVLZeGMXCVKq8UfEyAmwlAKbCicugqYy8xtXv352PNslLgGWn9KK3qNkc5gIUNP2f/cEIxyjASNixALRwhbBTgCWTnkJKH8CIZ5kP0+WWsLBNAUxgkOiTgnabOdyzHWHoUWU03rm+3+/gx+tgHH16BugyjfDF67lMMJIUMNIhYYFRM68o/XKFdFQOcBaXnGI/L5ilYhwkUQk8IxBO2wuGBYCRokIWn6cBaHlLKjsMaREYCYwRjNB5cRLGUndFo5MFUDr2jELkFUKndHqvBVI6XsrkO5sMUiMyTqbrk3qVq1AgpNFp5jbsG5I8i5qX+17M2/OAfcWR89ZXKHVZl/3sr5d+Uf7Dj371f/7qrxX2/DP3pqdeDJQOlUA/g8okrwcV8vqE1tt3542zvDCtKnvlMXaWHvIpkoKWl/CainXgLE6rCrNeCiovCECyG+WFj0EuUwzTy/U5k2nbQKzKgbmQEGAjOzyhl3c3XunYReGRrihTOqEgsR+sMFebMAwdWzoeAgnGWCyLpIymJ//oBMaImWKMASAYi0AuLVczvY644gkDpma9EAoet3/gCI0Epijkm9qmIiwBwoARGHb7J3AnLAsBdmSBFw/TVFIKAEs8RiHuEGFysTS1RBsbXv0s7BrMFUO58iKJwUgAqsfibFSYpgAUscCWyM6HpC8n7/IIJELg2Smmrp/GpiGtmynjOd0uD3qAtctiHRQPcBZ4rpYW0HH0Ht2WKG/tKMZpqBgKO04jErHAkZSUDrbkGZtaAa15QImEMGIgmkVeF5gpSPDHQ8+CKqNYOrabISq5rPy5GuSSglQDC5mdh5FEZ0oxjdpIcklPHJTAgnNN8PWL2DNu0ezqsIhZ8ERlytgUpykqYBb3RCSMjZSp4HjpqmcnkI2uRcNzvj16kaiApRa95PDCfUQebGnpjE1DWjXC2CHBjS3YUjHymuIs6Y6M2EhgShhHuhMSG9F+h00ugKLQ7mGLvzKQxG+axJ9dFK/Tlaua2emMpaZTEoBi1SCQsMuecLnfcKlK3xgwWWEXNLfbk9oaeggyVy4W75v44z/+Y7qvgAH2gt7Pf/5zP6D+yacfeYKlF7eocwpfHsTo+slnz548f+amNBvg1Vxk7VMJ/eFqyp7tN78sfPfhfDvty9eP7/q72RHZFVkXDLz4Tel1xKsG9q7snUK5YjACEFFGhMA2d7S8LcWuodpI/CkyIneKCokZD1ecZ31mqa1eRhguDKb0SXeym2IgQlgIDBFr3TzBslWQCJGO0bmdN7CRi6QAICQsOM+xm4ytwyGeHglkI+8SHqbLhQyAHS0Fj34hd0lLh5alqGpg36hzBbs8o+V1KFmCnRLmGG0WOjajNY+TK7a6aFquGgncMYrnNxoBZlE2b4FCKoDCyEViY1cVOwu9EC6Wyl6Y7USXFzK8wHgEcim4aZd1j2YivOkS6FypePaWt6Re7lu2a6D19zBlPsvh3fWirBWXMwaSMofy1uQlmMmUdH0YhB9skXZatMGuKeZv/3RGZRCKKbD20bLQpaboa9bk9pw4JAYZd1e3MSALrGD7OXL1UIhAEmZaOGJKeF+c18OApcAASeeCGmU6PIfWPGVavD6XhM4e1wm+LM3JMgMG1Na0gkxvRm1jvAReTRQYSlM6YdxmKHVSeVxKopObmGBjuXW5OkOSqhIiyRaQ0Yu9cgkhIQ/scinZDSRKLkhRLdbyiLKOphVvTICFuNCYRm6cio+IiqFAmPCuTfhLUWDkxsLDC182CmS0SKofA3ucRlEFgrHDYKDbW2JNdQpWSGMhdmRltAuFBFZPVxYP/30buudSNqIPV3l0DPDzn7/vl+O911zs02fzm1Jun87YDz/8JwxSYzN+9MnHXh703Qn3fH7j/u03z+2cF96l4et2nj557nVdJ+b9h/MjCLe8I2NOxRfzZQanHSMGbSLcyulEAVogdPXLBaBgx6JYAK4WJJ4AOrI6am5xAuMxpVOMJED8XJaOLkuE2Xu0KKNEUleqG7nUdIJn6xSSpVgjKgDGXB0C0w6rqes+5ooxpcgiCt40yVuUXK0DBjqkcC4VCiFNBQIQBytFd5sITKxEmDGItWIUFvUUe8l99jzd+lsKDEVhQ0ufK91VwCqAgWK6NYPJyO7ZG6WllpEFLEsFGItlJ6aVXc0IGUU5BMGMpmDlypiFzmhUJ2kd5CoErSiFseOM2Si2KAp7lbMEMy0FngSGRUemOE0h6WVJN/5GSVITeLBS94RBuOP70tlzzmiBZKhuXW6i0VabLI4vC6Ul1SZa3qLwE95SGOsXICQLwFRyvhwZiWmbQSW8Dnq9GMWyCCyXvCvb9RamADqZk9EO95NK50ALQUIilJo+68XNVzWs0nCUKaIwjCfrXHZJiQGsF2lbXFo6BwOPUhQhkMCzYKAQFrRGIYd2NhNFXlH4Q8KYZglQSUYkMJ0b5xfkL5cAWXAaz6pdHjThIZPozuzs+FkqjFkLsgjpSFSh0SkaDAYti5EAV89wnqa2PNNoK5JObBdLFCG7RGglLZadgnYvBywZ2SHpopRNqZ70vCxeWwcgEcpIacqrKYHSsXDJ3iqZ8pLwp7PZtez4jSwCeRndmTzG/NrXvuZeRWrBjUoi32HhPgTsZvbOu/NJMs+0hHzwwfv1qC8H9vF8/eOLO7PG932f6uu3zvOb1z7X7dS9by+6XUnn1vX8jTcUPP/s6Wfv3n9YqezWXCWy4FeJ8tC2AtU/mPNEH5KAAYDRwRJTAtkUOa9ptEZlsyg7S6uBH1ubgQWeJSojpJGlzUMHxl+sFKa8pvHAUyLZSuJxHPM2IsRDj4oCTwKjZa+RHQNwAYOxZzGWlLElFQtToJZNiSkAKdxY8Sph5J2Dd3YvtghjOEETRejSZTfFgD/AGiksbntIKGAUBdCVx2sql7EFzMKLmZ2UYseFsYBJSuwTzCyYTe0HU1SmwSCbGol07MYknlqgJ2AwSX0BU4xcsnC5Lg3dSSRX6UzBeCmX+POPqShZCIDW4LFxGhk7ieiHZ7YijGl70BQDgbd5WxlGwmLqeNm6dOQYIDUS23mx6dI1LwErFkxqOmScs8JvZivCWMk4rTBRIfvKlHaihABfV27+hcHW+RWsRNO8nXO9azJCik2UwTJ7aEDnmG1wCFMILlCYjJ6WFnKhOfuABXWw2HgpalWW4kocW4FrYZQIA7vRVGDFhaEjWXKweALP75GOdKg6dXmmnvnnetpsuAMef16w2BpzAZNiHb+WRRfVmf0mfwAMxDaNGVXI2vdoMap6EaIResZCWNCGVwAMQq4UhIRlV4AOv7Bc6wUWa6xUhA4HDHyFpbCUPbxDHWHkbrEuKLajOv0hyjMqCipPCnWay3MpjXg6ZQd7Y8WHv/xHFq/FO0l0LSlmLmcKTZAvL2V0iLSn3fMWeSeSws4FxV8XPZN7M+vPWzEYKAl7R4eRkl4XRhmtgCKJKanZw3a5QjGGGapzM8OMh7315EVuLJaRAKxxkUplh3TqMm6FkEm0AB1WALqoFLQVUy4h1k3l2cuiBvaFURIhSCB5YQg7o5GuHvalzcWCXJQCyOLZHUqjagklFx5HFl7xqNiJjF3+2EkZ4Qk8WiGMYMYAki5s62Qh8MaMjQo4u0XQSAww+BtZVheiJCMkL1eyXdil6oHXAqFUXgxi4ektOAaKkgqno9VsYEh2elNJy2s6hV6fGFWkE4c3JB6x2cFMCVeVV3DhjFzqNPISPFXIFVK7KmSHeXD/84shcOHscjVVQ03hZNn62Uv06SePqy1yDMhtnm1NlFjLCMDlIJhmYUSIx9itC4ZeUnlJGBY8CUyApnRJjewWwRvZKcWyU4wk2rldnSI+X6bo7Bh1kADQhekaRYvLBWCjG3mFGEtmpAM42PCUXMatQLmmWRgJWD1IFw+L8pzDYIy8coU8odek529XwFwAZYdvarRHedl9xS1CwpiUlM4YP+bK4KpTVGgJOy8erqQy6EXBoAIzZmxktz6MYMt5EyAE7QqXEGBVyR7StKaAKaaETtxRYFZYipKR0DtpHQ60OAVSpBNiSoSYehuUHcYoRJ3uT97v50blK9J5HYhuRb5YFgPko0fv+HuVb5t1o/IyIIA7mXfyuOPU5knk78+zs1m0Mt9wez67fu/WPHJ0yCvGv68dYZ/Juv446lv3/W/2bksBVoMs3p6nHuFr5GI3sjPWjn4pescgO5cyiqI761zklgcALHzhCAm2wOXqTiCWSzpGgVIIKapcEpWrqZEAi8IGTxFITPGEzz7Xg/Nn8C4cuoAh+MtYm2KRdOwqsgrBGPOyEKlL4ZClw6RDAiw5ZUuCURXLlH59doKHPcvNFQAzVTA2CnKWmBEWhS0vgAYZ8bAgNIIROtfN+oHBgClxUopipBB45CFjrmwjDOFCTokBnkUuIwtXUzqF4MRDYmABlgIDV4DCxTpAVY4WXlS3fwBgFlIIRS+lm7KuTVku4KaQxzPr7DMhJ/Vl57OfM4ZnHnn41NTN3pGbct3MxdLKiKUbKyZw659dIONQn7KR3OThwuPvV9Uvux5d05yJHiN2/YlHimKNqEzJuljwNAJUBgsAMQW2jAUCSMQe4ZyfN32HeZYpt3UPmp1uOwrhhSEs7vNqVTFMxpaArggMxq7UEu9yYIizRBW9ZXEB2wRq2/K2JSHhR5mXf0aEAJySOKdnZ769gScvo2KePJ8/gdIZ8RurE5XW5FJDISxx4mEUyyKFWACWmmWkl5FFpzjjZ6+kaF3KAexLeSmMVQIcianwkkqRMYY4WSgLrgZ4VJ7cUAjjiumpx93aaeZYPHA3UqwN9sknj/36qPfc6uPE8c5J5+fk3Z/8UUqdWlYGxSF2B0JbMY61mxOvl/5+9KMf6suLgd5h4Q+F3hxYOxbpdK01D1nmEeK0f95362dGHAF2e9D3bvvaM58d9vOG5w+QY59Dej4+8ublq9tzdZ0rmtQIrdsuqXLVoHgARqNqH/7Wb7H4O9tn3tl8vZE4o5QKYOkwALREpl46iZBROPGyLZGr9tmJ+nfascNG8ooCEHW23GwPtXFhlqg6S81CEQhsFAUcDztwlwAW55Rjt2+ajwqmjJB04STXWmqQt4I1IkSWLRU5DIBcalOzqeObkcURR8tORMUsquxNldf0HOXLg11RvCxlN5a9aUhZwOqawsXCRapw6+TlQrg1AJc9RUkxMDp56UT9RAgMABcSS2RksSbGFTAuUdlNtVxtRjxcAFsbNiIccynQFo4hKq5Twrx5jwSDEVVs2auNN5cDvVWxZDR2O3PYJSIn/1DpF/ndO7OZ1cylYDW4BrMf2BwURmAWVKZGB5dyyIbNCcuLwQgZhoJWF5T2AG8hCKXuneXtExbrg2o5RREWJMCU2sloSqJVsIxgtjoLu18TxsNSRoH4Kx7y7rOX/oo4b6EHBQJ89vyZKwvQvZevHrye99e5kPi/fcvoO6PunvOaweuYz574mPaTqlEZBj3Mkvmm9PPnRx9pwXD3wRy8Ob3O3fHZ8/MxtHOJkVxq5aoSv5/NMxX7yluhP308Hd62a+djLp6LzrKO211oNuKodqGGz4nhYTsRojGn4l23MnL/3C9fzVr0oSuVKKS9WM0qxDzLcY4u7zCfEwmYkYWwGFtKuos43VpJmo4kBr10CHHS2aXTAjbMonjpom7NfcSyn4erpyneN+da7z1uYqtEkOOv75fzCx/n6uB79s6lRFk+fOstjwStXK3kKVuZ/mr9iYP+hS+8a2H85pMzSENf+tJ7T548/tnPfmrDfOc7njt951vf+s43vvF1P4fYLsSjQvEKQOib0L0HXQoWzeka4O/+7m+9w8KdctKM3P7lhx9ZIp2K+ujjXzqIPurrLsMv+/NnT70R2nMo++A8bLzzwptvXz13ynpmJY82/ZItHmeQ1i2NLx2UXSXGsrfCUlRhKwxg6mgqxts1gP1Z1p9t9eA7oL769a8reCiATl8DmO+buu2zJA4NTkvnFqJs9ds8CI0sOB2mjnuwjogoQgfAZgVUAmkvActiS3eUUbkYieWFZBToaSuAWCngxRqxUXh1KsRUCB0DOzyLo1NS9uqRkRczOwu77BT142xLKI8OQySNkA5s7OrT/pwFOi8AcsklvFjkGNTWVFIkhH2FKwALgOnkux6+ShLSsqiZFMuFnKvU8oo1NXLBdH0wFSuK0RiGhdDVzy6dJa0vDCy2BCNmbarKsiiyv/UKRG5qnRGCwXfg2JFgMDK2ekhg4E0BjK4vUtMBzbzWXWH+8kpBDCw8KmyC7BT/t8kZe+Dk0nLsc2lesE0htgWxOwCg5wHeWWSNKP75i3kHqR81kIslowoPcjYksKmRlMyYsKifPqfG+VqZNoD22VEJJPhNgfVI96F+Rsx+1uXVi5ce4LP7UQXFeBgOQLH+tjYGx9HHVKoNw7PX7jZ+h/vVfDHoG++4uuOhcl/B7uNWfphcrGMEKdZhwtzV1T3VQeSdo856Crt0JaU0lagZLgDTRmF00oE0AoA53rWEkLcmjbzSMBIMVh+4Q2hKTLnUF9XhngFbIy8dSUjjVgvAmwWmc9uUZK+keERJQW8KE48RLGQl3RxrBJuoqt2WKSzsJ+Fcx8Gsr+62Ki52GBZSakrZjfo0xlwlRhb9Rlhh4SvY2piuvdiubsVyAZw6b/kyiTL3N3w7UnV0eB/p/aM/+qNv+1jvN7/pbRQOusox2G0Y6teoI2/58xqgF/1sJkeQbk9LwSW7RBVTX6YYwHx22+q5tz57ermDOsqihNgUXgxzFtsoc+a6uj2c5/G8d97MVcMxP/XPycYu0EgAkvrdRQDmVcDjJ589OG+8EXLn4byZxdXZ20DaGzBKIvDOdWJBLKUsRDiAlR/HuWRDsuRN521lrABmI4BcKqkYXlOjKKW21Sm88Rudiupp9UrEC1MNYmG6ZOMnuXjlqtNKgjQ1sifsLDjlFciImR6/wqrflAsMc4RI6LymtUNhEWuEByBlic2oTqOkMIQXA4Ux2vAsrQkGIVay+i3g8jNyicoFX6wQbK0GQA2GiWphkOyaMtIREnowozKMREgKWhlrpK6FgDHi0UtUXIQdrVj6NpgOlrdq6Xhgolp+YB+OMq1mY3iW+LMwKq9YI1lkBVQVjMBp8txR6qhlr55aK52xWH05PbVW0vv3Li9CAvc4hks6W5SFyI4NOHG8AphWpKmdVv3h2YVIRKxwuiLZgwlhlwVAMQCmzkRJXWFMJcUpBUUgb2fB5XYlHqhlQhoXi/Ri8BYpmJIAI6JnrGLTafE8GKTHyZVSfcaKDqBilu2wNeXKm8ILZuRFRYTQiRq41A9pKVlkN2WkqE0U4TLlLVZ4CgD95oiHhQCwE5YUxsiLXSoAduMUdLZa6ZQhkEWRATAEMEYLTkFlnKzXZ3UUq1RHvMJJxUCurAUYDK1ARvo5pq++8+1vv//+/+vosPD6Q5T7k7f2fetb3/ITU3aJKCEwbmOY3Qmw2QPV73U/v9XL5XblZUAwI36rSt+MFFH4RXVM6djYCXBeu9O08nhlMVZYvRgJQLLHXRTC1qGRxcIaq5OXfl5UmCtCLVA8fHMe8qKFZiemfsj46fnQnq2PoWLaTooElhrhtimp+zSkg6Js5dUmNlP3HiFo8YiisNMpGIB5MQjnZRdrSgGrCwBeSxqSi104EV4snR1DuaI1hmEnRRl1zaVaunAYuaQwBaMwAiBUIQsA2vi35nYy+1CfyqvhZmCNFA6JH4kpEc4CIDWFMJaOkdAP8HI6o2U0shMZq5YFDG1KJMirdjk3hSjh7NY5PeYAejdt5QFMiVytT0WanhJm3zq+pthQGVmM6pTdzZfOK6oQUxImyxbD7lmcKHJQMzT18GXvFmXhqsjWwRQbYSQ1UqzRtHo0EsCUUaxKjKZiKYyoKFbP7eHpk3kRNYb2JIAC0rGZAkQFZino7KXjApaRi0VUGYOFaYUlhVSM2Cx04VmqAYknUk4BJ6BYVJbFHya8G9n1Zxggas9obgokOGO1sgSTicIYODwwRQUS89aJculSKjHFwaATsXVFz8VCl6VElS6LcC5T9pIaiSjG4TpR2CBzsQgxBaAozAhPAVCbMQsMewJsjWAISymaAhcCQ0k3lgi4mrHBw7j6c1FMtyp4/FG1SizxR0vPgpDeiBlVel6NUap/A5eHnbCTjJbHr2/YRZ489Rkp34zuRgXgjuW25LGMm1AP8xkVTHd/Uq2tbOvYLt6S7tmJH5pit9TqkWUL3kYYhScwPkQMjIeuZecGfhbbwN7QGp10xYkwTjqJh1K6FLnYHURThZlup/VrbMUAgpXdKJfRumAoKpdKrOm209GsKXdlYBUyqhmhc4bFSnb0q4ounN0Y86bupGXMQiHITa1M9SMnisGGgR2VEabUjASmqqQ7ETPFZj15xZoSLgCL08MCtLzs0/s5j3A6HIwsUkxBZ7cUyyU7BgKwUqeiCixkp9WPAUxg5z5ygHa7xWfHzFgiIcGiavUqvl6EcLEQPKLEVoaq6gJnSWEo7IU0siA5BDPUi0RIEgBSF5RqaIofPpjYlqVST9BEAZxVmms9yQLTVGxlwGAQpX4pzl+LJ0k8jUJkBEiKLdxpGDkjhVEIpZFCsFWqUQqWymCXGjPpRbbsSqJYf/Li+eWJjijhaAvpEVtJJ8dVcFLBlGq0MkiEtG8tODsL+1mcy5c5bWFiMUSiBlJSVDIiYamGsrgcsXv3lr7I5eIuJpaCQXNTiGqwUHiN6AidgNHFWhFV8irXVAjhAqAYlaIBV0CA0psS4KikwGBKMU6Ow1zGSPCY0sOYhjTS8SDnDcO4dl5LaaxIdmAwSuNAr8KSKKBEPBVjWs2UGKQrLjC7GioGYFuAyciCfF2MTSli6QB5WVAtkkIGf9YmpFEUcftxMXWF1aalNjKePeNsuf27v/u7f/Inf/L1r38d3g3VK7o//OEPPVeQSzvuW131KgYGj99CdH/iQtWC2ze6gBdFqRgV2po7Bc6ChGwLwEi4iIspEi48phG2jDFjI8JLESyXkR3YcaxNU0bNAqfQywuAB9jmpEPaWCrsmZC/XflpcbdVWxAewCkdDJWqBAqZqPMY0NTSQUpdCi5GSXFaBMadsmCQ14iN8JrqVwpTunDlCcfJUstSzBqdk6gawkjKCCxFWYQ0xUwpZNlwWmexHZGlkhderOxqRtXUBqAz4qkwIQDsACwZEYJxgW0BYLwsWoswTsWcuFklQl87JX4hOEn8RshtRwoAU0InNdJq65FwCUFI8JhS8KiHxCaQnVE4hUByGYGtbTqYRYuTyxSDqMXHZhpm62FfGELTAhkryUjnEkhPWMhUc/1aSOVVPAClKV0islH4ayRMJGFYCMCCI6lCmJNzkjqyBIxLCIvaeCNfhth26txhsf7VIwpDBRi5NA6zO8F+DszOCBDMA2gMLilqkBc/wdb+DGNKbGBIJBjmqkFuFl1LRoKiyK2p7YWFxchLIRYlXUH0DYRvvWThsjNMXQQVaorh5J9BSM3QEUbOmE5RD2P2oujYjAIBctEZu7ZuSUji52K8ScWFbQ8Ab2UUi5OEXxeAtRNIKIuxsl1WEAKTMBR2MKsR2JirQ4gfT3nZhafXpvDPy3aDP1cPDOxg+uKVWssWVkgpdPTo0bu3b7kyzgNe12Jv3vMkyTsmuMruJue5gli3OvumZw+K8U4/Dylcyt3YbD6JOu6ibi5FPAqIzagexbDjpMjLiAE5nddoR3awUEEywsBHsitTd4xroTMm2hSiKlNsO/qLGR0ncpjCWRTD6DRlL5HUvSnDtBoKgUSoTiJQihaW3Wo4/YAdLNl5SeW5zIniknS3BGbhptrnquuq6nRFwsuCBz9pTTqCQii8jMUC0/MWO12cNQTLYrUpSsUWA/ypdHZjPJFUUi2EEUIBM+aNYcNjAKNEQt8pcPglUQnLzSgugSyb9wTN4hTLS6wzpH4xQOpRFgqXUTg7MRXIZa+2AsabhALDCyHpothNKUbhpnSEAOWlEHZsAIz2A8VUiANKKCjPeNmZEQJb/w7cIK71K9U7clmQ0AkXMHHUGKWwkShiCa/9AwZgGpWpqljKmyJv+MoLmSs7i2mWxYxrfsV7ysBAAhg3Bdd6AdTjCZ86EQpnsQ6MLZ31wcbI5djh6dmhjHR2UQCmLjVoGVt8RroQeEqEYKYARlc2yuWh3ynpcpJjrB9GuhxKQUGyrA4WstKd1VwKbSqQ0BnB5KI4KhlN6zYGhZpaIykokJTWMc7JdB6fIoyTnQiEzMtOJ+xqFk5KByBjXvoJneOdxQhpDGykT5ojgY1m1QbgILnssrQ4JbLKkZvWLzwqeoCyGKM6o9veFOkQWypp4Y0HafFtiFkWZ6sC7AGHWtQpZurxlqL58MWdt378D//X2rJ0j7GfXBD9meqDD372/e//Ifa/+Zu/cSZ4dovZi3vdM9yTRHm5T0qlUvzMPACjhdWOwA4NQGWXvdXYVQUD0CZLGxcbpLpFRcIFozAunIxcLGDEeqYbka+YCiTBRJHIKXm54GGmgLvDGSCqvADwfJUE7J1I3jXqLm6P8tbdLPS5FlsfpeqFYOj8YcTJov5CKqxG8EMCtDHoLE4Ko5DKY5zU51q5Kyx8GSDTC8dmqiTpyKbgbRlRweDkNRJ4MMWHr19g05jDR4WnFPCQjBg6jlyEUSAFzEinGBdmKip+gfXOSNEgAa4GMBKD8HjsydjigYehdxTCGLEhUYADAS9dGfFEdbgv5Nok0RZFBxBO6CTmLI0sBEwNyGUkeLIzSmTaQnUBPTsBrV64ZvNvFivhoazr08nlrHVHnOdwvnVSOooGI5dL1PZ7MPNMokpwchFlQBoBGJ0vmFGBmVK4aoSFVHZRkGVsytsUrY8JazMedgpwACN9xZSUgjHFqCrVYsaZlIU9iSHANuL1G4eeyM5FgLE5vvRCWKywM4j4IIosl9MA7oRchrK2ZMUYUViXHhVWeqR0ihGegkq4aVmN9IwAXl8qylW1q6H9BNMuxE+XS8geAzqLWMjtlhEPMHvFS2rKCEzsp2UzBTMlGCqgcBaBGBLGqjUNZndGa7qYYrcYU7UJtLik1eOVlFG4wAqGPFV8fnHhZQFIqQujmouiVKHYaWQ+azBSneHF+ouUHWzqhqQYSKNL0O/93u+5ObkPeRZFfvSjH1lqbwi0AzxgEeITvl4VtBsQ+jkPZVcPKr3Q8UinGBZCQU5OFfNwgWJUQ166QDydUT0jCSMpRQEE3mY1RSgEYStgSugpqmrFWOiQaI0dXxnZK4Zi+vb5PLICYDCw+HiXMYy1C8YF4AvgTS9H+rikiF/9oiyRO7cVoLcaPh+t5pallaEjqdnsYlnwQ6bXgjMzxZpgBlAVZjzwHRH7rcZbECF7I4FsuSjwUQEzApcOVatKcSfm8jQFWBdaK5FpUSwAUVWGHlOQ51UAcnpRGeXSFzbC24rhFOW4VDkdW0YtmDrobQCcipSIV3lG5CqBN5oSBUtBKS/OhAWmevDkZbHJ6aSqKPAySkSPJwWYxMBCNxIVgtW+1AKVDVZ3WibIYYwAhNf9a4th4ZUXZwvOxTL5rueIRCxrBNA1ZtdDiaoZhp2wWx9tYlZY68lLJwBGLpUzSmGks9MpvEY6i4wVH+1NEpZgMOzVJpauHlMSc7SmKomzFLztuoMdsKqMpq3GgtnpxLVIPTC6xqYArioscFtAUo8wt//0v/13i4K0AFC6+HgZo4Ap3vJJBsOyRYva04xOWqNoC6w4UcLrKqUqhXDZXh0bgJAKIKb4eRHCE5wAMZcFP0IlWUHnDMWtkcX9VWxXh10OIdgguaS2ZDhLxEVkBGbEsBa1wVeha4FzjwhnAVYMJEVqgi07ALsUFGwELZfsQm69mk1Jyig8GDwjQBuCF6FAn1ZwJmhQRyzeM+ODvd/73vdsdxZPsXXt9kNXqh/3cLx81kqdGKRWCRLhfo8KxiJIJKqzC8bbBV2R2ftcrfucKB8SwlAlSlIhiVANmjXtulDZjK7ISNDqon7x8NZ4sSwUJcGo1khYtmUAIsqoZhiKdELoRonUs0dh1vOty12z1lgezkF7AKMMx1gUBjw++QE8JOO4PHplH9e5vqvkeC6bTS7FO+5GAoOngrmk4wrPOCnP2wWtrdWD1wXRmoUCE6IkIouDzl5hdBZe/CyouFA5WCxc0+MRU7AWP3xediG2gUNv0RgdBakp7Pjp9QipGHaVs5+S574S29ZjKgsSqWFEabYy6Gcx5u1/tSMFi5CKLykjJGGXGpt0PuHntWip27f4owW2PhqHN7ZoGmFvwSlViEoWY8UYyclzuaCDscAYcQoEJqpSrTpZCqnmdIBowUiEqJo2QlKMX/ziV7QA7wS04BTtdFCsVRmjNfJqPKqMdOm02YGIsxS1GRghmEVwWgHLaArQRlJhISkAphIByNhUMXRRxDoj5GX0go5KVE4gedlZhMOT2mcRRcpoWgrrFiEYY8JVbRVgChMbXUfs0WanlzQMTlnoLaMpsT3Ezt88xFwTXe7P0NEZgW4KPLAQLixG6Y3oRBHTAKKqTGIWI0uBtVEgvRAA65Xx5ihKuJWKB6YaYKTj7XhQlAFp2pmjPADG2qbY+rxT5fmzihGJkowCCUx6Ch3e2PoCYO68tXUiYayvCoBHSGenqBkVvW1KCWBsQd46P3ESiZGUWs3ql5eCp1JF+TZzJ4aPTDnbjX72cPbcebzjBkMXbk/b/aI+/fRjX2DBiNaNx6gMH6Ly6/KoLGmlqiR+nXqSTifA7F0mjG0X4aR0wpGYykhQCRdIB1B5goexKBYLCAAJE5IC49CYQnJRsGkcv17oFGOLicrKiMooli4w468+/kg4YTfKiJAudhiu+5lrsp7X1u1O3tiiwuZJqqXQNdoWQeXuARZ2i6/3mMNM4lM8ng4cexZRHVBTeU1l6dDUNQtR5FAcQWJK4DWSQmcnFKmJklxrkNMV7HLZ7Qe+vcpeCIsuBKocITs9UYmpBjOGVwXmUrObApfaqNqWdytUSR0BM4YRRQcu9nQ2p2SfCuji3tkNnxe+XAWyd3TijJxOIdG2huqptZLytisKLASeF54Am2ZvP9tv0uHhBaPzkoz1K0Q9p6R5ERuJo6zB7lsUiwYvNRJgUjvqEUUnEcLQ8a89FxKxRg93JGWk4wGLTThFoJFOYEgVmgaWMaPuYhDiGNne7FPPPPabNWRPYRfuzwQUIqqx5VrmMhpJNUjdosWGkFgZNSfsALJbMX3VYAyyEBZIa0IHRpjgUQPkHLBDO21P9Wc5ONhDsJumG4MJYURqpDPSUYsystiOjBQhLI3AUhTIuxJbmIwwSRkjxNNydCGrW3gYtKREwHXhsq5zZyx8hXVNVKopEcslEMOKvPVFiQqyvE2N1bbpTvILSfXAw9C5sBFgUqDyUgB8rQE9jIRuIozEi7oSeeOM0SH3pgcw15p/+2++74O93//+910aWHhdkIftlc/K33r09sO7X52He8Slx574+x//vbza1LsQZ6MFUYDtyKjrWjNq01QImBD7Wxn2FmEXKIpMrnP5YIRUEgUSf23mFX5qm0PfAsJkAaBYGZYNkSUjO6UoRrHwSgU2cpnyOrLBMMRfXtMSmdIhK5vCcjOjZ1e+NyNjRzBvJWnHInTm1EuHUtLK4MUpJH52a1h5ygbGwGKJFq/OagPDCSN7JCxc9GiNyuBFDmbswS+Fq0PGjrkKq6GxLiqGBSddVF5RWQo3tmKUjjhC4GrmEoVQJUSg0ZQAg4U8zsseFt6US166HUJQSaHNEzS7yw50r2Jv0SgEXpZSqEGIKVFGAMb4wzAiNKICo7Bb50JEVU/gAhutp/LgZa+wwne6zMWWpbEiD36cfvNGFrm8tmypLJZvnpniX06zYOFj9heuLSZvnNtXYGMw5752FAOAYQ9HZyV7yKKaIsxYX8KV56zXL0714PSaE93J/vrV/G2VOCLIBRZrxEbA8BC0GHYfCjElXI03O+VlN25fyqhThE4NU1GyhGQsHF5SdhhGeiQ9AphHEFiMGwZaZGHsLGs0TdaIlGxu9ixgKg7GKws7i5ELef3QWXhrwJLJHsPNEY8Q6w5JYAgjXSCXFCxC6MThZDFFSOgkvGlIBdAxdE0ZxutD4wJNhdArsuLxCGEkvEQ6AIqRy1Qgb8YDmSESdphgLPO7TjdWLK8UPfo4N6pHnjb5PK8vSvJOdF/oBwOw56dwun63a49bfdzKq/ksDr/7FgBF4HR4RAGVB4OBzchySrtcK02JJeICa7mMwEYWK58Lc/ssNl73y3rcTvE4JdQZGF4shjLqSBSXUVI8hPfmrq0YIxhBiA2GjspUm73ZLwxjUndgOKUzpWvYgVSnI8eiAGMivPIYIZMaUR7O5U8RBR+YRVXZ1bZ6/GDY4PVVrptsLCpkKWPT8IwYSC78LPgDux9YW8YWk52OCgOdsXpkdwbREyF5AawDZg+6PV+H8cySaBYJgUclF8VITOFbjepsLASDxzdOKxjMGIQo0jGKSiOQ9EM/dRKYONWpJGBTFXLRec8CXB4IcmUBYBeCkLRhhAMI7CqcXi46JQBaIVuSsnGybDqwLQyMC4CF/TTldj67MbzHx4pRiX1YIOQmFUhcPJbQFKfw1uH4P99aBdo/qopNa5UqC3BdYMNQ7OpZTK2MWN7GtZTUFElRWlB5SWWRd126hm/6G3lvLhSXQCRGOlp1Wn+6MuhqQMWiEa+Q4zSF32opNklTCrzeC8E2PHvaqAZjDdBLI7JgdkKvdJEw6Iz07PFmZ1Q0CVCUKSUAXVS0wMSU8DLyWghKYErL3VoE2yguy2GK3CjElG7TlFF4gRS05GY6XXe7OvkvdyZ6GCExV1JGI1lyGElNidT0nbJEG17qMC21QK8iA2uBHhjS1IWDeHHfR6b8tLw7liM3+HP4IetCrOuC88RFwb2N3c3Ju/u89Od25ZB/9mwedVoNgUIwtxHVWY+8lAiNSIAhp4fTVBktYEaBSEyJh2x0ItAIz1un7atS8HKhJRRGY1HA4RUs1rIojyKXvEiqGRhMlCOlYNK2RkU/HHN6EPimXETI/Xvzl0W3/7Hf3F2+A/P2XNbbhZAEgyh1WgfdycJohTGox46qPEaBYCh3QbgqOBcebFapMujAGbGxt2KoGIVMeeemG4a3QAAiV3iKHmuTHcbGIMpAUv28kQDg3HowWMAOKEALHqZ0G64Rvculd+EIaxZbjXi0y14Wsck0cJ4Kz+a4vpoNxmuMXEhg2VnQGtVgJLyQBE/dVZ4pF3FcjAACjXSKUT1ZkMTPSJRRikN/2SrYHFxeCqHwqofu0Bh3TbYkJGtnpJNJcFJYHyFi7YEYwkMqpkYC339w+duV4nlz0csexhQ5L+kihrNmWejAzhfMlEoVeCq6LFoMm9rR5K1IIWpzlSiFgk+eWXlKnB1uJMhZYCjB1JOCBEwUQCXRt2sYibhcms5euDyYqE4u5DEYTW1gYEabU65Sl7Q6Y748VKkCARC1HWgr4IIxvQkoX3h23hV4FZjqRFcVV0oWe67XRsuIeQGWRpSpESdZjEXvTKtaTcLghFFDukB4Ogns/GSxZMoQGFIIQD2yu9ZXW0Z2gLI4aU07HmXMXsFGU/wwSRZ6VMYVRl4iY/x0hxOASwEU7XvcQX7wgx94G4X3zzCCSVEW9VAkdX5a4fpyZ7Kersg+WeXvUrZy7Qh88uxJ67N1yo4TiTEBoxhFsXeGqKRjxygWSe3LCFwxXKJIvYNx0QMbuUon1lSU8BTkvEKQtCCtj5ERnmBThmk8FFEET7QAjjJv+LnHPJsXJ1kI5sk1tU9q4JgpvL4Al+C3O7OUGqZKLK/AeFhIJxUqMsHXo68kZRAZK8lYnV0p8JRiSjnFyEKaYqYXqxFKlhI1CnfoXWSFaBPe1JGiC4GxsKJ4qwrAFBU7S4RKat3ARJUdM6PHQ7lcyOD1gsG5w2jaGLlcFIQrmwsVWqNwpbIDVx6wYqoNAAMvsaRclDWaVoBqD2SOZniY9g97ZXAx7orVVGxchMW0FNnhK8aUl8SAhMIol8brkbHe2YmkhIKZS4QrrTf3CNSyY+1KoiOcwrnB5CKUyI0pSGAIV4RgFCPjeoFZjIxowwzFDQlgJJIa46TErIXWGYNVhWFBaPP3EyTIKhUMwHR6O6mrJCpjgWLpRFTVtmFYTKMyYnC8jOQmT8tYoNE0XbiVr2Y6pXYol/rhcPERuhGCZDSWNZhpmcSrW4nGAjXZQYIpvKXhBY6Zi5gmXJFTEjD8wRZJQYhN1BU4x4+YxrBTGHp7GtsmWqWlgRHIWF/OfPxLwkgKSZGoxinBOjy8psqrsIrHbBr54hktEbFiZM86uiPRMyR3KbcoT6f8dcq9p3NGIlkEYlDnFx49MpURhR5csNyofEXFX/zFX1C8gKOeysBsv/ghMLlYZmuei5rRNQ5VFaKt/vqVrvprwbJQWFJ4nZPwGJQkF5dEm5SXBdWuSStwkzMLgCjIEimPBZWpXJ02SkUIpgX2BBWkRSAsdFW1jFyMRrLksw7ntrS1ySWv7xLkkgsLACpG4QLpwHqEpHTlpbduvGHgSY1gaJ0xoG3BIU0JJRhdCCQGIYdghqYCHfSKOXETmGLUpilmi2NsEVRFF1h3ptPRdVvCxFAidkh6R1MZLMK7Rjig1SkKgLDonZEuChKe0IvNrvgSFW4aRiPspkSIafbG7EIIHRKGa6eymxalL14w9bC3PSBLYbQ4lYfHFFIs0RoXS+FCghlZ6rHwMNandcDAUl9gBF54dRZrpT2hOj+WMLQOASmFM1peYDVwoWIX5QRioRMK2vSlbQpJAFqESLjAVGi0FQECGwODtQlZNqPsplFJlz3awn+Dp2nr03GR0VRIgoGdhagESTCBhJ6AmTpeYO1YU+BGGGyOjoKTeBhbCiEY4sfgegUw35YvUjMrpdw6au9SwjmEU+b1IQYw3Sq4bmKgy+2YCZdPNfTsRvnYJcYJSW/pkbQQeNjBgLcrGJymjAiNimFkoRhvdiW8aXgABQRjwZywyC4dQnaLwL6dXlHzr20HHKeQYKai5DLWBYwpMaWDBSgWXgulo1grsAAK8Irf7//+7//O7/yOXAIthbFOwwDronAu7/f74INfeLXPVd1i+gaKP//zPxfbmgDUCLwl8wsrFIVZN6m5CKWWGeFbb7rTh9d7himacyoaXe0dUt9D4umWjDoy4vR5CR/R97e0DrfnPI6Ga7tqpbNNtdBlpTVRHvKeTSqg4xIAvl2hX+0z4pdIkf3lg06qFk9U6oZnN4UkEol96We1XvlZmbce3BseMHmNkurfhQ+PjIxT+TlYWRjBkHAJpIhA3uaUyzQ2+izWOfkZpdaXFjwhtSOf+LudS+G5wagHLSo8ShVIl5eRnqDiwmzEBkAh7IwEmK5yS8prbWVUpMJMeUkrxlIUZgq7cLoRkmAwrbvatHOIF5A9X+eVtxpa1XmR7c286R8biQobXT26o8MDl7HDqnetql4nkKWj1FRVTYfXrlWiNgwswXCKKh1LfcFASio1L72DTtnLt0qUJIVewLgIGOYq3LVihzz+UW7WyeMscRz4z4+AaMgL1F65V4KHj97e5lI7Xy80m/rVnPteusdfdhVWqinX9HndZhQZj2GiJCUVZiQqqZjs1pNRIu1ouXC0nUeoJGI8NJddLbupBeSlyCLc5sSAGSG7laGP0a97HwYj4SIUXoFS06WTQggGOoHhUg+YqVySVhsXpXDZ/SmUJYyxXgR6bO3RuSjISuWC77BS1Cw1KnYH1wNxyNv/4T/+Fw6V8ZFiOODEUEpmNCV+Om/Gs6xbWVGqIagUISs2U58r4jUVhZMxAMVZp1DTNh8YsWIlNXIRSLsNZ3VKaooZIa9CjJgZhdSkQ2L3ICdcssPwvpq23njQKJarYoSY0jEb1VC1dBina1cHDFtneBYiKqoK9m6zeoeRK0KADmeVKHUubT4X9aX3vvzeF3ztrBf9IOHZ1eNN6mgdJBgFCNcRRW0/+ek//PVf/9Vf/uVfffjhPzq4aCUiFoR+6818Kougskstj18+VBiAUqvHxYfgVAxhtBJG+lvz47q3X71xwffbWm8ePnjn3v35+Y9PH3/84rlz18/B+UvQHQx+jMxWUJ5A5KJY/MSiX5iiy2XUggWQnV5qP36jKVtKyDX13ADCWwGVi+Iysjs93K7EYhBCYbQ+Og2sC7FR5aU7rlJMzLk0+BfGwhrFEhbLxeJA+GsDey1QiBTIuaw5RS5tsleG06Z0ALwTcLrTlwPk93s++uRjl7VCZh9+8b1PHj/Wl6SYjZpyrRFualSJkmRRjxfiAERldBdhtxRgMNIRUa2ekWBDLlZ5p5ZplkBaHCOMWCMetO+88ygXvILVKda1o8sfQPw1O1U9f+Kjfg/vzTaTyCMtbE4usJVeVkUram5UDpOXWs9NzoMGxYjVFDwXGNFmC/vsxXwUiQUzgJbh9QtAMXKxYzDSz4Vk9KiMMLxFaTkXu8MkBRq63o1cBN7IZcyYxUjYGU+Uy5cVm5uTCySy68tJY/FIzEp2+e4gqiGxpDaDj4sYFYyNBcY6w5sGk71NXl6LoHijRtp47AB5hcCTS45z+vCaSgFPgZTCD4JoHAnwaWQ6Io6d7BUADxn53XmUORWWVAHsKncgHBFReLBt3t70CCMLMK89QwBkYQypmFo2hYE3FkLnah3AKjIlHno8SoJUsxubv3cMQyc8UmGEiWxKOmPe4zm/oHe2yIIXoyuZkrx0+ygAC2EBU41VHu8RdoUW6JkuL8yBj117AfCkU7ZCr0GagpUFrVjLLQTGCqLNJdZlmKVpK5JudGyEVJ5AFlQJZJIRDwDk1lblvLPh7szLfRZ6jWLhvbjnJFcbr9GDDgfbR4TdqBD6Hj/h7Mqwk7yvzztNTcWKUphwrl999KFHwR9//CsXTZzKdAqdFZ3LsUPrdoVNj8RzI5vB5d4NhiCpHbciOouMdtH1mNMdhtceErvnKHKW4q252WN+8tm88fSt2+eR+xtbZX4hEkAuNcJ4gqH3S9S9uXbIhR9GlUaYkTtvPPNQG1dLROcFFstPJ9PYdYtTEl7pIButzBBeqxeV7sTzp0jVUHyVL6MVsFydWsVWEsvkOrfGKt+aY9MFpEQKsLZV6OThxVNVs4w9eHz2/J8ezwsMs/JvzzuY5nfn7sxncYAdxB5tOP953JYEYlYDEdKK0TMK2dRxSiojnVJselMMAol+q5NenQGMBIOj6UqkHs06ZIqhAOMUW1/p8J5jv3ZZe/Pag4J3337oF6ZViEFTtdMiDPIcMgye0Rt99vTO2SHs8xVhRwTyODdVK5HsxEVfwQRkrqbngm61J+60IESFxrq24cWaEkqpuWAU00pSEBphHEMK2Im4DCxSb6xwIiOL40Nx17DM9mBb0uOcwz8lWYHAp/x5QHCyXMLrC49FxiMRACRFa1seGHsFdNBtjBahqFyieI2mstR4oxrYgcNv/W4np9TPr5CmkSsDOCp4CnE4nB1z6biuni2hEgcrC51XUvUD+0OdkhSDNmRlAHSOmCK3UDDSdSglYocRxW6aHRUBkwWbCrt0V2pIdveqmpo9Db3VmxaPWoJSAlBYiH9hIqLAEAqpRAoLgFFgH4M9gWxTaHgWTiGlDs+rUJbNGDiLkKZDe9bdFH54z24G0BUS20KTMABc7ITi6yh52xYwOhUOA+kEphOw1pQRhi67Ok0FkmoQ2/qWzlSKcb+aPeHv+6Ighbv4G1i+8U3Pmn67N0Q8ffbEb4D+1he/ZiexSOoRhNG7JExtII/OXBEUgNYtqgcXPXdx3NlPI7NFnJsS3b83z9PVT1eMi7XzzU7Df+v2vO7fCmjErQZMjZVnJACyWz4/6wlqGkBUgSwtAhg8L4u+nL8BGLV8Ag1zHI3nhP+1hzsKbq0o8KfOOSLhUU01Z2dP4vOqhZEFG2Woj0itEuqBX3Ygy/R7vgMFuRQEs8ol4iVyFTVHhpzU7KoSQjFWYczCcTrWAnn9cZG9SiCtg43FwsVYSAx+gNuDgXJNovOAlIvQFVYuAMzHP2cEr+wUXnZFAphizrjTMgKo0MiLhJHeNKSx8mLIZUEgswPI2FR2UyMYC7Fuz10Cz93lzTz4vByySsJA/MKtkQved14Z4cd+Kq8AIzuj1ETNdCR5KWqgs4OZKgAsLx1hGbOIBaNLevjm6Tg9Cy+phfAwLEIIpDEwzuSmlysjGLvCXKkrzHRdjg4pL6NEMU+O6+VIXi6xONvq3QYAAhtLHW3j1hankXCtnS5qY1OM6rl753J7AyZgjC0mnYJKdjoRQhibGum2OkXlwTbvqeL2k6dzfhUIUMFcrkim5eKlM8ajDDqjaQAjYzDL29FhEeU2z0volp2rkurFdPYEH66tzBTISCqIgh2LVwboQghXSg1koYutuPUKYTcS3lPPFKQIAgZvpOMMadxphDCU6gHOqC5Ii0UAegS3ebnACIt18VIW3e5pujCLUMFllMI0y4m+XBnpauaFrwwjEmM1C5nb71l3Fol02qMSMI+pIX3t7He/+11Utq975MPz7PDHP/4xi0C/PuVCFqH7FobuZ3g06KnPrOAciunaUHaBXprjQMLOSHcd9qQ/KuFC6Cr35EoKGOBDs1eN27PLzsGtwUMyh6lLiXBSCgo7XYUUSYUY6d218ZteLZf7nyg/woGNHb4a6HiG+iy7KTudMn2djGgZV6aL8zIdOwAY1yzKkaZc2lQewCzdWRNGtEYCa1QlhRGM1B2wo0YneVl48dhglKYxoDO9e+/yPNjxEjWvrb16/elnjzGbthMqQ7gKTwlToUNj2poY8wYodmurZlNKB3Tqv97t6NiyIJHRKhGAQihopRJrK6rKRJtCXKGMouAZIU2JqYP84Dw9MvV7lqJ04YEU5UBmPefrrCI03QYAABN5SURBVM5Rm1xzbZxNyGscmL/tHN20eqSzjBJZpSfP5gAhtJiMVs8ieIhNEVXNMool2IApXBReYwVrBAM5wMsjJ7CQYGTKO7Fg7PSMBzVTigop8fAqhkjBztiyU1CxK4wOVkjlsSvG66um+jIVJRxY44wF4pROOBHuaoAHpgKi4nIc5SLwACs4K/gQfH5+IQcORpGCDkkgRZkGMDJaZ8wKtvjK2/YFbrVqK7y9bZsRUQ6fBiFNyxVzKYSYVjZlBZ7oVEbdiYVkaVnEClGnFYDBz8vVKl0uGXwC4JDS6yoEe3Sty527c8dmzIudEoaeCwMjqrGcMimkKC5V0hP+JWTpMcjWs1FxQhIhkNXpZ8RZrLLiGWOTwpSYghEYPdsyjsGGM26nvT7jPOlZvKX04hsvEiPC08GlQfVHi4oAEBYwa9chhxerHe+k8H4E3y0ryqsoXuVzx4IBFtvxkMvNySuEstcLpBocS8x4wIBfvHzmNLCoLjqM6pelLl6+mEuVBWDntU8cGV6pX7+Z5y58HCwv51o3N7+p9tWsGCOxriySNteOKEiBV4BUHc9fO2ST9givf1+eB+PtY0eJhR3DKezO7fvzDkCiAHb8klI6XcFMTzETYimsQHh1xs/OEhtL9VNOO/NWAieVKLHV0BoWC3wTP6nPAvLCR6JrIovKjcTOIQpGbv/M+p6LgjLUb5NN7Ovr8p6OigV7/OSzOhIlNbsoIzbKFHCECwAPI51NXhjIABTCmFIgnVcUuyixBI9Ax5G9OoEJABhiurKn8iPsxz+nDMDBXC4fj977gj+RMnMN7K05F2S0Po6X7AKnhvOHQoEw1w0ynZoS96vkcF/4S22i4JoNHIZXC+rfFmAcR4sPENJIZ5dIVfD0dVHOYljMaap0jNXMYpOYKoyeFOuAnOM/N3tRXDAs+ANgwMzOQmJgVFuNcEGWXWH1Xp2MpsAAyBlZclWDsVKjAoufvbzhC2chdEfZziTq9OvAlc1VOrHqdIVh15Rp4Uby6eN5tYMLnuI1HjsHT5UrIxiqzsQvPHpvjso5WYwCucRaz4o5zs+fAnW9RYJcGYWgTcQCVKdwbC6DKmRRgEqqttNZyKX6ggXcFEZpjBnp6MSbWkRTSl1ht1iMwEbTJeznYESJZeSKrZroLKiMBODRoy/EYMpbiOWrT1HbsNQCLQEkXUutchUK5O1I8C7AEywMm0IsvED3CTp7265FVDOwWHYwoiRgU8z4WYxysR//Wx+8/74HHZ42Iaw7eMfS36hcPbsoe61P2Q6Ge8///vgj71zH4P4EzyU1Kodtu9MaACmLg+7KGXmrBCnLKeDXDqgjps5nzy9PZPVSkQ6W8Dh3RMLtnS5cGmQ/yzaLXGDrQ89lyqUjiiPgv6JaGSRJRjrwvE/xvDUU2NqytJiqihYzo1EUAaPHQ0nPyAtJeNkp7NisHgs2K4w2fpZaDgx/6GfQI1ibk50Cw4itqlCx4HG8HCMAssbhP9vMK76OpqRErOPoIu4HSqyPeMzYyi68AsBYUFkxkpGF1B1kDbIoyQhDGLGlQILpDg9MW6UKSxSbkQgxKgle5XThtUkZ6gMwMoLZw/J8Om+wmL/sesMFgWxxWJLqETLKXKku54UCGG0oeAzsYgkS1TpSHiN6vKBsOi+8x4uyW2oLwoJ/2VBxmTaWDiBOC75dU8Ak1aNzDjKwwAoW0oLHn5GXOBoCydHnckwBUNKmjp9R5bzx64heXuDreTFXecbsQoCNXazgSeEs2NKVxy7ElF267Ac+A5f6wSjYVrjSubSA0LSVVA8eEsbKxIO5nQDvwkXEOhy8NkmxatjTisJOROF3RmAA3nqsA8tmVyEJoxjkhCJESSlGIgSnCuGxUSDxG7lYhMyF2+7hYyKmqPmUsmkYQU2VYvugNjWypGQRTllwXjws6Y2FDNUNsKRgBAlAU4BKoqiQiCJ42I1grbUs1lQ4i3D6FhYVQFT3vBvBiXHNTvd/Wd1g3FSwzds8r1cxb9Sdw2BZVHXKRTt753Si+Qm/PiBSHvO3v/UNVJ5C9TjFn52kVp03CbtI+vu7g+QrAI1Pnvhav196X4J0zlLfnOS3Ezsr9IhWwSd29hxmTc3hHM/ldmtqcu/uvBdIW2CAKkxUDaCpZ8/n7XYysiNxlBxxzGJZTtSJ9Ett58/douC5dOr0otSp7akMazLFeDvs+euCyzQv5Ofrc/7C0eXJZkEV2yvxzpazWVl0Jx3BrxingaowJwqqfQoA2K5JFkXuTsgyq3yeiunUIwM8FrP1ZAEuKfAKZjzOPfyMRrq8oii8Z9PNqSEWUgpFpuMXAmNkYQ9mjF+Hb17ccseCKYRdGZiBXV4Zgds2keBHG2cWeomAWZqyKJWwYDCNB9Vs1+vj92XYqEM1z8YUIFxHuaKKbXjPQak81T59MWcWsL9Dm94smJ14FLI8vrgyQSKR0bMrFoV1CGoHybgU73OqezKe5wEIrX9Z6K2JKRJlo1QnaRGMMHiMMVMIchiKqJS86ewaGdwRGN6ELlYiombGvNqXhb6r136rESGQ1SyFfVi4Rkyd3XYgvHCXBSMjNqNAhMTDU5ZEUbkoLBXQeKnyHHFeRmPHEVLePrOcHQl8ucqiQnjnGmTeBw/nqwZ4LYhi3B5cMUzrCw9YiWrQ72OBAW8KXuKM0yCldHQiBNIyClEeS8tIjwRAJewtHb01LxeqWlMPXcZ5scUECEU+OuEWc7PcGnDZZuQiLHSJSUgkBbKEUSEjr07CFx4gvdWBh+yyFTKq8gq/mUWp9XnOgllcJBjsEkgusRSwoqoWzAaydTTIy8jLSPF9EEKEe3zBqAzFWEdTJKZ0IbK0EbvtryVOPOcB6YS7XgsURbTJAuO7A+xX5XknhUo85Xry6WMf8rVZI1QYkg6KqO2dwqWwuzPMrX2XGh6S96Sa7cIyoHNQqoEerauk98o4f2IWCE/OagxGd4fn8mCFRSJedko8jNeQ+Urc2T/3Zz+REzsnoRCjtP6TxZQAWPpOXe1z2eXseudC205gZxRFsYz0qu0Q17h+iRAZY8YArzUtI+ww4a/+UpQFWzKF3brVajhApuwwCJEYK8lIpMNfLzCKIUN4HktJBODAWRAYU3+7+uTxp589fWLHQIote/ySUuqFIsRIlC0XhSsvl9gKo/PSq6QoSVVbbK7CeUmxRiLWVZexXWFaYdawpItngbH43oDtlO+i40MpjEN6xPpUoe0mIxuSSxvm18ucx3rYMDjujIfz8i4b2Z8+n1OM4ioJpn46ng4ufkZRLFbmMMxuJCw1xSvEeipgluxcbbgY27SQSWVXZyQxB4aX/Ve/+jhCRkgwI11qO0T7MGoDZjddWHl55cKg7PYVmMevKmljBAOgRE4BxkOqkzeAEQk7WjzHfLl5KMa0VeLKi9DyGblYDuVwSmGTaEEZuRijbZVclKRwaLylSzG+mxTelM5OgJFIuscFPzZ2SMcOIQWmZeQVRZeOAmmteNUmxGaofjBRXCyL5wJDaBQiVuWmwLf/03/+s/nnCGVFGrxF1qTSp7e351EJFhEAxBSYiF0jnYXrxdN5aUuThMKoODKR5/CwiMIsZPAvJgvXEjJKLZyFPSQLEYKDhYs4tHYGxbXJW8NNz/6el5WBxSJ5dm6flHiMerGTOmcQqk3Gsx6z7UQVS4FkKRanY2xleClGudyEvvnN35bXbQkMj2PgW5HwN8WA3xHqIE1rz+aJIK+MvAjpYXgrQGoCRnqfsM8/8XbFtySKqWD7QXjX6OPVgmc1c+ttN+DxEyTbu7UHK9xNB+b5q7nwEblEyQKsNWL7ygKMRJ0Cuc5TsreePZ9viGAXqEU18Ip18gpESwfglUN5pniseZ8y9ljBgkB2clYScps4HnmRHPLLjpdCebMgZ1sjx6kAJOXKywIpVjpgDPAsyIVM49fHAVwCjXuAwLLgxCOc4vWrCMtinHuRHTjPwOfgjqUT7M0tX8o9P6l1FlMNSGAk1azWKoax1EgwK0/LlLyS2sxiWdDyztY5ry+ZskuXQKIiFAKDIUx4/Ad5uSVzWe1qzkUXglMW+rDMtW4+tRDMW3Hy4knhJv2BGpz+4HywAc+KFwO55NJ4pVKE6wjtvQdzOQYuI6Ni8HjPkdUGYycsdDzWmJ4R2DLitGI1rilU+kVCzuG4XIhM1QDguLu8trUA2D3E3G3j2QULr3R4ALic4JRZj3M1cCLwolJGqcsutWLAyCzFEUb9SgqDmZ2FjoEOSdGIksTmMmWMs43NIhcjgEec/aFBLMJqiESRX/3KfHMbNi9N82rB/qFgUCq7srWzi+Ydy5plxCacXV5gOhHOy1V271t+5+35/sxKLTuM7ABICKV+KylLqySvlrsLWhutoULCS+cSyy4dUQbRLxd7azXd8pk0P8gLevWbivhqZVyd5TfCN0TRuYAXzyuvaSTKooBV1uIzmiaFy8VOYu7ZG+M2go1uFeCtuFgW6yKEhWIFLQq7hWbhZcFAwlAqiRcPYyQyQroj2vcutbLgh3EYHAN7iN0frSLhLR0jNhsFxvF2LLEpg5FSajqwvAiNnc94krLTYbyMPMg7ozuQAi2wXAjBkpCHUHfTPotGUipMFopdISOlAoSUsdF0RS4hrTkjPZf9JvbV61klXnbZFMOL1rnJS3ir0JLR1Wm0/naqEC5lsNDzAsRg+i9K9XBVkhRCSsS460CvTrB0LjphN3rAfOq8/E3bKtkb6unUciAUZrqx7RxTuTq1LveHc0xDttQ+LKxIL3Z1u6o8GcNUQHXWtXrQCiHIM2YxisqiWkiBKXgiqaRWAMC+MqqQJTyGEzKrxKJIIgotxeaMkKvslPM+fPPL35zcrso1rl+XLMbnr+bhF1gjxYGhW0mHOzt+GS8n3ZVHbA02wiTZywurSIG6tkpNubBVQLBr6PybhZc4lEZRwvFQeCOJjddPH9iTXRmcuW0DJS0+BmNGqcuCh5FOIW4SyNdFgXQINnVItEuepZGxRE0RhlSnI2XqamOsux2B9ah+49K2Q4DDG2+6fPAGJwbpdC0LPABhx2NaSCNySCKk3o3EQWEpJELNdojZqwEnErHVKd3JM2tLAaMEKBfkTitjHnDBlZ6y7l0mlpsCD1wUe7GF34StrpOFiUrCl4JOIVGhhC9Fgcb1slsLU0YNnB4uZw5X54M1AvCgoLWjq8FoLYgPRLmhv31/HoM/e/lEM7wPzt9XfWvDrICv4XBazpk6pbx6/kI17m/2B/FswDv9PHnyKNu3H3368tU7777z5S9+ycv6X3rvi1//ylc/+pTnl7/4xfwZTArXC3+UUpunFN5sOC+tvJrHFDrwf2spuzoBWhl9TWHnC+tqX0mKJ63PqyfnEM4FZ3ZMLutwLgsD8R8ZnvPNFF7hmD9AXR/ZyeWlB7GWQhk2kjrp8IlG5jJ1Pj0zuqV4PT957HUg49wcvW9Z6mMfV89Em7o5qc4X9vgjx737r95SwbnxO8QO4rlSf3J90Vw6x8tZrQyrpOWqqgwtmKr2UtY/+4fLQtW+8eyEy/0SVjjj1Hmee7EAG9ei5RYcjB0bKWmYfYbKXiA7cbz2rO66aSln4/l+9/NqEpJ4pCD3vJP2etYJr9R4jJgjF5JipNdONTeViwuhUSI87ABWjyVhSWLmBUsAcvVveDAChvbqvTyqBeDq2ZXbVVOHW2EIhaihENPeyH7I3ng1hf1m0nJZRlkGfIQSlS9UoSMsxRyG6wOjSNBuFAwSgTaMNbdnmrLUAiRMgYxoEVsiJPAEzEqy0BnVEqezoFhTAGFdl5EQXlJftWmEia2O1t4U3hIRtCXaqkJml06/LJIGEG6KvCiA6eGMKqkGSMwAkRjZYYgTip1osEqMrVL8MKaEgtDtCr8aWFpPzFyWCJ6SIAGedubhxyWXLGKJWA/fkejaKAQ4UQaqqg3Ma8peYIkq9RQ+A1cWY0aWCSx3vq0s5V8cl5GX3pjyL+IVvfnKHWyrVId1aY0o1g2McckZK1JgRVMyIvf8xGIBswSgs9vQFC4h252lJIuk8wKzWGijkJWqjafNBOOhjVf2hMjVEyb3MJhIPC7/2ttfc0+yaRx7h8ToWTmwQLmk0DhmqRmJDwawl9S0Tk2Pc4aKF5iLwtgo0LrZRYdhIz5X4im2mpHYXfBJnDezWK3NXlWNv7GSYYRrhG4keOj45eqAXho7FC2REDMjEWJ9lNdmEK6qqjXKSCif93ND48KTARUFUgoMdBbT9FPS5Y8upQagyO6AenN6JAjhHTJGXrcrukNMOmTxONYCuTTILlagEN/7LilMbKVQz2Agrg8bpSBgygtsrP4C2YUQikS8kdiBSMSyE9kP0+dntXA8CR1YLAy9cYqYMi6nCST+BEYWI8GMv5C9XZnCexQCxlvNYznidlUuo7Vjj8o4dv/duOXkHftlHYaQ0TSLUZ2VwZ4sIRe89QFzFIymqqIs8hR1GeDZTYyn/Vkli+lutPYySgHmwaWXT/B3CjMCS1QLkCwCjbUghL7CRcq9RkhS5VxITNVMshuBBbJQIMPQHSBeLrpYAM/5bE7rw85SrJEI9BORYsEEmoKJpeuowuLnMuV9+WrWnzEGI53A0/Hwlp3FUvgYMqlCMLmqcCuhkPKCRRgDvb5MMRtJ+JNzBpYwRi7TjLJQ/j9nGvDexVYwcAAAAABJRU5ErkJggg==",
+      "text/plain": [
+       "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=570x380>"
+      ]
+     },
+     "execution_count": null,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Lets create a prompt.\n",
+    "\n",
+    "from io import BytesIO\n",
+    "import requests\n",
+    "from PIL import Image\n",
+    "\n",
+    "from sglang.srt.entrypoints.openai.protocol import ChatCompletionRequest\n",
+    "from sglang.srt.conversation import chat_templates\n",
+    "\n",
+    "image = Image.open(\n",
+    "    BytesIO(\n",
+    "        requests.get(\n",
+    "            \"https://github.com/sgl-project/sglang/blob/main/test/lang/example_image.png?raw=true\"\n",
+    "        ).content\n",
+    "    )\n",
+    ")\n",
+    "\n",
+    "conv = chat_templates[chat_template].copy()\n",
+    "conv.append_message(conv.roles[0], f\"What's shown here: {conv.image_token}?\")\n",
+    "conv.append_message(conv.roles[1], \"\")\n",
+    "conv.image_data = [image]\n",
+    "\n",
+    "print(conv.get_prompt())\n",
+    "print(f\"Image size: {image.size}\")\n",
+    "\n",
+    "image"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "12",
+   "metadata": {},
+   "source": [
+    "## Query via the offline Engine API"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "13",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Loading safetensors checkpoint shards:   0% Completed | 0/50 [00:00<?, ?it/s]\n",
+      "Loading safetensors checkpoint shards:   2% Completed | 1/50 [00:22<18:10, 22.26s/it]\n",
+      "Loading safetensors checkpoint shards:   4% Completed | 2/50 [00:44<17:44, 22.17s/it]\n",
+      "Loading safetensors checkpoint shards:   6% Completed | 3/50 [01:06<17:24, 22.22s/it]\n",
+      "Loading safetensors checkpoint shards:   8% Completed | 4/50 [01:28<16:55, 22.07s/it]\n",
+      "Loading safetensors checkpoint shards:  10% Completed | 5/50 [01:50<16:28, 21.96s/it]\n",
+      "Loading safetensors checkpoint shards:  12% Completed | 6/50 [02:11<15:59, 21.80s/it]\n",
+      "Loading safetensors checkpoint shards:  14% Completed | 7/50 [02:34<15:52, 22.14s/it]\n",
+      "Loading safetensors checkpoint shards:  16% Completed | 8/50 [02:54<15:05, 21.57s/it]\n",
+      "Loading safetensors checkpoint shards:  18% Completed | 9/50 [03:17<14:51, 21.74s/it]\n",
+      "Loading safetensors checkpoint shards:  20% Completed | 10/50 [03:29<12:31, 18.79s/it]\n",
+      "Loading safetensors checkpoint shards:  22% Completed | 11/50 [03:32<09:10, 14.13s/it]\n",
+      "Loading safetensors checkpoint shards:  24% Completed | 12/50 [03:36<06:53, 10.89s/it]\n",
+      "Loading safetensors checkpoint shards:  26% Completed | 13/50 [03:39<05:19,  8.65s/it]\n",
+      "Loading safetensors checkpoint shards:  28% Completed | 14/50 [03:43<04:15,  7.09s/it]\n",
+      "Loading safetensors checkpoint shards:  30% Completed | 15/50 [03:46<03:29,  6.00s/it]\n",
+      "Loading safetensors checkpoint shards:  32% Completed | 16/50 [03:50<02:57,  5.23s/it]\n",
+      "Loading safetensors checkpoint shards:  34% Completed | 17/50 [03:53<02:35,  4.73s/it]\n",
+      "Loading safetensors checkpoint shards:  36% Completed | 18/50 [03:57<02:18,  4.33s/it]\n",
+      "Loading safetensors checkpoint shards:  38% Completed | 19/50 [04:00<02:06,  4.09s/it]\n",
+      "Loading safetensors checkpoint shards:  40% Completed | 20/50 [04:04<01:56,  3.87s/it]\n",
+      "Loading safetensors checkpoint shards:  42% Completed | 21/50 [04:07<01:48,  3.74s/it]\n",
+      "Loading safetensors checkpoint shards:  44% Completed | 22/50 [04:11<01:43,  3.71s/it]\n",
+      "Loading safetensors checkpoint shards:  46% Completed | 23/50 [04:14<01:37,  3.63s/it]\n",
+      "Loading safetensors checkpoint shards:  48% Completed | 24/50 [04:18<01:33,  3.60s/it]\n",
+      "Loading safetensors checkpoint shards:  50% Completed | 25/50 [04:21<01:26,  3.45s/it]\n",
+      "Loading safetensors checkpoint shards:  52% Completed | 26/50 [04:21<01:02,  2.61s/it]\n",
+      "Loading safetensors checkpoint shards:  54% Completed | 27/50 [04:25<01:06,  2.91s/it]\n",
+      "Loading safetensors checkpoint shards:  56% Completed | 28/50 [04:28<01:07,  3.09s/it]\n",
+      "Loading safetensors checkpoint shards:  58% Completed | 29/50 [04:32<01:07,  3.20s/it]\n",
+      "Loading safetensors checkpoint shards:  60% Completed | 30/50 [04:35<01:05,  3.25s/it]\n",
+      "Loading safetensors checkpoint shards:  62% Completed | 31/50 [04:39<01:02,  3.30s/it]\n",
+      "Loading safetensors checkpoint shards:  64% Completed | 32/50 [04:42<01:00,  3.37s/it]\n",
+      "Loading safetensors checkpoint shards:  66% Completed | 33/50 [04:46<00:58,  3.45s/it]\n",
+      "Loading safetensors checkpoint shards:  68% Completed | 34/50 [04:49<00:55,  3.45s/it]\n",
+      "Loading safetensors checkpoint shards:  70% Completed | 35/50 [04:53<00:51,  3.45s/it]\n",
+      "Loading safetensors checkpoint shards:  72% Completed | 36/50 [04:56<00:48,  3.46s/it]\n",
+      "Loading safetensors checkpoint shards:  74% Completed | 37/50 [05:00<00:44,  3.45s/it]\n",
+      "Loading safetensors checkpoint shards:  76% Completed | 38/50 [05:03<00:41,  3.45s/it]\n",
+      "Loading safetensors checkpoint shards:  78% Completed | 39/50 [05:07<00:38,  3.50s/it]\n",
+      "Loading safetensors checkpoint shards:  80% Completed | 40/50 [05:10<00:34,  3.49s/it]\n",
+      "Loading safetensors checkpoint shards:  82% Completed | 41/50 [05:14<00:31,  3.49s/it]\n",
+      "Loading safetensors checkpoint shards:  84% Completed | 42/50 [05:17<00:27,  3.47s/it]\n",
+      "Loading safetensors checkpoint shards:  86% Completed | 43/50 [05:20<00:24,  3.43s/it]\n",
+      "Loading safetensors checkpoint shards:  88% Completed | 44/50 [05:24<00:20,  3.46s/it]\n",
+      "Loading safetensors checkpoint shards:  90% Completed | 45/50 [05:27<00:17,  3.44s/it]\n",
+      "Loading safetensors checkpoint shards:  92% Completed | 46/50 [05:31<00:13,  3.44s/it]\n",
+      "Loading safetensors checkpoint shards:  94% Completed | 47/50 [05:34<00:10,  3.43s/it]\n",
+      "Loading safetensors checkpoint shards:  96% Completed | 48/50 [05:38<00:06,  3.43s/it]\n",
+      "Loading safetensors checkpoint shards:  98% Completed | 49/50 [05:41<00:03,  3.45s/it]\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting sliding_window_size to be attention_chunk_size: 8192Setting sliding_window_size to be attention_chunk_size: 8192\n",
+      "\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Loading safetensors checkpoint shards: 100% Completed | 50/50 [05:44<00:00,  3.43s/it]\n",
+      "Loading safetensors checkpoint shards: 100% Completed | 50/50 [05:44<00:00,  6.90s/it]\n",
+      "\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting sliding_window_size to be attention_chunk_size: 8192\n",
+      "Setting sliding_window_size to be attention_chunk_size: 8192\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Capturing batches (bs=1 avail_mem=21.53 GB): 100%|██████████| 35/35 [00:15<00:00,  2.25it/s]  \n"
+     ]
+    }
+   ],
+   "source": [
+    "from sglang.test.test_utils import is_in_ci\n",
+    "\n",
+    "if not is_in_ci():\n",
+    "    from sglang import Engine\n",
+    "\n",
+    "    llm = Engine(\n",
+    "        model_path=model_path,\n",
+    "        trust_remote_code=True,\n",
+    "        enable_multimodal=True,\n",
+    "        mem_fraction_static=0.8,\n",
+    "        tp_size=4,\n",
+    "        attention_backend=\"fa3\",\n",
+    "        context_length=65536,\n",
+    "    )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "14",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "The image depicts a man ironing clothing on the back of a yellow SUV in a city street, with another yellow taxi passing by. The man is wearing a yellow shirt and appears to be ironing a blue shirt on a makeshift ironing board set up behind the SUV. The scene suggests that the man may be a street vendor or someone who is trying to make a living by providing ironing services to people on the go.\n"
+     ]
+    }
+   ],
+   "source": [
+    "if not is_in_ci():\n",
+    "    out = llm.generate(prompt=conv.get_prompt(), image_data=[image])\n",
+    "    print(out[\"text\"])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "15",
+   "metadata": {},
+   "source": [
+    "## Query via the offline Engine API, but send precomputed embeddings"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "16",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "0eae2e36d07d42b89bc4b5ac7d62f226",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Loading checkpoint shards:   0%|          | 0/50 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "if not is_in_ci():\n",
+    "    # Compute the image embeddings using Huggingface.\n",
+    "\n",
+    "    from transformers import AutoProcessor\n",
+    "    from transformers import Llama4ForConditionalGeneration\n",
+    "\n",
+    "    processor = AutoProcessor.from_pretrained(model_path, use_fast=True)\n",
+    "    model = Llama4ForConditionalGeneration.from_pretrained(\n",
+    "        model_path, torch_dtype=\"auto\"\n",
+    "    ).eval()\n",
+    "    vision = model.vision_model.cuda()\n",
+    "    multi_modal_projector = model.multi_modal_projector.cuda()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "17",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "processed_prompt[\"pixel_values\"].shape=torch.Size([5, 3, 336, 336])\n",
+      "The image depicts a man ironing on a makeshift ironing board set up on the back of a yellow SUV, in the middle of a busy street. The man is wearing a yellow shirt and appears to be ironing a blue shirt. In the background, there are other yellow taxis and tall buildings, suggesting that the scene is set in a city, likely New York City. The overall scene is one of a person going about their daily activities in a busy urban environment.\n"
+     ]
+    }
+   ],
+   "source": [
+    "if not is_in_ci():\n",
+    "    processed_prompt = processor(\n",
+    "        images=[image], text=conv.get_prompt(), return_tensors=\"pt\"\n",
+    "    )\n",
+    "    print(f'{processed_prompt[\"pixel_values\"].shape=}')\n",
+    "    input_ids = processed_prompt[\"input_ids\"][0].detach().cpu().tolist()\n",
+    "\n",
+    "    image_outputs = vision(\n",
+    "        processed_prompt[\"pixel_values\"].to(\"cuda\"), output_hidden_states=False\n",
+    "    )\n",
+    "    image_features = image_outputs.last_hidden_state\n",
+    "    vision_flat = image_features.view(-1, image_features.size(-1))\n",
+    "    precomputed_embeddings = multi_modal_projector(vision_flat)\n",
+    "\n",
+    "    mm_item = dict(modality=\"IMAGE\", precomputed_embeddings=precomputed_embeddings)\n",
+    "    out = llm.generate(input_ids=input_ids, image_data=[mm_item])\n",
+    "    print(out[\"text\"])"
+   ]
   }
  ],
  "metadata": {
diff --git a/docs/index.rst b/docs/index.rst
index be30619f265e..380b58b1b657 100644
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -62,6 +62,7 @@ The core features include:
    backend/quantization.md
    backend/lora.ipynb
    backend/pd_disaggregation.md
+   backend/vlm_query.ipynb
 
 .. toctree::
    :maxdepth: 1
diff --git a/python/sglang/srt/layers/multimodal.py b/python/sglang/srt/layers/multimodal.py
index 7c3067c55af2..0ddd567c0754 100644
--- a/python/sglang/srt/layers/multimodal.py
+++ b/python/sglang/srt/layers/multimodal.py
@@ -55,14 +55,17 @@ def gpu_tensor_hash(tensor: torch.Tensor) -> int:
 
     intermediate_hashes = torch.empty(n, dtype=torch.int64, device=tensor.device)
 
-    hash_kernel[grid](
-        tensor,
-        intermediate_hashes,
-        n,
-        BLOCK_SIZE=BLOCK_SIZE,
-        PRIME=PRIME_1,
-        XCONST=PRIME_2,
-    )
+    # Set cuda device to prevent ValueError: Pointer argument (at 0) cannot be accessed from Triton (cpu tensor?)
+    # Solution from Tri: https://github.com/Dao-AILab/flash-attention/issues/523#issuecomment-1707611579
+    with torch.cuda.device(tensor.device):
+        hash_kernel[grid](
+            tensor,
+            intermediate_hashes,
+            n,
+            BLOCK_SIZE=BLOCK_SIZE,
+            PRIME=PRIME_1,
+            XCONST=PRIME_2,
+        )
 
     # TODO: threads can't be synced on triton kernel
     final_hash = intermediate_hashes.sum().item()
diff --git a/python/sglang/srt/multimodal/processors/mllama4.py b/python/sglang/srt/multimodal/processors/mllama4.py
index fd22d384819f..6a01f2aebff1 100644
--- a/python/sglang/srt/multimodal/processors/mllama4.py
+++ b/python/sglang/srt/multimodal/processors/mllama4.py
@@ -22,12 +22,12 @@ def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
         super().__init__(hf_config, server_args, _processor, *args, **kwargs)
         self.vision_config = hf_config.vision_config
         self.text_config = hf_config.text_config
-        self.boi_token_index = hf_config.boi_token_index
-        self.eoi_token_index = hf_config.eoi_token_index
-        self.image_token_index = hf_config.image_token_index
-        self.multimodal_tokens = MultimodalSpecialTokens(
+        self.IM_START_TOKEN_ID = hf_config.boi_token_index
+        self.IM_END_TOKEN_ID = hf_config.eoi_token_index
+        self.IM_TOKEN_ID = hf_config.image_token_index
+        self.mm_tokens = MultimodalSpecialTokens(
             image_token=_processor.image_token,
-            image_token_id=self.image_token_index,
+            image_token_id=self.IM_TOKEN_ID,
         ).build(_processor)
 
     async def process_mm_data_async(
@@ -37,114 +37,21 @@ async def process_mm_data_async(
         *args,
         **kwargs,
     ):
-        if isinstance(input_text, list):
-            assert len(input_text) and isinstance(input_text[0], int)
-            input_text = self._processor.tokenizer.decode(input_text)
-
-        # Process images and text using the base processor's load_mm_data method
-        processed_data = self.load_mm_data(
+        base_output = self.load_mm_data(
             prompt=input_text,
-            multimodal_tokens=self.multimodal_tokens,
             image_data=image_data,
-            return_text=True,
+            multimodal_tokens=self.mm_tokens,
         )
 
-        # Process the images using the processor
-        processor = self._processor
-
         # Process the prompt and images
-        processor_output = self.process_mm_data(
-            input_text=processed_data.input_text,
-            images=processed_data.images,
-        )
-
-        # Handle image resolutions and aspect ratios
-        if "pixel_values" not in processor_output:  # no image processed
-            return None
-
-        image_processor = processor.image_processor
-        tokenizer = self._processor.tokenizer
-
-        # Calculate tile size and find supported resolutions
-        tile_size = self.vision_config.image_size
-        max_num_tiles = getattr(self.vision_config, "max_patches", 1)
-
-        possible_resolutions = find_supported_resolutions(
-            max_num_chunks=max_num_tiles,
-            patch_size=SizeDict(height=tile_size, width=tile_size),
+        mm_items, input_ids, _ = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
         )
 
-        # Find best fit for each image
-        best_fit_sizes = [
-            get_best_fit(
-                (image.size[1], image.size[0]),  # (height, width)
-                torch.tensor(possible_resolutions),
-                resize_to_max_canvas=image_processor.resize_to_max_canvas,
-            )
-            for image in processed_data.images
-        ]
-
-        # Calculate aspect ratios and patches per image
-        aspect_ratios = [
-            (image_size[0] // tile_size, image_size[1] // tile_size)
-            for image_size in best_fit_sizes
-        ]
-
-        patches_per_image = [
-            1 if r_h * r_w == 1 else 1 + r_h * r_w for (r_h, r_w) in aspect_ratios
-        ]
-
-        # Add to image_inputs
-        processor_output["aspect_ratios"] = aspect_ratios
-        processor_output["patches_per_image"] = torch.tensor(patches_per_image)
-
-        # Process embed_is_patch
-        vocab = tokenizer.get_vocab()
-        patch_id = vocab.get(processor.img_patch_token, -1)
-        image_end_id = vocab.get(processor.end_of_img_token, -1)
-
-        if patch_id != -1 and image_end_id != -1:
-            input_ids = processor_output["input_ids"].view(-1)
-
-            # Remove BOS token if present
-            if input_ids.size(0) > 0 and input_ids[0] == tokenizer.bos_token_id:
-                input_ids = input_ids[1:]
-
-            # Find image end indices and split input_ids
-            image_end_indices = (input_ids == image_end_id).nonzero().view(-1)
-
-            if image_end_indices.size(0) > 0:
-                # Split at image boundaries
-                split_indices = (image_end_indices + 1)[:-1]
-                split_input_ids = torch.tensor_split(input_ids, split_indices)
-                split_input_ids = [x for x in split_input_ids if x.numel() > 0]
-
-                # Create embed_is_patch for each image
-                embed_is_patch = []
-                for per_image_input_ids in split_input_ids:
-                    embed_is_patch.append(per_image_input_ids == patch_id)
-
-                processor_output["embed_is_patch"] = embed_is_patch
-
-        # Convert to the format expected by SGLang
-        processor_output["input_ids"] = processor_output["input_ids"].tolist()[0]
-
-        processor_output["im_start_id"] = self.boi_token_index
-        processor_output["im_end_id"] = self.eoi_token_index
-        processor_output["im_token_id"] = self.image_token_index
-
-        image_offsets = self.get_mm_items_offset(
-            input_ids=torch.tensor(processor_output["input_ids"]),
-            mm_token_id=self.image_token_index,
-        )
-
-        # Add metadata for image processing
-        processor_output["mm_items"] = [
-            MultimodalDataItem(
-                feature=processor_output["pixel_values"],
-                modality=Modality.IMAGE,
-                offsets=image_offsets,
-            )
-        ]
-
-        return processor_output
+        return {
+            "input_ids": input_ids.tolist(),
+            "mm_items": mm_items,
+            "im_start_id": self.IM_START_TOKEN_ID,
+            "im_end_id": self.IM_END_TOKEN_ID,
+            "im_token_id": self.IM_TOKEN_ID,
+        }
diff --git a/test/srt/test_vlm_input_format.py b/test/srt/test_vlm_input_format.py
index b2cf0073d806..4f9ad64c3294 100644
--- a/test/srt/test_vlm_input_format.py
+++ b/test/srt/test_vlm_input_format.py
@@ -216,5 +216,43 @@ def _pixel_values_image_data(self, processor_output):
         )
 
 
+# not for CI: too large
+# class TestLlama4ImageUnderstandsImage(
+#     VLMInputTestBase, unittest.IsolatedAsyncioTestCase
+# ):
+#     model_path = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
+#     chat_template = "llama_4_vision"
+
+#     def setUp(self):
+#         self.engine = Engine(
+#             model_path=self.model_path,
+#             trust_remote_code=True,
+#             chat_template=self.chat_template,
+#             enable_multimodal=True,
+#             mem_fraction_static=0.8,
+#             tp_size=4,
+#             attention_backend="fa3",
+#             context_length=65536,
+#         )
+
+#     @classmethod
+#     def _init_visual(cls):
+#         model = AutoModel.from_pretrained(cls.model_path, trust_remote_code=True, torch_dtype="auto")
+#         cls.vision_tower = model.vision_model.eval().to(cls.device)
+#         cls.mm_projector = model.multi_modal_projector.eval().to(cls.device)
+
+#         cls.visual = lambda tokenizer_output: cls.mm_projector(
+#             cls.vision_tower(
+#                 pixel_values=tokenizer_output["pixel_values"],
+#             ).last_hidden_state.flatten(0, -2)
+#         )
+
+#     def _pixel_values_image_data(self, processor_output):
+#         return dict(
+#             modality="IMAGE",
+#             pixel_values=processor_output["pixel_values"],
+#         )
+
+
 if __name__ == "__main__":
     unittest.main()

From 4d921f2b7916c4ccc660a26cda4fd3e47f3d8536 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sun, 27 Jul 2025 01:24:10 -0700
Subject: [PATCH 167/396] [hotfix] fix merge conflicts in FlashInferEPMoE
 (#8405)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index e99946869ac3..6aa83dc00d55 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1236,6 +1236,7 @@ def __init__(self, *args, **kwargs):
         self.num_expert_group = num_expert_group
         self.topk_group = topk_group
         self.correction_bias = correction_bias
+        self.use_flashinfer_trtllm_moe = use_flashinfer_trtllm_moe
 
     def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
         assert use_flashinfer_trtllm_moe

From bf3352c5592357369f08d7acd2fe14225b582524 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sun, 27 Jul 2025 01:39:36 -0700
Subject: [PATCH 168/396] chore: update CODEOWNERS (#8407)

---
 .github/CODEOWNERS | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 9d640b90b60f..bc29df4ad9ac 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -6,7 +6,7 @@
 /python/sglang/srt/constrained @hnyls2002
 /python/sglang/srt/disaggregation @ByronHsu @hnyls2002
 /python/sglang/srt/distributed @yizhang2077
-/python/sglang/srt/entrypoints @zhaochenyang20 @CatherineSue
+/python/sglang/srt/entrypoints @ispobock @CatherineSue @slin1237
 /python/sglang/srt/eplb @fzyzcjy
 /python/sglang/srt/function_call @CatherineSue
 /python/sglang/srt/layers @merrymercy @Ying1123 @zhyncs @ispobock @HaiShaw @ch-wan @BBuf
@@ -14,11 +14,11 @@
 /python/sglang/srt/managers @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/mem_cache @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/model_executor @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock
-/python/sglang/srt/models @zhyncs @ispobock @ByronHsu @zhaochenyang20
+/python/sglang/srt/models @zhyncs @ispobock @ByronHsu @JustinTong0323
 /python/sglang/srt/multimodal @mickqian @JustinTong0323
 /python/sglang/srt/sampling @hnyls2002
 /python/sglang/srt/speculative @Ying1123 @merrymercy @rkooo567 @kssteven418
 /test/lang @merrymercy @Ying1123
 /test/srt @merrymercy @Ying1123 @zhyncs
 /sgl-router @ByronHsu @slin1237
-/sgl-kernel @zhyncs @ispobock @HandH1998 @BBuf @yizhang2077 @merrymercy @yinfan98 @HaiShaw
+/sgl-kernel @zhyncs @ispobock @HandH1998 @BBuf @yizhang2077 @merrymercy @FlamingoPg @HaiShaw

From 10ee89559ee4bf0f17b919ea10fa854f50b7036c Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sun, 27 Jul 2025 01:41:22 -0700
Subject: [PATCH 169/396] chore: upgrade flashinfer v0.2.9rc2 (#8406)

---
 python/pyproject.toml                   | 4 ++--
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 3dfa9d258600..09ba2ee20a99 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -60,7 +60,7 @@ srt = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.9rc1",
+    "flashinfer_python==0.2.9rc2",
 ]
 
 blackwell = [
@@ -71,7 +71,7 @@ blackwell = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.9rc1",
+    "flashinfer_python==0.2.9rc2",
 ]
 
 # HIP (Heterogeneous-computing Interface for Portability) for AMD
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 4e1525544999..c038e87fc23e 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -640,7 +640,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if server_args.attention_backend == "flashinfer":
         assert_pkg_version(
             "flashinfer_python",
-            "0.2.9rc1",
+            "0.2.9rc2",
             "Please uninstall the old version and "
             "reinstall the latest version by following the instructions "
             "at https://docs.flashinfer.ai/installation.html.",

From b3eac168e7de5305a657fb3e114a26320f1def44 Mon Sep 17 00:00:00 2001
From: Yuan Luo <yuan.luo@hotmail.com>
Date: Sun, 27 Jul 2025 17:28:49 +0800
Subject: [PATCH 170/396] Support triton kernels v3.4.0 for fused_moe (#8258)

Co-authored-by: luoyuan.luo <luoyuan.luo@antgroup.com>
Co-authored-by: Cheng Wan <cwan@x.ai>
Co-authored-by: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
---
 .../fused_moe_triton/triton_kernels_moe.py    |  19 ++--
 python/sglang/srt/layers/moe/topk.py          | 106 ++++++++++++++----
 .../sglang/srt/layers/quantization/unquant.py |  24 ++--
 3 files changed, 109 insertions(+), 40 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
index 57b7f20f0a04..d0f90f2d8fe0 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
@@ -1,21 +1,25 @@
 # Adapted from https://github.com/vllm-project/vllm/pull/18595/files#diff-f426a6de78c82ffec568eff6811bfbf0043dab5f87f1a8c0cffdbdcb8a81e035
-from typing import Optional
+
+from __future__ import annotations
+
+from typing import TYPE_CHECKING, Optional
 
 import torch
 from sgl_kernel import gelu_and_mul, silu_and_mul
 from triton_kernels.matmul_ogs import matmul_ogs
-from triton_kernels.routing import GatherIndx, RoutingData, ScatterIndx, routing
+from triton_kernels.routing import GatherIndx, RoutingData, ScatterIndx
 
 from sglang.srt.utils import direct_register_custom_op
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
 
 def triton_kernel_moe_forward(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
     w2: torch.Tensor,
-    gating_output: torch.Tensor,
-    topk: int,
-    renormalize: bool,
+    topk_output: TopKOutput,
     inplace: bool = False,
     activation: str = "silu",
     apply_router_weight_on_input: bool = False,
@@ -30,9 +34,8 @@ def triton_kernel_moe_forward(
     block_shape: Optional[list[int]] = None,
 ) -> torch.Tensor:
 
-    if not renormalize:
-        gating_output = torch.softmax(gating_output, dim=-1)
-    routing_data, gather_idx, scatter_idx = routing(gating_output, topk, renormalize)
+    assert topk_output.format.is_triton_kernel()
+    routing_data, gather_idx, scatter_idx = topk_output
 
     return triton_kernel_fused_experts(
         hidden_states,
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index 253c269b69df..475066a1c4bb 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -15,7 +15,8 @@
 from __future__ import annotations
 
 import math
-from typing import Callable, NamedTuple, Optional
+from enum import Enum, auto
+from typing import Callable, NamedTuple, Optional, Protocol, runtime_checkable
 
 import torch
 import torch.nn.functional as F
@@ -27,6 +28,7 @@
     ExpertLocationDispatchInfo,
     topk_ids_logical_to_physical,
 )
+from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.utils import (
     cpu_has_amx_support,
     get_bool_env_var,
@@ -37,6 +39,12 @@
     is_npu,
 )
 
+try:
+    from triton_kernels.routing import GatherIndx, RoutingData, ScatterIndx, routing
+except ImportError:
+    pass
+
+
 _is_cuda = is_cuda()
 _is_hip = is_hip()
 _is_cpu = is_cpu()
@@ -58,15 +66,58 @@
     import torch_npu
 
 
-class TopKOutput(NamedTuple):
+# -------------------------------- TopKOutput ---------------------------------------
+
+
+class TopKOutputFormat(Enum):
+    STANDARD = auto()
+    TRITON_KERNEL = auto()
+
+    def is_standard(self) -> bool:
+        return self == TopKOutputFormat.STANDARD
+
+    def is_triton_kernel(self) -> bool:
+        return self == TopKOutputFormat.TRITON_KERNEL
+
+
+@runtime_checkable
+class TopKOutput(Protocol):
+    """Protocol for top-k outputs in different formats."""
+
+    @property
+    def format(self) -> TopKOutputFormat:
+        """The format of the output."""
+        ...
+
+
+class StandardTopKOutput(NamedTuple):
+    """Standard top-k output format."""
+
     topk_weights: torch.Tensor
     topk_ids: torch.Tensor
     router_logits: torch.Tensor
 
+    @property
+    def format(self) -> TopKOutputFormat:
+        return TopKOutputFormat.STANDARD
 
-class TopK(CustomOp):
 
-    # TODO(ch-wan): support triton_kernels
+class TritonKernelTopKOutput(NamedTuple):
+    """Triton kernel top-k output format."""
+
+    routing_data: RoutingData
+    gather_indx: GatherIndx
+    scatter_indx: ScatterIndx
+
+    @property
+    def format(self) -> TopKOutputFormat:
+        return TopKOutputFormat.TRITON_KERNEL
+
+
+# -------------------------------- TopK ---------------------------------------
+
+
+class TopK(CustomOp):
 
     def __init__(
         self,
@@ -97,6 +148,8 @@ def __init__(
         self.correction_bias = correction_bias
         self.routed_scaling_factor = routed_scaling_factor
 
+        self.use_triton_kernels = global_server_args_dict["enable_triton_kernel_moe"]
+
     def forward_native(
         self,
         hidden_states: torch.Tensor,
@@ -131,23 +184,29 @@ def forward_cuda(
         num_token_non_padded: Optional[torch.Tensor] = None,
         expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
     ) -> TopKOutput:
-        torch_native = False
-        return select_experts(
-            hidden_states=hidden_states,
-            router_logits=router_logits,
-            top_k=self.top_k,
-            use_grouped_topk=self.use_grouped_topk,
-            renormalize=self.renormalize,
-            topk_group=self.topk_group,
-            num_expert_group=self.num_expert_group,
-            num_fused_shared_experts=self.num_fused_shared_experts,
-            custom_routing_function=self.custom_routing_function,
-            correction_bias=self.correction_bias,
-            torch_native=torch_native,
-            routed_scaling_factor=self.routed_scaling_factor,
-            num_token_non_padded=num_token_non_padded,
-            expert_location_dispatch_info=expert_location_dispatch_info,
-        )
+        if self.use_triton_kernels:
+            routing_data, gather_idx, scatter_idx = routing(
+                router_logits, self.top_k, self.renormalize
+            )
+            return TritonKernelTopKOutput(routing_data, gather_idx, scatter_idx)
+        else:
+            torch_native = False
+            return select_experts(
+                hidden_states=hidden_states,
+                router_logits=router_logits,
+                top_k=self.top_k,
+                use_grouped_topk=self.use_grouped_topk,
+                renormalize=self.renormalize,
+                topk_group=self.topk_group,
+                num_expert_group=self.num_expert_group,
+                num_fused_shared_experts=self.num_fused_shared_experts,
+                custom_routing_function=self.custom_routing_function,
+                correction_bias=self.correction_bias,
+                torch_native=torch_native,
+                routed_scaling_factor=self.routed_scaling_factor,
+                num_token_non_padded=num_token_non_padded,
+                expert_location_dispatch_info=expert_location_dispatch_info,
+            )
 
     def forward_cpu(
         self,
@@ -217,6 +276,9 @@ def forward_npu(
             )
 
 
+# ------------------------------- TopK implementation -------------------------------------
+
+
 def fused_topk_torch_native(
     hidden_states: torch.Tensor,
     gating_output: torch.Tensor,
@@ -680,4 +742,4 @@ def select_experts(
 
     get_global_expert_distribution_recorder().on_select_experts(topk_ids=topk_ids)
 
-    return TopKOutput(topk_weights, topk_ids, router_logits)
+    return StandardTopKOutput(topk_weights, topk_ids, router_logits)
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index 121d5b714a47..a307fcc11f8a 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -130,6 +130,14 @@ def __init__(self, use_triton_kernels: bool = False):
         super().__init__()
         self.use_triton_kernels = use_triton_kernels
 
+        self.triton_kernel_moe_forward = None
+        if torch.cuda.is_available() and has_triton_kernels:
+            from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
+                triton_kernel_moe_forward as _tk_forward,
+            )
+
+            self.triton_kernel_moe_forward = _tk_forward
+
     def create_weights(
         self,
         layer: torch.nn.Module,
@@ -229,16 +237,12 @@ def forward_cuda(
     ) -> torch.Tensor:
 
         if self.use_triton_kernels:
-            # TODO(ch-wan): re-enable the Triton kernel
-            raise NotImplementedError("The Triton kernel is temporarily disabled.")
-            # return triton_kernel_moe_forward(
-            #     hidden_states=x,
-            #     w1=layer.w13_weight,
-            #     w2=layer.w2_weight,
-            #     gating_output=router_logits,
-            #     topk=top_k,
-            #     renormalize=renormalize,
-            # )
+            return self.triton_kernel_moe_forward(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_output=topk_output,
+            )
         else:
             if _use_aiter:
                 assert not no_combine, "unsupported"

From 22e00eeb4a4cb3a81e930619649234e34e8bd5fd Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Mon, 28 Jul 2025 00:17:51 +0800
Subject: [PATCH 171/396] [Bugfix] Prevent PD server crash from invalid grammar
 (#8062)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 .../disaggregation/decode_schedule_batch_mixin.py  | 14 +++++++++++++-
 python/sglang/srt/disaggregation/prefill.py        | 14 +++++++++++++-
 2 files changed, 26 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py b/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py
index e1d6f61cc409..3edc6b4f631f 100644
--- a/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py
+++ b/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py
@@ -1,10 +1,12 @@
 from __future__ import annotations
 
 import logging
+from http import HTTPStatus
 from typing import TYPE_CHECKING
 
 import torch
 
+from sglang.srt.disaggregation.utils import prepare_abort
 from sglang.srt.model_executor.forward_batch_info import CaptureHiddenMode, ForwardMode
 from sglang.srt.sampling.sampling_batch_info import SamplingBatchInfo
 
@@ -102,7 +104,17 @@ def process_prebuilt_extend(
             self.output_ids.append(req.output_ids[-1])
             self.tree_cache.cache_unfinished_req(req)
             if req.grammar is not None:
-                req.grammar.accept_token(req.output_ids[-1])
+                # FIXME: this try-except block is for handling unexpected xgrammar issue.
+                try:
+                    req.grammar.accept_token(req.output_ids[-1])
+                except ValueError as e:
+                    # Grammar accept_token can raise ValueError if the token is not in the grammar.
+                    # This can happen if the grammar is not set correctly or the token is invalid.
+                    error_message = f"Grammar accept_token failed for req {req.rid} with token {req.output_ids[-1]}: {e}"
+                    self.tree_cache.cache_finished_req(req)
+                    prepare_abort(
+                        req, error_message, status_code=HTTPStatus.INTERNAL_SERVER_ERROR
+                    )
                 req.grammar.finished = req.finished()
         self.output_ids = torch.tensor(self.output_ids, device=self.device)
 
diff --git a/python/sglang/srt/disaggregation/prefill.py b/python/sglang/srt/disaggregation/prefill.py
index bf61644cf6df..8217bd44c60f 100644
--- a/python/sglang/srt/disaggregation/prefill.py
+++ b/python/sglang/srt/disaggregation/prefill.py
@@ -425,7 +425,19 @@ def process_batch_result_disagg_prefill(
                 self.send_kv_chunk(req, last_chunk=True)
 
                 if req.grammar is not None:
-                    req.grammar.accept_token(next_token_id)
+                    # FIXME: this try-except block is for handling unexpected xgrammar issue.
+                    try:
+                        req.grammar.accept_token(next_token_id)
+                    except ValueError as e:
+                        # Grammar accept_token can raise ValueError if the token is not in the grammar.
+                        # This can happen if the grammar is not set correctly or the token is invalid.
+                        error_message = f"Grammar accept_token failed for req {req.rid} with token {next_token_id}: {e}"
+                        self.tree_cache.cache_finished_req(req)
+                        prepare_abort(
+                            req,
+                            error_message,
+                            status_code=HTTPStatus.INTERNAL_SERVER_ERROR,
+                        )
                     req.grammar.finished = req.finished()
             else:
                 # being chunked reqs' prefill is not finished

From 95217a9b4d6cbc4c399758d1578167f69d14b5b6 Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Sun, 27 Jul 2025 12:48:12 -0700
Subject: [PATCH 172/396] Change to use native arm runner (#8414)

---
 .github/workflows/release-docker-gb200.yml | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/.github/workflows/release-docker-gb200.yml b/.github/workflows/release-docker-gb200.yml
index 69aee635e644..29b980cd6619 100644
--- a/.github/workflows/release-docker-gb200.yml
+++ b/.github/workflows/release-docker-gb200.yml
@@ -10,7 +10,7 @@ on:
 jobs:
   publish:
     if: github.repository == 'sgl-project/sglang'
-    runs-on: ubuntu-latest
+    runs-on: ubuntu-22.04-arm
     environment: 'prod'
     steps:
       - name: Delete huge unnecessary tools folder
@@ -19,9 +19,6 @@ jobs:
       - name: Checkout repository
         uses: actions/checkout@v4
 
-      - name: Set up QEMU
-        uses: docker/setup-qemu-action@v3
-
       - name: Set up Docker Buildx
         uses: docker/setup-buildx-action@v3
 

From df906455251569d7a58d03f6bca6d73357628cd9 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sun, 27 Jul 2025 13:00:44 -0700
Subject: [PATCH 173/396] Support overlapped lora updates  (#8213)

---
 python/sglang/srt/lora/lora_registry.py       | 120 ++++++++++++++----
 .../sglang/srt/managers/tokenizer_manager.py  |  29 ++++-
 python/sglang/srt/utils.py                    |  87 +++++++++++++
 test/srt/test_bench_serving.py                |   3 +-
 4 files changed, 204 insertions(+), 35 deletions(-)

diff --git a/python/sglang/srt/lora/lora_registry.py b/python/sglang/srt/lora/lora_registry.py
index 59ac917d22d4..c063fefae48d 100644
--- a/python/sglang/srt/lora/lora_registry.py
+++ b/python/sglang/srt/lora/lora_registry.py
@@ -14,10 +14,14 @@
 
 
 import asyncio
+from collections import defaultdict
 from dataclasses import dataclass, field, fields
 from typing import Dict, List, Optional, Union
 from uuid import uuid4
 
+from sglang.srt.aio_rwlock import RWLock
+from sglang.srt.utils import ConcurrentCounter
+
 
 @dataclass(frozen=True)
 class LoRARef:
@@ -48,10 +52,11 @@ def __str__(self) -> str:
 
 class LoRARegistry:
     """
-    The central registry to keep track of available LoRA adapters.
+    The central registry to keep track of available LoRA adapters and ongoing LoRA requests.
 
-    TODO (lifuhuang): This registry is intended as the foundation for overlapped lora update. We decided
-    to keep it in a separate PR to keep code review simple and to unblock the radix cache work.
+    The `LoRARegistry` resides in the tokenizer manager process and acts as the single source of truth for all
+    available LoRA adapters. It supports concurrent inference and dynamic adapter updates through a two-phase
+    update / eventual consistency model between the tokenizer manager process and the scheduler processes.
     """
 
     def __init__(self, lora_paths: Optional[Dict[str, LoRARef]] = None):
@@ -62,8 +67,19 @@ def __init__(self, lora_paths: Optional[Dict[str, LoRARef]] = None):
             "Please file an issue if you see this error."
         )
 
+        # A read-write lock to ensure adapters loading / unloading operations are exclusive.
+        # Please note that the counter increment/decrement operations are not synchronized through this
+        # lock, as they are designed to be non-blocking and can be performed concurrently.
+        self._registry_lock = RWLock()
         # A dictionary to hold LoRARef objects, mapping from LoRA name to LoRARef.
-        self._registry: Dict[str, LoRARef] = dict(lora_paths or {})
+        self._registry: Dict[str, LoRARef] = {}
+        # Counters for ongoing requests, mapping from LoRA ID to ConcurrentCounter.
+        self._counters: Dict[str, ConcurrentCounter] = {}
+
+        # Initialize the registry with provided LoRA paths, if present.
+        if lora_paths:
+            for lora_ref in lora_paths.values():
+                self._register_adapter(lora_ref)
 
     async def register(self, lora_ref: LoRARef):
         """
@@ -72,11 +88,8 @@ async def register(self, lora_ref: LoRARef):
         Args:
             lora_ref (LoRARef): The LoRARef object to register.
         """
-        if lora_ref.lora_name in self._registry:
-            raise ValueError(
-                f"LoRA with name {lora_ref.lora_name} already exists. Loaded LoRAs: {self._registry.keys()}"
-            )
-        self._registry[lora_ref.lora_name] = lora_ref
+        async with self._registry_lock.writer_lock:
+            self._register_adapter(lora_ref)
 
     async def unregister(self, lora_name: str) -> str:
         """
@@ -85,12 +98,14 @@ async def unregister(self, lora_name: str) -> str:
         Args:
             lora_name (str): The name of the LoRA model to unregister.
         """
-        lora_ref = self._registry.get(lora_name, None)
-        if lora_ref is None:
-            raise ValueError(
-                f"LoRA with name {lora_name} does not exist. Loaded LoRAs: {self._registry.keys()}"
-            )
-        del self._registry[lora_name]
+        async with self._registry_lock.writer_lock:
+            lora_ref = self._registry.get(lora_name, None)
+            if lora_ref is None:
+                raise ValueError(
+                    f"LoRA with name {lora_name} does not exist. Loaded LoRAs: {self._registry.keys()}"
+                )
+            del self._registry[lora_name]
+            del self._counters[lora_ref.lora_id]
 
         return lora_ref.lora_id
 
@@ -98,27 +113,76 @@ async def acquire(self, lora_name: Union[str, List[str]]) -> Union[str, List[str
         """
         Queries registry for LoRA IDs based on LoRA names and start tracking the usage of the corresponding LoRA adapters
         by incrementing its counter.
-
-        TODO (lifuhuang): currently it only queries the registry and does not track the usage of LoRA adapters.
         """
 
-        async def _acquire_single(name: str) -> str:
+        def _lookup(name: str) -> str:
             lora_ref = self._registry.get(name, None)
             if lora_ref is None:
                 raise ValueError(
                     f"The following requested LoRA adapters are not loaded: {name}\n"
                     f"Loaded adapters: {self._registry.keys()}."
                 )
-            # await self._counters[lora_ref.lora_id].increment()
             return lora_ref.lora_id
 
-        if isinstance(lora_name, str):
-            lora_id = await _acquire_single(lora_name)
-            return lora_id
-        elif isinstance(lora_name, list):
-            lora_ids = await asyncio.gather(
-                *[_acquire_single(name) for name in lora_name]
+        async with self._registry_lock.reader_lock:
+            if isinstance(lora_name, str):
+                lora_id = _lookup(lora_name)
+                await self._counters[lora_id].increment(notify_all=False)
+                return lora_id
+            elif isinstance(lora_name, list):
+                lora_ids = [_lookup(name) for name in lora_name]
+
+                # Increment the counters only after all IDs are looked up.
+                await asyncio.gather(
+                    *[self._counters[id].increment(notify_all=False) for id in lora_ids]
+                )
+                return lora_ids
+            else:
+                raise TypeError(
+                    "lora_name must be either a string or a list of strings."
+                )
+
+    async def release(self, lora_id: Union[str, List[str]]):
+        """
+        Decrements the usage counter for a LoRA adapter, indicating that it is no longer in use.
+        """
+
+        async with self._registry_lock.reader_lock:
+            if isinstance(lora_id, str):
+                await self._counters[lora_id].decrement()
+            elif isinstance(lora_id, list):
+                await asyncio.gather(
+                    *[self._counters[id].decrement() for id in lora_id]
+                )
+            else:
+                raise TypeError("lora_id must be either a string or a list of strings.")
+
+    async def wait_for_unload(self, lora_id: str):
+        """
+        Waits until the usage counter for a LoRA adapter reaches zero, indicating that it is no longer in use.
+        This is useful for ensuring that a LoRA adapter can be safely unloaded.
+
+        This method itself is not synchronized, which is safe because it should only be called during LoRA unloading,
+        which itself is guaranteed to be sequential.
+        """
+        assert (
+            lora_id not in self._registry
+        ), "wait_for_unload should only be called after the LoRA adapter has been unregistered. "
+        counter = self._counters.get(lora_id)
+        if counter:
+            # Wait until no requests are using this LoRA adapter.
+            await counter.wait_for_zero()
+            del self._counters[lora_id]
+
+    def _register_adapter(self, lora_ref: LoRARef):
+        """
+        Internal helper method to register a LoRA adapter.
+        """
+
+        if lora_ref.lora_name in self._registry:
+            raise ValueError(
+                f"LoRA with name {lora_ref.lora_name} already exists. Loaded LoRAs: {self._registry.keys()}"
             )
-            return lora_ids
-        else:
-            raise TypeError("lora_name must be either a string or a list of strings.")
+        self._registry[lora_ref.lora_name] = lora_ref
+        self._counters[lora_ref.lora_id] = ConcurrentCounter()
+        return lora_ref
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 77c805aace8e..cb4df6b654ca 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -282,6 +282,11 @@ def __init__(
             None
         )
 
+        # Lock to serialize LoRA update operations.
+        # Please note that, unlike `model_update_lock`, this does not block inference, allowing
+        # LoRA updates and inference to overlap.
+        self.lora_update_lock = asyncio.Lock()
+
         # For pd disaggregtion
         self.disaggregation_mode = DisaggregationMode(
             self.server_args.disaggregation_mode
@@ -537,7 +542,8 @@ async def _tokenize_one_request(
             mm_inputs = None
 
         if self.server_args.enable_lora and obj.lora_path:
-            # Replace the user-friendly LoRA names in `lora_path` with their corresponding unique LoRA IDs.
+            # Start tracking ongoing requests for LoRA adapters and replace the user-friendly LoRA names in
+            # `lora_path` with their corresponding unique LoRA IDs, as required for internal processing.
             obj.lora_path = await self.lora_registry.acquire(obj.lora_path)
 
         self._validate_one_request(obj, input_ids)
@@ -747,6 +753,10 @@ async def _wait_one_response(
                         msg = f"Finish: obj={dataclass_to_string_truncated(obj, max_length, skip_names=skip_names)}, out={dataclass_to_string_truncated(out, max_length, skip_names=out_skip_names)}"
                     logger.info(msg)
 
+                # Mark ongoing LoRA request as finished.
+                if self.server_args.enable_lora and obj.lora_path:
+                    await self.lora_registry.release(obj.lora_path)
+
                 # Check if this was an abort/error created by scheduler
                 if isinstance(out["meta_info"].get("finish_reason"), dict):
                     finish_reason = out["meta_info"]["finish_reason"]
@@ -1053,16 +1063,18 @@ async def load_lora_adapter(
             obj.lora_path,
         )
 
-        async with self.model_update_lock.writer_lock:
+        async with self.lora_update_lock:
             # Generate new uniquely identifiable LoRARef object.
             new_adapter = LoRARef(
                 lora_name=obj.lora_name,
                 lora_path=obj.lora_path,
             )
 
-            # Register the new adapter in the registry.
+            # Trigger the actual loading operation at the backend processes.
             obj.lora_id = new_adapter.lora_id
             result = (await self.update_lora_adapter_communicator(obj))[0]
+
+            # Register the LoRA adapter only after loading is successful.
             if result.success:
                 await self.lora_registry.register(new_adapter)
 
@@ -1093,8 +1105,15 @@ async def unload_lora_adapter(
             obj.lora_name,
         )
 
-        async with self.model_update_lock.writer_lock:
-            obj.lora_id = await self.lora_registry.unregister(obj.lora_name)
+        async with self.lora_update_lock:
+            # Unregister the LoRA adapter from the registry to stop new requests for this adapter
+            # from being started.
+            lora_id = await self.lora_registry.unregister(obj.lora_name)
+            obj.lora_id = lora_id
+
+            # Initiate the actual unloading operation at the backend processes only after all
+            # ongoing requests using this LoRA adapter are finished.
+            await self.lora_registry.wait_for_unload(lora_id)
             result = (await self.update_lora_adapter_communicator(obj))[0]
 
             return result
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 89ee7f635b93..29bb18b0852f 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -15,6 +15,7 @@
 
 from __future__ import annotations
 
+import asyncio
 import builtins
 import ctypes
 import dataclasses
@@ -2862,3 +2863,89 @@ def placeholder(*args, **kwargs):
 ]
 
 LORA_TARGET_ALL_MODULES = "all"
+
+
+class ConcurrentCounter:
+    """
+    An asynchronous counter for managing concurrent tasks that need
+    coordinated increments, decrements, and waiting until the count reaches zero.
+
+    This class is useful for scenarios like tracking the number of in-flight tasks
+    and waiting for them to complete.
+    """
+
+    def __init__(self, initial: int = 0):
+        """
+        Initialize the counter with an optional initial value.
+
+        Args:
+            initial (int): The initial value of the counter. Default is 0.
+        """
+        self._count = initial
+        self._condition = asyncio.Condition()
+
+    def value(self) -> int:
+        """
+        Return the current value of the counter.
+
+        Note:
+            This method is not synchronized. It may return a stale value
+            if other coroutines are concurrently modifying the counter.
+
+        Returns:
+            int: The current counter value.
+        """
+        return self._count
+
+    def __repr__(self) -> str:
+        """Return an informative string representation of the counter."""
+        return f"<ConcurrentCounter value={self.value()}>"
+
+    async def increment(self, n: int = 1, notify_all: bool = True):
+        """
+        Atomically increment the counter by a given amount and notify all waiters.
+
+        Args:
+            n (int): The amount to increment the counter by. Default is 1.
+            notify_all (bool): Whether to notify all waiters after incrementing. Default is True.
+        """
+        async with self._condition:
+            self._count += n
+            if notify_all:
+                self._condition.notify_all()
+
+    async def decrement(self, n: int = 1, notify_all: bool = True):
+        """
+        Atomically decrement the counter by a given amount and notify all waiters.
+
+        Args:
+            n (int): The amount to decrement the counter by. Default is 1.
+            notify_all (bool): Whether to notify all waiters after decrementing. Default is True.
+        """
+        async with self._condition:
+            self._count -= n
+            if notify_all:
+                self._condition.notify_all()
+
+    async def wait_for(self, condition: Callable[[int], bool]):
+        """
+        Asynchronously wait until the counter satisfies a given condition.
+
+        This suspends the calling coroutine without blocking the thread, allowing
+        other tasks to run while waiting. When the condition is met, the coroutine resumes.
+
+        Args:
+            condition (Callable[[int], bool]): A function that takes the current counter value
+                and returns True when the condition is satisfied.
+        """
+        async with self._condition:
+            await self._condition.wait_for(lambda: condition(self._count))
+
+    async def wait_for_zero(self):
+        """
+        Asynchronously wait until the counter reaches zero.
+
+        This suspends the calling coroutine without blocking the thread, allowing
+        other tasks to run while waiting. When the counter becomes zero, the coroutine resumes.
+        """
+        self.wait_for(lambda count: count == 0)
diff --git a/test/srt/test_bench_serving.py b/test/srt/test_bench_serving.py
index ee1346e1c18b..581238a0122e 100644
--- a/test/srt/test_bench_serving.py
+++ b/test/srt/test_bench_serving.py
@@ -231,8 +231,7 @@ def test_lora_online_latency_with_concurrent_adapter_updates(self):
                 f"median_ttft_ms: {res['median_ttft_ms']:.2f} ms\n"
             )
             self.assertLess(res["median_e2e_latency_ms"], 4000)
-            # TODO (lifuhuang): This will be fixed by the overlapped LoRA update in a separate PR.
-            self.assertLess(res["median_ttft_ms"], 1600)
+            self.assertLess(res["median_ttft_ms"], 80)
 
     def _run_lora_latency_test(self, enable_background_task: bool):
         """

From b58c3c285e247a08042bb685e4ce2553283e9758 Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Mon, 28 Jul 2025 04:04:35 +0800
Subject: [PATCH 174/396] Support ue8m0 for triton quant kernel (#7603)

---
 .../srt/layers/quantization/fp8_kernel.py     | 126 +++++++++++-------
 1 file changed, 78 insertions(+), 48 deletions(-)

diff --git a/python/sglang/srt/layers/quantization/fp8_kernel.py b/python/sglang/srt/layers/quantization/fp8_kernel.py
index b488a65c08d9..acde08f8203c 100644
--- a/python/sglang/srt/layers/quantization/fp8_kernel.py
+++ b/python/sglang/srt/layers/quantization/fp8_kernel.py
@@ -173,6 +173,7 @@ def _per_token_group_quant_fp8_colmajor(
     fp8_max,
     # Meta-parameters
     BLOCK: tl.constexpr,
+    SCALE_UE8M0: tl.constexpr,
 ):
     """A Triton-accelerated function to perform per-token-group
     quantization on a tensor.
@@ -197,6 +198,8 @@ def _per_token_group_quant_fp8_colmajor(
     # Quant
     _absmax = tl.maximum(tl.max(tl.abs(y)), eps)
     y_s = _absmax / fp8_max
+    if SCALE_UE8M0:
+        y_s = tl.exp2(tl.ceil(tl.log2(tl.abs(y_s))))
     y_q = tl.clamp(y / y_s, fp8_min, fp8_max).to(y_q_ptr.dtype.element_ty)
 
     tl.store(y_q_ptr + cols, y_q, mask=mask)
@@ -209,6 +212,7 @@ def per_token_group_quant_fp8(
     eps: float = 1e-10,
     column_major_scales: bool = False,
     scale_tma_aligned: bool = False,
+    scale_ue8m0: bool = False,
 ) -> Tuple[torch.Tensor, torch.Tensor]:
     """Function to perform per-token-group quantization on an input tensor `x`.
 
@@ -229,29 +233,17 @@ def per_token_group_quant_fp8(
     assert x.is_contiguous(), "`x` is not contiguous"
 
     x_q = torch.empty_like(x, device=x.device, dtype=fp8_dtype)
+    x_s = create_per_token_group_quant_fp8_output_scale(
+        x_shape=x.shape,
+        device=x.device,
+        group_size=group_size,
+        column_major_scales=column_major_scales,
+        scale_tma_aligned=scale_tma_aligned,
+        scale_ue8m0=False,
+    )
+
     M = x.numel() // group_size
     N = group_size
-    if column_major_scales:
-        if scale_tma_aligned:
-            # aligned to 4 * sizeof(float)
-            aligned_size = (x.shape[-2] + 3) // 4 * 4
-            x_s = torch.empty(
-                x.shape[:-2] + (x.shape[-1] // group_size, aligned_size),
-                device=x.device,
-                dtype=torch.float32,
-            ).permute(-1, -2)[: x.shape[-2], :]
-        else:
-            x_s = torch.empty(
-                (x.shape[-1] // group_size,) + x.shape[:-1],
-                device=x.device,
-                dtype=torch.float32,
-            ).permute(-1, -2)
-    else:
-        x_s = torch.empty(
-            x.shape[:-1] + (x.shape[-1] // group_size,),
-            device=x.device,
-            dtype=torch.float32,
-        )
 
     BLOCK = triton.next_power_of_2(N)
     # heuristics for number of warps
@@ -271,8 +263,10 @@ def per_token_group_quant_fp8(
             BLOCK=BLOCK,
             num_warps=num_warps,
             num_stages=num_stages,
+            SCALE_UE8M0=scale_ue8m0,
         )
     else:
+        assert not scale_ue8m0
         _per_token_group_quant_fp8[(M,)](
             x,
             x_q,
@@ -287,57 +281,93 @@ def per_token_group_quant_fp8(
             num_stages=num_stages,
         )
 
+    if scale_ue8m0:
+        from deep_gemm.utils.layout import transform_sf_into_required_layout
+
+        assert group_size == 128
+        x_s = transform_sf_into_required_layout(
+            x_s,
+            num_groups=None,
+            mn=x_q.shape[0],
+            k=x_q.shape[1],
+            recipe=(1, group_size, group_size),
+            is_sfa=True,
+        )
+
     return x_q, x_s
 
 
-def sglang_per_token_group_quant_fp8(
-    x: torch.Tensor,
-    group_size: int,
-    eps: float = 1e-10,
-    column_major_scales: bool = False,
-    scale_tma_aligned: bool = False,
-    scale_ue8m0: bool = False,
+def create_per_token_group_quant_fp8_output_scale(
+    x_shape,
+    device,
+    group_size,
+    column_major_scales: bool,
+    scale_tma_aligned: bool,
+    scale_ue8m0: bool,
 ):
-    assert (
-        x.shape[-1] % group_size == 0
-    ), "the last dimension of `x` cannot be divisible by `group_size`"
-    assert x.is_contiguous(), "`x` is not contiguous"
-
-    x_q = torch.empty_like(x, device=x.device, dtype=fp8_dtype)
     if scale_ue8m0:
         assert column_major_scales and scale_tma_aligned
-        x_q_mn, x_q_k = x.shape
+        x_q_mn, x_q_k = x_shape
         x_s_mn, x_s_k = x_q_mn, x_q_k // 128
         aligned_mn = align(x_s_mn, 4)
         aligned_k = align(x_s_k, 4)
         # TODO(FIXME): Fix cuda kernel and recover here to empty.
-        x_s = torch.zeros(
+        return torch.zeros(
             (aligned_k // 4, aligned_mn),
-            device=x.device,
+            device=device,
             dtype=torch.int,
         ).transpose(0, 1)[:x_s_mn, :]
     elif column_major_scales:
         if scale_tma_aligned:
             # TODO extract "align" function
             # aligned to 4 * sizeof(float)
-            aligned_size = (x.shape[-2] + 3) // 4 * 4
-            x_s = torch.empty(
-                x.shape[:-2] + (x.shape[-1] // group_size, aligned_size),
-                device=x.device,
+            aligned_size = (x_shape[-2] + 3) // 4 * 4
+            return torch.empty(
+                x_shape[:-2] + (x_shape[-1] // group_size, aligned_size),
+                device=device,
                 dtype=torch.float32,
-            ).permute(-1, -2)[: x.shape[-2], :]
+            ).permute(-1, -2)[: x_shape[-2], :]
         else:
-            x_s = torch.empty(
-                (x.shape[-1] // group_size,) + x.shape[:-1],
-                device=x.device,
+            return torch.empty(
+                (x_shape[-1] // group_size,) + x_shape[:-1],
+                device=device,
                 dtype=torch.float32,
             ).permute(-1, -2)
     else:
-        x_s = torch.empty(
-            x.shape[:-1] + (x.shape[-1] // group_size,),
-            device=x.device,
+        return torch.empty(
+            x_shape[:-1] + (x_shape[-1] // group_size,),
+            device=device,
             dtype=torch.float32,
         )
+
+
+def sglang_per_token_group_quant_fp8(
+    x: torch.Tensor,
+    group_size: int,
+    eps: float = 1e-10,
+    column_major_scales: bool = False,
+    scale_tma_aligned: bool = False,
+    scale_ue8m0: bool = False,
+):
+    assert (
+        x.shape[-1] % group_size == 0
+    ), "the last dimension of `x` cannot be divisible by `group_size`"
+    assert x.is_contiguous(), "`x` is not contiguous"
+
+    if scale_ue8m0:
+        # TODO: handle this case by fixing the (token=4, dim=256, group_size=128) UT case
+        assert x.shape[-1] % (group_size * 4) == 0
+
+    x_q = torch.empty_like(x, device=x.device, dtype=fp8_dtype)
+    x_s = create_per_token_group_quant_fp8_output_scale(
+        x_shape=x.shape,
+        device=x.device,
+        group_size=group_size,
+        column_major_scales=column_major_scales,
+        scale_tma_aligned=scale_tma_aligned,
+        scale_ue8m0=scale_ue8m0,
+    )
+
     if x.shape[0] > 0:
         sgl_per_token_group_quant_fp8(
             x, x_q, x_s, group_size, eps, fp8_min, fp8_max, scale_ue8m0

From e983d66680e4cd24fb382f8cf4183b64e228d995 Mon Sep 17 00:00:00 2001
From: Binyao Jiang <byjiang1996@gmail.com>
Date: Sun, 27 Jul 2025 13:12:59 -0700
Subject: [PATCH 175/396] Fix: Improve test_openai_function_calling unit test
 and fix reasoning_parser.py think_start_token logic (#8316)

Co-authored-by: Chang Su <chang.s.su@oracle.com>
---
 .../srt/entrypoints/openai/serving_chat.py    |   3 -
 python/sglang/srt/reasoning_parser.py         |   2 +-
 .../test_openai_function_calling.py           | 168 +++++++++++++++++-
 3 files changed, 167 insertions(+), 6 deletions(-)

diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index ca090e06074f..7b0f6f867879 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -493,9 +493,6 @@ async def _generate_chat_stream(
                         )
                         yield f"data: {chunk.model_dump_json()}\n\n"
 
-                    if not delta:
-                        continue
-
                 # Handle tool calls
                 if request.tool_choice != "none" and request.tools:
                     async for (
diff --git a/python/sglang/srt/reasoning_parser.py b/python/sglang/srt/reasoning_parser.py
index 87915c5411d4..e51ca5b61944 100644
--- a/python/sglang/srt/reasoning_parser.py
+++ b/python/sglang/srt/reasoning_parser.py
@@ -32,7 +32,7 @@ def detect_and_parse(self, text: str) -> StreamingParseResult:
         One-time parsing: Detects and parses reasoning sections in the provided text.
         Returns both reasoning content and normal text separately.
         """
-        in_reasoning = self._in_reasoning or text.startswith(self.think_start_token)
+        in_reasoning = self._in_reasoning or self.think_start_token in text
 
         if not in_reasoning:
             return StreamingParseResult(normal_text=text)
diff --git a/test/srt/openai_server/function_call/test_openai_function_calling.py b/test/srt/openai_server/function_call/test_openai_function_calling.py
index 8b437a8ac910..cd6d767b512e 100644
--- a/test/srt/openai_server/function_call/test_openai_function_calling.py
+++ b/test/srt/openai_server/function_call/test_openai_function_calling.py
@@ -76,6 +76,7 @@ def test_function_calling_format(self):
         messages = [{"role": "user", "content": "Compute (3+5)"}]
         response = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=messages,
             temperature=0.8,
             top_p=0.8,
@@ -92,6 +93,84 @@ def test_function_calling_format(self):
         function_name = tool_calls[0].function.name
         assert function_name == "add", "Function name should be 'add'"
 
+    # This unit test is too difficult for default model. Mark it as optional unit tests so it won't trigger unless specified.
+    def _test_function_calling_multiturn(self):
+        """
+        Test: Whether the function call format returned by the AI is correct.
+        When returning a tool call, message.content should be None, and tool_calls should be a list.
+        """
+        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
+
+        tools = [
+            {
+                "type": "function",
+                "function": {
+                    "name": "add",
+                    "description": "Compute the sum of two numbers",
+                    "parameters": {
+                        "type": "object",
+                        "properties": {
+                            "a": {
+                                "type": "int",
+                                "description": "A number",
+                            },
+                            "b": {
+                                "type": "int",
+                                "description": "A number",
+                            },
+                        },
+                        "required": ["a", "b"],
+                    },
+                },
+            }
+        ]
+
+        messages = [{"role": "user", "content": "Compute (3+5)"}]
+
+        response = client.chat.completions.create(
+            model=self.model,
+            max_tokens=2048,
+            messages=messages,
+            temperature=0.8,
+            top_p=0.8,
+            stream=False,
+            tools=tools,
+        )
+
+        tool_call = response.choices[0].message.tool_calls[0]
+        function_name = tool_call.function.name
+        assert function_name == "add", "Function name should be 'add'"
+        function_arguments = tool_call.function.arguments
+        function_arguments = json.loads(tool_call.function.arguments)
+        assert function_arguments in [
+            {"a": 3, "b": 5},
+            {"a": "3", "b": "5"},
+        ], f"Unexpected function arguments: {function_arguments}"
+
+        messages.append(response.choices[0].message)
+        messages.append(
+            {
+                "role": "tool",
+                "tool_call_id": tool_call.id,
+                "content": "8",
+                "name": function_name,
+            }
+        )
+
+        final_response = client.chat.completions.create(
+            model=self.model,
+            max_tokens=2048,
+            messages=messages,
+            temperature=0.8,
+            top_p=0.8,
+            stream=False,
+            tools=tools,
+        )
+
+        assert (
+            "8" in final_response.choices[0].message.content
+        ), "tool_call response should have the sum 8 in the content"
+
     def test_function_calling_streaming_simple(self):
         """
         Test: Whether the function name can be correctly recognized in streaming mode.
@@ -125,10 +204,13 @@ def test_function_calling_streaming_simple(self):
             }
         ]
 
-        messages = [{"role": "user", "content": "What is the temperature in Paris?"}]
+        messages = [
+            {"role": "user", "content": "What is the temperature in Paris in celsius?"}
+        ]
 
         response_stream = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=messages,
             temperature=0.8,
             top_p=0.8,
@@ -166,6 +248,74 @@ def test_function_calling_streaming_simple(self):
             "Final response of function calling should have finish_reason 'tool_calls'",
         )
 
+    # TODO: There is a bug in sglang preventing this UT from passing. We are working on it. Once done, we will add this UT back.
+    def _test_function_calling_streaming_no_tool_call(self):
+        """
+        Test: Whether the finish_reason is stop in streaming mode when no tool call is given.
+        - Expect no function call to be found.
+        - Verify that finish_reason is stop
+        """
+        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
+
+        tools = [
+            {
+                "type": "function",
+                "function": {
+                    "name": "get_current_weather",
+                    "description": "Get the current weather in a given location",
+                    "parameters": {
+                        "type": "object",
+                        "properties": {
+                            "city": {
+                                "type": "string",
+                                "description": "The city to find the weather for",
+                            },
+                            "unit": {
+                                "type": "string",
+                                "description": "Weather unit (celsius or fahrenheit)",
+                                "enum": ["celsius", "fahrenheit"],
+                            },
+                        },
+                        "required": ["city", "unit"],
+                    },
+                },
+            }
+        ]
+
+        messages = [{"role": "user", "content": "Who are you?"}]
+
+        response_stream = client.chat.completions.create(
+            model=self.model,
+            max_tokens=2048,
+            messages=messages,
+            temperature=0.8,
+            top_p=0.8,
+            stream=True,
+            tools=tools,
+            tool_choice="none",
+        )
+
+        chunks = list(response_stream)
+        self.assertTrue(len(chunks) > 0, "Streaming should return at least one chunk")
+
+        found_tool_call = False
+        for chunk in chunks:
+            choice = chunk.choices[0]
+            # Check whether the current chunk contains tool_calls
+            found_tool_call = choice.delta.tool_calls is not None
+
+        self.assertFalse(
+            found_tool_call,
+            "Shouldn't have any tool_call in the streaming chunks",
+        )
+
+        finish_reason = chunks[-1].choices[0].finish_reason
+        self.assertEqual(
+            finish_reason,
+            "stop",
+            "Final response of no function calling should have finish_reason 'stop'",
+        )
+
     def test_function_calling_streaming_args_parsing(self):
         """
         Test: Whether the function call arguments returned in streaming mode can be correctly concatenated into valid JSON.
@@ -205,6 +355,7 @@ def test_function_calling_streaming_args_parsing(self):
 
         response_stream = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=messages,
             temperature=0.9,
             top_p=0.9,
@@ -213,8 +364,9 @@ def test_function_calling_streaming_args_parsing(self):
         )
 
         argument_fragments = []
+        chunks = list(response_stream)
         function_name = None
-        for chunk in response_stream:
+        for chunk in chunks:
             choice = chunk.choices[0]
             if choice.delta.tool_calls:
                 tool_call = choice.delta.tool_calls[0]
@@ -231,6 +383,13 @@ def test_function_calling_streaming_args_parsing(self):
             "No parameter fragments were returned in the function call",
         )
 
+        finish_reason = chunks[-1].choices[0].finish_reason
+        self.assertEqual(
+            finish_reason,
+            "tool_calls",
+            "Final response of function calling should have finish_reason 'tool_calls'",
+        )
+
         # Check whether the concatenated JSON is valid
         try:
             args_obj = json.loads(joined_args)
@@ -281,6 +440,7 @@ def test_function_call_strict(self):
         ]
         response = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=messages,
             temperature=0.8,
             top_p=0.8,
@@ -349,6 +509,7 @@ def test_function_call_required(self):
         messages = [{"role": "user", "content": "What is the capital of France?"}]
         response = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=messages,
             temperature=0.8,
             top_p=0.8,
@@ -436,6 +597,7 @@ def test_function_call_specific(self):
         messages = [{"role": "user", "content": "What is the capital of France?"}]
         response = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=messages,
             temperature=0.8,
             top_p=0.8,
@@ -544,6 +706,7 @@ def test_pythonic_tool_call_prompt(self):
         client = openai.Client(api_key=self.api_key, base_url=self.base_url)
         response = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=self.PYTHONIC_MESSAGES,
             tools=self.PYTHONIC_TOOLS,
             temperature=0.1,
@@ -565,6 +728,7 @@ def test_pythonic_tool_call_streaming(self):
         client = openai.Client(api_key=self.api_key, base_url=self.base_url)
         response_stream = client.chat.completions.create(
             model=self.model,
+            max_tokens=2048,
             messages=self.PYTHONIC_MESSAGES,
             tools=self.PYTHONIC_TOOLS,
             temperature=0.1,

From b47eda3316ebfd8fd6cc9626a6b2a3ca941df3d7 Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Sun, 27 Jul 2025 13:31:06 -0700
Subject: [PATCH 176/396] bugfix: Fix multiple finish_reason chunks and
 tool_calls finish reason check (#8417)

---
 .../srt/entrypoints/openai/serving_chat.py    | 208 +++++++-----
 .../openai_server/basic/test_openai_server.py |  96 +-----
 .../openai_server/basic/test_serving_chat.py  | 128 ++++++++
 .../test_openai_function_calling.py           | 301 +++++++++++++-----
 4 files changed, 499 insertions(+), 234 deletions(-)

diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index 7b0f6f867879..bd9f9a98f8aa 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -412,6 +412,8 @@ async def _generate_chat_stream(
         is_firsts = {}
         stream_buffers = {}
         n_prev_tokens = {}
+        has_tool_calls = {}
+        finish_reasons = {}
 
         # Usage tracking
         prompt_tokens = {}
@@ -443,6 +445,10 @@ async def _generate_chat_stream(
                 finish_reason = content["meta_info"]["finish_reason"]
                 finish_reason_type = finish_reason["type"] if finish_reason else None
 
+                # Track finish_reason for each index
+                if finish_reason_type:
+                    finish_reasons[index] = finish_reason
+
                 # First chunk with role
                 if is_firsts.get(index, True):
                     is_firsts[index] = False
@@ -450,13 +456,8 @@ async def _generate_chat_stream(
                     choice_data = ChatCompletionResponseStreamChoice(
                         index=index,
                         delta=delta,
-                        finish_reason=finish_reason_type,
-                        matched_stop=(
-                            finish_reason["matched"]
-                            if finish_reason and "matched" in finish_reason
-                            else None
-                        ),
-                        logprobs=choice_logprobs,
+                        finish_reason=None,
+                        logprobs=None,
                     )
                     chunk = ChatCompletionStreamResponse(
                         id=content["meta_info"]["id"],
@@ -483,7 +484,7 @@ async def _generate_chat_stream(
                         choice_data = ChatCompletionResponseStreamChoice(
                             index=index,
                             delta=DeltaMessage(reasoning_content=reasoning_text),
-                            finish_reason=finish_reason_type,
+                            finish_reason=None,
                         )
                         chunk = ChatCompletionStreamResponse(
                             id=content["meta_info"]["id"],
@@ -495,40 +496,34 @@ async def _generate_chat_stream(
 
                 # Handle tool calls
                 if request.tool_choice != "none" and request.tools:
-                    async for (
-                        chunk,
-                        tool_call_finish_reason_type,
-                    ) in self._process_tool_call_stream(
+                    async for chunk in self._process_tool_call_stream(
                         index,
                         delta,
                         parser_dict,
                         content,
                         request,
-                        finish_reason_type,
+                        has_tool_calls,
                     ):
                         if chunk:
                             yield chunk
-                        finish_reason_type = tool_call_finish_reason_type
+
+                    # Send any remaining tool call arguments when generation finishes
+                    if finish_reason_type is not None and index in parser_dict:
+                        parser = parser_dict[index]
+                        remaining_chunk = self._check_for_unstreamed_tool_args(
+                            parser, content, request, index
+                        )
+                        if remaining_chunk:
+                            yield remaining_chunk
 
                 else:
                     # Regular content
-                    if delta or not (
-                        request.stream_options and request.stream_options.include_usage
-                    ):
+                    if delta:
                         choice_data = ChatCompletionResponseStreamChoice(
                             index=index,
                             delta=DeltaMessage(content=delta if delta else None),
-                            finish_reason=(
-                                None
-                                if request.stream_options
-                                and request.stream_options.include_usage
-                                else finish_reason_type
-                            ),
-                            matched_stop=(
-                                finish_reason["matched"]
-                                if finish_reason and "matched" in finish_reason
-                                else None
-                            ),
+                            finish_reason=None,
+                            matched_stop=None,
                             logprobs=choice_logprobs,
                         )
                         chunk = ChatCompletionStreamResponse(
@@ -539,26 +534,36 @@ async def _generate_chat_stream(
                         )
                         yield f"data: {chunk.model_dump_json()}\n\n"
 
-            # Final chunk with finish_reason
-            finish_reason_chunk = ChatCompletionStreamResponse(
-                id=content["meta_info"]["id"],
-                created=int(time.time()),
-                choices=[
-                    ChatCompletionResponseStreamChoice(
-                        index=index,
-                        delta=DeltaMessage(),
-                        finish_reason=finish_reason_type,
-                        matched_stop=(
-                            finish_reason["matched"]
-                            if finish_reason and "matched" in finish_reason
-                            else None
-                        ),
-                    )
-                ],
-                model=request.model,
-                usage=None,
-            )
-            yield f"data: {finish_reason_chunk.model_dump_json()}\n\n"
+            # Send finish_reason chunks for each index that completed
+            for idx, finish_reason_data in finish_reasons.items():
+                finish_reason_type = finish_reason_data["type"]
+
+                # Change finish_reason to "tool_calls" if we had tool calls and stopped naturally
+                final_finish_reason = finish_reason_type
+                if has_tool_calls.get(idx, False) and finish_reason_type == "stop":
+                    final_finish_reason = "tool_calls"
+
+                finish_reason_chunk = ChatCompletionStreamResponse(
+                    id=content["meta_info"][
+                        "id"
+                    ],  # NOTE: openai uses the same chatcmpl-id for all indices
+                    created=int(time.time()),
+                    choices=[
+                        ChatCompletionResponseStreamChoice(
+                            index=idx,
+                            delta=DeltaMessage(),
+                            finish_reason=final_finish_reason,
+                            matched_stop=(
+                                finish_reason_data["matched"]
+                                if "matched" in finish_reason_data
+                                else None
+                            ),
+                        )
+                    ],
+                    model=request.model,
+                    usage=None,
+                )
+                yield f"data: {finish_reason_chunk.model_dump_json()}\n\n"
 
             # Send hidden states if requested
             if request.return_hidden_states and hidden_states:
@@ -578,7 +583,7 @@ async def _generate_chat_stream(
                                     delta=DeltaMessage(
                                         hidden_states=last_token_hidden_states
                                     ),
-                                    finish_reason=finish_reason_type,
+                                    finish_reason=None,  # Hidden states don't need finish_reason
                                 )
                             ],
                             model=request.model,
@@ -857,7 +862,7 @@ async def _process_tool_call_stream(
         parser_dict: Dict[int, FunctionCallParser],
         content: Dict[str, Any],
         request: ChatCompletionRequest,
-        finish_reason_type: Optional[str],
+        has_tool_calls: Dict[int, bool],
     ):
         """Process tool calls in streaming response"""
         if index not in parser_dict:
@@ -874,7 +879,7 @@ async def _process_tool_call_stream(
             choice_data = ChatCompletionResponseStreamChoice(
                 index=index,
                 delta=DeltaMessage(content=normal_text),
-                finish_reason=finish_reason_type,
+                finish_reason=None,
             )
             chunk = ChatCompletionStreamResponse(
                 id=content["meta_info"]["id"],
@@ -882,10 +887,13 @@ async def _process_tool_call_stream(
                 choices=[choice_data],
                 model=request.model,
             )
-            yield f"data: {chunk.model_dump_json()}\n\n", finish_reason_type
+            yield f"data: {chunk.model_dump_json()}\n\n"
 
         # Yield tool calls
         for call_item in calls:
+            # Mark that this choice has tool calls
+            has_tool_calls[index] = True
+
             # Tool call ID should be generated only once per tool call
             if call_item.name:
                 # First chunk: include ID and function name
@@ -896,23 +904,6 @@ async def _process_tool_call_stream(
                 tool_call_id = None
                 function_name = None
 
-            if finish_reason_type == "stop":
-                # Handle remaining arguments
-                latest_delta_len = 0
-                if isinstance(call_item.parameters, str):
-                    latest_delta_len = len(call_item.parameters)
-
-                expected_call = json.dumps(
-                    parser.detector.prev_tool_call_arr[index].get("arguments", {}),
-                    ensure_ascii=False,
-                )
-                actual_call = parser.detector.streamed_args_for_tool[index]
-                if latest_delta_len > 0:
-                    actual_call = actual_call[:-latest_delta_len]
-                remaining_call = expected_call.replace(actual_call, "", 1)
-                call_item.parameters = remaining_call
-                finish_reason_type = "tool_calls"
-
             tool_call = ToolCall(
                 id=tool_call_id,
                 index=call_item.tool_index,
@@ -925,19 +916,84 @@ async def _process_tool_call_stream(
             choice_data = ChatCompletionResponseStreamChoice(
                 index=index,
                 delta=DeltaMessage(tool_calls=[tool_call]),
-                finish_reason=(
-                    None
-                    if request.stream_options and request.stream_options.include_usage
-                    else finish_reason_type
+                finish_reason=None,
+            )
+            chunk = ChatCompletionStreamResponse(
+                id=content["meta_info"]["id"],
+                created=int(time.time()),
+                choices=[choice_data],
+                model=request.model,
+            )
+            yield f"data: {chunk.model_dump_json()}\n\n"
+
+    def _check_for_unstreamed_tool_args(
+        self,
+        parser: FunctionCallParser,
+        content: Dict[str, Any],
+        request: ChatCompletionRequest,
+        index: int,
+    ) -> Optional[str]:
+        """
+        Check for any remaining tool call arguments that need to be streamed
+        when generation finishes. This ensures tool calls are properly completed
+        even if the model generates the final arguments in the last chunk.
+        """
+        # Only check if we have tool calls and the parser has tracked data
+        if (
+            not hasattr(parser.detector, "prev_tool_call_arr")
+            or not parser.detector.prev_tool_call_arr
+        ):
+            return None
+
+        if (
+            not hasattr(parser.detector, "streamed_args_for_tool")
+            or not parser.detector.streamed_args_for_tool
+        ):
+            return None
+
+        # Get the last tool call that was being processed
+        tool_index = len(parser.detector.prev_tool_call_arr) - 1
+        if tool_index < 0 or tool_index >= len(parser.detector.streamed_args_for_tool):
+            return None
+
+        # Get expected vs actual arguments
+        expected_args = parser.detector.prev_tool_call_arr[tool_index].get(
+            "arguments", {}
+        )
+        expected_call = json.dumps(expected_args, ensure_ascii=False)
+        actual_call = parser.detector.streamed_args_for_tool[tool_index]
+
+        # Check if there are remaining arguments to send
+        remaining_call = (
+            expected_call.replace(actual_call, "", 1)
+            if actual_call in expected_call
+            else ""
+        )
+
+        if remaining_call:
+            # Create tool call chunk with remaining arguments
+            tool_call = ToolCall(
+                id=None,  # No ID for argument deltas
+                index=tool_index,
+                function=FunctionResponse(
+                    name=None,  # No name for argument deltas
+                    arguments=remaining_call,
                 ),
             )
+
+            choice_data = ChatCompletionResponseStreamChoice(
+                index=index,
+                delta=DeltaMessage(tool_calls=[tool_call]),
+                finish_reason=None,  # Don't send finish_reason with this chunk
+            )
+
             chunk = ChatCompletionStreamResponse(
                 id=content["meta_info"]["id"],
                 created=int(time.time()),
                 choices=[choice_data],
                 model=request.model,
             )
-            yield f"data: {chunk.model_dump_json()}\n\n", finish_reason_type
 
-        if finish_reason_type == "stop":
-            yield None, "tool_calls"
+            return f"data: {chunk.model_dump_json()}\n\n"
+
+        return None
diff --git a/test/srt/openai_server/basic/test_openai_server.py b/test/srt/openai_server/basic/test_openai_server.py
index deafaad3cfae..f42039bff1de 100644
--- a/test/srt/openai_server/basic/test_openai_server.py
+++ b/test/srt/openai_server/basic/test_openai_server.py
@@ -233,6 +233,7 @@ def run_chat_completion_stream(self, logprobs, parallel_sample_num=1):
 
         is_firsts = {}
         is_finished = {}
+        finish_reason_counts = {}
         for response in generator:
             usage = response.usage
             if usage is not None:
@@ -245,6 +246,7 @@ def run_chat_completion_stream(self, logprobs, parallel_sample_num=1):
             finish_reason = response.choices[0].finish_reason
             if finish_reason is not None:
                 is_finished[index] = True
+                finish_reason_counts[index] = finish_reason_counts.get(index, 0) + 1
 
             data = response.choices[0].delta
 
@@ -284,6 +286,15 @@ def run_chat_completion_stream(self, logprobs, parallel_sample_num=1):
                 index, True
             ), f"index {index} is not found in the response"
 
+        # Verify that each choice gets exactly one finish_reason chunk
+        for index in range(parallel_sample_num):
+            assert (
+                index in finish_reason_counts
+            ), f"No finish_reason found for index {index}"
+            assert (
+                finish_reason_counts[index] == 1
+            ), f"Expected 1 finish_reason chunk for index {index}, got {finish_reason_counts[index]}"
+
     def test_completion(self):
         for echo in [False, True]:
             for logprobs in [None, 5]:
@@ -420,91 +431,6 @@ def test_retrieve_model(self):
             client.models.retrieve("non-existent-model")
 
 
-# -------------------------------------------------------------------------
-#    EBNF Test Class: TestOpenAIServerEBNF
-#    Launches the server with xgrammar, has only EBNF tests
-# -------------------------------------------------------------------------
-class TestOpenAIServerEBNF(CustomTestCase):
-    @classmethod
-    def setUpClass(cls):
-        cls.model = DEFAULT_SMALL_MODEL_NAME_FOR_TEST
-        cls.base_url = DEFAULT_URL_FOR_TEST
-        cls.api_key = "sk-123456"
-
-        # passing xgrammar specifically
-        other_args = ["--grammar-backend", "xgrammar"]
-        cls.process = popen_launch_server(
-            cls.model,
-            cls.base_url,
-            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            api_key=cls.api_key,
-            other_args=other_args,
-        )
-        cls.base_url += "/v1"
-        cls.tokenizer = get_tokenizer(DEFAULT_SMALL_MODEL_NAME_FOR_TEST)
-
-    @classmethod
-    def tearDownClass(cls):
-        kill_process_tree(cls.process.pid)
-
-    def test_ebnf(self):
-        """
-        Ensure we can pass `ebnf` to the local openai server
-        and that it enforces the grammar.
-        """
-        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
-        ebnf_grammar = r"""
-        root ::= "Hello" | "Hi" | "Hey"
-        """
-        pattern = re.compile(r"^(Hello|Hi|Hey)[.!?]*\s*$")
-
-        response = client.chat.completions.create(
-            model=self.model,
-            messages=[
-                {"role": "system", "content": "You are a helpful EBNF test bot."},
-                {"role": "user", "content": "Say a greeting (Hello, Hi, or Hey)."},
-            ],
-            temperature=0,
-            max_tokens=32,
-            extra_body={"ebnf": ebnf_grammar},
-        )
-        text = response.choices[0].message.content.strip()
-        self.assertTrue(len(text) > 0, "Got empty text from EBNF generation")
-        self.assertRegex(text, pattern, f"Text '{text}' doesn't match EBNF choices")
-
-    def test_ebnf_strict_json(self):
-        """
-        A stricter EBNF that produces exactly {"name":"Alice"} format
-        with no trailing punctuation or extra fields.
-        """
-        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
-        ebnf_grammar = r"""
-        root    ::= "{" pair "}"
-        pair    ::= "\"name\"" ":" string
-        string  ::= "\"" [A-Za-z]+ "\""
-        """
-        pattern = re.compile(r'^\{"name":"[A-Za-z]+"\}$')
-
-        response = client.chat.completions.create(
-            model=self.model,
-            messages=[
-                {"role": "system", "content": "EBNF mini-JSON generator."},
-                {
-                    "role": "user",
-                    "content": "Generate single key JSON with only letters.",
-                },
-            ],
-            temperature=0,
-            max_tokens=64,
-            extra_body={"ebnf": ebnf_grammar},
-        )
-        text = response.choices[0].message.content.strip()
-        self.assertTrue(len(text) > 0, "Got empty text from EBNF strict JSON test")
-        self.assertRegex(
-            text, pattern, f"Text '{text}' not matching the EBNF strict JSON shape"
-        )
-
-
 class TestOpenAIV1Rerank(CustomTestCase):
     @classmethod
     def setUpClass(cls):
diff --git a/test/srt/openai_server/basic/test_serving_chat.py b/test/srt/openai_server/basic/test_serving_chat.py
index 7108b405d5db..262f8b8bd900 100644
--- a/test/srt/openai_server/basic/test_serving_chat.py
+++ b/test/srt/openai_server/basic/test_serving_chat.py
@@ -197,6 +197,134 @@ def test_sampling_param_build(self):
             self.assertEqual(params["min_new_tokens"], 5)
             self.assertEqual(params["stop"], ["</s>"])
 
+    async def test_unstreamed_tool_args_completion(self):
+        """Test that remaining tool call arguments are sent when generation finishes."""
+
+        # Mock FunctionCallParser with detector that has partial tool call data
+        mock_parser = Mock()
+        mock_detector = Mock()
+
+        # Simulate a tool call that was partially streamed
+        mock_detector.prev_tool_call_arr = [
+            {
+                "name": "get_weather",
+                "arguments": {"location": "San Francisco", "unit": "celsius"},
+            }
+        ]
+        mock_detector.streamed_args_for_tool = [
+            '{"location": "San Francisco"'  # Partial arguments streamed so far
+        ]
+        mock_parser.detector = mock_detector
+
+        content = {
+            "meta_info": {
+                "id": "chatcmpl-test123",
+            }
+        }
+
+        request = ChatCompletionRequest(
+            model="test",
+            messages=[{"role": "user", "content": "What's the weather?"}],
+            tools=[{"type": "function", "function": {"name": "get_weather"}}],
+        )
+
+        # Test the completion method
+        result = self.chat._check_for_unstreamed_tool_args(
+            parser=mock_parser,
+            content=content,
+            request=request,
+            finish_reason_type="stop",
+            index=0,
+        )
+
+        # Should return a chunk with remaining arguments
+        self.assertIsNotNone(result, "Should return chunk with remaining arguments")
+        self.assertIn('"arguments":', result, "Should contain arguments field")
+        self.assertIn(
+            ', "unit": "celsius"}', result, "Should contain remaining arguments"
+        )
+        self.assertIn(
+            '"finish_reason":null',
+            result,
+            "Should not include finish_reason in completion chunk",
+        )
+
+    async def test_unstreamed_tool_args_no_completion_needed(self):
+        """Test that no completion chunk is sent when all arguments were already streamed."""
+
+        # Mock FunctionCallParser with detector that has complete tool call data
+        mock_parser = Mock()
+        mock_detector = Mock()
+
+        # Simulate a tool call that was completely streamed
+        mock_detector.prev_tool_call_arr = [
+            {"name": "get_weather", "arguments": {"location": "San Francisco"}}
+        ]
+        mock_detector.streamed_args_for_tool = [
+            '{"location": "San Francisco"}'  # All arguments already streamed
+        ]
+        mock_parser.detector = mock_detector
+
+        content = {
+            "meta_info": {
+                "id": "chatcmpl-test123",
+            }
+        }
+
+        request = ChatCompletionRequest(
+            model="test",
+            messages=[{"role": "user", "content": "What's the weather?"}],
+            tools=[{"type": "function", "function": {"name": "get_weather"}}],
+        )
+
+        # Test the completion method
+        result = self.chat._check_for_unstreamed_tool_args(
+            parser=mock_parser,
+            content=content,
+            request=request,
+            finish_reason_type="stop",
+            index=0,
+        )
+
+        # Should return None since no completion is needed
+        self.assertIsNone(result, "Should return None when no completion is needed")
+
+    async def test_unstreamed_tool_args_no_parser_data(self):
+        """Test that no completion chunk is sent when parser has no tool call data."""
+
+        # Mock FunctionCallParser with empty detector
+        mock_parser = Mock()
+        mock_detector = Mock()
+        mock_detector.prev_tool_call_arr = []
+        mock_detector.streamed_args_for_tool = []
+        mock_parser.detector = mock_detector
+
+        content = {
+            "meta_info": {
+                "id": "chatcmpl-test123",
+            }
+        }
+
+        request = ChatCompletionRequest(
+            model="test",
+            messages=[{"role": "user", "content": "What's the weather?"}],
+            tools=[{"type": "function", "function": {"name": "get_weather"}}],
+        )
+
+        # Test the completion method
+        result = self.chat._check_for_unstreamed_tool_args(
+            parser=mock_parser,
+            content=content,
+            request=request,
+            finish_reason_type="stop",
+            index=0,
+        )
+
+        # Should return None since there's no parser data
+        self.assertIsNone(
+            result, "Should return None when parser has no tool call data"
+        )
+
 
 if __name__ == "__main__":
     unittest.main(verbosity=2)
diff --git a/test/srt/openai_server/function_call/test_openai_function_calling.py b/test/srt/openai_server/function_call/test_openai_function_calling.py
index cd6d767b512e..714514dd75f9 100644
--- a/test/srt/openai_server/function_call/test_openai_function_calling.py
+++ b/test/srt/openai_server/function_call/test_openai_function_calling.py
@@ -16,6 +16,20 @@
 
 
 class TestOpenAIServerFunctionCalling(CustomTestCase):
+    # NOTE: this system_message is for Llama3.2 system prompt. Without this,
+    # sometimes Llama3.2 gives a different tool call format such as:
+    # '<|python_tag|>{"type": "function", "function": "add", "parameters": {"a": "3", "b": "5"}}'
+    SYSTEM_MESSAGE = (
+        "You are a helpful assistant with tool calling capabilities. "
+        "Only reply with a tool call if the function exists in the library provided by the user. "
+        "If it doesn't exist, just reply directly in natural language. "
+        "When you receive a tool call response, use the output to format an answer to the original user question. "
+        "You have access to the following functions. "
+        "To call a function, please respond with JSON for a function call. "
+        'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}. '
+        "Do not use variables.\n\n"
+    )
+
     @classmethod
     def setUpClass(cls):
         # Replace with the model name needed for testing; if not required, reuse DEFAULT_SMALL_MODEL_NAME_FOR_TEST
@@ -73,7 +87,10 @@ def test_function_calling_format(self):
             }
         ]
 
-        messages = [{"role": "user", "content": "Compute (3+5)"}]
+        messages = [
+            {"role": "system", "content": self.SYSTEM_MESSAGE},
+            {"role": "user", "content": "Compute (3+5)"},
+        ]
         response = client.chat.completions.create(
             model=self.model,
             max_tokens=2048,
@@ -205,7 +222,8 @@ def test_function_calling_streaming_simple(self):
         ]
 
         messages = [
-            {"role": "user", "content": "What is the temperature in Paris in celsius?"}
+            {"role": "system", "content": self.SYSTEM_MESSAGE},
+            {"role": "user", "content": "What is the temperature in Paris?"},
         ]
 
         response_stream = client.chat.completions.create(
@@ -248,74 +266,6 @@ def test_function_calling_streaming_simple(self):
             "Final response of function calling should have finish_reason 'tool_calls'",
         )
 
-    # TODO: There is a bug in sglang preventing this UT from passing. We are working on it. Once done, we will add this UT back.
-    def _test_function_calling_streaming_no_tool_call(self):
-        """
-        Test: Whether the finish_reason is stop in streaming mode when no tool call is given.
-        - Expect no function call to be found.
-        - Verify that finish_reason is stop
-        """
-        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
-
-        tools = [
-            {
-                "type": "function",
-                "function": {
-                    "name": "get_current_weather",
-                    "description": "Get the current weather in a given location",
-                    "parameters": {
-                        "type": "object",
-                        "properties": {
-                            "city": {
-                                "type": "string",
-                                "description": "The city to find the weather for",
-                            },
-                            "unit": {
-                                "type": "string",
-                                "description": "Weather unit (celsius or fahrenheit)",
-                                "enum": ["celsius", "fahrenheit"],
-                            },
-                        },
-                        "required": ["city", "unit"],
-                    },
-                },
-            }
-        ]
-
-        messages = [{"role": "user", "content": "Who are you?"}]
-
-        response_stream = client.chat.completions.create(
-            model=self.model,
-            max_tokens=2048,
-            messages=messages,
-            temperature=0.8,
-            top_p=0.8,
-            stream=True,
-            tools=tools,
-            tool_choice="none",
-        )
-
-        chunks = list(response_stream)
-        self.assertTrue(len(chunks) > 0, "Streaming should return at least one chunk")
-
-        found_tool_call = False
-        for chunk in chunks:
-            choice = chunk.choices[0]
-            # Check whether the current chunk contains tool_calls
-            found_tool_call = choice.delta.tool_calls is not None
-
-        self.assertFalse(
-            found_tool_call,
-            "Shouldn't have any tool_call in the streaming chunks",
-        )
-
-        finish_reason = chunks[-1].choices[0].finish_reason
-        self.assertEqual(
-            finish_reason,
-            "stop",
-            "Final response of no function calling should have finish_reason 'stop'",
-        )
-
     def test_function_calling_streaming_args_parsing(self):
         """
         Test: Whether the function call arguments returned in streaming mode can be correctly concatenated into valid JSON.
@@ -350,7 +300,8 @@ def test_function_calling_streaming_args_parsing(self):
         ]
 
         messages = [
-            {"role": "user", "content": "Please sum 5 and 7, just call the function."}
+            {"role": "system", "content": self.SYSTEM_MESSAGE},
+            {"role": "user", "content": "Please sum 5 and 7, just call the function."},
         ]
 
         response_stream = client.chat.completions.create(
@@ -617,6 +568,212 @@ def test_function_call_specific(self):
         )
         self.assertIn("city", args_obj, "Function arguments should have 'city'")
 
+    def test_streaming_multiple_choices_finish_reason(self):
+        """
+        Test: Verify that each choice gets its own finish_reason chunk in streaming mode with n > 1.
+        This tests the fix for the bug where only the last index got a finish_reason chunk.
+        """
+        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
+
+        tools = [
+            {
+                "type": "function",
+                "function": {
+                    "name": "get_current_weather",
+                    "description": "Get the current weather in a given location",
+                    "parameters": {
+                        "type": "object",
+                        "properties": {
+                            "location": {
+                                "type": "string",
+                                "description": "The city and state, e.g. San Francisco, CA",
+                            },
+                            "unit": {
+                                "type": "string",
+                                "enum": ["celsius", "fahrenheit"],
+                            },
+                        },
+                        "required": ["location"],
+                    },
+                },
+            }
+        ]
+
+        messages = [
+            {"role": "user", "content": "What is the weather like in Los Angeles?"}
+        ]
+
+        # Request with n=2 to get multiple choices
+        response_stream = client.chat.completions.create(
+            model=self.model,
+            messages=messages,
+            max_tokens=2048,
+            temperature=0.8,
+            stream=True,
+            tools=tools,
+            tool_choice="required",  # Force tool calls
+            n=2,  # Multiple choices
+        )
+
+        chunks = list(response_stream)
+
+        # Track finish_reason chunks for each index
+        finish_reason_chunks = {}
+        for chunk in chunks:
+            if chunk.choices:
+                for choice in chunk.choices:
+                    if choice.finish_reason is not None:
+                        index = choice.index
+                        if index not in finish_reason_chunks:
+                            finish_reason_chunks[index] = []
+                        finish_reason_chunks[index].append(choice.finish_reason)
+
+        # Verify we got finish_reason chunks for both indices
+        self.assertEqual(
+            len(finish_reason_chunks),
+            2,
+            f"Expected finish_reason chunks for 2 indices, got {len(finish_reason_chunks)}",
+        )
+
+        # Verify both index 0 and 1 have finish_reason
+        self.assertIn(
+            0, finish_reason_chunks, "Missing finish_reason chunk for index 0"
+        )
+        self.assertIn(
+            1, finish_reason_chunks, "Missing finish_reason chunk for index 1"
+        )
+
+        # Verify the finish_reason is "tool_calls" since we forced tool calls
+        for index, reasons in finish_reason_chunks.items():
+            self.assertEqual(
+                reasons[-1],  # Last finish_reason for this index
+                "tool_calls",
+                f"Expected finish_reason 'tool_calls' for index {index}, got {reasons[-1]}",
+            )
+
+    def test_function_calling_streaming_no_tool_call(self):
+        """
+        Test: Whether the finish_reason is stop in streaming mode when no tool call is given.
+        - Expect no function call to be found.
+        - Verify that finish_reason is stop
+        """
+        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
+
+        tools = [
+            {
+                "type": "function",
+                "function": {
+                    "name": "get_current_weather",
+                    "description": "Get the current weather in a given location",
+                    "parameters": {
+                        "type": "object",
+                        "properties": {
+                            "city": {
+                                "type": "string",
+                                "description": "The city to find the weather for",
+                            },
+                            "unit": {
+                                "type": "string",
+                                "description": "Weather unit (celsius or fahrenheit)",
+                                "enum": ["celsius", "fahrenheit"],
+                            },
+                        },
+                        "required": ["city", "unit"],
+                    },
+                },
+            }
+        ]
+
+        messages = [{"role": "user", "content": "Who are you?"}]
+
+        response_stream = client.chat.completions.create(
+            model=self.model,
+            max_tokens=2048,
+            messages=messages,
+            temperature=0.8,
+            top_p=0.8,
+            stream=True,
+            tools=tools,
+            tool_choice="none",
+        )
+
+        chunks = list(response_stream)
+        self.assertTrue(len(chunks) > 0, "Streaming should return at least one chunk")
+
+        found_tool_call = False
+        for chunk in chunks:
+            choice = chunk.choices[0]
+            # Check whether the current chunk contains tool_calls
+            found_tool_call = choice.delta.tool_calls is not None
+
+        self.assertFalse(
+            found_tool_call,
+            "Shouldn't have any tool_call in the streaming chunks",
+        )
+
+        finish_reason = chunks[-1].choices[0].finish_reason
+        self.assertEqual(
+            finish_reason,
+            "stop",
+            "Final response of no function calling should have finish_reason 'stop'",
+        )
+
+    def test_streaming_multiple_choices_without_tools(self):
+        """
+        Test: Verify that each choice gets its own finish_reason chunk without tool calls.
+        This tests the fix for regular content streaming with multiple choices.
+        """
+        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
+
+        messages = [{"role": "user", "content": "Say hello in one word."}]
+
+        # Request with n=2 to get multiple choices, no tools
+        response_stream = client.chat.completions.create(
+            model=self.model,
+            messages=messages,
+            max_tokens=2048,
+            temperature=0.8,
+            stream=True,
+            max_tokens=10,  # Keep it short
+            n=2,  # Multiple choices
+        )
+
+        chunks = list(response_stream)
+
+        # Track finish_reason chunks for each index
+        finish_reason_chunks = {}
+        for chunk in chunks:
+            if chunk.choices:
+                for choice in chunk.choices:
+                    if choice.finish_reason is not None:
+                        index = choice.index
+                        if index not in finish_reason_chunks:
+                            finish_reason_chunks[index] = []
+                        finish_reason_chunks[index].append(choice.finish_reason)
+
+        # Verify we got finish_reason chunks for both indices
+        self.assertEqual(
+            len(finish_reason_chunks),
+            2,
+            f"Expected finish_reason chunks for 2 indices, got {len(finish_reason_chunks)}",
+        )
+
+        # Verify both index 0 and 1 have finish_reason
+        self.assertIn(
+            0, finish_reason_chunks, "Missing finish_reason chunk for index 0"
+        )
+        self.assertIn(
+            1, finish_reason_chunks, "Missing finish_reason chunk for index 1"
+        )
+
+        # Verify the finish_reason is "stop" (regular completion)
+        for index, reasons in finish_reason_chunks.items():
+            self.assertIn(
+                reasons[-1],
+                ["stop", "length"],  # Could be either depending on how model responds
+                f"Expected finish_reason 'stop' or 'length' for index {index}, got {reasons[-1]}",
+            )
+
 
 class TestOpenAIPythonicFunctionCalling(CustomTestCase):
     PYTHONIC_TOOLS = [
@@ -706,7 +863,6 @@ def test_pythonic_tool_call_prompt(self):
         client = openai.Client(api_key=self.api_key, base_url=self.base_url)
         response = client.chat.completions.create(
             model=self.model,
-            max_tokens=2048,
             messages=self.PYTHONIC_MESSAGES,
             tools=self.PYTHONIC_TOOLS,
             temperature=0.1,
@@ -728,7 +884,6 @@ def test_pythonic_tool_call_streaming(self):
         client = openai.Client(api_key=self.api_key, base_url=self.base_url)
         response_stream = client.chat.completions.create(
             model=self.model,
-            max_tokens=2048,
             messages=self.PYTHONIC_MESSAGES,
             tools=self.PYTHONIC_TOOLS,
             temperature=0.1,

From 58dd95fbc84ceeeaa21514e032e8ceb3c83929cf Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Sun, 27 Jul 2025 13:36:01 -0700
Subject: [PATCH 177/396] Fix test_openai_server (#8419)

---
 .../openai_server/function_call/test_openai_function_calling.py  | 1 -
 1 file changed, 1 deletion(-)

diff --git a/test/srt/openai_server/function_call/test_openai_function_calling.py b/test/srt/openai_server/function_call/test_openai_function_calling.py
index 714514dd75f9..2486cc050063 100644
--- a/test/srt/openai_server/function_call/test_openai_function_calling.py
+++ b/test/srt/openai_server/function_call/test_openai_function_calling.py
@@ -731,7 +731,6 @@ def test_streaming_multiple_choices_without_tools(self):
         response_stream = client.chat.completions.create(
             model=self.model,
             messages=messages,
-            max_tokens=2048,
             temperature=0.8,
             stream=True,
             max_tokens=10,  # Keep it short

From bb81daefb85c0fc86f2a13d5b48030662bac4640 Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Sun, 27 Jul 2025 17:59:38 -0700
Subject: [PATCH 178/396] Fix docker buildx push error (#8425)

---
 .github/workflows/release-docker-gb200.yml | 3 +--
 docker/Dockerfile.gb200                    | 6 +++---
 2 files changed, 4 insertions(+), 5 deletions(-)

diff --git a/.github/workflows/release-docker-gb200.yml b/.github/workflows/release-docker-gb200.yml
index 29b980cd6619..82a9a806e0b2 100644
--- a/.github/workflows/release-docker-gb200.yml
+++ b/.github/workflows/release-docker-gb200.yml
@@ -33,5 +33,4 @@ jobs:
           version=$(cat python/sglang/version.py | cut -d'"' -f2)
           tag=v${version}-cu128-gb200
 
-          docker buildx build --platform linux/arm64 --output type=image,compression=zstd . -f docker/Dockerfile.gb200 --build-arg CUDA_VERSION=12.8.1 --build-arg BUILD_TYPE=blackwell -t lmsysorg/sglang:${tag} --no-cache
-          docker push lmsysorg/sglang:${tag}
+          docker buildx build --platform linux/arm64 --push --output type=image,compression=zstd -t lmsysorg/sglang:${tag} -f docker/Dockerfile.gb200 --build-arg CUDA_VERSION=12.8.1 --build-arg BUILD_TYPE=blackwell --no-cache .
diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
index 3124c9822db5..37c8b927a441 100644
--- a/docker/Dockerfile.gb200
+++ b/docker/Dockerfile.gb200
@@ -139,9 +139,9 @@ RUN apt update -y \
 
 # Set up locale
 RUN locale-gen en_US.UTF-8
-ENV LANG en_US.UTF-8
-ENV LANGUAGE en_US:en
-ENV LC_ALL en_US.UTF-8
+ENV LANG=en_US.UTF-8
+ENV LANGUAGE=en_US:en
+ENV LC_ALL=en_US.UTF-8
 
 # Install minimal Python packages
 RUN python3 -m pip install --no-cache-dir --break-system-packages \

From dd487e55535c3baa47b3328e20cd4deae347465f Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Sun, 27 Jul 2025 19:01:02 -0700
Subject: [PATCH 179/396] bugfix: Fix XGrammar backend to use model's EOS
 tokens for constrained generation (#8422)

---
 .../sglang/srt/constrained/base_grammar_backend.py   | 12 ++++++++++--
 python/sglang/srt/constrained/xgrammar_backend.py    | 12 +++++++-----
 python/sglang/srt/managers/scheduler.py              |  5 ++++-
 3 files changed, 21 insertions(+), 8 deletions(-)

diff --git a/python/sglang/srt/constrained/base_grammar_backend.py b/python/sglang/srt/constrained/base_grammar_backend.py
index 5058cddb932b..4fe5d6c77d64 100644
--- a/python/sglang/srt/constrained/base_grammar_backend.py
+++ b/python/sglang/srt/constrained/base_grammar_backend.py
@@ -168,7 +168,10 @@ def reset(self):
 
 
 def create_grammar_backend(
-    server_args: ServerArgs, tokenizer, vocab_size: int
+    server_args: ServerArgs,
+    tokenizer,
+    vocab_size: int,
+    eos_token_ids: Optional[set] = None,
 ) -> Optional[BaseGrammarBackend]:
     if server_args.grammar_backend == "outlines":
         from sglang.srt.constrained.outlines_backend import OutlinesGrammarBackend
@@ -180,7 +183,12 @@ def create_grammar_backend(
     elif server_args.grammar_backend == "xgrammar":
         from sglang.srt.constrained.xgrammar_backend import XGrammarGrammarBackend
 
-        grammar_backend = XGrammarGrammarBackend(tokenizer, vocab_size=vocab_size)
+        # Convert Set[int] to List[int] if needed
+        eos_list = list(eos_token_ids) if eos_token_ids else None
+
+        grammar_backend = XGrammarGrammarBackend(
+            tokenizer, vocab_size=vocab_size, model_eos_token_ids=eos_list
+        )
     elif server_args.grammar_backend == "llguidance":
         from sglang.srt.constrained.llguidance_backend import GuidanceBackend
 
diff --git a/python/sglang/srt/constrained/xgrammar_backend.py b/python/sglang/srt/constrained/xgrammar_backend.py
index ff7caef8f704..92e1716620e3 100644
--- a/python/sglang/srt/constrained/xgrammar_backend.py
+++ b/python/sglang/srt/constrained/xgrammar_backend.py
@@ -150,14 +150,16 @@ def __init__(
         self,
         tokenizer,
         vocab_size: int,
+        model_eos_token_ids: Optional[List[int]] = None,
     ):
         super().__init__()
 
-        if True:
-            tokenizer_info = TokenizerInfo.from_huggingface(
-                tokenizer, vocab_size=vocab_size
-            )
-            override_stop_tokens = None
+        # Create TokenizerInfo with model's EOS tokens as the authoritative stop tokens
+        # This ensures consistency between what the model considers EOS and what XGrammar uses
+        tokenizer_info = TokenizerInfo.from_huggingface(
+            tokenizer, vocab_size=vocab_size, stop_token_ids=model_eos_token_ids
+        )
+        override_stop_tokens = None
 
         self.grammar_compiler = GrammarCompiler(tokenizer_info=tokenizer_info)
         self.vocab_size = vocab_size
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index f3eb20cad170..0be67eaca485 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -458,7 +458,10 @@ def __init__(
         self.grammar_queue: List[Req] = []
         if not server_args.skip_tokenizer_init:
             self.grammar_backend = create_grammar_backend(
-                server_args, self.tokenizer, self.model_config.vocab_size
+                server_args,
+                self.tokenizer,
+                self.model_config.vocab_size,
+                self.model_config.hf_eos_token_id,
             )
         else:
             self.grammar_backend = None

From fe6a445d1e1f4162fa62475a62474ff19f1b2f3c Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sun, 27 Jul 2025 19:30:19 -0700
Subject: [PATCH 180/396] [router] improve router logs and request id header
 (#8415)

---
 sgl-router/README.md                          |  13 ++
 .../py_src/sglang_router/launch_router.py     |  10 ++
 sgl-router/py_src/sglang_router/router.py     |   5 +
 sgl-router/src/config/types.rs                |   7 +
 sgl-router/src/core/worker.rs                 |   5 +-
 sgl-router/src/lib.rs                         |   7 +
 sgl-router/src/middleware.rs                  | 111 ++++++++++++
 sgl-router/src/policies/cache_aware.rs        |   8 +-
 sgl-router/src/routers/pd_router.rs           |  92 ++++++----
 sgl-router/src/routers/router.rs              | 109 +++++++-----
 sgl-router/src/server.rs                      | 166 ++++++++++++++----
 sgl-router/src/service_discovery.rs           |  14 +-
 sgl-router/tests/api_endpoints_test.rs        |   2 +
 sgl-router/tests/common/mod.rs                |   2 +
 sgl-router/tests/request_formats_test.rs      |   1 +
 sgl-router/tests/streaming_tests.rs           |   1 +
 sgl-router/tests/test_pd_routing.rs           |   1 +
 17 files changed, 426 insertions(+), 128 deletions(-)
 create mode 100644 sgl-router/src/middleware.rs

diff --git a/sgl-router/README.md b/sgl-router/README.md
index baa894e1fc97..6cc10c159117 100644
--- a/sgl-router/README.md
+++ b/sgl-router/README.md
@@ -93,6 +93,19 @@ python -m sglang_router.launch_router \
     --prometheus-port 9000
 ```
 
+### Request ID Tracking
+
+Track requests across distributed systems with configurable headers:
+
+```bash
+# Use custom request ID headers
+python -m sglang_router.launch_router \
+    --worker-urls http://localhost:8080 \
+    --request-id-headers x-trace-id x-request-id
+```
+
+Default headers: `x-request-id`, `x-correlation-id`, `x-trace-id`, `request-id`
+
 ## Advanced Features
 
 ### Kubernetes Service Discovery
diff --git a/sgl-router/py_src/sglang_router/launch_router.py b/sgl-router/py_src/sglang_router/launch_router.py
index af1ce392c0b6..9337c4eaa0ac 100644
--- a/sgl-router/py_src/sglang_router/launch_router.py
+++ b/sgl-router/py_src/sglang_router/launch_router.py
@@ -64,6 +64,8 @@ class RouterArgs:
     # Prometheus configuration
     prometheus_port: Optional[int] = None
     prometheus_host: Optional[str] = None
+    # Request ID headers configuration
+    request_id_headers: Optional[List[str]] = None
 
     @staticmethod
     def add_cli_args(
@@ -255,6 +257,12 @@ def add_cli_args(
             default="127.0.0.1",
             help="Host address to bind the Prometheus metrics server",
         )
+        parser.add_argument(
+            f"--{prefix}request-id-headers",
+            type=str,
+            nargs="*",
+            help="Custom HTTP headers to check for request IDs (e.g., x-request-id x-trace-id). If not specified, uses common defaults.",
+        )
 
     @classmethod
     def from_cli_args(
@@ -313,6 +321,7 @@ def from_cli_args(
             bootstrap_port_annotation="sglang.ai/bootstrap-port",  # Mooncake-specific annotation
             prometheus_port=getattr(args, f"{prefix}prometheus_port", None),
             prometheus_host=getattr(args, f"{prefix}prometheus_host", None),
+            request_id_headers=getattr(args, f"{prefix}request_id_headers", None),
         )
 
     @staticmethod
@@ -481,6 +490,7 @@ def launch_router(args: argparse.Namespace) -> Optional[Router]:
                 if router_args.decode_policy
                 else None
             ),
+            request_id_headers=router_args.request_id_headers,
         )
 
         router.start()
diff --git a/sgl-router/py_src/sglang_router/router.py b/sgl-router/py_src/sglang_router/router.py
index cd10e8e69e3f..7b85f77673a7 100644
--- a/sgl-router/py_src/sglang_router/router.py
+++ b/sgl-router/py_src/sglang_router/router.py
@@ -54,6 +54,9 @@ class Router:
             If not specified, uses the main policy. Default: None
         decode_policy: Specific load balancing policy for decode nodes (PD mode only).
             If not specified, uses the main policy. Default: None
+        request_id_headers: List of HTTP headers to check for request IDs. If not specified,
+            uses common defaults: ['x-request-id', 'x-correlation-id', 'x-trace-id', 'request-id'].
+            Example: ['x-my-request-id', 'x-custom-trace-id']. Default: None
     """
 
     def __init__(
@@ -85,6 +88,7 @@ def __init__(
         decode_urls: Optional[List[str]] = None,
         prefill_policy: Optional[PolicyType] = None,
         decode_policy: Optional[PolicyType] = None,
+        request_id_headers: Optional[List[str]] = None,
     ):
         if selector is None:
             selector = {}
@@ -121,6 +125,7 @@ def __init__(
             decode_urls=decode_urls,
             prefill_policy=prefill_policy,
             decode_policy=decode_policy,
+            request_id_headers=request_id_headers,
         )
 
     def start(self) -> None:
diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index 84075de4c991..537e2a11997a 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -29,6 +29,8 @@ pub struct RouterConfig {
     pub log_dir: Option<String>,
     /// Log level (None = info)
     pub log_level: Option<String>,
+    /// Custom request ID headers to check (defaults to common headers)
+    pub request_id_headers: Option<Vec<String>>,
 }
 
 /// Routing mode configuration
@@ -207,6 +209,7 @@ impl Default for RouterConfig {
             metrics: None,
             log_dir: None,
             log_level: None,
+            request_id_headers: None,
         }
     }
 }
@@ -312,6 +315,7 @@ mod tests {
             metrics: Some(MetricsConfig::default()),
             log_dir: Some("/var/log".to_string()),
             log_level: Some("debug".to_string()),
+            request_id_headers: None,
         };
 
         let json = serde_json::to_string(&config).unwrap();
@@ -734,6 +738,7 @@ mod tests {
             }),
             log_dir: Some("/var/log/sglang".to_string()),
             log_level: Some("info".to_string()),
+            request_id_headers: None,
         };
 
         assert!(config.mode.is_pd_mode());
@@ -780,6 +785,7 @@ mod tests {
             metrics: Some(MetricsConfig::default()),
             log_dir: None,
             log_level: Some("debug".to_string()),
+            request_id_headers: None,
         };
 
         assert!(!config.mode.is_pd_mode());
@@ -822,6 +828,7 @@ mod tests {
             }),
             log_dir: Some("/opt/logs/sglang".to_string()),
             log_level: Some("trace".to_string()),
+            request_id_headers: None,
         };
 
         assert!(config.has_service_discovery());
diff --git a/sgl-router/src/core/worker.rs b/sgl-router/src/core/worker.rs
index 1aa6766c1886..fc91b1f5e6ce 100644
--- a/sgl-router/src/core/worker.rs
+++ b/sgl-router/src/core/worker.rs
@@ -411,7 +411,7 @@ pub fn start_health_checker(
 
             // Check for shutdown signal
             if shutdown_clone.load(Ordering::Acquire) {
-                tracing::info!("Health checker shutting down");
+                tracing::debug!("Health checker shutting down");
                 break;
             }
 
@@ -439,6 +439,9 @@ pub fn start_health_checker(
                         Err(e) => {
                             if was_healthy {
                                 tracing::warn!("Worker {} health check failed: {}", worker_url, e);
+                            } else {
+                                // Worker was already unhealthy, log at debug level
+                                tracing::debug!("Worker {} remains unhealthy: {}", worker_url, e);
                             }
                         }
                     }
diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index 0c03bd497bc7..ede058f8731c 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -4,6 +4,7 @@ pub mod logging;
 use std::collections::HashMap;
 pub mod core;
 pub mod metrics;
+pub mod middleware;
 pub mod openai_api_types;
 pub mod policies;
 pub mod routers;
@@ -49,6 +50,7 @@ struct Router {
     prometheus_port: Option<u16>,
     prometheus_host: Option<String>,
     request_timeout_secs: u64,
+    request_id_headers: Option<Vec<String>>,
     // PD mode flag
     pd_disaggregation: bool,
     // PD-specific fields (only used when pd_disaggregation is true)
@@ -138,6 +140,7 @@ impl Router {
             metrics,
             log_dir: self.log_dir.clone(),
             log_level: self.log_level.clone(),
+            request_id_headers: self.request_id_headers.clone(),
         })
     }
 }
@@ -170,6 +173,7 @@ impl Router {
         prometheus_port = None,
         prometheus_host = None,
         request_timeout_secs = 600,  // Add configurable request timeout
+        request_id_headers = None,  // Custom request ID headers
         pd_disaggregation = false,  // New flag for PD mode
         prefill_urls = None,
         decode_urls = None,
@@ -201,6 +205,7 @@ impl Router {
         prometheus_port: Option<u16>,
         prometheus_host: Option<String>,
         request_timeout_secs: u64,
+        request_id_headers: Option<Vec<String>>,
         pd_disaggregation: bool,
         prefill_urls: Option<Vec<(String, Option<u16>)>>,
         decode_urls: Option<Vec<String>>,
@@ -232,6 +237,7 @@ impl Router {
             prometheus_port,
             prometheus_host,
             request_timeout_secs,
+            request_id_headers,
             pd_disaggregation,
             prefill_urls,
             decode_urls,
@@ -297,6 +303,7 @@ impl Router {
                 service_discovery_config,
                 prometheus_config,
                 request_timeout_secs: self.request_timeout_secs,
+                request_id_headers: self.request_id_headers.clone(),
             })
             .await
             .map_err(|e| pyo3::exceptions::PyRuntimeError::new_err(e.to_string()))
diff --git a/sgl-router/src/middleware.rs b/sgl-router/src/middleware.rs
new file mode 100644
index 000000000000..76c48f413654
--- /dev/null
+++ b/sgl-router/src/middleware.rs
@@ -0,0 +1,111 @@
+use actix_web::{
+    dev::{forward_ready, Service, ServiceRequest, ServiceResponse, Transform},
+    Error, HttpMessage, HttpRequest,
+};
+use futures_util::future::LocalBoxFuture;
+use std::future::{ready, Ready};
+
+/// Generate OpenAI-compatible request ID based on endpoint
+fn generate_request_id(path: &str) -> String {
+    let prefix = if path.contains("/chat/completions") {
+        "chatcmpl-"
+    } else if path.contains("/completions") {
+        "cmpl-"
+    } else if path.contains("/generate") {
+        "gnt-"
+    } else {
+        "req-"
+    };
+
+    // Generate a random string similar to OpenAI's format
+    let random_part: String = (0..24)
+        .map(|_| {
+            let chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789";
+            chars
+                .chars()
+                .nth(rand::random::<usize>() % chars.len())
+                .unwrap()
+        })
+        .collect();
+
+    format!("{}{}", prefix, random_part)
+}
+
+/// Extract request ID from request extensions or generate a new one
+pub fn get_request_id(req: &HttpRequest) -> String {
+    req.extensions()
+        .get::<String>()
+        .cloned()
+        .unwrap_or_else(|| generate_request_id(req.path()))
+}
+
+/// Middleware for injecting request ID into request extensions
+pub struct RequestIdMiddleware {
+    headers: Vec<String>,
+}
+
+impl RequestIdMiddleware {
+    pub fn new(headers: Vec<String>) -> Self {
+        Self { headers }
+    }
+}
+
+impl<S, B> Transform<S, ServiceRequest> for RequestIdMiddleware
+where
+    S: Service<ServiceRequest, Response = ServiceResponse<B>, Error = Error>,
+    S::Future: 'static,
+    B: 'static,
+{
+    type Response = ServiceResponse<B>;
+    type Error = Error;
+    type InitError = ();
+    type Transform = RequestIdMiddlewareService<S>;
+    type Future = Ready<Result<Self::Transform, Self::InitError>>;
+
+    fn new_transform(&self, service: S) -> Self::Future {
+        ready(Ok(RequestIdMiddlewareService {
+            service,
+            headers: self.headers.clone(),
+        }))
+    }
+}
+
+pub struct RequestIdMiddlewareService<S> {
+    service: S,
+    headers: Vec<String>,
+}
+
+impl<S, B> Service<ServiceRequest> for RequestIdMiddlewareService<S>
+where
+    S: Service<ServiceRequest, Response = ServiceResponse<B>, Error = Error>,
+    S::Future: 'static,
+    B: 'static,
+{
+    type Response = ServiceResponse<B>;
+    type Error = Error;
+    type Future = LocalBoxFuture<'static, Result<Self::Response, Self::Error>>;
+
+    forward_ready!(service);
+
+    fn call(&self, req: ServiceRequest) -> Self::Future {
+        // Extract request ID from headers or generate new one
+        let mut request_id = None;
+
+        for header_name in &self.headers {
+            if let Some(header_value) = req.headers().get(header_name) {
+                if let Ok(value) = header_value.to_str() {
+                    request_id = Some(value.to_string());
+                    break;
+                }
+            }
+        }
+
+        let request_id = request_id.unwrap_or_else(|| generate_request_id(req.path()));
+
+        // Insert request ID into request extensions
+        req.extensions_mut().insert(request_id);
+
+        let fut = self.service.call(req);
+        Box::pin(async move { fut.await })
+    }
+}
diff --git a/sgl-router/src/policies/cache_aware.rs b/sgl-router/src/policies/cache_aware.rs
index bfbe4b93a003..8d83505f6cae 100644
--- a/sgl-router/src/policies/cache_aware.rs
+++ b/sgl-router/src/policies/cache_aware.rs
@@ -66,7 +66,7 @@ use crate::tree::Tree;
 use std::sync::{Arc, Mutex};
 use std::thread;
 use std::time::Duration;
-use tracing::{debug, info};
+use tracing::debug;
 
 /// Cache-aware routing policy
 ///
@@ -164,10 +164,8 @@ impl LoadBalancingPolicy for CacheAwarePolicy {
                 .map(|w| (w.url().to_string(), w.load()))
                 .collect();
 
-            info!(
-                "Load balancing triggered due to workload imbalance:\n\
-                Max load: {}, Min load: {}\n\
-                Current worker loads: {:?}",
+            debug!(
+                "Load balancing triggered | max: {} | min: {} | workers: {:?}",
                 max_load, min_load, worker_loads
             );
 
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index 507ac1f4250f..4bc224fcf1bb 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -5,6 +5,7 @@ use super::pd_types::{api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRou
 use super::request_adapter::ToPdRequest;
 use crate::core::{HealthChecker, Worker, WorkerFactory, WorkerLoadGuard};
 use crate::metrics::RouterMetrics;
+use crate::middleware::get_request_id;
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::policies::LoadBalancingPolicy;
 use crate::tree::Tree;
@@ -16,7 +17,6 @@ use std::collections::HashMap;
 use std::sync::{Arc, Mutex, RwLock};
 use std::time::{Duration, Instant};
 use tracing::{debug, error, info, warn};
-use uuid::Uuid;
 
 #[derive(Debug)]
 pub struct PDRouter {
@@ -307,8 +307,8 @@ impl PDRouter {
         mut typed_req: GenerateReqInput,
         route: &str,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         let start = Instant::now();
-        let _request_id = Uuid::new_v4();
 
         // Get stream flag and return_logprob flag before moving the request
         let is_stream = typed_req.stream;
@@ -328,7 +328,10 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
-                error!("Failed to select PD pair: {}", e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to select PD pair error={}", e
+                );
                 RouterMetrics::record_pd_error("server_selection");
                 return HttpResponse::ServiceUnavailable()
                     .body(format!("No available servers: {}", e));
@@ -337,15 +340,17 @@ impl PDRouter {
 
         // Log routing decision
         info!(
-            "PD routing: {} -> prefill={}, decode={}",
-            route,
-            prefill.url(),
-            decode.url()
+            request_id = %request_id,
+            "PD routing decision route={} prefill_url={} decode_url={}",
+            route, prefill.url(), decode.url()
         );
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!("Failed to add bootstrap info: {}", e);
+            error!(
+                request_id = %request_id,
+                "Failed to add bootstrap info error={}", e
+            );
             RouterMetrics::record_pd_error("bootstrap_injection");
             return HttpResponse::InternalServerError()
                 .body(format!("Bootstrap injection failed: {}", e));
@@ -355,7 +360,10 @@ impl PDRouter {
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
             Err(e) => {
-                error!("Failed to serialize request: {}", e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to serialize request error={}", e
+                );
                 return HttpResponse::InternalServerError().body("Failed to serialize request");
             }
         };
@@ -383,6 +391,7 @@ impl PDRouter {
         mut typed_req: ChatReqInput,
         route: &str,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         let start = Instant::now();
 
         // Get stream flag and return_logprob flag before moving the request
@@ -406,7 +415,10 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
-                error!("Failed to select PD pair: {}", e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to select PD pair error={}", e
+                );
                 RouterMetrics::record_pd_error("server_selection");
                 return HttpResponse::ServiceUnavailable()
                     .body(format!("No available servers: {}", e));
@@ -415,15 +427,17 @@ impl PDRouter {
 
         // Log routing decision
         info!(
-            "PD routing: {} -> prefill={}, decode={}",
-            route,
-            prefill.url(),
-            decode.url()
+            request_id = %request_id,
+            "PD routing decision route={} prefill_url={} decode_url={}",
+            route, prefill.url(), decode.url()
         );
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!("Failed to add bootstrap info: {}", e);
+            error!(
+                request_id = %request_id,
+                "Failed to add bootstrap info error={}", e
+            );
             RouterMetrics::record_pd_error("bootstrap_injection");
             return HttpResponse::InternalServerError()
                 .body(format!("Bootstrap injection failed: {}", e));
@@ -433,7 +447,10 @@ impl PDRouter {
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
             Err(e) => {
-                error!("Failed to serialize request: {}", e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to serialize request error={}", e
+                );
                 return HttpResponse::InternalServerError().body("Failed to serialize request");
             }
         };
@@ -461,6 +478,7 @@ impl PDRouter {
         mut typed_req: CompletionRequest,
         route: &str,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         let start = Instant::now();
 
         // Get stream flag and return_logprob flag before moving the request
@@ -477,7 +495,10 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
-                error!("Failed to select PD pair: {}", e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to select PD pair error={}", e
+                );
                 RouterMetrics::record_pd_error("server_selection");
                 return HttpResponse::ServiceUnavailable()
                     .body(format!("No available servers: {}", e));
@@ -486,15 +507,17 @@ impl PDRouter {
 
         // Log routing decision
         info!(
-            "PD routing: {} -> prefill={}, decode={}",
-            route,
-            prefill.url(),
-            decode.url()
+            request_id = %request_id,
+            "PD routing decision route={} prefill_url={} decode_url={}",
+            route, prefill.url(), decode.url()
         );
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!("Failed to add bootstrap info: {}", e);
+            error!(
+                request_id = %request_id,
+                "Failed to add bootstrap info error={}", e
+            );
             RouterMetrics::record_pd_error("bootstrap_injection");
             return HttpResponse::InternalServerError()
                 .body(format!("Bootstrap injection failed: {}", e));
@@ -504,7 +527,10 @@ impl PDRouter {
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
             Err(e) => {
-                error!("Failed to serialize request: {}", e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to serialize request error={}", e
+                );
                 return HttpResponse::InternalServerError().body("Failed to serialize request");
             }
         };
@@ -538,6 +564,7 @@ impl PDRouter {
         return_logprob: bool,
         start_time: Instant,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         // Update load tracking for both workers
         let _guard = WorkerLoadGuard::new_multi(vec![prefill, decode]);
 
@@ -578,9 +605,9 @@ impl PDRouter {
                 if !status.is_success() {
                     RouterMetrics::record_pd_decode_error(decode.url());
                     error!(
-                        "Decode server {} returned error status: {}",
-                        decode.url(),
-                        status
+                        request_id = %request_id,
+                        "Decode server returned error status decode_url={} status={}",
+                        decode.url(), status
                     );
 
                     // Return the error response from decode server
@@ -598,9 +625,9 @@ impl PDRouter {
                 // Log prefill errors for debugging
                 if let Err(e) = &prefill_result {
                     error!(
-                        "Prefill server {} failed (non-critical): {}",
-                        prefill.url(),
-                        e
+                        request_id = %request_id,
+                        "Prefill server failed (non-critical) prefill_url={} error={}",
+                        prefill.url(), e
                     );
                     RouterMetrics::record_pd_prefill_error(prefill.url());
                 }
@@ -684,7 +711,12 @@ impl PDRouter {
                 }
             }
             Err(e) => {
-                error!("Decode request failed: {}", e);
+                error!(
+                    request_id = %request_id,
+                    decode_url = %decode.url(),
+                    error = %e,
+                    "Decode request failed"
+                );
                 RouterMetrics::record_pd_decode_error(decode.url());
                 HttpResponse::BadGateway().body(format!("Decode server error: {}", e))
             }
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index 84bb28fb58e8..b065afafed9c 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -1,5 +1,6 @@
 use crate::core::{HealthChecker, Worker, WorkerFactory};
 use crate::metrics::RouterMetrics;
+use crate::middleware::get_request_id;
 use crate::policies::LoadBalancingPolicy;
 use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
 use actix_web::{HttpRequest, HttpResponse};
@@ -134,32 +135,26 @@ impl Router {
                 match sync_client.get(&format!("{}/health", url)).send() {
                     Ok(res) => {
                         if !res.status().is_success() {
-                            let msg = format!(
-                                "Worker heatlh check is pending with status {}",
-                                res.status()
-                            );
-                            info!("{}", msg);
                             all_healthy = false;
-                            unhealthy_workers.push((url, msg));
+                            unhealthy_workers.push((url, format!("status: {}", res.status())));
                         }
                     }
                     Err(_) => {
-                        let msg = format!("Worker is not ready yet");
-                        info!("{}", msg);
                         all_healthy = false;
-                        unhealthy_workers.push((url, msg));
+                        unhealthy_workers.push((url, "not ready".to_string()));
                     }
                 }
             }
 
             if all_healthy {
-                info!("All workers are healthy");
+                info!("All {} workers are healthy", worker_urls.len());
                 return Ok(());
             } else {
-                info!("Initializing workers:");
-                for (url, reason) in &unhealthy_workers {
-                    info!("  {} - {}", url, reason);
-                }
+                debug!(
+                    "Waiting for {} workers to become healthy ({} unhealthy)",
+                    worker_urls.len(),
+                    unhealthy_workers.len()
+                );
                 thread::sleep(Duration::from_secs(interval_secs));
             }
         }
@@ -181,6 +176,7 @@ impl Router {
         route: &str,
         req: &HttpRequest,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         let start = Instant::now();
         let mut request_builder = client.get(format!("{}{}", worker_url, route));
 
@@ -202,14 +198,32 @@ impl Router {
 
                 match res.bytes().await {
                     Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                    Err(e) => HttpResponse::InternalServerError()
-                        .body(format!("Failed to read response body: {}", e)),
+                    Err(e) => {
+                        error!(
+                            request_id = %request_id,
+                            worker_url = %worker_url,
+                            route = %route,
+                            error = %e,
+                            "Failed to read response body"
+                        );
+                        HttpResponse::InternalServerError()
+                            .body(format!("Failed to read response body: {}", e))
+                    }
                 }
             }
-            Err(e) => HttpResponse::InternalServerError().body(format!(
-                "Failed to send request to worker {}: {}",
-                worker_url, e
-            )),
+            Err(e) => {
+                error!(
+                    request_id = %request_id,
+                    worker_url = %worker_url,
+                    route = %route,
+                    error = %e,
+                    "Failed to send request to worker"
+                );
+                HttpResponse::InternalServerError().body(format!(
+                    "Failed to send request to worker {}: {}",
+                    worker_url, e
+                ))
+            }
         };
 
         // Record request metrics
@@ -231,6 +245,7 @@ impl Router {
         route: &str,
         req: &HttpRequest,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         const MAX_REQUEST_RETRIES: u32 = 3;
         const MAX_TOTAL_RETRIES: u32 = 6;
         let mut total_retries = 0;
@@ -260,17 +275,23 @@ impl Router {
                         }
 
                         warn!(
-                            "Request to {} failed (attempt {}/{})",
-                            worker_url,
-                            request_retries + 1,
-                            MAX_REQUEST_RETRIES
+                            request_id = %request_id,
+                            route = %route,
+                            worker_url = %worker_url,
+                            attempt = request_retries + 1,
+                            max_attempts = MAX_REQUEST_RETRIES,
+                            "Request failed"
                         );
 
                         request_retries += 1;
                         total_retries += 1;
 
                         if request_retries == MAX_REQUEST_RETRIES {
-                            warn!("Removing failed worker: {}", worker_url);
+                            warn!(
+                                request_id = %request_id,
+                                worker_url = %worker_url,
+                                "Removing failed worker"
+                            );
                             self.remove_worker(&worker_url);
                             break;
                         }
@@ -293,6 +314,7 @@ impl Router {
         typed_req: &T,
         route: &str,
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         // Handle retries like the original implementation
         let start = Instant::now();
         const MAX_REQUEST_RETRIES: u32 = 3;
@@ -357,17 +379,19 @@ impl Router {
                 }
 
                 warn!(
-                    "Generate request to {} failed (attempt {}/{})",
-                    worker_url,
-                    request_retries + 1,
-                    MAX_REQUEST_RETRIES
+                    request_id = %request_id,
+                    "Generate request failed route={} worker_url={} attempt={} max_attempts={}",
+                    route, worker_url, request_retries + 1, MAX_REQUEST_RETRIES
                 );
 
                 request_retries += 1;
                 total_retries += 1;
 
                 if request_retries == MAX_REQUEST_RETRIES {
-                    warn!("Removing failed worker: {}", worker_url);
+                    warn!(
+                        request_id = %request_id,
+                        "Removing failed worker after typed request failures worker_url={}", worker_url
+                    );
                     self.remove_worker(&worker_url);
                     break;
                 }
@@ -402,13 +426,9 @@ impl Router {
         is_stream: bool,
         load_incremented: bool, // Whether load was incremented for this request
     ) -> HttpResponse {
+        let request_id = get_request_id(req);
         let start = Instant::now();
 
-        // Debug: Log what we're sending
-        if let Ok(json_str) = serde_json::to_string_pretty(typed_req) {
-            debug!("Sending request to {}: {}", route, json_str);
-        }
-
         let mut request_builder = client
             .post(format!("{}{}", worker_url, route))
             .json(typed_req); // Use json() directly with typed request
@@ -424,7 +444,11 @@ impl Router {
         let res = match request_builder.send().await {
             Ok(res) => res,
             Err(e) => {
-                error!("Failed to send request to {}: {}", worker_url, e);
+                error!(
+                    request_id = %request_id,
+                    "Failed to send typed request worker_url={} route={} error={}",
+                    worker_url, route, e
+                );
 
                 // Decrement load on error if it was incremented
                 if load_incremented {
@@ -497,7 +521,6 @@ impl Router {
                                                 &worker_url,
                                                 worker.load(),
                                             );
-                                            debug!("Streaming is done!!")
                                         }
                                     }
                                 }
@@ -536,7 +559,6 @@ impl Router {
             match client.get(&format!("{}/health", worker_url)).send().await {
                 Ok(res) => {
                     if res.status().is_success() {
-                        info!("Worker {} health check passed", worker_url);
                         let mut workers_guard = self.workers.write().unwrap();
                         if workers_guard.iter().any(|w| w.url() == worker_url) {
                             return Err(format!("Worker {} already exists", worker_url));
@@ -560,8 +582,8 @@ impl Router {
 
                         return Ok(format!("Successfully added worker: {}", worker_url));
                     } else {
-                        info!(
-                            "Worker {} health check is pending with status: {}.",
+                        debug!(
+                            "Worker {} health check pending - status: {}",
                             worker_url,
                             res.status()
                         );
@@ -576,10 +598,7 @@ impl Router {
                     }
                 }
                 Err(e) => {
-                    info!(
-                        "Worker {} health check is pending with error: {}",
-                        worker_url, e
-                    );
+                    debug!("Worker {} health check pending - error: {}", worker_url, e);
 
                     // if the url does not have http or https prefix, warn users
                     if !worker_url.starts_with("http://") && !worker_url.starts_with("https://") {
@@ -611,7 +630,6 @@ impl Router {
             .downcast_ref::<crate::policies::CacheAwarePolicy>()
         {
             cache_aware.remove_worker(worker_url);
-            info!("Removed worker from tree: {}", worker_url);
         }
     }
 
@@ -675,7 +693,6 @@ impl Router {
             for url in &worker_urls {
                 if let Some(load) = Self::get_worker_load_static(&client, url).await {
                     loads.insert(url.clone(), load);
-                    debug!("Worker {} load: {}", url, load);
                 }
             }
 
diff --git a/sgl-router/src/server.rs b/sgl-router/src/server.rs
index 83774f172a35..acbc9d9e9e14 100644
--- a/sgl-router/src/server.rs
+++ b/sgl-router/src/server.rs
@@ -1,6 +1,7 @@
 use crate::config::RouterConfig;
 use crate::logging::{self, LoggingConfig};
 use crate::metrics::{self, PrometheusConfig};
+use crate::middleware::{get_request_id, RequestIdMiddleware};
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::routers::{RouterFactory, RouterTrait};
 use crate::service_discovery::{start_service_discovery, ServiceDiscoveryConfig};
@@ -46,13 +47,13 @@ async fn sink_handler(_req: HttpRequest, mut payload: web::Payload) -> Result<Ht
 }
 
 // Custom error handler for JSON payload errors.
-fn json_error_handler(err: error::JsonPayloadError, _req: &HttpRequest) -> Error {
-    error!("JSON payload error: {:?}", err);
+fn json_error_handler(err: error::JsonPayloadError, req: &HttpRequest) -> Error {
+    let request_id = get_request_id(req);
     match &err {
         error::JsonPayloadError::OverflowKnownLength { length, limit } => {
             error!(
-                "Payload too large: {} bytes exceeds limit of {} bytes",
-                length, limit
+                request_id = %request_id,
+                "Payload too large length={} limit={}", length, limit
             );
             error::ErrorPayloadTooLarge(format!(
                 "Payload too large: {} bytes exceeds limit of {} bytes",
@@ -60,10 +61,19 @@ fn json_error_handler(err: error::JsonPayloadError, _req: &HttpRequest) -> Error
             ))
         }
         error::JsonPayloadError::Overflow { limit } => {
-            error!("Payload overflow: exceeds limit of {} bytes", limit);
+            error!(
+                request_id = %request_id,
+                "Payload overflow limit={}", limit
+            );
             error::ErrorPayloadTooLarge(format!("Payload exceeds limit of {} bytes", limit))
         }
-        _ => error::ErrorBadRequest(format!("Invalid JSON payload: {}", err)),
+        _ => {
+            error!(
+                request_id = %request_id,
+                "Invalid JSON payload error={}", err
+            );
+            error::ErrorBadRequest(format!("Invalid JSON payload: {}", err))
+        }
     }
 }
 
@@ -108,8 +118,20 @@ async fn generate(
     body: web::Json<GenerateRequest>,
     state: web::Data<AppState>,
 ) -> Result<HttpResponse, Error> {
-    let json_body = serde_json::to_value(body.into_inner())
-        .map_err(|e| error::ErrorBadRequest(format!("Invalid JSON: {}", e)))?;
+    let request_id = get_request_id(&req);
+    info!(
+        request_id = %request_id,
+        "Received generate request method=\"POST\" path=\"/generate\""
+    );
+
+    let json_body = serde_json::to_value(body.into_inner()).map_err(|e| {
+        error!(
+            request_id = %request_id,
+            "Failed to parse generate request body error={}", e
+        );
+        error::ErrorBadRequest(format!("Invalid JSON: {}", e))
+    })?;
+
     Ok(state
         .router
         .route_generate(&state.client, &req, json_body)
@@ -122,8 +144,20 @@ async fn v1_chat_completions(
     body: web::Json<ChatCompletionRequest>,
     state: web::Data<AppState>,
 ) -> Result<HttpResponse, Error> {
-    let json_body = serde_json::to_value(body.into_inner())
-        .map_err(|e| error::ErrorBadRequest(format!("Invalid JSON: {}", e)))?;
+    let request_id = get_request_id(&req);
+    info!(
+        request_id = %request_id,
+        "Received chat completion request method=\"POST\" path=\"/v1/chat/completions\""
+    );
+
+    let json_body = serde_json::to_value(body.into_inner()).map_err(|e| {
+        error!(
+            request_id = %request_id,
+            "Failed to parse chat completion request body error={}", e
+        );
+        error::ErrorBadRequest(format!("Invalid JSON: {}", e))
+    })?;
+
     Ok(state
         .router
         .route_chat(&state.client, &req, json_body)
@@ -136,8 +170,20 @@ async fn v1_completions(
     body: web::Json<CompletionRequest>,
     state: web::Data<AppState>,
 ) -> Result<HttpResponse, Error> {
-    let json_body = serde_json::to_value(body.into_inner())
-        .map_err(|e| error::ErrorBadRequest(format!("Invalid JSON: {}", e)))?;
+    let request_id = get_request_id(&req);
+    info!(
+        request_id = %request_id,
+        "Received completion request method=\"POST\" path=\"/v1/completions\""
+    );
+
+    let json_body = serde_json::to_value(body.into_inner()).map_err(|e| {
+        error!(
+            request_id = %request_id,
+            "Failed to parse completion request body error={}", e
+        );
+        error::ErrorBadRequest(format!("Invalid JSON: {}", e))
+    })?;
+
     Ok(state
         .router
         .route_completion(&state.client, &req, json_body)
@@ -146,20 +192,48 @@ async fn v1_completions(
 
 #[post("/add_worker")]
 async fn add_worker(
+    req: HttpRequest,
     query: web::Query<HashMap<String, String>>,
     data: web::Data<AppState>,
 ) -> impl Responder {
+    let request_id = get_request_id(&req);
+
     let worker_url = match query.get("url") {
         Some(url) => url.to_string(),
         None => {
+            warn!(
+                request_id = %request_id,
+                "Add worker request missing URL parameter"
+            );
             return HttpResponse::BadRequest()
-                .body("Worker URL required. Provide 'url' query parameter")
+                .body("Worker URL required. Provide 'url' query parameter");
         }
     };
 
+    info!(
+        request_id = %request_id,
+        worker_url = %worker_url,
+        "Adding worker"
+    );
+
     match data.router.add_worker(&worker_url).await {
-        Ok(message) => HttpResponse::Ok().body(message),
-        Err(error) => HttpResponse::BadRequest().body(error),
+        Ok(message) => {
+            info!(
+                request_id = %request_id,
+                worker_url = %worker_url,
+                "Successfully added worker"
+            );
+            HttpResponse::Ok().body(message)
+        }
+        Err(error) => {
+            error!(
+                request_id = %request_id,
+                worker_url = %worker_url,
+                error = %error,
+                "Failed to add worker"
+            );
+            HttpResponse::BadRequest().body(error)
+        }
     }
 }
 
@@ -171,13 +245,29 @@ async fn list_workers(data: web::Data<AppState>) -> impl Responder {
 
 #[post("/remove_worker")]
 async fn remove_worker(
+    req: HttpRequest,
     query: web::Query<HashMap<String, String>>,
     data: web::Data<AppState>,
 ) -> impl Responder {
+    let request_id = get_request_id(&req);
+
     let worker_url = match query.get("url") {
         Some(url) => url.to_string(),
-        None => return HttpResponse::BadRequest().finish(),
+        None => {
+            warn!(
+                request_id = %request_id,
+                "Remove worker request missing URL parameter"
+            );
+            return HttpResponse::BadRequest().finish();
+        }
     };
+
+    info!(
+        request_id = %request_id,
+        worker_url = %worker_url,
+        "Removing worker"
+    );
+
     data.router.remove_worker(&worker_url);
     HttpResponse::Ok().body(format!("Successfully removed worker: {}", worker_url))
 }
@@ -202,6 +292,7 @@ pub struct ServerConfig {
     pub service_discovery_config: Option<ServiceDiscoveryConfig>,
     pub prometheus_config: Option<PrometheusConfig>,
     pub request_timeout_secs: u64,
+    pub request_id_headers: Option<Vec<String>>,
 }
 
 pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
@@ -233,31 +324,18 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
 
     // Initialize prometheus metrics exporter
     if let Some(prometheus_config) = config.prometheus_config {
-        info!(
-            "🚧 Initializing Prometheus metrics on {}:{}",
-            prometheus_config.host, prometheus_config.port
-        );
         metrics::start_prometheus(prometheus_config);
-    } else {
-        info!("🚧 Prometheus metrics disabled");
     }
 
-    info!("🚧 Initializing router on {}:{}", config.host, config.port);
-    info!("🚧 Router mode: {:?}", config.router_config.mode);
-    info!("🚧 Policy: {:?}", config.router_config.policy);
     info!(
-        "🚧 Max payload size: {} MB",
+        "Starting router on {}:{} | mode: {:?} | policy: {:?} | max_payload: {}MB",
+        config.host,
+        config.port,
+        config.router_config.mode,
+        config.router_config.policy,
         config.max_payload_size / (1024 * 1024)
     );
 
-    // Log service discovery status
-    if let Some(service_discovery_config) = &config.service_discovery_config {
-        info!("🚧 Service discovery enabled");
-        info!("🚧 Selector: {:?}", service_discovery_config.selector);
-    } else {
-        info!("🚧 Service discovery disabled");
-    }
-
     let client = Client::builder()
         .pool_idle_timeout(Some(Duration::from_secs(50)))
         .timeout(Duration::from_secs(config.request_timeout_secs)) // Use configurable timeout
@@ -272,11 +350,9 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
     // Start the service discovery if enabled
     if let Some(service_discovery_config) = config.service_discovery_config {
         if service_discovery_config.enabled {
-            info!("🚧 Initializing Kubernetes service discovery");
-            // Pass the Arc<Router> directly
             match start_service_discovery(service_discovery_config, router_arc).await {
                 Ok(handle) => {
-                    info!("✅ Service discovery started successfully");
+                    info!("Service discovery started");
                     // Spawn a task to handle the service discovery thread
                     spawn(async move {
                         if let Err(e) = handle.await {
@@ -292,14 +368,26 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
         }
     }
 
-    info!("✅ Serving router on {}:{}", config.host, config.port);
     info!(
-        "✅ Serving workers on {:?}",
+        "Router ready | workers: {:?}",
         app_state.router.get_worker_urls()
     );
 
+    // Configure request ID headers
+    let request_id_headers = config.request_id_headers.clone().unwrap_or_else(|| {
+        vec![
+            "x-request-id".to_string(),
+            "x-correlation-id".to_string(),
+            "x-trace-id".to_string(),
+            "request-id".to_string(),
+        ]
+    });
+
     HttpServer::new(move || {
+        let request_id_middleware = RequestIdMiddleware::new(request_id_headers.clone());
+
         App::new()
+            .wrap(request_id_middleware)
             .app_data(app_state.clone())
             .app_data(
                 web::JsonConfig::default()
diff --git a/sgl-router/src/service_discovery.rs b/sgl-router/src/service_discovery.rs
index 72d78b490951..fae09896d432 100644
--- a/sgl-router/src/service_discovery.rs
+++ b/sgl-router/src/service_discovery.rs
@@ -209,7 +209,7 @@ pub async fn start_service_discovery(
             .join(",");
 
         info!(
-            "Starting Kubernetes service discovery in PD mode with prefill_selector: '{}', decode_selector: '{}'",
+            "Starting K8s service discovery | PD mode | prefill: '{}' | decode: '{}'",
             prefill_selector, decode_selector
         );
     } else {
@@ -221,7 +221,7 @@ pub async fn start_service_discovery(
             .join(",");
 
         info!(
-            "Starting Kubernetes service discovery with selector: '{}'",
+            "Starting K8s service discovery | selector: '{}'",
             label_selector
         );
     }
@@ -238,7 +238,7 @@ pub async fn start_service_discovery(
             Api::all(client)
         };
 
-        info!("Kubernetes service discovery initialized successfully");
+        debug!("K8s service discovery initialized");
 
         // Create Arcs for configuration data
         let config_arc = Arc::new(config.clone());
@@ -375,7 +375,7 @@ async fn handle_pod_event(
 
         if should_add {
             info!(
-                "Healthy pod found: {} (type: {:?}). Adding worker: {}",
+                "Adding pod: {} | type: {:?} | url: {}",
                 pod_info.name, pod_info.pod_type, worker_url
             );
 
@@ -409,8 +409,8 @@ async fn handle_pod_event(
             };
 
             match result {
-                Ok(msg) => {
-                    info!("Successfully added worker: {}", msg);
+                Ok(_) => {
+                    debug!("Worker added: {}", worker_url);
                 }
                 Err(e) => {
                     error!("Failed to add worker {} to router: {}", worker_url, e);
@@ -446,7 +446,7 @@ async fn handle_pod_deletion(
 
     if was_tracked {
         info!(
-            "Pod deleted: {} (type: {:?}). Removing worker: {}",
+            "Removing pod: {} | type: {:?} | url: {}",
             pod_info.name, pod_info.pod_type, worker_url
         );
 
diff --git a/sgl-router/tests/api_endpoints_test.rs b/sgl-router/tests/api_endpoints_test.rs
index 12e8dd2d2b88..bf86d776b1e0 100644
--- a/sgl-router/tests/api_endpoints_test.rs
+++ b/sgl-router/tests/api_endpoints_test.rs
@@ -35,6 +35,7 @@ impl TestContext {
             metrics: None,
             log_dir: None,
             log_level: None,
+            request_id_headers: None,
         };
 
         Self::new_with_config(config, worker_configs).await
@@ -953,6 +954,7 @@ mod error_tests {
                 metrics: None,
                 log_dir: None,
                 log_level: None,
+                request_id_headers: None,
             };
 
             let ctx = TestContext::new_with_config(
diff --git a/sgl-router/tests/common/mod.rs b/sgl-router/tests/common/mod.rs
index 34467cd0885a..62c99a46bbae 100644
--- a/sgl-router/tests/common/mod.rs
+++ b/sgl-router/tests/common/mod.rs
@@ -20,6 +20,7 @@ pub fn create_test_config(worker_urls: Vec<String>) -> RouterConfig {
         metrics: None,
         log_dir: None,
         log_level: None,
+        request_id_headers: None,
     }
 }
 
@@ -40,6 +41,7 @@ pub fn create_test_config_no_workers() -> RouterConfig {
         metrics: None,
         log_dir: None,
         log_level: None,
+        request_id_headers: None,
     }
 }
 
diff --git a/sgl-router/tests/request_formats_test.rs b/sgl-router/tests/request_formats_test.rs
index 40045a0f7b15..d265d10309e2 100644
--- a/sgl-router/tests/request_formats_test.rs
+++ b/sgl-router/tests/request_formats_test.rs
@@ -46,6 +46,7 @@ impl RequestTestContext {
             metrics: None,
             log_dir: None,
             log_level: None,
+            request_id_headers: None,
         };
 
         let client = Client::builder()
diff --git a/sgl-router/tests/streaming_tests.rs b/sgl-router/tests/streaming_tests.rs
index 47a1326ae575..ada8b7e4554e 100644
--- a/sgl-router/tests/streaming_tests.rs
+++ b/sgl-router/tests/streaming_tests.rs
@@ -50,6 +50,7 @@ impl StreamingTestContext {
             metrics: None,
             log_dir: None,
             log_level: None,
+            request_id_headers: None,
         };
 
         let client = Client::builder()
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index 24571eb243f6..a6cb8d02d572 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -173,6 +173,7 @@ mod test_pd_routing {
                 metrics: None,
                 log_dir: None,
                 log_level: None,
+                request_id_headers: None,
             };
 
             // Router creation will fail due to health checks, but config should be valid

From 2810338401d0d5abe8ea89be45d69728e6d22602 Mon Sep 17 00:00:00 2001
From: Qiaolin Yu <liin1211@outlook.com>
Date: Sun, 27 Jul 2025 20:42:29 -0700
Subject: [PATCH 181/396] [feat] Support different attention backends for
 prefill and decode  (#6338)

Co-authored-by: tianqilin.99 <tianqilin.99@bytedance.com>
Co-authored-by: Baizhou Zhang <sobereddiezhang@gmail.com>
---
 docs/backend/server_arguments.md              |   2 +
 .../layers/attention/hybrid_attn_backend.py   | 100 ++++++++++++++++
 python/sglang/srt/managers/schedule_batch.py  |  14 ++-
 .../sglang/srt/model_executor/model_runner.py |  82 ++++++++++---
 python/sglang/srt/models/deepseek_v2.py       |  26 +++--
 python/sglang/srt/server_args.py              |  41 ++++++-
 python/sglang/test/runners.py                 |   4 +
 test/srt/run_suite.py                         |   1 +
 test/srt/test_hybrid_attn_backend.py          | 109 ++++++++++++++++++
 9 files changed, 350 insertions(+), 29 deletions(-)
 create mode 100644 python/sglang/srt/layers/attention/hybrid_attn_backend.py
 create mode 100644 test/srt/test_hybrid_attn_backend.py

diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index d7c5ff520dc9..f742083f1cf2 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -188,6 +188,8 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
 | `--attention-backend` | Choose the kernels for attention layers. | None |
+| `decode_attention_backend` | (Experimental) This argument specifies the backend for decode attention computation. Note that this argument has priority over `attention_backend`. | None |
+| `prefill_attention_backend` | (Experimental) This argument specifies the backend for prefill attention computation. Note that this argument has priority over `attention_backend`. | None |
 | `--sampling-backend` | Choose the kernels for sampling layers. | None |
 | `--grammar-backend` | Choose the backend for grammar-guided decoding. | None |
 | `--mm-attention-backend` | Set multimodal attention backend. | None |
diff --git a/python/sglang/srt/layers/attention/hybrid_attn_backend.py b/python/sglang/srt/layers/attention/hybrid_attn_backend.py
new file mode 100644
index 000000000000..370961864872
--- /dev/null
+++ b/python/sglang/srt/layers/attention/hybrid_attn_backend.py
@@ -0,0 +1,100 @@
+from typing import TYPE_CHECKING, Optional, Union
+
+import torch
+
+from sglang.srt.layers.attention.base_attn_backend import AttentionBackend
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
+from sglang.srt.speculative.eagle_utils import EagleDraftInput, EagleVerifyInput
+
+
+class HybridAttnBackend(AttentionBackend):
+    """Support different backends for prefill and decode."""
+
+    def __init__(
+        self, prefill_backend: AttentionBackend, decode_backend: AttentionBackend
+    ):
+        self.prefill_backend = prefill_backend
+        self.decode_backend = decode_backend
+
+    def init_forward_metadata(self, forward_batch: ForwardBatch):
+        if forward_batch.forward_mode.is_decode():
+            self.decode_backend.init_forward_metadata(forward_batch)
+        else:
+            self.prefill_backend.init_forward_metadata(forward_batch)
+
+    def init_cuda_graph_state(self, max_bs: int, max_num_tokens: int):
+        self.decode_backend.init_cuda_graph_state(max_bs, max_num_tokens)
+
+    def init_forward_metadata_capture_cuda_graph(
+        self,
+        bs: int,
+        num_tokens: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        encoder_lens: Optional[torch.Tensor],
+        forward_mode: ForwardMode,
+        spec_info: Optional[Union[EagleDraftInput, EagleVerifyInput]],
+    ):
+        self.decode_backend.init_forward_metadata_capture_cuda_graph(
+            bs,
+            num_tokens,
+            req_pool_indices,
+            seq_lens,
+            encoder_lens,
+            forward_mode,
+            spec_info,
+        )
+
+    def init_forward_metadata_replay_cuda_graph(
+        self,
+        bs: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        seq_lens_sum: int,
+        encoder_lens: Optional[torch.Tensor],
+        forward_mode: ForwardMode,
+        spec_info: Optional[Union[EagleDraftInput, EagleVerifyInput]],
+        seq_lens_cpu: Optional[torch.Tensor],
+    ):
+        self.decode_backend.init_forward_metadata_replay_cuda_graph(
+            bs,
+            req_pool_indices,
+            seq_lens,
+            seq_lens_sum,
+            encoder_lens,
+            forward_mode,
+            spec_info,
+            seq_lens_cpu,
+        )
+
+    def get_cuda_graph_seq_len_fill_value(self):
+        return self.decode_backend.get_cuda_graph_seq_len_fill_value()
+
+    def forward_decode(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        layer: RadixAttention,
+        forward_batch: ForwardBatch,
+        save_kv_cache: bool = True,
+        **kwargs,
+    ):
+        return self.decode_backend.forward_decode(
+            q, k, v, layer, forward_batch, save_kv_cache, **kwargs
+        )
+
+    def forward_extend(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        layer: RadixAttention,
+        forward_batch: ForwardBatch,
+        save_kv_cache: bool = True,
+        **kwargs,
+    ):
+        return self.prefill_backend.forward_extend(
+            q, k, v, layer, forward_batch, save_kv_cache, **kwargs
+        )
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 5d174db77511..e698bf85b768 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -1690,16 +1690,20 @@ def get_model_worker_batch(
             extend_prefix_lens = self.prefix_lens
             extend_logprob_start_lens = self.extend_logprob_start_lens
 
+        if self.forward_mode.is_decode_or_idle():
+            attention_backend_str = global_server_args_dict["decode_attention_backend"]
+        else:
+            attention_backend_str = global_server_args_dict["prefill_attention_backend"]
         # Create seq_lens_cpu when needed
         if (
-            global_server_args_dict["attention_backend"] == "fa3"
+            attention_backend_str == "fa3"
             or (
                 global_server_args_dict["use_mla_backend"]
-                and global_server_args_dict["attention_backend"] == "flashinfer"
+                and attention_backend_str == "flashinfer"
             )
-            or global_server_args_dict["attention_backend"] == "flashmla"
-            or global_server_args_dict["attention_backend"] == "cutlass_mla"
-            or global_server_args_dict["attention_backend"] == "ascend"
+            or attention_backend_str == "flashmla"
+            or attention_backend_str == "cutlass_mla"
+            or attention_backend_str == "ascend"
             or global_server_args_dict["enable_two_batch_overlap"]
         ):
             seq_lens_cpu = (
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index fbb08077ced2..13555adeb186 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -1308,9 +1308,58 @@ def init_attention_backend(self):
         else:
             self.attn_backend = self._get_attention_backend()
 
-    # TODO unify with 6338
     def _get_attention_backend(self):
-        if self.server_args.attention_backend == "flashinfer":
+        """Init attention kernel backend."""
+        self.decode_attention_backend_str = (
+            self.server_args.decode_attention_backend
+            if self.server_args.decode_attention_backend
+            else self.server_args.attention_backend
+        )
+        self.prefill_attention_backend_str = (
+            self.server_args.prefill_attention_backend
+            if self.server_args.prefill_attention_backend
+            else self.server_args.attention_backend
+        )
+        if self.decode_attention_backend_str != self.prefill_attention_backend_str:
+            assert (
+                self.server_args.speculative_algorithm is None
+            ), "Currently HybridAttentionBackend does not support speculative decoding."
+            from sglang.srt.layers.attention.hybrid_attn_backend import (
+                HybridAttnBackend,
+            )
+
+            attn_backend = HybridAttnBackend(
+                decode_backend=self._get_attention_backend_from_str(
+                    self.decode_attention_backend_str
+                ),
+                prefill_backend=self._get_attention_backend_from_str(
+                    self.prefill_attention_backend_str
+                ),
+            )
+            logger.info(
+                f"Using hybrid attention backend for decode and prefill: "
+                f"decode_backend={self.decode_attention_backend_str}, "
+                f"prefill_backend={self.prefill_attention_backend_str}."
+            )
+            logger.warning(
+                f"Warning: Attention backend specified by --attention-backend or default backend might be overridden."
+                f"The feature of hybrid attention backend is experimental and unstable. Please raise an issue if you encounter any problem."
+            )
+        else:
+            attn_backend = self._get_attention_backend_from_str(
+                self.server_args.attention_backend
+            )
+
+        global_server_args_dict.update(
+            {
+                "decode_attention_backend": self.decode_attention_backend_str,
+                "prefill_attention_backend": self.prefill_attention_backend_str,
+            }
+        )
+        return attn_backend
+
+    def _get_attention_backend_from_str(self, backend_str: str):
+        if backend_str == "flashinfer":
             if not self.use_mla_backend:
                 from sglang.srt.layers.attention.flashinfer_backend import (
                     FlashInferAttnBackend,
@@ -1318,7 +1367,11 @@ def _get_attention_backend(self):
 
                 # Init streams
                 if self.server_args.speculative_algorithm == "EAGLE":
-                    self.plan_stream_for_flashinfer = torch.cuda.Stream()
+                    if (
+                        not hasattr(self, "plan_stream_for_flashinfer")
+                        or not self.plan_stream_for_flashinfer
+                    ):
+                        self.plan_stream_for_flashinfer = torch.cuda.Stream()
                 return FlashInferAttnBackend(self)
             else:
                 from sglang.srt.layers.attention.flashinfer_mla_backend import (
@@ -1326,15 +1379,15 @@ def _get_attention_backend(self):
                 )
 
                 return FlashInferMLAAttnBackend(self)
-        elif self.server_args.attention_backend == "aiter":
+        elif backend_str == "aiter":
             from sglang.srt.layers.attention.aiter_backend import AiterAttnBackend
 
             return AiterAttnBackend(self)
-        elif self.server_args.attention_backend == "ascend":
+        elif backend_str == "ascend":
             from sglang.srt.layers.attention.ascend_backend import AscendAttnBackend
 
             return AscendAttnBackend(self)
-        elif self.server_args.attention_backend == "triton":
+        elif backend_str == "triton":
             assert not self.model_config.is_encoder_decoder, (
                 "Cross attention is not supported in the triton attention backend. "
                 "Please use `--attention-backend flashinfer`."
@@ -1349,17 +1402,17 @@ def _get_attention_backend(self):
                 from sglang.srt.layers.attention.triton_backend import TritonAttnBackend
 
                 return TritonAttnBackend(self)
-        elif self.server_args.attention_backend == "torch_native":
+        elif backend_str == "torch_native":
             from sglang.srt.layers.attention.torch_native_backend import (
                 TorchNativeAttnBackend,
             )
 
             return TorchNativeAttnBackend(self)
-        elif self.server_args.attention_backend == "flashmla":
+        elif backend_str == "flashmla":
             from sglang.srt.layers.attention.flashmla_backend import FlashMLABackend
 
             return FlashMLABackend(self)
-        elif self.server_args.attention_backend == "fa3":
+        elif backend_str == "fa3":
             assert (
                 torch.cuda.get_device_capability()[0] == 8 and not self.use_mla_backend
             ) or torch.cuda.get_device_capability()[0] == 9, (
@@ -1371,7 +1424,7 @@ def _get_attention_backend(self):
             )
 
             return FlashAttentionBackend(self)
-        elif self.server_args.attention_backend == "cutlass_mla":
+        elif backend_str == "cutlass_mla":
             from sglang.srt.layers.attention.cutlass_mla_backend import (
                 CutlassMLABackend,
             )
@@ -1385,9 +1438,7 @@ def _get_attention_backend(self):
             logger.info(f"Intel AMX attention backend is enabled.")
             return IntelAMXAttnBackend(self)
         else:
-            raise ValueError(
-                f"Invalid attention backend: {self.server_args.attention_backend}"
-            )
+            raise ValueError(f"Invalid attention backend: {backend_str}")
 
     def init_double_sparsity_channel_config(self, selected_channel):
         selected_channel = "." + selected_channel + "_proj"
@@ -1475,7 +1526,10 @@ def forward_decode(
         if self.support_pp:
             kwargs["pp_proxy_tensors"] = pp_proxy_tensors
         return self.model.forward(
-            forward_batch.input_ids, forward_batch.positions, forward_batch, **kwargs
+            forward_batch.input_ids,
+            forward_batch.positions,
+            forward_batch,
+            **kwargs,
         )
 
     def forward_extend(
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index be6ef9bf3384..777b8e0c83b5 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -925,7 +925,10 @@ def __init__(
         self.disable_chunked_prefix_cache = global_server_args_dict[
             "disable_chunked_prefix_cache"
         ]
-        self.attention_backend = global_server_args_dict["attention_backend"]
+
+        self.current_attention_backend = (
+            None  # Attention backend used by current forward batch
+        )
         self.rocm_fused_decode_mla = get_bool_env_var(
             "SGLANG_ROCM_FUSED_DECODE_MLA", "false"
         )
@@ -1009,9 +1012,16 @@ def _dispatch_mla_subtype():
                 else:
                     return AttnForwardMethod.MLA
 
-        if self.attention_backend == "ascend":
+        # Determine attention backend used by current forward batch
+        if forward_batch.forward_mode.is_decode_or_idle():
+            attention_backend = global_server_args_dict["decode_attention_backend"]
+        else:
+            attention_backend = global_server_args_dict["prefill_attention_backend"]
+        self.current_attention_backend = attention_backend
+
+        if attention_backend == "ascend":
             return AttnForwardMethod.MLA
-        elif self.attention_backend == "flashinfer":
+        elif attention_backend == "flashinfer":
             # Flashinfer MLA: Do not absorb when enabling ragged prefill
             if (
                 not self.flashinfer_mla_disable_ragged
@@ -1023,7 +1033,7 @@ def _dispatch_mla_subtype():
                 return AttnForwardMethod.MHA
             else:
                 return _dispatch_mla_subtype()
-        elif self.attention_backend == "fa3":
+        elif attention_backend == "fa3":
             # Flash Attention: Use MHA with chunked KV cache when prefilling on long sequences.
             if forward_batch.extend_prefix_lens_cpu is not None:
                 sum_extend_prefix_lens = sum(forward_batch.extend_prefix_lens_cpu)
@@ -1040,7 +1050,7 @@ def _dispatch_mla_subtype():
                 return AttnForwardMethod.MHA_CHUNKED_KV
             else:
                 return _dispatch_mla_subtype()
-        elif self.attention_backend == "aiter":
+        elif attention_backend == "aiter":
             if (
                 forward_batch.forward_mode.is_extend()
                 and not forward_batch.forward_mode.is_target_verify()
@@ -1288,9 +1298,9 @@ def forward_absorb_core(
         self, q_pe, k_pe, q_nope_out, k_nope, forward_batch, zero_allocator
     ):
         if (
-            self.attention_backend == "fa3"
-            or self.attention_backend == "flashinfer"
-            or self.attention_backend == "cutlass_mla"
+            self.current_attention_backend == "fa3"
+            or self.current_attention_backend == "flashinfer"
+            or self.current_attention_backend == "cutlass_mla"
         ):
             attn_output = self.attn_mqa(
                 q_nope_out, k_nope, k_nope, forward_batch, q_rope=q_pe, k_rope=k_pe
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index f1497d2a6e5c..b0e6fbab32dd 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -151,6 +151,8 @@ class ServerArgs:
 
     # Kernel backend
     attention_backend: Optional[str] = None
+    decode_attention_backend: Optional[str] = None
+    prefill_attention_backend: Optional[str] = None
     sampling_backend: Optional[str] = None
     grammar_backend: Optional[str] = None
     mm_attention_backend: Optional[str] = None
@@ -387,13 +389,19 @@ def __post_init__(self):
             )
             self.page_size = 128
 
-        if self.attention_backend == "flashmla":
+        if (
+            self.attention_backend == "flashmla"
+            or self.decode_attention_backend == "flashmla"
+        ):
             logger.warning(
                 "FlashMLA only supports a page_size of 64, change page_size to 64."
             )
             self.page_size = 64
 
-        if self.attention_backend == "cutlass_mla":
+        if (
+            self.attention_backend == "cutlass_mla"
+            or self.decode_attention_backend == "cutlass_mla"
+        ):
             logger.warning(
                 "Cutlass MLA only supports a page_size of 128, change page_size to 128."
             )
@@ -1213,6 +1221,35 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.attention_backend,
             help="Choose the kernels for attention layers.",
         )
+        parser.add_argument(
+            "--decode-attention-backend",
+            type=str,
+            choices=[
+                "flashinfer",
+                "triton",
+                "torch_native",
+                "fa3",
+                "flashmla",
+                "cutlass_mla",
+            ],
+            default=ServerArgs.decode_attention_backend,
+            help="Choose the kernels for decode attention layers (have priority over --attention-backend).",
+        )
+
+        parser.add_argument(
+            "--prefill-attention-backend",
+            type=str,
+            choices=[
+                "flashinfer",
+                "triton",
+                "torch_native",
+                "fa3",
+                "flashmla",
+                "cutlass_mla",
+            ],
+            default=ServerArgs.prefill_attention_backend,
+            help="Choose the kernels for prefill attention layers (have priority over --attention-backend).",
+        )
         parser.add_argument(
             "--sampling-backend",
             type=str,
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index ed30b3687922..60c010e31e7f 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -491,6 +491,8 @@ def __init__(
         lora_paths: List[str] = None,
         max_loras_per_batch: int = 4,
         attention_backend: Optional[str] = None,
+        prefill_attention_backend: Optional[str] = None,
+        decode_attention_backend: Optional[str] = None,
         lora_backend: str = "triton",
         disable_cuda_graph: bool = False,
         disable_radix_cache: bool = False,
@@ -540,6 +542,8 @@ def __init__(
             max_loras_per_batch=max_loras_per_batch,
             lora_backend=lora_backend,
             attention_backend=attention_backend,
+            prefill_attention_backend=prefill_attention_backend,
+            decode_attention_backend=decode_attention_backend,
             disable_cuda_graph=disable_cuda_graph,
             disable_radix_cache=disable_radix_cache,
             chunked_prefill_size=chunked_prefill_size,
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 19ff9d560a79..c9876e16147d 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -109,6 +109,7 @@ class TestFile:
         TestFile("test_vision_openai_server_b.py", 620),
         TestFile("test_w8a8_quantization.py", 46),
         TestFile("test_reasoning_parser.py", 5),
+        TestFile("test_hybrid_attn_backend.py", 100),
     ],
     "per-commit-amd": [
         TestFile("models/lora/test_lora_backend.py", 99),
diff --git a/test/srt/test_hybrid_attn_backend.py b/test/srt/test_hybrid_attn_backend.py
new file mode 100644
index 000000000000..6791447f473d
--- /dev/null
+++ b/test/srt/test_hybrid_attn_backend.py
@@ -0,0 +1,109 @@
+import os
+import unittest
+from types import SimpleNamespace
+
+import requests
+
+from sglang.srt.utils import get_device_sm, kill_process_tree
+from sglang.test.few_shot_gsm8k import run_eval as run_eval_few_shot_gsm8k
+from sglang.test.test_utils import (
+    DEFAULT_MODEL_NAME_FOR_TEST,
+    DEFAULT_MODEL_NAME_FOR_TEST_MLA,
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    CustomTestCase,
+    popen_launch_server,
+)
+
+GSM_DATASET_PATH = None
+
+# Default server arguments shared across all tests
+DEFAULT_SERVER_ARGS = [
+    "--trust-remote-code",
+    "--cuda-graph-max-bs",
+    "8",
+    "--prefill-attention-backend",
+    "fa3",
+    "--decode-attention-backend",
+    "flashinfer",
+]
+
+
+@unittest.skipIf(get_device_sm() < 90, "Test requires CUDA SM 90 or higher")
+class TestHybridAttnBackendBase(CustomTestCase):
+
+    model = DEFAULT_MODEL_NAME_FOR_TEST
+    base_url = DEFAULT_URL_FOR_TEST
+    accuracy_threshold = 0.65  # derived tests need to override this
+    speculative_decode = False
+    spec_decode_threshold = 1.0  # derived spec decoding tests need to override this
+
+    @classmethod
+    def get_server_args(cls):
+        """Return the arguments for the server launch. Override in subclasses."""
+        return DEFAULT_SERVER_ARGS
+
+    @classmethod
+    def setUpClass(cls):
+        # disable deep gemm precompile to make launch server faster
+        # please don't do this if you want to make your inference workload faster
+        os.environ["SGL_JIT_DEEPGEMM_PRECOMPILE"] = "false"
+        os.environ["SGL_ENABLE_JIT_DEEPGEMM"] = "false"
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            other_args=cls.get_server_args(),
+        )
+
+    @classmethod
+    def tearDownClass(cls):
+        kill_process_tree(cls.process.pid)
+
+    def test_gsm8k(self):
+        requests.get(self.base_url + "/flush_cache")
+
+        args = SimpleNamespace(
+            num_shots=4,
+            num_questions=100,
+            max_new_tokens=512,
+            parallel=128,
+            host="http://127.0.0.1",
+            port=int(self.base_url.split(":")[-1]),
+            data_path=GSM_DATASET_PATH,
+        )
+        metrics = run_eval_few_shot_gsm8k(args)
+        print(f"{metrics=}")
+
+        # Use the appropriate metric key based on the test class
+        metric_key = "accuracy"
+        self.assertGreater(metrics[metric_key], self.accuracy_threshold)
+
+        if self.speculative_decode:
+            server_info = requests.get(self.base_url + "/get_server_info")
+            avg_spec_accept_length = server_info.json()["internal_states"][0][
+                "avg_spec_accept_length"
+            ]
+            print(f"{avg_spec_accept_length=}")
+            self.assertGreater(avg_spec_accept_length, self.spec_decode_threshold)
+
+
+class TestHybridAttnBackendMLA(TestHybridAttnBackendBase):
+    accuracy_threshold = 0.60
+    model = DEFAULT_MODEL_NAME_FOR_TEST_MLA
+
+    @classmethod
+    def get_server_args(cls):
+        return DEFAULT_SERVER_ARGS
+
+
+class TestHybridAttnBackendTorchCompile(TestHybridAttnBackendBase):
+    accuracy_threshold = 0.65
+
+    @classmethod
+    def get_server_args(cls):
+        return DEFAULT_SERVER_ARGS + ["--enable-torch-compile"]
+
+
+if __name__ == "__main__":
+    unittest.main()

From 4ad97370452e9de7a0f78b246f7d12d7bd2b7d83 Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Sun, 27 Jul 2025 21:27:25 -0700
Subject: [PATCH 182/396] chore: bump transformer to 4.54.0 (#8416)

Co-authored-by: Binyao Jiang <byjiang1996@gmail.com>
Co-authored-by: Lifu Huang <lifu.hlf@gmail.com>
---
 .github/workflows/vllm-dependency-test.yml |  2 +-
 python/pyproject.toml                      |  2 +-
 python/sglang/srt/models/llava.py          | 14 ++++---
 python/sglang/srt/models/minicpmo.py       |  5 ++-
 test/srt/models/test_generation_models.py  |  3 +-
 test/srt/test_vision_openai_server_b.py    | 43 +++++++++++----------
 test/srt/test_vlm_input_format.py          | 45 +++++++++++-----------
 7 files changed, 62 insertions(+), 52 deletions(-)

diff --git a/.github/workflows/vllm-dependency-test.yml b/.github/workflows/vllm-dependency-test.yml
index 30116b43abcf..c8c0b7374be1 100644
--- a/.github/workflows/vllm-dependency-test.yml
+++ b/.github/workflows/vllm-dependency-test.yml
@@ -30,7 +30,7 @@ jobs:
       - name: Install dependencies
         run: |
           bash scripts/ci_install_dependency.sh
-          pip install "vllm==0.9.0.1"
+          pip install "vllm==0.10.0"
           pip install "bitsandbytes>=0.44.0"
 
       - name: Run VLLM dependency tests
diff --git a/python/pyproject.toml b/python/pyproject.toml
index 09ba2ee20a99..8af5df274819 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -45,7 +45,7 @@ runtime_common = [
     "soundfile==0.13.1",
     "scipy",
     "torchao==0.9.0",
-    "transformers==4.53.2",
+    "transformers==4.54.0",
     "timm==1.0.16",
     "uvicorn",
     "uvloop",
diff --git a/python/sglang/srt/models/llava.py b/python/sglang/srt/models/llava.py
index 6375657e77a6..2fbbe5590815 100644
--- a/python/sglang/srt/models/llava.py
+++ b/python/sglang/srt/models/llava.py
@@ -656,11 +656,15 @@ def _config_cls_name_to_arch_name_mapping(
         self, auto_model_type: Type[AutoModel]
     ) -> Dict[str, str]:
         mapping = {}
-        for config_cls, archs in auto_model_type._model_mapping.items():
-            if isinstance(archs, tuple):
-                mapping[config_cls.__name__] = tuple(arch.__name__ for arch in archs)
-            else:
-                mapping[config_cls.__name__] = archs.__name__
+        for config_cls in auto_model_type._model_mapping.keys():
+            archs = auto_model_type._model_mapping.get(config_cls, None)
+            if archs is not None:
+                if isinstance(archs, tuple):
+                    mapping[config_cls.__name__] = tuple(
+                        arch.__name__ for arch in archs
+                    )
+                else:
+                    mapping[config_cls.__name__] = archs.__name__
         return mapping
 
     def __init__(
diff --git a/python/sglang/srt/models/minicpmo.py b/python/sglang/srt/models/minicpmo.py
index 786738ecaa21..2ce575411d6b 100644
--- a/python/sglang/srt/models/minicpmo.py
+++ b/python/sglang/srt/models/minicpmo.py
@@ -1134,7 +1134,10 @@ def forward(
         """
         residual = hidden_states
         hidden_states = self.self_attn_layer_norm(hidden_states)
-        hidden_states, attn_weights, past_key_values = self.self_attn(
+        # TODO (lifuhuang): confirmed with Mick that the logic for past_key_values is copied from minicpmo official code,
+        # currently we are not using past_key_values at all. We need to redesign the caching logic when we support streaming
+        # in the future.
+        hidden_states, attn_weights = self.self_attn(
             hidden_states=hidden_states,
             attention_mask=attention_mask,
             layer_head_mask=layer_head_mask,
diff --git a/test/srt/models/test_generation_models.py b/test/srt/models/test_generation_models.py
index daa99001d7b7..4ed9d4e12c7c 100644
--- a/test/srt/models/test_generation_models.py
+++ b/test/srt/models/test_generation_models.py
@@ -51,7 +51,8 @@ class ModelCase:
 # Popular models that run on the CI
 CI_MODELS = [
     ModelCase("meta-llama/Llama-3.1-8B-Instruct"),
-    ModelCase("google/gemma-2-2b"),
+    # TODO: Gemma is broken by the bug introduced in the latest transformers version, we should restore once its fixed: https://github.com/huggingface/transformers/issues/39711
+    # ModelCase("google/gemma-2-2b"),
 ]
 
 # the complete set of models to test sglang's generation model
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index f5b33a72e380..3d1b6519c294 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -172,28 +172,29 @@ def setUpClass(cls):
         cls.base_url += "/v1"
 
 
-class TestKimiVLServer(TestOpenAIVisionServer):
-    @classmethod
-    def setUpClass(cls):
-        cls.model = "moonshotai/Kimi-VL-A3B-Instruct"
-        cls.base_url = DEFAULT_URL_FOR_TEST
-        cls.api_key = "sk-123456"
-        cls.process = popen_launch_server(
-            cls.model,
-            cls.base_url,
-            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            other_args=[
-                "--trust-remote-code",
-                "--context-length",
-                "4096",
-                "--dtype",
-                "bfloat16",
-            ],
-        )
-        cls.base_url += "/v1"
+# commented out before https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/discussions/27 get fixed
+# class TestKimiVLServer(TestOpenAIVisionServer):
+#     @classmethod
+#     def setUpClass(cls):
+#         cls.model = "moonshotai/Kimi-VL-A3B-Instruct"
+#         cls.base_url = DEFAULT_URL_FOR_TEST
+#         cls.api_key = "sk-123456"
+#         cls.process = popen_launch_server(
+#             cls.model,
+#             cls.base_url,
+#             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+#             other_args=[
+#                 "--trust-remote-code",
+#                 "--context-length",
+#                 "4096",
+#                 "--dtype",
+#                 "bfloat16",
+#             ],
+#         )
+#         cls.base_url += "/v1"
 
-    def test_video_images_chat_completion(self):
-        pass
+#     def test_video_images_chat_completion(self):
+#         pass
 
 
 class TestPhi4MMServer(TestOpenAIVisionServer):
diff --git a/test/srt/test_vlm_input_format.py b/test/srt/test_vlm_input_format.py
index 4f9ad64c3294..39f28a4b3cf8 100644
--- a/test/srt/test_vlm_input_format.py
+++ b/test/srt/test_vlm_input_format.py
@@ -189,31 +189,32 @@ def _pixel_values_image_data(self, processor_output):
         )
 
 
-class TestKimiVLImageUnderstandsImage(
-    VLMInputTestBase, unittest.IsolatedAsyncioTestCase
-):
-    model_path = "moonshotai/Kimi-VL-A3B-Instruct"
-    chat_template = "kimi-vl"
+# commented out before https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/discussions/27 get fixed
+# class TestKimiVLImageUnderstandsImage(
+#     VLMInputTestBase, unittest.IsolatedAsyncioTestCase
+# ):
+#     model_path = "moonshotai/Kimi-VL-A3B-Instruct"
+#     chat_template = "kimi-vl"
 
-    @classmethod
-    def _init_visual(cls):
-        model = AutoModel.from_pretrained(cls.model_path, trust_remote_code=True)
-        cls.vision_tower = model.vision_tower.eval().to(cls.device)
-        cls.mm_projector = model.multi_modal_projector.eval().to(cls.device)
+#     @classmethod
+#     def _init_visual(cls):
+#         model = AutoModel.from_pretrained(cls.model_path, trust_remote_code=True)
+#         cls.vision_tower = model.vision_tower.eval().to(cls.device)
+#         cls.mm_projector = model.multi_modal_projector.eval().to(cls.device)
 
-        cls.visual = lambda tokenizer_output: cls.mm_projector(
-            cls.vision_tower(
-                pixel_values=tokenizer_output["pixel_values"],
-                grid_hws=tokenizer_output["image_grid_hws"],
-            )
-        )
+#         cls.visual = lambda tokenizer_output: cls.mm_projector(
+#             cls.vision_tower(
+#                 pixel_values=tokenizer_output["pixel_values"],
+#                 grid_hws=tokenizer_output["image_grid_hws"],
+#             )
+#         )
 
-    def _pixel_values_image_data(self, processor_output):
-        return dict(
-            modality="IMAGE",
-            pixel_values=processor_output["pixel_values"],
-            image_grid_hws=processor_output["image_grid_hws"],
-        )
+#     def _pixel_values_image_data(self, processor_output):
+#         return dict(
+#             modality="IMAGE",
+#             pixel_values=processor_output["pixel_values"],
+#             image_grid_hws=processor_output["image_grid_hws"],
+#         )
 
 
 # not for CI: too large

From 2fd5c7049f4c2eb5878ca1dbf3f0d81a55fed3bb Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Mon, 28 Jul 2025 12:48:27 +0800
Subject: [PATCH 183/396] [PD] Fix abort_request for PD disaggregation (#8352)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
Co-authored-by: ybyang <10629930+whybeyoung@users.noreply.github.com>
---
 .../srt/disaggregation/mooncake/conn.py       | 16 ++++++++++
 python/sglang/srt/managers/scheduler.py       | 31 +++++++++++++++++++
 2 files changed, 47 insertions(+)

diff --git a/python/sglang/srt/disaggregation/mooncake/conn.py b/python/sglang/srt/disaggregation/mooncake/conn.py
index c5baa69886de..bb0b47471ca3 100644
--- a/python/sglang/srt/disaggregation/mooncake/conn.py
+++ b/python/sglang/srt/disaggregation/mooncake/conn.py
@@ -992,6 +992,14 @@ def failure_exception(self):
             )
         raise KVTransferError(self.bootstrap_room, failure_reason)
 
+    def abort(self):
+        self.kv_mgr.record_failure(
+            self.bootstrap_room,
+            "Aborted by AbortReq.",
+        )
+        # Explicitly set the status to failure since this request has been aborted
+        self.conclude_state = KVPoll.Failed
+
 
 class MooncakeKVReceiver(BaseKVReceiver):
     _ctx = zmq.Context()
@@ -1305,6 +1313,14 @@ def failure_exception(self):
             )
         raise KVTransferError(self.bootstrap_room, failure_reason)
 
+    def abort(self):
+        self.kv_mgr.record_failure(
+            self.bootstrap_room,
+            "Aborted by AbortReq.",
+        )
+        # Explicitly set the status to failure since this request has been aborted
+        self.conclude_state = KVPoll.Failed
+
 
 class MooncakeKVBootstrapServer(BaseKVBootstrapServer):
     def __init__(self, port: int):
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 0be67eaca485..ecfce1392c4e 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -2440,6 +2440,37 @@ def abort_request(self, recv_req: AbortReq):
                     req.grammar.cancel()
                 req.set_finish_with_abort("Aborted by AbortReq.")
 
+        # Delete requests not in the waiting queue when PD disaggregation is enabled
+        if self.disaggregation_mode == DisaggregationMode.PREFILL:
+            # Abort requests that have not yet been bootstrapped
+            for i, req in enumerate(self.disagg_prefill_bootstrap_queue.queue):
+                logger.debug(f"Abort bootstrap queue request. {req.rid=}")
+                if recv_req.abort_all or req.rid.startswith(recv_req.rid):
+                    if hasattr(req.disagg_kv_sender, "abort"):
+                        req.disagg_kv_sender.abort()
+
+            # Abort in-flight requests
+            for i, req in enumerate(self.disagg_prefill_inflight_queue):
+                logger.debug(f"Abort inflight queue request. {req.rid=}")
+                if recv_req.abort_all or req.rid.startswith(recv_req.rid):
+                    if hasattr(req.disagg_kv_sender, "abort"):
+                        req.disagg_kv_sender.abort()
+
+        elif self.disaggregation_mode == DisaggregationMode.DECODE:
+            # Abort requests that have not yet finished preallocation
+            for i, decode_req in enumerate(self.disagg_decode_prealloc_queue.queue):
+                logger.debug(f"Abort prealloc queue request. {decode_req.req.rid=}")
+                if recv_req.abort_all or decode_req.req.rid.startswith(recv_req.rid):
+                    if hasattr(decode_req.kv_receiver, "abort"):
+                        decode_req.kv_receiver.abort()
+
+            # Abort requests waiting for kvcache to release tree cache
+            for i, decode_req in enumerate(self.disagg_decode_transfer_queue.queue):
+                logger.debug(f"Abort transfer queue request. {decode_req.req.rid=}")
+                if recv_req.abort_all or decode_req.req.rid.startswith(recv_req.rid):
+                    if hasattr(decode_req.kv_receiver, "abort"):
+                        decode_req.kv_receiver.abort()
+
         # Delete requests in the running batch
         if self.cur_batch is self.running_batch or self.cur_batch is None:
             reqs = self.running_batch.reqs

From 6d6a8bc278eac424214e73544ae010bde3fb99cb Mon Sep 17 00:00:00 2001
From: Yuxuan Zhang <2448370773@qq.com>
Date: Mon, 28 Jul 2025 13:54:07 +0800
Subject: [PATCH 184/396] GLM-4.5 Model Support (#8224)

Co-authored-by: Lifu Huang <lifu.hlf@gmail.com>
Co-authored-by: Binyao Jiang <byjiang1996@gmail.com>
Co-authored-by: Stefan He <hebiaobuaa@gmail.com>
---
 .../benchmark_sglang_fused_moe_triton.py      |    6 +-
 ...nchmark_vllm_vs_sglang_fused_moe_triton.py |    6 +-
 python/sglang/srt/configs/model_config.py     |    3 +
 .../sglang/srt/function_call/ebnf_composer.py |   13 +-
 .../srt/function_call/function_call_parser.py |    2 +
 .../srt/function_call/glm4_moe_detector.py    |  165 +++
 python/sglang/srt/models/glm4_moe.py          | 1034 +++++++++++++++++
 python/sglang/srt/models/glm4_moe_nextn.py    |  167 +++
 python/sglang/srt/reasoning_parser.py         |    1 +
 python/sglang/srt/server_args.py              |    3 +-
 python/sglang/srt/utils.py                    |    1 +
 .../features/test_enable_thinking.py          |   55 +
 .../test_openai_function_calling.py           |   40 +-
 test/srt/test_function_call_parser.py         |  184 +++
 14 files changed, 1673 insertions(+), 7 deletions(-)
 create mode 100644 python/sglang/srt/function_call/glm4_moe_detector.py
 create mode 100644 python/sglang/srt/models/glm4_moe.py
 create mode 100644 python/sglang/srt/models/glm4_moe_nextn.py

diff --git a/benchmark/kernels/fused_moe_triton/benchmark_sglang_fused_moe_triton.py b/benchmark/kernels/fused_moe_triton/benchmark_sglang_fused_moe_triton.py
index c392f8e7775d..dd8504fd90cc 100644
--- a/benchmark/kernels/fused_moe_triton/benchmark_sglang_fused_moe_triton.py
+++ b/benchmark/kernels/fused_moe_triton/benchmark_sglang_fused_moe_triton.py
@@ -33,7 +33,11 @@ def get_model_config(model_name: str, tp_size: int):
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
         shard_intermediate_size = 2 * intermediate_size // tp_size
-    elif config.architectures[0] in ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]:
+    elif config.architectures[0] in [
+        "DeepseekV2ForCausalLM",
+        "DeepseekV3ForCausalLM",
+        "Glm4MoeForCausalLM",
+    ]:
         E = (
             config.n_routed_experts + 1
             if config.architectures[0] in ["DeepseekV3ForCausalLM"]
diff --git a/benchmark/kernels/fused_moe_triton/benchmark_vllm_vs_sglang_fused_moe_triton.py b/benchmark/kernels/fused_moe_triton/benchmark_vllm_vs_sglang_fused_moe_triton.py
index 390d33f56a21..6afd7f354ca5 100644
--- a/benchmark/kernels/fused_moe_triton/benchmark_vllm_vs_sglang_fused_moe_triton.py
+++ b/benchmark/kernels/fused_moe_triton/benchmark_vllm_vs_sglang_fused_moe_triton.py
@@ -42,7 +42,11 @@ def get_model_config(model_name: str, tp_size: int):
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
         shard_intermediate_size = 2 * intermediate_size // tp_size
-    elif config.architectures[0] in ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]:
+    elif config.architectures[0] in [
+        "DeepseekV2ForCausalLM",
+        "DeepseekV3ForCausalLM",
+        "Glm4MoeForCausalLM",
+    ]:
         E = (
             config.n_routed_experts + 1
             if config.architectures[0] in ["DeepseekV3ForCausalLM"]
diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index c2d1d14155e1..f31970622664 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -127,6 +127,9 @@ def __init__(
         ):
             self.hf_config.architectures[0] = "DeepseekV3ForCausalLMNextN"
 
+        if is_draft_model and self.hf_config.architectures[0] == "Glm4MoeForCausalLM":
+            self.hf_config.architectures[0] = "Glm4MoeForCausalLMNextN"
+
         if is_draft_model and self.hf_config.architectures[0] == "MiMoForCausalLM":
             self.hf_config.architectures[0] = "MiMoMTP"
         # Check model type
diff --git a/python/sglang/srt/function_call/ebnf_composer.py b/python/sglang/srt/function_call/ebnf_composer.py
index 85d6039bb79f..1db7da6d82bc 100644
--- a/python/sglang/srt/function_call/ebnf_composer.py
+++ b/python/sglang/srt/function_call/ebnf_composer.py
@@ -165,6 +165,7 @@ def build_ebnf(
         tool_call_separator: Optional[str] = None,
         call_rule_fmt: Optional[str] = None,
         key_value_rule_fmt: Optional[str] = None,
+        key_value_separator: str = ",",
     ):
         """
         Generalized EBNF builder for all detectors.
@@ -279,7 +280,11 @@ def build_ebnf(
 
             # Add required properties joined by commas
             if required:
-                rule_parts.append(' "," '.join(prop_kv_pairs[k] for k in required))
+                rule_parts.append(
+                    f' "{key_value_separator}" '.join(
+                        prop_kv_pairs[k] for k in required
+                    )
+                )
 
             # Add optional properties with flexible ordering
             if optional:
@@ -292,13 +297,15 @@ def build_ebnf(
                         if j == i:
                             opt_parts.append(prop_kv_pairs[optional[j]])
                         else:
-                            opt_parts.append(f' ( "," {prop_kv_pairs[optional[j]]} )?')
+                            opt_parts.append(
+                                f' ( "{key_value_separator}" {prop_kv_pairs[optional[j]]} )?'
+                            )
                     opt_alternatives.append("".join(opt_parts))
 
                 # Wrap with appropriate comma handling based on whether we have required properties
                 if required:
                     # Required properties exist, so optional group needs outer comma
-                    rule_parts.append(' ( "," ( ')
+                    rule_parts.append(f' ( "{key_value_separator}" ( ')
                     rule_parts.append(" | ".join(opt_alternatives))
                     rule_parts.append(" ) )?")
                 else:
diff --git a/python/sglang/srt/function_call/function_call_parser.py b/python/sglang/srt/function_call/function_call_parser.py
index fde00f303d88..bf6a3d959ce7 100644
--- a/python/sglang/srt/function_call/function_call_parser.py
+++ b/python/sglang/srt/function_call/function_call_parser.py
@@ -10,6 +10,7 @@
 from sglang.srt.function_call.base_format_detector import BaseFormatDetector
 from sglang.srt.function_call.core_types import ToolCallItem
 from sglang.srt.function_call.deepseekv3_detector import DeepSeekV3Detector
+from sglang.srt.function_call.glm4_moe_detector import Glm4MoeDetector
 from sglang.srt.function_call.kimik2_detector import KimiK2Detector
 from sglang.srt.function_call.llama32_detector import Llama32Detector
 from sglang.srt.function_call.mistral_detector import MistralDetector
@@ -37,6 +38,7 @@ class FunctionCallParser:
         "pythonic": PythonicDetector,
         "kimi_k2": KimiK2Detector,
         "qwen3_coder": Qwen3CoderDetector,
+        "glm45": Glm4MoeDetector,
     }
 
     def __init__(self, tools: List[Tool], tool_call_parser: str):
diff --git a/python/sglang/srt/function_call/glm4_moe_detector.py b/python/sglang/srt/function_call/glm4_moe_detector.py
new file mode 100644
index 000000000000..ace32d938985
--- /dev/null
+++ b/python/sglang/srt/function_call/glm4_moe_detector.py
@@ -0,0 +1,165 @@
+import ast
+import json
+import logging
+import re
+from typing import List
+
+from sglang.srt.entrypoints.openai.protocol import Tool
+from sglang.srt.function_call.base_format_detector import BaseFormatDetector
+from sglang.srt.function_call.core_types import (
+    StreamingParseResult,
+    StructureInfo,
+    _GetInfoFunc,
+)
+from sglang.srt.function_call.ebnf_composer import EBNFComposer
+
+logger = logging.getLogger(__name__)
+
+
+def get_argument_type(func_name: str, arg_key: str, defined_tools: list):
+    name2tool = {tool.function.name: tool for tool in defined_tools}
+    if func_name not in name2tool:
+        return None
+    tool = name2tool[func_name]
+    if arg_key not in tool.function.parameters["properties"]:
+        return None
+    return tool.function.parameters["properties"][arg_key].get("type", None)
+
+
+def parse_arguments(json_value):
+    try:
+        try:
+            parsed_value = json.loads(json_value)
+        except:
+            parsed_value = ast.literal_eval(json_value)
+        return parsed_value, True
+    except:
+        return json_value, False
+
+
+class Glm4MoeDetector(BaseFormatDetector):
+    """
+    Detector for GLM-4.5 models.
+    Assumes function call format:
+      <tool_call>get_weather\n<arg_key>city</arg_key>\n<arg_value>北京</arg_value>\n<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n</tool_call>\n<tool_call>get_weather\n<arg_key>city</arg_key>\n<arg_value>上海</arg_value>\n<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n</tool_call>
+    """
+
+    def __init__(self):
+        super().__init__()
+        self.bot_token = "<tool_call>"
+        self.eot_token = "</tool_call>"
+        self.func_call_regex = r"<tool_call>.*?</tool_call>"
+        self.func_detail_regex = r"<tool_call>([^\n]*)\n(.*)</tool_call>"
+        self.func_arg_regex = r"<arg_key>(.*?)</arg_key>\s*<arg_value>(.*?)</arg_value>"
+
+    def has_tool_call(self, text: str) -> bool:
+        """Check if the text contains a glm-4.5 format tool call."""
+        return self.bot_token in text
+
+    def detect_and_parse(self, text: str, tools: List[Tool]) -> StreamingParseResult:
+        """
+        One-time parsing: Detects and parses tool calls in the provided text.
+
+        :param text: The complete text to parse.
+        :param tools: List of available tools.
+        :return: ParseResult indicating success or failure, consumed text, leftover text, and parsed calls.
+        """
+        idx = text.find(self.bot_token)
+        normal_text = text[:idx].strip() if idx != -1 else text
+        if self.bot_token not in text:
+            return StreamingParseResult(normal_text=normal_text, calls=[])
+        match_result_list = re.findall(self.func_call_regex, text, re.DOTALL)
+        calls = []
+        try:
+            for match_result in match_result_list:
+                # Get function name
+                func_detail = re.search(self.func_detail_regex, match_result, re.DOTALL)
+                func_name = func_detail.group(1)
+                func_args = func_detail.group(2)
+                pairs = re.findall(
+                    r"<arg_key>(.*?)</arg_key>\s*<arg_value>(.*?)</arg_value>",
+                    func_args,
+                    re.DOTALL,
+                )
+                arguments = {}
+                for arg_key, arg_value in pairs:
+                    arg_key = arg_key.strip()
+                    arg_value = arg_value.strip()
+                    arg_type = get_argument_type(func_name, arg_key, tools)
+                    if arg_type != "string":
+                        arg_value, is_good_json = parse_arguments(arg_value)
+                    arguments[arg_key] = arg_value
+                # construct match_result for parse_base_json
+                match_result = {"name": func_name, "parameters": arguments}
+                calls.extend(self.parse_base_json(match_result, tools))
+            return StreamingParseResult(normal_text=normal_text, calls=calls)
+        except Exception as e:
+            logger.error(f"Error in detect_and_parse: {e}")
+            # return the normal text if parsing fails
+            return StreamingParseResult(normal_text=text)
+
+    def parse_streaming_increment(
+        self, new_text: str, tools: List[Tool]
+    ) -> StreamingParseResult:
+        """
+        Streaming incremental parsing tool calls for GLM-4.5 format.
+        """
+        self._buffer += new_text
+        current_text = self._buffer
+
+        start = current_text.find(self.bot_token)
+        if start == -1:
+            self._buffer = ""
+            if self.current_tool_id > 0:
+                current_text = ""
+            return StreamingParseResult(normal_text=current_text)
+        # find ensures we find the first self.eot_token so there will be at most one tool_call in current_text[:end+len(self.eot_token)
+        end = current_text.find(self.eot_token)
+        if end != -1:
+            # Initialize state if this is the first tool call
+            if self.current_tool_id == -1:
+                self.current_tool_id = 0
+                self.prev_tool_call_arr = []
+                self.streamed_args_for_tool = [""]
+            # Ensure we have enough entries in our tracking arrays
+            while len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+            while len(self.streamed_args_for_tool) <= self.current_tool_id:
+                self.streamed_args_for_tool.append("")
+            result = self.detect_and_parse(
+                current_text[: end + len(self.eot_token)], tools=tools
+            )
+            if result.calls:
+                self.prev_tool_call_arr[self.current_tool_id] = {
+                    "name": result.calls[0].name,
+                    "arguments": json.loads(result.calls[0].parameters),
+                }
+                self.streamed_args_for_tool[self.current_tool_id] = result.calls[
+                    0
+                ].parameters
+                result.calls[0].tool_index = self.current_tool_id
+                self.current_tool_id += 1
+            self._buffer = current_text[end + len(self.eot_token) :]
+            return result
+        normal_text = current_text[:start]
+        self._buffer = current_text[start:]
+        return StreamingParseResult(normal_text=normal_text)
+
+    def supports_structural_tag(self) -> bool:
+        return False
+
+    def structure_info(self) -> _GetInfoFunc:
+        raise NotImplementedError()
+
+    def build_ebnf(self, tools: List[Tool]):
+        return EBNFComposer.build_ebnf(
+            tools,
+            individual_call_start_token=self.bot_token,
+            individual_call_end_token=self.eot_token,
+            # GLM4Moe is not compatible with multiple tool_calls under tool_choice condition: it will output unlimited tool_calls...
+            # tool_call_separator="\\n",
+            function_format="xml",
+            call_rule_fmt='"{name}" "\\n" {arguments_rule} "\\n"',
+            key_value_rule_fmt='"<arg_key>{key}</arg_key>" "\\n" "<arg_value>" {valrule} "</arg_value>"',
+            key_value_separator="\\n",
+        )
diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
new file mode 100644
index 000000000000..9716557f4815
--- /dev/null
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -0,0 +1,1034 @@
+# Copyright 2025-2026 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+"""Inference-only GLM-4.5 model compatible with HuggingFace weights"""
+
+import logging
+from typing import Any, Dict, Iterable, Optional, Tuple
+
+import torch
+import torch.nn.functional as F
+from torch import nn
+from transformers import PretrainedConfig
+
+from sglang.srt.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    parallel_state,
+    tensor_model_parallel_all_reduce,
+)
+from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.amx_utils import PackWeightMethod
+from sglang.srt.layers.communicator import (
+    LayerCommunicator,
+    LayerScatterModes,
+    enable_moe_dense_fully_dp,
+)
+from sglang.srt.layers.dp_attention import (
+    get_attention_tp_rank,
+    get_attention_tp_size,
+    get_local_attention_dp_size,
+)
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor
+from sglang.srt.layers.moe.ep_moe.layer import (
+    DeepEPMoE,
+    get_moe_impl_class,
+    use_flashinfer_trtllm_moe,
+)
+from sglang.srt.layers.moe.topk import TopK
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.quantization.fp8_kernel import (
+    is_fp8_fnuz,
+    per_tensor_quant_mla_fp8,
+    per_token_group_quant_mla_deep_gemm_masked_fp8,
+)
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+from sglang.srt.model_executor.cuda_graph_runner import get_is_capture_mode
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.model_loader.weight_utils import default_weight_loader
+from sglang.srt.models.deepseek_v2 import (
+    DeepseekV2DecoderLayer,
+    DeepseekV2ForCausalLM,
+    DeepseekV2Model,
+    DeepseekV2MoE,
+)
+from sglang.srt.two_batch_overlap import (
+    MaybeTboDeepEPDispatcher,
+    model_forward_maybe_tbo,
+)
+from sglang.srt.utils import (
+    BumpAllocator,
+    DeepEPMode,
+    LazyValue,
+    add_prefix,
+    bind_or_assign,
+    cpu_has_amx_support,
+    get_bool_env_var,
+    get_device_sm,
+    get_int_env_var,
+    is_cpu,
+    is_cuda,
+    is_flashinfer_available,
+    is_hip,
+    is_non_idle_and_non_empty,
+    log_info_on_rank0,
+    use_intel_amx_backend,
+)
+
+_is_hip = is_hip()
+_is_cuda = is_cuda()
+_is_fp8_fnuz = is_fp8_fnuz()
+_use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
+_is_cpu_amx_available = cpu_has_amx_support()
+_is_cpu = is_cpu()
+_device_sm = get_device_sm()
+
+if _is_cuda:
+    from sgl_kernel import dsv3_router_gemm
+elif _is_cpu and _is_cpu_amx_available:
+    pass
+
+logger = logging.getLogger(__name__)
+
+
+class Glm4MoeMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: Optional[QuantizationConfig] = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+        tp_rank: Optional[int] = None,
+        tp_size: Optional[int] = None,
+    ) -> None:
+        super().__init__()
+        self.tp_size = tp_size
+
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=add_prefix("gate_up_proj", prefix),
+            tp_rank=tp_rank,
+            tp_size=tp_size,
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=add_prefix("down_proj", prefix),
+            tp_rank=tp_rank,
+            tp_size=tp_size,
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. "
+                "Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x, forward_batch=None, can_fuse_mlp_allreduce=False):
+        if (self.tp_size == 1) and x.shape[0] == 0:
+            return x
+
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x, can_fuse_mlp_allreduce=can_fuse_mlp_allreduce)
+        return x
+
+
+class Glm4MoeAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        layer_id: int = 0,
+        rope_theta: float = 10000,
+        partial_rotary_factor: float = 0.5,
+        rope_scaling: Optional[Dict[str, Any]] = None,
+        max_position_embeddings: int = 8192,
+        head_dim: Optional[int] = None,
+        rms_norm_eps: float = 1e-05,
+        attention_bias: bool = True,
+        quant_config: Optional[QuantizationConfig] = None,
+        use_qk_norm: bool = False,
+        prefix: str = "",
+        alt_stream: Optional[torch.cuda.Stream] = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        attn_tp_rank = get_attention_tp_rank()
+        attn_tp_size = get_attention_tp_size()
+
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % attn_tp_size == 0
+        self.num_heads = self.total_num_heads // attn_tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= attn_tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % attn_tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert attn_tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // attn_tp_size)
+        self.head_dim = head_dim or hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.use_qk_norm = use_qk_norm
+        self.max_position_embeddings = max_position_embeddings
+        self.tp_rank = get_tensor_model_parallel_rank()
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=attention_bias,
+            quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
+            prefix=add_prefix("qkv_proj", prefix),
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
+            reduce_results=False,
+            prefix=add_prefix("o_proj", prefix),
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            partial_rotary_factor=partial_rotary_factor,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            layer_id=layer_id,
+            prefix=add_prefix("attn", prefix),
+        )
+
+        if self.use_qk_norm:
+            self.q_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+            self.k_norm = RMSNorm(self.head_dim, eps=rms_norm_eps)
+        self.alt_stream = alt_stream
+
+    def _apply_qk_norm(
+        self, q: torch.Tensor, k: torch.Tensor
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        # overlap qk norm
+        if self.alt_stream is not None and get_is_capture_mode():
+            current_stream = torch.cuda.current_stream()
+            self.alt_stream.wait_stream(current_stream)
+            q_by_head = q.reshape(-1, self.head_dim)
+            q_by_head = self.q_norm(q_by_head)
+            with torch.cuda.stream(self.alt_stream):
+                k_by_head = k.reshape(-1, self.head_dim)
+                k_by_head = self.k_norm(k_by_head)
+            current_stream.wait_stream(self.alt_stream)
+        else:
+            q_by_head = q.reshape(-1, self.head_dim)
+            q_by_head = self.q_norm(q_by_head)
+            k_by_head = k.reshape(-1, self.head_dim)
+            k_by_head = self.k_norm(k_by_head)
+        q = q_by_head.view(q.shape)
+        k = k_by_head.view(k.shape)
+        return q, k
+
+    def op_prepare(self, state):
+        state.attn_intermediate_state = self.forward_prepare(
+            positions=state.positions,
+            hidden_states=state.pop("hidden_states_after_comm_pre_attn"),
+            forward_batch=state.forward_batch,
+        )
+
+    def op_core(self, state):
+        state.hidden_states_after_attn = self.forward_core(
+            state.pop("attn_intermediate_state")
+        )
+
+    def forward_prepare(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ):
+        if hidden_states.shape[0] == 0:
+            return hidden_states, forward_batch, None
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        if self.use_qk_norm:
+            q, k = self._apply_qk_norm(q, k)
+        q, k = self.rotary_emb(positions, q, k)
+        inner_state = q, k, v, forward_batch
+        return None, forward_batch, inner_state
+
+    def forward_core(self, intermediate_state):
+        hidden_states, forward_batch, inner_state = intermediate_state
+        if inner_state is None:
+            return hidden_states
+        attn_output = self.attn(*inner_state)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        s = self.forward_prepare(
+            positions=positions,
+            hidden_states=hidden_states,
+            forward_batch=forward_batch,
+        )
+        return self.forward_core(s)
+
+
+class Glm4MoeGate(nn.Module):
+    def __init__(
+        self,
+        config,
+        prefix: str = "",
+        is_nextn: bool = False,
+    ):
+        super().__init__()
+        self.is_nextn = is_nextn
+        self.weight = nn.Parameter(
+            torch.empty((config.n_routed_experts, config.hidden_size))
+        )
+        self.e_score_correction_bias = nn.Parameter(
+            torch.empty((config.n_routed_experts))
+        )
+        if _is_cpu and _is_cpu_amx_available:
+            self.quant_method = PackWeightMethod(weight_names=["weight"])
+
+    def forward(self, hidden_states):
+        if use_intel_amx_backend(self):
+            return torch.ops.sgl_kernel.weight_packed_linear(
+                hidden_states,
+                self.weight,
+                None,  # bias
+                True,  # is_vnni
+            )
+
+        # NOTE: For some unknown reason, router_gemm seems degrade accept length.
+        if (
+            _is_cuda
+            and not self.is_nextn
+            and hidden_states.shape[0] < 4
+            and hidden_states.shape[1] == 7168
+            and self.weight.shape[0] == 256
+            and _device_sm >= 90
+        ):
+            logits = dsv3_router_gemm(hidden_states, self.weight).to(
+                hidden_states.dtype
+            )
+        else:
+            logits = F.linear(hidden_states, self.weight, None)
+
+        return logits
+
+
+class Glm4MoeSparseMoeBlock(DeepseekV2MoE):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        layer_id: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        alt_stream: Optional[torch.cuda.Stream] = None,
+        is_nextn: bool = False,
+    ):
+        nn.Module.__init__(self)
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.n_shared_experts = config.n_shared_experts
+        self.num_fused_shared_experts = (
+            0
+            if global_server_args_dict["disable_shared_experts_fusion"]
+            else config.n_shared_experts
+        )
+        self.config = config
+        self.layer_id = layer_id
+        self.alt_stream = alt_stream
+
+        if self.tp_size > config.n_routed_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.n_routed_experts}."
+            )
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        self.gate = Glm4MoeGate(
+            config=config, prefix=add_prefix("gate", prefix), is_nextn=is_nextn
+        )
+
+        self.topk = (
+            TopK(
+                top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
+                renormalize=config.norm_topk_prob,
+                use_grouped_topk=True,
+                num_expert_group=config.n_group,
+                num_fused_shared_experts=self.num_fused_shared_experts,
+                topk_group=config.topk_group,
+                correction_bias=self.gate.e_score_correction_bias,
+                routed_scaling_factor=self.routed_scaling_factor,
+            )
+            if not use_flashinfer_trtllm_moe
+            else None
+        )
+
+        self.experts = get_moe_impl_class()(
+            num_experts=config.n_routed_experts
+            + self.num_fused_shared_experts
+            + global_server_args_dict["ep_num_redundant_experts"],
+            top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            layer_id=self.layer_id,
+            quant_config=quant_config,
+            routed_scaling_factor=self.routed_scaling_factor,
+            prefix=add_prefix("experts", prefix),
+            **(
+                dict(deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]])
+                if global_server_args_dict["enable_deepep_moe"]
+                else {}
+            ),
+            # Additional args for FusedMoE
+            **(
+                dict(
+                    enable_flashinfer_cutlass_moe=True,
+                    enable_ep_moe=global_server_args_dict["enable_ep_moe"],
+                )
+                if global_server_args_dict["enable_flashinfer_cutlass_moe"]
+                else {}
+            ),
+            **(
+                dict(
+                    renormalize=config.norm_topk_prob,
+                    use_grouped_topk=True,
+                    num_expert_group=config.n_group,
+                    num_fused_shared_experts=self.num_fused_shared_experts,
+                    topk_group=config.topk_group,
+                    correction_bias=self.gate.e_score_correction_bias,
+                )
+                if use_flashinfer_trtllm_moe
+                else {}
+            ),
+        )
+
+        self.shared_experts_is_int8 = False
+        self.shared_experts_is_fp8 = False
+        # self.shared_experts_weight_block_size = None
+        if config.n_shared_experts is not None and self.num_fused_shared_experts == 0:
+            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
+            self.shared_experts = Glm4MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=add_prefix("shared_experts", prefix),
+                **(
+                    dict(tp_rank=0, tp_size=1)
+                    if global_server_args_dict["enable_deepep_moe"]
+                    else {}
+                ),
+            )
+            is_packed_weight = hasattr(
+                self.shared_experts.gate_up_proj.quant_method, "quant_config"
+            )
+            self.shared_experts_is_int8 = (
+                not is_packed_weight
+                and self.shared_experts.gate_up_proj.weight.dtype == torch.int8
+            )
+            self.shared_experts_is_fp8 = (
+                not is_packed_weight
+                and self.shared_experts.gate_up_proj.weight.dtype == torch.float8_e4m3fn
+            )
+
+        self.top_k = config.num_experts_per_tok
+
+        if global_server_args_dict["enable_deepep_moe"]:
+            # TODO: we will support tp < ep in the future
+            self.ep_size = get_tensor_model_parallel_world_size()
+            self.num_experts = (
+                config.n_routed_experts
+                + global_server_args_dict["ep_num_redundant_experts"]
+            )
+            self.renormalize = config.norm_topk_prob
+            self.topk_group = config.topk_group
+            self.num_expert_group = config.n_group
+            self.correction_bias = (
+                self.gate.e_score_correction_bias.data
+                if self.gate.e_score_correction_bias is not None
+                else None
+            )
+
+            self.deepep_dispatcher = MaybeTboDeepEPDispatcher(
+                group=parallel_state.get_tp_group().device_group,
+                router_topk=self.top_k,
+                permute_fusion=True,
+                num_experts=self.num_experts,
+                num_local_experts=config.n_routed_experts // self.tp_size,
+                hidden_size=config.hidden_size,
+                params_dtype=config.torch_dtype,
+                deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]],
+                async_finish=True,
+                return_recv_hook=True,
+            )
+
+        self._enable_deepep_moe = global_server_args_dict["enable_deepep_moe"]
+
+
+class Glm4MoeDecoderLayer(DeepseekV2DecoderLayer):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        layer_id: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        is_nextn: bool = False,
+        prefix: str = "",
+        alt_stream: Optional[torch.cuda.Stream] = None,
+    ) -> None:
+        nn.Module.__init__(self)
+        self.hidden_size = config.hidden_size
+        self.config = config
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        partial_rotary_factor = getattr(config, "partial_rotary_factor", 0.5)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        head_dim = getattr(
+            config, "head_dim", config.hidden_size // config.num_attention_heads
+        )
+        rms_norm_eps = config.rms_norm_eps
+        attention_bias = config.attention_bias
+        self.enable_dp_attention = global_server_args_dict["enable_dp_attention"]
+        self.layer_id = layer_id
+        self.self_attn = Glm4MoeAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            layer_id=layer_id,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            partial_rotary_factor=partial_rotary_factor,
+            max_position_embeddings=max_position_embeddings,
+            head_dim=head_dim,
+            rms_norm_eps=rms_norm_eps,
+            attention_bias=attention_bias,
+            quant_config=quant_config,
+            prefix=add_prefix("self_attn", prefix),
+            use_qk_norm=config.use_qk_norm,
+        )
+
+        self.is_layer_sparse = self._is_layer_sparse(layer_id, is_nextn=is_nextn)
+        is_previous_layer_sparse = self._is_layer_sparse(layer_id - 1, is_nextn=False)
+
+        num_layers = 1 if is_nextn else config.num_hidden_layers
+        self.layer_scatter_modes = LayerScatterModes.init_new(
+            layer_id=layer_id,
+            num_layers=num_layers,
+            is_layer_sparse=self.is_layer_sparse,
+            is_previous_layer_sparse=is_previous_layer_sparse,
+        )
+
+        if self.is_layer_sparse:
+            self.mlp = Glm4MoeSparseMoeBlock(
+                config=config,
+                quant_config=quant_config,
+                prefix=add_prefix("mlp", prefix),
+                layer_id=self.layer_id,
+            )
+        else:
+            if enable_moe_dense_fully_dp():
+                mlp_tp_rank, mlp_tp_size = 0, 1
+            else:
+                mlp_tp_rank, mlp_tp_size = None, None
+            self.mlp = Glm4MoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=add_prefix("mlp", prefix),
+                tp_rank=mlp_tp_rank,
+                tp_size=mlp_tp_size,
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.layer_communicator = LayerCommunicator(
+            layer_scatter_modes=self.layer_scatter_modes,
+            input_layernorm=self.input_layernorm,
+            post_attention_layernorm=self.post_attention_layernorm,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+        residual: Optional[torch.Tensor],
+        zero_allocator: BumpAllocator,
+    ) -> torch.Tensor:
+        hidden_states, residual = self.layer_communicator.prepare_attn(
+            hidden_states, residual, forward_batch
+        )
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+            forward_batch=forward_batch,
+        )
+
+        hidden_states, residual = self.layer_communicator.prepare_mlp(
+            hidden_states, residual, forward_batch
+        )
+
+        hidden_states = self.mlp(hidden_states, forward_batch)
+
+        hidden_states, residual = self.layer_communicator.postprocess_layer(
+            hidden_states, residual, forward_batch
+        )
+
+        return hidden_states, residual
+
+
+class Glm4MoeModel(DeepseekV2Model):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        nn.Module.__init__(self)
+        self.padding_id = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.first_k_dense_replace = config.first_k_dense_replace
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            enable_tp=not global_server_args_dict["enable_dp_attention"],
+        )
+        self.alt_stream = torch.cuda.Stream() if _is_cuda else None
+        self.layers = nn.ModuleList(
+            [
+                Glm4MoeDecoderLayer(
+                    config,
+                    layer_id,
+                    quant_config=quant_config,
+                    prefix=add_prefix(f"layers.{layer_id}", prefix),
+                    alt_stream=self.alt_stream,
+                )
+                for layer_id in range(config.num_hidden_layers)
+            ]
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.dp_size = get_local_attention_dp_size()
+
+
+class Glm4MoeForCausalLM(DeepseekV2ForCausalLM):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        nn.Module.__init__(self)
+        config.moe_layer_freq = 1
+        self.config = config
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.quant_config = quant_config
+        self.determine_num_fused_shared_experts("Glm4MoeForCausalLM")
+        self.model = Glm4MoeModel(
+            config, quant_config, prefix=add_prefix("model", prefix)
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=add_prefix("lm_head", prefix),
+            use_attn_tp_group=global_server_args_dict["enable_dp_lm_head"],
+        )
+        self.logits_processor = LogitsProcessor(config)
+        self.dp_size = get_local_attention_dp_size()
+
+        self._routed_experts_weights_of_layer = LazyValue(
+            lambda: {
+                layer_id: layer.mlp.get_moe_weights()
+                for layer_id, layer in enumerate(self.model.layers)
+                if isinstance(layer.mlp, DeepseekV2MoE)
+            }
+        )
+
+    def determine_num_fused_shared_experts(
+        self, architecture: str = "DeepseekV3ForCausalLM"
+    ):
+        self.num_fused_shared_experts = 0
+        if global_server_args_dict["disable_shared_experts_fusion"]:
+            return
+
+        # Only Deepseek V3/R1 can use shared experts fusion optimization now.
+        disable_reason = None
+        if (
+            not _is_cuda
+            or torch.cuda.get_device_capability("cuda") < (8, 0)
+            or self.config.architectures[0] != architecture
+            or self.config.n_routed_experts != 128
+            or self.config.n_shared_experts != 1
+        ):
+            disable_reason = "Only GLM-4.5 on NV-platform with capability >= 80 can use shared experts fusion optimization."
+        elif (
+            global_server_args_dict["enable_deepep_moe"]
+            or global_server_args_dict["enable_ep_moe"]
+        ):
+            disable_reason = "Deepseek GLM-4.5 can not use shared experts fusion optimization when in deepep_moe or ep_moe mode."
+
+        if disable_reason is not None:
+            global_server_args_dict["disable_shared_experts_fusion"] = True
+            log_info_on_rank0(
+                logger,
+                f"{disable_reason} Shared experts fusion optimization is disabled.",
+            )
+            return
+
+        self.num_fused_shared_experts = self.config.n_shared_experts
+
+    def get_input_embeddings(self) -> nn.Embedding:
+        return self.model.embed_tokens
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]], is_nextn=False):
+
+        if is_nextn:
+            if hasattr(self.config, "num_nextn_predict_layers"):
+                num_nextn_layers = self.config.num_nextn_predict_layers
+                assert num_nextn_layers == 1, "Only 1 nextn layer is supported"
+                # compatible with old design
+                nextn_layer_id = (
+                    0
+                    if self.config.num_hidden_layers == 1
+                    else self.config.num_hidden_layers
+                )
+            else:
+                raise ValueError("num_nextn_predict_layers is not in the config")
+
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        if self.num_fused_shared_experts > 0:
+            assert self.num_fused_shared_experts == 1
+            weights_list = list(weights)
+            weights_dict = dict(weights_list)
+            if self.quant_config is not None:
+                if self.quant_config.get_name() == "w8a8_int8":
+                    suffix_list = [
+                        "down_proj.weight",
+                        "down_proj.weight_scale",
+                        "gate_proj.weight",
+                        "gate_proj.weight_scale",
+                        "up_proj.weight",
+                        "up_proj.weight_scale",
+                    ]
+                elif (
+                    self.quant_config.get_name() == "fp8"
+                    or self.quant_config.get_name() == "blockwise_int8"
+                ):
+                    suffix_list = [
+                        "down_proj.weight",
+                        "down_proj.weight_scale",
+                        "gate_proj.weight",
+                        "gate_proj.weight_scale",
+                        "up_proj.weight",
+                        "up_proj.weight_scale",
+                    ]
+                elif self.quant_config.get_name() == "awq":
+                    suffix_list = [
+                        "down_proj.qweight",
+                        "down_proj.qzeros",
+                        "down_proj.scales",
+                        "gate_proj.qweight",
+                        "gate_proj.qzeros",
+                        "gate_proj.scales",
+                        "up_proj.qweight",
+                        "up_proj.qzeros",
+                        "up_proj.scales",
+                    ]
+                elif self.quant_config.get_name() == "modelopt_fp4":
+                    suffix_list = [
+                        "down_proj.weight",
+                        "down_proj.weight_scale",
+                        "down_proj.weight_scale_2",
+                        "down_proj.input_scale",
+                        "gate_proj.weight",
+                        "gate_proj.weight_scale",
+                        "gate_proj.weight_scale_2",
+                        "gate_proj.input_scale",
+                        "up_proj.weight",
+                        "up_proj.weight_scale",
+                        "up_proj.weight_scale_2",
+                        "up_proj.input_scale",
+                    ]
+                else:
+                    raise ValueError(
+                        f"Unsupported shared expert fusion for quantization: {self.quant_config.get_name()}."
+                    )
+            else:
+                suffix_list = [
+                    "down_proj.weight",
+                    "gate_proj.weight",
+                    "up_proj.weight",
+                ]
+            names_to_remove = []
+
+            moe_layers = (
+                range(
+                    self.config.first_k_dense_replace,
+                    self.config.num_hidden_layers,
+                    self.config.moe_layer_freq,
+                )
+                if not is_nextn
+                else [nextn_layer_id]
+            )
+
+            for moe_layer in moe_layers:
+                for suffix in suffix_list:
+                    shared_expert_weight_name = (
+                        f"model.layers.{moe_layer}.mlp.shared_experts.{suffix}"
+                    )
+                    # online fp8 quantization does not load weight_scale
+                    if shared_expert_weight_name not in weights_dict:
+                        continue
+                    weights_list.append(
+                        (
+                            f"model.layers.{moe_layer}."
+                            f"mlp.experts."
+                            f"{self.config.n_routed_experts + 0}"
+                            f".{suffix}",
+                            weights_dict[shared_expert_weight_name],
+                        )
+                    )
+                    names_to_remove += [shared_expert_weight_name]
+            weights = [w for w in weights_list if w[0] not in names_to_remove]
+
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        expert_params_mapping = get_moe_impl_class().make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts + self.num_fused_shared_experts,
+        )
+
+        # Fuse q_a_proj and kv_a_proj_with_mqa along output dimension when q_lora_rank is not None
+        fuse_qkv_a_proj = hasattr(self.config, "q_lora_rank") and (
+            self.config.q_lora_rank is not None
+        )
+        cached_a_proj = {} if fuse_qkv_a_proj else None
+
+        if is_nextn:
+            nextn_layer_prefix = f"model.layers.{nextn_layer_id}"
+            nextn_spec_weight_names = [
+                "shared_head.norm",
+                "eh_proj",
+                "enorm",
+                "hnorm",
+            ]
+
+        params_dict = dict(self.named_parameters())
+        weight_names = []
+        for name, loaded_weight in weights:
+            weight_names.append(name)
+
+            if not is_nextn:
+                if hasattr(self.config, "num_nextn_predict_layers"):
+                    num_nextn_layers = self.config.num_nextn_predict_layers
+                    if num_nextn_layers > 0 and name.startswith("model.layers"):
+                        name_list = name.split(".")
+                        if (
+                            len(name_list) >= 3
+                            and int(name_list[2]) >= self.config.num_hidden_layers
+                        ):
+                            continue
+            else:
+                if not name.startswith(nextn_layer_prefix):
+                    continue
+
+                # Use shared head and embed weights from target model
+                if "shared_head.head" in name or "embed_tokens" in name:
+                    continue
+
+                is_decoder = True
+                # For nextn specific weights
+                for weight_name in nextn_spec_weight_names:
+                    if weight_name in name:
+                        name = name.replace(nextn_layer_prefix, "model")
+                        is_decoder = False
+                        break
+                # For decoder layer weights
+                if is_decoder:
+                    name = name.replace(nextn_layer_prefix, "model.decoder")
+
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if fuse_qkv_a_proj and (
+                        "q_a_proj" in name or "kv_a_proj_with_mqa" in name
+                    ):
+                        cached_a_proj[name] = loaded_weight
+                        q_a_proj_name = (
+                            name
+                            if "q_a_proj" in name
+                            else name.replace("kv_a_proj_with_mqa", "q_a_proj")
+                        )
+                        kv_a_proj_name = (
+                            name
+                            if "kv_a_proj_with_mqa" in name
+                            else name.replace("q_a_proj", "kv_a_proj_with_mqa")
+                        )
+
+                        # When both q_a_proj and kv_a_proj_with_mqa has been cached, load the fused weight to parameter
+                        if (
+                            q_a_proj_name in cached_a_proj
+                            and kv_a_proj_name in cached_a_proj
+                        ):
+                            q_a_proj_weight = cached_a_proj[q_a_proj_name]
+                            kv_a_proj_weight = cached_a_proj[kv_a_proj_name]
+                            fused_weight = torch.cat(
+                                [q_a_proj_weight, kv_a_proj_weight], dim=0
+                            )
+                            param_name = (
+                                name.replace("q_a_proj", "fused_qkv_a_proj_with_mqa")
+                                if "q_a_proj" in name
+                                else name.replace(
+                                    "kv_a_proj_with_mqa", "fused_qkv_a_proj_with_mqa"
+                                )
+                            )
+                            param = params_dict[param_name]
+
+                            weight_loader = getattr(
+                                param, "weight_loader", default_weight_loader
+                            )
+                            weight_loader(param, fused_weight)
+                            cached_a_proj.pop(q_a_proj_name)
+                            cached_a_proj.pop(kv_a_proj_name)
+                    else:
+                        if (
+                            "k_scale" in name or "v_scale" in name
+                        ) and name not in params_dict:
+                            # modelopt attn kv scale is named differently
+                            if any(scale in name for scale in ["k_scale", "v_scale"]):
+                                name = name.replace("_proj", "attn_mqa")
+                            else:
+                                logger.warning(
+                                    f"Unknown scale found in checkpoint: {name}"
+                                )
+                        param = params_dict[name]
+                        weight_loader = getattr(
+                            param, "weight_loader", default_weight_loader
+                        )
+                        weight_loader(param, loaded_weight)
+
+
+EntryClass = [Glm4MoeForCausalLM]
diff --git a/python/sglang/srt/models/glm4_moe_nextn.py b/python/sglang/srt/models/glm4_moe_nextn.py
new file mode 100644
index 000000000000..1a0793d8a731
--- /dev/null
+++ b/python/sglang/srt/models/glm4_moe_nextn.py
@@ -0,0 +1,167 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+"""Inference-only GLM-4.5 NextN Speculative Decoding."""
+import logging
+from typing import Iterable, Optional, Tuple
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from sglang.srt.distributed import get_tensor_model_parallel_world_size
+from sglang.srt.eplb.expert_distribution import get_global_expert_distribution_recorder
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.logits_processor import LogitsProcessor
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.models.glm4_moe import Glm4MoeDecoderLayer, Glm4MoeForCausalLM
+from sglang.srt.utils import BumpAllocator, add_prefix
+
+logger = logging.getLogger(__name__)
+
+
+class Glm4MoeModelNextN(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        if quant_config is not None and quant_config.get_name() == "modelopt_fp4":
+            logger.warning(
+                "Overriding Glm4MoeForCausalLMNextN quant config for modelopt_fp4 GLM-4.5 model."
+            )
+            quant_config = None
+
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            enable_tp=not global_server_args_dict["enable_dp_attention"],
+            prefix=add_prefix("embed_tokens", prefix),
+        )
+
+        self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hnorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.eh_proj = nn.Linear(2 * config.hidden_size, config.hidden_size, bias=False)
+
+        self.decoder = Glm4MoeDecoderLayer(
+            config,
+            0,
+            quant_config=quant_config,
+            is_nextn=True,
+            prefix=add_prefix("decoder", prefix),
+        )
+
+        self.shared_head = nn.Module()
+        self.shared_head.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+    ) -> torch.Tensor:
+        zero_allocator = BumpAllocator(
+            buffer_size=2,
+            dtype=torch.float32,
+            device=(
+                input_embeds.device if input_embeds is not None else input_ids.device
+            ),
+        )
+
+        if input_embeds is None:
+            hidden_states = self.embed_tokens(input_ids)
+        else:
+            hidden_states = input_embeds
+
+        if hidden_states.shape[0] > 0:
+            hidden_states = self.eh_proj(
+                torch.cat(
+                    (
+                        self.enorm(hidden_states),
+                        self.hnorm(forward_batch.spec_info.hidden_states),
+                    ),
+                    dim=-1,
+                )
+            )
+
+        residual = None
+        with get_global_expert_distribution_recorder().disable_this_region():
+            hidden_states, residual = self.decoder(
+                positions, hidden_states, forward_batch, residual, zero_allocator
+            )
+
+        if not forward_batch.forward_mode.is_idle():
+            if residual is not None:
+                hidden_states, _ = self.shared_head.norm(hidden_states, residual)
+            else:
+                hidden_states = self.shared_head.norm(hidden_states)
+
+        return hidden_states
+
+
+class Glm4MoeForCausalLMNextN(Glm4MoeForCausalLM):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        nn.Module.__init__(self)
+        self.config = config
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.quant_config = quant_config
+        self.determine_num_fused_shared_experts("Glm4MoeForCausalLMNextN")
+
+        self.model = Glm4MoeModelNextN(
+            config, quant_config, prefix=add_prefix("model", prefix)
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=add_prefix("model.shared_head.head", prefix),
+            use_attn_tp_group=global_server_args_dict["enable_dp_lm_head"],
+        )
+        self.logits_processor = LogitsProcessor(config)
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        hidden_states = self.model(input_ids, positions, forward_batch)
+        return self.logits_processor(
+            input_ids, hidden_states, self.lm_head, forward_batch
+        )
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        super().load_weights(weights, is_nextn=True)
+
+
+EntryClass = [Glm4MoeForCausalLMNextN]
diff --git a/python/sglang/srt/reasoning_parser.py b/python/sglang/srt/reasoning_parser.py
index e51ca5b61944..b5b737856c24 100644
--- a/python/sglang/srt/reasoning_parser.py
+++ b/python/sglang/srt/reasoning_parser.py
@@ -231,6 +231,7 @@ class ReasoningParser:
         "deepseek-r1": DeepSeekR1Detector,
         "qwen3": Qwen3Detector,
         "qwen3-thinking": Qwen3ThinkingDetector,
+        "glm45": Qwen3Detector,
         "kimi": KimiDetector,
     }
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index b0e6fbab32dd..54dc76ed7929 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -513,7 +513,7 @@ def __post_init__(self):
                 )
 
             model_arch = self.get_hf_config().architectures[0]
-            if model_arch == "DeepseekV3ForCausalLM":
+            if model_arch in ["DeepseekV3ForCausalLM", "Glm4MoeForCausalLM"]:
                 # Auto set draft_model_path DeepSeek-V3/R1
                 if self.speculative_draft_model_path is None:
                     self.speculative_draft_model_path = self.model_path
@@ -1108,6 +1108,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "pythonic",
                 "kimi_k2",
                 "qwen3_coder",
+                "glm45",
             ],
             default=ServerArgs.tool_call_parser,
             help="Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', 'kimi_k2', and 'qwen3_coder'.",
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 29bb18b0852f..f824a006aecd 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2343,6 +2343,7 @@ def is_fa3_default_architecture(hf_config):
         "Gemma3ForConditionalGeneration",
         "Qwen3ForCausalLM",
         "Qwen3MoeForCausalLM",
+        "Glm4MoeForCausalLM",
     }
     return architectures[0] in default_archs
 
diff --git a/test/srt/openai_server/features/test_enable_thinking.py b/test/srt/openai_server/features/test_enable_thinking.py
index 37fb6ca7cb13..78354673c094 100644
--- a/test/srt/openai_server/features/test_enable_thinking.py
+++ b/test/srt/openai_server/features/test_enable_thinking.py
@@ -43,6 +43,7 @@ def setUpClass(cls):
                 "qwen3",
             ],
         )
+        cls.additional_chat_kwargs = {}
 
     @classmethod
     def tearDownClass(cls):
@@ -59,6 +60,7 @@ def test_chat_completion_with_reasoning(self):
                 "temperature": 0,
                 "separate_reasoning": True,
                 "chat_template_kwargs": {"enable_thinking": True},
+                **self.additional_chat_kwargs,
             },
         )
 
@@ -82,6 +84,7 @@ def test_chat_completion_without_reasoning(self):
                 "temperature": 0,
                 "separate_reasoning": True,
                 "chat_template_kwargs": {"enable_thinking": False},
+                **self.additional_chat_kwargs,
             },
         )
 
@@ -107,6 +110,7 @@ def test_stream_chat_completion_with_reasoning(self):
                 "separate_reasoning": True,
                 "stream": True,
                 "chat_template_kwargs": {"enable_thinking": True},
+                **self.additional_chat_kwargs,
             },
             stream=True,
         )
@@ -151,6 +155,7 @@ def test_stream_chat_completion_without_reasoning(self):
                 "separate_reasoning": True,
                 "stream": True,
                 "chat_template_kwargs": {"enable_thinking": False},
+                **self.additional_chat_kwargs,
             },
             stream=True,
         )
@@ -184,5 +189,55 @@ def test_stream_chat_completion_without_reasoning(self):
         )
 
 
+## Skip for ci test
+# class TestGLM45EnableThinking(TestEnableThinking):
+#     @classmethod
+#     def setUpClass(cls):
+#         # Replace with the model name needed for testing; if not required, reuse DEFAULT_SMALL_MODEL_NAME_FOR_TEST
+#         cls.model = "THUDM/GLM-4.5"
+#         cls.base_url = DEFAULT_URL_FOR_TEST
+#         cls.api_key = "sk-1234"
+#         cls.process = popen_launch_server(
+#             cls.model,
+#             cls.base_url,
+#             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+#             api_key=cls.api_key,
+#             other_args=[
+#                 "--tool-call-parser",
+#                 "glm45",
+#                 "--reasoning-parser",
+#                 "glm45",
+#                 "--tp-size",
+#                 "8"
+#             ],
+#         )
+
+#         # Validate whether enable-thinking conflict with tool_calls
+#         cls.additional_chat_kwargs = {
+#             "tools": [
+#                 {
+#                     "type": "function",
+#                     "function": {
+#                         "name": "add",
+#                         "description": "Compute the sum of two numbers",
+#                         "parameters": {
+#                             "type": "object",
+#                             "properties": {
+#                                 "a": {
+#                                     "type": "int",
+#                                     "description": "A number",
+#                                 },
+#                                 "b": {
+#                                     "type": "int",
+#                                     "description": "A number",
+#                                 },
+#                             },
+#                             "required": ["a", "b"],
+#                         },
+#                     },
+#                 }
+#             ]
+#         }
+
 if __name__ == "__main__":
     unittest.main()
diff --git a/test/srt/openai_server/function_call/test_openai_function_calling.py b/test/srt/openai_server/function_call/test_openai_function_calling.py
index 2486cc050063..1d687eb7f9d6 100644
--- a/test/srt/openai_server/function_call/test_openai_function_calling.py
+++ b/test/srt/openai_server/function_call/test_openai_function_calling.py
@@ -223,7 +223,10 @@ def test_function_calling_streaming_simple(self):
 
         messages = [
             {"role": "system", "content": self.SYSTEM_MESSAGE},
-            {"role": "user", "content": "What is the temperature in Paris?"},
+            {
+                "role": "user",
+                "content": "What is the temperature in Paris in celsius??",
+            },
         ]
 
         response_stream = client.chat.completions.create(
@@ -910,5 +913,40 @@ def test_pythonic_tool_call_streaming(self):
         )
 
 
+## Skip for ci test
+# class TestGLM45ServerFunctionCalling(TestOpenAIServerFunctionCalling):
+#     @classmethod
+#     def setUpClass(cls):
+#         # Replace with the model name needed for testing; if not required, reuse DEFAULT_SMALL_MODEL_NAME_FOR_TEST
+#         cls.model = "THUDM/GLM-4.5"
+#         cls.base_url = DEFAULT_URL_FOR_TEST
+#         cls.api_key = "sk-123456"
+
+#         # Start the local OpenAI Server. If necessary, you can add other parameters such as --enable-tools.
+#         cls.process = popen_launch_server(
+#             cls.model,
+#             cls.base_url,
+#             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+#             api_key=cls.api_key,
+#             other_args=[
+#                 # If your server needs extra parameters to test function calling, please add them here.
+#                 "--tool-call-parser",
+#                 "glm45",
+#                 "--reasoning-parser",
+#                 "glm45",
+#                 "--tp-size",
+#                 "8"
+#             ],
+#         )
+#         cls.base_url += "/v1"
+#         cls.tokenizer = get_tokenizer(cls.model)
+
+#     # This test is too difficult for GLM4-moe. Skip it from the UT
+#     def test_function_call_required(self):
+#         pass
+
+#     def test_function_calling_multiturn(self):
+#         self._test_function_calling_multiturn()
+
 if __name__ == "__main__":
     unittest.main()
diff --git a/test/srt/test_function_call_parser.py b/test/srt/test_function_call_parser.py
index 51102065184c..32b7e4a5b804 100644
--- a/test/srt/test_function_call_parser.py
+++ b/test/srt/test_function_call_parser.py
@@ -6,6 +6,7 @@
 from sglang.srt.entrypoints.openai.protocol import Function, Tool
 from sglang.srt.function_call.base_format_detector import BaseFormatDetector
 from sglang.srt.function_call.deepseekv3_detector import DeepSeekV3Detector
+from sglang.srt.function_call.glm4_moe_detector import Glm4MoeDetector
 from sglang.srt.function_call.kimik2_detector import KimiK2Detector
 from sglang.srt.function_call.llama32_detector import Llama32Detector
 from sglang.srt.function_call.mistral_detector import MistralDetector
@@ -510,6 +511,7 @@ def setUp(self):
         self.qwen25_detector = Qwen25Detector()
         self.qwen3_coder_detector = Qwen3CoderDetector()
         self.kimik2_detector = KimiK2Detector()
+        self.glm45_detector = Glm4MoeDetector()
 
     def test_pythonic_detector_ebnf(self):
         """Test that the PythonicDetector generates valid EBNF."""
@@ -622,6 +624,29 @@ def test_qwen25_detector_ebnf(self):
         except RuntimeError as e:
             self.fail(f"Failed to compile EBNF: {e}")
 
+    def test_glm45_detector_ebnf(self):
+        """Test that the Glm4MoeDetector generates valid EBNF."""
+        ebnf = self.glm45_detector.build_ebnf(self.tools)
+        self.assertIsNotNone(ebnf)
+        # Check that the EBNF contains expected patterns for XML format
+        self.assertIn('"<tool_call>" function_call "</tool_call>"', ebnf)
+        self.assertIn('"get_weather" "\\n" arguments_get_weather', ebnf)
+        self.assertIn(
+            '"<arg_key>location</arg_key>" "\\n" "<arg_value>" xml_text "</arg_value>" ( "\\n" ( "<arg_key>unit</arg_key>" "\\n" "<arg_value>" ("celsius" | "fahrenheit") "</arg_value>" ) )?',
+            ebnf,
+        )
+        self.assertIn('"search" "\\n" arguments_search', ebnf)
+        self.assertIn(
+            '"<arg_key>query</arg_key>" "\\n" "<arg_value>" xml_text "</arg_value>"',
+            ebnf,
+        )
+        # Validate that the EBNF can be compiled by GrammarCompiler
+        try:
+            ctx = self.grammar_compiler.compile_grammar(ebnf)
+            self.assertIsNotNone(ctx, "EBNF should be valid and compile successfully")
+        except RuntimeError as e:
+            self.fail(f"Failed to compile EBNF: {e}")
+
     def test_qwen3_coder_detector_ebnf(self):
         """Test that the Qwen3CoderDetector generates valid EBNF."""
         ebnf = self.qwen3_coder_detector.build_ebnf(self.tools)
@@ -1919,5 +1944,164 @@ def test_parse_streaming_multiple_tools(self):
         self.assertEqual(params2["dimensions"], {"radius": 5})
 
 
+class TestGlm4MoeDetector(unittest.TestCase):
+    def setUp(self):
+        self.tools = [
+            Tool(
+                type="function",
+                function=Function(
+                    name="get_weather",
+                    description="Get weather information",
+                    parameters={
+                        "type": "object",
+                        "properties": {
+                            "city": {"type": "string", "description": "City name"},
+                            "date": {"type": "string", "description": "Date"},
+                        },
+                        "required": ["city", "date"],
+                    },
+                ),
+            ),
+        ]
+        self.detector = Glm4MoeDetector()
+
+    def test_single_tool_call(self):
+        text = (
+            "<tool_call>get_weather\n"
+            "<arg_key>city</arg_key>\n<arg_value>Beijing</arg_value>\n"
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n"
+            "</tool_call>"
+        )
+        result = self.detector.detect_and_parse(text, self.tools)
+        self.assertEqual(len(result.calls), 1)
+        self.assertEqual(result.calls[0].name, "get_weather")
+        self.assertEqual(
+            result.calls[0].parameters, '{"city": "Beijing", "date": "2024-06-27"}'
+        )
+        self.assertEqual(result.normal_text, "")
+
+    def test_multiple_tool_calls(self):
+        text = (
+            "<tool_call>get_weather\n"
+            "<arg_key>city</arg_key>\n<arg_value>Beijing</arg_value>\n"
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n"
+            "</tool_call>"
+            "<tool_call>get_weather\n"
+            "<arg_key>city</arg_key>\n<arg_value>Shanghai</arg_value>\n"
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-28</arg_value>\n"
+            "</tool_call>"
+        )
+        result = self.detector.detect_and_parse(text, self.tools)
+        self.assertEqual(len(result.calls), 2)
+        self.assertEqual(result.calls[0].name, "get_weather")
+        self.assertEqual(
+            result.calls[0].parameters, '{"city": "Beijing", "date": "2024-06-27"}'
+        )
+        self.assertEqual(result.calls[1].name, "get_weather")
+        self.assertEqual(
+            result.calls[1].parameters, '{"city": "Shanghai", "date": "2024-06-28"}'
+        )
+        self.assertEqual(result.normal_text, "")
+
+    def test_streaming_tool_call(self):
+        """Test streaming incremental parsing of a tool call."""
+        chunks = [
+            "<tool_call>get_weather\n",
+            "<arg_key>city</arg_key>\n<arg_value>Beijing</arg_value>\n",
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n",
+            "</tool_call>",
+        ]
+        tool_calls = []
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, self.tools)
+            for tool_call_chunk in result.calls:
+                if (
+                    hasattr(tool_call_chunk, "tool_index")
+                    and tool_call_chunk.tool_index is not None
+                ):
+                    while len(tool_calls) <= tool_call_chunk.tool_index:
+                        tool_calls.append({"name": "", "parameters": {}})
+                    tc = tool_calls[tool_call_chunk.tool_index]
+                    if tool_call_chunk.name:
+                        tc["name"] = tool_call_chunk.name
+                    if tool_call_chunk.parameters:
+                        tc["parameters"] = tool_call_chunk.parameters
+        self.assertEqual(len(tool_calls), 1)
+        self.assertEqual(tool_calls[0]["name"], "get_weather")
+        self.assertEqual(
+            tool_calls[0]["parameters"], '{"city": "Beijing", "date": "2024-06-27"}'
+        )
+
+    def test_streaming_multiple_tool_calls(self):
+        """Test streaming incremental parsing of multiple tool calls."""
+        chunks = [
+            "<tool_call>get_weather\n",
+            "<arg_key>city</arg_key>\n<arg_value>Beijing</arg_value>\n",
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n",
+            "</tool_call><tool_call>get_weather\n",
+            "<arg_key>city</arg_key>\n<arg_value>Shanghai</arg_value>\n",
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-28</arg_value>\n",
+            "</tool_call>",
+        ]
+        tool_calls = []
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, self.tools)
+            for tool_call_chunk in result.calls:
+                if (
+                    hasattr(tool_call_chunk, "tool_index")
+                    and tool_call_chunk.tool_index is not None
+                ):
+                    while len(tool_calls) <= tool_call_chunk.tool_index:
+                        tool_calls.append({"name": "", "parameters": {}})
+                    tc = tool_calls[tool_call_chunk.tool_index]
+                    if tool_call_chunk.name:
+                        tc["name"] = tool_call_chunk.name
+                    if tool_call_chunk.parameters:
+                        tc["parameters"] = tool_call_chunk.parameters
+        self.assertEqual(len(tool_calls), 2)
+        self.assertEqual(tool_calls[0]["name"], "get_weather")
+        self.assertEqual(
+            tool_calls[0]["parameters"], '{"city": "Beijing", "date": "2024-06-27"}'
+        )
+        self.assertEqual(tool_calls[1]["name"], "get_weather")
+        self.assertEqual(
+            tool_calls[1]["parameters"], '{"city": "Shanghai", "date": "2024-06-28"}'
+        )
+
+    def test_tool_call_completion(self):
+        """Test that the buffer and state are reset after a tool call is completed."""
+        chunks = [
+            "<tool_call>get_weather\n",
+            "<arg_key>city</arg_key>\n<arg_value>Beijing</arg_value>\n",
+            "<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n",
+            "</tool_call>",
+        ]
+        for chunk in chunks:
+            result = self.detector.parse_streaming_increment(chunk, self.tools)
+        self.assertEqual(self.detector.current_tool_id, 1)
+
+    def test_invalid_tool_call(self):
+        """Test that invalid tool calls are handled correctly."""
+        text = "<tool_call>invalid_func\n<arg_key>city</arg_key>\n<arg_value>Beijing</arg_value>\n</tool_call>"
+        result = self.detector.detect_and_parse(text, self.tools)
+        self.assertEqual(len(result.calls), 0)
+
+    def test_partial_tool_call(self):
+        """Test parsing a partial tool call that spans multiple chunks."""
+        text1 = "<tool_call>get_weather\n<arg_key>city</arg_key>\n"
+        result1 = self.detector.parse_streaming_increment(text1, self.tools)
+        self.assertEqual(result1.normal_text, "")
+        self.assertEqual(result1.calls, [])
+        self.assertEqual(self.detector._buffer, text1)
+        text2 = "<arg_value>Beijing</arg_value>\n<arg_key>date</arg_key>\n<arg_value>2024-06-27</arg_value>\n</tool_call>"
+        result2 = self.detector.parse_streaming_increment(text2, self.tools)
+        self.assertEqual(len(result2.calls), 1)
+        self.assertEqual(result2.calls[0].name, "get_weather")
+        self.assertEqual(
+            result2.calls[0].parameters, '{"city": "Beijing", "date": "2024-06-27"}'
+        )
+        self.assertEqual(self.detector._buffer, "")
+
+
 if __name__ == "__main__":
     unittest.main()

From 5922c0cbf68a6e95cbca847cd8421b467ea6f0dd Mon Sep 17 00:00:00 2001
From: kyleliang-nv <kylliang@nvidia.com>
Date: Sun, 27 Jul 2025 22:58:53 -0700
Subject: [PATCH 185/396] Remove zstd compression for building Dockerfile.gb200
 (#8442)

---
 .github/workflows/release-docker-gb200.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/release-docker-gb200.yml b/.github/workflows/release-docker-gb200.yml
index 82a9a806e0b2..9f7c6cf73774 100644
--- a/.github/workflows/release-docker-gb200.yml
+++ b/.github/workflows/release-docker-gb200.yml
@@ -33,4 +33,4 @@ jobs:
           version=$(cat python/sglang/version.py | cut -d'"' -f2)
           tag=v${version}-cu128-gb200
 
-          docker buildx build --platform linux/arm64 --push --output type=image,compression=zstd -t lmsysorg/sglang:${tag} -f docker/Dockerfile.gb200 --build-arg CUDA_VERSION=12.8.1 --build-arg BUILD_TYPE=blackwell --no-cache .
+          docker buildx build --platform linux/arm64 --push --output type=image -t lmsysorg/sglang:${tag} -f docker/Dockerfile.gb200 --build-arg CUDA_VERSION=12.8.1 --build-arg BUILD_TYPE=blackwell --no-cache .

From 484d0e021dcf825e692c1912365ed2a6cd3d947a Mon Sep 17 00:00:00 2001
From: Qiaolin Yu <liin1211@outlook.com>
Date: Sun, 27 Jul 2025 23:07:54 -0700
Subject: [PATCH 186/396] doc: add bench_one_batch_server in the benchmark doc
 (#8441)

---
 docs/references/benchmark_and_profiling.md | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/docs/references/benchmark_and_profiling.md b/docs/references/benchmark_and_profiling.md
index 3e96e0cef20a..67d85c3f6f22 100644
--- a/docs/references/benchmark_and_profiling.md
+++ b/docs/references/benchmark_and_profiling.md
@@ -4,10 +4,15 @@
 
 - Benchmark the latency of running a single static batch without a server. The arguments are the same as for `launch_server.py`.
   Note that this is a simplified test script without a dynamic batching server, so it may run out of memory for a batch size that a real server can handle. A real server truncates the prefill into several batches, while this simplified script does not.
+  - Without a server (do not need to launch a server)
+    ```bash
+    python -m sglang.bench_one_batch --model-path meta-llama/Meta-Llama-3.1-8B-Instruct --batch 32 --input-len 256 --output-len 32
+    ```
+  - With a server (please use `sglang.launch_server` to launch a server first and run the following command.)
+    ```bash
+    python -m sglang.bench_one_batch_server --base-url http://127.0.0.1:30000 --model-path meta-llama/Meta-Llama-3.1-8B-Instruct --batch-size 32 --input-len 256 --output-len 32
+    ```
 
-  ```bash
-  python -m sglang.bench_one_batch --model-path meta-llama/Meta-Llama-3.1-8B-Instruct --batch 32 --input-len 256 --output-len 32
-  ```
 
 - Benchmark offline processing. This script will start an offline engine and run the benchmark.
 

From 581e7dcb92a75e4b931e8b1ffef2e4f005cb5250 Mon Sep 17 00:00:00 2001
From: Binyao Jiang <byjiang1996@gmail.com>
Date: Sun, 27 Jul 2025 23:35:20 -0700
Subject: [PATCH 187/396] GLM-4.5 Model Support Follow-up (#8445)

---
 .../srt/function_call/glm4_moe_detector.py    |  3 +-
 .../srt/function_call/qwen3_coder_detector.py |  1 +
 .../features/test_enable_thinking.py          |  2 +-
 .../test_openai_function_calling.py           |  2 +-
 .../function_call/test_tool_choice.py         | 49 +++++++++++++++----
 test/srt/test_function_call_parser.py         |  2 +-
 6 files changed, 44 insertions(+), 15 deletions(-)

diff --git a/python/sglang/srt/function_call/glm4_moe_detector.py b/python/sglang/srt/function_call/glm4_moe_detector.py
index ace32d938985..705bbcdb3c6e 100644
--- a/python/sglang/srt/function_call/glm4_moe_detector.py
+++ b/python/sglang/srt/function_call/glm4_moe_detector.py
@@ -156,8 +156,7 @@ def build_ebnf(self, tools: List[Tool]):
             tools,
             individual_call_start_token=self.bot_token,
             individual_call_end_token=self.eot_token,
-            # GLM4Moe is not compatible with multiple tool_calls under tool_choice condition: it will output unlimited tool_calls...
-            # tool_call_separator="\\n",
+            tool_call_separator="\\n",
             function_format="xml",
             call_rule_fmt='"{name}" "\\n" {arguments_rule} "\\n"',
             key_value_rule_fmt='"<arg_key>{key}</arg_key>" "\\n" "<arg_value>" {valrule} "</arg_value>"',
diff --git a/python/sglang/srt/function_call/qwen3_coder_detector.py b/python/sglang/srt/function_call/qwen3_coder_detector.py
index 641c86806292..674a189a75b9 100644
--- a/python/sglang/srt/function_call/qwen3_coder_detector.py
+++ b/python/sglang/srt/function_call/qwen3_coder_detector.py
@@ -148,4 +148,5 @@ def build_ebnf(self, tools: List[Tool]):
             function_format="xml",
             call_rule_fmt='"<function={name}>\\n" {arguments_rule} "\\n</function>"',
             key_value_rule_fmt='"<parameter={key}>\\n" {valrule} "\\n</parameter>"',
+            key_value_separator="\\n",
         )
diff --git a/test/srt/openai_server/features/test_enable_thinking.py b/test/srt/openai_server/features/test_enable_thinking.py
index 78354673c094..00ba4fc94e4b 100644
--- a/test/srt/openai_server/features/test_enable_thinking.py
+++ b/test/srt/openai_server/features/test_enable_thinking.py
@@ -189,7 +189,7 @@ def test_stream_chat_completion_without_reasoning(self):
         )
 
 
-## Skip for ci test
+# Skip for ci test
 # class TestGLM45EnableThinking(TestEnableThinking):
 #     @classmethod
 #     def setUpClass(cls):
diff --git a/test/srt/openai_server/function_call/test_openai_function_calling.py b/test/srt/openai_server/function_call/test_openai_function_calling.py
index 1d687eb7f9d6..4efc04386e69 100644
--- a/test/srt/openai_server/function_call/test_openai_function_calling.py
+++ b/test/srt/openai_server/function_call/test_openai_function_calling.py
@@ -913,7 +913,7 @@ def test_pythonic_tool_call_streaming(self):
         )
 
 
-## Skip for ci test
+# Skip for ci test
 # class TestGLM45ServerFunctionCalling(TestOpenAIServerFunctionCalling):
 #     @classmethod
 #     def setUpClass(cls):
diff --git a/test/srt/openai_server/function_call/test_tool_choice.py b/test/srt/openai_server/function_call/test_tool_choice.py
index a5213007bdc4..d8094e93029c 100644
--- a/test/srt/openai_server/function_call/test_tool_choice.py
+++ b/test/srt/openai_server/function_call/test_tool_choice.py
@@ -135,7 +135,7 @@ def get_test_messages(self):
         return [
             {
                 "role": "user",
-                "content": "Answer the following questions as best you can:\n\nYou will be given a trace of thinking process in the following format.\n\nQuestion: the input question you must answer\nTOOL: think about what to do, and choose a tool to use ONLY IF there are defined tools\nOBSERVATION: the result of the tool call or the observation of the current task, NEVER include this in your response, this information will be provided\n... (this TOOL/OBSERVATION can repeat N times)\nANSWER: If you know the answer to the original question, require for more information, \nif the previous conversation history already contains the answer, \nor you don't know the answer and there are no defined tools or all available tools are not helpful, respond with the answer without mentioning anything else.\nYou may use light Markdown formatting to improve clarity (e.g. lists, **bold**, *italics*), but keep it minimal and unobtrusive.\n\nYour task is to respond with the next step to take, based on the traces, \nor answer the question if you have enough information.\n\nQuestion: what is the weather in top 5 populated cities in the US?\n\nTraces:\n\n\nThese are some additional instructions that you should follow:",
+                "content": "Answer the following questions as best you can:\n\nYou will be given a trace of thinking process in the following format.\n\nQuestion: the input question you must answer\nTOOL: think about what to do, and choose a tool to use ONLY IF there are defined tools\nOBSERVATION: the result of the tool call or the observation of the current task, NEVER include this in your response, this information will be provided\n... (this TOOL/OBSERVATION can repeat N times)\nANSWER: If you know the answer to the original question, require for more information, \nif the previous conversation history already contains the answer, \nor you don't know the answer and there are no defined tools or all available tools are not helpful, respond with the answer without mentioning anything else.\nYou may use light Markdown formatting to improve clarity (e.g. lists, **bold**, *italics*), but keep it minimal and unobtrusive.\n\nYour task is to respond with the next step to take, based on the traces, \nor answer the question if you have enough information.\n\nQuestion: what is the weather in top 5 populated cities in the US in celsius?\n\nTraces:\n\n\nThese are some additional instructions that you should follow:",
             }
         ]
 
@@ -203,7 +203,7 @@ def test_tool_choice_auto_non_streaming(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=400,
+            max_tokens=2048,
             tools=tools,
             tool_choice="auto",
             stream=False,
@@ -220,7 +220,7 @@ def test_tool_choice_auto_streaming(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=400,
+            max_tokens=2048,
             tools=tools,
             tool_choice="auto",
             stream=True,
@@ -248,7 +248,7 @@ def test_tool_choice_required_non_streaming(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=400,
+            max_tokens=2048,
             temperature=0.2,
             tools=tools,
             tool_choice="required",
@@ -268,7 +268,7 @@ def test_tool_choice_required_streaming(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=400,
+            max_tokens=2048,
             tools=tools,
             tool_choice="required",
             stream=True,
@@ -294,7 +294,7 @@ def test_tool_choice_specific_function_non_streaming(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=200,
+            max_tokens=2048,
             tools=tools,
             tool_choice=tool_choice,
             stream=False,
@@ -318,7 +318,7 @@ def test_tool_choice_specific_function_streaming(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=200,
+            max_tokens=2048,
             tools=tools,
             tool_choice=tool_choice,
             stream=True,
@@ -351,7 +351,7 @@ def test_multi_tool_scenario_auto(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=400,
+            max_tokens=2048,
             temperature=0.2,
             tools=tools,
             tool_choice="auto",
@@ -392,7 +392,7 @@ def test_multi_tool_scenario_required(self):
         response = self.client.chat.completions.create(
             model=self.model_name,
             messages=messages,
-            max_tokens=400,
+            max_tokens=2048,
             temperature=0.2,
             tools=tools,
             tool_choice="required",
@@ -450,7 +450,7 @@ def test_error_handling_invalid_tool_choice(self):
             response = self.client.chat.completions.create(
                 model=self.model_name,
                 messages=messages,
-                max_tokens=200,
+                max_tokens=2048,
                 tools=tools,
                 tool_choice=tool_choice,
                 stream=False,
@@ -517,5 +517,34 @@ def setUpClass(cls):
         cls.tokenizer = get_tokenizer(cls.model)
 
 
+# Skip for ci test
+# class TestToolChoiceGLM45(TestToolChoiceLlama32):
+#     @classmethod
+#     def setUpClass(cls):
+#         # Replace with the model name needed for testing; if not required, reuse DEFAULT_SMALL_MODEL_NAME_FOR_TEST
+#         cls.model = "THUDM/GLM-4.5"
+#         cls.base_url = DEFAULT_URL_FOR_TEST
+#         cls.api_key = "sk-123456"
+
+#         # Start the local OpenAI Server. If necessary, you can add other parameters such as --enable-tools.
+#         cls.process = popen_launch_server(
+#             cls.model,
+#             cls.base_url,
+#             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+#             api_key=cls.api_key,
+#             other_args=[
+#                 # If your server needs extra parameters to test function calling, please add them here.
+#                 "--tool-call-parser",
+#                 "glm45",
+#                 "--reasoning-parser",
+#                 "glm45",
+#                 "--tp-size",
+#                 "8"
+#             ],
+#         )
+#         cls.base_url += "/v1"
+#         cls.tokenizer = get_tokenizer(cls.model)
+
+
 if __name__ == "__main__":
     unittest.main()
diff --git a/test/srt/test_function_call_parser.py b/test/srt/test_function_call_parser.py
index 32b7e4a5b804..cc452162231f 100644
--- a/test/srt/test_function_call_parser.py
+++ b/test/srt/test_function_call_parser.py
@@ -2068,7 +2068,7 @@ def test_streaming_multiple_tool_calls(self):
             tool_calls[1]["parameters"], '{"city": "Shanghai", "date": "2024-06-28"}'
         )
 
-    def test_tool_call_completion(self):
+    def test_tool_call_id(self):
         """Test that the buffer and state are reset after a tool call is completed."""
         chunks = [
             "<tool_call>get_weather\n",

From 25f73c6cf3c2b20441266693ad12030157c1cbef Mon Sep 17 00:00:00 2001
From: Minglei Zhu <mingleizhu1122@gmail.com>
Date: Mon, 28 Jul 2025 01:31:20 -0700
Subject: [PATCH 188/396] fix GLM4_MOE launch with compressed_tensor quant
 model (#8456)

---
 python/sglang/srt/models/glm4_moe.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 9716557f4815..f080beb502d2 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -795,6 +795,7 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]], is_nextn=Fal
                 elif (
                     self.quant_config.get_name() == "fp8"
                     or self.quant_config.get_name() == "blockwise_int8"
+                    or self.quant_config.get_name() == "compressed_tensors"
                 ):
                     suffix_list = [
                         "down_proj.weight",

From fb4ce17de697643ca602248810307e929af847e9 Mon Sep 17 00:00:00 2001
From: strgrb <zhangkaihong.zkh@antgroup.com>
Date: Mon, 28 Jul 2025 16:32:46 +0800
Subject: [PATCH 189/396] Fix per_token_group_quant_8bit when hidden_dim //
 group_size is not divided by 4. (#8449)

Co-authored-by: Zhang Kaihong <zhangkaihong.zkh@alibaba-inc.com>
---
 .../csrc/gemm/per_token_group_quant_8bit.cu   | 23 ++++++++++---------
 1 file changed, 12 insertions(+), 11 deletions(-)

diff --git a/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu b/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu
index 25b57c8f4d81..d818ddfb8186 100644
--- a/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu
+++ b/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu
@@ -1,5 +1,6 @@
 #include <ATen/cuda/CUDAContext.h>
 #include <c10/util/Float8_e4m3fn.h>
+#include <cuda_fp8.h>
 
 #include <cmath>
 #include <flashinfer/vec_dtypes.cuh>
@@ -32,7 +33,7 @@ __global__ void per_token_group_quant_8bit_kernel(
     const float eps,
     const float min_8bit,
     const float max_8bit,
-    const int scale_num_rows = 0,
+    const int num_groups_per_row = 0,
     const int scale_stride = 0) {
   const int threads_per_group = 16;
   const int64_t local_group_id = threadIdx.x / threads_per_group;
@@ -53,11 +54,10 @@ __global__ void per_token_group_quant_8bit_kernel(
 
   if constexpr (IS_COLUMN_MAJOR) {
     const int num_elems_per_pack = static_cast<int>(sizeof(scale_packed_t) / sizeof(scale_element_t));
-    const int scale_num_rows_element = scale_num_rows * num_elems_per_pack;
-    const int row_idx = global_group_id / scale_num_rows_element;
-    const int col_idx_raw = global_group_id % scale_num_rows_element;
-    const int col_idx = col_idx_raw / num_elems_per_pack;
-    const int pack_idx = col_idx_raw % num_elems_per_pack;
+    const int row_idx = global_group_id / num_groups_per_row;
+    const int col_idx_unpacked = global_group_id % num_groups_per_row;
+    const int col_idx = col_idx_unpacked / num_elems_per_pack;
+    const int pack_idx = col_idx_unpacked % num_elems_per_pack;
     scale_output = reinterpret_cast<scale_element_t*>(output_s) +
                    (col_idx * scale_stride * num_elems_per_pack + row_idx * num_elems_per_pack + pack_idx);
   } else {
@@ -86,7 +86,7 @@ __global__ void per_token_group_quant_8bit_kernel(
 
   float y_s = local_absmax / max_8bit;
   if constexpr (SCALE_UE8M0) {
-    y_s = exp2f(ceilf(log2f(fmaxf(fabsf(y_s), 1e-10f))));
+    y_s = exp2f(ceilf(log2f(fmaxf(y_s, 1e-10f))));
   }
 
   // TODO can optimize
@@ -152,7 +152,8 @@ void sgl_per_token_group_quant_8bit(
   const int num_threads = groups_per_block * THREADS_PER_GROUP;
 
   const bool is_column_major = output_s.stride(0) < output_s.stride(1);
-  const int scale_num_rows = output_s.size(1);
+  const int hidden_dim = input.size(input.dim() - 1);
+  const int num_groups_per_row = hidden_dim / group_size;
   const int scale_stride = output_s.stride(1);
 
 #define LAUNCH_KERNEL(T, DST_DTYPE)                                                               \
@@ -171,7 +172,7 @@ void sgl_per_token_group_quant_8bit(
             (float)eps,                                                                           \
             (float)min_8bit,                                                                      \
             (float)max_8bit,                                                                      \
-            scale_num_rows,                                                                       \
+            num_groups_per_row,                                                                   \
             scale_stride);                                                                        \
       } else {                                                                                    \
         per_token_group_quant_8bit_kernel<T, DST_DTYPE, true, false><<<grid, block, 0, stream>>>( \
@@ -184,7 +185,7 @@ void sgl_per_token_group_quant_8bit(
             (float)eps,                                                                           \
             (float)min_8bit,                                                                      \
             (float)max_8bit,                                                                      \
-            scale_num_rows,                                                                       \
+            num_groups_per_row,                                                                   \
             scale_stride);                                                                        \
       }                                                                                           \
     } else {                                                                                      \
@@ -207,7 +208,7 @@ void sgl_per_token_group_quant_8bit(
       LAUNCH_KERNEL(scalar_t, int8_t);
       return true;
     } else if (dst_type == at::ScalarType::Float8_e4m3fn) {
-      LAUNCH_KERNEL(scalar_t, c10::Float8_e4m3fn);
+      LAUNCH_KERNEL(scalar_t, __nv_fp8_e4m3);
       return true;
     }
     return false;

From 2262369905884779c1ba213f736aea14288fc593 Mon Sep 17 00:00:00 2001
From: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Date: Mon, 28 Jul 2025 16:35:43 +0800
Subject: [PATCH 190/396] Revert "[kernel] opt moe align block kernel by
 block/warp scan algorithm" (#8457)

---
 sgl-kernel/csrc/moe/moe_align_kernel.cu | 93 +++++++++++--------------
 1 file changed, 42 insertions(+), 51 deletions(-)

diff --git a/sgl-kernel/csrc/moe/moe_align_kernel.cu b/sgl-kernel/csrc/moe/moe_align_kernel.cu
index b66afa0e4843..ad80b0c75e81 100644
--- a/sgl-kernel/csrc/moe/moe_align_kernel.cu
+++ b/sgl-kernel/csrc/moe/moe_align_kernel.cu
@@ -26,12 +26,6 @@ limitations under the License.
 #define VEC_SIZE 4
 using Vec = int4;
 
-#ifndef __CUDA_ARCH__  // HIP
-#define SHFL_UP(mask, val, delta) __shfl_up((val), (delta))
-#else  // CUDA
-#define SHFL_UP(mask, val, delta) __shfl_up_sync((mask), (val), (delta))
-#endif
-
 template <typename scalar_t>
 __global__ void count_and_sort_expert_tokens_kernel(
     const scalar_t* __restrict__ topk_ids,
@@ -48,16 +42,6 @@ __global__ void count_and_sort_expert_tokens_kernel(
   }
 }
 
-__device__ __forceinline__ int warp_exclusive_scan(int v, unsigned mask = 0xffffffffu) {
-  int original = v;
-#pragma unroll
-  for (int offset = 1; offset < WARP_SIZE; offset <<= 1) {
-    int n = SHFL_UP(mask, v, offset);
-    if ((threadIdx.x & (WARP_SIZE - 1)) >= offset) v += n;
-  }
-  return v - original;
-}
-
 template <typename scalar_t>
 __global__ void moe_align_block_size_kernel(
     const scalar_t* __restrict__ topk_ids,
@@ -74,7 +58,6 @@ __global__ void moe_align_block_size_kernel(
   int32_t* shared_counts = smem;                  // [num_experts]
   int32_t* prefix = shared_counts + num_experts;  // [num_experts + 1]
   int32_t* scan_buf = prefix + num_experts + 1;   // [scan_size]
-  int32_t* warp_sums = scan_buf + scan_size;      // [<= 32]
   __shared__ int32_t s_total_tokens_post_pad;
 
   const size_t tid = threadIdx.x;
@@ -93,7 +76,6 @@ __global__ void moe_align_block_size_kernel(
 
   __syncthreads();
 
-  // Calculate padded_cnt, write scan_buf, directly prefix sum
   int32_t padded_count = 0;
   if (tid < num_experts) {
     int32_t count = shared_counts[tid];
@@ -101,52 +83,58 @@ __global__ void moe_align_block_size_kernel(
     scan_buf[tid] = padded_count;
   }
 
-  // Intra warp prefix sum
-  const int warp_id = tid / WARP_SIZE;
-  const int lane_id = tid & (WARP_SIZE - 1);
-  const int num_warps_for_scan = (scan_size + WARP_SIZE - 1) / WARP_SIZE;
-  const int warp_sum = warp_exclusive_scan(padded_count) + padded_count;
-  if (lane_id == WARP_SIZE - 1) warp_sums[warp_id] = warp_sum;
+  if (tid >= num_experts && tid < scan_size) {
+    scan_buf[tid] = 0;
+  }
+
   __syncthreads();
 
-  // warp0 accumulate all the block's prefix sum
-  if (tid < WARP_SIZE) {
-    int val = (tid < num_warps_for_scan) ? warp_sums[tid] : 0;
-    int incl = warp_exclusive_scan(val) + val;
-    warp_sums[tid] = incl;
+  // Blelloch scan
+  int offset = 1;
+#pragma unroll
+  for (int d = scan_size >> 1; d > 0; d >>= 1) {
+    if (tid < d) {
+      int ai = offset * (2 * tid + 1) - 1;
+      int bi = offset * (2 * tid + 2) - 1;
+      scan_buf[bi] += scan_buf[ai];
+    }
+    offset <<= 1;
+    __syncthreads();
   }
-  __syncthreads();
 
-  // Every thread obtains the whole block's sum
+  // down-sweep
   if (tid == 0) {
-    prefix[num_experts] = warp_sums[num_warps_for_scan - 1];
-    s_total_tokens_post_pad = prefix[num_experts];
-    *total_tokens_post_pad = s_total_tokens_post_pad;
+    prefix[num_experts] = scan_buf[scan_size - 1];
+    scan_buf[scan_size - 1] = 0;
   }
   __syncthreads();
 
-  // Fill 0 to scan_buf extended area (tid >= num_expert)
-  if (tid >= num_experts && tid < scan_size) scan_buf[tid] = 0;
-  __syncthreads();
+#pragma unroll
+  for (int d = 1; d < scan_size; d <<= 1) {
+    offset >>= 1;
+    if (tid < d) {
+      int ai = offset * (2 * tid + 1) - 1;
+      int bi = offset * (2 * tid + 2) - 1;
+      if (bi < scan_size) {
+        int temp = scan_buf[ai];
+        scan_buf[ai] = scan_buf[bi];
+        scan_buf[bi] += temp;
+      }
+    }
+    __syncthreads();
+  }
 
-  // Perform 2 level exclusive-prefix-sum to scan_buf
-  int v = (tid < scan_size) ? scan_buf[tid] : 0;
-  int pre = warp_exclusive_scan(v);
-  if (lane_id == WARP_SIZE - 1) warp_sums[warp_id] = pre + v;
-  __syncthreads();
+  if (tid < num_experts) {
+    prefix[tid] = scan_buf[tid];
+  }
 
-  if (warp_id == 0) {
-    int val = (lane_id < num_warps_for_scan) ? warp_sums[lane_id] : 0;
-    warp_sums[lane_id] = warp_exclusive_scan(val);
+  if (tid == 0) {
+    s_total_tokens_post_pad = prefix[num_experts];
+    *total_tokens_post_pad = s_total_tokens_post_pad;
   }
-  __syncthreads();
 
-  int offset = warp_sums[warp_id];
-  if (tid < scan_size) scan_buf[tid] = pre + offset;
   __syncthreads();
 
-  // Write prefix[0..num_experts - 1] and cumsum
-  if (tid < num_experts) prefix[tid] = scan_buf[tid];
   if (tid <= num_experts) {
     cumsum[tid] = prefix[tid];
   }
@@ -262,6 +250,9 @@ void moe_align_block_size(
     bool pad_sorted_token_ids) {
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
 
+  int64_t padded_num_experts = ((num_experts + WARP_SIZE - 1) / WARP_SIZE) * WARP_SIZE;
+
+  int experts_per_warp = WARP_SIZE;
   int threads = 1024;
 
   threads = ((threads + WARP_SIZE - 1) / WARP_SIZE) * WARP_SIZE;
@@ -287,7 +278,7 @@ void moe_align_block_size(
       auto align_kernel = moe_align_block_size_kernel<scalar_t>;
 
       const size_t scan_size = next_pow2(num_experts);
-      const size_t shared_mem_size = (num_experts + (num_experts + 1) + scan_size + WARP_SIZE) * sizeof(int32_t);
+      const size_t shared_mem_size = (num_experts + (num_experts + 1) + scan_size) * sizeof(int32_t);
 
       align_kernel<<<1, threads, shared_mem_size, stream>>>(
           topk_ids.data_ptr<scalar_t>(),

From 45bc170b36ebdb74496e66260bde209ba7687ea8 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 28 Jul 2025 02:11:06 -0700
Subject: [PATCH 191/396] chore: bump v0.4.9.post5 (#8458)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index d9d1c0629e22..1b6a3745c4b0 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.9.post4"
+pip install "sglang[all]>=0.4.9.post5"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index 82f0233dbe07..6c5f996acbaf 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post4-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post5-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post4-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post5-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index b5f38dcb8c39..33b4e7e64b6e 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.9.post4"
+uv pip install "sglang[all]>=0.4.9.post5"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.9.post4"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post4 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post5 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post4 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post5 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -74,7 +74,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.9.post4 -t v0.4.9.post4-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.9.post5 -t v0.4.9.post5-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -83,11 +83,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.9.post4-rocm630 \
+    v0.4.9.post5-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.9.post4-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.9.post5-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
diff --git a/python/pyproject.toml b/python/pyproject.toml
index 8af5df274819..397ca3a95b96 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.9.post4"
+version = "0.4.9.post5"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index 15bb2fa07b42..2bca859d5a8d 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.9.post4"
+__version__ = "0.4.9.post5"

From a9dd3ec3e961e9fa9fb666c294c496079bacc156 Mon Sep 17 00:00:00 2001
From: erictanjn <142883585+erictanjn@users.noreply.github.com>
Date: Mon, 28 Jul 2025 20:36:46 +0800
Subject: [PATCH 192/396] fix:reorder topk experts to ensure shared expert
 replaces minimal score (#8125)

---
 python/sglang/srt/layers/moe/topk.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index 475066a1c4bb..f2365d70ee9f 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -397,7 +397,9 @@ def grouped_topk_gpu(
         .reshape(num_token, -1)
     )  # [n, e]
     tmp_scores = scores.masked_fill(~score_mask.bool(), 0.0)  # [n, e]
-    topk_weights, topk_ids = torch.topk(tmp_scores, k=topk, dim=-1, sorted=False)
+    topk_weights, topk_ids = torch.topk(
+        tmp_scores, k=topk, dim=-1, sorted=num_fused_shared_experts > 0
+    )
     if num_fused_shared_experts:
         topk_ids[:, -1] = torch.randint(
             low=num_experts,
@@ -486,7 +488,9 @@ def biased_grouped_topk_impl(
     tmp_scores = scores_for_choice.masked_fill(
         ~score_mask.bool(), float("-inf")
     )  # [n, e]
-    _, topk_ids = torch.topk(tmp_scores, k=topk, dim=-1, sorted=False)
+    _, topk_ids = torch.topk(
+        tmp_scores, k=topk, dim=-1, sorted=num_fused_shared_experts > 0
+    )
     topk_weights = scores.gather(1, topk_ids)
 
     if num_fused_shared_experts:

From b5821592467851f2eb82ea37f54e4a92597883ca Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Mon, 28 Jul 2025 22:12:36 +0800
Subject: [PATCH 193/396] Update PR template (#8465)

---
 .github/pull_request_template.md | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/.github/pull_request_template.md b/.github/pull_request_template.md
index 4edeb4c27aa1..5508c3a23b7f 100644
--- a/.github/pull_request_template.md
+++ b/.github/pull_request_template.md
@@ -8,6 +8,14 @@
 
 <!-- Describe the changes made in this PR. -->
 
+## Accuracy Test
+
+<!-- If this PR affects model-side code (e.g., kernels, model architecture), please provide accuracy test results. Ref: https://docs.sglang.ai/references/accuracy_evaluation.html -->
+
+## Benchmark & Profiling
+
+<!-- If this PR is expected to impact performance, please provide benchmark and profiling results. Ref: https://docs.sglang.ai/references/benchmark_and_profiling.html -->
+
 ## Checklist
 
 - [ ] Format your code according to the [Code Formatting with Pre-Commit](https://docs.sglang.ai/references/contribution_guide.html#code-formatting-with-pre-commit).

From 747dd45077c57db11455b3d9071ebc0d357f97de Mon Sep 17 00:00:00 2001
From: harrisonlimh <97203667+harrisonlimh@users.noreply.github.com>
Date: Mon, 28 Jul 2025 07:32:33 -0700
Subject: [PATCH 194/396] feat: throttle requests at scheduler based on
 --max_queued_requests (#7565)

---
 python/sglang/srt/entrypoints/http_server.py  | 14 ++-
 .../srt/entrypoints/openai/serving_base.py    |  7 +-
 python/sglang/srt/managers/io_struct.py       |  2 +
 python/sglang/srt/managers/scheduler.py       | 19 ++++
 .../sglang/srt/managers/tokenizer_manager.py  | 28 +++++-
 python/sglang/srt/managers/tp_worker.py       |  5 ++
 python/sglang/srt/server_args.py              |  8 ++
 python/sglang/test/test_utils.py              | 53 +++++++++++
 test/srt/run_suite.py                         |  1 +
 test/srt/test_request_queue_validation.py     | 87 +++++++++++++++++++
 10 files changed, 218 insertions(+), 6 deletions(-)
 create mode 100644 test/srt/test_request_queue_validation.py

diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index e2ce86847cd0..586a264951cb 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -38,7 +38,7 @@
 import requests
 import uvicorn
 import uvloop
-from fastapi import Depends, FastAPI, Request, UploadFile
+from fastapi import Depends, FastAPI, HTTPException, Request, UploadFile
 from fastapi.exceptions import RequestValidationError
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import ORJSONResponse, Response, StreamingResponse
@@ -174,6 +174,18 @@ async def lifespan(fast_api_app: FastAPI):
 )
 
 
+@app.exception_handler(HTTPException)
+async def validation_exception_handler(request: Request, exc: HTTPException):
+    """Enrich HTTP exception with status code and other details"""
+    error = ErrorResponse(
+        object="error",
+        message=exc.detail,
+        type=str(exc.status_code),
+        code=exc.status_code,
+    )
+    return ORJSONResponse(content=error.model_dump(), status_code=exc.status_code)
+
+
 # Custom exception handlers to change validation error status codes
 @app.exception_handler(RequestValidationError)
 async def validation_exception_handler(request: Request, exc: RequestValidationError):
diff --git a/python/sglang/srt/entrypoints/openai/serving_base.py b/python/sglang/srt/entrypoints/openai/serving_base.py
index ba7514f0dd9b..ad7c35f20448 100644
--- a/python/sglang/srt/entrypoints/openai/serving_base.py
+++ b/python/sglang/srt/entrypoints/openai/serving_base.py
@@ -4,7 +4,7 @@
 from abc import ABC, abstractmethod
 from typing import Any, Optional, Union
 
-from fastapi import Request
+from fastapi import HTTPException, Request
 from fastapi.responses import ORJSONResponse, StreamingResponse
 
 from sglang.srt.entrypoints.openai.protocol import ErrorResponse, OpenAIServingRequest
@@ -45,7 +45,10 @@ async def handle_request(
                 return await self._handle_non_streaming_request(
                     adapted_request, processed_request, raw_request
                 )
-
+        except HTTPException as e:
+            return self.create_error_response(
+                message=e.detail, err_type=str(e.status_code), status_code=e.status_code
+            )
         except Exception as e:
             logger.exception(f"Error in request: {e}")
             return self.create_error_response(
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 3d18e1af450d..377205e67d0b 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -911,6 +911,8 @@ class AbortReq:
     rid: str = ""
     # Whether to abort all requests
     abort_all: bool = False
+    # The finished reason data
+    finished_reason: Optional[Dict[str, Any]] = None
 
 
 @dataclass
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index ecfce1392c4e..5d3d115e22f8 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -24,6 +24,7 @@
 from collections import defaultdict, deque
 from concurrent import futures
 from dataclasses import dataclass
+from http import HTTPStatus
 from pathlib import Path
 from types import SimpleNamespace
 from typing import Dict, List, Optional, Tuple, Union
@@ -370,6 +371,7 @@ def __init__(
             self.max_total_num_tokens,
             self.max_prefill_tokens,
             self.max_running_requests,
+            self.max_queued_requests,
             self.max_req_len,
             self.max_req_input_len,
             self.random_seed,
@@ -1086,6 +1088,19 @@ def process_input_requests(self, recv_reqs: List):
                 self.return_health_check_ct += 1
                 continue
 
+            # If it is a work request, accept or reject the request based on the request queue size.
+            if is_work_request(recv_req):
+                if len(self.waiting_queue) + 1 > self.max_queued_requests:
+                    abort_req = AbortReq(
+                        recv_req.rid,
+                        finished_reason={
+                            "type": "abort",
+                            "status_code": HTTPStatus.SERVICE_UNAVAILABLE,
+                            "message": "The request queue is full.",
+                        },
+                    )
+                    self.send_to_tokenizer.send_pyobj(abort_req)
+                    continue
             output = self._request_dispatcher(recv_req)
             if output is not None:
                 if isinstance(output, RpcReqOutput):
@@ -2902,6 +2917,10 @@ def is_health_check_generate_req(recv_req):
     return getattr(recv_req, "rid", "").startswith("HEALTH_CHECK")
 
 
+def is_work_request(recv_req):
+    return isinstance(recv_req, (TokenizedGenerateReqInput, TokenizedEmbeddingReqInput))
+
+
 def _export_static_state(model):
     return dict(
         buffers=[
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index cb4df6b654ca..c998b51c9563 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -766,6 +766,19 @@ async def _wait_one_response(
                     ):
                         raise ValueError(finish_reason["message"])
 
+                    if (
+                        finish_reason.get("type") == "abort"
+                        and finish_reason.get("status_code")
+                        == HTTPStatus.SERVICE_UNAVAILABLE
+                    ):
+                        # This is an abort request initiated by scheduler.
+                        # Delete the key to prevent resending abort request to the scheduler and
+                        # to ensure aborted request state is cleaned up.
+                        del self.rid_to_state[state.obj.rid]
+                        raise fastapi.HTTPException(
+                            status_code=finish_reason["status_code"],
+                            detail=finish_reason["message"],
+                        )
                 yield out
                 break
 
@@ -1705,8 +1718,15 @@ def record_request_for_crash_dump(self, state: ReqState, out_dict: dict):
     def _handle_abort_req(self, recv_obj):
         state = self.rid_to_state[recv_obj.rid]
         state.finished = True
-        state.out_list.append(
-            {
+        if recv_obj.finished_reason:
+            out = {
+                "meta_info": {
+                    "id": recv_obj.rid,
+                    "finish_reason": recv_obj.finished_reason,
+                },
+            }
+        else:
+            out = {
                 "text": "",
                 "meta_info": {
                     "id": recv_obj.rid,
@@ -1718,7 +1738,7 @@ def _handle_abort_req(self, recv_obj):
                     "completion_tokens": 0,
                 },
             }
-        )
+        state.out_list.append(out)
         state.event.set()
 
     def _handle_open_session_req_output(self, recv_obj):
@@ -1910,8 +1930,10 @@ def handle_recv(self, recv_obj: T):
 #
 # | entrypoint | is_streaming | status          | abort engine    | cancel asyncio task   | rid_to_state                |
 # | ---------- | ------------ | --------------- | --------------- | --------------------- | --------------------------- |
+# | http       | yes          | validation      | background task | fast api              | del in _handle_abort_req    |
 # | http       | yes          | waiting queue   | background task | fast api              | del in _handle_abort_req    |
 # | http       | yes          | running         | background task | fast api              | del in _handle_batch_output |
+# | http       | no           | validation      | http exception  | http exception        | del in _handle_abort_req    |
 # | http       | no           | waiting queue   | type 1          | type 1 exception      | del in _handle_abort_req    |
 # | http       | no           | running         | type 3          | type 3 exception      | del in _handle_batch_output |
 #
diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index e6d3c9a242b4..42ed459499e5 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -130,6 +130,10 @@ def __init__(
             self.model_runner.req_to_token_pool.size,
         )
         assert self.max_running_requests > 0, "max_running_request is zero"
+        self.max_queued_requests = server_args.max_queued_requests
+        assert (
+            self.max_running_requests > 0
+        ), "max_queued_requests is zero. We need to be at least 1 to schedule a request."
         self.max_req_len = min(
             self.model_config.context_len - 1,
             self.max_total_num_tokens - 1,
@@ -165,6 +169,7 @@ def get_worker_info(self):
             self.max_total_num_tokens,
             self.max_prefill_tokens,
             self.max_running_requests,
+            self.max_queued_requests,
             self.max_req_len,
             self.max_req_input_len,
             self.random_seed,
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 54dc76ed7929..dc0c6cd1acab 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -19,6 +19,7 @@
 import logging
 import os
 import random
+import sys
 import tempfile
 from typing import List, Literal, Optional, Union
 
@@ -74,6 +75,7 @@ class ServerArgs:
     # Memory and scheduling
     mem_fraction_static: Optional[float] = None
     max_running_requests: Optional[int] = None
+    max_queued_requests: Optional[int] = sys.maxsize
     max_total_tokens: Optional[int] = None
     chunked_prefill_size: Optional[int] = None
     max_prefill_tokens: int = 16384
@@ -805,6 +807,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.max_running_requests,
             help="The maximum number of running requests.",
         )
+        parser.add_argument(
+            "--max-queued-requests",
+            type=int,
+            default=ServerArgs.max_queued_requests,
+            help="The maximum number of queued requests. This option is ignored when using disaggregation-mode.",
+        )
         parser.add_argument(
             "--max-total-tokens",
             type=int,
diff --git a/python/sglang/test/test_utils.py b/python/sglang/test/test_utils.py
index 65d989eab666..c155a4d6d728 100644
--- a/python/sglang/test/test_utils.py
+++ b/python/sglang/test/test_utils.py
@@ -19,6 +19,7 @@
 from types import SimpleNamespace
 from typing import Awaitable, Callable, List, Optional, Tuple
 
+import aiohttp
 import numpy as np
 import requests
 import torch
@@ -1303,6 +1304,58 @@ def run_logprob_check(self: unittest.TestCase, arg: Tuple):
                                 raise
 
 
+def send_generate_requests(base_url: str, num_requests: int) -> List[str]:
+    """Sends generate request serially and returns status codes. Max concurrency is 1."""
+
+    def generate():
+        prompt = """
+        System: You are a helpful assistant.
+        User: What is the capital of France?
+        Assistant: The capital of France is
+        """
+        response = requests.post(
+            f"{base_url}/generate",
+            json={
+                "text": prompt,
+                "sampling_params": {
+                    "temperature": 0,
+                    "max_new_tokens": 50,
+                },
+            },
+        )
+        return response.status_code
+
+    return [generate() for _ in range(num_requests)]
+
+
+async def send_concurrent_generate_requests(
+    base_url: str, num_requests: int
+) -> List[str]:
+    """Sends generate request concurrently and returns status codes. Max concurrency is num_requests."""
+
+    async def async_generate():
+        async with aiohttp.ClientSession() as session:
+            prompt = """
+            System: You are a helpful assistant.
+            User: What is the capital of France?
+            Assistant: The capital of France is
+            """
+            async with session.post(
+                f"{base_url}/generate",
+                json={
+                    "text": prompt,
+                    "sampling_params": {
+                        "temperature": 0,
+                        "max_new_tokens": 50,
+                    },
+                },
+            ) as response:
+                return response.status
+
+    tasks = [asyncio.create_task(async_generate()) for _ in range(num_requests)]
+    return await asyncio.gather(*tasks)
+
+
 class CustomTestCase(unittest.TestCase):
     def _callTestMethod(self, method):
         max_retry = int(
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index c9876e16147d..7b43d5175f52 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -86,6 +86,7 @@ class TestFile:
         TestFile("test_radix_attention.py", 105),
         TestFile("test_regex_constrained.py", 64),
         TestFile("test_retract_decode.py", 54),
+        TestFile("test_request_queue_validation.py", 30),
         TestFile("test_server_args.py", 1),
         TestFile("test_skip_tokenizer_init.py", 117),
         TestFile("test_srt_engine.py", 261),
diff --git a/test/srt/test_request_queue_validation.py b/test/srt/test_request_queue_validation.py
new file mode 100644
index 000000000000..2a9739a1c826
--- /dev/null
+++ b/test/srt/test_request_queue_validation.py
@@ -0,0 +1,87 @@
+import asyncio
+import os
+import re
+import unittest
+from concurrent.futures import ThreadPoolExecutor
+
+from sglang.srt.utils import kill_process_tree
+from sglang.test.test_utils import (
+    DEFAULT_SMALL_MODEL_NAME_FOR_TEST,
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    STDERR_FILENAME,
+    STDOUT_FILENAME,
+    CustomTestCase,
+    popen_launch_server,
+    send_concurrent_generate_requests,
+    send_generate_requests,
+)
+
+
+class TestMaxQueuedRequests(CustomTestCase):
+    @classmethod
+    def setUpClass(cls):
+        cls.model = DEFAULT_SMALL_MODEL_NAME_FOR_TEST
+        cls.base_url = DEFAULT_URL_FOR_TEST
+
+        cls.stdout = open(STDOUT_FILENAME, "w")
+        cls.stderr = open(STDERR_FILENAME, "w")
+
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            other_args=(
+                "--max-running-requests",  # Enforce max request concurrency is 1
+                "1",
+                "--max-queued-requests",  # Enforce max queued request number is 1
+                "1",
+            ),
+            return_stdout_stderr=(cls.stdout, cls.stderr),
+        )
+
+    @classmethod
+    def tearDownClass(cls):
+        kill_process_tree(cls.process.pid)
+        cls.stdout.close()
+        cls.stderr.close()
+        os.remove(STDOUT_FILENAME)
+        os.remove(STDERR_FILENAME)
+
+    def test_max_queued_requests_validation_with_serial_requests(self):
+        """Verify request is not throttled when the max concurrency is 1."""
+        status_codes = send_generate_requests(
+            self.base_url,
+            num_requests=10,
+        )
+
+        for status_code in status_codes:
+            assert status_code == 200  # request shouldn't be throttled
+
+    def test_max_queued_requests_validation_with_concurrent_requests(self):
+        """Verify request throttling with concurrent requests."""
+        status_codes = asyncio.run(
+            send_concurrent_generate_requests(self.base_url, num_requests=10)
+        )
+
+        assert 200 in status_codes
+        assert 503 in status_codes
+        assert all(status_code in [200, 503] for status_code in status_codes)
+
+    def test_max_running_requests_and_max_queued_request_validation(self):
+        """Verify running request and queued request numbers based on server logs."""
+        rr_pattern = re.compile(r"#running-req:\s*(\d+)")
+        qr_pattern = re.compile(r"#queue-req:\s*(\d+)")
+
+        with open(STDERR_FILENAME) as lines:
+            for line in lines:
+                rr_match, qr_match = rr_pattern.search(line), qr_pattern.search(line)
+                if rr_match:
+                    assert int(rr_match.group(1)) <= 1
+                if qr_match:
+                    assert int(qr_match.group(1)) <= 1
+
+
+if __name__ == "__main__":
+    unittest.main()

From ccfe52a05719890b9f1ca735e160d4a38e2bf3ff Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 28 Jul 2025 10:19:33 -0700
Subject: [PATCH 195/396] fix: update dep (#8467)

---
 python/pyproject.toml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 397ca3a95b96..d916fcb57e6c 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -72,6 +72,7 @@ blackwell = [
     "cuda-python",
     "einops",
     "flashinfer_python==0.2.9rc2",
+    "tiktoken",
 ]
 
 # HIP (Heterogeneous-computing Interface for Portability) for AMD

From 134fa43e1940aefc72be9cd3927c233543a79e15 Mon Sep 17 00:00:00 2001
From: Kaixi Hou <kaixih@nvidia.com>
Date: Mon, 28 Jul 2025 10:38:19 -0700
Subject: [PATCH 196/396] [NVIDIA] Change to use `num_local_experts` (#8453)

---
 docs/backend/server_arguments.md             | 3 ++-
 python/sglang/srt/layers/moe/ep_moe/layer.py | 2 +-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index f742083f1cf2..985596292596 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -214,7 +214,8 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--ep-size` | The expert parallelism size. | 1 |
 | `--enable-ep-moe` | Enabling expert parallelism for moe. The ep size is equal to the tp size. | False |
 | `--enable-deepep-moe` | Enabling DeepEP MoE implementation for EP MoE. | False |
-| `--enable-flashinfer-moe` | Enabling Flashinfer MoE implementation. | False |
+| `--enable-flashinfer-cutlass-moe` | Enabling Flashinfer Cutlass MoE implementation for high throughput. | False |
+| `--enable-flashinfer-trtllm-moe` | Enabling Flashinfer Trtllm MoE implementation for low latency. | False |
 | `--deepep-mode` | Select the mode when enable DeepEP MoE, could be `normal`, `low_latency` or `auto`. Default is `auto`, which means `low_latency` for decode batch and `normal` for prefill batch. | auto |
 | `--ep-num-redundant-experts` | Allocate this number of redundant experts in expert parallel. | 0 |
 | `--ep-dispatch-algorithm` | The algorithm to choose ranks for redundant experts in expert parallel. | None |
diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 6aa83dc00d55..b978eaf3a0d9 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1268,7 +1268,7 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
             topk_group=self.topk_group,
             intermediate_size=self.w2_weight.shape[2],
             local_expert_offset=self.start_expert_id,
-            local_num_experts=self.num_experts_per_partition,
+            local_num_experts=self.num_local_experts,
             routed_scaling_factor=self.routed_scaling_factor,
             tile_tokens_dim=_get_tile_tokens_dim(
                 hidden_states.shape[0], self.top_k, self.num_experts

From c8f549d96d99c3f5e37d9a7e53a5ff4191948536 Mon Sep 17 00:00:00 2001
From: Timofey <39443983+Onyad@users.noreply.github.com>
Date: Mon, 28 Jul 2025 21:35:14 +0300
Subject: [PATCH 197/396] Fix parsing ChatCompletionMessage (#7273)

Co-authored-by: Timofey K <timosha1113@gmail.com>
---
 python/sglang/srt/entrypoints/openai/protocol.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/entrypoints/openai/protocol.py b/python/sglang/srt/entrypoints/openai/protocol.py
index 9c73e5fad19d..f7596c975828 100644
--- a/python/sglang/srt/entrypoints/openai/protocol.py
+++ b/python/sglang/srt/entrypoints/openai/protocol.py
@@ -317,7 +317,9 @@ class ToolCall(BaseModel):
 
 class ChatCompletionMessageGenericParam(BaseModel):
     role: Literal["system", "assistant", "tool"]
-    content: Union[str, List[ChatCompletionMessageContentTextPart], None]
+    content: Union[str, List[ChatCompletionMessageContentTextPart], None] = Field(
+        default=None
+    )
     tool_call_id: Optional[str] = None
     name: Optional[str] = None
     reasoning_content: Optional[str] = None

From 9c138a044514f802e2892513ef4c8328ba5f8724 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Mon, 28 Jul 2025 11:37:17 -0700
Subject: [PATCH 198/396] [3/N] MoE Refactor: Simplify DeepEP Output (#8421)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 180 ++++++++++++++---
 .../srt/layers/moe/ep_moe/token_dispatcher.py | 187 +++++++-----------
 .../layers/moe/token_dispatcher/__init__.py   |   0
 .../moe/token_dispatcher/base_dispatcher.py   |  48 +++++
 .../layers/moe/token_dispatcher/standard.py   |  19 ++
 python/sglang/srt/models/deepseek_v2.py       |  69 ++-----
 python/sglang/srt/models/qwen3_moe.py         |  81 ++------
 python/sglang/srt/two_batch_overlap.py        |  11 +-
 8 files changed, 319 insertions(+), 276 deletions(-)
 create mode 100644 python/sglang/srt/layers/moe/token_dispatcher/__init__.py
 create mode 100644 python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py
 create mode 100644 python/sglang/srt/layers/moe/token_dispatcher/standard.py

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index b978eaf3a0d9..5ba8d2c420f3 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1,5 +1,7 @@
+from __future__ import annotations
+
 import logging
-from typing import List, Optional, Tuple
+from typing import TYPE_CHECKING, List, Optional, Tuple
 
 import torch
 
@@ -50,6 +52,13 @@
     next_power_of_2,
 )
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.ep_moe.token_dispatcher import (
+        DeepEPLLOutput,
+        DeepEPNormalOutput,
+        DispatchOutput,
+    )
+
 _is_hip = is_hip()
 _is_npu = is_npu()
 _is_fp8_fnuz = is_fp8_fnuz()
@@ -797,6 +806,24 @@ def __init__(
                 "alternatively, you can disable DeepGEMM by turning off the ENABLE_JIT_DEEPGEMM environment variable."
             )
 
+        # TODO: move to the beginning of the file
+        from sglang.srt.distributed.parallel_state import get_tp_group
+        from sglang.srt.managers.schedule_batch import global_server_args_dict
+        from sglang.srt.two_batch_overlap import MaybeTboDeepEPDispatcher
+
+        self.deepep_dispatcher = MaybeTboDeepEPDispatcher(
+            group=get_tp_group().device_group,
+            router_topk=self.top_k,
+            permute_fusion=True,
+            num_experts=self.num_experts,
+            num_local_experts=self.num_local_experts,
+            hidden_size=hidden_size,
+            params_dtype=params_dtype,
+            deepep_mode=deepep_mode,
+            async_finish=True,  # TODO
+            return_recv_hook=True,
+        )
+
         if self.deepep_mode.enable_low_latency():
             assert (
                 deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM
@@ -837,37 +864,128 @@ def forward(
         hidden_states: torch.Tensor,
         topk_idx: torch.Tensor,
         topk_weights: torch.Tensor,
-        reorder_topk_ids: torch.Tensor,
-        seg_indptr: torch.Tensor,
-        masked_m: torch.Tensor,
-        expected_m: int,
-        num_recv_tokens_per_expert: List[int],
         forward_batch: ForwardBatch,
     ):
+        dispatch_output = self.dispatch(
+            hidden_states, topk_idx, topk_weights, forward_batch
+        )
+        hidden_states = self.moe_impl(dispatch_output)
+        hidden_states = self.combine(
+            hidden_states,
+            dispatch_output.topk_idx,
+            dispatch_output.topk_weights,
+            forward_batch,
+        )
+        return hidden_states
+
+    def dispatch(
+        self,
+        hidden_states: torch.Tensor,
+        topk_idx: torch.Tensor,
+        topk_weights: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ):
+        return self.deepep_dispatcher.dispatch(
+            hidden_states=hidden_states,
+            topk_idx=topk_idx,
+            topk_weights=topk_weights,
+            forward_batch=forward_batch,
+        )
+
+    def moe_impl(self, dispatch_output: DispatchOutput):
         if _use_aiter:
             # in forward_aiter, we skip token permutation and unpermutation, which have been fused inside aiter kernel
-            return self.forward_aiter(hidden_states, topk_idx, topk_weights)
-        resolved_deepep_mode = self.deepep_mode.resolve(
-            forward_batch.is_extend_in_batch
-        )
-        if resolved_deepep_mode == DeepEPMode.normal:
+            return self.forward_aiter(dispatch_output)
+        if dispatch_output.format.is_deepep_normal():
             if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM:
-                return self.forward_deepgemm_contiguous(
-                    hidden_states, topk_idx, topk_weights, num_recv_tokens_per_expert
-                )
+                return self.forward_deepgemm_contiguous(dispatch_output)
             else:
-                return self.forward_normal(hidden_states, reorder_topk_ids, seg_indptr)
-        elif resolved_deepep_mode == DeepEPMode.low_latency:
-            return self.forward_deepgemm_masked(hidden_states, masked_m, expected_m)
+                return self.forward_normal(dispatch_output)
+        elif dispatch_output.format.is_deepep_ll():
+            return self.forward_deepgemm_masked(dispatch_output)
         else:
             raise ValueError(f"Invalid deepep_mode: {self.deepep_mode}")
 
-    def forward_normal(
+    def combine(
+        self,
+        hidden_states: torch.Tensor,
+        topk_idx: torch.Tensor,
+        topk_weights: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ):
+        return self.deepep_dispatcher.combine(
+            hidden_states=hidden_states,
+            topk_idx=topk_idx,
+            topk_weights=topk_weights,
+            forward_batch=forward_batch,
+        )
+
+    def _prepare_for_normal(
         self,
         hidden_states: torch.Tensor,
-        reorder_topk_ids: torch.Tensor,
-        seg_indptr: torch.Tensor,
+        topk_idx: torch.Tensor,
+    ):
+        from sglang.srt.layers.moe.ep_moe.kernels import (
+            deepep_permute_triton_kernel,
+            deepep_run_moe_deep_preprocess,
+        )
+
+        if hidden_states.shape[0] == 0:
+            reorder_topk_ids = torch.empty(
+                (0,), device=hidden_states.device, dtype=torch.int64
+            )
+            seg_indptr = torch.zeros(
+                (self.num_experts + 1,),
+                device=hidden_states.device,
+                dtype=torch.int64,
+            )
+            return reorder_topk_ids, seg_indptr, hidden_states
+        else:
+            if _use_aiter:
+                # skip permutation here as aiter fused_moe has fused inside
+                reorder_topk_ids = torch.empty(
+                    (0,), device=hidden_states.device, dtype=torch.int64
+                )
+                seg_indptr = torch.zeros(
+                    (self.num_experts + 1,),
+                    device=hidden_states.device,
+                    dtype=torch.int64,
+                )
+                return reorder_topk_ids, seg_indptr, hidden_states
+
+            reorder_topk_ids, self.src2dst, seg_indptr = deepep_run_moe_deep_preprocess(
+                topk_idx, self.num_experts
+            )
+            num_total_tokens = reorder_topk_ids.numel()
+            gateup_input = torch.empty(
+                (int(num_total_tokens), hidden_states.shape[1]),
+                device=hidden_states.device,
+                dtype=hidden_states.dtype,
+            )
+            # PreReorder
+            deepep_permute_triton_kernel[(hidden_states.shape[0],)](
+                hidden_states,
+                gateup_input,
+                self.src2dst,
+                topk_idx,
+                None,
+                self.router_topk,
+                hidden_states.shape[1],
+                BLOCK_SIZE=512,
+            )
+            return reorder_topk_ids, seg_indptr, gateup_input
+
+    def forward_normal(
+        self,
+        dispatch_output: DeepEPNormalOutput,
     ):
+        hidden_states, topk_idx = (
+            dispatch_output.hidden_states,
+            dispatch_output.topk_idx,
+        )
+        reorder_topk_ids, seg_indptr, hidden_states = self._prepare_for_normal(
+            hidden_states, topk_idx
+        )
         hidden_states_dtype = hidden_states.dtype
         hidden_states_device = hidden_states.device
 
@@ -983,10 +1101,13 @@ def forward_normal(
 
     def forward_aiter(
         self,
-        hidden_states: torch.Tensor,
-        topk_idx: torch.Tensor,
-        topk_weights: torch.Tensor,
+        dispatch_output: DeepEPNormalOutput,
     ):
+        hidden_states, topk_idx, topk_weights = (
+            dispatch_output.hidden_states,
+            dispatch_output.topk_idx,
+            dispatch_output.topk_weights,
+        )
         if hidden_states.shape[0] == 0:
             return hidden_states
         # in original deepep, idx == -1 meaning invalid and will not be processed.
@@ -1014,11 +1135,11 @@ def forward_aiter(
 
     def forward_deepgemm_contiguous(
         self,
-        hidden_states_fp8: Tuple[torch.Tensor, torch.Tensor],
-        topk_idx,
-        topk_weights,
-        num_recv_tokens_per_expert: List[int],
+        dispatch_output: DeepEPNormalOutput,
     ):
+        hidden_states_fp8, topk_idx, topk_weights, num_recv_tokens_per_expert = (
+            dispatch_output
+        )
         hidden_states_fp8, hidden_states_scale = hidden_states_fp8
         assert self.quant_method is not None
         assert self.activation == "silu"
@@ -1138,10 +1259,9 @@ def forward_deepgemm_contiguous(
 
     def forward_deepgemm_masked(
         self,
-        hidden_states_fp8: Tuple[torch.Tensor, torch.Tensor],
-        masked_m: torch.Tensor,
-        expected_m: int,
+        dispatch_output: DeepEPLLOutput,
     ):
+        hidden_states_fp8, _, _, masked_m, expected_m = dispatch_output
         assert self.quant_method is not None
         assert self.activation == "silu"
 
diff --git a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py b/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
index 5c0cd3ec9f3f..b1aee3a936ad 100644
--- a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
+++ b/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
@@ -1,7 +1,27 @@
+# TODO(ch-wan): this file will be moved to sglang/srt/layers/moe/token_dispatcher/deepep.py
+
+from __future__ import annotations
+
 import logging
 from dataclasses import dataclass
+from typing import (
+    TYPE_CHECKING,
+    List,
+    NamedTuple,
+    Optional,
+    Protocol,
+    Tuple,
+    Union,
+    runtime_checkable,
+)
 
 from sglang.srt.eplb.expert_distribution import get_global_expert_distribution_recorder
+from sglang.srt.layers.moe.token_dispatcher.base_dispatcher import (
+    BaseDispatcher,
+    BaseDispatcherConfig,
+    DispatchOutput,
+    DispatchOutputFormat,
+)
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.utils import (
@@ -24,7 +44,6 @@
     use_deepep = False
 
 from enum import Enum, IntEnum, auto
-from typing import Optional, Tuple, Union
 
 import torch
 import torch.distributed as dist
@@ -41,6 +60,37 @@
 logger = logging.getLogger(__name__)
 
 
+class DeepEPNormalOutput(NamedTuple):
+    """DeepEP normal dispatch output."""
+
+    hidden_states: torch.Tensor | Tuple[torch.Tensor, torch.Tensor]
+    topk_idx: torch.Tensor
+    topk_weights: torch.Tensor
+    num_recv_tokens_per_expert: List[int]
+
+    @property
+    def format(self) -> DispatchOutputFormat:
+        return DispatchOutputFormat.deepep_normal
+
+
+class DeepEPLLOutput(NamedTuple):
+    """DeepEP low latency dispatch output."""
+
+    hidden_states_fp8: Tuple[torch.Tensor, torch.Tensor]
+    topk_idx: torch.Tensor
+    topk_weights: torch.Tensor
+    masked_m: torch.Tensor
+    expected_m: int
+
+    @property
+    def format(self) -> DispatchOutputFormat:
+        return DispatchOutputFormat.deepep_ll
+
+
+assert isinstance(DeepEPNormalOutput, DispatchOutput)
+assert isinstance(DeepEPLLOutput, DispatchOutput)
+
+
 class DeepEPDispatchMode(IntEnum):
     NORMAL = auto()
     LOW_LATENCY = auto()
@@ -139,7 +189,7 @@ def set_dispatch_mode_as_low_latency(cls):
         cls._dispatch_mode = DeepEPDispatchMode.LOW_LATENCY
 
 
-class DeepEPConfig:
+class DeepEPConfig(BaseDispatcherConfig):
     _instance = None
 
     def __init__(self):
@@ -255,63 +305,17 @@ def dispatch_a(
         return hidden_states, topk_idx, topk_weights, previous_event
 
     def dispatch_b(self, hidden_states, topk_idx, topk_weights, previous_event):
-        if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM:
-            (
-                hidden_states,
-                topk_idx,
-                topk_weights,
-                num_recv_tokens_per_expert_list,
-                event,
-            ) = self._dispatch_core(
-                hidden_states, topk_idx, topk_weights, previous_event
-            )
-            event.current_stream_wait() if self.async_finish else ()
-            return (
-                hidden_states,
-                topk_idx,
-                topk_weights,
-                None,
-                num_recv_tokens_per_expert_list,
-                None,
-                None,
-                None,
-            )
-        else:
-            (
-                hidden_states,
-                topk_idx,
-                topk_weights,
-                num_recv_tokens_per_expert_list,
-                event,
-            ) = self._dispatch_core(
-                hidden_states, topk_idx, topk_weights, previous_event
-            )
-            event.current_stream_wait() if self.async_finish else ()
-            if hidden_states.shape[0] > 0:
-                reorder_topk_ids, seg_indptr, hidden_states = self._deepep_permute(
-                    hidden_states, topk_idx, fp8_dtype=hidden_states.dtype
-                )
-            else:
-                reorder_topk_ids = torch.empty(
-                    (0,), device=hidden_states.device, dtype=torch.int64
-                )
-                seg_indptr = torch.zeros(
-                    (self.num_experts + 1,),
-                    device=hidden_states.device,
-                    dtype=torch.int64,
-                )
-
-            masked_m = expected_m = None
-            return (
-                hidden_states,
-                topk_idx,
-                topk_weights,
-                reorder_topk_ids,
-                None,
-                seg_indptr,
-                masked_m,
-                expected_m,
-            )
+        (
+            hidden_states,
+            topk_idx,
+            topk_weights,
+            num_recv_tokens_per_expert,
+            event,
+        ) = self._dispatch_core(hidden_states, topk_idx, topk_weights, previous_event)
+        event.current_stream_wait() if self.async_finish else ()
+        return DeepEPNormalOutput(
+            hidden_states, topk_idx, topk_weights, num_recv_tokens_per_expert
+        )
 
     def _dispatch_core(
         self,
@@ -343,7 +347,7 @@ def _dispatch_core(
             recv_x,
             recv_topk_idx,
             recv_topk_weights,
-            num_recv_tokens_per_expert_list,
+            num_recv_tokens_per_expert,
             self.handle,
             event,
         ) = buffer.dispatch(
@@ -362,7 +366,7 @@ def _dispatch_core(
         )
 
         get_global_expert_distribution_recorder().on_deepep_dispatch_normal(
-            num_recv_tokens_per_expert_list,
+            num_recv_tokens_per_expert,
             num_tokens_per_rank=num_tokens_per_rank,
             num_tokens_per_rdma_rank=num_tokens_per_rdma_rank,
             num_tokens_per_expert=num_tokens_per_expert,
@@ -372,58 +376,10 @@ def _dispatch_core(
             recv_x,
             recv_topk_idx,
             recv_topk_weights,
-            num_recv_tokens_per_expert_list,
+            num_recv_tokens_per_expert,
             event,
         )
 
-    def _deepep_permute(
-        self,
-        hidden_states: torch.Tensor,
-        topk_idx: torch.Tensor,
-        fp8_dtype: Optional[torch.dtype] = None,
-        use_fp8_w8a8: bool = False,
-        use_block_quant: bool = False,
-    ):
-        """
-        Copy from Megatron-Core token_dispatcher MoEFlexTokenDispatcher
-        https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/transformer/moe/token_dispatcher.py
-        """
-        if _use_aiter:
-            # skip permutation here as aiter fused_moe has fused inside
-            reorder_topk_ids = torch.empty(
-                (0,), device=hidden_states.device, dtype=torch.int64
-            )
-            seg_indptr = torch.zeros(
-                (self.num_experts + 1,), device=hidden_states.device, dtype=torch.int64
-            )
-            return reorder_topk_ids, seg_indptr, hidden_states
-
-        reorder_topk_ids, self.src2dst, seg_indptr = deepep_run_moe_deep_preprocess(
-            topk_idx, self.num_experts
-        )
-        num_total_tokens = reorder_topk_ids.numel()
-        gateup_input = torch.empty(
-            (int(num_total_tokens), hidden_states.shape[1]),
-            device=hidden_states.device,
-            dtype=(
-                fp8_dtype
-                if (use_fp8_w8a8 and not use_block_quant)
-                else hidden_states.dtype
-            ),
-        )
-        # PreReorder
-        deepep_permute_triton_kernel[(hidden_states.shape[0],)](
-            hidden_states,
-            gateup_input,
-            self.src2dst,
-            topk_idx,
-            None,
-            self.router_topk,
-            hidden_states.shape[1],
-            BLOCK_SIZE=512,
-        )
-        return reorder_topk_ids, seg_indptr, gateup_input
-
     def combine_a(
         self,
         hidden_states: torch.Tensor,
@@ -544,15 +500,10 @@ def dispatch_b(
             masked_m
         )
 
-        reorder_topk_ids = seg_indptr = None
-
-        return (
+        return DeepEPLLOutput(
             hidden_states,
             topk_idx,
             topk_weights,
-            reorder_topk_ids,
-            None,
-            seg_indptr,
             masked_m,
             expected_m,
         )
@@ -636,7 +587,7 @@ class _Stage(Enum):
     AFTER_COMBINE_A = auto()
 
 
-class DeepEPDispatcher:
+class DeepEPDispatcher(BaseDispatcher):
     def __init__(
         self,
         group: torch.distributed.ProcessGroup,
@@ -676,7 +627,7 @@ def __init__(
 
         self._stage = _Stage.INITIAL
 
-    def dispatch(self, *args, **kwargs) -> Tuple:
+    def dispatch(self, *args, **kwargs) -> DispatchOutput:
         self.dispatch_a(*args, **kwargs)
         ret = self.dispatch_b()
         return ret
diff --git a/python/sglang/srt/layers/moe/token_dispatcher/__init__.py b/python/sglang/srt/layers/moe/token_dispatcher/__init__.py
new file mode 100644
index 000000000000..e69de29bb2d1
diff --git a/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py b/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py
new file mode 100644
index 000000000000..7167fe759b42
--- /dev/null
+++ b/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py
@@ -0,0 +1,48 @@
+from __future__ import annotations
+
+from abc import ABC, abstractmethod
+from enum import Enum, auto
+from typing import TYPE_CHECKING, NamedTuple, Protocol, runtime_checkable
+
+import torch
+
+
+class DispatchOutputFormat(Enum):
+    standard = auto()
+    deepep_normal = auto()
+    deepep_ll = auto()
+
+    def is_standard(self) -> bool:
+        return self == DispatchOutputFormat.standard
+
+    def is_deepep_normal(self) -> bool:
+        return self == DispatchOutputFormat.deepep_normal
+
+    def is_deepep_ll(self) -> bool:
+        return self == DispatchOutputFormat.deepep_ll
+
+
+@runtime_checkable
+class DispatchOutput(Protocol):
+    """Protocol for dispatch outputs in different formats."""
+
+    @property
+    def format(self) -> DispatchOutputFormat: ...
+
+
+class BaseDispatcherConfig(ABC):
+    """Base class for dispatcher configs."""
+
+    pass
+
+
+class BaseDispatcher(ABC):
+    """Base class for dispatchers."""
+
+    @abstractmethod
+    def dispatch(self, *args, **kwargs) -> DispatchOutput:
+        pass
+
+    @abstractmethod
+    def combine(self, *args, **kwargs) -> torch.Tensor:
+        pass
diff --git a/python/sglang/srt/layers/moe/token_dispatcher/standard.py b/python/sglang/srt/layers/moe/token_dispatcher/standard.py
new file mode 100644
index 000000000000..4a2d2dd6b0f8
--- /dev/null
+++ b/python/sglang/srt/layers/moe/token_dispatcher/standard.py
@@ -0,0 +1,19 @@
+from __future__ import annotations
+
+from typing import NamedTuple
+
+from sglang.srt.layers.moe.token_dispatcher.base_dispatcher import (
+    DispatchOutput,
+    DispatchOutputFormat,
+)
+
+
+class StandardDispatchOutput(NamedTuple):
+    """Standard dispatch output."""
+
+    @property
+    def format(self) -> DispatchOutputFormat:
+        return DispatchOutputFormat.standard
+
+
+assert isinstance(StandardDispatchOutput, DispatchOutput)
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 777b8e0c83b5..b5305f923fe4 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -594,41 +594,13 @@ def forward_deepep(
             topk_weights = torch.empty(
                 (0, self.top_k), dtype=torch.float32, device=hidden_states.device
             )
-        if self.ep_size > 1:
-            # TODO(ch-wan): allow users to set num_max_dispatch_tokens_per_rank value
-            (
-                hidden_states,
-                topk_idx,
-                topk_weights,
-                reorder_topk_ids,
-                num_recv_tokens_per_expert,
-                seg_indptr,
-                masked_m,
-                expected_m,
-            ) = self.deepep_dispatcher.dispatch(
-                hidden_states=hidden_states,
-                topk_idx=topk_idx,
-                topk_weights=topk_weights,
-                forward_batch=forward_batch,
-            )
+
         final_hidden_states = self.experts(
             hidden_states=hidden_states,
             topk_idx=topk_idx,
             topk_weights=topk_weights,
-            reorder_topk_ids=reorder_topk_ids,
-            seg_indptr=seg_indptr,
-            masked_m=masked_m,
-            expected_m=expected_m,
-            num_recv_tokens_per_expert=num_recv_tokens_per_expert,
             forward_batch=forward_batch,
         )
-        if self.ep_size > 1:
-            final_hidden_states = self.deepep_dispatcher.combine(
-                hidden_states=final_hidden_states,
-                topk_idx=topk_idx,
-                topk_weights=topk_weights,
-                forward_batch=forward_batch,
-            )
 
         if shared_output is not None:
             x = shared_output
@@ -689,8 +661,7 @@ def op_select_experts(self, state):
 
     def op_dispatch_a(self, state):
         if self.ep_size > 1:
-            # TODO(ch-wan): allow users to set num_max_dispatch_tokens_per_rank value
-            self.deepep_dispatcher.dispatch_a(
+            self.experts.deepep_dispatcher.dispatch_a(
                 hidden_states=state.hidden_states_mlp_input,
                 topk_idx=state.pop("topk_idx_local"),
                 topk_weights=state.pop("topk_weights_local"),
@@ -703,46 +674,32 @@ def op_dispatch_b(self, state):
             with get_global_expert_distribution_recorder().with_current_layer(
                 self.layer_id
             ):
-                (
-                    state.hidden_states_experts_input,
-                    state.topk_idx_dispatched,
-                    state.topk_weights_dispatched,
-                    state.reorder_topk_ids,
-                    state.num_recv_tokens_per_expert,
-                    state.seg_indptr,
-                    state.masked_m,
-                    state.expected_m,
-                ) = self.deepep_dispatcher.dispatch_b(
+                state.dispatch_output = self.experts.deepep_dispatcher.dispatch_b(
                     tbo_subbatch_index=state.get("tbo_subbatch_index"),
                 )
 
     def op_experts(self, state):
-        state.hidden_states_experts_output = self.experts(
-            hidden_states=state.pop("hidden_states_experts_input"),
-            topk_idx=state.topk_idx_dispatched,
-            topk_weights=state.topk_weights_dispatched,
-            reorder_topk_ids=state.pop("reorder_topk_ids"),
-            seg_indptr=state.pop("seg_indptr"),
-            masked_m=state.pop("masked_m"),
-            expected_m=state.pop("expected_m"),
-            num_recv_tokens_per_expert=state.pop("num_recv_tokens_per_expert"),
-            forward_batch=state.forward_batch,
+        state.hidden_states_experts_output = self.experts.moe_impl(
+            dispatch_output=state.dispatch_output,
         )
 
     def op_combine_a(self, state):
         if self.ep_size > 1:
-            self.deepep_dispatcher.combine_a(
+            self.experts.deepep_dispatcher.combine_a(
                 hidden_states=state.pop("hidden_states_experts_output"),
-                topk_idx=state.pop("topk_idx_dispatched"),
-                topk_weights=state.pop("topk_weights_dispatched"),
+                topk_idx=state.dispatch_output.topk_idx,
+                topk_weights=state.dispatch_output.topk_weights,
                 forward_batch=state.forward_batch,
                 tbo_subbatch_index=state.get("tbo_subbatch_index"),
             )
+            state.pop("dispatch_output")
 
     def op_combine_b(self, state):
         if self.ep_size > 1:
-            state.hidden_states_after_combine = self.deepep_dispatcher.combine_b(
-                tbo_subbatch_index=state.get("tbo_subbatch_index"),
+            state.hidden_states_after_combine = (
+                self.experts.deepep_dispatcher.combine_b(
+                    tbo_subbatch_index=state.get("tbo_subbatch_index"),
+                )
             )
 
     def op_output(self, state):
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index 01235f7acf87..a1faa894d517 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -144,19 +144,6 @@ def __init__(
             )
             self.top_k = config.num_experts_per_tok
 
-            self.deepep_dispatcher = MaybeTboDeepEPDispatcher(
-                group=parallel_state.get_tp_group().device_group,
-                router_topk=self.top_k,
-                permute_fusion=True,
-                num_experts=self.num_experts,
-                num_local_experts=config.num_experts // self.tp_size,
-                hidden_size=config.hidden_size,
-                params_dtype=config.torch_dtype,
-                deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]],
-                async_finish=True,  # TODO
-                return_recv_hook=True,
-            )
-
     def forward(
         self, hidden_states: torch.Tensor, forward_batch: Optional[ForwardBatch] = None
     ) -> torch.Tensor:
@@ -207,41 +194,12 @@ def forward_deepep(
             topk_weights = torch.empty(
                 (0, self.top_k), dtype=torch.float32, device=hidden_states.device
             )
-        if self.ep_size > 1:
-            # TODO(ch-wan): allow users to set num_max_dispatch_tokens_per_rank value
-            (
-                hidden_states,
-                topk_idx,
-                topk_weights,
-                reorder_topk_ids,
-                num_recv_tokens_per_expert,
-                seg_indptr,
-                masked_m,
-                expected_m,
-            ) = self.deepep_dispatcher.dispatch(
-                hidden_states=hidden_states,
-                topk_idx=topk_idx,
-                topk_weights=topk_weights,
-                forward_batch=forward_batch,
-            )
         final_hidden_states = self.experts(
             hidden_states=hidden_states,
             topk_idx=topk_idx,
             topk_weights=topk_weights,
-            reorder_topk_ids=reorder_topk_ids,
-            seg_indptr=seg_indptr,
-            masked_m=masked_m,
-            expected_m=expected_m,
-            num_recv_tokens_per_expert=num_recv_tokens_per_expert,
             forward_batch=forward_batch,
         )
-        if self.ep_size > 1:
-            final_hidden_states = self.deepep_dispatcher.combine(
-                hidden_states=final_hidden_states,
-                topk_idx=topk_idx,
-                topk_weights=topk_weights,
-                forward_batch=forward_batch,
-            )
         return final_hidden_states
 
     def op_gate(self, state):
@@ -278,8 +236,7 @@ def op_select_experts(self, state):
 
     def op_dispatch_a(self, state):
         if self.ep_size > 1:
-            # TODO(ch-wan): allow users to set num_max_dispatch_tokens_per_rank value
-            self.deepep_dispatcher.dispatch_a(
+            self.experts.deepep_dispatcher.dispatch_a(
                 hidden_states=state.pop("hidden_states_mlp_input"),
                 topk_idx=state.pop("topk_idx_local"),
                 topk_weights=state.pop("topk_weights_local"),
@@ -292,46 +249,32 @@ def op_dispatch_b(self, state):
             with get_global_expert_distribution_recorder().with_current_layer(
                 self.layer_id
             ):
-                (
-                    state.hidden_states_experts_input,
-                    state.topk_idx_dispatched,
-                    state.topk_weights_dispatched,
-                    state.reorder_topk_ids,
-                    state.num_recv_tokens_per_expert,
-                    state.seg_indptr,
-                    state.masked_m,
-                    state.expected_m,
-                ) = self.deepep_dispatcher.dispatch_b(
+                state.dispatch_output = self.experts.deepep_dispatcher.dispatch_b(
                     tbo_subbatch_index=state.get("tbo_subbatch_index"),
                 )
 
     def op_experts(self, state):
-        state.hidden_states_experts_output = self.experts(
-            hidden_states=state.pop("hidden_states_experts_input"),
-            topk_idx=state.topk_idx_dispatched,
-            topk_weights=state.topk_weights_dispatched,
-            reorder_topk_ids=state.pop("reorder_topk_ids"),
-            seg_indptr=state.pop("seg_indptr"),
-            masked_m=state.pop("masked_m"),
-            expected_m=state.pop("expected_m"),
-            num_recv_tokens_per_expert=state.pop("num_recv_tokens_per_expert"),
-            forward_batch=state.forward_batch,
+        state.hidden_states_experts_output = self.experts.moe_impl(
+            dispatch_output=state.dispatch_output,
         )
 
     def op_combine_a(self, state):
         if self.ep_size > 1:
-            self.deepep_dispatcher.combine_a(
+            self.experts.deepep_dispatcher.combine_a(
                 hidden_states=state.pop("hidden_states_experts_output"),
-                topk_idx=state.pop("topk_idx_dispatched"),
-                topk_weights=state.pop("topk_weights_dispatched"),
+                topk_idx=state.dispatch_output.topk_idx,
+                topk_weights=state.dispatch_output.topk_weights,
                 forward_batch=state.forward_batch,
                 tbo_subbatch_index=state.get("tbo_subbatch_index"),
             )
+            state.pop("dispatch_output")
 
     def op_combine_b(self, state):
         if self.ep_size > 1:
-            state.hidden_states_after_combine = self.deepep_dispatcher.combine_b(
-                tbo_subbatch_index=state.get("tbo_subbatch_index"),
+            state.hidden_states_after_combine = (
+                self.experts.deepep_dispatcher.combine_b(
+                    tbo_subbatch_index=state.get("tbo_subbatch_index"),
+                )
             )
 
     def op_output(self, state):
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index e802a7254d40..d65d8d598ab1 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -1,7 +1,9 @@
+from __future__ import annotations
+
 import dataclasses
 import logging
 from dataclasses import replace
-from typing import Dict, List, Optional, Sequence, Union
+from typing import TYPE_CHECKING, Dict, List, Optional, Sequence, Union
 
 import torch
 
@@ -20,6 +22,9 @@
 from sglang.srt.speculative.eagle_utils import EagleDraftInput, EagleVerifyInput
 from sglang.srt.utils import BumpAllocator, DeepEPMode, get_bool_env_var
 
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.ep_moe.token_dispatcher import DispatchOutput
+
 _tbo_debug = get_bool_env_var("SGLANG_TBO_DEBUG")
 
 logger = logging.getLogger(__name__)
@@ -802,7 +807,7 @@ def __init__(self, **kwargs):
     def _execute(self, name, tbo_subbatch_index: Optional[int] = None, **kwargs):
         return getattr(self._inners[tbo_subbatch_index or 0], name)(**kwargs)
 
-    def dispatch(self, **kwargs):
+    def dispatch(self, **kwargs) -> DispatchOutput:
         return self._execute("dispatch", **kwargs)
 
     def dispatch_a(self, **kwargs):
@@ -811,7 +816,7 @@ def dispatch_a(self, **kwargs):
     def dispatch_b(self, **kwargs):
         return self._execute("dispatch_b", **kwargs)
 
-    def combine(self, **kwargs):
+    def combine(self, **kwargs) -> torch.Tensor:
         return self._execute("combine", **kwargs)
 
     def combine_a(self, **kwargs):

From 1466c1b89679976b729cd8762f0a5334d9078dae Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 28 Jul 2025 14:32:58 -0700
Subject: [PATCH 199/396] feat: support glm4 tuning (#8473)

---
 .../kernels/fused_moe_triton/tuning_fused_moe_triton.py      | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py b/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
index 69b0563e9cbf..2af320d56f5d 100644
--- a/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
+++ b/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
@@ -427,6 +427,11 @@ def main(args: argparse.Namespace):
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
+    elif config.architectures[0] in ["Glm4MoeForCausalLM"]:
+        E = config.n_routed_experts
+        topk = config.num_experts_per_tok
+        intermediate_size = config.moe_intermediate_size
+        shard_intermediate_size = 2 * intermediate_size // args.tp_size
     else:
         # Default: Mixtral
         E = config.num_local_experts

From 74e7e457103ace8160b27b803a6dd4a29d198e0f Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Mon, 28 Jul 2025 14:36:08 -0700
Subject: [PATCH 200/396] Fix DEEPEP BF16 compatibility for Deepseek Style
 model like GLM 4.5 (#8469)

Co-authored-by: Minglei Zhu <mingleizhu1122@gmail.com>
---
 python/sglang/srt/layers/moe/ep_moe/layer.py | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 5ba8d2c420f3..f2c1ab24de6d 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -800,11 +800,6 @@ def __init__(
             routed_scaling_factor=routed_scaling_factor,
         )
         self.deepep_mode = deepep_mode
-        if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM:
-            assert self.use_fp8_w8a8, (
-                "DeepGEMM requires an fp8_w8a8 model; "
-                "alternatively, you can disable DeepGEMM by turning off the ENABLE_JIT_DEEPGEMM environment variable."
-            )
 
         # TODO: move to the beginning of the file
         from sglang.srt.distributed.parallel_state import get_tp_group
@@ -897,7 +892,7 @@ def moe_impl(self, dispatch_output: DispatchOutput):
             # in forward_aiter, we skip token permutation and unpermutation, which have been fused inside aiter kernel
             return self.forward_aiter(dispatch_output)
         if dispatch_output.format.is_deepep_normal():
-            if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM:
+            if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM and self.use_fp8_w8a8:
                 return self.forward_deepgemm_contiguous(dispatch_output)
             else:
                 return self.forward_normal(dispatch_output)

From bd5169490668ffdc82ef5723ea823b515a99f538 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Mon, 28 Jul 2025 16:03:49 -0700
Subject: [PATCH 201/396] Update codeowner (#8476)

---
 .github/CODEOWNERS | 11 ++++-------
 1 file changed, 4 insertions(+), 7 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index bc29df4ad9ac..51deea3792ad 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -1,8 +1,9 @@
-/3rdparty/amd @HaiShaw
+# All files
+* @sgl-project/sgl-codeowner
+
+# Individual folders
 /docker @zhyncs @HaiShaw @ByronHsu
 /docs @zhaochenyang20
-/python/sglang/lang @merrymercy @Ying1123 @hnyls2002
-/python/sglang/srt @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock @ByronHsu
 /python/sglang/srt/constrained @hnyls2002
 /python/sglang/srt/disaggregation @ByronHsu @hnyls2002
 /python/sglang/srt/distributed @yizhang2077
@@ -14,11 +15,7 @@
 /python/sglang/srt/managers @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/mem_cache @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/model_executor @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock
-/python/sglang/srt/models @zhyncs @ispobock @ByronHsu @JustinTong0323
 /python/sglang/srt/multimodal @mickqian @JustinTong0323
-/python/sglang/srt/sampling @hnyls2002
 /python/sglang/srt/speculative @Ying1123 @merrymercy @rkooo567 @kssteven418
-/test/lang @merrymercy @Ying1123
-/test/srt @merrymercy @Ying1123 @zhyncs
 /sgl-router @ByronHsu @slin1237
 /sgl-kernel @zhyncs @ispobock @HandH1998 @BBuf @yizhang2077 @merrymercy @FlamingoPg @HaiShaw

From 3a04aa4be7121543222f0626db066cabccee2a83 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 28 Jul 2025 16:08:53 -0700
Subject: [PATCH 202/396] chore: add glm4 fp8 tp8 config (#8478)

---
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 000000000000..adeaacb0efc6
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=192,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}

From 8240a6b0132f5fa64508886baf8ebed8b857d32e Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 28 Jul 2025 16:14:01 -0700
Subject: [PATCH 203/396] chore: add glm 4.5 fp8 tp4 config (#8480)

---
 ...evice_name=NVIDIA_H200,dtype=fp8_w8a8.json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8.json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8.json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
new file mode 100644
index 000000000000..c3c6e0ac051e
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=160,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}

From 7c9697178ed3e15dbb7d4e3a66d5e52fd2caa180 Mon Sep 17 00:00:00 2001
From: Keyang Ru <rukeyang@gmail.com>
Date: Mon, 28 Jul 2025 16:58:23 -0700
Subject: [PATCH 204/396] [CI]Add genai-bench Performance Validation for PD
 Router (#8477)

Co-authored-by: key4ng <rukeyang@gamil.com>
---
 .github/workflows/pr-test-pd-router.yml    | 275 ++++++++++++++++++---
 scripts/ci_start_disaggregation_servers.sh |   2 +-
 2 files changed, 235 insertions(+), 42 deletions(-)

diff --git a/.github/workflows/pr-test-pd-router.yml b/.github/workflows/pr-test-pd-router.yml
index 20a9c79e84f2..e0f78554bd4d 100644
--- a/.github/workflows/pr-test-pd-router.yml
+++ b/.github/workflows/pr-test-pd-router.yml
@@ -115,6 +115,7 @@ jobs:
         echo "Installing SGLang with all extras..."
         python3 -m pip --no-cache-dir install -e "python[all]" --break-system-packages
         python3 -m pip --no-cache-dir install mooncake-transfer-engine==0.3.5
+        python3 -m pip --no-cache-dir install genai-bench==0.0.1
 
     - name: Build and install sgl-router
       run: |
@@ -250,42 +251,105 @@ jobs:
             exit 1
           fi
 
-          # Run benchmark
-          echo "Running benchmark for $policy..."
-          benchmark_output=$(python3 -m sglang.bench_one_batch_server \
-            --model-path "/raid/models/meta-llama/Llama-3.1-8B-Instruct" \
-            --base-url "http://127.0.0.9:8000" \
-            --batch-size 8 \
-            --input-len 4096 \
-            --output-len 5 \
-            --skip-warmup)
-
-          echo "$benchmark_output"
-
-          # Save benchmark output
-          echo "$benchmark_output" > "benchmark_${policy}.txt"
+          # Run genai-bench benchmark
+          echo "Running genai-bench for $policy..."
+          genai-bench benchmark \
+            --api-backend openai \
+            --api-base "http://127.0.0.9:8000" \
+            --api-key "dummy-token" \
+            --api-model-name "/raid/models/meta-llama/Llama-3.1-8B-Instruct" \
+            --model-tokenizer /raid/models/meta-llama/Llama-3.1-8B-Instruct \
+            --task text-to-text \
+            --num-concurrency 64 \
+            --traffic-scenario "D(8000,2000)" \
+            --max-requests-per-run 640 \
+            --max-time-per-run 2 \
+            --experiment-folder-name "benchmark_${policy}" \
+            --experiment-base-dir "."
+
+          # Find the actual experiment folder
+          actual_folder=$(find . -maxdepth 1 -name "benchmark_${policy}" -type d | head -1)
+
+          if [ -n "$actual_folder" ]; then
+            # Extract metrics from the Excel summary or JSON files
+            summary_file="$actual_folder"/*_summary.xlsx
+            json_files=$(find "$actual_folder" -name "*.json" | grep -v experiment_metadata)
+
+            echo "Genai-bench results saved in: $actual_folder"
+
+            # Extract mean values and validate performance thresholds
+            echo "📊 Extracting performance metrics for $policy..."
+
+            # Find JSON files excluding experiment metadata
+            json_files=$(find "$actual_folder" -name "*.json" | grep -v experiment_metadata)
+
+            if [ -n "$json_files" ]; then
+              # Extract metrics using jq and validate against loose thresholds
+              for json_file in $json_files; do
+                echo "Processing: $(basename "$json_file")"
+
+                                # Extract mean values for performance validation
+                ttft_mean=$(jq -r '.aggregated_metrics.stats.ttft.mean' "$json_file")
+                e2e_latency_mean=$(jq -r '.aggregated_metrics.stats.e2e_latency.mean' "$json_file")
+                input_throughput_mean=$(jq -r '.aggregated_metrics.stats.input_throughput.mean' "$json_file")
+                output_throughput_mean=$(jq -r '.aggregated_metrics.stats.output_throughput.mean' "$json_file")
+
+                echo "  TTFT mean: ${ttft_mean}s"
+                echo "  E2E Latency mean: ${e2e_latency_mean}s"
+                echo "  Input Throughput mean: ${input_throughput_mean} tokens/s"
+                echo "  Output Throughput mean: ${output_throughput_mean} tokens/s"
+
+                # Set mean thresholds (allowing for reasonable variance)
+                # These can be adjusted based on your performance requirements
+                ttft_threshold=2.0          # Max 2.0 seconds for mean TTFT
+                e2e_latency_threshold=8.0   # Max 8.0 seconds for mean E2E latency
+                input_throughput_threshold=10000   # Min 9000 tokens/s for mean input throughput
+                output_throughput_threshold=100    # Min 100 tokens/s for mean output throughput
+
+
+                # Validate mean thresholds
+                validation_passed=true
+
+                if (( $(echo "$ttft_mean > $ttft_threshold" | bc -l) )); then
+                  echo "❌ TTFT validation failed: $ttft_mean > $ttft_threshold"
+                  validation_passed=false
+                fi
 
-          # Extract and validate metrics
-          latency=$(echo "$benchmark_output" | grep "latency:" | awk '{print $2}' | sed 's/s//')
-          input_throughput=$(echo "$benchmark_output" | grep "input throughput:" | awk '{print $3}')
-          output_throughput=$(echo "$benchmark_output" | grep "output throughput:" | awk '{print $3}')
+                if (( $(echo "$e2e_latency_mean > $e2e_latency_threshold" | bc -l) )); then
+                  echo "❌ E2E Latency validation failed: $e2e_latency_mean > $e2e_latency_threshold"
+                  validation_passed=false
+                fi
 
-          command -v bc >/dev/null || (apt-get update && apt-get install -y bc)
+                if (( $(echo "$input_throughput_mean < $input_throughput_threshold" | bc -l) )); then
+                  echo "❌ Input Throughput validation failed: $input_throughput_mean < $input_throughput_threshold"
+                  validation_passed=false
+                fi
 
-          echo "Performance for $policy: ${latency}s | ${input_throughput} | ${output_throughput} tok/s"
+                if (( $(echo "$output_throughput_mean < $output_throughput_threshold" | bc -l) )); then
+                  echo "❌ Output Throughput validation failed: $output_throughput_mean < $output_throughput_threshold"
+                  validation_passed=false
+                fi
 
-          # Validate performance
-          fail=""
-          (( $(echo "$latency > 1.5" | bc -l) )) && fail="Latency too high (${latency}s>1.5s) "
-          (( $(echo "$input_throughput < 20000" | bc -l) )) && fail="${fail}Input too low (${input_throughput}<20k) "
-          (( $(echo "$output_throughput < 1000" | bc -l) )) && fail="${fail}Output too low (${output_throughput}<1k) "
+                if [ "$validation_passed" = true ]; then
+                  echo "✅ Performance validation passed for $policy"
+                else
+                  echo "❌ Performance validation failed for $policy"
+                  kill $ROUTER_PID 2>/dev/null || true
+                  exit 1
+                fi
+              done
 
-          if [ -n "$fail" ]; then
-            echo "✗ Benchmark failed for $policy: $fail"
+              echo "✓ Genai-bench completed successfully for $policy"
+              echo "📊 Detailed metrics and plots available in: $actual_folder"
+            else
+              echo "✗ Benchmark failed for $policy: No JSON results found"
+              kill $ROUTER_PID 2>/dev/null || true
+              exit 1
+            fi
+          else
+            echo "✗ Benchmark failed for $policy: Experiment folder not found"
             kill $ROUTER_PID 2>/dev/null || true
             exit 1
-          else
-            echo "✓ Performance validation passed for $policy"
           fi
 
           # Stop router before testing next policy
@@ -322,8 +386,8 @@ jobs:
       if: success()
       uses: actions/upload-artifact@v4
       with:
-        name: benchmark-results-all-policies
-        path: benchmark_*.txt
+        name: genai-bench-results-all-policies
+        path: benchmark_**/
 
     - name: Cleanup servers
       if: always()
@@ -343,27 +407,156 @@ jobs:
     if: success()
 
     steps:
+    - name: Install jq
+      run: sudo apt-get update && sudo apt-get install -y jq bc
+
     - name: Download benchmark results
       uses: actions/download-artifact@v4
       with:
-        name: benchmark-results-all-policies
+        name: genai-bench-results-all-policies
+
+    - name: List downloaded contents
+      run: |
+        echo "Contents after download:"
+        ls -la
+        find . -name "benchmark_*" -type d
+        echo "JSON files found:"
+        find . -name "*.json" | head -10
 
     - name: Create benchmark summary
       run: |
-        echo "## PD Router Benchmark Results Summary" >> $GITHUB_STEP_SUMMARY
+        echo "=== DEBUG: Creating benchmark summary ==="
+        echo "Available benchmark directories:"
+        find . -name "benchmark_*" -type d
+        echo "=========================================="
+
+        echo "## PD Router Genai-Bench Results Summary" >> $GITHUB_STEP_SUMMARY
         echo "" >> $GITHUB_STEP_SUMMARY
-        echo "| Policy | Latency (s) | Input Throughput (tok/s) | Output Throughput (tok/s) |" >> $GITHUB_STEP_SUMMARY
-        echo "|--------|-------------|-------------------------|--------------------------|" >> $GITHUB_STEP_SUMMARY
+        echo "🚀 **Benchmarked with genai-bench for comprehensive LLM serving performance evaluation**" >> $GITHUB_STEP_SUMMARY
+        echo "" >> $GITHUB_STEP_SUMMARY
+        echo "| Policy | Status | TTFT (s) | E2E Latency (s) | Input Throughput (tok/s) | Output Throughput (tok/s) |" >> $GITHUB_STEP_SUMMARY
+        echo "|--------|--------|----------|-----------------|--------------------------|---------------------------|" >> $GITHUB_STEP_SUMMARY
 
+        # First, complete the table with all policies
         for policy in random round_robin cache_aware power_of_two; do
-          if [ -f "benchmark_${policy}.txt" ]; then
-            latency=$(grep "latency:" "benchmark_${policy}.txt" | awk '{print $2}')
-            input_throughput=$(grep "input throughput:" "benchmark_${policy}.txt" | awk '{print $3}')
-            output_throughput=$(grep "output throughput:" "benchmark_${policy}.txt" | awk '{print $3}')
+          # Find genai-bench result folders for this policy (handle zip extraction structure)
+          result_folder=$(find . -maxdepth 2 -name "benchmark_${policy}" -type d | head -1)
+          if [ -z "$result_folder" ]; then
+            # Try alternative patterns in case of different extraction structure
+            result_folder=$(find . -maxdepth 3 -path "*benchmark_${policy}*" -type d | head -1)
+          fi
 
-            echo "| ${policy} | ${latency} | ${input_throughput} | ${output_throughput} |" >> $GITHUB_STEP_SUMMARY
+          echo "DEBUG: Policy ${policy} -> Found folder: ${result_folder:-'NOT FOUND'}"
+
+          if [ -n "$result_folder" ] && [ -d "$result_folder" ]; then
+            # Find JSON file with metrics
+            json_file=$(find "$result_folder" -name "*.json" -not -name "experiment_metadata.json" | head -1)
+
+            if [ -n "$json_file" ] && [ -f "$json_file" ]; then
+              # Extract performance metrics
+              ttft_mean=$(jq -r '.aggregated_metrics.stats.ttft.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+              e2e_latency_mean=$(jq -r '.aggregated_metrics.stats.e2e_latency.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+              input_throughput_mean=$(jq -r '.aggregated_metrics.stats.input_throughput.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+              output_throughput_mean=$(jq -r '.aggregated_metrics.stats.output_throughput.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+
+              # Format numbers for display (2 decimal places)
+              if [ "$ttft_mean" != "N/A" ] && [ "$ttft_mean" != "null" ]; then
+                ttft_display=$(printf "%.2f" "$ttft_mean" 2>/dev/null || echo "$ttft_mean")
+              else
+                ttft_display="N/A"
+              fi
+
+              if [ "$e2e_latency_mean" != "N/A" ] && [ "$e2e_latency_mean" != "null" ]; then
+                e2e_display=$(printf "%.2f" "$e2e_latency_mean" 2>/dev/null || echo "$e2e_latency_mean")
+              else
+                e2e_display="N/A"
+              fi
+
+              if [ "$input_throughput_mean" != "N/A" ] && [ "$input_throughput_mean" != "null" ]; then
+                input_display=$(printf "%.0f" "$input_throughput_mean" 2>/dev/null || echo "$input_throughput_mean")
+              else
+                input_display="N/A"
+              fi
+
+              if [ "$output_throughput_mean" != "N/A" ] && [ "$output_throughput_mean" != "null" ]; then
+                output_display=$(printf "%.0f" "$output_throughput_mean" 2>/dev/null || echo "$output_throughput_mean")
+              else
+                output_display="N/A"
+              fi
+
+              echo "| ${policy} | ✅ Success | $ttft_display | $e2e_display | $input_display | $output_display |" >> $GITHUB_STEP_SUMMARY
+            else
+              echo "| ${policy} | ❌ No Data | N/A | N/A | N/A | N/A |" >> $GITHUB_STEP_SUMMARY
+            fi
+          else
+            echo "| ${policy} | ❌ Failed | N/A | N/A | N/A | N/A |" >> $GITHUB_STEP_SUMMARY
           fi
         done
 
+        # Add performance validation summary
+        echo "" >> $GITHUB_STEP_SUMMARY
+        echo "## 📊 Performance Validation" >> $GITHUB_STEP_SUMMARY
+        echo "" >> $GITHUB_STEP_SUMMARY
+        echo "**Thresholds:** TTFT ≤ 2.0s | E2E Latency ≤ 8.0s | Input Throughput ≥ 10,000 tok/s | Output Throughput ≥ 100 tok/s" >> $GITHUB_STEP_SUMMARY
+        echo "" >> $GITHUB_STEP_SUMMARY
+
+        validation_summary=""
+        for policy in random round_robin cache_aware power_of_two; do
+          # Use same robust path finding as above
+          result_folder=$(find . -maxdepth 2 -name "benchmark_${policy}" -type d | head -1)
+          if [ -z "$result_folder" ]; then
+            result_folder=$(find . -maxdepth 3 -path "*benchmark_${policy}*" -type d | head -1)
+          fi
+
+          if [ -n "$result_folder" ] && [ -d "$result_folder" ]; then
+            json_file=$(find "$result_folder" -name "*.json" -not -name "experiment_metadata.json" | head -1)
+            if [ -n "$json_file" ] && [ -f "$json_file" ]; then
+              # Extract metrics for validation
+              ttft=$(jq -r '.aggregated_metrics.stats.ttft.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+              e2e_latency=$(jq -r '.aggregated_metrics.stats.e2e_latency.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+              input_throughput=$(jq -r '.aggregated_metrics.stats.input_throughput.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+              output_throughput=$(jq -r '.aggregated_metrics.stats.output_throughput.mean // "N/A"' "$json_file" 2>/dev/null || echo "N/A")
+
+              # Check thresholds (using same values as in main workflow)
+              validation_status="✅"
+              if [ "$ttft" != "N/A" ] && [ "$ttft" != "null" ]; then
+                if (( $(echo "$ttft > 2.0" | bc -l 2>/dev/null || echo "0") )); then
+                  validation_status="❌"
+                fi
+              fi
+              if [ "$e2e_latency" != "N/A" ] && [ "$e2e_latency" != "null" ]; then
+                if (( $(echo "$e2e_latency > 8.0" | bc -l 2>/dev/null || echo "0") )); then
+                  validation_status="❌"
+                fi
+              fi
+              if [ "$input_throughput" != "N/A" ] && [ "$input_throughput" != "null" ]; then
+                if (( $(echo "$input_throughput < 10000" | bc -l 2>/dev/null || echo "0") )); then
+                  validation_status="❌"
+                fi
+              fi
+              if [ "$output_throughput" != "N/A" ] && [ "$output_throughput" != "null" ]; then
+                if (( $(echo "$output_throughput < 100" | bc -l 2>/dev/null || echo "0") )); then
+                  validation_status="❌"
+                fi
+              fi
+
+              validation_summary="${validation_summary}- **${policy}**: $validation_status\n"
+            else
+              validation_summary="${validation_summary}- **${policy}**: ❌ No data\n"
+            fi
+          else
+            validation_summary="${validation_summary}- **${policy}**: ❌ Failed\n"
+          fi
+        done
+
+        echo -e "$validation_summary" >> $GITHUB_STEP_SUMMARY
+
+        echo "" >> $GITHUB_STEP_SUMMARY
+        echo "## 📊 Genai-Bench Features Used" >> $GITHUB_STEP_SUMMARY
+        echo "- **Token-level Performance**: TTFT, TPOT, End-to-End latency" >> $GITHUB_STEP_SUMMARY
+        echo "- **Throughput Analysis**: Input/Output/Total token throughput" >> $GITHUB_STEP_SUMMARY
+        echo "- **Statistical Analysis**: Percentiles, mean, std dev for all metrics" >> $GITHUB_STEP_SUMMARY
+        echo "- **Visual Reports**: Automated plots and Excel summaries" >> $GITHUB_STEP_SUMMARY
+        echo "- **SGLang Backend**: Native integration with SGLang serving" >> $GITHUB_STEP_SUMMARY
         echo "" >> $GITHUB_STEP_SUMMARY
-        echo "✅ All policies tested successfully!" >> $GITHUB_STEP_SUMMARY
+        echo "✅ All policies tested successfully with genai-bench!" >> $GITHUB_STEP_SUMMARY
diff --git a/scripts/ci_start_disaggregation_servers.sh b/scripts/ci_start_disaggregation_servers.sh
index 22643e0df1a8..56490bb06fa0 100755
--- a/scripts/ci_start_disaggregation_servers.sh
+++ b/scripts/ci_start_disaggregation_servers.sh
@@ -91,4 +91,4 @@ done
 echo "✅ All disaggregation servers are ready and waiting for router connections"
 
 # Keep the script running
-wait  # Wait for all background server jobs
+wait

From 001bffca6215b5d2e983ad2f7c561d4f84f15487 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Mon, 28 Jul 2025 17:57:23 -0700
Subject: [PATCH 205/396] Update CODEOWNERS (#8485)

---
 .github/CODEOWNERS | 12 +++++-------
 1 file changed, 5 insertions(+), 7 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 51deea3792ad..805fea4d3532 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -1,21 +1,19 @@
-# All files
-* @sgl-project/sgl-codeowner
-
-# Individual folders
+.github @merrymercy @zhyncs
 /docker @zhyncs @HaiShaw @ByronHsu
-/docs @zhaochenyang20
+/python/pyproject.toml @merrymercy @zhyncs
+/python/sglang/* @merrymercy @Ying1123 @zhyncs @hnyls2002 
 /python/sglang/srt/constrained @hnyls2002
 /python/sglang/srt/disaggregation @ByronHsu @hnyls2002
 /python/sglang/srt/distributed @yizhang2077
 /python/sglang/srt/entrypoints @ispobock @CatherineSue @slin1237
 /python/sglang/srt/eplb @fzyzcjy
 /python/sglang/srt/function_call @CatherineSue
-/python/sglang/srt/layers @merrymercy @Ying1123 @zhyncs @ispobock @HaiShaw @ch-wan @BBuf
+/python/sglang/srt/layers @merrymercy @Ying1123 @zhyncs @ispobock @HaiShaw @ch-wan @BBuf @kushanam
 /python/sglang/srt/lora @Ying1123 @Fridge003
 /python/sglang/srt/managers @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/mem_cache @merrymercy @Ying1123 @hnyls2002 @xiezhq-hermann
 /python/sglang/srt/model_executor @merrymercy @Ying1123 @hnyls2002 @zhyncs @ispobock
 /python/sglang/srt/multimodal @mickqian @JustinTong0323
 /python/sglang/srt/speculative @Ying1123 @merrymercy @rkooo567 @kssteven418
-/sgl-router @ByronHsu @slin1237
 /sgl-kernel @zhyncs @ispobock @HandH1998 @BBuf @yizhang2077 @merrymercy @FlamingoPg @HaiShaw
+/sgl-router @slin1237 @ByronHsu

From 69712e6f559b6783c8a56e803d520d6b457c47a4 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Mon, 28 Jul 2025 19:06:13 -0700
Subject: [PATCH 206/396] Rename the last step in pr-test.yml as pr-test-finish
 (#8486)

---
 .github/CODEOWNERS            | 2 +-
 .github/workflows/pr-test.yml | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 805fea4d3532..2e048e54d846 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -1,7 +1,7 @@
 .github @merrymercy @zhyncs
 /docker @zhyncs @HaiShaw @ByronHsu
 /python/pyproject.toml @merrymercy @zhyncs
-/python/sglang/* @merrymercy @Ying1123 @zhyncs @hnyls2002 
+/python/sglang/* @merrymercy @Ying1123 @zhyncs @hnyls2002
 /python/sglang/srt/constrained @hnyls2002
 /python/sglang/srt/disaggregation @ByronHsu @hnyls2002
 /python/sglang/srt/distributed @yizhang2077
diff --git a/.github/workflows/pr-test.yml b/.github/workflows/pr-test.yml
index c19d9d068e89..4f65401029ea 100644
--- a/.github/workflows/pr-test.yml
+++ b/.github/workflows/pr-test.yml
@@ -352,7 +352,7 @@ jobs:
           cd test/srt
           python3 run_suite.py --suite per-commit-8-gpu-deepep
 
-  finish:
+  pr-test-finish:
     if: always()
     needs: [
       unit-test-frontend, unit-test-backend-1-gpu, unit-test-backend-2-gpu, unit-test-backend-4-gpu,

From 7df2c0c2db9ac00d81091afd9b26b8c12daab28c Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Tue, 29 Jul 2025 13:51:23 +0800
Subject: [PATCH 207/396] Reduce memory usage for fp4 moe (#8413)

---
 python/sglang/srt/layers/quantization/modelopt_quant.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 36ffd1275f4e..bf7ce8727c7e 100755
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -900,6 +900,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         layer.w13_blockscale_swizzled = Parameter(
             w13_blockscale_swizzled, requires_grad=False
         )
+        del layer.w13_weight_scale
 
         # This is for quantization, so we need to invert it.
         layer.w13_input_scale_quant = Parameter(
@@ -935,6 +936,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         layer.w2_blockscale_swizzled = Parameter(
             w2_blockscale_swizzled, requires_grad=False
         )
+        del layer.w2_weight_scale
         layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
 
         device = layer.w13_weight.device

From 59d0bf012f461b7c0040f70f86f11aabbb8ea84a Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Tue, 29 Jul 2025 13:51:38 +0800
Subject: [PATCH 208/396] Tiny add warnings for DeepEP when it is suboptimal
 (#8426)

---
 .../srt/layers/moe/ep_moe/token_dispatcher.py      | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py b/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
index b1aee3a936ad..c8cdfaa26481 100644
--- a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
+++ b/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
@@ -157,6 +157,20 @@ def get_deepep_buffer(
         else:
             raise NotImplementedError
 
+        total_num_sms = torch.cuda.get_device_properties(
+            device="cuda"
+        ).multi_processor_count
+        if (
+            (deepep_mode != DeepEPMode.low_latency)
+            and not global_server_args_dict["enable_two_batch_overlap"]
+            and (DeepEPConfig.get_instance().num_sms < total_num_sms // 2)
+        ):
+            logger.warning(
+                f"Only use {DeepEPConfig.get_instance().num_sms} SMs for DeepEP communication. "
+                f"This may result in highly suboptimal performance. "
+                f"Consider using --deepep-config to change the behavior."
+            )
+
         cls._buffer = Buffer(
             group,
             num_nvl_bytes,

From 0ce84c822b400b14497d7c3e63b41d4b75a2486b Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Tue, 29 Jul 2025 13:51:49 +0800
Subject: [PATCH 209/396] Support colocating requests (#7973)

---
 .../srt/managers/data_parallel_controller.py  |   4 +
 python/sglang/srt/managers/io_struct.py       |  10 ++
 python/sglang/srt/managers/scheduler.py       |  10 ++
 .../srt/managers/scheduler_input_blocker.py   | 106 ++++++++++++++++++
 .../sglang/srt/managers/tokenizer_manager.py  |  24 +++-
 python/sglang/srt/poll_based_barrier.py       |  31 +++++
 6 files changed, 179 insertions(+), 6 deletions(-)
 create mode 100644 python/sglang/srt/managers/scheduler_input_blocker.py
 create mode 100644 python/sglang/srt/poll_based_barrier.py

diff --git a/python/sglang/srt/managers/data_parallel_controller.py b/python/sglang/srt/managers/data_parallel_controller.py
index 62c3800c2ef4..1e2bfbf100a2 100644
--- a/python/sglang/srt/managers/data_parallel_controller.py
+++ b/python/sglang/srt/managers/data_parallel_controller.py
@@ -26,6 +26,7 @@
 
 from sglang.srt.layers.dp_attention import compute_dp_attention_world_info
 from sglang.srt.managers.io_struct import (
+    BlockReqInput,
     TokenizedEmbeddingReqInput,
     TokenizedGenerateReqInput,
 )
@@ -282,6 +283,9 @@ def event_loop(self):
                     ),
                 ):
                     self.dispatching(recv_req)
+                elif isinstance(recv_req, BlockReqInput):
+                    for worker in self.workers:
+                        worker.send_pyobj(recv_req)
                 else:
                     # Send other control messages to first worker of tp group
                     for worker in self.workers[:: self.control_message_step]:
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 377205e67d0b..773e0c57d36b 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -1103,3 +1103,13 @@ class LoRAUpdateResult:
 
 
 LoadLoRAAdapterReqOutput = UnloadLoRAAdapterReqOutput = LoRAUpdateResult
+
+
+class BlockReqType(Enum):
+    BLOCK = 1
+    UNBLOCK = 2
+
+
+@dataclass
+class BlockReqInput:
+    type: BlockReqType
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 5d3d115e22f8..656bf7684748 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -123,6 +123,7 @@
     PrefillAdder,
     SchedulePolicy,
 )
+from sglang.srt.managers.scheduler_input_blocker import SchedulerInputBlocker
 from sglang.srt.managers.scheduler_output_processor_mixin import (
     SchedulerOutputProcessorMixin,
 )
@@ -504,6 +505,12 @@ def __init__(
         )
         self.init_profier()
 
+        self.input_blocker = (
+            SchedulerInputBlocker(noop=self.attn_tp_rank != 0)
+            if get_bool_env_var("SGLANG_ENABLE_COLOCATED_BATCH_GEN")
+            else None
+        )
+
         # Init metrics stats
         self.init_metrics(tp_rank, pp_rank, dp_rank)
         self.init_kv_events(server_args.kv_events_config)
@@ -1035,6 +1042,9 @@ def recv_requests(self) -> List[Req]:
             else:
                 recv_reqs = None
 
+        if self.input_blocker is not None:
+            recv_reqs = self.input_blocker.handle(recv_reqs)
+
         if self.server_args.enable_dp_attention:
             if self.attn_tp_rank == 0:
                 work_reqs = [
diff --git a/python/sglang/srt/managers/scheduler_input_blocker.py b/python/sglang/srt/managers/scheduler_input_blocker.py
new file mode 100644
index 000000000000..60ae8d5d60b3
--- /dev/null
+++ b/python/sglang/srt/managers/scheduler_input_blocker.py
@@ -0,0 +1,106 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+import logging
+from contextlib import contextmanager
+from enum import Enum, auto
+from typing import Any, List, Optional
+
+from sglang.srt.managers.io_struct import BlockReqInput, BlockReqType
+from sglang.srt.poll_based_barrier import PollBasedBarrier
+
+logger = logging.getLogger(__name__)
+
+
+class SchedulerInputBlocker:
+    def __init__(self, noop: bool):
+        self._state = _State.UNBLOCKED
+        self._pending_reqs = []
+        self._noop = noop
+        self._global_unblock_barrier = PollBasedBarrier(noop=noop)
+
+    def handle(self, recv_reqs: Optional[List[Any]]):
+        assert (recv_reqs is None) == self._noop
+
+        if not self._noop:
+            output_reqs = []
+            for recv_req in recv_reqs:
+                output_reqs += self._handle_recv_req(recv_req)
+
+        global_arrived_unblock_barrier = (
+            self._global_unblock_barrier.poll_global_arrived()
+        )
+        if (
+            self._state == _State.GLOBAL_UNBLOCK_BARRIER
+            and global_arrived_unblock_barrier
+        ):
+            output_reqs += self._handle_arrive_unblock_barrier()
+
+        if not self._noop:
+            return output_reqs
+
+    def _handle_recv_req(self, recv_req):
+        if isinstance(recv_req, BlockReqInput):
+            if recv_req.type == BlockReqType.BLOCK:
+                self._execute_block_req()
+                return []
+            elif recv_req.type == BlockReqType.UNBLOCK:
+                self._execute_unblock_req()
+                return []
+            else:
+                raise NotImplementedError(f"{recv_req=}")
+        else:
+            if self._state == _State.UNBLOCKED:
+                return [recv_req]
+            else:
+                self._pending_reqs.append(recv_req)
+                return []
+
+    def _execute_block_req(self):
+        logger.info("Handle block req")
+        self._change_state(original=_State.UNBLOCKED, target=_State.BLOCKED)
+
+    def _execute_unblock_req(self):
+        logger.info("Handle unblock req")
+        self._change_state(
+            original=_State.BLOCKED, target=_State.GLOBAL_UNBLOCK_BARRIER
+        )
+        self._global_unblock_barrier.local_arrive()
+
+    def _handle_arrive_unblock_barrier(self):
+        logger.info(f"Arrived at unblock barrier ({len(self._pending_reqs)=})")
+        self._change_state(
+            original=_State.GLOBAL_UNBLOCK_BARRIER, target=_State.UNBLOCKED
+        )
+        output_reqs = [*self._pending_reqs]
+        self._pending_reqs.clear()
+        return output_reqs
+
+    def _change_state(self, original: "_State", target: "_State"):
+        assert self._state == original, f"{self._state=} {original=} {target=}"
+        self._state = target
+
+
+class _State(Enum):
+    UNBLOCKED = auto()
+    BLOCKED = auto()
+    GLOBAL_UNBLOCK_BARRIER = auto()
+
+
+@contextmanager
+def input_blocker_guard_region(send_to_scheduler):
+    send_to_scheduler.send_pyobj(BlockReqInput(BlockReqType.BLOCK))
+    try:
+        yield
+    finally:
+        send_to_scheduler.send_pyobj(BlockReqInput(BlockReqType.UNBLOCK))
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index c998b51c9563..700e62ed4d55 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -27,6 +27,7 @@
 import time
 import uuid
 from collections import deque
+from contextlib import nullcontext
 from datetime import datetime
 from http import HTTPStatus
 from typing import (
@@ -69,6 +70,7 @@
     BatchMultimodalOut,
     BatchStrOut,
     BatchTokenIDOut,
+    BlockReqType,
     CloseSessionReqInput,
     ConfigureLoggingReq,
     EmbeddingReqInput,
@@ -114,6 +116,7 @@
 )
 from sglang.srt.managers.mm_utils import TensorTransportMode
 from sglang.srt.managers.multimodal_processor import get_mm_processor, import_processors
+from sglang.srt.managers.scheduler_input_blocker import input_blocker_guard_region
 from sglang.srt.metrics.collector import TokenizerMetricsCollector
 from sglang.srt.sampling.sampling_params import SamplingParams
 from sglang.srt.server_args import PortArgs, ServerArgs
@@ -819,12 +822,21 @@ async def _handle_batch_request(
                     rids.append(tmp_obj.rid)
             else:
                 # Sequential tokenization and processing
-                for i in range(batch_size):
-                    tmp_obj = obj[i]
-                    tokenized_obj = await self._tokenize_one_request(tmp_obj)
-                    state = self._send_one_request(tmp_obj, tokenized_obj, created_time)
-                    generators.append(self._wait_one_response(tmp_obj, state, request))
-                    rids.append(tmp_obj.rid)
+                with (
+                    input_blocker_guard_region(send_to_scheduler=self.send_to_scheduler)
+                    if get_bool_env_var("SGLANG_ENABLE_COLOCATED_BATCH_GEN")
+                    else nullcontext()
+                ):
+                    for i in range(batch_size):
+                        tmp_obj = obj[i]
+                        tokenized_obj = await self._tokenize_one_request(tmp_obj)
+                        state = self._send_one_request(
+                            tmp_obj, tokenized_obj, created_time
+                        )
+                        generators.append(
+                            self._wait_one_response(tmp_obj, state, request)
+                        )
+                        rids.append(tmp_obj.rid)
         else:
             # FIXME: When using batch and parallel_sample_num together, the perf is not optimal.
             if batch_size > 128:
diff --git a/python/sglang/srt/poll_based_barrier.py b/python/sglang/srt/poll_based_barrier.py
new file mode 100644
index 000000000000..db1d22763c8b
--- /dev/null
+++ b/python/sglang/srt/poll_based_barrier.py
@@ -0,0 +1,31 @@
+import torch
+
+from sglang.srt.distributed import get_world_group
+
+
+class PollBasedBarrier:
+    def __init__(self, noop: bool = False):
+        self._noop = noop
+        self._local_arrived = False
+
+    def local_arrive(self):
+        assert not self._local_arrived
+        self._local_arrived = True
+
+    def poll_global_arrived(self) -> bool:
+        global_arrived = self._compute_global_arrived()
+        output = self._local_arrived and global_arrived
+        if output:
+            self._local_arrived = False
+        return output
+
+    def _compute_global_arrived(self) -> bool:
+        local_arrived = self._noop or self._local_arrived
+        global_arrived = torch.tensor(local_arrived)
+        # Can optimize if bottleneck
+        torch.distributed.all_reduce(
+            global_arrived,
+            torch.distributed.ReduceOp.MIN,
+            group=get_world_group().cpu_group,
+        )
+        return global_arrived.item()

From fb16fbaf521c2439ac6e6664ff6669ce20e14a11 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Mon, 28 Jul 2025 22:54:50 -0700
Subject: [PATCH 210/396] Fix incorrect KV cache allocation for MTP models.
 (#8482)

Co-authored-by: Stefan He <hebiaobuaa@gmail.com>
---
 python/sglang/srt/configs/model_config.py     |  3 ++
 .../sglang/srt/model_executor/model_runner.py | 28 ++++++++++---------
 2 files changed, 18 insertions(+), 13 deletions(-)

diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index f31970622664..37722c492529 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -261,6 +261,9 @@ def __init__(
             self.num_key_value_heads = self.num_attention_heads
         self.hidden_size = self.hf_text_config.hidden_size
         self.num_hidden_layers = self.hf_text_config.num_hidden_layers
+        self.num_nextn_predict_layers = getattr(
+            self.hf_text_config, "num_nextn_predict_layers", None
+        )
         self.vocab_size = self.hf_text_config.vocab_size
 
         # Verify quantization
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 13555adeb186..02389108a8a4 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -285,11 +285,21 @@ def initialize(self, min_per_gpu_memory: float):
             if architectures and not any("Llama4" in arch for arch in architectures):
                 self.is_hybrid = self.model_config.is_hybrid = True
 
-        self.start_layer = getattr(self.model, "start_layer", 0)
-        self.end_layer = getattr(
-            self.model, "end_layer", self.model_config.num_hidden_layers
+        # For MTP models like DeepSeek-V3 or GLM-4.5, the MTP layer(s) are used separately as draft
+        # models for speculative decoding. In those cases, `num_nextn_predict_layers` is used to
+        # determine the number of layers.
+        model_has_mtp_layers = self.model_config.num_nextn_predict_layers is not None
+        model_num_layers = (
+            self.model_config.num_nextn_predict_layers
+            if self.is_draft_worker and model_has_mtp_layers
+            else self.model_config.num_hidden_layers
         )
+        self.start_layer = getattr(self.model, "start_layer", 0)
+        self.end_layer = getattr(self.model, "end_layer", model_num_layers)
         self.num_effective_layers = self.end_layer - self.start_layer
+        assert (not model_has_mtp_layers) or (
+            self.num_effective_layers == model_num_layers
+        ), "PP is not compatible with MTP models."
 
         # Apply torchao quantization
         torchao_applied = getattr(self.model, "torchao_applied", False)
@@ -1178,11 +1188,7 @@ def init_memory_pool(
                 dtype=self.kv_cache_dtype,
                 kv_lora_rank=self.model_config.kv_lora_rank,
                 qk_rope_head_dim=self.model_config.qk_rope_head_dim,
-                layer_num=(
-                    self.model_config.num_hidden_layers
-                    if not self.is_draft_worker
-                    else self.model_config.hf_config.num_nextn_predict_layers
-                ),  # PP is not compatible with mla backend
+                layer_num=self.num_effective_layers,
                 device=self.device,
                 enable_memory_saver=self.server_args.enable_memory_saver,
                 start_layer=self.start_layer,
@@ -1195,11 +1201,7 @@ def init_memory_pool(
                 dtype=self.kv_cache_dtype,
                 kv_lora_rank=self.model_config.kv_lora_rank,
                 qk_rope_head_dim=self.model_config.qk_rope_head_dim,
-                layer_num=(
-                    self.model_config.num_hidden_layers
-                    if not self.is_draft_worker
-                    else self.model_config.hf_config.num_nextn_predict_layers
-                ),  # PP is not compatible with mla backend
+                layer_num=self.num_effective_layers,
                 device=self.device,
                 enable_memory_saver=self.server_args.enable_memory_saver,
                 start_layer=self.start_layer,

From 2e1d2d7e66c33fdd2b58aaf03a9893dbe593a3a3 Mon Sep 17 00:00:00 2001
From: TimWang <7367474+haitwang-cloud@users.noreply.github.com>
Date: Tue, 29 Jul 2025 14:15:31 +0800
Subject: [PATCH 211/396] Add PVC and update resource limits in k8s config
 (#8489)

---
 docker/k8s-sglang-service.yaml | 58 +++++++++++++++++++++++++++-------
 1 file changed, 47 insertions(+), 11 deletions(-)

diff --git a/docker/k8s-sglang-service.yaml b/docker/k8s-sglang-service.yaml
index 6f6f9af0b813..866d50be9eef 100644
--- a/docker/k8s-sglang-service.yaml
+++ b/docker/k8s-sglang-service.yaml
@@ -1,3 +1,16 @@
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: llama-31-8b-sglang
+spec:
+  accessModes:
+    - ReadWriteMany
+  resources:
+    requests:
+      storage: 30Gi
+  storageClassName: default # change this to your preferred storage class
+  volumeMode: Filesystem
+---
 apiVersion: node.k8s.io/v1
 kind: RuntimeClass
 metadata:
@@ -27,23 +40,36 @@ spec:
       containers:
         - name: meta-llama-31-8b-instruct-sglang
           image: docker.io/lmsysorg/sglang:latest
-          imagePullPolicy: Always  # IfNotPresent or Never
+          imagePullPolicy: Always # IfNotPresent or Never
           ports:
             - containerPort: 30000
           command: ["python3", "-m", "sglang.launch_server"]
-          args: ["--model-path", "meta-llama/Llama-3.1-8B-Instruct", "--host", "0.0.0.0", "--port", "30000"]
+          args:
+            [
+              "--model-path",
+              "meta-llama/Llama-3.1-8B-Instruct",
+              "--host",
+              "0.0.0.0",
+              "--port",
+              "30000",
+            ]
           env:
             - name: HF_TOKEN
               value: <secret>
           resources:
             limits:
               nvidia.com/gpu: 1
+              cpu: 8
+              memory: 40Gi
+            requests:
+              cpu: 2
+              memory: 16Gi
+              nvidia.com/gpu: 1
           volumeMounts:
             - name: shm
               mountPath: /dev/shm
             - name: hf-cache
               mountPath: /root/.cache/huggingface
-              readOnly: true
             - name: localtime
               mountPath: /etc/localtime
               readOnly: true
@@ -51,17 +77,27 @@ spec:
             httpGet:
               path: /health
               port: 30000
-            initialDelaySeconds: 30
-            periodSeconds: 10
+            initialDelaySeconds: 120
+            periodSeconds: 15
+            timeoutSeconds: 10
+            failureThreshold: 3
+          readinessProbe:
+            httpGet:
+              path: /health_generate
+              port: 30000
+            initialDelaySeconds: 120
+            periodSeconds: 15
+            timeoutSeconds: 10
+            failureThreshold: 3
+            successThreshold: 1
       volumes:
         - name: shm
           emptyDir:
             medium: Memory
             sizeLimit: 10Gi
         - name: hf-cache
-          hostPath:
-            path: /root/.cache/huggingface
-            type: Directory
+          persistentVolumeClaim:
+            claimName: llama-31-8b-sglang
         - name: localtime
           hostPath:
             path: /etc/localtime
@@ -76,6 +112,6 @@ spec:
     app: meta-llama-31-8b-instruct-sglang
   ports:
     - protocol: TCP
-      port: 30000  # port on host
-      targetPort: 30000  # port in container
-  type: LoadBalancer
+      port: 80 # port on host
+      targetPort: 30000 # port in container
+  type: LoadBalancer # change to ClusterIP if needed

From 6478831be9af43cf6aa85a112805cad85b5a4fbb Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 29 Jul 2025 02:30:07 -0700
Subject: [PATCH 212/396] chore: bump v0.4.9.post6 (#8517)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index 1b6a3745c4b0..f8efab2c144b 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.9.post5"
+pip install "sglang[all]>=0.4.9.post6"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index 6c5f996acbaf..43ae73ac534e 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post5-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post6-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post5-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post6-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index 33b4e7e64b6e..288fd3da934c 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.9.post5"
+uv pip install "sglang[all]>=0.4.9.post6"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.9.post5"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post5 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post6 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post5 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.9.post6 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -74,7 +74,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.9.post5 -t v0.4.9.post5-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.9.post6 -t v0.4.9.post6-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -83,11 +83,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.9.post5-rocm630 \
+    v0.4.9.post6-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.9.post5-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.9.post6-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
diff --git a/python/pyproject.toml b/python/pyproject.toml
index d916fcb57e6c..980cb6f8c4f2 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.9.post5"
+version = "0.4.9.post6"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index 2bca859d5a8d..6cf0091fa526 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.9.post5"
+__version__ = "0.4.9.post6"

From 263c9236a050e86041dcb6fd14e50d36a295003c Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Tue, 29 Jul 2025 04:05:19 -0700
Subject: [PATCH 213/396] Always trigger pr-test (#8527)

---
 .github/workflows/pr-test.yml | 85 +++++++++++++++++++++++------------
 1 file changed, 57 insertions(+), 28 deletions(-)

diff --git a/.github/workflows/pr-test.yml b/.github/workflows/pr-test.yml
index 4f65401029ea..cf1398c36459 100644
--- a/.github/workflows/pr-test.yml
+++ b/.github/workflows/pr-test.yml
@@ -3,18 +3,8 @@ name: PR Test
 on:
   push:
     branches: [ main ]
-    paths:
-      - "python/**"
-      - "scripts/**"
-      - "test/**"
-      - ".github/workflows/pr-test.yml"
   pull_request:
     branches: [ main ]
-    paths:
-      - "python/**"
-      - "scripts/**"
-      - "test/**"
-      - ".github/workflows/pr-test.yml"
   workflow_dispatch:
     inputs:
       version:
@@ -31,9 +21,30 @@ concurrency:
   cancel-in-progress: true
 
 jobs:
+  check-changes:
+    runs-on: ubuntu-latest
+    outputs:
+      src: ${{ steps.filter.outputs.src }}
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Detect file changes
+        id: filter
+        uses: dorny/paths-filter@v3
+        with:
+          filters: |
+            src:
+              - "python/**"
+              - "scripts/**"
+              - "test/**"
+              - ".github/workflows/pr-test.yml"
+
   unit-test-frontend:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 1-gpu-runner
     steps:
       - name: Checkout code
@@ -50,8 +61,10 @@ jobs:
           python3 run_suite.py --suite per-commit
 
   unit-test-backend-1-gpu:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 1-gpu-runner
     strategy:
       fail-fast: false
@@ -72,8 +85,10 @@ jobs:
           python3 run_suite.py --suite per-commit --auto-partition-id ${{ matrix.part }} --auto-partition-size 10
 
   unit-test-backend-2-gpu:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 2-gpu-runner
     steps:
       - name: Checkout code
@@ -90,9 +105,10 @@ jobs:
           python3 run_suite.py --suite per-commit-2-gpu
 
   unit-test-backend-4-gpu:
+    needs: [check-changes, unit-test-frontend, unit-test-backend-2-gpu]
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
-    needs: [unit-test-frontend, unit-test-backend-2-gpu]
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 4-gpu-runner
     steps:
       - name: Checkout code
@@ -109,9 +125,10 @@ jobs:
           python3 run_suite.py --suite per-commit-4-gpu
 
   unit-test-backend-8-gpu:
+    needs: [check-changes, unit-test-frontend, unit-test-backend-2-gpu]
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
-    needs: [unit-test-frontend, unit-test-backend-2-gpu]
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 8-gpu-runner
     strategy:
       fail-fast: false
@@ -132,8 +149,10 @@ jobs:
           python3 run_suite.py --suite per-commit-8-gpu --auto-partition-id ${{ matrix.part }} --auto-partition-size 2
 
   performance-test-1-gpu-part-1:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 1-gpu-runner
     steps:
       - name: Checkout code
@@ -182,8 +201,10 @@ jobs:
           python3 -m unittest test_bench_serving.TestBenchServing.test_lora_online_latency_with_concurrent_adapter_updates
 
   performance-test-1-gpu-part-2:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 1-gpu-runner
     steps:
       - name: Checkout code
@@ -224,8 +245,10 @@ jobs:
           python3 -m unittest test_bench_serving.TestBenchServing.test_vlm_online_latency
 
   performance-test-2-gpu:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 2-gpu-runner
     steps:
       - name: Checkout code
@@ -272,8 +295,10 @@ jobs:
           python3 -m unittest test_bench_serving.TestBenchServing.test_pp_long_context_prefill
 
   accuracy-test-1-gpu:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 1-gpu-runner
     steps:
       - name: Checkout code
@@ -293,8 +318,10 @@ jobs:
           python3 test_eval_accuracy_large.py
 
   accuracy-test-2-gpu:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 2-gpu-runner
     steps:
       - name: Checkout code
@@ -314,8 +341,10 @@ jobs:
           python3 test_moe_eval_accuracy_large.py
 
   unit-test-deepep-4-gpu:
+    needs: check-changes
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 4-gpu-runner
     steps:
       - name: Checkout code
@@ -332,12 +361,11 @@ jobs:
           python3 run_suite.py --suite per-commit-4-gpu-deepep
 
   unit-test-deepep-8-gpu:
+    needs: [check-changes, unit-test-deepep-4-gpu]
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
-        github.event.pull_request.draft == false
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: 8-gpu-runner
-    needs: [
-      unit-test-deepep-4-gpu,
-    ]
     steps:
       - name: Checkout code
         uses: actions/checkout@v4
@@ -353,12 +381,13 @@ jobs:
           python3 run_suite.py --suite per-commit-8-gpu-deepep
 
   pr-test-finish:
-    if: always()
     needs: [
+      check-changes,
       unit-test-frontend, unit-test-backend-1-gpu, unit-test-backend-2-gpu, unit-test-backend-4-gpu,
       unit-test-backend-8-gpu, performance-test-1-gpu-part-1, performance-test-1-gpu-part-2, performance-test-2-gpu,
       accuracy-test-1-gpu, accuracy-test-2-gpu, unit-test-deepep-4-gpu, unit-test-deepep-8-gpu,
     ]
+    if: needs.check-changes.outputs.src == 'true'
     runs-on: ubuntu-latest
     steps:
       - name: Check all dependent job statuses

From 813670660c29d809e38d1444f65da7a2c2820163 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Tue, 29 Jul 2025 04:09:19 -0700
Subject: [PATCH 214/396] Update README.md (#8528)

---
 README.md | 1 -
 1 file changed, 1 deletion(-)

diff --git a/README.md b/README.md
index 0a0a78577228..f39241bf3ae6 100644
--- a/README.md
+++ b/README.md
@@ -70,7 +70,6 @@ SGLang has been deployed at large scale, generating trillions of tokens in produ
 <img src="https://raw.githubusercontent.com/sgl-project/sgl-learning-materials/refs/heads/main/slides/adoption.png" alt="logo" width="800" margin="10px"></img>
 
 ## Contact Us
-
 For enterprises interested in adopting or deploying SGLang at scale, including technical consulting, sponsorship opportunities, or partnership inquiries, please contact us at contact@sglang.ai.
 
 ## Acknowledgment

From 7a4309cc8a56e7a2cffba82a5189b51fd5776259 Mon Sep 17 00:00:00 2001
From: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Date: Tue, 29 Jul 2025 23:31:54 +0800
Subject: [PATCH 215/396] [sgl-kernel performace] fix fp8 quant kernels
 dispatch __nv_fp8_e4m3 bug to improve performance 10%-20% (#8499)

Co-authored-by: Ke Bao <ispobaoke@gmail.com>
---
 sgl-kernel/csrc/gemm/per_tensor_quant_fp8.cu  | 14 ++++-----
 .../csrc/gemm/per_token_group_quant_8bit.cu   |  1 -
 sgl-kernel/csrc/gemm/per_token_quant_fp8.cu   | 29 +++++++++----------
 3 files changed, 21 insertions(+), 23 deletions(-)

diff --git a/sgl-kernel/csrc/gemm/per_tensor_quant_fp8.cu b/sgl-kernel/csrc/gemm/per_tensor_quant_fp8.cu
index b10dd96f550a..6da13d07977c 100644
--- a/sgl-kernel/csrc/gemm/per_tensor_quant_fp8.cu
+++ b/sgl-kernel/csrc/gemm/per_tensor_quant_fp8.cu
@@ -44,10 +44,10 @@ per_tensor_absmax_kernel(const T* __restrict__ input, float* __restrict__ output
   }
 }
 
-template <typename T>
+template <typename T, typename DST_DTYPE>
 __global__ void per_tensor_quant_fp8_kernel(
     const T* __restrict__ input,
-    FP8_TYPE* __restrict__ output,
+    DST_DTYPE* __restrict__ output,
     const float* __restrict__ scale,
     const int64_t num_elements) {
   const int gid = blockIdx.x * blockDim.x + threadIdx.x;
@@ -65,12 +65,12 @@ __global__ void per_tensor_quant_fp8_kernel(
     vec_t input_vec;
     input_vec.cast_load(input + i * VEC_SIZE);
 
-    FP8_TYPE output_arr[VEC_SIZE];
+    DST_DTYPE output_arr[VEC_SIZE];
 #pragma unroll
     for (uint32_t j = 0; j < VEC_SIZE; ++j) {
       float val = fmax(fmin(static_cast<float>(input_vec[j]) * scale_val, FP8_E4M3_MAX), -FP8_E4M3_MAX);
 #ifndef USE_ROCM
-      output_arr[j] = static_cast<FP8_TYPE>(val);
+      output_arr[j] = static_cast<DST_DTYPE>(val);
 #else
       output_arr[j] = c10::Float8_e4m3fnuz(
           __hip_cvt_float_to_fp8(val, fp8::fp8_type::__default_saturation, fp8::fp8_type::__default_interpret),
@@ -84,7 +84,7 @@ __global__ void per_tensor_quant_fp8_kernel(
   for (int32_t idx = remaining_start + gid; idx < num_elements; idx += grid_size) {
     float val = fmax(-FP8_E4M3_MAX, fmin(static_cast<float>(input[idx]) * scale_val, FP8_E4M3_MAX));
 #ifndef USE_ROCM
-    output[idx] = static_cast<FP8_TYPE>(val);
+    output[idx] = static_cast<DST_DTYPE>(val);
 #else
     output[idx] = c10::Float8_e4m3fnuz(
         __hip_cvt_float_to_fp8(val, fp8::fp8_type::__default_saturation, fp8::fp8_type::__default_interpret),
@@ -113,9 +113,9 @@ void sgl_per_tensor_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch
           static_cast<scalar_t*>(input.data_ptr()), static_cast<float*>(output_s.data_ptr()), num_elements);
     }
 
-    per_tensor_quant_fp8_kernel<scalar_t><<<grid, block, 0, stream>>>(
+    per_tensor_quant_fp8_kernel<scalar_t, __nv_fp8_e4m3><<<grid, block, 0, stream>>>(
         static_cast<scalar_t*>(input.data_ptr()),
-        static_cast<FP8_TYPE*>(output_q.data_ptr()),
+        static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
         static_cast<float*>(output_s.data_ptr()),
         num_elements);
     return true;
diff --git a/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu b/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu
index d818ddfb8186..474164ce6369 100644
--- a/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu
+++ b/sgl-kernel/csrc/gemm/per_token_group_quant_8bit.cu
@@ -1,5 +1,4 @@
 #include <ATen/cuda/CUDAContext.h>
-#include <c10/util/Float8_e4m3fn.h>
 #include <cuda_fp8.h>
 
 #include <cmath>
diff --git a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
index 9367f1584362..7b58f838f09f 100644
--- a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
+++ b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
@@ -12,10 +12,10 @@ static constexpr int kWarpSize = 32;
 //    • One warp handles one token.
 //    • Eight tokens per 256‑thread CTA.
 // ---------------------------------------------------------------------------
-template <typename T, int kTokensPerCTA = 8, int kVecSize = 16>
+template <typename T, typename DST_DTYPE, int kTokensPerCTA = 8, int kVecSize = 16>
 __global__ void per_token_quant_fp8_kernel(
     const T* __restrict__ input,
-    FP8_TYPE* __restrict__ output_q,
+    DST_DTYPE* __restrict__ output_q,
     float* __restrict__ output_s,
     const int64_t hidden_dim,
     const int64_t num_tokens) {
@@ -26,7 +26,7 @@ __global__ void per_token_quant_fp8_kernel(
 
   // Global tensors for this token
   const T* token_input = input + token_id * hidden_dim;
-  FP8_TYPE* token_output = output_q + token_id * hidden_dim;
+  DST_DTYPE* token_output = output_q + token_id * hidden_dim;
   float* token_scale = output_s + token_id;
 
   //
@@ -62,14 +62,13 @@ __global__ void per_token_quant_fp8_kernel(
   for (int i = lane_id; i < num_vec_elems; i += kWarpSize) {
     vec_t input_vec;
     input_vec.cast_load(token_input + i * kVecSize);
-    FP8_TYPE output_arr[kVecSize];
+    DST_DTYPE output_arr[kVecSize];
 #pragma unroll
     for (uint32_t j = 0; j < kVecSize; ++j) {
       float val = static_cast<float>(input_vec[j]) * scale_inv;
       val = fmaxf(fminf(val, FP8_E4M3_MAX), -FP8_E4M3_MAX);
-
 #ifndef USE_ROCM
-      output_arr[j] = static_cast<FP8_TYPE>(val);
+      output_arr[j] = static_cast<DST_DTYPE>(val);
 #else
       output_arr[j] = c10::Float8_e4m3fnuz(
           __hip_cvt_float_to_fp8(val, fp8::fp8_type::__default_saturation, fp8::fp8_type::__default_interpret),
@@ -83,10 +82,10 @@ __global__ void per_token_quant_fp8_kernel(
 // ---------------------------------------------------------------------------
 // 2.  Baseline kernel (1 token / CTA, CUB block reduce)
 // ---------------------------------------------------------------------------
-template <typename T>
+template <typename T, typename DST_DTYPE>
 __global__ void per_token_quant_fp8_small_batch_kernel(
     const T* __restrict__ input,
-    FP8_TYPE* __restrict__ output_q,
+    DST_DTYPE* __restrict__ output_q,
     float* __restrict__ output_s,
     const int64_t hidden_dim,
     const int64_t num_tokens) {
@@ -97,7 +96,7 @@ __global__ void per_token_quant_fp8_small_batch_kernel(
   const int block_dim = blockDim.x;
 
   const T* token_input = input + token_idx * hidden_dim;
-  FP8_TYPE* token_output = output_q + token_idx * hidden_dim;
+  DST_DTYPE* token_output = output_q + token_idx * hidden_dim;
 
   float max_value = 0.0f;
 
@@ -135,12 +134,12 @@ __global__ void per_token_quant_fp8_small_batch_kernel(
     vec_t input_vec;
     input_vec.cast_load(token_input + i * VEC_SIZE);
 
-    FP8_TYPE output_arr[VEC_SIZE];
+    DST_DTYPE output_arr[VEC_SIZE];
 #pragma unroll
     for (uint32_t j = 0; j < VEC_SIZE; ++j) {
       float val = fmaxf(fminf(static_cast<float>(input_vec[j]) * scale_inv, FP8_E4M3_MAX), -FP8_E4M3_MAX);
 #ifndef USE_ROCM
-      output_arr[j] = static_cast<FP8_TYPE>(val);
+      output_arr[j] = static_cast<DST_DTYPE>(val);
 #else
       output_arr[j] = c10::Float8_e4m3fnuz(
           __hip_cvt_float_to_fp8(val, fp8::fp8_type::__default_saturation, fp8::fp8_type::__default_interpret),
@@ -173,9 +172,9 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
       constexpr int THREADS = TOKENS_PER_CTA * kWarpSize;  // 256
       dim3 grid((num_tokens + TOKENS_PER_CTA - 1) / TOKENS_PER_CTA);
       dim3 block(THREADS);
-      per_token_quant_fp8_kernel<scalar_t, TOKENS_PER_CTA, 16><<<grid, block, 0, stream>>>(
+      per_token_quant_fp8_kernel<scalar_t, __nv_fp8_e4m3, TOKENS_PER_CTA, 16><<<grid, block, 0, stream>>>(
           static_cast<const scalar_t*>(input.data_ptr()),
-          static_cast<FP8_TYPE*>(output_q.data_ptr()),
+          static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
           static_cast<float*>(output_s.data_ptr()),
           hidden_dim,
           num_tokens);
@@ -184,9 +183,9 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
       constexpr int THREADS = 256;
       dim3 grid(num_tokens);
       dim3 block(THREADS);
-      per_token_quant_fp8_small_batch_kernel<scalar_t><<<grid, block, 0, stream>>>(
+      per_token_quant_fp8_small_batch_kernel<scalar_t, __nv_fp8_e4m3><<<grid, block, 0, stream>>>(
           static_cast<const scalar_t*>(input.data_ptr()),
-          static_cast<FP8_TYPE*>(output_q.data_ptr()),
+          static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
           static_cast<float*>(output_s.data_ptr()),
           hidden_dim,
           num_tokens);

From 4d16c88b6e96fea9f9fa684454f1d2c9a01b78bd Mon Sep 17 00:00:00 2001
From: Elfie Guo <164945471+elfiegg@users.noreply.github.com>
Date: Tue, 29 Jul 2025 10:49:41 -0700
Subject: [PATCH 216/396] Update cutlass_moe.py (#8535)

---
 python/sglang/srt/layers/moe/cutlass_moe.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/moe/cutlass_moe.py b/python/sglang/srt/layers/moe/cutlass_moe.py
index 00b7adf778e1..2a5a5dccbd67 100755
--- a/python/sglang/srt/layers/moe/cutlass_moe.py
+++ b/python/sglang/srt/layers/moe/cutlass_moe.py
@@ -209,7 +209,8 @@ def cutlass_fused_experts_fp8(
     )
 
     result = torch.empty((m, k), device=device, dtype=out_dtype)
-    return apply_shuffle_mul_sum(c2, result, c_map, topk_weights)
+    apply_shuffle_mul_sum(c2, result, c_map, topk_weights)
+    return result
 
 
 FLOAT4_E2M1_MAX = 6.0

From 5973675bc30d7fc85d131b5c61ac4a2318b16fcf Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 30 Jul 2025 02:03:02 +0800
Subject: [PATCH 217/396] Fix moe align kernel test (#8531)

---
 sgl-kernel/tests/test_moe_align.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/sgl-kernel/tests/test_moe_align.py b/sgl-kernel/tests/test_moe_align.py
index 8d35e75c1e1b..550c7a1ad744 100644
--- a/sgl-kernel/tests/test_moe_align.py
+++ b/sgl-kernel/tests/test_moe_align.py
@@ -229,7 +229,7 @@ def test_moe_align_block_size_compare_implementations(
     matching_indices = torch.where(expert_ids_cuda == expert_idx)[0]
     block_sorted_start = matching_indices[0].item() * block_size
     block_sorted_end = min(
-        (matching_indices[-1].item() + 1) * block_size, max_num_tokens_padded
+        (matching_indices[-1].item() + 1) * block_size, num_tokens_post_pad_cuda.item()
     )
 
     selected_sorted_ids_cuda = sorted_ids_cuda[

From a4c3b121d8aa92e84d3151694bed614a5d2ce85f Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Tue, 29 Jul 2025 12:46:50 -0700
Subject: [PATCH 218/396] Split the scheduler into multiple mixin classes to
 reduce the file size (#8483)

---
 python/sglang/srt/disaggregation/decode.py    |  10 +-
 python/sglang/srt/disaggregation/prefill.py   |   8 +-
 python/sglang/srt/entrypoints/engine.py       |  28 +-
 python/sglang/srt/entrypoints/http_server.py  |  12 +-
 python/sglang/srt/managers/io_struct.py       |   2 -
 python/sglang/srt/managers/scheduler.py       | 725 ++----------------
 .../srt/managers/scheduler_metrics_mixin.py   | 229 ++++++
 .../srt/managers/scheduler_profiler_mixin.py  | 279 +++++++
 .../scheduler_update_weights_mixin.py         | 142 ++++
 .../sglang/srt/managers/tokenizer_manager.py  | 197 +++--
 python/sglang/srt/server_args.py              |   9 +-
 python/sglang/utils.py                        |  11 -
 12 files changed, 868 insertions(+), 784 deletions(-)
 create mode 100644 python/sglang/srt/managers/scheduler_metrics_mixin.py
 create mode 100644 python/sglang/srt/managers/scheduler_profiler_mixin.py
 create mode 100644 python/sglang/srt/managers/scheduler_update_weights_mixin.py

diff --git a/python/sglang/srt/disaggregation/decode.py b/python/sglang/srt/disaggregation/decode.py
index ddc405c4819f..febb827fab5c 100644
--- a/python/sglang/srt/disaggregation/decode.py
+++ b/python/sglang/srt/disaggregation/decode.py
@@ -694,10 +694,7 @@ def event_loop_normal_disagg_decode(self: Scheduler):
                 + len(self.disagg_decode_prealloc_queue.queue)
                 == 0
             ):
-                # When the server is idle, do self-check and re-init some states
-                self.check_memory()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                self.self_check_during_idle()
 
             self.last_batch = batch
 
@@ -771,10 +768,7 @@ def event_loop_overlap_disagg_decode(self: Scheduler):
                 + len(self.disagg_decode_prealloc_queue.queue)
                 == 0
             ):
-                # When the server is idle, do self-check and re-init some states
-                self.check_memory()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                self.self_check_during_idle()
 
             self.last_batch = batch
             self.last_batch_in_queue = last_batch_in_queue
diff --git a/python/sglang/srt/disaggregation/prefill.py b/python/sglang/srt/disaggregation/prefill.py
index 8217bd44c60f..462727ffff79 100644
--- a/python/sglang/srt/disaggregation/prefill.py
+++ b/python/sglang/srt/disaggregation/prefill.py
@@ -287,9 +287,7 @@ def event_loop_normal_disagg_prefill(self: Scheduler) -> None:
                 self.process_disagg_prefill_inflight_queue()
 
             if batch is None and len(self.disagg_prefill_inflight_queue) == 0:
-                self.check_memory()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                self.self_check_during_idle()
 
             self.last_batch = batch
             # HACK (byronhsu): reset the batch_is_full flag because we never enter update_running_batch which resets it
@@ -337,9 +335,7 @@ def event_loop_overlap_disagg_prefill(self: Scheduler) -> None:
                 self.process_disagg_prefill_inflight_queue()
 
             if batch is None and len(self.disagg_prefill_inflight_queue) == 0:
-                self.check_memory()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                self.self_check_during_idle()
 
             self.last_batch = batch
             # HACK (byronhsu): reset the batch_is_full flag because we never enter update_running_batch which resets it
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index c038e87fc23e..e52c546a0b39 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -652,25 +652,19 @@ def _set_envs_and_config(server_args: ServerArgs):
             "Please reinstall the latest version with `pip install sgl-kernel --force-reinstall`",
         )
 
-    def sigchld_handler(signum, frame):
-        pid, exitcode = os.waitpid(0, os.WNOHANG)
-        if exitcode != 0:
-            logger.warning(
-                f"Child process unexpectedly failed with {exitcode=}. {pid=}"
+    if True:  # Keep this check for internal code compatibility
+        # Register the signal handler.
+        # The child processes will send SIGQUIT to this process when any error happens
+        # This process then clean up the whole process tree
+        # Note: This sigquit handler is used in the launch phase, and may be replaced by
+        # the running_phase_sigquit_handler in the tokenizer manager after the grpc server is launched.
+        def launch_phase_sigquit_handler(signum, frame):
+            logger.error(
+                "Received sigquit from a child process. It usually means the child failed."
             )
+            kill_process_tree(os.getpid())
 
-    signal.signal(signal.SIGCHLD, sigchld_handler)
-
-    # Register the signal handler.
-    # The child processes will send SIGQUIT to this process when any error happens
-    # This process then clean up the whole process tree
-    def sigquit_handler(signum, frame):
-        logger.error(
-            "Received sigquit from a child process. It usually means the child failed."
-        )
-        kill_process_tree(os.getpid())
-
-    signal.signal(signal.SIGQUIT, sigquit_handler)
+        signal.signal(signal.SIGQUIT, launch_phase_sigquit_handler)
 
     # Set mp start method
     mp.set_start_method("spawn", force=True)
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index 586a264951cb..b58987bcb0d0 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -238,6 +238,9 @@ async def health() -> Response:
 @app.get("/health_generate")
 async def health_generate(request: Request) -> Response:
     """Check the health of the inference server by generating one token."""
+    if _global_state.tokenizer_manager.gracefully_exit:
+        logger.info("Health check request received during shutdown. Returning 503.")
+        return Response(status_code=503)
 
     sampling_params = {"max_new_tokens": 1, "temperature": 0.0}
     rid = f"HEALTH_CHECK_{time.time()}"
@@ -260,9 +263,14 @@ async def gen():
         async for _ in _global_state.tokenizer_manager.generate_request(gri, request):
             break
 
-    tic = time.perf_counter()
+    # This request is a special request.
+    # If the server already has something running, this request will be ignored, so it creates zero overhead.
+    # If the server is not running, this request will be run, so we know whether the server is healthy.
     task = asyncio.create_task(gen())
-    while time.perf_counter() < tic + HEALTH_CHECK_TIMEOUT:
+
+    # As long as we receive any response from the detokenizer/scheduler, we consider the server is healthy.
+    tic = time.time()
+    while time.time() < tic + HEALTH_CHECK_TIMEOUT:
         await asyncio.sleep(1)
         if _global_state.tokenizer_manager.last_receive_tstamp > tic:
             task.cancel()
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 773e0c57d36b..c8d325f9ee28 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -152,8 +152,6 @@ def normalize_batch_and_arguments(self):
         else:
             self._normalize_batch_inputs()
 
-        self._validate_session_params()
-
     def _validate_inputs(self):
         """Validate that the input configuration is valid."""
         if (
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 656bf7684748..38db5313a87a 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -13,7 +13,6 @@
 # ==============================================================================
 """A scheduler that manages a tensor parallel GPU worker."""
 
-import datetime
 import faulthandler
 import logging
 import os
@@ -21,11 +20,10 @@
 import sys
 import threading
 import time
-from collections import defaultdict, deque
+from collections import deque
 from concurrent import futures
 from dataclasses import dataclass
 from http import HTTPStatus
-from pathlib import Path
 from types import SimpleNamespace
 from typing import Dict, List, Optional, Tuple, Union
 
@@ -37,7 +35,6 @@
 
 from sglang.global_config import global_config
 from sglang.srt.configs.model_config import ModelConfig
-from sglang.srt.constants import GPU_MEMORY_TYPE_KV_CACHE, GPU_MEMORY_TYPE_WEIGHTS
 from sglang.srt.constrained.base_grammar_backend import (
     INVALID_GRAMMAR_OBJ,
     create_grammar_backend,
@@ -47,7 +44,6 @@
     DecodeTransferQueue,
     SchedulerDisaggregationDecodeMixin,
 )
-from sglang.srt.disaggregation.kv_events import EventPublisherFactory, KVEventBatch
 from sglang.srt.disaggregation.prefill import (
     PrefillBootstrapQueue,
     SchedulerDisaggregationPrefillMixin,
@@ -78,21 +74,15 @@
     GetInternalStateReq,
     GetInternalStateReqOutput,
     GetWeightsByNameReqInput,
-    GetWeightsByNameReqOutput,
     HealthCheckOutput,
     InitWeightsUpdateGroupReqInput,
-    InitWeightsUpdateGroupReqOutput,
     LoadLoRAAdapterReqInput,
     LoadLoRAAdapterReqOutput,
     OpenSessionReqInput,
     OpenSessionReqOutput,
     ProfileReq,
-    ProfileReqOutput,
-    ProfileReqType,
     ReleaseMemoryOccupationReqInput,
-    ReleaseMemoryOccupationReqOutput,
     ResumeMemoryOccupationReqInput,
-    ResumeMemoryOccupationReqOutput,
     RpcReqInput,
     RpcReqOutput,
     SetInternalStateReq,
@@ -104,11 +94,8 @@
     UnloadLoRAAdapterReqInput,
     UnloadLoRAAdapterReqOutput,
     UpdateWeightFromDiskReqInput,
-    UpdateWeightFromDiskReqOutput,
     UpdateWeightsFromDistributedReqInput,
-    UpdateWeightsFromDistributedReqOutput,
     UpdateWeightsFromTensorReqInput,
-    UpdateWeightsFromTensorReqOutput,
 )
 from sglang.srt.managers.mm_utils import init_embedding_cache
 from sglang.srt.managers.schedule_batch import (
@@ -124,9 +111,17 @@
     SchedulePolicy,
 )
 from sglang.srt.managers.scheduler_input_blocker import SchedulerInputBlocker
+from sglang.srt.managers.scheduler_metrics_mixin import (
+    RECORD_STEP_TIME,
+    SchedulerMetricsMixin,
+)
 from sglang.srt.managers.scheduler_output_processor_mixin import (
     SchedulerOutputProcessorMixin,
 )
+from sglang.srt.managers.scheduler_profiler_mixin import SchedulerProfilerMixin
+from sglang.srt.managers.scheduler_update_weights_mixin import (
+    SchedulerUpdateWeightsMixin,
+)
 from sglang.srt.managers.session_controller import Session
 from sglang.srt.managers.tp_worker import TpModelWorker
 from sglang.srt.managers.tp_worker_overlap_thread import TpModelWorkerClient
@@ -135,7 +130,6 @@
 from sglang.srt.mem_cache.hiradix_cache import HiRadixCache
 from sglang.srt.mem_cache.radix_cache import RadixCache
 from sglang.srt.mem_cache.swa_radix_cache import SWARadixCache
-from sglang.srt.metrics.collector import SchedulerMetricsCollector, SchedulerStats
 from sglang.srt.model_executor.forward_batch_info import ForwardMode, PPProxyTensors
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.server_args import PortArgs, ServerArgs
@@ -168,7 +162,6 @@
 
 # Test retract decode for debugging purposes
 TEST_RETRACT = get_bool_env_var("SGLANG_TEST_RETRACT")
-RECORD_STEP_TIME = get_bool_env_var("SGLANG_RECORD_STEP_TIME")
 GRAMMAR_TIMEOUT = float(os.environ.get("SGLANG_GRAMMAR_TIMEOUT", 300))
 
 _is_cpu = is_cpu()
@@ -191,41 +184,11 @@ class EmbeddingBatchResult:
     bid: int
 
 
-class KvMetrics:
-    def __init__(self):
-        self.request_active_slots = None
-        self.request_total_slots = None
-        self.kv_active_blocks = None
-        self.kv_total_blocks = None
-        self.num_requests_waiting = None
-        self.gpu_cache_usage_perc = None
-        self.gpu_prefix_cache_hit_rate = None
-        self.data_parallel_rank = None
-
-
-class IdleSleeper:
-    """
-    In setups which have long inactivity periods it is desirable to reduce
-    system power consumption when sglang does nothing. This would lead not only
-    to power savings, but also to more CPU thermal headroom when a request
-    eventually comes. This is important in cases when multiple GPUs are connected
-    as each GPU would otherwise pin one thread at 100% CPU usage.
-
-    The simplest solution is to use zmq.Poller on all sockets that may receive
-    data that needs handling immediately.
-    """
-
-    def __init__(self, sockets):
-        self.poller = zmq.Poller()
-        for s in sockets:
-            self.poller.register(s, zmq.POLLIN)
-
-    def maybe_sleep(self):
-        self.poller.poll(1000)
-
-
 class Scheduler(
     SchedulerOutputProcessorMixin,
+    SchedulerUpdateWeightsMixin,
+    SchedulerProfilerMixin,
+    SchedulerMetricsMixin,
     SchedulerDisaggregationDecodeMixin,
     SchedulerDisaggregationPrefillMixin,
 ):
@@ -266,7 +229,7 @@ def __init__(
         self.enable_hierarchical_cache = server_args.enable_hierarchical_cache
         self.enable_hicache_storage = server_args.hicache_storage_backend is not None
         self.page_size = server_args.page_size
-        self.dp_size = server_args.dp_size
+
         self.attn_tp_rank, self.attn_tp_size, self.attn_dp_rank = (
             compute_dp_attention_world_info(
                 server_args.enable_dp_attention,
@@ -284,10 +247,13 @@ def __init__(
             self.recv_from_tokenizer = get_zmq_socket(
                 context, zmq.PULL, port_args.scheduler_input_ipc_name, False
             )
+            self.recv_from_rpc = get_zmq_socket(
+                context, zmq.DEALER, port_args.rpc_ipc_name, False
+            )
+
             self.send_to_tokenizer = get_zmq_socket(
                 context, zmq.PUSH, port_args.tokenizer_ipc_name, False
             )
-
             if server_args.skip_tokenizer_init:
                 # Directly send to the TokenizerManager
                 self.send_to_detokenizer = get_zmq_socket(
@@ -299,9 +265,6 @@ def __init__(
                     context, zmq.PUSH, port_args.detokenizer_ipc_name, False
                 )
 
-            self.recv_from_rpc = get_zmq_socket(
-                context, zmq.DEALER, port_args.rpc_ipc_name, False
-            )
             if self.server_args.sleep_on_idle:
                 self.idle_sleeper = IdleSleeper(
                     [
@@ -398,7 +361,7 @@ def __init__(
         global_server_args_dict.update(worker_global_server_args_dict)
         set_random_seed(self.random_seed)
 
-        # Hybrid
+        # Hybrid memory pool
         self.is_hybrid = self.tp_worker.is_hybrid
         if self.is_hybrid:
             self.sliding_window_size = self.tp_worker.sliding_window_size
@@ -515,6 +478,15 @@ def __init__(
         self.init_metrics(tp_rank, pp_rank, dp_rank)
         self.init_kv_events(server_args.kv_events_config)
 
+        # Init disaggregation
+        self.disaggregation_mode = DisaggregationMode(
+            self.server_args.disaggregation_mode
+        )
+        self.init_disaggregation()
+
+        if get_bool_env_var("SGLANG_GC_LOG"):
+            configure_gc_logger()
+
         # Init request dispatcher
         self._request_dispatcher = TypeBasedDispatcher(
             [
@@ -545,22 +517,6 @@ def __init__(
             ]
         )
 
-        # Init disaggregation
-        self.disaggregation_mode = DisaggregationMode(
-            self.server_args.disaggregation_mode
-        )
-        self.init_disaggregation()
-
-        if get_bool_env_var("SGLANG_GC_LOG"):
-            configure_gc_logger()
-
-    def current_scheduler_metrics_enabled(self):
-        return self.attn_tp_rank == 0 or self.enable_metrics_for_all_schedulers
-
-    def maybe_sleep_on_idle(self):
-        if self.idle_sleeper is not None:
-            self.idle_sleeper.maybe_sleep()
-
     def init_tokenizer(self):
         server_args = self.server_args
 
@@ -668,50 +624,6 @@ def init_memory_pool_and_cache(self):
         embedding_cache_size = int(os.environ.get("SGLANG_VLM_CACHE_SIZE_MB", "100"))
         init_embedding_cache(embedding_cache_size * 1024 * 1024)
 
-    def init_profier(self):
-        self.torch_profiler = None
-        self.torch_profiler_output_dir: Optional[str] = None
-        self.profiler_activities: Optional[List[str]] = None
-        self.profile_id: Optional[str] = None
-        self.profiler_start_forward_ct: Optional[int] = None
-        self.profiler_target_forward_ct: Optional[int] = None
-        self.profiler_target_prefill_ct: Optional[int] = None
-        self.profiler_target_decode_ct: Optional[int] = None
-        self.profiler_prefill_ct: Optional[int] = None
-        self.profiler_decode_ct: Optional[int] = None
-        self.profile_by_stage: bool = False
-        self.profile_steps: Optional[int] = None
-        self.profile_in_progress: bool = False
-        self.rpd_profiler = None
-
-    def init_metrics(self, tp_rank: int, pp_rank: int, dp_rank: Optional[int]):
-        self.last_gen_throughput: float = 0.0
-        self.last_input_throughput: float = 0.0
-        self.step_time_dict = defaultdict(list)  # Dict[batch size -> step time]
-        self.spec_num_total_accepted_tokens = 0
-        self.spec_num_total_forward_ct = 0
-        self.cum_spec_accept_length = 0
-        self.cum_spec_accept_count = 0
-        self.total_retracted_reqs = 0
-        self.stats = SchedulerStats()
-        if self.enable_metrics:
-            engine_type = "unified"
-            labels = {
-                "model_name": self.server_args.served_model_name,
-                "engine_type": engine_type,
-                "tp_rank": tp_rank,
-                "pp_rank": pp_rank,
-            }
-            if dp_rank is not None:
-                labels["dp_rank"] = dp_rank
-            self.metrics_collector = SchedulerMetricsCollector(labels=labels)
-
-    def init_kv_events(self, kv_events_config: Optional[str]):
-        if self.enable_kv_cache_events:
-            self.kv_event_publisher = EventPublisherFactory.create(
-                kv_events_config, self.attn_dp_rank
-            )
-
     def init_disaggregation(self):
         self.transfer_backend = TransferBackend(
             self.server_args.disaggregation_transfer_backend
@@ -820,10 +732,7 @@ def event_loop_normal(self):
                 self.process_batch_result(batch, result)
             else:
                 # When the server is idle, do self-check and re-init some states
-                self.check_memory()
-                self.check_tree_cache()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                self.self_check_during_idle()
 
             self.last_batch = batch
 
@@ -866,10 +775,7 @@ def event_loop_overlap(self):
                 )
             elif batch is None:
                 # When the server is idle, do self-check and re-init some states
-                self.check_memory()
-                self.check_tree_cache()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                self.self_check_during_idle()
 
             self.last_batch = batch
 
@@ -1003,10 +909,8 @@ def event_loop_pp(self):
 
             # When the server is idle, self-check and re-init some states
             if server_is_idle:
-                self.check_memory()
-                self.check_tree_cache()
-                self.new_token_ratio = self.init_new_token_ratio
-                self.maybe_sleep_on_idle()
+                # When the server is idle, do self-check and re-init some states
+                self.self_check_during_idle()
 
     def recv_requests(self) -> List[Req]:
         """Receive results at tp_rank = 0 and broadcast it to all other TP ranks."""
@@ -1355,170 +1259,11 @@ def handle_embedding_request(
         req.logprob_start_len = len(req.origin_input_ids) - 1
         self._add_request_to_queue(req)
 
-    def _emit_kv_metrics(self):
-        kv_metrics = KvMetrics()
-        kv_metrics.request_active_slots = self.stats.num_running_reqs
-        kv_metrics.request_total_slots = self.max_running_requests
-        kv_metrics.kv_active_blocks = int(
-            self.stats.token_usage * self.max_total_num_tokens
-        )
-        kv_metrics.kv_total_blocks = self.max_total_num_tokens
-        kv_metrics.num_requests_waiting = self.stats.num_queue_reqs
-        kv_metrics.gpu_cache_usage_perc = self.stats.token_usage
-        kv_metrics.gpu_prefix_cache_hit_rate = self.stats.cache_hit_rate
-        kv_metrics.data_parallel_rank = self.dp_rank if self.dp_rank is not None else 0
-
-        if not self.send_metrics_from_scheduler.closed:
-            self.send_metrics_from_scheduler.send_pyobj(kv_metrics)
-
-    def log_prefill_stats(
-        self,
-        adder: PrefillAdder,
-        can_run_list: List[Req],
-        running_bs: int,
-    ):
-        gap_latency = time.perf_counter() - self.last_prefill_stats_tic
-        self.last_prefill_stats_tic = time.perf_counter()
-        self.last_input_throughput = self.last_prefill_tokens / gap_latency
-        self.last_prefill_tokens = adder.log_input_tokens
-
-        if self.is_hybrid:
-            (
-                full_num_used,
-                swa_num_used,
-                full_token_usage,
-                swa_token_usage,
-                _,
-                _,
-                _,
-                _,
-            ) = self._get_swa_token_info()
-            num_used = max(full_num_used, swa_num_used)
-            token_usage = max(full_token_usage, swa_token_usage)
-            token_msg = (
-                f"full token usage: {full_token_usage:.2f}, "
-                f"swa token usage: {swa_token_usage:.2f}, "
-            )
-        else:
-            num_used, token_usage, _, _ = self._get_token_info()
-            token_msg = f"token usage: {token_usage:.2f}, "
-
-        num_new_seq = len(can_run_list)
-        f = (
-            f"Prefill batch. "
-            f"#new-seq: {num_new_seq}, "
-            f"#new-token: {adder.log_input_tokens}, "
-            f"#cached-token: {adder.log_hit_tokens}, "
-            f"{token_msg}"
-        )
-
-        if self.disaggregation_mode == DisaggregationMode.PREFILL:
-            f += f"#unbootstrapped-req: {len(self.disagg_prefill_bootstrap_queue.queue)}, "
-            f += f"#queue-req: {len(self.waiting_queue)}, "
-            f += f"#transferring-req: {len(self.disagg_prefill_inflight_queue)}, "
-            f += f"input throughput (token/s): {self.last_input_throughput:.2f}, "
-        else:
-            f += f"#running-req: {running_bs}, "
-            f += f"#queue-req: {len(self.waiting_queue)}, "
-
-        logger.info(f)
-
-        if self.enable_metrics:
-            total_tokens = adder.log_input_tokens + adder.log_hit_tokens
-
-            cache_hit_rate = (
-                adder.log_hit_tokens / total_tokens if total_tokens > 0 else 0.0
-            )
-            self.stats.num_running_reqs = running_bs
-            self.stats.num_used_tokens = num_used
-            self.stats.token_usage = round(token_usage, 2)
-            self.stats.num_queue_reqs = len(self.waiting_queue)
-            self.stats.cache_hit_rate = cache_hit_rate
-
-            total_queue_latency = 0
-            for req in can_run_list:
-                total_queue_latency += req.queue_time_end - req.queue_time_start
-            self.stats.avg_request_queue_latency = total_queue_latency / num_new_seq
-
-            self.metrics_collector.log_stats(self.stats)
-            self._emit_kv_metrics()
-        self._publish_kv_events()
-
-    def log_decode_stats(
-        self, can_run_cuda_graph: bool, running_batch: ScheduleBatch = None
-    ):
-        batch = running_batch or self.running_batch
-
-        gap_latency = time.perf_counter() - self.last_decode_stats_tic
-        self.last_decode_stats_tic = time.perf_counter()
-        self.last_gen_throughput = self.num_generated_tokens / gap_latency
-        self.num_generated_tokens = 0
-        num_running_reqs = len(batch.reqs)
-        if self.is_hybrid:
-            (
-                full_num_used,
-                swa_num_used,
-                full_token_usage,
-                swa_token_usage,
-                _,
-                _,
-                _,
-                _,
-            ) = self._get_swa_token_info()
-            num_used = max(full_num_used, swa_num_used)
-            token_usage = max(full_token_usage, swa_token_usage)
-            token_msg = (
-                f"#full token: {full_num_used}, "
-                f"full token usage: {full_token_usage:.2f}, "
-                f"#swa token: {swa_num_used}, "
-                f"swa token usage: {swa_token_usage:.2f}, "
-            )
-        else:
-            num_used, token_usage, _, _ = self._get_token_info()
-            token_msg = f"#token: {num_used}, " f"token usage: {token_usage:.2f}, "
-
-        if RECORD_STEP_TIME:
-            self.step_time_dict[num_running_reqs].append(
-                gap_latency / self.server_args.decode_log_interval
-            )
-
-        msg = f"Decode batch. #running-req: {num_running_reqs}, {token_msg}"
-
-        if self.spec_algorithm.is_none():
-            spec_accept_length = 0
-        else:
-            spec_accept_length = (
-                self.spec_num_total_accepted_tokens / self.spec_num_total_forward_ct
-            )
-            self.cum_spec_accept_length += self.spec_num_total_accepted_tokens
-            self.cum_spec_accept_count += self.spec_num_total_forward_ct
-            self.spec_num_total_accepted_tokens = self.spec_num_total_forward_ct = 0
-            msg += f"accept len: {spec_accept_length:.2f}, "
-
-        if self.disaggregation_mode == DisaggregationMode.DECODE:
-            msg += f"pre-allocated usage: {self.disagg_decode_prealloc_queue.num_tokens_pre_allocated / self.max_total_num_tokens:.2f}, "
-            msg += f"#retracted-req: {len(self.disagg_decode_prealloc_queue.retracted_queue)}, "
-
-        msg += (
-            f"cuda graph: {can_run_cuda_graph}, "
-            f"gen throughput (token/s): {self.last_gen_throughput:.2f}, "
-            f"#queue-req: {len(self.waiting_queue)}, "
-        )
-
-        logger.info(msg)
-        if self.enable_metrics:
-            self.stats.num_running_reqs = num_running_reqs
-            self.stats.num_used_tokens = num_used
-            self.stats.token_usage = round(token_usage, 2)
-            self.stats.cache_hit_rate = 0.0
-            self.stats.gen_throughput = self.last_gen_throughput
-            self.stats.num_queue_reqs = len(self.waiting_queue)
-            self.stats.num_grammar_queue_reqs = len(self.grammar_queue)
-            self.stats.spec_accept_length = spec_accept_length
-            self.stats.total_retracted_reqs = self.total_retracted_reqs
-            self.metrics_collector.log_stats(self.stats)
-            self._emit_kv_metrics()
-        self._publish_kv_events()
+    def self_check_during_idle(self):
+        self.check_memory()
+        self.check_tree_cache()
+        self.new_token_ratio = self.init_new_token_ratio
+        self.maybe_sleep_on_idle()
 
     def check_memory(self):
         if self.is_hybrid:
@@ -2422,22 +2167,6 @@ def handle_rpc_request(self, recv_req: RpcReqInput):
         barrier()
         return RpcReqOutput(success, "" if not exec else str(exec))
 
-    def save_remote_model(self, params):
-        url = params["url"]
-
-        worker = self.tp_worker.worker
-
-        worker.model_runner.save_remote_model(url)
-
-    def save_sharded_model(self, params):
-        worker = self.tp_worker.worker
-
-        worker.model_runner.save_sharded_model(
-            path=params["path"],
-            pattern=params["pattern"],
-            max_size=params["max_size"],
-        )
-
     def abort_request(self, recv_req: AbortReq):
         # Delete requests in the waiting queue
         to_del = []
@@ -2515,16 +2244,6 @@ def abort_request(self, recv_req: AbortReq):
     def _pause_engine(self) -> Tuple[List[Req], int]:
         raise NotImplementedError()
 
-    def update_weights_from_disk(self, recv_req: UpdateWeightFromDiskReqInput):
-        """In-place update of the weights from disk."""
-        success, message = self.tp_worker.update_weights_from_disk(recv_req)
-        if success:
-            flush_cache_success = self.flush_cache()
-            assert flush_cache_success, "Cache flush failed after updating weights"
-        else:
-            logger.error(message)
-        return UpdateWeightFromDiskReqOutput(success, message, 0)
-
     def load_lora_adapter(
         self, recv_req: LoadLoRAAdapterReqInput
     ) -> LoadLoRAAdapterReqOutput:
@@ -2541,81 +2260,6 @@ def unload_lora_adapter(
         result = self.tp_worker.unload_lora_adapter(recv_req)
         return result
 
-    def init_weights_update_group(self, recv_req: InitWeightsUpdateGroupReqInput):
-        """Initialize the online model parameter update group."""
-        success, message = self.tp_worker.init_weights_update_group(recv_req)
-        return InitWeightsUpdateGroupReqOutput(success, message)
-
-    def update_weights_from_distributed(
-        self,
-        recv_req: UpdateWeightsFromDistributedReqInput,
-    ) -> Tuple[bool, str]:
-        """Update the online model parameter."""
-        success, message = self.tp_worker.update_weights_from_distributed(recv_req)
-        if success:
-            if recv_req.flush_cache:
-                flush_cache_success = self.flush_cache()
-                assert flush_cache_success, "Cache flush failed after updating weights"
-        else:
-            logger.error(message)
-        return UpdateWeightsFromDistributedReqOutput(success, message)
-
-    def update_weights_from_tensor(self, recv_req: UpdateWeightsFromTensorReqInput):
-        """Update the online model parameter from tensors."""
-        success, message = self.tp_worker.update_weights_from_tensor(recv_req)
-        # TODO extract common code b/t update_weights_from_distributed and update_weights_from_tensor later
-        if success:
-            if recv_req.flush_cache:
-                flush_cache_success = self.flush_cache()
-                assert flush_cache_success, "Cache flush failed after updating weights"
-        else:
-            logger.error(message)
-        barrier(group=self.tp_cpu_group)
-        return UpdateWeightsFromTensorReqOutput(success, message)
-
-    def get_weights_by_name(self, recv_req: GetWeightsByNameReqInput):
-        parameter = self.tp_worker.get_weights_by_name(recv_req)
-        return GetWeightsByNameReqOutput(parameter)
-
-    def release_memory_occupation(self, recv_req: ReleaseMemoryOccupationReqInput):
-        tags = recv_req.tags
-
-        if tags is None or len(tags) == 0:
-            tags = [GPU_MEMORY_TYPE_WEIGHTS, GPU_MEMORY_TYPE_KV_CACHE]
-
-        if GPU_MEMORY_TYPE_KV_CACHE in tags:
-            self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_KV_CACHE)
-            self.flush_cache()
-
-        if GPU_MEMORY_TYPE_WEIGHTS in tags:
-            self.stashed_model_static_state = _export_static_state(
-                self.tp_worker.worker.model_runner.model
-            )
-            torch.distributed.barrier(self.tp_cpu_group)
-            self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_WEIGHTS)
-
-        return ReleaseMemoryOccupationReqOutput()
-
-    def resume_memory_occupation(self, recv_req: ResumeMemoryOccupationReqInput):
-        tags = recv_req.tags
-
-        if tags is None or len(tags) == 0:
-            tags = [GPU_MEMORY_TYPE_WEIGHTS, GPU_MEMORY_TYPE_KV_CACHE]
-
-        if GPU_MEMORY_TYPE_WEIGHTS in tags:
-            self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_WEIGHTS)
-            torch.distributed.barrier(self.tp_cpu_group)
-            _import_static_state(
-                self.tp_worker.worker.model_runner.model,
-                self.stashed_model_static_state,
-            )
-            del self.stashed_model_static_state
-
-        if GPU_MEMORY_TYPE_KV_CACHE in tags:
-            self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_KV_CACHE)
-
-        return ResumeMemoryOccupationReqOutput()
-
     def slow_down(self, recv_req: SlowDownReqInput):
         t = recv_req.forward_sleep_time
         if t is not None and t <= 0:
@@ -2623,254 +2267,6 @@ def slow_down(self, recv_req: SlowDownReqInput):
         self.forward_sleep_time = t
         return SlowDownReqOutput()
 
-    def profile(self, recv_req: ProfileReq):
-        if recv_req.type == ProfileReqType.START_PROFILE:
-            if recv_req.profile_by_stage or recv_req.start_step:
-                return self.init_profile(
-                    recv_req.output_dir,
-                    recv_req.start_step,
-                    recv_req.num_steps,
-                    recv_req.activities,
-                    recv_req.with_stack,
-                    recv_req.record_shapes,
-                    recv_req.profile_by_stage,
-                    recv_req.profile_id,
-                )
-            else:
-                self.init_profile(
-                    recv_req.output_dir,
-                    recv_req.start_step,
-                    recv_req.num_steps,
-                    recv_req.activities,
-                    recv_req.with_stack,
-                    recv_req.record_shapes,
-                    recv_req.profile_by_stage,
-                    recv_req.profile_id,
-                )
-                return self.start_profile(True)
-        else:
-            return self.stop_profile()
-
-    def init_profile(
-        self,
-        output_dir: Optional[str],
-        start_step: Optional[int],
-        num_steps: Optional[int],
-        activities: Optional[List[str]],
-        with_stack: Optional[bool],
-        record_shapes: Optional[bool],
-        profile_by_stage: bool,
-        profile_id: str,
-    ) -> ProfileReqOutput:
-        if self.profile_in_progress:
-            return ProfileReqOutput(
-                success=False,
-                message="Profiling is already in progress. Call /stop_profile first.",
-            )
-
-        self.profile_by_stage = profile_by_stage
-
-        if output_dir is None:
-            output_dir = os.getenv("SGLANG_TORCH_PROFILER_DIR", "/tmp")
-        if activities is None:
-            activities = ["CPU", "GPU"]
-
-        self.torch_profiler_output_dir = output_dir
-        self.torch_profiler_with_stack = with_stack
-        self.torch_profiler_record_shapes = record_shapes
-        self.profiler_activities = activities
-        self.profile_id = profile_id
-
-        if start_step:
-            self.profiler_start_forward_ct = max(start_step, self.forward_ct + 1)
-
-        if num_steps:
-            self.profile_steps = num_steps
-            if self.profile_by_stage:
-                self.profiler_target_prefill_ct = num_steps
-                self.profiler_target_decode_ct = num_steps
-                self.profiler_prefill_ct = 0
-                self.profiler_decode_ct = 0
-            elif start_step:
-                self.profiler_target_forward_ct = (
-                    self.profiler_start_forward_ct + num_steps
-                )
-            else:
-                self.profiler_target_forward_ct = self.forward_ct + num_steps
-            # The caller will be notified when reaching profiler_target_forward_ct
-        else:
-            self.profiler_target_forward_ct = None
-
-        return ProfileReqOutput(success=True, message="Succeeded")
-
-    def start_profile(
-        self, stage: Optional[ForwardMode] = None
-    ) -> ProfileReqOutput | None:
-        stage_str = f" for {stage.__str__()}" if stage else ""
-        logger.info(
-            f"Profiling starts{stage_str}. Traces will be saved to: {self.torch_profiler_output_dir} (with profile id: {self.profile_id})",
-        )
-
-        activities = self.profiler_activities
-        with_stack = self.torch_profiler_with_stack
-        record_shapes = self.torch_profiler_record_shapes
-
-        activity_map = {
-            "CPU": torch.profiler.ProfilerActivity.CPU,
-            "GPU": torch.profiler.ProfilerActivity.CUDA,
-        }
-        torchprof_activities = [
-            activity_map[a] for a in activities if a in activity_map
-        ]
-
-        if "RPD" in activities:
-            from rpdTracerControl import rpdTracerControl
-
-            rpdTracerControl.skipCreate()
-
-            self.rpd_profile_path = os.path.join(
-                self.torch_profiler_output_dir,
-                "rpd-" + str(time.time()) + f"-TP-{self.tp_rank}" + ".trace.json.gz",
-            )
-
-            if self.tp_rank == 0:
-                import sqlite3
-
-                from rocpd.schema import RocpdSchema
-
-                if os.path.exists("trace.rpd"):
-                    os.unlink("trace.rpd")
-                schema = RocpdSchema()
-                connection = sqlite3.connect("trace.rpd")
-                schema.writeSchema(connection)
-                connection.commit()
-                del connection
-            torch.distributed.barrier(self.tp_cpu_group)
-
-            self.rpd_profiler = rpdTracerControl()
-            self.rpd_profiler.setPythonTrace(True)
-            self.rpd_profiler.start()
-            self.rpd_profiler.rangePush("", "rpd profile range", "")
-            self.profile_in_progress = True
-        elif torchprof_activities:
-            self.torch_profiler = torch.profiler.profile(
-                activities=torchprof_activities,
-                with_stack=with_stack if with_stack is not None else True,
-                record_shapes=record_shapes if record_shapes is not None else False,
-            )
-            self.torch_profiler.start()
-            self.profile_in_progress = True
-
-        if "MEM" in activities:
-            torch.cuda.memory._record_memory_history(max_entries=100000)
-            self.profile_in_progress = True
-
-        if "CUDA_PROFILER" in activities:
-            torch.cuda.cudart().cudaProfilerStart()
-            self.profile_in_progress = True
-
-        return ProfileReqOutput(success=True, message="Succeeded")
-
-    def stop_profile(
-        self, stage: Optional[ForwardMode] = None
-    ) -> ProfileReqOutput | None:
-        if not self.profile_in_progress:
-            return ProfileReqOutput(
-                success=False,
-                message="Profiling is not in progress. Call /start_profile first.",
-            )
-
-        if not Path(self.torch_profiler_output_dir).exists():
-            Path(self.torch_profiler_output_dir).mkdir(parents=True, exist_ok=True)
-
-        stage_suffix = f"-{stage.__str__()}" if stage else ""
-        logger.info("Stop profiling" + stage_suffix + "...")
-        if self.torch_profiler is not None:
-            self.torch_profiler.stop()
-            self.torch_profiler.export_chrome_trace(
-                os.path.join(
-                    self.torch_profiler_output_dir,
-                    self.profile_id
-                    + f"-TP-{self.tp_rank}"
-                    + stage_suffix
-                    + ".trace.json.gz",
-                )
-            )
-            torch.distributed.barrier(self.tp_cpu_group)
-
-        if self.rpd_profiler is not None:
-            self.rpd_profiler.rangePop()
-            self.rpd_profiler.stop()
-            self.rpd_profiler.flush()
-
-            torch.distributed.barrier(self.tp_cpu_group)
-            if self.tp_rank == 0:
-                from sglang.srt.utils import rpd_to_chrome_trace
-
-                rpd_to_chrome_trace("trace.rpd", self.rpd_profile_path)
-            self.rpd_profiler = None
-            self.rpd_profiler_path = None
-
-        if self.profiler_activities is not None and "MEM" in self.profiler_activities:
-            memory_profile_path = os.path.join(
-                self.torch_profiler_output_dir,
-                str(time.time())
-                + f"-TP-{self.tp_rank}-memory"
-                + stage_suffix
-                + ".pickle",
-            )
-            torch.cuda.memory._dump_snapshot(memory_profile_path)
-            torch.cuda.memory._record_memory_history(enabled=None)
-
-        if "CUDA_PROFILER" in self.profiler_activities:
-            torch.cuda.cudart().cudaProfilerStop()
-
-        logger.info(
-            "Profiling done. Traces are saved to: %s",
-            self.torch_profiler_output_dir,
-        )
-        self.torch_profiler = None
-        self.profile_in_progress = False
-        self.profiler_start_forward_ct = None
-
-        return ProfileReqOutput(success=True, message="Succeeded.")
-
-    def _profile_batch_predicate(self, batch):
-        if self.profile_by_stage:
-            if batch.forward_mode.is_prefill():
-                if self.profiler_prefill_ct == 0:
-                    self.start_profile(batch.forward_mode)
-                self.profiler_prefill_ct += 1
-                if self.profiler_prefill_ct > self.profiler_target_prefill_ct:
-                    if self.profile_in_progress:
-                        self.stop_profile(stage=ForwardMode.EXTEND)
-            elif batch.forward_mode.is_decode():
-                if self.profiler_decode_ct == 0:
-                    if self.profile_in_progress:
-                        # force trace flush
-                        self.stop_profile(ForwardMode.EXTEND)
-                    self.start_profile(batch.forward_mode)
-                self.profiler_decode_ct += 1
-                if self.profiler_decode_ct > self.profiler_target_decode_ct:
-                    if self.profile_in_progress:
-                        self.stop_profile(stage=ForwardMode.DECODE)
-            elif batch.forward_mode.is_idle():
-                pass
-            else:
-                raise RuntimeError(f"unsupported profile stage: {batch.forward_mode}")
-        else:
-            # Check profiler
-            if (
-                self.profiler_target_forward_ct
-                and self.profiler_target_forward_ct <= self.forward_ct
-            ):
-                self.stop_profile()
-            if (
-                self.profiler_start_forward_ct
-                and self.profiler_start_forward_ct == self.forward_ct
-            ):
-                self.start_profile()
-
     def expert_distribution_handle(self, recv_req: ExpertDistributionReq):
         if recv_req == ExpertDistributionReq.START_RECORD:
             get_global_expert_distribution_recorder().start_record()
@@ -2879,7 +2275,7 @@ def expert_distribution_handle(self, recv_req: ExpertDistributionReq):
         elif recv_req == ExpertDistributionReq.DUMP_RECORD:
             get_global_expert_distribution_recorder().dump_record()
         else:
-            raise ValueError("Unrecognized ExpertDistributionReq value")
+            raise ValueError(f"Unrecognized ExpertDistributionReq value: {recv_req=}")
         return ExpertDistributionReqOutput()
 
     def open_session(self, recv_req: OpenSessionReqInput):
@@ -2915,34 +2311,41 @@ def get_print_prefix(self):
             prefix += f" PP{self.pp_rank}"
         return prefix
 
-    def _publish_kv_events(self):
-        if self.enable_kv_cache_events:
-            events = self.tree_cache.take_events()
-            if events:
-                batch = KVEventBatch(ts=time.time(), events=events)
-                self.kv_event_publisher.publish(batch)
+    def current_scheduler_metrics_enabled(self):
+        return self.attn_tp_rank == 0 or self.enable_metrics_for_all_schedulers
 
+    def maybe_sleep_on_idle(self):
+        if self.idle_sleeper is not None:
+            self.idle_sleeper.maybe_sleep()
 
-def is_health_check_generate_req(recv_req):
-    return getattr(recv_req, "rid", "").startswith("HEALTH_CHECK")
 
+class IdleSleeper:
+    """
+    In setups which have long inactivity periods it is desirable to reduce
+    system power consumption when sglang does nothing. This would lead not only
+    to power savings, but also to more CPU thermal headroom when a request
+    eventually comes. This is important in cases when multiple GPUs are connected
+    as each GPU would otherwise pin one thread at 100% CPU usage.
 
-def is_work_request(recv_req):
-    return isinstance(recv_req, (TokenizedGenerateReqInput, TokenizedEmbeddingReqInput))
+    The simplest solution is to use zmq.Poller on all sockets that may receive
+    data that needs handling immediately.
+    """
 
+    def __init__(self, sockets):
+        self.poller = zmq.Poller()
+        for s in sockets:
+            self.poller.register(s, zmq.POLLIN)
+
+    def maybe_sleep(self):
+        self.poller.poll(1000)
 
-def _export_static_state(model):
-    return dict(
-        buffers=[
-            (name, buffer.detach().clone()) for name, buffer in model.named_buffers()
-        ]
-    )
 
+def is_health_check_generate_req(recv_req):
+    return getattr(recv_req, "rid", "").startswith("HEALTH_CHECK")
 
-def _import_static_state(model, static_params):
-    self_named_buffers = dict(model.named_buffers())
-    for name, tensor in static_params["buffers"]:
-        self_named_buffers[name][...] = tensor
+
+def is_work_request(recv_req):
+    return isinstance(recv_req, (TokenizedGenerateReqInput, TokenizedEmbeddingReqInput))
 
 
 def run_scheduler_process(
diff --git a/python/sglang/srt/managers/scheduler_metrics_mixin.py b/python/sglang/srt/managers/scheduler_metrics_mixin.py
new file mode 100644
index 000000000000..a6497ffde5c1
--- /dev/null
+++ b/python/sglang/srt/managers/scheduler_metrics_mixin.py
@@ -0,0 +1,229 @@
+import logging
+import time
+from collections import defaultdict
+from typing import List, Optional
+
+from sglang.srt.disaggregation.kv_events import EventPublisherFactory, KVEventBatch
+from sglang.srt.disaggregation.utils import DisaggregationMode
+from sglang.srt.managers.schedule_policy import PrefillAdder
+from sglang.srt.managers.scheduler import Req, ScheduleBatch
+from sglang.srt.metrics.collector import SchedulerMetricsCollector, SchedulerStats
+from sglang.srt.utils import get_bool_env_var
+
+logger = logging.getLogger(__name__)
+
+RECORD_STEP_TIME = get_bool_env_var("SGLANG_RECORD_STEP_TIME")
+
+
+class KvMetrics:
+    def __init__(self):
+        self.request_active_slots = None
+        self.request_total_slots = None
+        self.kv_active_blocks = None
+        self.kv_total_blocks = None
+        self.num_requests_waiting = None
+        self.gpu_cache_usage_perc = None
+        self.gpu_prefix_cache_hit_rate = None
+        self.data_parallel_rank = None
+
+
+class SchedulerMetricsMixin:
+    def init_metrics(self, tp_rank: int, pp_rank: int, dp_rank: Optional[int]):
+        self.last_gen_throughput: float = 0.0
+        self.last_input_throughput: float = 0.0
+        self.step_time_dict = defaultdict(list)  # Dict[batch size -> step time]
+        self.spec_num_total_accepted_tokens = 0
+        self.spec_num_total_forward_ct = 0
+        self.cum_spec_accept_length = 0
+        self.cum_spec_accept_count = 0
+        self.total_retracted_reqs = 0
+        self.stats = SchedulerStats()
+        if self.enable_metrics:
+            engine_type = "unified"
+            labels = {
+                "model_name": self.server_args.served_model_name,
+                "engine_type": engine_type,
+                "tp_rank": tp_rank,
+                "pp_rank": pp_rank,
+            }
+            if dp_rank is not None:
+                labels["dp_rank"] = dp_rank
+            self.metrics_collector = SchedulerMetricsCollector(labels=labels)
+
+    def init_kv_events(self, kv_events_config: Optional[str]):
+        if self.enable_kv_cache_events:
+            self.kv_event_publisher = EventPublisherFactory.create(
+                kv_events_config, self.attn_dp_rank
+            )
+
+    def log_prefill_stats(
+        self,
+        adder: PrefillAdder,
+        can_run_list: List[Req],
+        running_bs: int,
+    ):
+        gap_latency = time.perf_counter() - self.last_prefill_stats_tic
+        self.last_prefill_stats_tic = time.perf_counter()
+        self.last_input_throughput = self.last_prefill_tokens / gap_latency
+        self.last_prefill_tokens = adder.log_input_tokens
+
+        if self.is_hybrid:
+            (
+                full_num_used,
+                swa_num_used,
+                full_token_usage,
+                swa_token_usage,
+                _,
+                _,
+                _,
+                _,
+            ) = self._get_swa_token_info()
+            num_used = max(full_num_used, swa_num_used)
+            token_usage = max(full_token_usage, swa_token_usage)
+            token_msg = (
+                f"full token usage: {full_token_usage:.2f}, "
+                f"swa token usage: {swa_token_usage:.2f}, "
+            )
+        else:
+            num_used, token_usage, _, _ = self._get_token_info()
+            token_msg = f"token usage: {token_usage:.2f}, "
+
+        num_new_seq = len(can_run_list)
+        f = (
+            f"Prefill batch. "
+            f"#new-seq: {num_new_seq}, "
+            f"#new-token: {adder.log_input_tokens}, "
+            f"#cached-token: {adder.log_hit_tokens}, "
+            f"{token_msg}"
+        )
+
+        if self.disaggregation_mode == DisaggregationMode.PREFILL:
+            f += f"#unbootstrapped-req: {len(self.disagg_prefill_bootstrap_queue.queue)}, "
+            f += f"#queue-req: {len(self.waiting_queue)}, "
+            f += f"#transferring-req: {len(self.disagg_prefill_inflight_queue)}, "
+            f += f"input throughput (token/s): {self.last_input_throughput:.2f}, "
+        else:
+            f += f"#running-req: {running_bs}, "
+            f += f"#queue-req: {len(self.waiting_queue)}, "
+
+        logger.info(f)
+
+        if self.enable_metrics:
+            total_tokens = adder.log_input_tokens + adder.log_hit_tokens
+
+            cache_hit_rate = (
+                adder.log_hit_tokens / total_tokens if total_tokens > 0 else 0.0
+            )
+            self.stats.num_running_reqs = running_bs
+            self.stats.num_used_tokens = num_used
+            self.stats.token_usage = round(token_usage, 2)
+            self.stats.num_queue_reqs = len(self.waiting_queue)
+            self.stats.cache_hit_rate = cache_hit_rate
+
+            total_queue_latency = 0
+            for req in can_run_list:
+                total_queue_latency += req.queue_time_end - req.queue_time_start
+            self.stats.avg_request_queue_latency = total_queue_latency / num_new_seq
+
+            self.metrics_collector.log_stats(self.stats)
+            self._emit_kv_metrics()
+        self._publish_kv_events()
+
+    def log_decode_stats(
+        self, can_run_cuda_graph: bool, running_batch: ScheduleBatch = None
+    ):
+        batch = running_batch or self.running_batch
+
+        gap_latency = time.perf_counter() - self.last_decode_stats_tic
+        self.last_decode_stats_tic = time.perf_counter()
+        self.last_gen_throughput = self.num_generated_tokens / gap_latency
+        self.num_generated_tokens = 0
+        num_running_reqs = len(batch.reqs)
+        if self.is_hybrid:
+            (
+                full_num_used,
+                swa_num_used,
+                full_token_usage,
+                swa_token_usage,
+                _,
+                _,
+                _,
+                _,
+            ) = self._get_swa_token_info()
+            num_used = max(full_num_used, swa_num_used)
+            token_usage = max(full_token_usage, swa_token_usage)
+            token_msg = (
+                f"#full token: {full_num_used}, "
+                f"full token usage: {full_token_usage:.2f}, "
+                f"#swa token: {swa_num_used}, "
+                f"swa token usage: {swa_token_usage:.2f}, "
+            )
+        else:
+            num_used, token_usage, _, _ = self._get_token_info()
+            token_msg = f"#token: {num_used}, " f"token usage: {token_usage:.2f}, "
+
+        if RECORD_STEP_TIME:
+            self.step_time_dict[num_running_reqs].append(
+                gap_latency / self.server_args.decode_log_interval
+            )
+
+        msg = f"Decode batch. #running-req: {num_running_reqs}, {token_msg}"
+
+        if self.spec_algorithm.is_none():
+            spec_accept_length = 0
+        else:
+            spec_accept_length = (
+                self.spec_num_total_accepted_tokens / self.spec_num_total_forward_ct
+            )
+            self.cum_spec_accept_length += self.spec_num_total_accepted_tokens
+            self.cum_spec_accept_count += self.spec_num_total_forward_ct
+            self.spec_num_total_accepted_tokens = self.spec_num_total_forward_ct = 0
+            msg += f"accept len: {spec_accept_length:.2f}, "
+
+        if self.disaggregation_mode == DisaggregationMode.DECODE:
+            msg += f"pre-allocated usage: {self.disagg_decode_prealloc_queue.num_tokens_pre_allocated / self.max_total_num_tokens:.2f}, "
+            msg += f"#retracted-req: {len(self.disagg_decode_prealloc_queue.retracted_queue)}, "
+
+        msg += (
+            f"cuda graph: {can_run_cuda_graph}, "
+            f"gen throughput (token/s): {self.last_gen_throughput:.2f}, "
+            f"#queue-req: {len(self.waiting_queue)}, "
+        )
+
+        logger.info(msg)
+        if self.enable_metrics:
+            self.stats.num_running_reqs = num_running_reqs
+            self.stats.num_used_tokens = num_used
+            self.stats.token_usage = round(token_usage, 2)
+            self.stats.cache_hit_rate = 0.0
+            self.stats.gen_throughput = self.last_gen_throughput
+            self.stats.num_queue_reqs = len(self.waiting_queue)
+            self.stats.num_grammar_queue_reqs = len(self.grammar_queue)
+            self.stats.spec_accept_length = spec_accept_length
+            self.stats.total_retracted_reqs = self.total_retracted_reqs
+            self.metrics_collector.log_stats(self.stats)
+            self._emit_kv_metrics()
+        self._publish_kv_events()
+
+    def _emit_kv_metrics(self):
+        kv_metrics = KvMetrics()
+        kv_metrics.request_active_slots = self.stats.num_running_reqs
+        kv_metrics.request_total_slots = self.max_running_requests
+        kv_metrics.kv_active_blocks = int(
+            self.stats.token_usage * self.max_total_num_tokens
+        )
+        kv_metrics.kv_total_blocks = self.max_total_num_tokens
+        kv_metrics.num_requests_waiting = self.stats.num_queue_reqs
+        kv_metrics.gpu_cache_usage_perc = self.stats.token_usage
+        kv_metrics.gpu_prefix_cache_hit_rate = self.stats.cache_hit_rate
+        kv_metrics.data_parallel_rank = self.dp_rank if self.dp_rank is not None else 0
+
+        if not self.send_metrics_from_scheduler.closed:
+            self.send_metrics_from_scheduler.send_pyobj(kv_metrics)
+
+    def _publish_kv_events(self):
+        if self.enable_kv_cache_events:
+            events = self.tree_cache.take_events()
+            if events:
+                batch = KVEventBatch(ts=time.time(), events=events)
+                self.kv_event_publisher.publish(batch)
diff --git a/python/sglang/srt/managers/scheduler_profiler_mixin.py b/python/sglang/srt/managers/scheduler_profiler_mixin.py
new file mode 100644
index 000000000000..3d061a8fe143
--- /dev/null
+++ b/python/sglang/srt/managers/scheduler_profiler_mixin.py
@@ -0,0 +1,279 @@
+import logging
+import os
+import time
+from pathlib import Path
+from typing import List, Optional
+
+import torch
+
+from sglang.srt.managers.io_struct import ProfileReq, ProfileReqOutput, ProfileReqType
+from sglang.srt.model_executor.forward_batch_info import ForwardMode
+
+logger = logging.getLogger(__name__)
+
+
+class SchedulerProfilerMixin:
+
+    def init_profier(self):
+        self.torch_profiler = None
+        self.torch_profiler_output_dir: Optional[str] = None
+        self.profiler_activities: Optional[List[str]] = None
+        self.profile_id: Optional[str] = None
+        self.profiler_start_forward_ct: Optional[int] = None
+        self.profiler_target_forward_ct: Optional[int] = None
+        self.profiler_target_prefill_ct: Optional[int] = None
+        self.profiler_target_decode_ct: Optional[int] = None
+        self.profiler_prefill_ct: Optional[int] = None
+        self.profiler_decode_ct: Optional[int] = None
+        self.profile_by_stage: bool = False
+        self.profile_steps: Optional[int] = None
+        self.profile_in_progress: bool = False
+        self.rpd_profiler = None
+
+    def init_profile(
+        self,
+        output_dir: Optional[str],
+        start_step: Optional[int],
+        num_steps: Optional[int],
+        activities: Optional[List[str]],
+        with_stack: Optional[bool],
+        record_shapes: Optional[bool],
+        profile_by_stage: bool,
+        profile_id: str,
+    ) -> ProfileReqOutput:
+        if self.profile_in_progress:
+            return ProfileReqOutput(
+                success=False,
+                message="Profiling is already in progress. Call /stop_profile first.",
+            )
+
+        self.profile_by_stage = profile_by_stage
+
+        if output_dir is None:
+            output_dir = os.getenv("SGLANG_TORCH_PROFILER_DIR", "/tmp")
+        if activities is None:
+            activities = ["CPU", "GPU"]
+
+        self.torch_profiler_output_dir = output_dir
+        self.torch_profiler_with_stack = with_stack
+        self.torch_profiler_record_shapes = record_shapes
+        self.profiler_activities = activities
+        self.profile_id = profile_id
+
+        if start_step:
+            self.profiler_start_forward_ct = max(start_step, self.forward_ct + 1)
+
+        if num_steps:
+            self.profile_steps = num_steps
+            if self.profile_by_stage:
+                self.profiler_target_prefill_ct = num_steps
+                self.profiler_target_decode_ct = num_steps
+                self.profiler_prefill_ct = 0
+                self.profiler_decode_ct = 0
+            elif start_step:
+                self.profiler_target_forward_ct = (
+                    self.profiler_start_forward_ct + num_steps
+                )
+            else:
+                self.profiler_target_forward_ct = self.forward_ct + num_steps
+            # The caller will be notified when reaching profiler_target_forward_ct
+        else:
+            self.profiler_target_forward_ct = None
+
+        return ProfileReqOutput(success=True, message="Succeeded")
+
+    def start_profile(
+        self, stage: Optional[ForwardMode] = None
+    ) -> ProfileReqOutput | None:
+        stage_str = f" for {stage.__str__()}" if stage else ""
+        logger.info(
+            f"Profiling starts{stage_str}. Traces will be saved to: {self.torch_profiler_output_dir} (with profile id: {self.profile_id})",
+        )
+
+        activities = self.profiler_activities
+        with_stack = self.torch_profiler_with_stack
+        record_shapes = self.torch_profiler_record_shapes
+
+        activity_map = {
+            "CPU": torch.profiler.ProfilerActivity.CPU,
+            "GPU": torch.profiler.ProfilerActivity.CUDA,
+        }
+        torchprof_activities = [
+            activity_map[a] for a in activities if a in activity_map
+        ]
+
+        if "RPD" in activities:
+            from rpdTracerControl import rpdTracerControl
+
+            rpdTracerControl.skipCreate()
+
+            self.rpd_profile_path = os.path.join(
+                self.torch_profiler_output_dir,
+                "rpd-" + str(time.time()) + f"-TP-{self.tp_rank}" + ".trace.json.gz",
+            )
+
+            if self.tp_rank == 0:
+                import sqlite3
+
+                from rocpd.schema import RocpdSchema
+
+                if os.path.exists("trace.rpd"):
+                    os.unlink("trace.rpd")
+                schema = RocpdSchema()
+                connection = sqlite3.connect("trace.rpd")
+                schema.writeSchema(connection)
+                connection.commit()
+                del connection
+            torch.distributed.barrier(self.tp_cpu_group)
+
+            self.rpd_profiler = rpdTracerControl()
+            self.rpd_profiler.setPythonTrace(True)
+            self.rpd_profiler.start()
+            self.rpd_profiler.rangePush("", "rpd profile range", "")
+            self.profile_in_progress = True
+        elif torchprof_activities:
+            self.torch_profiler = torch.profiler.profile(
+                activities=torchprof_activities,
+                with_stack=with_stack if with_stack is not None else True,
+                record_shapes=record_shapes if record_shapes is not None else False,
+            )
+            self.torch_profiler.start()
+            self.profile_in_progress = True
+
+        if "MEM" in activities:
+            torch.cuda.memory._record_memory_history(max_entries=100000)
+            self.profile_in_progress = True
+
+        if "CUDA_PROFILER" in activities:
+            torch.cuda.cudart().cudaProfilerStart()
+            self.profile_in_progress = True
+
+        return ProfileReqOutput(success=True, message="Succeeded")
+
+    def stop_profile(
+        self, stage: Optional[ForwardMode] = None
+    ) -> ProfileReqOutput | None:
+        if not self.profile_in_progress:
+            return ProfileReqOutput(
+                success=False,
+                message="Profiling is not in progress. Call /start_profile first.",
+            )
+
+        if not Path(self.torch_profiler_output_dir).exists():
+            Path(self.torch_profiler_output_dir).mkdir(parents=True, exist_ok=True)
+
+        stage_suffix = f"-{stage.__str__()}" if stage else ""
+        logger.info("Stop profiling" + stage_suffix + "...")
+        if self.torch_profiler is not None:
+            self.torch_profiler.stop()
+            self.torch_profiler.export_chrome_trace(
+                os.path.join(
+                    self.torch_profiler_output_dir,
+                    self.profile_id
+                    + f"-TP-{self.tp_rank}"
+                    + stage_suffix
+                    + ".trace.json.gz",
+                )
+            )
+            torch.distributed.barrier(self.tp_cpu_group)
+
+        if self.rpd_profiler is not None:
+            self.rpd_profiler.rangePop()
+            self.rpd_profiler.stop()
+            self.rpd_profiler.flush()
+
+            torch.distributed.barrier(self.tp_cpu_group)
+            if self.tp_rank == 0:
+                from sglang.srt.utils import rpd_to_chrome_trace
+
+                rpd_to_chrome_trace("trace.rpd", self.rpd_profile_path)
+            self.rpd_profiler = None
+            self.rpd_profiler_path = None
+
+        if self.profiler_activities is not None and "MEM" in self.profiler_activities:
+            memory_profile_path = os.path.join(
+                self.torch_profiler_output_dir,
+                str(time.time())
+                + f"-TP-{self.tp_rank}-memory"
+                + stage_suffix
+                + ".pickle",
+            )
+            torch.cuda.memory._dump_snapshot(memory_profile_path)
+            torch.cuda.memory._record_memory_history(enabled=None)
+
+        if "CUDA_PROFILER" in self.profiler_activities:
+            torch.cuda.cudart().cudaProfilerStop()
+
+        logger.info(
+            "Profiling done. Traces are saved to: %s",
+            self.torch_profiler_output_dir,
+        )
+        self.torch_profiler = None
+        self.profile_in_progress = False
+        self.profiler_start_forward_ct = None
+
+        return ProfileReqOutput(success=True, message="Succeeded.")
+
+    def _profile_batch_predicate(self, batch):
+        if self.profile_by_stage:
+            if batch.forward_mode.is_prefill():
+                if self.profiler_prefill_ct == 0:
+                    self.start_profile(batch.forward_mode)
+                self.profiler_prefill_ct += 1
+                if self.profiler_prefill_ct > self.profiler_target_prefill_ct:
+                    if self.profile_in_progress:
+                        self.stop_profile(stage=ForwardMode.EXTEND)
+            elif batch.forward_mode.is_decode():
+                if self.profiler_decode_ct == 0:
+                    if self.profile_in_progress:
+                        # force trace flush
+                        self.stop_profile(ForwardMode.EXTEND)
+                    self.start_profile(batch.forward_mode)
+                self.profiler_decode_ct += 1
+                if self.profiler_decode_ct > self.profiler_target_decode_ct:
+                    if self.profile_in_progress:
+                        self.stop_profile(stage=ForwardMode.DECODE)
+            elif batch.forward_mode.is_idle():
+                pass
+            else:
+                raise RuntimeError(f"unsupported profile stage: {batch.forward_mode}")
+        else:
+            # Check profiler
+            if (
+                self.profiler_target_forward_ct
+                and self.profiler_target_forward_ct <= self.forward_ct
+            ):
+                self.stop_profile()
+            if (
+                self.profiler_start_forward_ct
+                and self.profiler_start_forward_ct == self.forward_ct
+            ):
+                self.start_profile()
+
+    def profile(self, recv_req: ProfileReq):
+        if recv_req.type == ProfileReqType.START_PROFILE:
+            if recv_req.profile_by_stage or recv_req.start_step:
+                return self.init_profile(
+                    recv_req.output_dir,
+                    recv_req.start_step,
+                    recv_req.num_steps,
+                    recv_req.activities,
+                    recv_req.with_stack,
+                    recv_req.record_shapes,
+                    recv_req.profile_by_stage,
+                    recv_req.profile_id,
+                )
+            else:
+                self.init_profile(
+                    recv_req.output_dir,
+                    recv_req.start_step,
+                    recv_req.num_steps,
+                    recv_req.activities,
+                    recv_req.with_stack,
+                    recv_req.record_shapes,
+                    recv_req.profile_by_stage,
+                    recv_req.profile_id,
+                )
+                return self.start_profile(True)
+        else:
+            return self.stop_profile()
diff --git a/python/sglang/srt/managers/scheduler_update_weights_mixin.py b/python/sglang/srt/managers/scheduler_update_weights_mixin.py
new file mode 100644
index 000000000000..eba92a2e0894
--- /dev/null
+++ b/python/sglang/srt/managers/scheduler_update_weights_mixin.py
@@ -0,0 +1,142 @@
+import logging
+from typing import Tuple
+
+import torch
+
+from sglang.srt.constants import GPU_MEMORY_TYPE_KV_CACHE, GPU_MEMORY_TYPE_WEIGHTS
+from sglang.srt.managers.io_struct import (
+    GetWeightsByNameReqInput,
+    GetWeightsByNameReqOutput,
+    InitWeightsUpdateGroupReqInput,
+    InitWeightsUpdateGroupReqOutput,
+    ReleaseMemoryOccupationReqInput,
+    ReleaseMemoryOccupationReqOutput,
+    ResumeMemoryOccupationReqInput,
+    ResumeMemoryOccupationReqOutput,
+    UpdateWeightFromDiskReqInput,
+    UpdateWeightFromDiskReqOutput,
+    UpdateWeightsFromDistributedReqInput,
+    UpdateWeightsFromDistributedReqOutput,
+    UpdateWeightsFromTensorReqInput,
+    UpdateWeightsFromTensorReqOutput,
+)
+
+logger = logging.getLogger(__name__)
+
+
+class SchedulerUpdateWeightsMixin:
+
+    def update_weights_from_disk(self, recv_req: UpdateWeightFromDiskReqInput):
+        """In-place update of the weights from disk."""
+        success, message = self.tp_worker.update_weights_from_disk(recv_req)
+        if success:
+            flush_cache_success = self.flush_cache()
+            assert flush_cache_success, "Cache flush failed after updating weights"
+        else:
+            logger.error(message)
+        return UpdateWeightFromDiskReqOutput(success, message, 0)
+
+    def init_weights_update_group(self, recv_req: InitWeightsUpdateGroupReqInput):
+        """Initialize the online model parameter update group."""
+        success, message = self.tp_worker.init_weights_update_group(recv_req)
+        return InitWeightsUpdateGroupReqOutput(success, message)
+
+    def update_weights_from_distributed(
+        self,
+        recv_req: UpdateWeightsFromDistributedReqInput,
+    ) -> Tuple[bool, str]:
+        """Update the online model parameter."""
+        success, message = self.tp_worker.update_weights_from_distributed(recv_req)
+        if success:
+            if recv_req.flush_cache:
+                flush_cache_success = self.flush_cache()
+                assert flush_cache_success, "Cache flush failed after updating weights"
+        else:
+            logger.error(message)
+        return UpdateWeightsFromDistributedReqOutput(success, message)
+
+    def update_weights_from_tensor(self, recv_req: UpdateWeightsFromTensorReqInput):
+        """Update the online model parameter from tensors."""
+        success, message = self.tp_worker.update_weights_from_tensor(recv_req)
+        # TODO extract common code b/t update_weights_from_distributed and update_weights_from_tensor later
+        if success:
+            if recv_req.flush_cache:
+                flush_cache_success = self.flush_cache()
+                assert flush_cache_success, "Cache flush failed after updating weights"
+        else:
+            logger.error(message)
+        torch.distributed.barrier(group=self.tp_cpu_group)
+        return UpdateWeightsFromTensorReqOutput(success, message)
+
+    def get_weights_by_name(self, recv_req: GetWeightsByNameReqInput):
+        parameter = self.tp_worker.get_weights_by_name(recv_req)
+        return GetWeightsByNameReqOutput(parameter)
+
+    def release_memory_occupation(self, recv_req: ReleaseMemoryOccupationReqInput):
+        tags = recv_req.tags
+
+        if tags is None or len(tags) == 0:
+            tags = [GPU_MEMORY_TYPE_WEIGHTS, GPU_MEMORY_TYPE_KV_CACHE]
+
+        if GPU_MEMORY_TYPE_KV_CACHE in tags:
+            self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_KV_CACHE)
+            self.flush_cache()
+
+        if GPU_MEMORY_TYPE_WEIGHTS in tags:
+            self.stashed_model_static_state = _export_static_state(
+                self.tp_worker.worker.model_runner.model
+            )
+            torch.distributed.barrier(self.tp_cpu_group)
+            self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_WEIGHTS)
+
+        return ReleaseMemoryOccupationReqOutput()
+
+    def resume_memory_occupation(self, recv_req: ResumeMemoryOccupationReqInput):
+        tags = recv_req.tags
+
+        if tags is None or len(tags) == 0:
+            tags = [GPU_MEMORY_TYPE_WEIGHTS, GPU_MEMORY_TYPE_KV_CACHE]
+
+        if GPU_MEMORY_TYPE_WEIGHTS in tags:
+            self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_WEIGHTS)
+            torch.distributed.barrier(self.tp_cpu_group)
+            _import_static_state(
+                self.tp_worker.worker.model_runner.model,
+                self.stashed_model_static_state,
+            )
+            del self.stashed_model_static_state
+
+        if GPU_MEMORY_TYPE_KV_CACHE in tags:
+            self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_KV_CACHE)
+
+        return ResumeMemoryOccupationReqOutput()
+
+    def save_remote_model(self, params):
+        url = params["url"]
+
+        worker = self.tp_worker.worker
+
+        worker.model_runner.save_remote_model(url)
+
+    def save_sharded_model(self, params):
+        worker = self.tp_worker.worker
+
+        worker.model_runner.save_sharded_model(
+            path=params["path"],
+            pattern=params["pattern"],
+            max_size=params["max_size"],
+        )
+
+
+def _export_static_state(model):
+    return dict(
+        buffers=[
+            (name, buffer.detach().clone()) for name, buffer in model.named_buffers()
+        ]
+    )
+
+
+def _import_static_state(model, static_params):
+    self_named_buffers = dict(model.named_buffers())
+    for name, tensor in static_params["buffers"]:
+        self_named_buffers[name][...] = tensor
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 700e62ed4d55..9250c6866eef 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -170,16 +170,6 @@ class ReqState:
     output_token_ids_logprobs_idx: List = dataclasses.field(default_factory=list)
 
 
-def _determine_tensor_transport_mode(server_args: ServerArgs) -> TensorTransportMode:
-    is_cross_node = server_args.dist_init_addr
-
-    if is_cross_node:
-        # Fallback to default CPU transport for multi-node
-        return "default"
-    else:
-        return "cuda_ipc"
-
-
 class TokenizerManager:
     """TokenizerManager is a process that tokenizes the text."""
 
@@ -199,16 +189,6 @@ def __init__(
             else None
         )
         self.crash_dump_folder = server_args.crash_dump_folder
-        self.crash_dump_performed = False  # Flag to ensure dump is only called once
-
-        # Init inter-process communication
-        context = zmq.asyncio.Context(2)
-        self.recv_from_detokenizer = get_zmq_socket(
-            context, zmq.PULL, port_args.tokenizer_ipc_name, True
-        )
-        self.send_to_scheduler = get_zmq_socket(
-            context, zmq.PUSH, port_args.scheduler_input_ipc_name, True
-        )
 
         # Read model args
         self.model_path = server_args.model_path
@@ -218,8 +198,7 @@ def __init__(
         self.is_image_gen = self.model_config.is_image_gen
         self.context_len = self.model_config.context_len
         self.image_token_id = self.model_config.image_token_id
-        self._updating = False
-        self._cond = asyncio.Condition()
+        self.max_req_input_len = None  # Will be set later in engine.py
 
         if self.model_config.is_multimodal:
             import_processors()
@@ -258,39 +237,57 @@ def __init__(
                     revision=server_args.revision,
                 )
 
-        # Initialize the `LoRARegistry` with initial LoRA adapter paths provided in `server_args`.
-        # The registry dynamically updates as adapters are loaded / unloaded during runtime. It
-        # serves as the source of truth for available adapters and maps user-friendly LoRA names
-        # to internally used unique LoRA IDs.
-        self.lora_registry = LoRARegistry(self.server_args.lora_paths or {})
+        # Init inter-process communication
+        context = zmq.asyncio.Context(2)
+        self.recv_from_detokenizer = get_zmq_socket(
+            context, zmq.PULL, port_args.tokenizer_ipc_name, True
+        )
+        self.send_to_scheduler = get_zmq_socket(
+            context, zmq.PUSH, port_args.scheduler_input_ipc_name, True
+        )
 
-        # Store states
+        # Request states
         self.no_create_loop = False
         self.rid_to_state: Dict[str, ReqState] = {}
+        self.asyncio_tasks = set()
+
+        # Health check
         self.health_check_failed = False
         self.gracefully_exit = False
         self.last_receive_tstamp = 0
+
+        # Dumping
         self.dump_requests_folder = ""  # By default do not dump
         self.dump_requests_threshold = 1000
         self.dump_request_list: List[Tuple] = []
-        self.crash_dump_request_list: deque[Tuple] = deque()
         self.log_request_metadata = self.get_log_request_metadata()
+        self.crash_dump_request_list: deque[Tuple] = deque()
+        self.crash_dump_performed = False  # Flag to ensure dump is only called once
+
+        # Session
         self.session_futures = {}  # session_id -> asyncio event
-        self.max_req_input_len = None
-        self.asyncio_tasks = set()
 
+        # Weight updates
         # The event to notify the weight sync is finished.
         self.model_update_lock = RWLock()
         self.model_update_result: Optional[Awaitable[UpdateWeightFromDiskReqOutput]] = (
             None
         )
+        self._is_updating = False
+        self._is_updating_cond = asyncio.Condition()
 
+        # LoRA
+        # Initialize the `LoRARegistry` with initial LoRA adapter paths provided in `server_args`.
+        # The registry dynamically updates as adapters are loaded / unloaded during runtime. It
+        # serves as the source of truth for available adapters and maps user-friendly LoRA names
+        # to internally used unique LoRA IDs.
+        self.lora_registry = LoRARegistry(self.server_args.lora_paths or {})
         # Lock to serialize LoRA update operations.
         # Please note that, unlike `model_update_lock`, this does not block inference, allowing
         # LoRA updates and inference to overlap.
         self.lora_update_lock = asyncio.Lock()
 
-        # For pd disaggregtion
+        # For PD disaggregtion
         self.disaggregation_mode = DisaggregationMode(
             self.server_args.disaggregation_mode
         )
@@ -458,17 +455,11 @@ async def generate_request(
         request: Optional[fastapi.Request] = None,
     ):
         created_time = time.time()
-        async with self._cond:
-            await self._cond.wait_for(lambda: not self._updating)
-
         self.auto_create_handle_loop()
         obj.normalize_batch_and_arguments()
 
-        if isinstance(obj, EmbeddingReqInput) and self.is_generation:
-            raise ValueError(
-                "This model does not appear to be an embedding model by default. "
-                "Please add `--is-embedding` when launching the server or try another model."
-            )
+        async with self._is_updating_cond:
+            await self._is_updating_cond.wait_for(lambda: not self._is_updating)
 
         if self.log_requests:
             max_length, skip_names, _ = self.log_request_metadata
@@ -567,6 +558,12 @@ def _validate_one_request(
                 f"model's context length ({self.context_len} tokens)."
             )
 
+        if isinstance(obj, EmbeddingReqInput) and self.is_generation:
+            raise ValueError(
+                "This model does not appear to be an embedding model by default. "
+                "Please add `--is-embedding` when launching the server or try another model."
+            )
+
         # Check total tokens (input + max_new_tokens)
         max_new_tokens = obj.sampling_params.get("max_new_tokens")
         if (
@@ -959,14 +956,14 @@ async def dump_expert_distribution_record(self):
         await self.expert_distribution_communicator(ExpertDistributionReq.DUMP_RECORD)
 
     async def pause_generation(self):
-        async with self._cond:
-            self._updating = True
+        async with self._is_updating_cond:
+            self._is_updating = True
             self.abort_request(abort_all=True)
 
     async def continue_generation(self):
-        async with self._cond:
-            self._updating = False
-            self._cond.notify_all()
+        async with self._is_updating_cond:
+            self._is_updating = False
+            self._is_updating_cond.notify_all()
 
     async def update_weights_from_disk(
         self,
@@ -1208,14 +1205,6 @@ async def get_internal_state(self) -> List[Dict[Any, Any]]:
         # Many DP ranks
         return [res.internal_state for res in responses]
 
-    async def get_load(self) -> dict:
-        # TODO(lsyin): fake load report server
-        if not self.current_load_lock.locked():
-            async with self.current_load_lock:
-                internal_state = await self.get_internal_state()
-                self.current_load = internal_state[0]["load"]
-        return {"load": self.current_load}
-
     async def set_internal_state(
         self, obj: SetInternalStateReq
     ) -> SetInternalStateReqOutput:
@@ -1224,6 +1213,14 @@ async def set_internal_state(
         )
         return [res.internal_state for res in responses]
 
+    async def get_load(self) -> dict:
+        # TODO(lsyin): fake load report server
+        if not self.current_load_lock.locked():
+            async with self.current_load_lock:
+                internal_state = await self.get_internal_state()
+                self.current_load = internal_state[0]["load"]
+        return {"load": self.current_load}
+
     def get_log_request_metadata(self):
         max_length = None
         skip_names = None
@@ -1343,11 +1340,24 @@ def dump_requests_before_crash(self):
                 "SIGTERM/SIGQUIT/Exception triggered, but crash dump already performed, skipping."
             )
             return
-        logger.error(f"Dumping requests before crash. {self.crash_dump_folder=}")
-        self.crash_dump_performed = True
+
         if not self.crash_dump_folder:
             return
 
+        logger.error(f"Dumping requests before crash. {self.crash_dump_folder=}")
+        self.crash_dump_performed = True
+
+        # Check if NFS directory is available
+        # expected_nfs_dir = "/" + self.crash_dump_folder.lstrip("/").split("/")[0]
+        # use_nfs_dir = os.path.isdir(expected_nfs_dir) and os.access(
+        #     expected_nfs_dir, os.W_OK
+        # )
+        use_nfs_dir = False
+        if not use_nfs_dir:
+            logger.error(
+                f"Expected NFS directory is not available or writable. Uploading to GCS."
+            )
+
         data_to_dump = []
         if self.crash_dump_request_list:
             data_to_dump.extend(self.crash_dump_request_list)
@@ -1357,7 +1367,12 @@ def dump_requests_before_crash(self):
         for rid, state in self.rid_to_state.items():
             if not state.finished:
                 unfinished_requests.append(
-                    (state.obj, {}, state.created_time, time.time())
+                    (
+                        state.obj,
+                        state.out_list[-1] if state.out_list else {},
+                        state.created_time,
+                        time.time(),
+                    )
                 )
         if unfinished_requests:
             data_to_dump.extend(unfinished_requests)
@@ -1365,10 +1380,11 @@ def dump_requests_before_crash(self):
         if not data_to_dump:
             return
 
+        object_name = f'crash_dump_{datetime.now().strftime("%Y-%m-%d_%H-%M-%S")}.pkl'
         filename = os.path.join(
             self.crash_dump_folder,
             os.getenv("HOSTNAME", None),
-            f"crash_dump_{datetime.now().strftime('%Y-%m-%d_%H-%M-%S')}.pkl",
+            object_name,
         )
 
         os.makedirs(os.path.dirname(filename), exist_ok=True)
@@ -1383,6 +1399,24 @@ def dump_requests_before_crash(self):
             f"Dumped {len(self.crash_dump_request_list)} finished and {len(unfinished_requests)} unfinished requests before crash to {filename}"
         )
 
+        def _upload_file_to_gcs(bucket_name, source_file_path, object_name):
+            from google.cloud import storage
+
+            client = storage.Client()
+            bucket = client.bucket(bucket_name)
+            blob = bucket.blob(object_name)
+            blob.upload_from_filename(source_file_path, if_generation_match=0)
+            logger.error(
+                f"Successfully uploaded {source_file_path} to gs://{bucket_name}/{object_name}"
+            )
+
+        if not use_nfs_dir:
+            _upload_file_to_gcs(
+                "sglang_crash_dump",
+                filename,
+                os.getenv("HOSTNAME", None) + "/" + object_name,
+            )
+
     async def sigterm_watchdog(self):
         while not self.gracefully_exit:
             await asyncio.sleep(5)
@@ -1426,7 +1460,7 @@ async def handle_loop(self):
         while True:
             recv_obj = await self.recv_from_detokenizer.recv_pyobj()
             self._result_dispatcher(recv_obj)
-            self.last_receive_tstamp = time.perf_counter()
+            self.last_receive_tstamp = time.time()
 
     def _handle_batch_output(
         self,
@@ -1697,24 +1731,13 @@ def dump_requests(self, state: ReqState, out_dict: dict):
                 self.dump_requests_folder,
                 datetime.now().strftime("%Y-%m-%d_%H-%M-%S") + ".pkl",
             )
-            logger.info(f"Dump {len(self.dump_request_list)} requests to {filename}")
-
-            to_dump = self.dump_request_list
+            self._dump_data_to_file(
+                data_list=self.dump_request_list,
+                filename=filename,
+                log_message=f"Dump {len(self.dump_request_list)} requests to {filename}",
+            )
             self.dump_request_list = []
 
-            to_dump_with_server_args = {
-                "server_args": self.server_args,
-                "requests": to_dump,
-            }
-
-            def background_task():
-                os.makedirs(self.dump_requests_folder, exist_ok=True)
-                with open(filename, "wb") as f:
-                    pickle.dump(to_dump_with_server_args, f)
-
-            # Schedule the task to run in the background without awaiting it
-            asyncio.create_task(asyncio.to_thread(background_task))
-
     def record_request_for_crash_dump(self, state: ReqState, out_dict: dict):
         current_time = time.time()
         self.crash_dump_request_list.append(
@@ -1727,6 +1750,22 @@ def record_request_for_crash_dump(self, state: ReqState, out_dict: dict):
         ):
             self.crash_dump_request_list.popleft()
 
+    def _dump_data_to_file(
+        self, data_list: List[Tuple], filename: str, log_message: str
+    ):
+        logger.info(log_message)
+        to_dump_with_server_args = {
+            "server_args": self.server_args,
+            "requests": data_list.copy(),
+        }
+
+        def background_task():
+            os.makedirs(os.path.dirname(filename), exist_ok=True)
+            with open(filename, "wb") as f:
+                pickle.dump(to_dump_with_server_args, f)
+
+        asyncio.create_task(asyncio.to_thread(background_task))
+
     def _handle_abort_req(self, recv_obj):
         state = self.rid_to_state[recv_obj.rid]
         state.finished = True
@@ -1862,6 +1901,16 @@ async def score_request(
         return scores
 
 
+def _determine_tensor_transport_mode(server_args: ServerArgs) -> TensorTransportMode:
+    is_cross_node = server_args.dist_init_addr
+
+    if is_cross_node:
+        # Fallback to default CPU transport for multi-node
+        return "default"
+    else:
+        return "cuda_ipc"
+
+
 async def print_exception_wrapper(func):
     """
     Sometimes an asyncio function does not print exception.
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index dc0c6cd1acab..856d68138d0b 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -2071,6 +2071,9 @@ def init_new(server_args, dp_rank: Optional[int] = None) -> "PortArgs":
 
             dist_init_host, dist_init_port = dist_init_addr
             port_base = int(dist_init_port) + 1
+            detokenizer_port = port_base + 1
+            rpc_port = port_base + 2
+            metrics_ipc_name = port_base + 3
             if dp_rank is None:
                 # TokenizerManager to DataParallelController
                 scheduler_input_port = port_base + 4
@@ -2080,10 +2083,10 @@ def init_new(server_args, dp_rank: Optional[int] = None) -> "PortArgs":
             return PortArgs(
                 tokenizer_ipc_name=f"tcp://{dist_init_host}:{port_base}",
                 scheduler_input_ipc_name=f"tcp://{dist_init_host}:{scheduler_input_port}",
-                detokenizer_ipc_name=f"tcp://{dist_init_host}:{port_base + 1}",
+                detokenizer_ipc_name=f"tcp://{dist_init_host}:{detokenizer_port}",
                 nccl_port=nccl_port,
-                rpc_ipc_name=f"tcp://{dist_init_host}:{port_base + 2}",
-                metrics_ipc_name=f"tcp://{dist_init_host}:{port_base + 3}",
+                rpc_ipc_name=f"tcp://{dist_init_host}:{rpc_port}",
+                metrics_ipc_name=f"tcp://{dist_init_host}:{metrics_ipc_name}",
             )
 
 
diff --git a/python/sglang/utils.py b/python/sglang/utils.py
index b7600b1a6452..0ba6d46c3d6e 100644
--- a/python/sglang/utils.py
+++ b/python/sglang/utils.py
@@ -291,17 +291,6 @@ def find_printable_text(text: str):
         return text[: text.rfind(" ") + 1]
 
 
-def graceful_registry(sub_module_name: str):
-    def graceful_shutdown(signum, frame):
-        logger.info(
-            f"{sub_module_name} Received signal to shutdown. Performing graceful shutdown..."
-        )
-        if signum == signal.SIGTERM:
-            logger.info(f"{sub_module_name} receive sigterm")
-
-    signal.signal(signal.SIGTERM, graceful_shutdown)
-
-
 class LazyImport:
     """Lazy import to make `import sglang` run faster."""
 

From c0fd77e8397484fd24ace90df0bbfa3bdfef4841 Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Tue, 29 Jul 2025 13:14:18 -0700
Subject: [PATCH 219/396] bring back kimi vl ci (#8537)

---
 test/srt/test_vision_openai_server_b.py | 43 ++++++++++++-----------
 test/srt/test_vlm_input_format.py       | 45 ++++++++++++-------------
 2 files changed, 43 insertions(+), 45 deletions(-)

diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index 3d1b6519c294..f5b33a72e380 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -172,29 +172,28 @@ def setUpClass(cls):
         cls.base_url += "/v1"
 
 
-# commented out before https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/discussions/27 get fixed
-# class TestKimiVLServer(TestOpenAIVisionServer):
-#     @classmethod
-#     def setUpClass(cls):
-#         cls.model = "moonshotai/Kimi-VL-A3B-Instruct"
-#         cls.base_url = DEFAULT_URL_FOR_TEST
-#         cls.api_key = "sk-123456"
-#         cls.process = popen_launch_server(
-#             cls.model,
-#             cls.base_url,
-#             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-#             other_args=[
-#                 "--trust-remote-code",
-#                 "--context-length",
-#                 "4096",
-#                 "--dtype",
-#                 "bfloat16",
-#             ],
-#         )
-#         cls.base_url += "/v1"
+class TestKimiVLServer(TestOpenAIVisionServer):
+    @classmethod
+    def setUpClass(cls):
+        cls.model = "moonshotai/Kimi-VL-A3B-Instruct"
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.api_key = "sk-123456"
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            other_args=[
+                "--trust-remote-code",
+                "--context-length",
+                "4096",
+                "--dtype",
+                "bfloat16",
+            ],
+        )
+        cls.base_url += "/v1"
 
-#     def test_video_images_chat_completion(self):
-#         pass
+    def test_video_images_chat_completion(self):
+        pass
 
 
 class TestPhi4MMServer(TestOpenAIVisionServer):
diff --git a/test/srt/test_vlm_input_format.py b/test/srt/test_vlm_input_format.py
index 39f28a4b3cf8..4f9ad64c3294 100644
--- a/test/srt/test_vlm_input_format.py
+++ b/test/srt/test_vlm_input_format.py
@@ -189,32 +189,31 @@ def _pixel_values_image_data(self, processor_output):
         )
 
 
-# commented out before https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/discussions/27 get fixed
-# class TestKimiVLImageUnderstandsImage(
-#     VLMInputTestBase, unittest.IsolatedAsyncioTestCase
-# ):
-#     model_path = "moonshotai/Kimi-VL-A3B-Instruct"
-#     chat_template = "kimi-vl"
+class TestKimiVLImageUnderstandsImage(
+    VLMInputTestBase, unittest.IsolatedAsyncioTestCase
+):
+    model_path = "moonshotai/Kimi-VL-A3B-Instruct"
+    chat_template = "kimi-vl"
 
-#     @classmethod
-#     def _init_visual(cls):
-#         model = AutoModel.from_pretrained(cls.model_path, trust_remote_code=True)
-#         cls.vision_tower = model.vision_tower.eval().to(cls.device)
-#         cls.mm_projector = model.multi_modal_projector.eval().to(cls.device)
+    @classmethod
+    def _init_visual(cls):
+        model = AutoModel.from_pretrained(cls.model_path, trust_remote_code=True)
+        cls.vision_tower = model.vision_tower.eval().to(cls.device)
+        cls.mm_projector = model.multi_modal_projector.eval().to(cls.device)
 
-#         cls.visual = lambda tokenizer_output: cls.mm_projector(
-#             cls.vision_tower(
-#                 pixel_values=tokenizer_output["pixel_values"],
-#                 grid_hws=tokenizer_output["image_grid_hws"],
-#             )
-#         )
+        cls.visual = lambda tokenizer_output: cls.mm_projector(
+            cls.vision_tower(
+                pixel_values=tokenizer_output["pixel_values"],
+                grid_hws=tokenizer_output["image_grid_hws"],
+            )
+        )
 
-#     def _pixel_values_image_data(self, processor_output):
-#         return dict(
-#             modality="IMAGE",
-#             pixel_values=processor_output["pixel_values"],
-#             image_grid_hws=processor_output["image_grid_hws"],
-#         )
+    def _pixel_values_image_data(self, processor_output):
+        return dict(
+            modality="IMAGE",
+            pixel_values=processor_output["pixel_values"],
+            image_grid_hws=processor_output["image_grid_hws"],
+        )
 
 
 # not for CI: too large

From 1992ef9ba76bda9496bb06711844a516ffb04ca6 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Wed, 30 Jul 2025 06:42:03 +0800
Subject: [PATCH 220/396] fix: temporarily disable cuda-ipc for mm data tensor
 (#8431)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 .../multimodal/processors/base_processor.py   | 22 ++++++-------------
 1 file changed, 7 insertions(+), 15 deletions(-)

diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 3f62a14d1e4e..c7df9265d34f 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -221,6 +221,13 @@ def process_mm_data(
             return_tensors="pt",
             **kwargs,
         )
+        # move feature tensors to cpu
+        for feature_name in self.FEATURE_NAMES:
+            if feature_name in result and isinstance(
+                result[feature_name], torch.Tensor
+            ):
+                result[feature_name] = result[feature_name].to("cpu")
+
         return result
 
     @abstractmethod
@@ -623,19 +630,4 @@ def process_and_combine_mm_data(
                 mm_token_id=mm_token_id,
             )
 
-        # post-process
-        for item in all_collected_items:
-            # replace the feature tensor with a proxy
-            if isinstance(item.feature, torch.Tensor) and item.feature.is_cuda:
-                item.feature = TransportProxyTensor(
-                    transport_mode=self.transport_mode, data=item.feature
-                )
-            elif (
-                isinstance(item.precomputed_embeddings, torch.Tensor)
-                and item.precomputed_embeddings.is_cuda
-            ):
-                item.precomputed_embeddings = TransportProxyTensor(
-                    transport_mode=self.transport_mode, data=item.precomputed_embeddings
-                )
-
         return all_collected_items, input_ids, ret

From 9effeb5bddf2e58fb35f274f0c03162b079db781 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Tue, 29 Jul 2025 16:02:41 -0700
Subject: [PATCH 221/396] Support EPLB in FusedMoE (#8448)

---
 python/sglang/srt/eplb/expert_distribution.py |  5 +++
 python/sglang/srt/eplb/expert_location.py     | 23 +++++++---
 .../srt/eplb/expert_location_dispatch.py      |  1 +
 .../srt/eplb/expert_location_updater.py       |  2 +
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 19 ++++++--
 .../srt/layers/moe/fused_moe_triton/layer.py  | 45 ++++++++++++++++++-
 python/sglang/srt/models/deepseek_v2.py       |  2 +
 python/sglang/srt/models/glm4_moe.py          |  4 +-
 python/sglang/srt/models/granitemoe.py        |  3 ++
 python/sglang/srt/models/grok.py              |  3 ++
 python/sglang/srt/models/hunyuan.py           |  1 +
 python/sglang/srt/models/llama4.py            |  3 ++
 python/sglang/srt/models/mixtral.py           |  3 ++
 python/sglang/srt/models/olmoe.py             |  3 ++
 python/sglang/srt/models/phimoe.py            |  1 +
 15 files changed, 107 insertions(+), 11 deletions(-)

diff --git a/python/sglang/srt/eplb/expert_distribution.py b/python/sglang/srt/eplb/expert_distribution.py
index 83fd422502b2..a7b8875d27ae 100644
--- a/python/sglang/srt/eplb/expert_distribution.py
+++ b/python/sglang/srt/eplb/expert_distribution.py
@@ -47,6 +47,11 @@ def init_new(
         rank: int,
     ):
         if server_args.expert_distribution_recorder_mode is not None:
+            assert (
+                expert_location_metadata is not None
+            ), "ExpertLocationMetadata is required for expert distribution recording. One possible"
+            "reason is that you are using a model that does not support expert distribution"
+            "recording. Try setting `get_model_config_for_expert_location` in your model."
             return _ExpertDistributionRecorderReal(
                 server_args, expert_location_metadata, rank
             )
diff --git a/python/sglang/srt/eplb/expert_location.py b/python/sglang/srt/eplb/expert_location.py
index 822429dc480b..ef35ce7a64d0 100644
--- a/python/sglang/srt/eplb/expert_location.py
+++ b/python/sglang/srt/eplb/expert_location.py
@@ -82,6 +82,10 @@ def __post_init__(self):
     def init_trivial(server_args: ServerArgs, model_config: ModelConfig):
         """Trivial location - logical expert i corresponds to physical expert i"""
         common = ExpertLocationMetadata._init_common(server_args, model_config)
+
+        if common is None:
+            return None
+
         num_physical_experts = common["num_physical_experts"]
         model_config_for_expert_location = common["model_config_for_expert_location"]
         num_layers = model_config_for_expert_location.num_layers
@@ -109,6 +113,10 @@ def init_by_mapping(
         physical_to_logical_map = physical_to_logical_map.to(server_args.device)
 
         common = ExpertLocationMetadata._init_common(server_args, model_config)
+
+        if common is None:
+            return None
+
         model_config_for_expert_location = common["model_config_for_expert_location"]
         logical_to_all_physical_map = _compute_logical_to_all_physical_map(
             physical_to_logical_map,
@@ -133,6 +141,10 @@ def init_by_eplb(
         logical_count = logical_count.to(server_args.device)
 
         common = ExpertLocationMetadata._init_common(server_args, model_config)
+
+        if common is None:
+            return None
+
         model_config_for_expert_location = common["model_config_for_expert_location"]
         num_physical_experts = common["num_physical_experts"]
         num_groups = model_config_for_expert_location.num_groups
@@ -168,6 +180,9 @@ def _init_common(server_args: ServerArgs, model_config: ModelConfig):
             ModelConfigForExpertLocation.from_model_config(model_config)
         )
 
+        if model_config_for_expert_location is None:
+            return None
+
         num_physical_experts = (
             model_config_for_expert_location.num_logical_experts
             + server_args.ep_num_redundant_experts
@@ -398,10 +413,6 @@ class ModelConfigForExpertLocation:
     num_logical_experts: int
     num_groups: Optional[int] = None
 
-    @staticmethod
-    def init_dummy():
-        return ModelConfigForExpertLocation(num_layers=1, num_logical_experts=1)
-
     @staticmethod
     def from_model_config(model_config: ModelConfig):
         model_class, _ = get_model_architecture(model_config)
@@ -410,12 +421,12 @@ def from_model_config(model_config: ModelConfig):
                 model_config.hf_config
             )
         else:
-            return ModelConfigForExpertLocation.init_dummy()
+            return None
 
 
 def compute_initial_expert_location_metadata(
     server_args: ServerArgs, model_config: ModelConfig
-) -> ExpertLocationMetadata:
+) -> Optional[ExpertLocationMetadata]:
     data = server_args.init_expert_location
     if data == "trivial":
         return ExpertLocationMetadata.init_trivial(server_args, model_config)
diff --git a/python/sglang/srt/eplb/expert_location_dispatch.py b/python/sglang/srt/eplb/expert_location_dispatch.py
index 8d2160b6ed73..624dc3fd19e6 100644
--- a/python/sglang/srt/eplb/expert_location_dispatch.py
+++ b/python/sglang/srt/eplb/expert_location_dispatch.py
@@ -36,6 +36,7 @@ class ExpertLocationDispatchInfo:
     def init_new(cls, layer_id: int):
         ep_dispatch_algorithm = global_server_args_dict["ep_dispatch_algorithm"]
         expert_location_metadata = get_global_expert_location_metadata()
+        assert expert_location_metadata is not None
 
         if ep_dispatch_algorithm is None:
             return None
diff --git a/python/sglang/srt/eplb/expert_location_updater.py b/python/sglang/srt/eplb/expert_location_updater.py
index 6fdeb03223de..9887abc97520 100644
--- a/python/sglang/srt/eplb/expert_location_updater.py
+++ b/python/sglang/srt/eplb/expert_location_updater.py
@@ -50,6 +50,8 @@ def update(
             torch.cuda.empty_cache()
 
         old_expert_location_metadata = get_global_expert_location_metadata()
+        assert old_expert_location_metadata is not None
+
         _update_expert_weights(
             routed_experts_weights_of_layer=routed_experts_weights_of_layer,
             old_expert_location_metadata=old_expert_location_metadata,
diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index f2c1ab24de6d..c9a20d276050 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -183,6 +183,7 @@ def __init__(
         hidden_size: int,
         intermediate_size: int,
         layer_id: int,
+        num_fused_shared_experts: int = 0,
         params_dtype: Optional[torch.dtype] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
@@ -196,6 +197,7 @@ def __init__(
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             top_k=top_k,
+            num_fused_shared_experts=num_fused_shared_experts,
             layer_id=layer_id,
             params_dtype=params_dtype,
             quant_config=quant_config,
@@ -728,10 +730,19 @@ def weight_loader(
         shard_id: str,
         expert_id: int,
     ) -> None:
-        physical_expert_ids = (
-            get_global_expert_location_metadata().logical_to_all_physical(
-                self.layer_id, expert_id
+        global_expert_location_metadata = get_global_expert_location_metadata()
+        if global_expert_location_metadata is None:
+            self._weight_loader_impl(
+                param=param,
+                loaded_weight=loaded_weight,
+                weight_name=weight_name,
+                shard_id=shard_id,
+                expert_id=expert_id,
             )
+            return
+
+        physical_expert_ids = global_expert_location_metadata.logical_to_all_physical(
+            self.layer_id, expert_id
         )
         for physical_expert_id in physical_expert_ids:
             self._weight_loader_physical(
@@ -778,6 +789,7 @@ def __init__(
         hidden_size: int,
         intermediate_size: int,
         layer_id: int,
+        num_fused_shared_experts: int = 0,
         params_dtype: Optional[torch.dtype] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
@@ -792,6 +804,7 @@ def __init__(
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             layer_id=layer_id,
+            num_fused_shared_experts=num_fused_shared_experts,
             params_dtype=params_dtype,
             quant_config=quant_config,
             tp_size=tp_size,
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 39368e8798f8..316bced90227 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -11,6 +11,7 @@
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
 )
+from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
 from sglang.srt.layers.moe.topk import TopKOutput
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
@@ -62,8 +63,9 @@ def __init__(
         num_experts: int,
         hidden_size: int,
         intermediate_size: int,
+        layer_id: int,
         top_k: Optional[int] = None,
-        layer_id: Optional[int] = None,
+        num_fused_shared_experts: int = 0,
         params_dtype: Optional[torch.dtype] = None,
         reduce_results: bool = False,
         quant_config: Optional[QuantizationConfig] = None,
@@ -84,6 +86,7 @@ def __init__(
         if params_dtype is None:
             params_dtype = torch.get_default_dtype()
 
+        self.layer_id = layer_id
         self.top_k = top_k
         self.hidden_size = hidden_size
         self.tp_size = (
@@ -91,6 +94,7 @@ def __init__(
         )
         self.tp_rank = get_tensor_model_parallel_rank()
         self.num_experts = num_experts
+        self.num_fused_shared_experts = num_fused_shared_experts
         self.expert_map = None
 
         if enable_flashinfer_cutlass_moe and quant_config is None:
@@ -375,6 +379,45 @@ def weight_loader(
         shard_id: str,
         expert_id: int,
     ) -> None:
+
+        global_expert_location_metadata = get_global_expert_location_metadata()
+        if global_expert_location_metadata is None:
+            self._weight_loader_impl(
+                param=param,
+                loaded_weight=loaded_weight,
+                weight_name=weight_name,
+                shard_id=shard_id,
+                expert_id=expert_id,
+            )
+            return
+
+        if expert_id >= self.num_experts - self.num_fused_shared_experts:
+            # This is a shared expert.
+            physical_expert_ids = [expert_id]
+        else:
+            physical_expert_ids = (
+                global_expert_location_metadata.logical_to_all_physical(
+                    self.layer_id, expert_id
+                )
+            )
+
+        for physical_expert_id in physical_expert_ids:
+            self._weight_loader_physical(
+                param=param,
+                loaded_weight=loaded_weight,
+                weight_name=weight_name,
+                shard_id=shard_id,
+                expert_id=physical_expert_id,
+            )
+
+    def _weight_loader_physical(
+        self,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        shard_id: str,
+        expert_id: int,
+    ) -> None:
         expert_id = self._map_global_expert_id_to_local_expert_id(expert_id)
         if expert_id == -1:
             return
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index b5305f923fe4..ace06cb7bc38 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -325,6 +325,7 @@ def __init__(
             num_experts=config.n_routed_experts
             + self.num_fused_shared_experts
             + global_server_args_dict["ep_num_redundant_experts"],
+            num_fused_shared_experts=self.num_fused_shared_experts,
             top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
             hidden_size=config.hidden_size,
             intermediate_size=config.moe_intermediate_size,
@@ -2112,6 +2113,7 @@ def determine_num_fused_shared_experts(
 
         if disable_reason is not None:
             global_server_args_dict["disable_shared_experts_fusion"] = True
+            self.num_fused_shared_experts = 0
             log_info_on_rank0(
                 logger,
                 f"{disable_reason} Shared experts fusion optimization is disabled.",
diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index f080beb502d2..6031e76009a1 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -434,6 +434,7 @@ def __init__(
             num_experts=config.n_routed_experts
             + self.num_fused_shared_experts
             + global_server_args_dict["ep_num_redundant_experts"],
+            num_fused_shared_experts=self.num_fused_shared_experts,
             top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
             hidden_size=config.hidden_size,
             intermediate_size=config.moe_intermediate_size,
@@ -740,10 +741,11 @@ def determine_num_fused_shared_experts(
             global_server_args_dict["enable_deepep_moe"]
             or global_server_args_dict["enable_ep_moe"]
         ):
-            disable_reason = "Deepseek GLM-4.5 can not use shared experts fusion optimization when in deepep_moe or ep_moe mode."
+            disable_reason = "Deepseek and GLM-4.5 can not use shared experts fusion optimization when in deepep_moe or ep_moe mode."
 
         if disable_reason is not None:
             global_server_args_dict["disable_shared_experts_fusion"] = True
+            self.num_fused_shared_experts = 0
             log_info_on_rank0(
                 logger,
                 f"{disable_reason} Shared experts fusion optimization is disabled.",
diff --git a/python/sglang/srt/models/granitemoe.py b/python/sglang/srt/models/granitemoe.py
index 1e61092090ac..2da7d857fe8c 100644
--- a/python/sglang/srt/models/granitemoe.py
+++ b/python/sglang/srt/models/granitemoe.py
@@ -43,6 +43,7 @@ def __init__(
         top_k: int,
         hidden_size: int,
         intermediate_size: int,
+        layer_id: int,
         params_dtype: Optional[torch.dtype] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
@@ -71,6 +72,7 @@ def __init__(
             top_k=top_k,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
+            layer_id=layer_id,
             params_dtype=params_dtype,
             reduce_results=True,
             quant_config=quant_config,
@@ -203,6 +205,7 @@ def __init__(
             top_k=config.num_experts_per_tok,
             hidden_size=config.hidden_size,
             intermediate_size=config.intermediate_size,
+            layer_id=layer_id,
             quant_config=quant_config,
             prefix=f"{prefix}.block_sparse_moe",
         )
diff --git a/python/sglang/srt/models/grok.py b/python/sglang/srt/models/grok.py
index 4a46bf1973d8..aa458bb652e2 100644
--- a/python/sglang/srt/models/grok.py
+++ b/python/sglang/srt/models/grok.py
@@ -78,6 +78,7 @@ class Grok1MoE(nn.Module):
     def __init__(
         self,
         config: PretrainedConfig,
+        layer_id: int,
         num_experts: int,
         top_k: int,
         hidden_size: int,
@@ -128,6 +129,7 @@ def __init__(
         self.experts = MoEImpl(
             num_experts=num_experts,
             top_k=top_k,
+            layer_id=layer_id,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             params_dtype=params_dtype,
@@ -331,6 +333,7 @@ def __init__(
         )
         self.block_sparse_moe = Grok1MoE(
             config=config,
+            layer_id=layer_id,
             num_experts=config.num_local_experts,
             top_k=config.num_experts_per_tok,
             hidden_size=config.hidden_size,
diff --git a/python/sglang/srt/models/hunyuan.py b/python/sglang/srt/models/hunyuan.py
index 58e95bbb1cd8..c1ed2543c62c 100644
--- a/python/sglang/srt/models/hunyuan.py
+++ b/python/sglang/srt/models/hunyuan.py
@@ -163,6 +163,7 @@ def __init__(
             hidden_size=config.hidden_size,
             intermediate_size=intermediate_size,
             reduce_results=False,
+            layer_id=layer_id,
             quant_config=quant_config,
         )
 
diff --git a/python/sglang/srt/models/llama4.py b/python/sglang/srt/models/llama4.py
index cf0b20800410..265a9391d8cf 100644
--- a/python/sglang/srt/models/llama4.py
+++ b/python/sglang/srt/models/llama4.py
@@ -87,6 +87,7 @@ def custom_routing_function(
     def __init__(
         self,
         config: Llama4TextConfig,
+        layer_id: int,
         quant_config: Optional[QuantizationConfig] = None,
         prefix: str = "",
     ):
@@ -114,6 +115,7 @@ def __init__(
             num_experts=config.num_local_experts,
             hidden_size=config.hidden_size,
             intermediate_size=intermediate_size_moe,
+            layer_id=layer_id,
             reduce_results=False,
             quant_config=quant_config,
             apply_router_weight_on_input=True,
@@ -373,6 +375,7 @@ def __init__(
         if is_moe_layer:
             self.feed_forward = Llama4MoE(
                 config=config,
+                layer_id=layer_id,
                 quant_config=quant_config,
                 prefix=add_prefix("feed_forward", prefix),
             )
diff --git a/python/sglang/srt/models/mixtral.py b/python/sglang/srt/models/mixtral.py
index b09fc2f24827..365825d20622 100644
--- a/python/sglang/srt/models/mixtral.py
+++ b/python/sglang/srt/models/mixtral.py
@@ -69,6 +69,7 @@ def __init__(
         top_k: int,
         hidden_size: int,
         intermediate_size: int,
+        layer_id: int,
         params_dtype: Optional[torch.dtype] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
@@ -97,6 +98,7 @@ def __init__(
         self.experts = MoEImpl(
             num_experts=num_experts,
             top_k=top_k,
+            layer_id=layer_id,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             params_dtype=params_dtype,
@@ -226,6 +228,7 @@ def __init__(
             top_k=config.num_experts_per_tok,
             hidden_size=config.hidden_size,
             intermediate_size=config.intermediate_size,
+            layer_id=layer_id,
             quant_config=quant_config,
             prefix=add_prefix("block_sparse_moe", prefix),
         )
diff --git a/python/sglang/srt/models/olmoe.py b/python/sglang/srt/models/olmoe.py
index ce53f2b0148a..e2db2dceb7ef 100644
--- a/python/sglang/srt/models/olmoe.py
+++ b/python/sglang/srt/models/olmoe.py
@@ -63,6 +63,7 @@ def __init__(
         params_dtype: Optional[torch.dtype] = None,
         quant_config: Optional[QuantizationConfig] = None,
         tp_size: Optional[int] = None,
+        layer_id: int = 0,
         prefix: str = "",
     ):
         super().__init__()
@@ -89,6 +90,7 @@ def __init__(
             reduce_results=True,
             quant_config=quant_config,
             tp_size=tp_size,
+            layer_id=layer_id,
             prefix=add_prefix("experts", prefix),
         )
 
@@ -224,6 +226,7 @@ def __init__(
             top_k=config.num_experts_per_tok,
             hidden_size=config.hidden_size,
             intermediate_size=config.intermediate_size,
+            layer_id=layer_id,
             quant_config=quant_config,
             prefix=add_prefix("mlp", prefix),
         )
diff --git a/python/sglang/srt/models/phimoe.py b/python/sglang/srt/models/phimoe.py
index 865b94f51665..4604aeef9891 100644
--- a/python/sglang/srt/models/phimoe.py
+++ b/python/sglang/srt/models/phimoe.py
@@ -210,6 +210,7 @@ def __init__(
         self.experts = FusedMoE(
             num_experts=num_experts,
             top_k=top_k,
+            layer_id=layer_id,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
             reduce_results=True,

From a85ebf50b8d7b19f4cc435eac6a084f1f2c13eaa Mon Sep 17 00:00:00 2001
From: hzh0425 <hzh0425@apache.org>
Date: Wed, 30 Jul 2025 12:18:46 +0800
Subject: [PATCH 222/396] feat(hicache): support file backend reading directory
 config form env. (#8498)

---
 python/sglang/srt/mem_cache/hicache_storage.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/mem_cache/hicache_storage.py b/python/sglang/srt/mem_cache/hicache_storage.py
index 45b26d10008b..0e4a7184cf4e 100644
--- a/python/sglang/srt/mem_cache/hicache_storage.py
+++ b/python/sglang/srt/mem_cache/hicache_storage.py
@@ -85,7 +85,7 @@ def exists(self, key: str) -> bool:
 class HiCacheFile(HiCacheStorage):
 
     def __init__(self, file_path: str = "/tmp/hicache"):
-        self.file_path = file_path
+        self.file_path = os.getenv("SGLANG_HICACHE_FILE_BACKEND_STORAGE_DIR", file_path)
         tp_rank = get_tensor_model_parallel_rank()
         tp_size = get_tensor_model_parallel_world_size()
         self.tp_suffix = f"_{tp_rank}_{tp_size}" if tp_size > 1 else ""

From 2fbb754e1db5f7b27cdf70fc079e32a6a12b9f0f Mon Sep 17 00:00:00 2001
From: hzh0425 <hzh0425@apache.org>
Date: Wed, 30 Jul 2025 12:19:25 +0800
Subject: [PATCH 223/396] feature(pd-hicache): Prefill instances support
 reusing the RemoteStorage Cache via HiCache. (#8516)

Co-authored-by: Shangming Cai <csmthu@gmail.com>
Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
---
 python/sglang/srt/managers/scheduler.py | 23 ++++++++++++++---------
 1 file changed, 14 insertions(+), 9 deletions(-)

diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 38db5313a87a..b6cf72d4e553 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1185,23 +1185,28 @@ def handle_generate_request(
     def _add_request_to_queue(self, req: Req):
         req.queue_time_start = time.perf_counter()
         if self.disaggregation_mode == DisaggregationMode.PREFILL:
+            self._prefetch_kvcache(req)
             self.disagg_prefill_bootstrap_queue.add(
                 req, self.model_config.num_key_value_heads
             )
         elif self.disaggregation_mode == DisaggregationMode.DECODE:
             self.disagg_decode_prealloc_queue.add(req)
         else:
-            if self.enable_hicache_storage:
-                req.init_next_round_input(self.tree_cache)
-                last_hash = req.last_host_node.get_last_hash_value()
-                matched_len = len(req.prefix_indices) + req.host_hit_length
-                if (matched_len > 0 and last_hash is not None) or matched_len == 0:
-                    new_input_tokens = req.fill_ids[matched_len:]
-                    self.tree_cache.prefetch_from_storage(
-                        req.rid, req.last_host_node, new_input_tokens, last_hash
-                    )
+            self._prefetch_kvcache(req)
             self.waiting_queue.append(req)
 
+    def _prefetch_kvcache(self, req: Req):
+        if self.enable_hicache_storage:
+            req.init_next_round_input(self.tree_cache)
+            last_hash = req.last_host_node.get_last_hash_value()
+            matched_len = len(req.prefix_indices) + req.host_hit_length
+            # todo, free-form fetching, calculating hash keys on the fly
+            if (matched_len > 0 and last_hash is not None) or matched_len == 0:
+                new_input_tokens = req.fill_ids[matched_len:]
+                self.tree_cache.prefetch_from_storage(
+                    req.rid, req.last_host_node, new_input_tokens, last_hash
+                )
+
     def _extend_requests_to_queue(self, reqs: List[Req], is_retracted: bool = False):
         if self.disaggregation_mode == DisaggregationMode.PREFILL:
             self.disagg_prefill_bootstrap_queue.extend(

From a9fd80336dd93ed671e4eb42242938f4d990a1bf Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Tue, 29 Jul 2025 23:43:37 -0700
Subject: [PATCH 224/396] [router] allow longer time out for router e2e (#8560)

---
 .github/workflows/pr-test-rust.yml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.github/workflows/pr-test-rust.yml b/.github/workflows/pr-test-rust.yml
index 609bd304def7..b5c3cd01d90a 100644
--- a/.github/workflows/pr-test-rust.yml
+++ b/.github/workflows/pr-test-rust.yml
@@ -57,6 +57,7 @@ jobs:
   e2e-python:
     if: github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request'
     runs-on: 2-gpu-runner
+    timeout-minutes: 30
     steps:
       - name: Checkout code
         uses: actions/checkout@v4

From e3f08c77bc8ec4bf78501305a5aa15a779ad9ff2 Mon Sep 17 00:00:00 2001
From: Elfie Guo <164945471+elfiegg@users.noreply.github.com>
Date: Tue, 29 Jul 2025 23:46:34 -0700
Subject: [PATCH 225/396] Update cutlass_moe.py (#8545)

---
 python/sglang/srt/layers/moe/cutlass_moe.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/moe/cutlass_moe.py b/python/sglang/srt/layers/moe/cutlass_moe.py
index 2a5a5dccbd67..3774afac2d3d 100755
--- a/python/sglang/srt/layers/moe/cutlass_moe.py
+++ b/python/sglang/srt/layers/moe/cutlass_moe.py
@@ -209,7 +209,7 @@ def cutlass_fused_experts_fp8(
     )
 
     result = torch.empty((m, k), device=device, dtype=out_dtype)
-    apply_shuffle_mul_sum(c2, result, c_map, topk_weights)
+    apply_shuffle_mul_sum(c2, result, c_map, topk_weights.to(out_dtype))
     return result
 
 

From 55ecdc0a8e62ac56bb475f128d2b1fc728953a28 Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Wed, 30 Jul 2025 16:05:57 +0800
Subject: [PATCH 226/396] Update CODEOWNERS (#8562)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 .github/CODEOWNERS | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 2e048e54d846..d267116b0dd5 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -4,6 +4,7 @@
 /python/sglang/* @merrymercy @Ying1123 @zhyncs @hnyls2002
 /python/sglang/srt/constrained @hnyls2002
 /python/sglang/srt/disaggregation @ByronHsu @hnyls2002
+/python/sglang/srt/disaggregation/mooncake @ShangmingCai
 /python/sglang/srt/distributed @yizhang2077
 /python/sglang/srt/entrypoints @ispobock @CatherineSue @slin1237
 /python/sglang/srt/eplb @fzyzcjy

From a730ce8162145180b4d4cae8d6fe28cdb58dab69 Mon Sep 17 00:00:00 2001
From: Rui Chen <rui@hexpunks.org>
Date: Wed, 30 Jul 2025 20:58:48 +0800
Subject: [PATCH 227/396] [feature] [sgl-router] Add a dp-aware routing
 strategy (#6869)

---
 docs/router/router.md                         |   8 +
 .../py_src/sglang_router/launch_router.py     |  17 +
 sgl-router/py_src/sglang_router/router.py     |   8 +
 sgl-router/py_test/run_suite.py               |   2 +-
 sgl-router/py_test/test_launch_router.py      |  47 +++
 sgl-router/py_test/test_launch_server.py      | 279 ++++++++++++++++
 sgl-router/src/config/types.rs                |  14 +
 sgl-router/src/config/validation.rs           |   8 +
 sgl-router/src/core/error.rs                  |   5 +
 sgl-router/src/core/worker.rs                 |  28 +-
 sgl-router/src/lib.rs                         |  10 +
 sgl-router/src/routers/factory.rs             |   2 +
 sgl-router/src/routers/router.rs              | 298 +++++++++++++++++-
 sgl-router/src/service_discovery.rs           |   2 +-
 sgl-router/tests/api_endpoints_test.rs        |   4 +
 sgl-router/tests/common/mod.rs                |   4 +
 sgl-router/tests/request_formats_test.rs      |   2 +
 sgl-router/tests/streaming_tests.rs           |   2 +
 sgl-router/tests/test_pd_routing.rs           |   2 +
 19 files changed, 726 insertions(+), 16 deletions(-)

diff --git a/docs/router/router.md b/docs/router/router.md
index 8267007e14fc..7339144fae59 100644
--- a/docs/router/router.md
+++ b/docs/router/router.md
@@ -141,6 +141,14 @@ Process:
 
 For unbalanced systems, this strategy tracks pending request counts per worker and routes new requests to the least busy worker. This helps maintain optimal load distribution across workers.
 
+***Data-Parallelism Aware Routing***
+
+An additional DP-aware routing strategy can be enabled on top of the sgl-router’s hybrid cache-aware load-balancing strategy by setting the `--dp-aware` flag when starting the router.
+
+When this flag is enabled, the router attempts to contact the workers to retrieve the `dp_size` of each one and registers the new workers at the DP-rank level.  In this mode, the router applies the cache-aware routing strategy in a more fine-grained manner, with assistance from the DP controller on the SRT side.
+
+By default (when the flag is not set), the SRT’s DP controller distributes incoming requests across DP ranks in a round-robin fashion.
+
 ## Configuration Parameters
 
 1. `cache_threshold`: (float, 0.0 to 1.0, default: 0.5)
diff --git a/sgl-router/py_src/sglang_router/launch_router.py b/sgl-router/py_src/sglang_router/launch_router.py
index 9337c4eaa0ac..13fada0f5c88 100644
--- a/sgl-router/py_src/sglang_router/launch_router.py
+++ b/sgl-router/py_src/sglang_router/launch_router.py
@@ -50,6 +50,8 @@ class RouterArgs:
     eviction_interval: int = 60
     max_tree_size: int = 2**24
     max_payload_size: int = 256 * 1024 * 1024  # 256MB default for large batches
+    dp_aware: bool = False
+    api_key: Optional[str] = None
     log_dir: Optional[str] = None
     log_level: Optional[str] = None
     # Service discovery configuration
@@ -197,6 +199,17 @@ def add_cli_args(
             default=RouterArgs.max_payload_size,
             help="Maximum payload size in bytes",
         )
+        parser.add_argument(
+            f"--{prefix}dp-aware",
+            action="store_true",
+            help="Enable data parallelism aware schedule",
+        )
+        parser.add_argument(
+            f"--{prefix}api-key",
+            type=str,
+            default=None,
+            help="The api key used for the authorization with the worker.  Useful when the dp aware scheduling strategy is enaled.",
+        )
         parser.add_argument(
             f"--{prefix}log-dir",
             type=str,
@@ -304,6 +317,8 @@ def from_cli_args(
             eviction_interval=getattr(args, f"{prefix}eviction_interval"),
             max_tree_size=getattr(args, f"{prefix}max_tree_size"),
             max_payload_size=getattr(args, f"{prefix}max_payload_size"),
+            dp_aware=getattr(args, f"{prefix}dp_aware", False),
+            api_key=getattr(args, f"{prefix}api_key", None),
             log_dir=getattr(args, f"{prefix}log_dir", None),
             log_level=getattr(args, f"{prefix}log_level", None),
             service_discovery=getattr(args, f"{prefix}service_discovery", False),
@@ -463,6 +478,8 @@ def launch_router(args: argparse.Namespace) -> Optional[Router]:
             eviction_interval_secs=router_args.eviction_interval,
             max_tree_size=router_args.max_tree_size,
             max_payload_size=router_args.max_payload_size,
+            dp_aware=router_args.dp_aware,
+            api_key=router_args.api_key,
             log_dir=router_args.log_dir,
             log_level=router_args.log_level,
             service_discovery=router_args.service_discovery,
diff --git a/sgl-router/py_src/sglang_router/router.py b/sgl-router/py_src/sglang_router/router.py
index 7b85f77673a7..7bde7f022a94 100644
--- a/sgl-router/py_src/sglang_router/router.py
+++ b/sgl-router/py_src/sglang_router/router.py
@@ -31,6 +31,10 @@ class Router:
             routing. Default: 60
         max_payload_size: Maximum payload size in bytes. Default: 256MB
         max_tree_size: Maximum size of the approximation tree for cache-aware routing. Default: 2^24
+        dp_aware: Enable data parallelism aware schedule. Default: False
+        api_key: The api key used for the authorization with the worker.
+            Useful when the dp aware scheduling strategy is enabled.
+            Default: None
         log_dir: Directory to store log files. If None, logs are only output to console. Default: None
         log_level: Logging level. Options: 'debug', 'info', 'warning', 'error', 'critical'.
         service_discovery: Enable Kubernetes service discovery. When enabled, the router will
@@ -73,6 +77,8 @@ def __init__(
         eviction_interval_secs: int = 60,
         max_tree_size: int = 2**24,
         max_payload_size: int = 256 * 1024 * 1024,  # 256MB
+        dp_aware: bool = False,
+        api_key: Optional[str] = None,
         log_dir: Optional[str] = None,
         log_level: Optional[str] = None,
         service_discovery: bool = False,
@@ -110,6 +116,8 @@ def __init__(
             eviction_interval_secs=eviction_interval_secs,
             max_tree_size=max_tree_size,
             max_payload_size=max_payload_size,
+            dp_aware=dp_aware,
+            api_key=api_key,
             log_dir=log_dir,
             log_level=log_level,
             service_discovery=service_discovery,
diff --git a/sgl-router/py_test/run_suite.py b/sgl-router/py_test/run_suite.py
index e1434b0e81f8..ac7f9c140e40 100644
--- a/sgl-router/py_test/run_suite.py
+++ b/sgl-router/py_test/run_suite.py
@@ -8,7 +8,7 @@
     arg_parser.add_argument(
         "--timeout-per-file",
         type=int,
-        default=1000,
+        default=2000,
         help="The time limit for running one file in seconds.",
     )
     args = arg_parser.parse_args()
diff --git a/sgl-router/py_test/test_launch_router.py b/sgl-router/py_test/test_launch_router.py
index 90d8aa664395..a014efac6f15 100644
--- a/sgl-router/py_test/test_launch_router.py
+++ b/sgl-router/py_test/test_launch_router.py
@@ -43,6 +43,7 @@ def setUp(self):
             selector=None,
             service_discovery_port=80,
             service_discovery_namespace=None,
+            dp_aware=False,
             prometheus_port=None,
             prometheus_host=None,
             # PD-specific attributes
@@ -111,6 +112,52 @@ def test_launch_router_with_service_discovery_namespace(self):
         )
         self.run_router_process(args)
 
+    def test_launch_router_common_with_dp_aware(self):
+        args = self.create_router_args(
+            worker_urls=["http://localhost:8000"],
+            dp_aware=True,
+        )
+        self.run_router_process(args)
+
+    def test_launch_router_with_empty_worker_urls_with_dp_aware(self):
+        args = self.create_router_args(
+            worker_urls=[],
+            dp_aware=True,
+        )
+        self.run_router_process(args)
+
+    def test_launch_router_common_with_dp_aware_service_discovery(self):
+        # Test launch router with bot srevice_discovery and dp_aware enabled
+        # Should fail since service_discovery and dp_aware is conflict
+        args = self.create_router_args(
+            worker_urls=["http://localhost:8000"],
+            dp_aware=True,
+            service_discovery=True,
+            selector=["app=test-worker"],
+        )
+
+        def run_router():
+            try:
+                from sglang_router.launch_router import launch_router
+
+                router = launch_router(args)
+                if router is None:
+                    return 1
+                return 0
+            except Exception as e:
+                print(e)
+                return 1
+
+        process = multiprocessing.Process(target=run_router)
+        try:
+            process.start()
+            # Wait 3 seconds
+            time.sleep(3)
+            # Should fail since service_discovery and dp_aware is conflict
+            self.assertFalse(process.is_alive())
+        finally:
+            terminate_process(process)
+
     def test_launch_router_pd_mode_basic(self):
         """Test basic PD router functionality without actually starting servers."""
         # This test just verifies the PD router can be created and configured
diff --git a/sgl-router/py_test/test_launch_server.py b/sgl-router/py_test/test_launch_server.py
index bfba8a765712..d361e8d66f84 100644
--- a/sgl-router/py_test/test_launch_server.py
+++ b/sgl-router/py_test/test_launch_server.py
@@ -30,6 +30,7 @@ def popen_launch_router(
     service_discovery_namespace: str = None,
     prometheus_port: int = None,
     prometheus_host: str = None,
+    dp_aware: bool = False,
 ):
     """
     Launch the router server process.
@@ -49,6 +50,7 @@ def popen_launch_router(
         service_discovery_namespace: Kubernetes namespace to watch for pods. If None, watches all namespaces.
         prometheus_port: Port to expose Prometheus metrics. If None, Prometheus metrics are disabled.
         prometheus_host: Host address to bind the Prometheus metrics server.
+        dp_aware: Enable data parallelism aware routing strategy.
     """
     _, host, port = base_url.split(":")
     host = host[2:]
@@ -69,10 +71,12 @@ def popen_launch_router(
         "5",
         "--router-policy",
         policy,
+        "--allow-auto-truncate",
     ]
 
     if api_key is not None:
         command.extend(["--api-key", api_key])
+        command.extend(["--router-api-key", api_key])
 
     if max_payload_size is not None:
         command.extend(["--router-max-payload-size", str(max_payload_size)])
@@ -100,6 +104,9 @@ def popen_launch_router(
     if log_dir is not None:
         command.extend(["--log-dir", log_dir])
 
+    if dp_aware:
+        command.append("--router-dp-aware")
+
     process = subprocess.Popen(command, stdout=None, stderr=None)
 
     start_time = time.perf_counter()
@@ -127,6 +134,7 @@ def popen_launch_server(
     model: str,
     base_url: str,
     timeout: float,
+    api_key: str = None,
 ):
     _, host, port = base_url.split(":")
     host = host[2:]
@@ -145,6 +153,9 @@ def popen_launch_server(
         "1",
     ]
 
+    if api_key is not None:
+        command.extend(["--api-key", api_key])
+
     process = subprocess.Popen(command, stdout=None, stderr=None)
 
     # intentionally don't wait and defer the job to the router health check
@@ -426,6 +437,274 @@ def test_5_api_key(self):
                 response.status_code, 200, "Request with correct api key should succeed"
             )
 
+    def test_6_mmlu_with_dp_aware(self):
+        print("Running test_6_mmlu_with_dp_aware...")
+        # DP size = 2
+        self.process = popen_launch_router(
+            self.model,
+            self.base_url,
+            dp_size=2,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            policy="cache_aware",
+            dp_aware=True,
+        )
+
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mmlu",
+            num_examples=64,
+            num_threads=32,
+            temperature=0.1,
+        )
+
+        metrics = run_eval(args)
+        score = metrics["score"]
+        THRESHOLD = 0.65
+        passed = score >= THRESHOLD
+        msg = f"dp aware MMLU test {'passed' if passed else 'failed'} with score {score:.3f} (threshold: {THRESHOLD})"
+        self.assertGreaterEqual(score, THRESHOLD, msg)
+
+    def test_7_add_and_remove_worker_with_dp_aware(self):
+        print("Running test_7_add_and_remove_worker_with_dp_aware...")
+
+        # Set dp_size = 1
+        self.process = popen_launch_router(
+            self.model,
+            self.base_url,
+            dp_size=1,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            policy="round_robin",  # make sure every worker processes requests
+            dp_aware=True,  # dp aware strategy should work well with RR
+        )
+
+        # 1. Start a worker
+        port = find_available_port()
+        worker_url = f"http://127.0.0.1:{port}"
+        worker_process = popen_launch_server(
+            self.model, worker_url, DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH
+        )
+        self.other_process.append(worker_process)
+
+        # 2. Use the /add_worker API to add it to the router
+        # It will be used by router after it is healthy
+        with requests.Session() as session:
+            response = session.post(f"{self.base_url}/add_worker?url={worker_url}")
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertEqual(response.status_code, 200)
+
+        # 3. Run mmlu
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mmlu",
+            num_examples=64,
+            num_threads=32,
+            temperature=0.1,
+        )
+        metrics = run_eval(args)
+        score = metrics["score"]
+        THRESHOLD = 0.65
+        passed = score >= THRESHOLD
+        msg = f"MMLU test {'passed' if passed else 'failed'} with score {score:.3f} (threshold: {THRESHOLD})"
+        self.assertGreaterEqual(score, THRESHOLD, msg)
+
+        # 4. Use the /remove_worker API to remove it from the router
+        with requests.Session() as session:
+            response = session.post(f"{self.base_url}/remove_worker?url={worker_url}")
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertEqual(response.status_code, 200)
+
+        # 5. Run mmlu again
+        metrics = run_eval(args)
+        score = metrics["score"]
+        THRESHOLD = 0.65
+        passed = score >= THRESHOLD
+        msg = f"MMLU test {'passed' if passed else 'failed'} with score {score:.3f} (threshold: {THRESHOLD})"
+        self.assertGreaterEqual(score, THRESHOLD, msg)
+
+        # 6. Start another worker with api_key set
+        terminate_and_wait(worker_process)  # terminate the old worker process
+        port = find_available_port()
+        worker_url = f"http://127.0.0.1:{port}"
+        worker_process = popen_launch_server(
+            self.model,
+            worker_url,
+            DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            api_key="correct_api_key",
+        )
+        self.other_process.append(worker_process)
+
+        # 7. Use the /add_worker API to add it to the router
+        # Should fail since the router would contact the worker's
+        # /get_server_info endpoint for the dp_size info, but it
+        # has no knowledge of the api key
+        with requests.Session() as session:
+            response = session.post(f"{self.base_url}/add_worker?url={worker_url}")
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertNotEqual(response.status_code, 200)
+
+    def test_8_lazy_fault_tolerance_with_dp_aware(self):
+        print("Running test_8_lazy_fault_tolerance_with_dp_aware...")
+
+        # Set dp_size = 1
+        self.process = popen_launch_router(
+            self.model,
+            self.base_url,
+            dp_size=1,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            policy="round_robin",
+            dp_aware=True,
+        )
+
+        # 1. Start a worker
+        port = find_available_port()
+        worker_url = f"http://127.0.0.1:{port}"
+        worker_process = popen_launch_server(
+            self.model, worker_url, DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH
+        )
+        self.other_process.append(worker_process)
+
+        # 2. Use the /add_worker API to add it to the router
+        # It will be used by router after it is healthy
+        with requests.Session() as session:
+            response = session.post(f"{self.base_url}/add_worker?url={worker_url}")
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertEqual(response.status_code, 200)
+
+        # Start a thread to kill the worker after 10 seconds to mimic
+        # abrupt worker failure
+        def kill_worker():
+            time.sleep(10)
+            kill_process_tree(worker_process.pid)
+            print("Worker process killed")
+
+        import threading
+
+        kill_thread = threading.Thread(target=kill_worker)
+        kill_thread.daemon = True
+        kill_thread.start()
+
+        # 3. Run mmlu
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mmlu",
+            num_examples=256,
+            num_threads=32,
+            temperature=0.1,
+        )
+        metrics = run_eval(args)
+        score = metrics["score"]
+        THRESHOLD = 0.65
+        passed = score >= THRESHOLD
+        msg = f"MMLU test {'passed' if passed else 'failed'} with score {score:.3f} (threshold: {THRESHOLD})"
+        self.assertGreaterEqual(score, THRESHOLD, msg)
+
+    def test_9_payload_size_with_dp_aware(self):
+        print("Running test_9_payload_size_with_dp_aware...")
+
+        # Start the router with 1MB limit
+        self.process = popen_launch_router(
+            self.model,
+            self.base_url,
+            dp_size=1,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            policy="round_robin",
+            max_payload_size=1 * 1024 * 1024,  # 1MB limit
+            dp_aware=True,
+        )
+
+        # Test case 1: Payload just under 1MB should succeed
+        payload_0_5_mb = {
+            "text": "x" * int(0.5 * 1024 * 1024),  # 0.5MB of text
+            "temperature": 0.0,
+        }
+
+        with requests.Session() as session:
+            response = session.post(
+                f"{self.base_url}/generate",
+                json=payload_0_5_mb,
+                headers={"Content-Type": "application/json"},
+            )
+            self.assertEqual(
+                response.status_code,
+                200,
+                f"0.5MB payload should succeed but got status {response.status_code}",
+            )
+
+        # Test case 2: Payload over 1MB should fail
+        payload_1_plus_mb = {
+            "text": "x" * int((1.2 * 1024 * 1024)),  # 1.2MB of text
+            "temperature": 0.0,
+        }
+
+        with requests.Session() as session:
+            response = session.post(
+                f"{self.base_url}/generate",
+                json=payload_1_plus_mb,
+                headers={"Content-Type": "application/json"},
+            )
+            self.assertEqual(
+                response.status_code,
+                413,  # Payload Too Large
+                f"1.2MB payload should fail with 413 but got status {response.status_code}",
+            )
+
+    def test_10_api_key_with_dp_aware(self):
+        print("Running test_10_api_key_with_dp_aware...")
+
+        self.process = popen_launch_router(
+            self.model,
+            self.base_url,
+            dp_size=1,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            policy="round_robin",
+            api_key="correct_api_key",
+            dp_aware=True,
+        )
+
+        # Test case 1: request without api key should fail
+        with requests.Session() as session:
+            response = session.post(
+                f"{self.base_url}/generate",
+                json={"text": "Kanye west is, ", "temperature": 0},
+            )
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertEqual(
+                response.status_code,
+                401,
+                f"Request without api key should fail with 401 but got status {response.status_code}",
+            )
+
+        # Test case 2: request with invalid api key should fail
+        with requests.Session() as session:
+            response = requests.post(
+                f"{self.base_url}/generate",
+                json={"text": "Kanye west is, ", "temperature": 0},
+                headers={"Authorization": "Bearer 123"},
+            )
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertEqual(
+                response.status_code,
+                401,
+                f"Request without api key should fail with 401 but got status {response.status_code}",
+            )
+
+        # Test case 3: request with correct api key should succeed
+        with requests.Session() as session:
+            response = session.post(
+                f"{self.base_url}/generate",
+                json={"text": "Kanye west is ", "temperature": 0},
+                headers={"Authorization": "Bearer correct_api_key"},
+            )
+            print(f"status code: {response.status_code}, response: {response.text}")
+            self.assertEqual(
+                response.status_code,
+                200,
+                f"Request with correct api key should succeed but got status {response.status_code}",
+            )
+
 
 if __name__ == "__main__":
     unittest.main()
diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index 537e2a11997a..67358caaa5db 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -21,6 +21,10 @@ pub struct RouterConfig {
     pub worker_startup_timeout_secs: u64,
     /// Worker health check interval in seconds
     pub worker_startup_check_interval_secs: u64,
+    /// Enable data parallelism aware schedule
+    pub dp_aware: bool,
+    /// The api key used for the authorization with the worker
+    pub api_key: Option<String>,
     /// Service discovery configuration (optional)
     pub discovery: Option<DiscoveryConfig>,
     /// Metrics configuration (optional)
@@ -205,6 +209,8 @@ impl Default for RouterConfig {
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 300,
             worker_startup_check_interval_secs: 10,
+            dp_aware: false,
+            api_key: None,
             discovery: None,
             metrics: None,
             log_dir: None,
@@ -311,6 +317,8 @@ mod tests {
             request_timeout_secs: 30,
             worker_startup_timeout_secs: 60,
             worker_startup_check_interval_secs: 5,
+            dp_aware: false,
+            api_key: None,
             discovery: Some(DiscoveryConfig::default()),
             metrics: Some(MetricsConfig::default()),
             log_dir: Some("/var/log".to_string()),
@@ -727,6 +735,8 @@ mod tests {
             request_timeout_secs: 120,
             worker_startup_timeout_secs: 60,
             worker_startup_check_interval_secs: 5,
+            dp_aware: false,
+            api_key: None,
             discovery: Some(DiscoveryConfig {
                 enabled: true,
                 namespace: Some("sglang".to_string()),
@@ -774,6 +784,8 @@ mod tests {
             request_timeout_secs: 300,
             worker_startup_timeout_secs: 180,
             worker_startup_check_interval_secs: 15,
+            dp_aware: false,
+            api_key: None,
             discovery: Some(DiscoveryConfig {
                 enabled: true,
                 namespace: None,
@@ -812,6 +824,8 @@ mod tests {
             request_timeout_secs: 900,
             worker_startup_timeout_secs: 600,
             worker_startup_check_interval_secs: 20,
+            dp_aware: false,
+            api_key: None,
             discovery: Some(DiscoveryConfig {
                 enabled: true,
                 namespace: Some("production".to_string()),
diff --git a/sgl-router/src/config/validation.rs b/sgl-router/src/config/validation.rs
index 1e78a0f10c5e..65eaef95fe0f 100644
--- a/sgl-router/src/config/validation.rs
+++ b/sgl-router/src/config/validation.rs
@@ -313,6 +313,14 @@ impl ConfigValidator {
             }
         }
 
+        // Service discovery is conflict with dp_aware routing for now
+        // since it's not fully supported yet
+        if has_service_discovery && config.dp_aware {
+            return Err(ConfigError::IncompatibleConfig {
+                reason: "DP-aware routing is not compatible with service discovery".to_string(),
+            });
+        }
+
         Ok(())
     }
 
diff --git a/sgl-router/src/core/error.rs b/sgl-router/src/core/error.rs
index 4d50ccee0df5..b89ba8032a5e 100644
--- a/sgl-router/src/core/error.rs
+++ b/sgl-router/src/core/error.rs
@@ -17,6 +17,8 @@ pub enum WorkerError {
     NetworkError { url: String, error: String },
     /// Worker is at capacity
     WorkerAtCapacity { url: String },
+    /// Invalid URL format
+    InvalidUrl { url: String },
 }
 
 impl fmt::Display for WorkerError {
@@ -37,6 +39,9 @@ impl fmt::Display for WorkerError {
             WorkerError::WorkerAtCapacity { url } => {
                 write!(f, "Worker at capacity: {}", url)
             }
+            WorkerError::InvalidUrl { url } => {
+                write!(f, "Invalid URL format: {}", url)
+            }
         }
     }
 }
diff --git a/sgl-router/src/core/worker.rs b/sgl-router/src/core/worker.rs
index fc91b1f5e6ce..58db15991f63 100644
--- a/sgl-router/src/core/worker.rs
+++ b/sgl-router/src/core/worker.rs
@@ -162,6 +162,27 @@ impl BasicWorker {
         self.metadata.health_config = config;
         self
     }
+
+    pub fn normalised_url(&self) -> WorkerResult<&str> {
+        if self.url().contains("@") {
+            // Need to extract the URL from "http://host:port@dp_rank"
+            let parts: Vec<&str> = self.url().split('@').collect();
+            if parts.len() != 2 {
+                return Err(WorkerError::InvalidUrl {
+                    url: self.url().to_string(),
+                });
+            }
+            // Ensure the second part (the dp_rank) can be parsed as an integer
+            match parts[1].parse::<usize>() {
+                Ok(_) => Ok(parts[0]),
+                Err(_) => Err(WorkerError::InvalidUrl {
+                    url: self.url().to_string(),
+                }),
+            }
+        } else {
+            Ok(self.url())
+        }
+    }
 }
 
 #[async_trait]
@@ -186,7 +207,8 @@ impl Worker for BasicWorker {
         use std::time::Duration;
 
         // Perform actual HTTP health check
-        let health_url = format!("{}{}", self.url(), self.metadata.health_config.endpoint);
+        let url = self.normalised_url()?;
+        let health_url = format!("{}{}", url, self.metadata.health_config.endpoint);
         let timeout = Duration::from_secs(self.metadata.health_config.timeout_secs);
 
         // Use the shared client with a custom timeout for this request
@@ -203,7 +225,7 @@ impl Worker for BasicWorker {
                 } else {
                     self.set_healthy(false);
                     Err(WorkerError::HealthCheckFailed {
-                        url: self.url().to_string(),
+                        url: url.to_string(),
                         reason: format!("Health check returned status: {}", response.status()),
                     })
                 }
@@ -211,7 +233,7 @@ impl Worker for BasicWorker {
             Err(e) => {
                 self.set_healthy(false);
                 Err(WorkerError::HealthCheckFailed {
-                    url: self.url().to_string(),
+                    url: url.to_string(),
                     reason: format!("Health check request failed: {}", e),
                 })
             }
diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index ede058f8731c..6bec3d418838 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -37,6 +37,8 @@ struct Router {
     eviction_interval_secs: u64,
     max_tree_size: usize,
     max_payload_size: usize,
+    dp_aware: bool,
+    api_key: Option<String>,
     log_dir: Option<String>,
     log_level: Option<String>,
     service_discovery: bool,
@@ -136,6 +138,8 @@ impl Router {
             request_timeout_secs: self.request_timeout_secs,
             worker_startup_timeout_secs: self.worker_startup_timeout_secs,
             worker_startup_check_interval_secs: self.worker_startup_check_interval,
+            dp_aware: self.dp_aware,
+            api_key: self.api_key.clone(),
             discovery,
             metrics,
             log_dir: self.log_dir.clone(),
@@ -161,6 +165,8 @@ impl Router {
         eviction_interval_secs = 60,
         max_tree_size = 2usize.pow(24),
         max_payload_size = 256 * 1024 * 1024,  // 256MB default for large batches
+        dp_aware = false,
+        api_key = None,
         log_dir = None,
         log_level = None,
         service_discovery = false,
@@ -193,6 +199,8 @@ impl Router {
         eviction_interval_secs: u64,
         max_tree_size: usize,
         max_payload_size: usize,
+        dp_aware: bool,
+        api_key: Option<String>,
         log_dir: Option<String>,
         log_level: Option<String>,
         service_discovery: bool,
@@ -225,6 +233,8 @@ impl Router {
             eviction_interval_secs,
             max_tree_size,
             max_payload_size,
+            dp_aware,
+            api_key,
             log_dir,
             log_level,
             service_discovery,
diff --git a/sgl-router/src/routers/factory.rs b/sgl-router/src/routers/factory.rs
index edf063440b44..b979743672cf 100644
--- a/sgl-router/src/routers/factory.rs
+++ b/sgl-router/src/routers/factory.rs
@@ -45,6 +45,8 @@ impl RouterFactory {
             policy,
             router_config.worker_startup_timeout_secs,
             router_config.worker_startup_check_interval_secs,
+            router_config.dp_aware,
+            router_config.api_key.clone(),
         )?;
 
         Ok(Box::new(router))
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index b065afafed9c..294fa4919d28 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -30,6 +30,8 @@ pub struct Router {
     policy: Arc<dyn LoadBalancingPolicy>,
     timeout_secs: u64,
     interval_secs: u64,
+    dp_aware: bool,
+    api_key: Option<String>,
     _worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
     _load_monitor_handle: Option<Arc<tokio::task::JoinHandle<()>>>,
     _health_checker: Option<HealthChecker>,
@@ -42,6 +44,8 @@ impl Router {
         policy: Arc<dyn LoadBalancingPolicy>,
         timeout_secs: u64,
         interval_secs: u64,
+        dp_aware: bool,
+        api_key: Option<String>,
     ) -> Result<Self, String> {
         // Update active workers gauge
         RouterMetrics::set_active_workers(worker_urls.len());
@@ -51,6 +55,14 @@ impl Router {
             Self::wait_for_healthy_workers(&worker_urls, timeout_secs, interval_secs)?;
         }
 
+        let worker_urls = if dp_aware {
+            // worker address now in the format of "http://host:port@dp_rank"
+            Self::get_dp_aware_workers(&worker_urls, &api_key)
+                .map_err(|e| format!("Failed to get dp-aware workers: {}", e))?
+        } else {
+            worker_urls
+        };
+
         // Create Worker trait objects from URLs
         let workers: Vec<Box<dyn Worker>> = worker_urls
             .iter()
@@ -89,6 +101,8 @@ impl Router {
             policy,
             timeout_secs,
             interval_secs,
+            dp_aware,
+            api_key,
             _worker_loads: worker_loads,
             _load_monitor_handle: load_monitor_handle,
             _health_checker: Some(health_checker),
@@ -160,6 +174,62 @@ impl Router {
         }
     }
 
+    fn get_worker_dp_size(worker_url: &str, api_key: &Option<String>) -> Result<usize, String> {
+        let sync_client = reqwest::blocking::Client::new();
+        let mut req_builder = sync_client.get(&format!("{}/get_server_info", worker_url));
+        if let Some(key) = api_key {
+            req_builder = req_builder.bearer_auth(key);
+        }
+
+        match req_builder.send() {
+            Ok(res) => {
+                if res.status().is_success() {
+                    let server_info = res
+                        .text()
+                        .map_err(|e| format!("failed to read text from response: {}", e))?;
+
+                    let server_info: serde_json::Value = serde_json::from_str(&server_info)
+                        .map_err(|e| format!("failed to decode JSON: {}", e))?;
+
+                    let dp_size = server_info
+                        .get("dp_size")
+                        .and_then(|v| v.as_u64())
+                        .ok_or_else(|| String::from("dp_size not found or not an u64"))?;
+
+                    Ok(if dp_size > usize::MAX as u64 {
+                        return Err(format!("dp_size is too large: {}", dp_size));
+                    } else {
+                        dp_size as usize
+                    })
+                } else {
+                    Err(format!("unexpected status code: {}", res.status()))
+                }
+            }
+            Err(e) => Err(format!("error response: {}", e)),
+        }
+    }
+
+    // Given a list of workers, return a list of workers with dp_rank as suffix
+    fn get_dp_aware_workers(
+        worker_urls: &[String],
+        api_key: &Option<String>,
+    ) -> Result<Vec<String>, String> {
+        let mut dp_aware_workers: Vec<String> = Vec::new();
+
+        for url in worker_urls {
+            match Self::get_worker_dp_size(url, api_key) {
+                Ok(dp_size) => {
+                    for i in 0..dp_size {
+                        dp_aware_workers.push(format!("{}@{}", url, i));
+                    }
+                }
+                Err(e) => return Err(format!("Failed to get DP size for {}: {}", url, e)),
+            }
+        }
+
+        Ok(dp_aware_workers)
+    }
+
     fn select_first_worker(&self) -> Result<String, String> {
         let workers_guard = self.workers.read().unwrap();
         if workers_guard.is_empty() {
@@ -178,6 +248,21 @@ impl Router {
     ) -> HttpResponse {
         let request_id = get_request_id(req);
         let start = Instant::now();
+
+        let worker_url = if self.dp_aware {
+            // Need to extract the URL from "http://host:port@dp_rank"
+            let (worker_url_prefix, _dp_rank) = match Self::extract_dp_rank(worker_url) {
+                Ok(tup) => tup,
+                Err(e) => {
+                    error!("Failed to extract dp_rank: {}", e);
+                    return HttpResponse::InternalServerError().finish();
+                }
+            };
+            worker_url_prefix
+        } else {
+            worker_url
+        };
+
         let mut request_builder = client.get(format!("{}{}", worker_url, route));
 
         // Copy all headers from original request except for /health because it does not need authorization
@@ -292,7 +377,7 @@ impl Router {
                                 worker_url = %worker_url,
                                 "Removing failed worker"
                             );
-                            self.remove_worker(&worker_url);
+                            self.remove_failed_worker(&worker_url);
                             break;
                         }
                     }
@@ -392,7 +477,7 @@ impl Router {
                         request_id = %request_id,
                         "Removing failed worker after typed request failures worker_url={}", worker_url
                     );
-                    self.remove_worker(&worker_url);
+                    self.remove_failed_worker(&worker_url);
                     break;
                 }
             }
@@ -415,6 +500,23 @@ impl Router {
         }
     }
 
+    // TODO (rui): Better accommodate to the Worker abstraction
+    fn extract_dp_rank(worker_url: &str) -> Result<(&str, usize), String> {
+        let parts: Vec<&str> = worker_url.split('@').collect();
+        if parts.len() != 2 {
+            return Err(format!("invalid worker_url format: {}", worker_url));
+        }
+
+        // Parse the second part (dp_rank) into an integer
+        match parts[1].parse::<usize>() {
+            Ok(dp_rank) => Ok((parts[0], dp_rank)),
+            Err(_) => Err(format!(
+                "failed to parse dp_rank from worker_url: {}",
+                worker_url
+            )),
+        }
+    }
+
     // Send typed request directly without conversion
     async fn send_typed_request<T: serde::Serialize>(
         &self,
@@ -429,9 +531,47 @@ impl Router {
         let request_id = get_request_id(req);
         let start = Instant::now();
 
-        let mut request_builder = client
-            .post(format!("{}{}", worker_url, route))
-            .json(typed_req); // Use json() directly with typed request
+        let mut request_builder = if self.dp_aware {
+            let (worker_url_prefix, dp_rank) = match Self::extract_dp_rank(worker_url) {
+                Ok(tup) => tup,
+                Err(e) => {
+                    error!("Failed to extract dp_rank: {}", e);
+                    return HttpResponse::InternalServerError().finish();
+                }
+            };
+
+            // Parse the request body
+            let mut json_val = match serde_json::to_value(typed_req) {
+                Ok(j) => j,
+                Err(e) => {
+                    return HttpResponse::BadRequest()
+                        .body(format!("Convert into serde_json::Value failed: {}", e));
+                }
+            };
+
+            // Insert the data_parallel_rank field
+            if let Some(map) = json_val.as_object_mut() {
+                map.insert(
+                    String::from("data_parallel_rank"),
+                    serde_json::json!(dp_rank),
+                );
+                debug!(
+                    "Modified request body: {}",
+                    serde_json::to_string(&json_val).unwrap_or(String::from("ERR"))
+                );
+            } else {
+                return HttpResponse::BadRequest()
+                    .body("Failed to insert the data_parallel_rank field into the request body");
+            }
+
+            client
+                .post(format!("{}{}", worker_url_prefix, route))
+                .json(&json_val)
+        } else {
+            client
+                .post(format!("{}{}", worker_url, route))
+                .json(typed_req) // Use json() directly with typed request
+        };
 
         // Copy all headers from original request
         for (name, value) in copy_request_headers(req) {
@@ -560,12 +700,35 @@ impl Router {
                 Ok(res) => {
                     if res.status().is_success() {
                         let mut workers_guard = self.workers.write().unwrap();
-                        if workers_guard.iter().any(|w| w.url() == worker_url) {
-                            return Err(format!("Worker {} already exists", worker_url));
+                        if self.dp_aware {
+                            // Need to contact the worker to extract the dp_size,
+                            // and add them as multiple workers
+                            let url_vec = vec![String::from(worker_url)];
+                            let dp_url_vec = Self::get_dp_aware_workers(&url_vec, &self.api_key)
+                                .map_err(|e| format!("Failed to get dp-aware workers: {}", e))?;
+                            let mut worker_added: bool = false;
+                            for dp_url in &dp_url_vec {
+                                if workers_guard.iter().any(|w| w.url() == dp_url) {
+                                    warn!("Worker {} already exists", dp_url);
+                                    continue;
+                                }
+                                info!("Added worker: {}", dp_url);
+                                let new_worker = WorkerFactory::create_regular(dp_url.to_string());
+                                workers_guard.push(new_worker);
+                                worker_added = true;
+                            }
+                            if !worker_added {
+                                return Err(format!("No worker added for {}", worker_url));
+                            }
+                        } else {
+                            if workers_guard.iter().any(|w| w.url() == worker_url) {
+                                return Err(format!("Worker {} already exists", worker_url));
+                            }
+                            info!("Added worker: {}", worker_url);
+                            let new_worker = WorkerFactory::create_regular(worker_url.to_string());
+                            workers_guard.push(new_worker);
                         }
-                        info!("Added worker: {}", worker_url);
-                        let new_worker = WorkerFactory::create_regular(worker_url.to_string());
-                        workers_guard.push(new_worker);
+
                         RouterMetrics::set_active_workers(workers_guard.len());
 
                         // If cache aware policy, initialize the worker in the tree
@@ -612,11 +775,81 @@ impl Router {
         }
     }
 
+    /// Remove all the worker(s) that match the URL prefix
     pub fn remove_worker(&self, worker_url: &str) {
+        if self.dp_aware {
+            // remove dp-aware workers in a prefix-matching fashion
+            // without contacting the remote worker
+            let mut candidate_workers: Vec<String> = Vec::new();
+            let mut removed_workers: Vec<String> = Vec::new();
+            let worker_url_prefix = format!("{}@", worker_url);
+
+            {
+                // find the candidate workers to be removed
+                let workers_guard = self.workers.read().unwrap();
+                for w in workers_guard.iter() {
+                    if w.url().starts_with(&worker_url_prefix) {
+                        candidate_workers.push(w.url().to_string());
+                    }
+                }
+            }
+
+            {
+                // do the removing on the worker_urls
+                let mut workers_guard = self.workers.write().unwrap();
+                for dp_url in candidate_workers.iter() {
+                    if let Some(index) = workers_guard.iter().position(|w| w.url() == dp_url) {
+                        workers_guard.remove(index);
+                        info!("Removed worker: {}", dp_url);
+                        removed_workers.push(dp_url.to_string());
+                    } else {
+                        warn!("Worker {} not found, skipping removal", dp_url);
+                        continue;
+                    }
+                }
+                RouterMetrics::set_active_workers(workers_guard.len());
+            }
+
+            // If cache aware policy, remove the workers from the tree
+            if let Some(cache_aware) = self
+                .policy
+                .as_any()
+                .downcast_ref::<crate::policies::CacheAwarePolicy>()
+            {
+                for dp_url in removed_workers.iter() {
+                    cache_aware.remove_worker(dp_url);
+                    info!("Removed worker from tree: {}", dp_url);
+                }
+            }
+        } else {
+            let mut workers_guard = self.workers.write().unwrap();
+            if let Some(index) = workers_guard.iter().position(|w| w.url() == worker_url) {
+                workers_guard.remove(index);
+                info!("Removed worker: {}", worker_url);
+                RouterMetrics::set_active_workers(workers_guard.len());
+            } else {
+                warn!("Worker {} not found, skipping removal", worker_url);
+                return;
+            }
+
+            // If cache aware policy, remove the workers from the tree
+            if let Some(cache_aware) = self
+                .policy
+                .as_any()
+                .downcast_ref::<crate::policies::CacheAwarePolicy>()
+            {
+                cache_aware.remove_worker(worker_url);
+                info!("Removed worker from tree: {}", worker_url);
+            }
+        }
+    }
+
+    /// Remove a specific failed worker; for internal usage
+    fn remove_failed_worker(&self, worker_url: &str) {
         let mut workers_guard = self.workers.write().unwrap();
         if let Some(index) = workers_guard.iter().position(|w| w.url() == worker_url) {
             workers_guard.remove(index);
-            info!("Removed worker: {}", worker_url);
+            info!("Removed failed worker: {}", worker_url);
             RouterMetrics::set_active_workers(workers_guard.len());
         } else {
             warn!("Worker {} not found, skipping removal", worker_url);
@@ -634,6 +867,20 @@ impl Router {
     }
 
     async fn get_worker_load(&self, client: &reqwest::Client, worker_url: &str) -> Option<isize> {
+        let worker_url = if self.dp_aware {
+            // Need to extract the URL from "http://host:port@dp_rank"
+            let (worker_url_prefix, _dp_rank) = match Self::extract_dp_rank(worker_url) {
+                Ok(tup) => tup,
+                Err(e) => {
+                    error!("Failed to extract dp_rank: {}", e);
+                    return None;
+                }
+            };
+            worker_url_prefix
+        } else {
+            worker_url
+        };
+
         match client.get(&format!("{}/get_load", worker_url)).send().await {
             Ok(res) if res.status().is_success() => match res.bytes().await {
                 Ok(bytes) => match serde_json::from_slice::<serde_json::Value>(&bytes) {
@@ -710,6 +957,20 @@ impl Router {
 
     // Static version of get_worker_load for use in monitoring task
     async fn get_worker_load_static(client: &reqwest::Client, worker_url: &str) -> Option<isize> {
+        let worker_url = if worker_url.contains("@") {
+            // Need to extract the URL from "http://host:port@dp_rank"
+            let (worker_url_prefix, _dp_rank) = match Self::extract_dp_rank(worker_url) {
+                Ok(tup) => tup,
+                Err(e) => {
+                    debug!("Failed to extract dp_rank: {}", e);
+                    return None;
+                }
+            };
+            worker_url_prefix
+        } else {
+            worker_url
+        };
+
         match client.get(&format!("{}/get_load", worker_url)).send().await {
             Ok(res) if res.status().is_success() => match res.bytes().await {
                 Ok(bytes) => match serde_json::from_slice::<serde_json::Value>(&bytes) {
@@ -862,6 +1123,19 @@ impl RouterTrait for Router {
         // Send requests to all workers concurrently without headers
         let mut tasks = Vec::new();
         for worker_url in &worker_urls {
+            let worker_url = if self.dp_aware {
+                // Need to extract the URL from "http://host:port@dp_rank"
+                let (worker_url_prefix, _dp_rank) = match Self::extract_dp_rank(worker_url) {
+                    Ok(tup) => tup,
+                    Err(e) => {
+                        error!("Failed to extract dp_rank: {}", e);
+                        return HttpResponse::InternalServerError().finish();
+                    }
+                };
+                worker_url_prefix
+            } else {
+                worker_url
+            };
             let request_builder = client.post(format!("{}/flush_cache", worker_url));
             tasks.push(request_builder.send());
         }
@@ -948,6 +1222,8 @@ mod tests {
             policy: Arc::new(RandomPolicy::new()),
             timeout_secs: 5,
             interval_secs: 1,
+            dp_aware: false,
+            api_key: None,
             _worker_loads: Arc::new(rx),
             _load_monitor_handle: None,
             _health_checker: None,
diff --git a/sgl-router/src/service_discovery.rs b/sgl-router/src/service_discovery.rs
index fae09896d432..717370d14025 100644
--- a/sgl-router/src/service_discovery.rs
+++ b/sgl-router/src/service_discovery.rs
@@ -581,7 +581,7 @@ mod tests {
         use crate::routers::router::Router;
 
         let policy = PolicyFactory::create_from_config(&PolicyConfig::Random);
-        let router = Router::new(vec![], policy, 5, 1).unwrap();
+        let router = Router::new(vec![], policy, 5, 1, false, None).unwrap();
         Arc::new(router) as Arc<dyn RouterTrait>
     }
 
diff --git a/sgl-router/tests/api_endpoints_test.rs b/sgl-router/tests/api_endpoints_test.rs
index bf86d776b1e0..c38843b7760c 100644
--- a/sgl-router/tests/api_endpoints_test.rs
+++ b/sgl-router/tests/api_endpoints_test.rs
@@ -31,6 +31,8 @@ impl TestContext {
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 1,
             worker_startup_check_interval_secs: 1,
+            dp_aware: false,
+            api_key: None,
             discovery: None,
             metrics: None,
             log_dir: None,
@@ -950,6 +952,8 @@ mod error_tests {
                 request_timeout_secs: 600,
                 worker_startup_timeout_secs: 1,
                 worker_startup_check_interval_secs: 1,
+                dp_aware: false,
+                api_key: None,
                 discovery: None,
                 metrics: None,
                 log_dir: None,
diff --git a/sgl-router/tests/common/mod.rs b/sgl-router/tests/common/mod.rs
index 62c99a46bbae..47aafae32eee 100644
--- a/sgl-router/tests/common/mod.rs
+++ b/sgl-router/tests/common/mod.rs
@@ -16,6 +16,8 @@ pub fn create_test_config(worker_urls: Vec<String>) -> RouterConfig {
         request_timeout_secs: 600,
         worker_startup_timeout_secs: 300,
         worker_startup_check_interval_secs: 10,
+        dp_aware: false,
+        api_key: None,
         discovery: None,
         metrics: None,
         log_dir: None,
@@ -37,6 +39,8 @@ pub fn create_test_config_no_workers() -> RouterConfig {
         request_timeout_secs: 600,
         worker_startup_timeout_secs: 0, // No wait
         worker_startup_check_interval_secs: 10,
+        dp_aware: false,
+        api_key: None,
         discovery: None,
         metrics: None,
         log_dir: None,
diff --git a/sgl-router/tests/request_formats_test.rs b/sgl-router/tests/request_formats_test.rs
index d265d10309e2..b6bc6ac4a3f1 100644
--- a/sgl-router/tests/request_formats_test.rs
+++ b/sgl-router/tests/request_formats_test.rs
@@ -42,6 +42,8 @@ impl RequestTestContext {
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 1,
             worker_startup_check_interval_secs: 1,
+            dp_aware: false,
+            api_key: None,
             discovery: None,
             metrics: None,
             log_dir: None,
diff --git a/sgl-router/tests/streaming_tests.rs b/sgl-router/tests/streaming_tests.rs
index ada8b7e4554e..3fce7b8350dc 100644
--- a/sgl-router/tests/streaming_tests.rs
+++ b/sgl-router/tests/streaming_tests.rs
@@ -46,6 +46,8 @@ impl StreamingTestContext {
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 1,
             worker_startup_check_interval_secs: 1,
+            dp_aware: false,
+            api_key: None,
             discovery: None,
             metrics: None,
             log_dir: None,
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index a6cb8d02d572..8bf0c2ee28c1 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -169,6 +169,8 @@ mod test_pd_routing {
                 request_timeout_secs: 60,
                 worker_startup_timeout_secs: 10,
                 worker_startup_check_interval_secs: 1,
+                dp_aware: false,
+                api_key: None,
                 discovery: None,
                 metrics: None,
                 log_dir: None,

From 3bdcdd134b1c05b2c232172fa929652e477542a8 Mon Sep 17 00:00:00 2001
From: Yuan Luo <yuan.luo@hotmail.com>
Date: Thu, 31 Jul 2025 00:28:32 +0800
Subject: [PATCH 228/396] [Hot-Fix] moe_aligned_block_size CI failed in AMD
 (#8461)

Co-authored-by: luoyuan.luo <luoyuan.luo@antgroup.com>
Co-authored-by: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Co-authored-by: JieXin Liang <Alcanderian@users.noreply.github.com>
---
 sgl-kernel/csrc/moe/moe_align_kernel.cu | 71 ++++++++++++++++++++++---
 1 file changed, 65 insertions(+), 6 deletions(-)

diff --git a/sgl-kernel/csrc/moe/moe_align_kernel.cu b/sgl-kernel/csrc/moe/moe_align_kernel.cu
index ad80b0c75e81..ea17b329c376 100644
--- a/sgl-kernel/csrc/moe/moe_align_kernel.cu
+++ b/sgl-kernel/csrc/moe/moe_align_kernel.cu
@@ -42,6 +42,18 @@ __global__ void count_and_sort_expert_tokens_kernel(
   }
 }
 
+#ifdef __CUDA_ARCH__
+__device__ __forceinline__ int warp_exclusive_scan(int v, unsigned mask = 0xffffffffu) {
+  int original = v;
+#pragma unroll
+  for (int offset = 1; offset < WARP_SIZE; offset <<= 1) {
+    int n = __shfl_up_sync(mask, v, offset);
+    if ((threadIdx.x & (WARP_SIZE - 1)) >= offset) v += n;
+  }
+  return v - original;
+}
+#endif
+
 template <typename scalar_t>
 __global__ void moe_align_block_size_kernel(
     const scalar_t* __restrict__ topk_ids,
@@ -83,6 +95,8 @@ __global__ void moe_align_block_size_kernel(
     scan_buf[tid] = padded_count;
   }
 
+#ifndef __CUDA_ARCH__  // HIP
+
   if (tid >= num_experts && tid < scan_size) {
     scan_buf[tid] = 0;
   }
@@ -132,13 +146,62 @@ __global__ void moe_align_block_size_kernel(
     s_total_tokens_post_pad = prefix[num_experts];
     *total_tokens_post_pad = s_total_tokens_post_pad;
   }
+  __syncthreads();
 
+#else  // CUDA
+
+  // Intra warp prefix sum
+  int32_t* warp_sums = scan_buf + scan_size;  // [<= 32]
+  const int warp_id = tid / WARP_SIZE;
+  const int lane_id = tid & (WARP_SIZE - 1);
+  const int num_warps_for_scan = (scan_size + WARP_SIZE - 1) / WARP_SIZE;
+  const int warp_sum = warp_exclusive_scan(padded_count) + padded_count;
+  if (lane_id == WARP_SIZE - 1) warp_sums[warp_id] = warp_sum;
   __syncthreads();
 
+  // warp0 accumulate all the block's prefix sum
+  if (tid < WARP_SIZE) {
+    int val = (tid < num_warps_for_scan) ? warp_sums[tid] : 0;
+    int incl = warp_exclusive_scan(val) + val;
+    warp_sums[tid] = incl;
+  }
+  __syncthreads();
+
+  // Every thread obtains the whole block's sum
+  if (tid == 0) {
+    prefix[num_experts] = warp_sums[num_warps_for_scan - 1];
+    s_total_tokens_post_pad = prefix[num_experts];
+    *total_tokens_post_pad = s_total_tokens_post_pad;
+  }
+  __syncthreads();
+
+  // Fill 0 to scan_buf extended area (tid >= num_expert)
+  if (tid >= num_experts && tid < scan_size) scan_buf[tid] = 0;
+  __syncthreads();
+
+  // Perform 2 level exclusive-prefix-sum to scan_buf
+  int v = (tid < scan_size) ? scan_buf[tid] : 0;
+  int pre = warp_exclusive_scan(v);
+  if (lane_id == WARP_SIZE - 1) warp_sums[warp_id] = pre + v;
+  __syncthreads();
+
+  if (warp_id == 0) {
+    int val = (lane_id < num_warps_for_scan) ? warp_sums[lane_id] : 0;
+    warp_sums[lane_id] = warp_exclusive_scan(val);
+  }
+  __syncthreads();
+
+  int offset = warp_sums[warp_id];
+  if (tid < scan_size) scan_buf[tid] = pre + offset;
+  __syncthreads();
+
+  // Write prefix[0..num_experts - 1] and cumsum
+  if (tid < num_experts) prefix[tid] = scan_buf[tid];
+#endif
+
   if (tid <= num_experts) {
     cumsum[tid] = prefix[tid];
   }
-
   // fill expert_ids
   const int32_t num_blocks = s_total_tokens_post_pad / block_size;
   for (int32_t i = tid; i < num_blocks; i += stride) {
@@ -250,9 +313,6 @@ void moe_align_block_size(
     bool pad_sorted_token_ids) {
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
 
-  int64_t padded_num_experts = ((num_experts + WARP_SIZE - 1) / WARP_SIZE) * WARP_SIZE;
-
-  int experts_per_warp = WARP_SIZE;
   int threads = 1024;
 
   threads = ((threads + WARP_SIZE - 1) / WARP_SIZE) * WARP_SIZE;
@@ -278,8 +338,7 @@ void moe_align_block_size(
       auto align_kernel = moe_align_block_size_kernel<scalar_t>;
 
       const size_t scan_size = next_pow2(num_experts);
-      const size_t shared_mem_size = (num_experts + (num_experts + 1) + scan_size) * sizeof(int32_t);
-
+      const size_t shared_mem_size = (num_experts + (num_experts + 1) + scan_size + WARP_SIZE) * sizeof(int32_t);
       align_kernel<<<1, threads, shared_mem_size, stream>>>(
           topk_ids.data_ptr<scalar_t>(),
           sorted_token_ids.data_ptr<int32_t>(),

From ec5f94427196d717c66c4117199c3643fa677c96 Mon Sep 17 00:00:00 2001
From: Adarsh Shirawalmath <114558126+adarshxs@users.noreply.github.com>
Date: Wed, 30 Jul 2025 23:15:25 +0530
Subject: [PATCH 229/396] [Model] Add support for Arcee Foundational Model
 (#8154)

---
 docs/supported_models/generative_models.md |   3 +-
 python/sglang/srt/models/arcee.py          | 532 +++++++++++++++++++++
 2 files changed, 534 insertions(+), 1 deletion(-)
 create mode 100644 python/sglang/srt/models/arcee.py

diff --git a/docs/supported_models/generative_models.md b/docs/supported_models/generative_models.md
index 8aeac1ae4dbc..375e24cd453b 100644
--- a/docs/supported_models/generative_models.md
+++ b/docs/supported_models/generative_models.md
@@ -45,6 +45,7 @@ in the GitHub search bar.
 | **SmolLM** (135M–1.7B)            | `HuggingFaceTB/SmolLM-1.7B`                      | Hugging Face’s ultra-small LLM series (135M–1.7B params) offering surprisingly strong results, enabling advanced AI on mobile/edge devices. |
 | **GLM-4** (Multilingual 9B)        | `ZhipuAI/glm-4-9b-chat`                          | Zhipu’s GLM-4 series (up to 9B parameters) – open multilingual models with support for 1M-token context and even a 5.6B multimodal variant (Phi-4V). |
 | **MiMo** (7B series)               | `XiaomiMiMo/MiMo-7B-RL`                         | Xiaomi's reasoning-optimized model series, leverages Multiple-Token Prediction for faster inference. |
+| **Arcee AFM-4.5B**               | `arcee-ai/AFM-4.5B-Base`                         | Arcee's foundational model series for real world reliability and edge deployments. |
 | **Persimmon** (8B)               | `adept/persimmon-8b-chat`                         | Adept’s open 8B model with a 16K context window and fast inference; trained for broad usability and licensed under Apache 2.0. |
 | **Granite 3.0, 3.1** (IBM)               | `ibm-granite/granite-3.1-8b-instruct`                          | IBM's open dense foundation models optimized for reasoning, code, and business AI use cases. Integrated with Red Hat and watsonx systems. |
-| **Granite 3.0 MoE** (IBM)               | `ibm-granite/granite-3.0-3b-a800m-instruct`                          | IBM’s Mixture-of-Experts models offering strong performance with cost-efficiency. MoE expert routing designed for enterprise deployment at scale. |
+| **Granite 3.0 MoE** (IBM)               | `ibm-granite/granite-3.0-3b-a800m-instruct`                          | IBM’s Mixture-of-Experts models offering strong performance with cost-efficiency. MoE expert routing designed for enterprise deployment at scale. |
diff --git a/python/sglang/srt/models/arcee.py b/python/sglang/srt/models/arcee.py
new file mode 100644
index 000000000000..f9ebfe19a8b8
--- /dev/null
+++ b/python/sglang/srt/models/arcee.py
@@ -0,0 +1,532 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""Inference-only Arcee Foundational Model (AFM) compatible with HuggingFace weights."""
+
+import logging
+from typing import Any, Dict, Iterable, List, Optional, Tuple, Union
+
+import torch
+from torch import nn
+from transformers import LlamaConfig
+
+from sglang.srt.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from sglang.srt.layers.activation import get_act_fn
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
+from sglang.srt.layers.pooler import Pooler, PoolingType
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.utils import PPMissingLayer, get_layer_id
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, PPProxyTensors
+from sglang.srt.model_loader.weight_utils import (
+    default_weight_loader,
+    kv_cache_scales_loader,
+    maybe_remap_kv_scale_name,
+)
+from sglang.srt.utils import add_prefix, make_layers
+
+logger = logging.getLogger(__name__)
+
+
+class ArceeMLP(nn.Module):
+    """
+    MLP block for the Arcee model, using a ReLU-squared activation function.
+    This differs from the Llama SwiGLU activation.
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        reduce_results: bool = True,
+    ) -> None:
+        super().__init__()
+        # Arcee uses a single up-projection, not a merged gate/up projection.
+        self.up_proj = ColumnParallelLinear(
+            hidden_size,
+            intermediate_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=add_prefix("up_proj", prefix),
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=add_prefix("down_proj", prefix),
+            reduce_results=reduce_results,
+        )
+        if hidden_act != "relu2":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. "
+                "Arcee model in SGLang only supports 'relu2'."
+            )
+        # The activation function is relu(x)^2
+        self.act_fn = get_act_fn("relu2")
+
+    def forward(self, x, forward_batch=None):
+        x, _ = self.up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class ArceeAttention(nn.Module):
+    def __init__(
+        self,
+        config: LlamaConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        layer_id: int = 0,
+        rope_theta: float = 10000,
+        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_is_neox_style: bool = True,
+        max_position_embeddings: int = 8192,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        bias: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = getattr(config, "head_dim", None)
+        if self.head_dim is None:
+            self.head_dim = self.hidden_size // self.total_num_heads
+        self.partial_rotary_factor = getattr(config, "partial_rotary_factor", 1)
+        self.rotary_dim = int(self.partial_rotary_factor * self.head_dim)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=add_prefix("qkv_proj", prefix),
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=add_prefix("o_proj", prefix),
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.rotary_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=rope_is_neox_style,
+        )
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=add_prefix("attn", prefix),
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v, forward_batch)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class ArceeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: LlamaConfig,
+        layer_id: int = 0,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        rope_is_neox_style = getattr(config, "rope_is_neox_style", True)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False
+        )
+        self.self_attn = ArceeAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            layer_id=layer_id,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            rope_is_neox_style=rope_is_neox_style,
+            max_position_embeddings=max_position_embeddings,
+            quant_config=quant_config,
+            prefix=add_prefix("self_attn", prefix),
+            bias=attention_bias,
+        )
+        self.mlp = ArceeMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=add_prefix("mlp", prefix),
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+        residual: Optional[torch.Tensor],
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+            forward_batch=forward_batch,
+        )
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+class ArceeModel(nn.Module):
+    def __init__(
+        self,
+        config: LlamaConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.pp_group = get_pp_group()
+        if self.pp_group.is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=add_prefix("embed_tokens", prefix),
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.layers, self.start_layer, self.end_layer = make_layers(
+            config.num_hidden_layers,
+            lambda idx, prefix: ArceeDecoderLayer(
+                config=config, quant_config=quant_config, layer_id=idx, prefix=prefix
+            ),
+            pp_rank=self.pp_group.rank_in_group,
+            pp_size=self.pp_group.world_size,
+            prefix="model.layers",
+        )
+
+        if self.pp_group.is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer(return_tuple=True)
+        self.layers_to_capture = []
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+        pp_proxy_tensors: Optional[PPProxyTensors] = None,
+    ) -> Union[torch.Tensor, Tuple[torch.Tensor, List[torch.Tensor]], PPProxyTensors]:
+        if self.pp_group.is_first_rank:
+            if input_embeds is None:
+                hidden_states = self.embed_tokens(input_ids)
+            else:
+                hidden_states = input_embeds
+            residual = None
+        else:
+            assert pp_proxy_tensors is not None
+            hidden_states = pp_proxy_tensors["hidden_states"]
+            residual = pp_proxy_tensors["residual"]
+
+        aux_hidden_states = []
+        for i in range(self.start_layer, self.end_layer):
+            if i in self.layers_to_capture:
+                aux_hidden_states.append(hidden_states + residual)
+            layer = self.layers[i]
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                forward_batch,
+                residual,
+            )
+
+        if not self.pp_group.is_last_rank:
+            return PPProxyTensors(
+                {
+                    "hidden_states": hidden_states,
+                    "residual": residual,
+                }
+            )
+        else:
+            hidden_states, _ = self.norm(hidden_states, residual)
+
+        if len(aux_hidden_states) == 0:
+            return hidden_states
+
+        return hidden_states, aux_hidden_states
+
+    def load_kv_cache_scales(self, quantization_param_path: str) -> None:
+        tp_size = get_tensor_model_parallel_world_size()
+        tp_rank = get_tensor_model_parallel_rank()
+        for layer_idx, scaling_factor in kv_cache_scales_loader(
+            quantization_param_path,
+            tp_rank,
+            tp_size,
+            self.config.num_hidden_layers,
+            self.config.__class__.model_type,
+        ):
+            if not isinstance(self.layers[layer_idx], nn.Identity):
+                layer_self_attn = self.layers[layer_idx].self_attn
+
+            if hasattr(layer_self_attn.attn, "k_scale"):
+                layer_self_attn.attn.k_scale = scaling_factor
+                layer_self_attn.attn.v_scale = scaling_factor
+            else:
+                raise RuntimeError(
+                    "Self attention has no KV cache scaling factor attribute!"
+                )
+
+
+class ArceeForCausalLM(nn.Module):
+    # BitandBytes specific attributes
+    default_bitsandbytes_target_modules = [
+        # Note: gate_proj is removed compared to Llama
+        ".down_proj.",
+        ".up_proj.",
+        ".q_proj.",
+        ".k_proj.",
+        ".v_proj.",
+        ".o_proj.",
+    ]
+    # in TP, these weights are partitioned along the column dimension (dim=-1)
+    column_parallel_weights_modules = [".down_proj.", ".o_proj."]
+    bitsandbytes_stacked_params_mapping = {
+        # shard_name, weight_name, index
+        # Note: gate_proj and up_proj are removed as they are not stacked in ArceeMLP
+        ".q_proj": (".qkv_proj", 0),
+        ".k_proj": (".qkv_proj", 1),
+        ".v_proj": (".qkv_proj", 2),
+    }
+
+    def __init__(
+        self,
+        config: LlamaConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.pp_group = get_pp_group()
+        self.config = config
+        self.quant_config = quant_config
+        self.model = self._init_model(config, quant_config, add_prefix("model", prefix))
+        # Arcee does not tie word embeddings
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=add_prefix("lm_head", prefix),
+            use_attn_tp_group=global_server_args_dict["enable_dp_lm_head"],
+        )
+        self.logits_processor = LogitsProcessor(config)
+        self.pooler = Pooler(pooling_type=PoolingType.LAST, normalize=True)
+        # Parameters that are stacked in a single tensor in this model
+        self.stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+        self.capture_aux_hidden_states = False
+
+    def _init_model(
+        self,
+        config: LlamaConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        return ArceeModel(config, quant_config=quant_config, prefix=prefix)
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+        get_embedding: bool = False,
+        pp_proxy_tensors: Optional[PPProxyTensors] = None,
+    ) -> LogitsProcessorOutput:
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            forward_batch,
+            input_embeds,
+            pp_proxy_tensors=pp_proxy_tensors,
+        )
+
+        aux_hidden_states = None
+        if self.capture_aux_hidden_states:
+            hidden_states, aux_hidden_states = hidden_states
+
+        if self.pp_group.is_last_rank:
+            if not get_embedding:
+                return self.logits_processor(
+                    input_ids,
+                    hidden_states,
+                    self.lm_head,
+                    forward_batch,
+                    aux_hidden_states,
+                )
+            else:
+                return self.pooler(hidden_states, forward_batch)
+        else:
+            return hidden_states
+
+    @property
+    def start_layer(self):
+        return self.model.start_layer
+
+    @property
+    def end_layer(self):
+        return self.model.end_layer
+
+    def get_input_embeddings(self) -> nn.Embedding:
+        return self.model.embed_tokens
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        params_dict = dict(self.named_parameters())
+
+        for name, loaded_weight in weights:
+            layer_id = get_layer_id(name)
+            if (
+                layer_id is not None
+                and hasattr(self.model, "start_layer")
+                and (
+                    layer_id < self.model.start_layer
+                    or layer_id >= self.model.end_layer
+                )
+            ):
+                continue
+            if "rotary_emb.inv_freq" in name or "projector" in name:
+                continue
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                continue
+
+            # Handle FP8 kv-scale remapping
+            if "scale" in name:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+            is_stacked = False
+            for param_name, weight_name, shard_id in self.stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                if name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                is_stacked = True
+                break
+
+            if not is_stacked:
+                if name in params_dict:
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+                else:
+                    logger.warning(f"Parameter {name} not found in model.")
+
+    def load_kv_cache_scales(self, quantization_param_path: str) -> None:
+        self.model.load_kv_cache_scales(quantization_param_path)
+
+
+EntryClass = [ArceeForCausalLM]

From a79a5d70121c3a4ad2add48ffdd6c7c5f7b1bc8b Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Wed, 30 Jul 2025 13:12:05 -0700
Subject: [PATCH 230/396] Revert "Fix the input tools format and history
 tool_calls in OpenAI API  (#6556)" (#8584)

---
 .../srt/entrypoints/openai/serving_chat.py    | 23 ++-----------------
 1 file changed, 2 insertions(+), 21 deletions(-)

diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index bd9f9a98f8aa..a7beccf93057 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -127,12 +127,12 @@ def _process_messages(
             request.skip_special_tokens = False
             if not isinstance(request.tool_choice, str):
                 tools = [
-                    item.model_dump()
+                    item.function.model_dump()
                     for item in request.tools
                     if item.function.name == request.tool_choice.function.name
                 ]
             else:
-                tools = [item.model_dump() for item in request.tools]
+                tools = [item.function.model_dump() for item in request.tools]
 
             tool_call_parser = self.tokenizer_manager.server_args.tool_call_parser
             parser = FunctionCallParser(request.tools, tool_call_parser)
@@ -178,25 +178,6 @@ def _apply_jinja_template(
                 audio_data,
                 modalities,
             )
-
-            if "tool_calls" in processed_msg and isinstance(
-                processed_msg.get("tool_calls"), list
-            ):
-                for call in processed_msg["tool_calls"]:
-                    try:
-                        if "arguments" in call["function"] and isinstance(
-                            call["function"]["arguments"], str
-                        ):
-                            call["function"]["arguments"] = json.loads(
-                                call["function"]["arguments"]
-                            )
-                    except json.JSONDecodeError as e:
-                        # Log a warning or error if JSON parsing fails for arguments
-                        logger.warning(
-                            f"Failed to parse tool call arguments as JSON: {e}"
-                        )
-                        # Decide whether to continue or raise the exception based on desired behavior
-                        continue  # Or raise e if strict parsing is required
             openai_compatible_messages.append(processed_msg)
 
         # Handle assistant prefix for continue_final_message

From 299803343de254167bca3eafcbf5171af8761d00 Mon Sep 17 00:00:00 2001
From: pansicheng <sicheng.pan.chn@gmail.com>
Date: Thu, 31 Jul 2025 08:42:41 +0800
Subject: [PATCH 231/396] Add hf3fs support for hicache storage (based on
 #7704) (#7280)

Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
---
 benchmark/hf3fs/bench.sh                      |  49 +++
 benchmark/hf3fs/bench_client.py               | 162 ++++++++++
 benchmark/hf3fs/bench_storage.py              | 241 +++++++++++++++
 .../sglang/srt/managers/cache_controller.py   |  59 ++--
 python/sglang/srt/mem_cache/hiradix_cache.py  |  12 +-
 .../sglang/srt/mem_cache/memory_pool_host.py  |  10 +-
 .../srt/mem_cache/storage/hf3fs/README.md     |  65 ++++
 .../mem_cache/storage/hf3fs/client_hf3fs.py   | 177 +++++++++++
 .../mem_cache/storage/hf3fs/hf3fs_utils.cpp   |  35 +++
 .../mem_cache/storage/hf3fs/storage_hf3fs.py  | 278 ++++++++++++++++++
 .../storage/hf3fs/test_hf3fs_utils.py         |  43 +++
 python/sglang/srt/server_args.py              |   2 +-
 12 files changed, 1110 insertions(+), 23 deletions(-)
 create mode 100644 benchmark/hf3fs/bench.sh
 create mode 100644 benchmark/hf3fs/bench_client.py
 create mode 100644 benchmark/hf3fs/bench_storage.py
 create mode 100644 python/sglang/srt/mem_cache/storage/hf3fs/README.md
 create mode 100644 python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py
 create mode 100644 python/sglang/srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp
 create mode 100644 python/sglang/srt/mem_cache/storage/hf3fs/storage_hf3fs.py
 create mode 100644 python/sglang/srt/mem_cache/storage/hf3fs/test_hf3fs_utils.py

diff --git a/benchmark/hf3fs/bench.sh b/benchmark/hf3fs/bench.sh
new file mode 100644
index 000000000000..bb1bbcd32283
--- /dev/null
+++ b/benchmark/hf3fs/bench.sh
@@ -0,0 +1,49 @@
+SGLANG_HICACHE_HF3FS_CONFIG_PATH=/sgl-workspace/sglang/benchmark/hf3fs/hf3fs.json \
+python3 benchmark/hf3fs/bench_storage.py
+
+####################################################################################################
+
+rm -rf nohup.out && \
+nohup python3 -m sglang.launch_server \
+    --model-path /code/models/Qwen3-32B/ \
+    --host 0.0.0.0 --port 33301 \
+    --page-size 64 \
+    --enable-hierarchical-cache \
+    --hicache-ratio 2 --hicache-size 0 \
+    --hicache-write-policy write_through \
+    --hicache-storage-backend hf3fs &
+
+rm -rf bench_multiturn.out && \
+nohup python3 benchmark/hicache/bench_multiturn.py \
+    --model-path /code/models/Qwen3-32B \
+    --dataset-path /code/models/ShareGPT_V3_unfiltered_cleaned_split.json \
+    --port 33301 \
+    --request-length 2048 --num-clients 512 --num-rounds 3 --max-parallel 8 \
+    > bench_multiturn.out &
+
+####################################################################################################
+
+rm -rf nohup.out && \
+nohup python3 -m sglang.launch_server \
+    --model-path /code/models/DeepSeek-R1/ \
+    --tp 16 --nnodes 2 --node-rank 0 \
+    --dist-init-addr 10.74.249.153:5000 \
+    --host 0.0.0.0 --port 33301 \
+    --page-size 64 \
+    --enable-hierarchical-cache \
+    --hicache-ratio 2 --hicache-size 60 \
+    --hicache-write-policy write_through \
+    --hicache-storage-backend hf3fs &
+
+rm -rf bench_multiturn.out && \
+nohup python3 benchmark/hicache/bench_multiturn.py \
+    --model-path /code/models/Qwen3-32B \
+    --dataset-path /code/models/ShareGPT_V3_unfiltered_cleaned_split.json \
+    --port 33301 \
+    --request-length 2048 --num-clients 1024 --num-rounds 3 --max-parallel 8 \
+    > bench_multiturn.out &
+
+####################################################################################################
+
+ps aux | grep "sglang.launch_server" | grep -v grep | awk '{print $2}' | xargs kill -9
+ps aux | grep "bench_multiturn.py" | grep -v grep | awk '{print $2}' | xargs kill -9
diff --git a/benchmark/hf3fs/bench_client.py b/benchmark/hf3fs/bench_client.py
new file mode 100644
index 000000000000..33c5025754e9
--- /dev/null
+++ b/benchmark/hf3fs/bench_client.py
@@ -0,0 +1,162 @@
+import concurrent.futures
+import logging
+import random
+import time
+from typing import List
+
+import torch
+from tqdm import tqdm
+
+from sglang.srt.mem_cache.storage.hf3fs.client_hf3fs import Hf3fsClient
+
+
+def print_stats(x: List[int]):
+    x = sorted(x)
+    lenx = len(x)
+    print(
+        f"mean = {sum(x)/len(x):.2f}, "
+        f"min = {min(x):.2f}, "
+        f"p25 = {x[int(lenx*0.25)]:.2f}, "
+        f"p50 = {x[int(lenx*0.5)]:.2f}, "
+        f"p75 = {x[int(lenx*0.75)]:.2f}, "
+        f"max = {max(x):.2f}"
+    )
+
+
+def test():
+    # /path/to/hf3fs
+    file_path = "/data/bench.bin"
+    file_size = 1 << 40
+    bytes_per_page = 16 << 20
+    entries = 32
+    file_ops = Hf3fsClient(file_path, file_size, bytes_per_page, entries)
+
+    print("test batch_read / batch_write")
+    num_pages = 128
+    dtype = torch.bfloat16
+    numel = bytes_per_page // dtype.itemsize
+    offsets = list(range(file_size // bytes_per_page))
+    random.shuffle(offsets)
+    offsets = offsets[:num_pages]
+    offsets = [i * bytes_per_page for i in offsets]
+    tensor_writes = [
+        torch.randn(numel, dtype=dtype)
+        for _ in tqdm(range(num_pages), desc="prepare tensor")
+    ]
+    for i in tqdm(range(0, num_pages, file_ops.entries), desc="batch_write"):
+        results = file_ops.batch_write(
+            offsets[i : i + file_ops.entries], tensor_writes[i : i + file_ops.entries]
+        )
+        assert all([result == numel * dtype.itemsize for result in results])
+    tensor_reads = [
+        torch.empty(numel, dtype=dtype)
+        for _ in tqdm(range(num_pages), desc="prepare tensor")
+    ]
+    for i in tqdm(range(0, num_pages, file_ops.entries), desc="batch_read"):
+        results = file_ops.batch_read(
+            offsets[i : i + file_ops.entries], tensor_reads[i : i + file_ops.entries]
+        )
+        assert all([result == numel * dtype.itemsize for result in results])
+    assert all([torch.allclose(r, w) for r, w in zip(tensor_reads, tensor_writes)])
+
+    file_ops.close()
+    print("test done")
+
+
+def bench():
+    file_path = "/data/bench.bin"
+    file_size = 1 << 40
+    bytes_per_page = 16 << 20
+    entries = 8
+    numjobs = 16
+
+    dtype = torch.bfloat16
+    numel = bytes_per_page // dtype.itemsize
+
+    file_ops = [
+        Hf3fsClient(file_path, file_size, bytes_per_page, entries)
+        for _ in range(numjobs)
+    ]
+
+    num_page = entries
+
+    offsets = list(range(file_size // bytes_per_page))
+    tensors_write = [torch.randn(numel, dtype=dtype)] * num_page
+    tensors_read = [torch.empty(numel, dtype=dtype)] * num_page
+    random.shuffle(offsets)
+
+    warmup = 50
+    iteration = 100
+
+    executor = concurrent.futures.ThreadPoolExecutor(max_workers=numjobs)
+
+    w_bw = []
+    w_size = num_page * numjobs * bytes_per_page / (1 << 30)
+    for i in tqdm(range(warmup + iteration), desc="Benchmarking write (GB/s)"):
+        _offsets = [
+            [
+                offset * bytes_per_page
+                for offset in offsets[
+                    (i * numjobs + j) * num_page : (i * numjobs + j + 1) * num_page
+                ]
+            ]
+            for j in range(numjobs)
+        ]
+        tik = time.perf_counter()
+        futures = [
+            executor.submit(file_ops[j].batch_write, offset, tensors_write)
+            for j, offset in enumerate(_offsets)
+        ]
+        results = [future.result() for future in futures]
+        tok = time.perf_counter()
+        if i < warmup:
+            continue
+        w_bw.append(w_size / (tok - tik))
+        results = [
+            _result == bytes_per_page for result in results for _result in result
+        ]
+        assert all(results)
+    print_stats(w_bw)
+
+    r_bw = []
+    r_size = w_size
+    for i in tqdm(range(warmup + iteration), desc="Benchmarking read (GB/s)"):
+        _offsets = [
+            [
+                offset * bytes_per_page
+                for offset in offsets[
+                    (i * numjobs + j) * num_page : (i * numjobs + j + 1) * num_page
+                ]
+            ]
+            for j in range(numjobs)
+        ]
+        tik = time.perf_counter()
+        futures = [
+            executor.submit(file_ops[j].batch_read, offset, tensors_read)
+            for j, offset in enumerate(_offsets)
+        ]
+        results = [future.result() for future in futures]
+        tok = time.perf_counter()
+        if i < warmup:
+            continue
+        r_bw.append(r_size / (tok - tik))
+        results = [
+            _result == bytes_per_page for result in results for _result in result
+        ]
+        assert all(results)
+    print_stats(r_bw)
+
+    executor.shutdown(wait=True)
+    for _file_ops in file_ops:
+        _file_ops.close()
+    print("bench done")
+
+
+def main():
+    logging.basicConfig(level=logging.INFO)
+    test()
+    bench()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/benchmark/hf3fs/bench_storage.py b/benchmark/hf3fs/bench_storage.py
new file mode 100644
index 000000000000..4e96c8ec9373
--- /dev/null
+++ b/benchmark/hf3fs/bench_storage.py
@@ -0,0 +1,241 @@
+import json
+import logging
+import os
+import random
+import time
+from typing import List
+
+import torch
+from tqdm import tqdm
+
+from sglang.srt.mem_cache.storage.hf3fs.storage_hf3fs import HiCacheHF3FS
+
+
+def print_stats(x: List[int]):
+    x = sorted(x)
+    lenx = len(x)
+    print(
+        f"mean = {sum(x)/len(x):.2f}, "
+        f"min = {min(x):.2f}, "
+        f"p25 = {x[int(lenx*0.25)]:.2f}, "
+        f"p50 = {x[int(lenx*0.5)]:.2f}, "
+        f"p75 = {x[int(lenx*0.75)]:.2f}, "
+        f"max = {max(x):.2f}"
+    )
+
+
+def test():
+    # Qwen3-32B
+    layer_num = 64
+    head_num, head_dim = 8, 128
+    kv_lora_rank, qk_rope_head_dim = 0, 0
+    store_dtype = torch.bfloat16
+    tokens_per_page = 64
+
+    file_path_prefix = "/data/test"
+    file_size = 128 << 20
+    numjobs = 16
+    bytes_per_page = 16 << 20
+    entries = 2
+    dtype = store_dtype
+
+    config_path = os.getenv(HiCacheHF3FS.default_env_var)
+    assert config_path
+    try:
+        with open(config_path, "w") as f:
+            json.dump(
+                {
+                    "file_path_prefix": file_path_prefix,
+                    "file_size": file_size,
+                    "numjobs": numjobs,
+                    "entries": entries,
+                },
+                f,
+            )
+    except Exception as e:
+        raise RuntimeError(f"Failed to dump config to {config_path}: {str(e)}")
+
+    rank = 0
+    hicache_hf3fs = HiCacheHF3FS.from_env_config(rank, bytes_per_page, dtype)
+
+    numel = 2 * tokens_per_page * layer_num * head_num * head_dim
+    assert numel * dtype.itemsize == bytes_per_page
+
+    num_pages = 10
+    tensors = {}
+    for i in range(num_pages):
+        k = f"key_{i}"
+        v = torch.randn((numel,)).to(dtype=dtype)
+        ok = hicache_hf3fs.set(k, v)
+        assert ok, f"Failed to insert {k}"
+        tensors[k] = v
+    assert hicache_hf3fs.get("key_0") is None
+    assert hicache_hf3fs.get("key_1") is None
+
+    start = num_pages - hicache_hf3fs.num_pages
+    for i in range(start, start + hicache_hf3fs.num_pages):
+        k = f"key_{i}"
+        assert hicache_hf3fs.exists(k)
+        out = hicache_hf3fs.get(k)
+        assert out is not None
+        v = tensors[k]
+        assert torch.allclose(v, out, atol=1e-3), f"Tensor mismatch for {k}"
+
+    assert not hicache_hf3fs.exists("not_exists")
+
+    hicache_hf3fs.delete("key_9")
+    v2 = torch.randn((numel,)).to(dtype=dtype)
+    assert hicache_hf3fs.set("key_new", v2)
+    assert torch.allclose(hicache_hf3fs.get("key_new"), v2, atol=1e-3)
+
+    hicache_hf3fs.clear()
+    assert len(hicache_hf3fs.free_pages) == hicache_hf3fs.num_pages
+
+    # batch
+    num_pages = 10
+    tensors = {}
+    keys = []
+    values = []
+    for i in range(num_pages):
+        k = f"key_{i}"
+        keys.append(k)
+        v = torch.randn((numel,)).to(dtype=dtype)
+        values.append(v)
+
+    ok = hicache_hf3fs.batch_set(keys, values)
+    assert not ok
+    assert hicache_hf3fs.get("key_8") is None
+    assert hicache_hf3fs.get("key_9") is None
+
+    results = hicache_hf3fs.batch_get(keys[: hicache_hf3fs.num_pages])
+    for result, key, value in zip(
+        results, keys[: hicache_hf3fs.num_pages], values[: hicache_hf3fs.num_pages]
+    ):
+        assert torch.allclose(value, result, atol=1e-3), f"Tensor mismatch for {key}"
+
+    hicache_hf3fs.close()
+    os.remove(hicache_hf3fs.file_path)
+
+    print("All test cases passed.")
+
+
+def bench():
+    # Qwen3-32B
+    layer_num = 64
+    head_num, head_dim = 8, 128
+    kv_lora_rank, qk_rope_head_dim = 0, 0
+    store_dtype = torch.bfloat16
+    tokens_per_page = 64
+
+    file_path = "/data/test.bin"
+    file_size = 1 << 40
+    numjobs = 16
+    bytes_per_page = 16 << 20
+    entries = 8
+    dtype = store_dtype
+    hicache_hf3fs = HiCacheHF3FS(
+        file_path=file_path,
+        file_size=file_size,
+        numjobs=numjobs,
+        bytes_per_page=bytes_per_page,
+        entries=entries,
+        dtype=dtype,
+    )
+
+    numel = 2 * tokens_per_page * layer_num * head_num * head_dim
+    assert numel * dtype.itemsize == bytes_per_page
+
+    num_page = 128
+    values = [torch.randn((numel,)).to(dtype=dtype) for _ in tqdm(range(num_page))]
+
+    warmup = 50
+    iteration = 100
+
+    w_bw = []
+    w_size = num_page * bytes_per_page / (1 << 30)
+    for i in tqdm(range(warmup + iteration), desc="Benchmarking write (GB/s)"):
+        keys = [f"{j}" for j in range(i * num_page, (i + 1) * num_page)]
+        tik = time.perf_counter()
+        ok = hicache_hf3fs.batch_set(keys, values)
+        tok = time.perf_counter()
+        if i < warmup:
+            continue
+        w_bw.append(w_size / (tok - tik))
+        assert ok
+    print_stats(w_bw)
+
+    r_bw = []
+    r_size = num_page * bytes_per_page / (1 << 30)
+    for i in tqdm(range(warmup + iteration), desc="Benchmarking read (GB/s)"):
+        keys = random.sample(list(hicache_hf3fs.key_to_index.keys()), num_page)
+        tik = time.perf_counter()
+        results = hicache_hf3fs.batch_get(keys)
+        tok = time.perf_counter()
+        if i < warmup:
+            continue
+        r_bw.append(r_size / (tok - tik))
+        assert all([r is not None for r in results])
+    print_stats(r_bw)
+
+    hicache_hf3fs.close()
+
+
+def allclose():
+    # Qwen3-32B
+    layer_num = 64
+    head_num, head_dim = 8, 128
+    kv_lora_rank, qk_rope_head_dim = 0, 0
+    store_dtype = torch.bfloat16
+    tokens_per_page = 64
+
+    file_path = "/data/test.bin"
+    file_size = 1 << 40
+    numjobs = 16
+    bytes_per_page = 16 << 20
+    entries = 8
+    dtype = store_dtype
+    hicache_hf3fs = HiCacheHF3FS(
+        file_path=file_path,
+        file_size=file_size,
+        numjobs=numjobs,
+        bytes_per_page=bytes_per_page,
+        entries=entries,
+        dtype=dtype,
+    )
+
+    numel = 2 * tokens_per_page * layer_num * head_num * head_dim
+    assert numel * dtype.itemsize == bytes_per_page
+
+    num_page = 128
+    values = [torch.randn((numel,)).to(dtype=dtype) for _ in tqdm(range(num_page))]
+
+    iteration = 100
+
+    for i in tqdm(range(iteration), desc="Benchmarking write (GB/s)"):
+        keys = [f"{j}" for j in range(i * num_page, (i + 1) * num_page)]
+        ok = hicache_hf3fs.batch_set(keys, values)
+        assert ok
+
+    read_keys, read_results = [], []
+    for i in tqdm(range(iteration), desc="Benchmarking read (GB/s)"):
+        keys = random.sample(list(hicache_hf3fs.key_to_index.keys()), num_page)
+        results = hicache_hf3fs.batch_get(keys)
+        read_keys.extend(keys)
+        read_results.extend(results)
+        assert all([r is not None for r in results])
+
+    for key, result in tqdm(zip(read_keys, read_results)):
+        assert torch.allclose(values[int(key) % num_page], result, atol=1e-3)
+
+    hicache_hf3fs.close()
+
+
+def main():
+    logging.basicConfig(level=logging.INFO)
+    test()
+    bench()
+    allclose()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index fb7ad794f3f1..629e77748a31 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -26,6 +26,7 @@
     from sglang.srt.mem_cache.memory_pool_host import HostKVCache
 
 from sglang.srt.mem_cache.hicache_storage import HiCacheFile, get_hash_str
+from sglang.srt.mem_cache.storage.hf3fs.storage_hf3fs import HiCacheHF3FS
 
 logger = logging.getLogger(__name__)
 
@@ -250,17 +251,33 @@ def __init__(
             self.tp_world_size = torch.distributed.get_world_size(group=tp_group)
             if self.tp_world_size > 1:
                 group_ranks = torch.distributed.get_process_group_ranks(tp_group)
-                self.tp_group = torch.distributed.new_group(group_ranks, backend="gloo")
+                self.prefetch_tp_group = torch.distributed.new_group(
+                    group_ranks, backend="gloo"
+                )
+                self.backup_tp_group = torch.distributed.new_group(
+                    group_ranks, backend="gloo"
+                )
 
             if storage_backend == "file":
                 self.storage_backend = HiCacheFile()
-                self.enable_storage = True
-                # todo: threshold policy for prefetching
-                self.prefetch_threshold = max(prefetch_threshold, self.page_size)
+            elif storage_backend == "hf3fs":
+                from sglang.srt.distributed import get_tensor_model_parallel_rank
+
+                rank = get_tensor_model_parallel_rank()
+                bytes_per_page = (
+                    mem_pool_host.get_size_per_token() * mem_pool_host.page_size
+                )
+                dtype = mem_pool_host.dtype
+                self.storage_backend = HiCacheHF3FS.from_env_config(
+                    rank, bytes_per_page, dtype
+                )
             else:
                 raise NotImplementedError(
                     f"Unsupported storage backend: {storage_backend}"
                 )
+            self.enable_storage = True
+            # todo: threshold policy for prefetching
+            self.prefetch_threshold = max(prefetch_threshold, self.page_size)
 
         self.load_cache_event = load_cache_event
         self.layer_done_counter = LayerDoneCounter(self.mem_pool_device.layer_num)
@@ -522,8 +539,8 @@ def prefetch_io_aux_func(self):
         while not self.stop_event.is_set():
             try:
                 operation = self.prefetch_buffer.get(block=True, timeout=1)
-                for h in operation.hash_value:
-                    page_data = self.storage_backend.get(h)
+                page_datas = self.storage_backend.batch_get(operation.hash_value)
+                for h, page_data in zip(operation.hash_value, page_datas):
                     if page_data is None:
                         logger.warning(
                             f"Prefetch operation {operation.request_id} failed to retrieve page {h}."
@@ -531,7 +548,9 @@ def prefetch_io_aux_func(self):
                         break
                     if operation.increment(self.page_size):
                         self.mem_pool_host.set_from_flat_data_page(
-                            operation.host_indices[operation.completed_tokens],
+                            operation.host_indices[
+                                operation.completed_tokens - self.page_size
+                            ],
                             page_data,
                         )
                     else:
@@ -583,7 +602,7 @@ def prefetch_thread_func(self):
                     torch.distributed.all_reduce(
                         storage_hit_count_tensor,
                         op=torch.distributed.ReduceOp.MIN,
-                        group=self.tp_group,
+                        group=self.prefetch_tp_group,
                     )
                     storage_hit_count = storage_hit_count_tensor.item()
 
@@ -635,21 +654,23 @@ def backup_thread_func(self):
                 last_hash = operation.last_hash
                 tokens_to_backup = operation.token_ids
 
+                last_hashes, data_pages = [], []
                 for i in range(0, len(tokens_to_backup), self.page_size):
                     last_hash = get_hash_str(
                         tokens_to_backup[i : i + self.page_size], last_hash
                     )
-                    success = self.storage_backend.set(
-                        last_hash,
-                        self.mem_pool_host.get_flat_data_page(
-                            operation.host_indices[i]
-                        ),
+                    data_page = self.mem_pool_host.get_flat_data_page(
+                        operation.host_indices[i]
                     )
-                    if not success:
-                        logger.warning(f"Failed to write page {last_hash} to storage.")
-                        break
-                    operation.completed_tokens += self.page_size
-                    operation.hash_value.append(last_hash)
+                    last_hashes.append(last_hash)
+                    data_pages.append(data_page)
+
+                success = self.storage_backend.batch_set(last_hashes, data_pages)
+                if not success:
+                    logger.warning(f"Failed to write page {last_hashes} to storage.")
+                else:
+                    operation.completed_tokens += len(tokens_to_backup)
+                    operation.hash_value.extend(last_hashes)
 
                 min_completed_tokens = operation.completed_tokens
                 if self.tp_world_size > 1:
@@ -659,7 +680,7 @@ def backup_thread_func(self):
                     torch.distributed.all_reduce(
                         completed_tokens_tensor,
                         op=torch.distributed.ReduceOp.MIN,
-                        group=self.tp_group,
+                        group=self.backup_tp_group,
                     )
                     min_completed_tokens = completed_tokens_tensor.item()
 
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index e6acbe9ccba0..f939fff4b2cf 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -79,7 +79,9 @@ def __init__(
         self.write_through_threshold = (
             1 if hicache_write_policy == "write_through" else 3
         )
-        self.write_through_threshold_storage = 3
+        self.write_through_threshold_storage = (
+            1 if hicache_write_policy == "write_through" else 3
+        )
         self.load_back_threshold = 10
         super().__init__(
             req_to_token_pool, token_to_kv_pool_allocator, page_size, disable=False
@@ -388,10 +390,14 @@ def check_backup_progress(self):
                 self.cache_controller.ack_backup_queue.get()
             )
             host_node = self.ongoing_backup[ack_id]
-            if completed_tokens < len(host_node.key):
+            if completed_tokens == 0:
+                host_node.hash_value = None
+            elif completed_tokens < len(host_node.key):
                 # backup is only partially successful, split the node
                 new_node = self._split_node(host_node.key, host_node, completed_tokens)
                 new_node.hash_value = hash_value
+            else:
+                host_node.hash_value = hash_value
             host_node.release_host()
             del self.ongoing_backup[ack_id]
 
@@ -431,6 +437,8 @@ def check_prefetch_progress(self, req_id: str):
             written_indices,
             hash_value[:min_completed_tokens],
         )
+        if len(written_indices):
+            self.cache_controller.mem_pool_host.update_prefetch(written_indices)
 
         self.cache_controller.mem_pool_host.free(host_indices[:matched_length])
         self.cache_controller.mem_pool_host.free(
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index 0116e7141a38..c2fb4fa4627a 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -25,7 +25,6 @@ def _decorator(func):
         @wraps(func)
         def wrapper(self, *args, **kwargs):
             if (not debug_only) or self.debug:
-                return func(self, *args, **kwargs)
                 with self.lock:
                     return func(self, *args, **kwargs)
             else:
@@ -181,6 +180,15 @@ def update_backup(self, indices: torch.Tensor):
             )
         self.mem_state[indices] = MemoryStateInt.BACKUP
 
+    @synchronized(debug_only=True)
+    def update_prefetch(self, indices: torch.Tensor):
+        if not self.is_reserved(indices):
+            raise ValueError(
+                f"The host memory slots should be in RESERVED state before turning into BACKUP. "
+                f"Current state: {self.get_state(indices)}"
+            )
+        self.mem_state[indices] = MemoryStateInt.BACKUP
+
     @synchronized(debug_only=True)
     def update_synced(self, indices: torch.Tensor):
         self.mem_state[indices] = MemoryStateInt.SYNCED
diff --git a/python/sglang/srt/mem_cache/storage/hf3fs/README.md b/python/sglang/srt/mem_cache/storage/hf3fs/README.md
new file mode 100644
index 000000000000..5fa1fa4c2361
--- /dev/null
+++ b/python/sglang/srt/mem_cache/storage/hf3fs/README.md
@@ -0,0 +1,65 @@
+# HiCacheHF3FS Setup
+
+## Build & Package
+### Source Code
+https://github.com/deepseek-ai/3FS/blob/main/README.md#check-out-source-code
+```sh
+git clone https://github.com/deepseek-ai/3fs
+
+cd 3fs
+git submodule update --init --recursive
+./patches/apply.sh
+```
+
+### Build Dev Container
+https://github.com/deepseek-ai/3FS/blob/main/dockerfile/dev.dockerfile
+```sh
+cd 3fs/dockerfile
+docker build -t hf3fs:dev -f dev.dockerfile .
+```
+
+### Generate Python Wheel
+```sh
+docker run -it hf3fs:dev bash
+
+# Inside the development container
+git clone https://github.com/deepseek-ai/3fs
+
+cd 3fs
+git submodule update --init --recursive
+./patches/apply.sh
+
+apt-get update \
+&& apt-get install -y --no-install-recommends \
+python3 python3-pip \
+&& apt-get clean \
+&& rm -rf /var/lib/apt/lists/*
+
+# Generated wheel location: dist/hf3fs_py_usrbio-1.2.9+2db69ce-cp310-cp310-linux_x86_64.whl
+python3 setup.py bdist_wheel
+```
+
+## Installation
+```sh
+# Install Dependencies
+# https://github.com/deepseek-ai/3FS/blob/main/dockerfile/dev.dockerfile
+apt update && apt install -y                            \
+  libaio-dev                                            \
+  libboost-all-dev                                      \
+  libdouble-conversion-dev                              \
+  libdwarf-dev                                          \
+  libgflags-dev                                         \
+  libgmock-dev                                          \
+  libgoogle-glog-dev                                    \
+  libgoogle-perftools-dev                               \
+  libgtest-dev                                          \
+  liblz4-dev                                            \
+  liblzma-dev                                           \
+  libssl-dev                                            \
+  libunwind-dev                                         \
+  libuv1-dev
+
+# Install Python Package
+pip install hf3fs_py_usrbio-1.2.9+2db69ce-cp310-cp310-linux_x86_64.whl
+export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib/python3.10/dist-packages
+```
diff --git a/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py b/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py
new file mode 100644
index 000000000000..09832b8e264b
--- /dev/null
+++ b/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py
@@ -0,0 +1,177 @@
+import logging
+import multiprocessing
+import os
+import threading
+from functools import wraps
+from pathlib import Path
+from typing import List
+
+import torch
+from torch.utils.cpp_extension import load
+
+root = Path(__file__).parent.resolve()
+hf3fs_utils = load(name="hf3fs_utils", sources=[f"{root}/hf3fs_utils.cpp"])
+
+logger = logging.getLogger(__name__)
+
+try:
+    from hf3fs_fuse.io import (
+        deregister_fd,
+        extract_mount_point,
+        make_ioring,
+        make_iovec,
+        register_fd,
+    )
+except ImportError as e:
+    logger.warning(f"hf3fs_fuse.io is not available: {e}")
+
+
+def rsynchronized():
+    def _decorator(func):
+        @wraps(func)
+        def wrapper(self, *args, **kwargs):
+            with self.rlock:
+                return func(self, *args, **kwargs)
+
+        return wrapper
+
+    return _decorator
+
+
+def wsynchronized():
+    def _decorator(func):
+        @wraps(func)
+        def wrapper(self, *args, **kwargs):
+            with self.wlock:
+                return func(self, *args, **kwargs)
+
+        return wrapper
+
+    return _decorator
+
+
+class Hf3fsClient:
+    def __init__(self, path: str, size: int, bytes_per_page: int, entries: int):
+        self.path = path
+        self.size = size
+        self.bytes_per_page = bytes_per_page
+        self.entries = entries
+
+        self.file = os.open(self.path, os.O_RDWR | os.O_CREAT)
+        os.ftruncate(self.file, size)
+        register_fd(self.file)
+
+        self.hf3fs_mount_point = extract_mount_point(path)
+        self.bs = self.bytes_per_page
+        self.shm_r = multiprocessing.shared_memory.SharedMemory(
+            size=self.bs * self.entries, create=True
+        )
+        self.shm_w = multiprocessing.shared_memory.SharedMemory(
+            size=self.bs * self.entries, create=True
+        )
+
+        self.shm_r_tensor = torch.frombuffer(self.shm_r.buf, dtype=torch.uint8)
+        self.shm_w_tensor = torch.frombuffer(self.shm_w.buf, dtype=torch.uint8)
+
+        self.numa = -1
+        self.ior_r = make_ioring(
+            self.hf3fs_mount_point,
+            self.entries,
+            for_read=True,
+            timeout=1,
+            numa=self.numa,
+        )
+        self.ior_w = make_ioring(
+            self.hf3fs_mount_point,
+            self.entries,
+            for_read=False,
+            timeout=1,
+            numa=self.numa,
+        )
+        self.iov_r = make_iovec(self.shm_r, self.hf3fs_mount_point)
+        self.iov_w = make_iovec(self.shm_w, self.hf3fs_mount_point)
+
+        self.rlock = threading.RLock()
+        self.wlock = threading.RLock()
+
+    @rsynchronized()
+    def batch_read(self, offsets: List[int], tensors: List[torch.Tensor]) -> List[int]:
+        self.check(offsets, tensors)
+
+        # prepare
+        current = 0
+        for offset, tensor in zip(offsets, tensors):
+            size = tensor.numel() * tensor.itemsize
+            self.ior_r.prepare(
+                self.iov_r[current : current + size], True, self.file, offset
+            )
+            current += size
+
+        # submit
+        ionum = len(offsets)
+        resv = self.ior_r.submit().wait(min_results=ionum)
+
+        # results
+        hf3fs_utils.read_shm(self.shm_r_tensor, tensors)
+        results = [res.result for res in resv]
+
+        return results
+
+    @wsynchronized()
+    def batch_write(self, offsets: List[int], tensors: List[torch.Tensor]) -> List[int]:
+        self.check(offsets, tensors)
+
+        # prepare
+        hf3fs_utils.write_shm(tensors, self.shm_w_tensor)
+        current = 0
+        for offset, tensor in zip(offsets, tensors):
+            size = tensor.numel() * tensor.itemsize
+            self.ior_w.prepare(
+                self.iov_w[current : current + size], False, self.file, offset
+            )
+            current += size
+
+        # submit
+        ionum = len(offsets)
+        resv = self.ior_w.submit().wait(min_results=ionum)
+
+        # results
+        results = [res.result for res in resv]
+
+        return results
+
+    def check(self, offsets: List[int], tensors: List[torch.Tensor]) -> None:
+        sizes = [t.numel() * t.itemsize for t in tensors]
+        if any(
+            [
+                len(offsets) > self.entries,
+                len(offsets) != len(sizes),
+                all(
+                    [
+                        offset < 0 or offset + size > self.size
+                        for offset, size in zip(offsets, sizes)
+                    ]
+                ),
+                all([size > self.bytes_per_page for size in sizes]),
+            ]
+        ):
+            self.close()
+            raise ValueError(f"Hf3fsClient.check: {offsets=}, {sizes=}")
+
+    def get_size(self) -> int:
+        return self.size
+
+    def close(self) -> None:
+        deregister_fd(self.file)
+        os.close(self.file)
+        del self.ior_r
+        del self.ior_w
+        del self.iov_r
+        del self.iov_w
+        self.shm_r.close()
+        self.shm_w.close()
+        self.shm_r.unlink()
+        self.shm_w.unlink()
+
+    def flush(self) -> None:
+        os.fsync(self.file)
diff --git a/python/sglang/srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp b/python/sglang/srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp
new file mode 100644
index 000000000000..3a4b7dcc0944
--- /dev/null
+++ b/python/sglang/srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp
@@ -0,0 +1,35 @@
+#include <torch/extension.h>
+
+#include <cstring>
+#include <vector>
+
+void read_shm(const torch::Tensor &shm, std::vector<torch::Tensor> dst) {
+  py::gil_scoped_release release;
+  char *src_ptr = static_cast<char *>(shm.data_ptr());
+  size_t current = 0;
+  for (size_t i = 0; i < dst.size(); ++i) {
+    auto &t = dst[i];
+    size_t t_bytes = t.numel() * t.element_size();
+    char *dst_ptr = static_cast<char *>(t.data_ptr());
+    std::memcpy(dst_ptr, src_ptr + current, t_bytes);
+    current += t_bytes;
+  }
+}
+
+void write_shm(const std::vector<torch::Tensor> src, torch::Tensor &shm) {
+  py::gil_scoped_release release;
+  char *dst_ptr = static_cast<char *>(shm.data_ptr());
+  size_t current = 0;
+  for (size_t i = 0; i < src.size(); ++i) {
+    auto &t = src[i];
+    size_t t_bytes = t.numel() * t.element_size();
+    char *src_ptr = static_cast<char *>(t.data_ptr());
+    std::memcpy(dst_ptr + current, src_ptr, t_bytes);
+    current += t_bytes;
+  }
+}
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  m.def("read_shm", &read_shm, "Read tensors from shared memory");
+  m.def("write_shm", &write_shm, "Write tensors to shared memory");
+}
diff --git a/python/sglang/srt/mem_cache/storage/hf3fs/storage_hf3fs.py b/python/sglang/srt/mem_cache/storage/hf3fs/storage_hf3fs.py
new file mode 100644
index 000000000000..0cc2b0a261d6
--- /dev/null
+++ b/python/sglang/srt/mem_cache/storage/hf3fs/storage_hf3fs.py
@@ -0,0 +1,278 @@
+import atexit
+import concurrent.futures
+import json
+import logging
+import os
+import signal
+import threading
+from collections import OrderedDict
+from functools import wraps
+from typing import List, Optional
+
+import torch
+
+from sglang.srt.mem_cache.hicache_storage import HiCacheStorage
+from sglang.srt.mem_cache.storage.hf3fs.client_hf3fs import Hf3fsClient
+
+logger = logging.getLogger(__name__)
+
+
+class AtomicCounter:
+    def __init__(self, n: int):
+        assert n > 0
+        self.n = n
+        self._value = 0
+        self._lock = threading.Lock()
+
+    def next(self) -> int:
+        with self._lock:
+            current = self._value
+            self._value = (current + 1) % self.n
+            return current
+
+
+def synchronized():
+    def _decorator(func):
+        @wraps(func)
+        def wrapper(self, *args, **kwargs):
+            with self.lock:
+                return func(self, *args, **kwargs)
+
+        return wrapper
+
+    return _decorator
+
+
+class HiCacheHF3FS(HiCacheStorage):
+    default_env_var: str = "SGLANG_HICACHE_HF3FS_CONFIG_PATH"
+
+    def __init__(
+        self,
+        file_path: str,
+        file_size: int,
+        numjobs: int,
+        bytes_per_page: int,
+        entries: int,
+        dtype: torch.dtype,
+    ):
+        self.file_path = file_path
+        self.file_size = file_size
+        self.numjobs = numjobs
+        self.bytes_per_page = bytes_per_page
+        self.entries = entries
+        self.dtype = dtype
+
+        self.numel = self.bytes_per_page // self.dtype.itemsize
+
+        self.num_pages = self.file_size // self.bytes_per_page
+
+        logger.info(
+            "HiCacheHF3FS "
+            f"file_path = {self.file_path}, "
+            f"file_size = {self.file_size/(2**30):.2f} GB, "
+            f"numjobs = {self.numjobs}, "
+            f"bytes_per_page = {self.bytes_per_page/(2**20):.2f} MB, "
+            f"entries = {self.entries}, "
+            f"num_pages = {self.num_pages}"
+        )
+
+        self.ac = AtomicCounter(self.numjobs)
+        self.clients = [
+            Hf3fsClient(
+                self.file_path, self.file_size, self.bytes_per_page, self.entries
+            )
+            for _ in range(numjobs)
+        ]
+        self.executor = concurrent.futures.ThreadPoolExecutor(
+            max_workers=self.numjobs, thread_name_prefix="HiCacheHF3FS"
+        )
+
+        # Implemented a preliminary single-file page_hash -> file_offset index as interim storage.
+        # Future iterations may adopt a global KVCache manager to coordinate external cache instances
+        # through centralized metadata orchestration.
+        self.lock = threading.RLock()
+        self.free_pages = list(range(self.num_pages))
+        self.key_to_index = OrderedDict()
+
+        atexit.register(self.close)
+
+        signal.signal(signal.SIGINT, lambda sig, frame: self.close())
+        signal.signal(signal.SIGTERM, lambda sig, frame: self.close())
+        signal.signal(signal.SIGQUIT, lambda sig, frame: self.close())
+
+    @staticmethod
+    def from_env_config(
+        rank: int, bytes_per_page: int, dtype: torch.dtype
+    ) -> "HiCacheHF3FS":
+        config_path = os.getenv(HiCacheHF3FS.default_env_var)
+        if not config_path:
+            return HiCacheHF3FS(
+                file_path=f"/data/hicache.{rank}.bin",
+                file_size=1 << 40,
+                numjobs=16,
+                bytes_per_page=bytes_per_page,
+                entries=8,
+                dtype=dtype,
+            )
+
+        try:
+            with open(config_path, "r") as f:
+                config = json.load(f)
+        except Exception as e:
+            raise RuntimeError(f"Failed to load config from {config_path}: {str(e)}")
+
+        required_keys = {
+            "file_path_prefix",
+            "file_size",
+            "numjobs",
+            "entries",
+        }
+        missing_keys = required_keys - set(config.keys())
+        if missing_keys:
+            raise ValueError(f"Missing required keys in config: {missing_keys}")
+
+        return HiCacheHF3FS(
+            file_path=f"{config['file_path_prefix']}.{rank}.bin",
+            file_size=int(config["file_size"]),
+            numjobs=int(config["numjobs"]),
+            bytes_per_page=bytes_per_page,
+            entries=int(config["entries"]),
+            dtype=dtype,
+        )
+
+    def get(
+        self, key: str, target_location: Optional[torch.Tensor] = None
+    ) -> torch.Tensor | None:
+        return self.batch_get([key], target_location)[0]
+
+    @synchronized()
+    def batch_get(
+        self,
+        keys: List[str],
+        target_locations: Optional[List[torch.Tensor]] = None,
+    ) -> List[torch.Tensor | None]:
+        batch_indices, file_offsets = [], []
+        for i, key in enumerate(keys):
+            if key not in self.key_to_index:
+                continue
+            batch_indices.append(i)
+            file_offsets.append(self.key_to_index[key] * self.bytes_per_page)
+            self.key_to_index.move_to_end(key)
+        # TODO: target_locations
+        file_results = [
+            torch.empty(self.numel, dtype=self.dtype) for _ in range(len(batch_indices))
+        ]
+
+        futures = [
+            self.executor.submit(
+                self.clients[self.ac.next()].batch_read,
+                file_offsets[i : i + self.entries],
+                file_results[i : i + self.entries],
+            )
+            for i in range(0, len(batch_indices), self.entries)
+        ]
+        read_results = [result for future in futures for result in future.result()]
+
+        results = [None] * len(keys)
+        for batch_index, file_result, read_result in zip(
+            batch_indices, file_results, read_results
+        ):
+            if read_result == self.bytes_per_page:
+                results[batch_index] = file_result
+            else:
+                logger.error(f"HiCacheHF3FS get {keys[batch_index]} failed")
+
+        return results
+
+    def set(self, key: str, value: torch.Tensor) -> bool:
+        return self.batch_set([key], [value])
+
+    def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
+        indices = self.get_batch_set_indices(keys)
+        batch_indices, file_offsets, file_values = [], [], []
+        for i, (value, (is_written, index)) in enumerate(zip(values, indices)):
+            if is_written or index == -1:
+                continue
+            batch_indices.append(i)
+            file_offsets.append(index * self.bytes_per_page)
+            file_values.append(value.contiguous())
+
+        futures = [
+            self.executor.submit(
+                self.clients[self.ac.next()].batch_write,
+                file_offsets[i : i + self.entries],
+                file_values[i : i + self.entries],
+            )
+            for i in range(0, len(batch_indices), self.entries)
+        ]
+        write_results = [
+            result == self.bytes_per_page
+            for future in futures
+            for result in future.result()
+        ]
+
+        results = [index[0] for index in indices]
+        for batch_index, write_result in zip(batch_indices, write_results):
+            key = keys[batch_index]
+            index = indices[batch_index][1]
+            if write_result:
+                self.key_to_index[key] = index
+                self.key_to_index.move_to_end(key)
+            else:
+                logger.error(f"HiCacheHF3FS set {key} failed")
+                self.free_pages.append(index)
+            results[batch_index] = write_result
+        return all(results)
+
+    @synchronized()
+    def get_batch_set_indices(self, keys: List[str]) -> list:
+        ionum = len(keys)
+        # results: tuples of (is_written: bool, page_idx: int)
+        # - is_written: True = hit (no I/O), False = write (miss)
+        # - page_idx: page storing data
+        results = [None] * min(ionum, self.num_pages)
+        if ionum > self.num_pages:
+            results.extend([(False, -1)] * (ionum - self.num_pages))
+
+        new_keys = []
+        for batch_index, key in enumerate(keys[: self.num_pages]):
+            if key in self.key_to_index:
+                results[batch_index] = (True, self.key_to_index[key])
+                self.key_to_index.move_to_end(key)
+            else:
+                new_keys.append((batch_index, key))
+
+        for batch_index, _ in new_keys:
+            index = (
+                self.free_pages.pop()
+                if len(self.free_pages) > 0
+                else self.key_to_index.popitem(last=False)[1]
+            )
+            results[batch_index] = (False, index)
+
+        return results
+
+    @synchronized()
+    def delete(self, key: str) -> None:
+        if key not in self.key_to_index:
+            return
+        index = self.key_to_index.pop(key)
+        self.free_pages.append(index)
+
+    @synchronized()
+    def exists(self, key: str) -> bool:
+        return key in self.key_to_index
+
+    @synchronized()
+    def clear(self) -> None:
+        self.free_pages = list(range(self.num_pages))
+        self.key_to_index.clear()
+
+    def close(self) -> None:
+        try:
+            for c in self.clients:
+                c.close()
+            self.executor.shutdown(wait=True)
+        except Exception as e:
+            logger.error(f"close HiCacheHF3FS: {e}")
+        logger.info("close HiCacheHF3FS")
diff --git a/python/sglang/srt/mem_cache/storage/hf3fs/test_hf3fs_utils.py b/python/sglang/srt/mem_cache/storage/hf3fs/test_hf3fs_utils.py
new file mode 100644
index 000000000000..365effdef14a
--- /dev/null
+++ b/python/sglang/srt/mem_cache/storage/hf3fs/test_hf3fs_utils.py
@@ -0,0 +1,43 @@
+import multiprocessing.shared_memory
+from pathlib import Path
+
+import pytest
+import torch
+from torch.utils.cpp_extension import load
+from tqdm import tqdm
+
+root = Path(__file__).parent.resolve()
+hf3fs_utils = load(
+    name="hf3fs_utils", sources=[f"{root}/hf3fs_utils.cpp"], verbose=True
+)
+
+
+def test_rw_shm():
+    numel = 8 << 20
+    dtype = torch.bfloat16
+    page_num = 128
+    page_bytes = numel * dtype.itemsize
+    shm = multiprocessing.shared_memory.SharedMemory(
+        size=page_num * page_bytes, create=True
+    )
+    tshm = torch.frombuffer(shm.buf, dtype=torch.uint8)
+    a = [
+        torch.randn(numel, dtype=dtype)
+        for _ in tqdm(range(page_num), desc="prepare input")
+    ]
+    b = [
+        torch.empty(numel, dtype=dtype)
+        for _ in tqdm(range(page_num), desc="prepare output")
+    ]
+    hf3fs_utils.write_shm(a, tshm)
+    hf3fs_utils.read_shm(tshm, b)
+    for _a, _b in tqdm(zip(a, b), desc="assert_close"):
+        torch.testing.assert_close(_a, _b)
+
+    del tshm
+    shm.close()
+    shm.unlink()
+
+
+if __name__ == "__main__":
+    pytest.main([__file__])
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 856d68138d0b..d53558211acb 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1476,7 +1476,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
         parser.add_argument(
             "--hicache-storage-backend",
             type=str,
-            choices=["file"],  # todo, mooncake
+            choices=["file", "hf3fs"],  # todo, mooncake
             default=ServerArgs.hicache_storage_backend,
             help="The storage backend for hierarchical KV cache.",
         )

From 66a398f49ddfd8d47f57fe5ac7d177bb0f1412d9 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Wed, 30 Jul 2025 17:47:19 -0700
Subject: [PATCH 232/396] [router] migrate router from actix to axum (#8479)

---
 sgl-router/Cargo.toml                         |   26 +-
 .../py_src/sglang_router/launch_router.py     |   37 +
 sgl-router/py_src/sglang_router/router.py     |   19 +-
 sgl-router/py_test/test_launch_router.py      |    5 +-
 sgl-router/src/config/types.rs                |   14 +
 sgl-router/src/lib.rs                         |   13 +-
 sgl-router/src/middleware.rs                  |  306 ++-
 sgl-router/src/routers/mod.rs                 |   50 +-
 sgl-router/src/routers/pd_router.rs           |  695 ++---
 sgl-router/src/routers/router.rs              |  545 ++--
 sgl-router/src/server.rs                      |  484 ++--
 sgl-router/tests/api_endpoints_test.rs        | 2324 ++++++++++-------
 sgl-router/tests/common/mock_worker.rs        |  771 +++---
 sgl-router/tests/common/mod.rs                |   62 +-
 sgl-router/tests/common/test_app.rs           |   42 +
 sgl-router/tests/request_formats_test.rs      |  796 +++---
 sgl-router/tests/streaming_tests.rs           |  752 ++----
 sgl-router/tests/test_pd_routing.rs           |    2 +
 18 files changed, 3510 insertions(+), 3433 deletions(-)
 create mode 100644 sgl-router/tests/common/test_app.rs

diff --git a/sgl-router/Cargo.toml b/sgl-router/Cargo.toml
index 74b1ed129026..ad88ab760daf 100644
--- a/sgl-router/Cargo.toml
+++ b/sgl-router/Cargo.toml
@@ -10,41 +10,41 @@ name = "sglang_router_rs"
 crate-type = ["cdylib", "rlib"]
 
 [dependencies]
-actix-web = "4.0"
+axum = { version = "0.8.4", features = ["macros", "ws", "tracing"] }
+tower = { version = "0.5", features = ["full"] }
+tower-http = { version = "0.6", features = ["trace", "compression-gzip", "cors", "timeout", "limit", "request-id", "util"] }
 serde = { version = "1.0", features = ["derive"] }
-clap = { version = "4.4", features = ["derive"] }
+serde_json = "1.0"
 bytes = "1.8.0"
 rand = "0.8.5"
 reqwest = { version = "0.12.8", features = ["stream", "blocking", "json"] }
 futures-util = "0.3"
-serde_json = "1.0"
+futures = "0.3"
 pyo3 = { version = "0.22.5", features = ["extension-module"] }
 dashmap = "6.1.0"
 http = "1.1.0"
-tokio = { version = "1.42.0", features = ["macros", "rt-multi-thread"] }
-# Added for enhanced logging system
+tokio = { version = "1.42.0", features = ["full"] }
+async-trait = "0.1"
+once_cell = "1.21"
 tracing = "0.1"
 tracing-subscriber = { version = "0.3", features = ["env-filter", "json", "chrono"] }
 tracing-log = "0.2"
 tracing-appender = "0.2.3"
+chrono = "0.4"
 kube = { version = "0.88.1", features = ["runtime", "derive"] }
 k8s-openapi = { version = "0.21.0", features = ["v1_29"] }
-futures = "0.3"
-async-trait = "0.1"
-once_cell = "1.21"
-# Added for metrics
 metrics = "0.24.2"
 metrics-exporter-prometheus = "0.17.0"
-# Added for request tracing
 uuid = { version = "1.10", features = ["v4", "serde"] }
 thiserror = "2.0.12"
 url = "2.5.4"
+tokio-stream = { version = "0.1", features = ["sync"] }
 
 [dev-dependencies]
 criterion = { version = "0.5", features = ["html_reports"] }
-tokio-stream = "0.1"
-actix-http = "3.0"
-futures = "0.3"
+tower = { version = "0.5", features = ["util"] }
+http-body-util = "0.1"
+portpicker = "0.1"
 
 [[bench]]
 name = "request_processing"
diff --git a/sgl-router/py_src/sglang_router/launch_router.py b/sgl-router/py_src/sglang_router/launch_router.py
index 13fada0f5c88..e3e625c670a0 100644
--- a/sgl-router/py_src/sglang_router/launch_router.py
+++ b/sgl-router/py_src/sglang_router/launch_router.py
@@ -68,6 +68,12 @@ class RouterArgs:
     prometheus_host: Optional[str] = None
     # Request ID headers configuration
     request_id_headers: Optional[List[str]] = None
+    # Request timeout in seconds
+    request_timeout_secs: int = 600
+    # Max concurrent requests for rate limiting
+    max_concurrent_requests: int = 64
+    # CORS allowed origins
+    cors_allowed_origins: List[str] = dataclasses.field(default_factory=list)
 
     @staticmethod
     def add_cli_args(
@@ -276,6 +282,25 @@ def add_cli_args(
             nargs="*",
             help="Custom HTTP headers to check for request IDs (e.g., x-request-id x-trace-id). If not specified, uses common defaults.",
         )
+        parser.add_argument(
+            f"--{prefix}request-timeout-secs",
+            type=int,
+            default=RouterArgs.request_timeout_secs,
+            help="Request timeout in seconds",
+        )
+        parser.add_argument(
+            f"--{prefix}max-concurrent-requests",
+            type=int,
+            default=RouterArgs.max_concurrent_requests,
+            help="Maximum number of concurrent requests allowed (for rate limiting)",
+        )
+        parser.add_argument(
+            f"--{prefix}cors-allowed-origins",
+            type=str,
+            nargs="*",
+            default=[],
+            help="CORS allowed origins (e.g., http://localhost:3000 https://example.com)",
+        )
 
     @classmethod
     def from_cli_args(
@@ -337,6 +362,15 @@ def from_cli_args(
             prometheus_port=getattr(args, f"{prefix}prometheus_port", None),
             prometheus_host=getattr(args, f"{prefix}prometheus_host", None),
             request_id_headers=getattr(args, f"{prefix}request_id_headers", None),
+            request_timeout_secs=getattr(
+                args, f"{prefix}request_timeout_secs", RouterArgs.request_timeout_secs
+            ),
+            max_concurrent_requests=getattr(
+                args,
+                f"{prefix}max_concurrent_requests",
+                RouterArgs.max_concurrent_requests,
+            ),
+            cors_allowed_origins=getattr(args, f"{prefix}cors_allowed_origins", []),
         )
 
     @staticmethod
@@ -490,6 +524,7 @@ def launch_router(args: argparse.Namespace) -> Optional[Router]:
             decode_selector=router_args.decode_selector,
             prometheus_port=router_args.prometheus_port,
             prometheus_host=router_args.prometheus_host,
+            request_timeout_secs=router_args.request_timeout_secs,
             pd_disaggregation=router_args.pd_disaggregation,
             prefill_urls=(
                 router_args.prefill_urls if router_args.pd_disaggregation else None
@@ -508,6 +543,8 @@ def launch_router(args: argparse.Namespace) -> Optional[Router]:
                 else None
             ),
             request_id_headers=router_args.request_id_headers,
+            max_concurrent_requests=router_args.max_concurrent_requests,
+            cors_allowed_origins=router_args.cors_allowed_origins,
         )
 
         router.start()
diff --git a/sgl-router/py_src/sglang_router/router.py b/sgl-router/py_src/sglang_router/router.py
index 7bde7f022a94..641eef24673c 100644
--- a/sgl-router/py_src/sglang_router/router.py
+++ b/sgl-router/py_src/sglang_router/router.py
@@ -61,6 +61,11 @@ class Router:
         request_id_headers: List of HTTP headers to check for request IDs. If not specified,
             uses common defaults: ['x-request-id', 'x-correlation-id', 'x-trace-id', 'request-id'].
             Example: ['x-my-request-id', 'x-custom-trace-id']. Default: None
+        bootstrap_port_annotation: Kubernetes annotation name for bootstrap port (PD mode).
+            Default: 'sglang.ai/bootstrap-port'
+        request_timeout_secs: Request timeout in seconds. Default: 600
+        max_concurrent_requests: Maximum number of concurrent requests allowed for rate limiting. Default: 64
+        cors_allowed_origins: List of allowed origins for CORS. Empty list allows all origins. Default: []
     """
 
     def __init__(
@@ -87,14 +92,18 @@ def __init__(
         service_discovery_namespace: Optional[str] = None,
         prefill_selector: Dict[str, str] = None,
         decode_selector: Dict[str, str] = None,
+        bootstrap_port_annotation: str = "sglang.ai/bootstrap-port",
         prometheus_port: Optional[int] = None,
         prometheus_host: Optional[str] = None,
+        request_timeout_secs: int = 600,
+        request_id_headers: Optional[List[str]] = None,
         pd_disaggregation: bool = False,
         prefill_urls: Optional[List[tuple]] = None,
         decode_urls: Optional[List[str]] = None,
         prefill_policy: Optional[PolicyType] = None,
         decode_policy: Optional[PolicyType] = None,
-        request_id_headers: Optional[List[str]] = None,
+        max_concurrent_requests: int = 64,
+        cors_allowed_origins: List[str] = None,
     ):
         if selector is None:
             selector = {}
@@ -102,6 +111,8 @@ def __init__(
             prefill_selector = {}
         if decode_selector is None:
             decode_selector = {}
+        if cors_allowed_origins is None:
+            cors_allowed_origins = []
 
         self._router = _Router(
             worker_urls=worker_urls,
@@ -126,14 +137,18 @@ def __init__(
             service_discovery_namespace=service_discovery_namespace,
             prefill_selector=prefill_selector,
             decode_selector=decode_selector,
+            bootstrap_port_annotation=bootstrap_port_annotation,
             prometheus_port=prometheus_port,
             prometheus_host=prometheus_host,
+            request_timeout_secs=request_timeout_secs,
+            request_id_headers=request_id_headers,
             pd_disaggregation=pd_disaggregation,
             prefill_urls=prefill_urls,
             decode_urls=decode_urls,
             prefill_policy=prefill_policy,
             decode_policy=decode_policy,
-            request_id_headers=request_id_headers,
+            max_concurrent_requests=max_concurrent_requests,
+            cors_allowed_origins=cors_allowed_origins,
         )
 
     def start(self) -> None:
diff --git a/sgl-router/py_test/test_launch_router.py b/sgl-router/py_test/test_launch_router.py
index a014efac6f15..9947edce2762 100644
--- a/sgl-router/py_test/test_launch_router.py
+++ b/sgl-router/py_test/test_launch_router.py
@@ -46,11 +46,12 @@ def setUp(self):
             dp_aware=False,
             prometheus_port=None,
             prometheus_host=None,
-            # PD-specific attributes
+            request_timeout_secs=60,
+            max_concurrent_requests=64,
+            cors_allowed_origins=[],
             pd_disaggregation=False,
             prefill=None,
             decode=None,
-            # Keep worker_urls for regular mode
             worker_urls=[],
         )
 
diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index 67358caaa5db..fabbebc267da 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -35,6 +35,10 @@ pub struct RouterConfig {
     pub log_level: Option<String>,
     /// Custom request ID headers to check (defaults to common headers)
     pub request_id_headers: Option<Vec<String>>,
+    /// Maximum concurrent requests allowed (for rate limiting)
+    pub max_concurrent_requests: usize,
+    /// CORS allowed origins
+    pub cors_allowed_origins: Vec<String>,
 }
 
 /// Routing mode configuration
@@ -216,6 +220,8 @@ impl Default for RouterConfig {
             log_dir: None,
             log_level: None,
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         }
     }
 }
@@ -324,6 +330,8 @@ mod tests {
             log_dir: Some("/var/log".to_string()),
             log_level: Some("debug".to_string()),
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
         let json = serde_json::to_string(&config).unwrap();
@@ -749,6 +757,8 @@ mod tests {
             log_dir: Some("/var/log/sglang".to_string()),
             log_level: Some("info".to_string()),
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
         assert!(config.mode.is_pd_mode());
@@ -798,6 +808,8 @@ mod tests {
             log_dir: None,
             log_level: Some("debug".to_string()),
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
         assert!(!config.mode.is_pd_mode());
@@ -843,6 +855,8 @@ mod tests {
             log_dir: Some("/opt/logs/sglang".to_string()),
             log_level: Some("trace".to_string()),
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
         assert!(config.has_service_discovery());
diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index 6bec3d418838..a61ba7e45cb3 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -60,6 +60,9 @@ struct Router {
     decode_urls: Option<Vec<String>>,
     prefill_policy: Option<PolicyType>,
     decode_policy: Option<PolicyType>,
+    // Additional server config fields
+    max_concurrent_requests: usize,
+    cors_allowed_origins: Vec<String>,
 }
 
 impl Router {
@@ -145,6 +148,8 @@ impl Router {
             log_dir: self.log_dir.clone(),
             log_level: self.log_level.clone(),
             request_id_headers: self.request_id_headers.clone(),
+            max_concurrent_requests: self.max_concurrent_requests,
+            cors_allowed_origins: self.cors_allowed_origins.clone(),
         })
     }
 }
@@ -184,7 +189,9 @@ impl Router {
         prefill_urls = None,
         decode_urls = None,
         prefill_policy = None,
-        decode_policy = None
+        decode_policy = None,
+        max_concurrent_requests = 64,
+        cors_allowed_origins = vec![]
     ))]
     fn new(
         worker_urls: Vec<String>,
@@ -219,6 +226,8 @@ impl Router {
         decode_urls: Option<Vec<String>>,
         prefill_policy: Option<PolicyType>,
         decode_policy: Option<PolicyType>,
+        max_concurrent_requests: usize,
+        cors_allowed_origins: Vec<String>,
     ) -> PyResult<Self> {
         Ok(Router {
             host,
@@ -253,6 +262,8 @@ impl Router {
             decode_urls,
             prefill_policy,
             decode_policy,
+            max_concurrent_requests,
+            cors_allowed_origins,
         })
     }
 
diff --git a/sgl-router/src/middleware.rs b/sgl-router/src/middleware.rs
index 76c48f413654..fd031a3d5b93 100644
--- a/sgl-router/src/middleware.rs
+++ b/sgl-router/src/middleware.rs
@@ -1,9 +1,9 @@
-use actix_web::{
-    dev::{forward_ready, Service, ServiceRequest, ServiceResponse, Transform},
-    Error, HttpMessage, HttpRequest,
-};
-use futures_util::future::LocalBoxFuture;
-use std::future::{ready, Ready};
+use axum::{extract::Request, http::HeaderValue, response::Response};
+use std::sync::Arc;
+use std::time::Instant;
+use tower::{Layer, Service};
+use tower_http::trace::{MakeSpan, OnRequest, OnResponse, TraceLayer};
+use tracing::{field::Empty, info_span, Span};
 
 /// Generate OpenAI-compatible request ID based on endpoint
 fn generate_request_id(path: &str) -> String {
@@ -31,67 +31,67 @@ fn generate_request_id(path: &str) -> String {
     format!("{}{}", prefix, random_part)
 }
 
-/// Extract request ID from request extensions or generate a new one
-pub fn get_request_id(req: &HttpRequest) -> String {
-    req.extensions()
-        .get::<String>()
-        .cloned()
-        .unwrap_or_else(|| generate_request_id(req.path()))
-}
+/// Extension type for storing request ID
+#[derive(Clone, Debug)]
+pub struct RequestId(pub String);
 
-/// Middleware for injecting request ID into request extensions
-pub struct RequestIdMiddleware {
-    headers: Vec<String>,
+/// Tower Layer for request ID middleware
+#[derive(Clone)]
+pub struct RequestIdLayer {
+    headers: Arc<Vec<String>>,
 }
 
-impl RequestIdMiddleware {
+impl RequestIdLayer {
     pub fn new(headers: Vec<String>) -> Self {
-        Self { headers }
+        Self {
+            headers: Arc::new(headers),
+        }
     }
 }
 
-impl<S, B> Transform<S, ServiceRequest> for RequestIdMiddleware
-where
-    S: Service<ServiceRequest, Response = ServiceResponse<B>, Error = Error>,
-    S::Future: 'static,
-    B: 'static,
-{
-    type Response = ServiceResponse<B>;
-    type Error = Error;
-    type InitError = ();
-    type Transform = RequestIdMiddlewareService<S>;
-    type Future = Ready<Result<Self::Transform, Self::InitError>>;
-
-    fn new_transform(&self, service: S) -> Self::Future {
-        ready(Ok(RequestIdMiddlewareService {
-            service,
+impl<S> Layer<S> for RequestIdLayer {
+    type Service = RequestIdMiddleware<S>;
+
+    fn layer(&self, inner: S) -> Self::Service {
+        RequestIdMiddleware {
+            inner,
             headers: self.headers.clone(),
-        }))
+        }
     }
 }
 
-pub struct RequestIdMiddlewareService<S> {
-    service: S,
-    headers: Vec<String>,
+/// Tower Service for request ID middleware
+#[derive(Clone)]
+pub struct RequestIdMiddleware<S> {
+    inner: S,
+    headers: Arc<Vec<String>>,
 }
 
-impl<S, B> Service<ServiceRequest> for RequestIdMiddlewareService<S>
+impl<S> Service<Request> for RequestIdMiddleware<S>
 where
-    S: Service<ServiceRequest, Response = ServiceResponse<B>, Error = Error>,
-    S::Future: 'static,
-    B: 'static,
+    S: Service<Request, Response = Response> + Send + 'static,
+    S::Future: Send + 'static,
 {
-    type Response = ServiceResponse<B>;
-    type Error = Error;
-    type Future = LocalBoxFuture<'static, Result<Self::Response, Self::Error>>;
+    type Response = S::Response;
+    type Error = S::Error;
+    type Future = std::pin::Pin<
+        Box<dyn std::future::Future<Output = Result<Self::Response, Self::Error>> + Send>,
+    >;
 
-    forward_ready!(service);
+    fn poll_ready(
+        &mut self,
+        cx: &mut std::task::Context<'_>,
+    ) -> std::task::Poll<Result<(), Self::Error>> {
+        self.inner.poll_ready(cx)
+    }
+
+    fn call(&mut self, mut req: Request) -> Self::Future {
+        let headers = self.headers.clone();
 
-    fn call(&self, req: ServiceRequest) -> Self::Future {
         // Extract request ID from headers or generate new one
         let mut request_id = None;
 
-        for header_name in &self.headers {
+        for header_name in headers.iter() {
             if let Some(header_value) = req.headers().get(header_name) {
                 if let Ok(value) = header_value.to_str() {
                     request_id = Some(value.to_string());
@@ -100,12 +100,216 @@ where
             }
         }
 
-        let request_id = request_id.unwrap_or_else(|| generate_request_id(req.path()));
+        let request_id = request_id.unwrap_or_else(|| generate_request_id(req.uri().path()));
 
         // Insert request ID into request extensions
-        req.extensions_mut().insert(request_id);
+        req.extensions_mut().insert(RequestId(request_id.clone()));
+
+        // Create a span with the request ID for this request
+        let span = tracing::info_span!(
+            "http_request",
+            method = %req.method(),
+            uri = %req.uri(),
+            version = ?req.version(),
+            request_id = %request_id
+        );
+
+        // Log within the span
+        let _enter = span.enter();
+        tracing::info!(
+            target: "sglang_router_rs::request",
+            "started processing request"
+        );
+        drop(_enter);
+
+        // Capture values we need in the async block
+        let method = req.method().clone();
+        let uri = req.uri().clone();
+        let version = req.version();
+
+        // Call the inner service
+        let future = self.inner.call(req);
+
+        Box::pin(async move {
+            let start_time = Instant::now();
+            let mut response = future.await?;
+            let latency = start_time.elapsed();
 
-        let fut = self.service.call(req);
-        Box::pin(async move { fut.await })
+            // Add request ID to response headers
+            response.headers_mut().insert(
+                "x-request-id",
+                HeaderValue::from_str(&request_id)
+                    .unwrap_or_else(|_| HeaderValue::from_static("invalid-request-id")),
+            );
+
+            // Log the response with proper request ID in span
+            let status = response.status();
+            let span = tracing::info_span!(
+                "http_request",
+                method = %method,
+                uri = %uri,
+                version = ?version,
+                request_id = %request_id,
+                status = %status,
+                latency = ?latency
+            );
+
+            let _enter = span.enter();
+            if status.is_server_error() {
+                tracing::error!(
+                    target: "sglang_router_rs::response",
+                    "request failed with server error"
+                );
+            } else if status.is_client_error() {
+                tracing::warn!(
+                    target: "sglang_router_rs::response",
+                    "request failed with client error"
+                );
+            } else {
+                tracing::info!(
+                    target: "sglang_router_rs::response",
+                    "finished processing request"
+                );
+            }
+
+            Ok(response)
+        })
+    }
+}
+
+// ============= Logging Middleware =============
+
+/// Custom span maker that includes request ID
+#[derive(Clone, Debug)]
+pub struct RequestSpan;
+
+impl<B> MakeSpan<B> for RequestSpan {
+    fn make_span(&mut self, request: &Request<B>) -> Span {
+        // Don't try to extract request ID here - it won't be available yet
+        // The RequestIdLayer runs after TraceLayer creates the span
+        info_span!(
+            "http_request",
+            method = %request.method(),
+            uri = %request.uri(),
+            version = ?request.version(),
+            request_id = Empty,  // Will be set later
+            status_code = Empty,
+            latency = Empty,
+            error = Empty,
+        )
+    }
+}
+
+/// Custom on_request handler
+#[derive(Clone, Debug)]
+pub struct RequestLogger;
+
+impl<B> OnRequest<B> for RequestLogger {
+    fn on_request(&mut self, request: &Request<B>, span: &Span) {
+        let _enter = span.enter();
+
+        // Try to get the request ID from extensions
+        // This will work if RequestIdLayer has already run
+        if let Some(request_id) = request.extensions().get::<RequestId>() {
+            span.record("request_id", &request_id.0.as_str());
+        }
+
+        // Don't log here - we already log in RequestIdService with the proper request_id
+    }
+}
+
+/// Custom on_response handler
+#[derive(Clone, Debug)]
+pub struct ResponseLogger {
+    _start_time: Instant,
+}
+
+impl Default for ResponseLogger {
+    fn default() -> Self {
+        Self {
+            _start_time: Instant::now(),
+        }
+    }
+}
+
+impl<B> OnResponse<B> for ResponseLogger {
+    fn on_response(self, response: &Response<B>, latency: std::time::Duration, span: &Span) {
+        let status = response.status();
+
+        // Record these in the span for structured logging/observability tools
+        span.record("status_code", status.as_u16());
+        span.record("latency", format!("{:?}", latency));
+
+        // Don't log here - RequestIdService handles all logging with proper request IDs
+    }
+}
+
+/// Create a configured TraceLayer for HTTP logging
+/// Note: Actual request/response logging with request IDs is done in RequestIdService
+pub fn create_logging_layer() -> TraceLayer<
+    tower_http::classify::SharedClassifier<tower_http::classify::ServerErrorsAsFailures>,
+    RequestSpan,
+    RequestLogger,
+    ResponseLogger,
+> {
+    TraceLayer::new_for_http()
+        .make_span_with(RequestSpan)
+        .on_request(RequestLogger)
+        .on_response(ResponseLogger::default())
+}
+
+/// Structured logging data for requests
+#[derive(Debug, serde::Serialize)]
+pub struct RequestLogEntry {
+    pub timestamp: String,
+    pub request_id: String,
+    pub method: String,
+    pub uri: String,
+    pub status: u16,
+    pub latency_ms: u64,
+    pub user_agent: Option<String>,
+    pub remote_addr: Option<String>,
+    pub error: Option<String>,
+}
+
+/// Log a request with structured data
+pub fn log_request(entry: RequestLogEntry) {
+    if entry.status >= 500 {
+        tracing::error!(
+            target: "sglang_router_rs::http",
+            request_id = %entry.request_id,
+            method = %entry.method,
+            uri = %entry.uri,
+            status = entry.status,
+            latency_ms = entry.latency_ms,
+            user_agent = ?entry.user_agent,
+            remote_addr = ?entry.remote_addr,
+            error = ?entry.error,
+            "HTTP request failed"
+        );
+    } else if entry.status >= 400 {
+        tracing::warn!(
+            target: "sglang_router_rs::http",
+            request_id = %entry.request_id,
+            method = %entry.method,
+            uri = %entry.uri,
+            status = entry.status,
+            latency_ms = entry.latency_ms,
+            user_agent = ?entry.user_agent,
+            remote_addr = ?entry.remote_addr,
+            "HTTP request client error"
+        );
+    } else {
+        tracing::info!(
+            target: "sglang_router_rs::http",
+            request_id = %entry.request_id,
+            method = %entry.method,
+            uri = %entry.uri,
+            status = entry.status,
+            latency_ms = entry.latency_ms,
+            user_agent = ?entry.user_agent,
+            remote_addr = ?entry.remote_addr,
+            "HTTP request completed"
+        );
     }
 }
diff --git a/sgl-router/src/routers/mod.rs b/sgl-router/src/routers/mod.rs
index ffb6d93c7d24..21250d5f1dad 100644
--- a/sgl-router/src/routers/mod.rs
+++ b/sgl-router/src/routers/mod.rs
@@ -1,10 +1,17 @@
 //! Router implementations
 
-use actix_web::{HttpRequest, HttpResponse};
 use async_trait::async_trait;
+use axum::{
+    body::Body,
+    extract::Request,
+    http::{HeaderMap, StatusCode},
+    response::{IntoResponse, Response},
+};
 use reqwest::Client;
 use std::fmt::Debug;
 
+use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
+
 pub mod factory;
 pub mod pd_router;
 pub mod pd_types;
@@ -33,54 +40,55 @@ pub trait WorkerManagement: Send + Sync {
 ///
 /// This trait provides a unified interface for routing requests,
 /// regardless of whether it's a regular router or PD router.
-#[async_trait(?Send)]
+#[async_trait]
 pub trait RouterTrait: Send + Sync + Debug + WorkerManagement {
     /// Get a reference to self as Any for downcasting
     fn as_any(&self) -> &dyn std::any::Any;
+
     /// Route a health check request
-    async fn health(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+    async fn health(&self, client: &Client, req: Request<Body>) -> Response;
 
     /// Route a health generate request
-    async fn health_generate(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+    async fn health_generate(&self, client: &Client, req: Request<Body>) -> Response;
 
     /// Get server information
-    async fn get_server_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+    async fn get_server_info(&self, client: &Client, req: Request<Body>) -> Response;
 
     /// Get available models
-    async fn get_models(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+    async fn get_models(&self, client: &Client, req: Request<Body>) -> Response;
 
     /// Get model information
-    async fn get_model_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse;
+    async fn get_model_info(&self, client: &Client, req: Request<Body>) -> Response;
 
     /// Route a generate request
     async fn route_generate(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse;
+        headers: Option<&HeaderMap>,
+        body: &GenerateRequest,
+    ) -> Response;
 
     /// Route a chat completion request
     async fn route_chat(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse;
+        headers: Option<&HeaderMap>,
+        body: &ChatCompletionRequest,
+    ) -> Response;
 
     /// Route a completion request
     async fn route_completion(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse;
+        headers: Option<&HeaderMap>,
+        body: &CompletionRequest,
+    ) -> Response;
 
     /// Flush cache on all workers
-    async fn flush_cache(&self, client: &Client) -> HttpResponse;
+    async fn flush_cache(&self, client: &Client) -> Response;
 
     /// Get worker loads (for monitoring)
-    async fn get_worker_loads(&self, client: &Client) -> HttpResponse;
+    async fn get_worker_loads(&self, client: &Client) -> Response;
 
     /// Get router type name
     fn router_type(&self) -> &'static str;
@@ -91,11 +99,11 @@ pub trait RouterTrait: Send + Sync + Debug + WorkerManagement {
     }
 
     /// Server liveness check - is the server process running
-    fn liveness(&self) -> HttpResponse {
+    fn liveness(&self) -> Response {
         // Simple liveness check - if we can respond, we're alive
-        HttpResponse::Ok().body("OK")
+        (StatusCode::OK, "OK").into_response()
     }
 
     /// Server readiness check - is the server ready to handle requests
-    fn readiness(&self) -> HttpResponse;
+    fn readiness(&self) -> Response;
 }
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index 4bc224fcf1bb..77d9141c05d3 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -5,17 +5,22 @@ use super::pd_types::{api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRou
 use super::request_adapter::ToPdRequest;
 use crate::core::{HealthChecker, Worker, WorkerFactory, WorkerLoadGuard};
 use crate::metrics::RouterMetrics;
-use crate::middleware::get_request_id;
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::policies::LoadBalancingPolicy;
 use crate::tree::Tree;
-use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
-use actix_web::{HttpRequest, HttpResponse};
-use futures_util::{StreamExt, TryStreamExt};
+use axum::{
+    body::Body,
+    extract::Request,
+    http::{header::CONTENT_TYPE, HeaderMap, HeaderValue, StatusCode},
+    response::{IntoResponse, Response},
+    Json,
+};
+use futures_util::StreamExt;
 use serde_json::Value;
 use std::collections::HashMap;
 use std::sync::{Arc, Mutex, RwLock};
 use std::time::{Duration, Instant};
+use tokio_stream::wrappers::UnboundedReceiverStream;
 use tracing::{debug, error, info, warn};
 
 #[derive(Debug)]
@@ -302,12 +307,11 @@ impl PDRouter {
     // Route a typed generate request
     pub async fn route_generate(
         &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
+        client: &Client,
+        headers: Option<&HeaderMap>,
         mut typed_req: GenerateReqInput,
         route: &str,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
+    ) -> Response {
         let start = Instant::now();
 
         // Get stream flag and return_logprob flag before moving the request
@@ -328,50 +332,52 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
-                error!(
-                    request_id = %request_id,
-                    "Failed to select PD pair error={}", e
-                );
+                error!("Failed to select PD pair error={}", e);
                 RouterMetrics::record_pd_error("server_selection");
-                return HttpResponse::ServiceUnavailable()
-                    .body(format!("No available servers: {}", e));
+                return (
+                    StatusCode::SERVICE_UNAVAILABLE,
+                    format!("No available servers: {}", e),
+                )
+                    .into_response();
             }
         };
 
         // Log routing decision
         info!(
-            request_id = %request_id,
             "PD routing decision route={} prefill_url={} decode_url={}",
-            route, prefill.url(), decode.url()
+            route,
+            prefill.url(),
+            decode.url()
         );
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!(
-                request_id = %request_id,
-                "Failed to add bootstrap info error={}", e
-            );
+            error!("Failed to add bootstrap info error={}", e);
             RouterMetrics::record_pd_error("bootstrap_injection");
-            return HttpResponse::InternalServerError()
-                .body(format!("Bootstrap injection failed: {}", e));
+            return (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                format!("Bootstrap injection failed: {}", e),
+            )
+                .into_response();
         }
 
         // Convert to JSON after bootstrap injection
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
             Err(e) => {
-                error!(
-                    request_id = %request_id,
-                    "Failed to serialize request error={}", e
-                );
-                return HttpResponse::InternalServerError().body("Failed to serialize request");
+                error!("Failed to serialize request error={}", e);
+                return (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    "Failed to serialize request",
+                )
+                    .into_response();
             }
         };
 
         // Execute dual dispatch
         self.execute_dual_dispatch(
             client,
-            req,
+            headers,
             json_with_bootstrap,
             route,
             prefill.as_ref(),
@@ -386,12 +392,11 @@ impl PDRouter {
     // Route a typed chat request
     pub async fn route_chat(
         &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
+        client: &Client,
+        headers: Option<&HeaderMap>,
         mut typed_req: ChatReqInput,
         route: &str,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
+    ) -> Response {
         let start = Instant::now();
 
         // Get stream flag and return_logprob flag before moving the request
@@ -415,50 +420,52 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
-                error!(
-                    request_id = %request_id,
-                    "Failed to select PD pair error={}", e
-                );
+                error!("Failed to select PD pair error={}", e);
                 RouterMetrics::record_pd_error("server_selection");
-                return HttpResponse::ServiceUnavailable()
-                    .body(format!("No available servers: {}", e));
+                return (
+                    StatusCode::SERVICE_UNAVAILABLE,
+                    format!("No available servers: {}", e),
+                )
+                    .into_response();
             }
         };
 
         // Log routing decision
         info!(
-            request_id = %request_id,
             "PD routing decision route={} prefill_url={} decode_url={}",
-            route, prefill.url(), decode.url()
+            route,
+            prefill.url(),
+            decode.url()
         );
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!(
-                request_id = %request_id,
-                "Failed to add bootstrap info error={}", e
-            );
+            error!("Failed to add bootstrap info error={}", e);
             RouterMetrics::record_pd_error("bootstrap_injection");
-            return HttpResponse::InternalServerError()
-                .body(format!("Bootstrap injection failed: {}", e));
+            return (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                format!("Bootstrap injection failed: {}", e),
+            )
+                .into_response();
         }
 
         // Convert to JSON after bootstrap injection
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
             Err(e) => {
-                error!(
-                    request_id = %request_id,
-                    "Failed to serialize request error={}", e
-                );
-                return HttpResponse::InternalServerError().body("Failed to serialize request");
+                error!("Failed to serialize request error={}", e);
+                return (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    "Failed to serialize request",
+                )
+                    .into_response();
             }
         };
 
         // Execute dual dispatch
         self.execute_dual_dispatch(
             client,
-            req,
+            headers,
             json_with_bootstrap,
             route,
             prefill.as_ref(),
@@ -473,12 +480,11 @@ impl PDRouter {
     // Route a completion request while preserving OpenAI format
     pub async fn route_completion(
         &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
+        client: &Client,
+        headers: Option<&HeaderMap>,
         mut typed_req: CompletionRequest,
         route: &str,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
+    ) -> Response {
         let start = Instant::now();
 
         // Get stream flag and return_logprob flag before moving the request
@@ -495,50 +501,52 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
             Ok(pair) => pair,
             Err(e) => {
-                error!(
-                    request_id = %request_id,
-                    "Failed to select PD pair error={}", e
-                );
+                error!("Failed to select PD pair error={}", e);
                 RouterMetrics::record_pd_error("server_selection");
-                return HttpResponse::ServiceUnavailable()
-                    .body(format!("No available servers: {}", e));
+                return (
+                    StatusCode::SERVICE_UNAVAILABLE,
+                    format!("No available servers: {}", e),
+                )
+                    .into_response();
             }
         };
 
         // Log routing decision
         info!(
-            request_id = %request_id,
             "PD routing decision route={} prefill_url={} decode_url={}",
-            route, prefill.url(), decode.url()
+            route,
+            prefill.url(),
+            decode.url()
         );
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!(
-                request_id = %request_id,
-                "Failed to add bootstrap info error={}", e
-            );
+            error!("Failed to add bootstrap info error={}", e);
             RouterMetrics::record_pd_error("bootstrap_injection");
-            return HttpResponse::InternalServerError()
-                .body(format!("Bootstrap injection failed: {}", e));
+            return (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                format!("Bootstrap injection failed: {}", e),
+            )
+                .into_response();
         }
 
         // Convert to JSON after bootstrap injection
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
             Err(e) => {
-                error!(
-                    request_id = %request_id,
-                    "Failed to serialize request error={}", e
-                );
-                return HttpResponse::InternalServerError().body("Failed to serialize request");
+                error!("Failed to serialize request error={}", e);
+                return (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    "Failed to serialize request",
+                )
+                    .into_response();
             }
         };
 
         // Execute dual dispatch
         self.execute_dual_dispatch(
             client,
-            req,
+            headers,
             json_with_bootstrap,
             route,
             prefill.as_ref(),
@@ -554,17 +562,16 @@ impl PDRouter {
     #[allow(clippy::too_many_arguments)]
     async fn execute_dual_dispatch(
         &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
-        json_request: serde_json::Value,
+        client: &Client,
+        headers: Option<&HeaderMap>,
+        json_request: Value,
         route: &str,
         prefill: &dyn Worker,
         decode: &dyn Worker,
         is_stream: bool,
         return_logprob: bool,
         start_time: Instant,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
+    ) -> Response {
         // Update load tracking for both workers
         let _guard = WorkerLoadGuard::new_multi(vec![prefill, decode]);
 
@@ -577,11 +584,17 @@ impl PDRouter {
             .post(api_path(decode.url(), route))
             .json(&json_request);
 
-        // Copy headers from original request
-        for (name, value) in crate::routers::router::copy_request_headers(req) {
-            if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length" {
-                prefill_request = prefill_request.header(&name, &value);
-                decode_request = decode_request.header(&name, &value);
+        // Copy headers from original request (excluding content-type and content-length which are set by .json())
+        if let Some(headers) = headers {
+            for (name, value) in headers.iter() {
+                let name_str = name.as_str();
+                if name_str != "content-type" && name_str != "content-length" {
+                    // Skip headers with non-ASCII values
+                    if value.to_str().is_ok() {
+                        prefill_request = prefill_request.header(name, value);
+                        decode_request = decode_request.header(name, value);
+                    }
+                }
             }
         }
 
@@ -599,25 +612,24 @@ impl PDRouter {
         // Process decode response
         match decode_result {
             Ok(res) => {
-                let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                    .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+                let status = StatusCode::from_u16(res.status().as_u16())
+                    .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
 
                 if !status.is_success() {
                     RouterMetrics::record_pd_decode_error(decode.url());
                     error!(
-                        request_id = %request_id,
                         "Decode server returned error status decode_url={} status={}",
-                        decode.url(), status
+                        decode.url(),
+                        status
                     );
 
                     // Return the error response from decode server
                     match res.bytes().await {
                         Ok(error_body) => {
-                            return HttpResponse::build(status).body(error_body.to_vec());
+                            return (status, error_body).into_response();
                         }
                         Err(e) => {
-                            return HttpResponse::build(status)
-                                .body(format!("Decode server error: {}", e));
+                            return (status, format!("Decode server error: {}", e)).into_response();
                         }
                     }
                 }
@@ -625,9 +637,9 @@ impl PDRouter {
                 // Log prefill errors for debugging
                 if let Err(e) = &prefill_result {
                     error!(
-                        request_id = %request_id,
                         "Prefill server failed (non-critical) prefill_url={} error={}",
-                        prefill.url(), e
+                        prefill.url(),
+                        e
                     );
                     RouterMetrics::record_pd_prefill_error(prefill.url());
                 }
@@ -650,12 +662,12 @@ impl PDRouter {
                             };
 
                         // Stream with logprob merging
-                        HttpResponse::build(status)
-                            .insert_header((
-                                CONTENT_TYPE,
-                                HeaderValue::from_static("text/event-stream"),
-                            ))
-                            .streaming(res.bytes_stream().map(move |chunk_result| {
+                        let stream = res.bytes_stream();
+                        let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
+
+                        tokio::spawn(async move {
+                            let mut stream = stream;
+                            while let Some(chunk_result) = stream.next().await {
                                 match chunk_result {
                                     Ok(chunk) => {
                                         // Try to merge logprobs
@@ -663,34 +675,69 @@ impl PDRouter {
                                             prefill_logprobs.clone(),
                                             &chunk,
                                         ) {
-                                            Ok(merged)
+                                            if tx.send(Ok(merged)).is_err() {
+                                                break;
+                                            }
                                         } else {
-                                            Ok(chunk)
+                                            if tx.send(Ok(chunk)).is_err() {
+                                                break;
+                                            }
                                         }
                                     }
-                                    Err(e) => Err(actix_web::error::ErrorInternalServerError(
-                                        format!("Stream error: {}", e),
-                                    )),
+                                    Err(e) => {
+                                        let _ = tx.send(Err(format!("Stream error: {}", e)));
+                                        break;
+                                    }
                                 }
-                            }))
+                            }
+                        });
+
+                        let stream = UnboundedReceiverStream::new(rx);
+                        let body = Body::from_stream(stream);
+
+                        let mut response = Response::new(body);
+                        *response.status_mut() = status;
+                        response
+                            .headers_mut()
+                            .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
+                        response
                     } else {
                         // No logprob merging needed
-                        HttpResponse::build(status)
-                            .insert_header((
-                                CONTENT_TYPE,
-                                HeaderValue::from_static("text/event-stream"),
-                            ))
-                            .streaming({
-                                let decode_url = decode.url().to_string();
-                                res.bytes_stream().map_err(move |e| {
-                                    error!("Stream error from decode server {}: {}", decode_url, e);
-                                    RouterMetrics::record_pd_stream_error(&decode_url);
-                                    actix_web::error::ErrorInternalServerError(format!(
-                                        "Stream error: {}",
-                                        e
-                                    ))
-                                })
-                            })
+                        let stream = res.bytes_stream();
+                        let decode_url = decode.url().to_string();
+                        let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
+
+                        tokio::spawn(async move {
+                            let mut stream = stream;
+                            while let Some(chunk) = stream.next().await {
+                                match chunk {
+                                    Ok(bytes) => {
+                                        if tx.send(Ok(bytes)).is_err() {
+                                            break;
+                                        }
+                                    }
+                                    Err(e) => {
+                                        error!(
+                                            "Stream error from decode server {}: {}",
+                                            decode_url, e
+                                        );
+                                        RouterMetrics::record_pd_stream_error(&decode_url);
+                                        let _ = tx.send(Err(format!("Stream error: {}", e)));
+                                        break;
+                                    }
+                                }
+                            }
+                        });
+
+                        let stream = UnboundedReceiverStream::new(rx);
+                        let body = Body::from_stream(stream);
+
+                        let mut response = Response::new(body);
+                        *response.status_mut() = status;
+                        response
+                            .headers_mut()
+                            .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
+                        response
                     }
                 } else {
                     // Non-streaming response
@@ -700,25 +747,29 @@ impl PDRouter {
                                 self.merge_logprobs(prefill_result, decode_body, status)
                                     .await
                             } else {
-                                HttpResponse::build(status).body(decode_body.to_vec())
+                                (status, decode_body).into_response()
                             }
                         }
                         Err(e) => {
                             error!("Failed to read decode response: {}", e);
-                            HttpResponse::InternalServerError().body("Failed to read response")
+                            (StatusCode::INTERNAL_SERVER_ERROR, "Failed to read response")
+                                .into_response()
                         }
                     }
                 }
             }
             Err(e) => {
                 error!(
-                    request_id = %request_id,
                     decode_url = %decode.url(),
                     error = %e,
                     "Decode request failed"
                 );
                 RouterMetrics::record_pd_decode_error(decode.url());
-                HttpResponse::BadGateway().body(format!("Decode server error: {}", e))
+                (
+                    StatusCode::BAD_GATEWAY,
+                    format!("Decode server error: {}", e),
+                )
+                    .into_response()
             }
         }
     }
@@ -728,8 +779,8 @@ impl PDRouter {
         &self,
         prefill_result: Result<reqwest::Response, reqwest::Error>,
         decode_body: bytes::Bytes,
-        status: actix_web::http::StatusCode,
-    ) -> HttpResponse {
+        status: StatusCode,
+    ) -> Response {
         match prefill_result {
             Ok(prefill_res) => {
                 match prefill_res.bytes().await {
@@ -759,28 +810,30 @@ impl PDRouter {
                                         }
                                     }
                                 }
-                                HttpResponse::build(status).json(&decode_json)
+                                let mut response = Json(decode_json).into_response();
+                                *response.status_mut() = status;
+                                response
                             }
                             _ => {
                                 warn!("Failed to parse responses for logprob merging");
-                                HttpResponse::build(status).body(decode_body.to_vec())
+                                (status, decode_body).into_response()
                             }
                         }
                     }
                     Err(e) => {
                         warn!("Failed to read prefill response: {}", e);
-                        HttpResponse::build(status).body(decode_body.to_vec())
+                        (status, decode_body).into_response()
                     }
                 }
             }
-            Err(_) => HttpResponse::build(status).body(decode_body.to_vec()),
+            Err(_) => (status, decode_body).into_response(),
         }
     }
 
     // Select a pair of prefill and decode servers
     async fn select_pd_pair(
         &self,
-        _client: &reqwest::Client,
+        _client: &Client,
         request_text: Option<&str>,
     ) -> Result<(Box<dyn Worker>, Box<dyn Worker>), String> {
         // Get read locks for both worker lists
@@ -823,7 +876,7 @@ impl PDRouter {
         worker_urls: Vec<String>,
         tx: tokio::sync::watch::Sender<HashMap<String, isize>>,
         interval_secs: u64,
-        client: reqwest::Client,
+        client: Client,
         prefill_policy: Arc<dyn LoadBalancingPolicy>,
         decode_policy: Arc<dyn LoadBalancingPolicy>,
     ) {
@@ -940,7 +993,7 @@ async fn get_worker_load(client: &reqwest::Client, worker_url: &str) -> Option<i
 
 // PD-specific endpoints
 impl PDRouter {
-    pub async fn health_generate(&self, client: &reqwest::Client) -> HttpResponse {
+    pub async fn health_generate(&self, client: &reqwest::Client) -> Response {
         // Test model generation capability by selecting a random pair and testing them
         // Note: This endpoint actually causes the model to generate tokens, so we only test one pair
 
@@ -948,8 +1001,11 @@ impl PDRouter {
         let (prefill, decode) = match self.select_pd_pair(client, None).await {
             Ok(pair) => pair,
             Err(e) => {
-                return HttpResponse::ServiceUnavailable()
-                    .body(format!("No healthy worker pair available: {}", e));
+                return (
+                    StatusCode::SERVICE_UNAVAILABLE,
+                    format!("No healthy worker pair available: {}", e),
+                )
+                    .into_response();
             }
         };
 
@@ -1000,22 +1056,34 @@ impl PDRouter {
         }
 
         if errors.is_empty() {
-            HttpResponse::Ok().body(format!(
-                "Health generate passed on selected pair: prefill={}, decode={}",
-                prefill.url(),
-                decode.url()
-            ))
+            (
+                StatusCode::OK,
+                format!(
+                    "Health generate passed on selected pair: prefill={}, decode={}",
+                    prefill.url(),
+                    decode.url()
+                ),
+            )
+                .into_response()
         } else {
-            HttpResponse::ServiceUnavailable().body(format!("Health generate failed: {:?}", errors))
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                format!("Health generate failed: {:?}", errors),
+            )
+                .into_response()
         }
     }
 
-    pub async fn get_server_info(&self, client: &reqwest::Client) -> HttpResponse {
+    pub async fn get_server_info(&self, client: &reqwest::Client) -> Response {
         // Get info from the first decode server to match sglang's server info format
         let first_decode_url = if let Ok(workers) = self.decode_workers.read() {
             workers.first().map(|w| w.url().to_string())
         } else {
-            return HttpResponse::InternalServerError().body("Failed to access decode workers");
+            return (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                "Failed to access decode workers",
+            )
+                .into_response();
         };
 
         if let Some(worker_url) = first_decode_url {
@@ -1029,44 +1097,64 @@ impl PDRouter {
                         Ok(info) => {
                             // The decode server should already return the proper format
                             // with tokenizer_path and other fields that bench_one_batch_server.py expects
-                            HttpResponse::Ok().json(info)
+                            Json(info).into_response()
                         }
                         Err(e) => {
                             error!("Failed to parse server info: {}", e);
-                            HttpResponse::InternalServerError()
-                                .body(format!("Failed to parse server info: {}", e))
+                            (
+                                StatusCode::INTERNAL_SERVER_ERROR,
+                                format!("Failed to parse server info: {}", e),
+                            )
+                                .into_response()
                         }
                     }
                 }
                 Ok(res) => {
-                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
-                    HttpResponse::build(status)
-                        .body(format!("Decode server returned status: {}", res.status()))
+                    let status = StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
+                    (
+                        status,
+                        format!("Decode server returned status: {}", res.status()),
+                    )
+                        .into_response()
                 }
                 Err(e) => {
                     error!("Failed to get server info: {}", e);
-                    HttpResponse::InternalServerError()
-                        .body(format!("Failed to get server info: {}", e))
+                    (
+                        StatusCode::INTERNAL_SERVER_ERROR,
+                        format!("Failed to get server info: {}", e),
+                    )
+                        .into_response()
                 }
             }
         } else {
-            HttpResponse::ServiceUnavailable().body("No decode servers available")
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                "No decode servers available",
+            )
+                .into_response()
         }
     }
 
-    pub async fn get_models(&self, client: &reqwest::Client, req: &HttpRequest) -> HttpResponse {
+    pub async fn get_models(&self, client: &reqwest::Client, req: Request<Body>) -> Response {
+        // Extract headers first to avoid Send issues
+        let headers = crate::routers::router::copy_request_headers(&req);
+
         // Get first prefill worker URL to avoid holding lock across await
         let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
             workers.first().map(|w| w.url().to_string())
         } else {
-            return HttpResponse::InternalServerError().body("Failed to access prefill workers");
+            return (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                "Failed to access prefill workers",
+            )
+                .into_response();
         };
 
         if let Some(worker_url) = first_worker_url {
             // Send request directly without going through Router
             let mut request_builder = client.get(format!("{}/v1/models", worker_url));
-            for (name, value) in crate::routers::router::copy_request_headers(req) {
+            for (name, value) in headers {
                 if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
                 {
                     request_builder = request_builder.header(name, value);
@@ -1074,23 +1162,33 @@ impl PDRouter {
             }
             match request_builder.send().await {
                 Ok(res) => {
-                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+                    let status = StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
                     match res.bytes().await {
-                        Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                        Err(e) => HttpResponse::InternalServerError()
-                            .body(format!("Failed to read response body: {}", e)),
+                        Ok(body) => (status, body).into_response(),
+                        Err(e) => (
+                            StatusCode::INTERNAL_SERVER_ERROR,
+                            format!("Failed to read response body: {}", e),
+                        )
+                            .into_response(),
                     }
                 }
-                Err(e) => HttpResponse::InternalServerError()
-                    .body(format!("Failed to send request: {}", e)),
+                Err(e) => (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    format!("Failed to send request: {}", e),
+                )
+                    .into_response(),
             }
         } else {
-            HttpResponse::ServiceUnavailable().body("No prefill servers available")
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                "No prefill servers available",
+            )
+                .into_response()
         }
     }
 
-    pub async fn get_loads(&self, client: &reqwest::Client) -> HttpResponse {
+    pub async fn get_loads(&self, client: &reqwest::Client) -> Response {
         let p_urls: Vec<_> = self
             .prefill_workers
             .read()
@@ -1125,28 +1223,32 @@ impl PDRouter {
             }));
         }
 
-        HttpResponse::Ok().json(serde_json::json!({
+        Json(serde_json::json!({
             "prefill": prefill_loads,
             "decode": decode_loads
         }))
+        .into_response()
     }
 
-    pub async fn get_model_info(
-        &self,
-        client: &reqwest::Client,
-        req: &HttpRequest,
-    ) -> HttpResponse {
+    pub async fn get_model_info(&self, client: &reqwest::Client, req: Request<Body>) -> Response {
+        // Extract headers first to avoid Send issues
+        let headers = crate::routers::router::copy_request_headers(&req);
+
         // Get model info from the first prefill server (matches original Rust PDLB behavior)
         // Get first prefill worker URL to avoid holding lock across await
         let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
             workers.first().map(|w| w.url().to_string())
         } else {
-            return HttpResponse::InternalServerError().body("Failed to access prefill workers");
+            return (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                "Failed to access prefill workers",
+            )
+                .into_response();
         };
 
         if let Some(worker_url) = first_worker_url {
             let mut request_builder = client.get(format!("{}/get_model_info", worker_url));
-            for (name, value) in crate::routers::router::copy_request_headers(req) {
+            for (name, value) in headers {
                 if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
                 {
                     request_builder = request_builder.header(name, value);
@@ -1154,23 +1256,33 @@ impl PDRouter {
             }
             match request_builder.send().await {
                 Ok(res) => {
-                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+                    let status = StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
                     match res.bytes().await {
-                        Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                        Err(e) => HttpResponse::InternalServerError()
-                            .body(format!("Failed to read response body: {}", e)),
+                        Ok(body) => (status, body).into_response(),
+                        Err(e) => (
+                            StatusCode::INTERNAL_SERVER_ERROR,
+                            format!("Failed to read response body: {}", e),
+                        )
+                            .into_response(),
                     }
                 }
-                Err(e) => HttpResponse::InternalServerError()
-                    .body(format!("Failed to send request: {}", e)),
+                Err(e) => (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    format!("Failed to send request: {}", e),
+                )
+                    .into_response(),
             }
         } else {
-            HttpResponse::ServiceUnavailable().body("No prefill servers available")
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                "No prefill servers available",
+            )
+                .into_response()
         }
     }
 
-    pub async fn flush_cache(&self, client: &reqwest::Client) -> HttpResponse {
+    pub async fn flush_cache(&self, client: &reqwest::Client) -> Response {
         let mut tasks = Vec::new();
 
         // Flush cache on all prefill servers
@@ -1207,9 +1319,13 @@ impl PDRouter {
         }
 
         if all_success {
-            HttpResponse::Ok().body("Cache flushed on all servers")
+            (StatusCode::OK, "Cache flushed on all servers").into_response()
         } else {
-            HttpResponse::InternalServerError().body("Cache flush failed on one or more servers")
+            (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                "Cache flush failed on one or more servers",
+            )
+                .into_response()
         }
     }
 }
@@ -1268,13 +1384,13 @@ impl WorkerManagement for PDRouter {
     }
 }
 
-#[async_trait(?Send)]
+#[async_trait]
 impl RouterTrait for PDRouter {
     fn as_any(&self) -> &dyn std::any::Any {
         self
     }
 
-    async fn health(&self, _client: &Client, _req: &HttpRequest) -> HttpResponse {
+    async fn health(&self, _client: &Client, _req: Request<Body>) -> Response {
         // This is a server readiness check - checking if we have healthy workers
         // Workers handle their own health checks in the background
         let mut all_healthy = true;
@@ -1297,167 +1413,76 @@ impl RouterTrait for PDRouter {
         }
 
         if all_healthy {
-            HttpResponse::Ok().body("All servers healthy")
+            (StatusCode::OK, "All servers healthy").into_response()
         } else {
-            HttpResponse::ServiceUnavailable()
-                .body(format!("Unhealthy servers: {:?}", unhealthy_servers))
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                format!("Unhealthy servers: {:?}", unhealthy_servers),
+            )
+                .into_response()
         }
     }
 
-    async fn health_generate(&self, client: &Client, _req: &HttpRequest) -> HttpResponse {
+    async fn health_generate(&self, client: &Client, _req: Request<Body>) -> Response {
         // Use the existing PDRouter health_generate method
         PDRouter::health_generate(self, client).await
     }
 
-    async fn get_server_info(&self, client: &Client, _req: &HttpRequest) -> HttpResponse {
+    async fn get_server_info(&self, client: &Client, _req: Request<Body>) -> Response {
         // Use the existing PDRouter get_server_info method
         PDRouter::get_server_info(self, client).await
     }
 
-    async fn get_models(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
-        // Get first prefill worker URL to avoid holding lock across await
-        let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
-            workers.first().map(|w| w.url().to_string())
-        } else {
-            return HttpResponse::InternalServerError().body("Failed to access prefill workers");
-        };
-
-        if let Some(worker_url) = first_worker_url {
-            // Send request directly without going through Router
-            let mut request_builder = client.get(format!("{}/v1/models", worker_url));
-            for (name, value) in crate::routers::router::copy_request_headers(req) {
-                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
-                {
-                    request_builder = request_builder.header(name, value);
-                }
-            }
-            match request_builder.send().await {
-                Ok(res) => {
-                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
-                    match res.bytes().await {
-                        Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                        Err(e) => HttpResponse::InternalServerError()
-                            .body(format!("Failed to read response body: {}", e)),
-                    }
-                }
-                Err(e) => HttpResponse::InternalServerError()
-                    .body(format!("Failed to send request: {}", e)),
-            }
-        } else {
-            HttpResponse::ServiceUnavailable().body("No prefill servers available")
-        }
+    async fn get_models(&self, client: &Client, req: Request<Body>) -> Response {
+        // Use the existing PDRouter get_models method
+        PDRouter::get_models(self, client, req).await
     }
 
-    async fn get_model_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
-        // For PD router, get model info from the first prefill server
-        // Get first prefill worker URL to avoid holding lock across await
-        let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
-            workers.first().map(|w| w.url().to_string())
-        } else {
-            return HttpResponse::InternalServerError().body("Failed to access prefill workers");
-        };
-
-        if let Some(worker_url) = first_worker_url {
-            let mut request_builder = client.get(format!("{}/get_model_info", worker_url));
-            for (name, value) in crate::routers::router::copy_request_headers(req) {
-                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
-                {
-                    request_builder = request_builder.header(name, value);
-                }
-            }
-            match request_builder.send().await {
-                Ok(res) => {
-                    let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
-                    match res.bytes().await {
-                        Ok(body) => HttpResponse::build(status).body(body.to_vec()),
-                        Err(e) => HttpResponse::InternalServerError()
-                            .body(format!("Failed to read response body: {}", e)),
-                    }
-                }
-                Err(e) => HttpResponse::InternalServerError()
-                    .body(format!("Failed to send request: {}", e)),
-            }
-        } else {
-            HttpResponse::ServiceUnavailable().body("No prefill servers available")
-        }
+    async fn get_model_info(&self, client: &Client, req: Request<Body>) -> Response {
+        // Use the existing PDRouter get_model_info method
+        PDRouter::get_model_info(self, client, req).await
     }
 
     async fn route_generate(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse {
-        match serde_json::from_value::<GenerateRequest>(body.clone()) {
-            Ok(openai_req) => {
-                // Convert OpenAI format to PD format
-                let pd_req = openai_req.to_pd_request();
-                PDRouter::route_generate(self, client, req, pd_req, "/generate").await
-            }
-            Err(_) => {
-                // If that fails, try to deserialize directly as PD format (for backwards compatibility)
-                match serde_json::from_value::<GenerateReqInput>(body) {
-                    Ok(pd_req) => {
-                        PDRouter::route_generate(self, client, req, pd_req, "/generate").await
-                    }
-                    Err(e) => {
-                        HttpResponse::BadRequest().body(format!("Invalid request format: {}", e))
-                    }
-                }
-            }
-        }
+        headers: Option<&HeaderMap>,
+        body: &GenerateRequest,
+    ) -> Response {
+        // Convert OpenAI format to PD format
+        let pd_req = body.clone().to_pd_request();
+
+        PDRouter::route_generate(self, client, headers, pd_req, "/generate").await
     }
 
     async fn route_chat(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse {
-        match serde_json::from_value::<ChatCompletionRequest>(body.clone()) {
-            Ok(openai_req) => {
-                // Convert OpenAI format to PD format
-                let pd_req = openai_req.to_pd_request();
-                PDRouter::route_chat(self, client, req, pd_req, "/v1/chat/completions").await
-            }
-            Err(_) => {
-                // If that fails, try to deserialize directly as PD format (for backwards compatibility)
-                match serde_json::from_value::<ChatReqInput>(body) {
-                    Ok(pd_req) => {
-                        PDRouter::route_chat(self, client, req, pd_req, "/v1/chat/completions")
-                            .await
-                    }
-                    Err(e) => {
-                        HttpResponse::BadRequest().body(format!("Invalid request format: {}", e))
-                    }
-                }
-            }
-        }
+        headers: Option<&HeaderMap>,
+        body: &ChatCompletionRequest,
+    ) -> Response {
+        // Convert OpenAI format to PD format
+        let pd_req = body.clone().to_pd_request();
+
+        PDRouter::route_chat(self, client, headers, pd_req, "/v1/chat/completions").await
     }
 
     async fn route_completion(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse {
-        match serde_json::from_value::<CompletionRequest>(body) {
-            Ok(openai_req) => {
-                // Use the new method that preserves OpenAI format
-                PDRouter::route_completion(self, client, req, openai_req, "/v1/completions").await
-            }
-            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request format: {}", e)),
-        }
+        headers: Option<&HeaderMap>,
+        body: &CompletionRequest,
+    ) -> Response {
+        // Use the new method that preserves OpenAI format
+        PDRouter::route_completion(self, client, headers, body.clone(), "/v1/completions").await
     }
 
-    async fn flush_cache(&self, client: &Client) -> HttpResponse {
+    async fn flush_cache(&self, client: &Client) -> Response {
         // Use the existing PDRouter flush_cache method
         PDRouter::flush_cache(self, client).await
     }
 
-    async fn get_worker_loads(&self, client: &Client) -> HttpResponse {
+    async fn get_worker_loads(&self, client: &Client) -> Response {
         // Use the existing PDRouter get_loads method
         PDRouter::get_loads(self, client).await
     }
@@ -1466,7 +1491,7 @@ impl RouterTrait for PDRouter {
         "pd"
     }
 
-    fn readiness(&self) -> HttpResponse {
+    fn readiness(&self) -> Response {
         // PD router is ready if it has at least one healthy prefill AND one healthy decode worker
         let healthy_prefill_count = self
             .prefill_workers
@@ -1488,7 +1513,7 @@ impl RouterTrait for PDRouter {
         let total_decode = self.decode_workers.read().unwrap().len();
 
         if healthy_prefill_count > 0 && healthy_decode_count > 0 {
-            HttpResponse::Ok().json(serde_json::json!({
+            Json(serde_json::json!({
                 "status": "ready",
                 "prefill": {
                     "healthy": healthy_prefill_count,
@@ -1499,6 +1524,7 @@ impl RouterTrait for PDRouter {
                     "total": total_decode
                 }
             }))
+            .into_response()
         } else {
             let mut reasons = Vec::new();
             if healthy_prefill_count == 0 {
@@ -1508,18 +1534,22 @@ impl RouterTrait for PDRouter {
                 reasons.push("no healthy decode workers");
             }
 
-            HttpResponse::ServiceUnavailable().json(serde_json::json!({
-                "status": "not_ready",
-                "reason": reasons.join(", "),
-                "prefill": {
-                    "healthy": healthy_prefill_count,
-                    "total": total_prefill
-                },
-                "decode": {
-                    "healthy": healthy_decode_count,
-                    "total": total_decode
-                }
-            }))
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                Json(serde_json::json!({
+                    "status": "not_ready",
+                    "reason": reasons.join(", "),
+                    "prefill": {
+                        "healthy": healthy_prefill_count,
+                        "total": total_prefill
+                    },
+                    "decode": {
+                        "healthy": healthy_decode_count,
+                        "total": total_decode
+                    }
+                })),
+            )
+                .into_response()
         }
     }
 }
@@ -1530,7 +1560,6 @@ mod tests {
     use crate::core::{BasicWorker, WorkerType};
     use crate::policies::{CacheAwarePolicy, RandomPolicy};
     use crate::routers::pd_types::SingleOrBatch;
-    use actix_web::test::TestRequest;
 
     fn create_test_pd_router() -> PDRouter {
         let prefill_policy = Arc::new(RandomPolicy::new());
@@ -1939,8 +1968,10 @@ mod tests {
 
         // Test health endpoint
         let client = reqwest::Client::new();
-        let http_req = TestRequest::default().to_http_request();
-        let response = router.health(&client, &http_req).await;
+        let http_req = axum::http::Request::builder()
+            .body(axum::body::Body::empty())
+            .unwrap();
+        let response = router.health(&client, http_req).await;
 
         assert_eq!(response.status(), 200);
 
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index 294fa4919d28..41277c17e00f 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -1,17 +1,23 @@
 use crate::core::{HealthChecker, Worker, WorkerFactory};
 use crate::metrics::RouterMetrics;
-use crate::middleware::get_request_id;
+use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::policies::LoadBalancingPolicy;
-use actix_web::http::header::{HeaderValue, CONTENT_TYPE};
-use actix_web::{HttpRequest, HttpResponse};
-use futures_util::{StreamExt, TryStreamExt};
+use crate::routers::{RouterTrait, WorkerManagement};
+use axum::{
+    body::Body,
+    extract::Request,
+    http::{header::CONTENT_TYPE, HeaderMap, HeaderValue, StatusCode},
+    response::{IntoResponse, Response},
+    Json,
+};
+use futures_util::StreamExt;
 use std::collections::HashMap;
 use std::sync::{Arc, RwLock};
 use std::thread;
 use std::time::{Duration, Instant};
+use tokio_stream::wrappers::UnboundedReceiverStream;
 use tracing::{debug, error, info, warn};
-
-pub fn copy_request_headers(req: &HttpRequest) -> Vec<(String, String)> {
+pub fn copy_request_headers(req: &Request<Body>) -> Vec<(String, String)> {
     req.headers()
         .iter()
         .filter_map(|(name, value)| {
@@ -239,154 +245,107 @@ impl Router {
         }
     }
 
-    pub async fn send_request(
-        &self,
-        client: &reqwest::Client,
-        worker_url: &str,
-        route: &str,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
-        let start = Instant::now();
-
-        let worker_url = if self.dp_aware {
+    pub async fn send_health_check(&self, client: &Client, worker_url: &str) -> Response {
+        let health_url = if self.dp_aware {
             // Need to extract the URL from "http://host:port@dp_rank"
-            let (worker_url_prefix, _dp_rank) = match Self::extract_dp_rank(worker_url) {
-                Ok(tup) => tup,
+            match Self::extract_dp_rank(worker_url) {
+                Ok((worker_url_prefix, _dp_rank)) => worker_url_prefix,
                 Err(e) => {
-                    error!("Failed to extract dp_rank: {}", e);
-                    return HttpResponse::InternalServerError().finish();
+                    error!("Failed to extract dp_rank for health check: {}", e);
+                    return (
+                        StatusCode::INTERNAL_SERVER_ERROR,
+                        format!("Failed to extract dp_rank: {}", e),
+                    )
+                        .into_response();
                 }
-            };
-            worker_url_prefix
+            }
         } else {
             worker_url
         };
 
-        let mut request_builder = client.get(format!("{}{}", worker_url, route));
-
-        // Copy all headers from original request except for /health because it does not need authorization
-        if route != "/health" {
-            for (name, value) in copy_request_headers(req) {
-                // Skip Content-Type and Content-Length as .json() sets them
-                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
-                {
-                    request_builder = request_builder.header(name, value);
-                }
-            }
-        }
+        let request_builder = client.get(format!("{}/health", health_url));
 
         let response = match request_builder.send().await {
             Ok(res) => {
-                let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-                    .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+                let status = StatusCode::from_u16(res.status().as_u16())
+                    .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
 
                 match res.bytes().await {
-                    Ok(body) => HttpResponse::build(status).body(body.to_vec()),
+                    Ok(body) => (status, body).into_response(),
                     Err(e) => {
                         error!(
-                            request_id = %request_id,
-                            worker_url = %worker_url,
-                            route = %route,
+                            worker_url = %health_url,
                             error = %e,
-                            "Failed to read response body"
+                            "Failed to read health response body"
                         );
-                        HttpResponse::InternalServerError()
-                            .body(format!("Failed to read response body: {}", e))
+                        (
+                            StatusCode::INTERNAL_SERVER_ERROR,
+                            format!("Failed to read response body: {}", e),
+                        )
+                            .into_response()
                     }
                 }
             }
             Err(e) => {
                 error!(
-                    request_id = %request_id,
-                    worker_url = %worker_url,
-                    route = %route,
+                    worker_url = %health_url,
                     error = %e,
-                    "Failed to send request to worker"
+                    "Failed to send health request to worker"
                 );
-                HttpResponse::InternalServerError().body(format!(
-                    "Failed to send request to worker {}: {}",
-                    worker_url, e
-                ))
+                (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    format!("Failed to send request to worker {}: {}", health_url, e),
+                )
+                    .into_response()
             }
         };
 
-        // Record request metrics
-        if route != "/health" {
-            let duration = start.elapsed();
-            RouterMetrics::record_request(route);
-            RouterMetrics::record_request_duration(route, duration);
-
-            if !response.status().is_success() {
-                RouterMetrics::record_request_error(route, "request_failed");
-            }
-        }
+        // Don't record metrics for health checks
         response
     }
 
-    pub async fn route_to_first(
+    // Helper method to proxy GET requests to the first available worker
+    async fn proxy_get_request(
         &self,
-        client: &reqwest::Client,
-        route: &str,
-        req: &HttpRequest,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
-        const MAX_REQUEST_RETRIES: u32 = 3;
-        const MAX_TOTAL_RETRIES: u32 = 6;
-        let mut total_retries = 0;
-
-        while total_retries < MAX_TOTAL_RETRIES {
-            match self.select_first_worker() {
-                Ok(worker_url) => {
-                    let mut request_retries = 0;
-
-                    // Try the same worker multiple times
-                    while request_retries < MAX_REQUEST_RETRIES {
-                        if total_retries >= 1 {
-                            info!("Retrying request after {} failed attempts", total_retries);
-                        }
-
-                        let response = self.send_request(client, &worker_url, route, req).await;
-
-                        if response.status().is_success() {
-                            return response;
-                        } else {
-                            // if the worker is healthy, it means the request is bad, so return the error response
-                            let health_response =
-                                self.send_request(client, &worker_url, "/health", req).await;
-                            if health_response.status().is_success() {
-                                return response;
-                            }
-                        }
-
-                        warn!(
-                            request_id = %request_id,
-                            route = %route,
-                            worker_url = %worker_url,
-                            attempt = request_retries + 1,
-                            max_attempts = MAX_REQUEST_RETRIES,
-                            "Request failed"
-                        );
-
-                        request_retries += 1;
-                        total_retries += 1;
+        client: &Client,
+        req: Request<Body>,
+        endpoint: &str,
+    ) -> Response {
+        let headers = copy_request_headers(&req);
+
+        match self.select_first_worker() {
+            Ok(worker_url) => {
+                let mut request_builder = client.get(format!("{}/{}", worker_url, endpoint));
+                for (name, value) in headers {
+                    if name.to_lowercase() != "content-type"
+                        && name.to_lowercase() != "content-length"
+                    {
+                        request_builder = request_builder.header(name, value);
+                    }
+                }
 
-                        if request_retries == MAX_REQUEST_RETRIES {
-                            warn!(
-                                request_id = %request_id,
-                                worker_url = %worker_url,
-                                "Removing failed worker"
-                            );
-                            self.remove_failed_worker(&worker_url);
-                            break;
+                match request_builder.send().await {
+                    Ok(res) => {
+                        let status = StatusCode::from_u16(res.status().as_u16())
+                            .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
+                        match res.bytes().await {
+                            Ok(body) => (status, body).into_response(),
+                            Err(e) => (
+                                StatusCode::INTERNAL_SERVER_ERROR,
+                                format!("Failed to read response: {}", e),
+                            )
+                                .into_response(),
                         }
                     }
+                    Err(e) => (
+                        StatusCode::INTERNAL_SERVER_ERROR,
+                        format!("Request failed: {}", e),
+                    )
+                        .into_response(),
                 }
-                Err(e) => return HttpResponse::InternalServerError().body(e),
             }
+            Err(e) => (StatusCode::SERVICE_UNAVAILABLE, e).into_response(),
         }
-
-        HttpResponse::InternalServerError().body("All retry attempts failed")
     }
 
     // New method to route typed requests directly
@@ -395,11 +354,10 @@ impl Router {
     >(
         &self,
         client: &reqwest::Client,
-        req: &HttpRequest,
+        headers: Option<&HeaderMap>,
         typed_req: &T,
         route: &str,
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
+    ) -> Response {
         // Handle retries like the original implementation
         let start = Instant::now();
         const MAX_REQUEST_RETRIES: u32 = 3;
@@ -440,7 +398,7 @@ impl Router {
                 let response = self
                     .send_typed_request(
                         client,
-                        req,
+                        headers,
                         typed_req,
                         route,
                         &worker_url,
@@ -455,8 +413,7 @@ impl Router {
                     return response;
                 } else {
                     // if the worker is healthy, it means the request is bad, so return the error response
-                    let health_response =
-                        self.send_request(client, &worker_url, "/health", req).await;
+                    let health_response = self.send_health_check(client, &worker_url).await;
                     if health_response.status().is_success() {
                         RouterMetrics::record_request_error(route, "request_failed");
                         return response;
@@ -464,9 +421,11 @@ impl Router {
                 }
 
                 warn!(
-                    request_id = %request_id,
                     "Generate request failed route={} worker_url={} attempt={} max_attempts={}",
-                    route, worker_url, request_retries + 1, MAX_REQUEST_RETRIES
+                    route,
+                    worker_url,
+                    request_retries + 1,
+                    MAX_REQUEST_RETRIES
                 );
 
                 request_retries += 1;
@@ -474,17 +433,21 @@ impl Router {
 
                 if request_retries == MAX_REQUEST_RETRIES {
                     warn!(
-                        request_id = %request_id,
-                        "Removing failed worker after typed request failures worker_url={}", worker_url
+                        "Removing failed worker after typed request failures worker_url={}",
+                        worker_url
                     );
-                    self.remove_failed_worker(&worker_url);
+                    self.remove_worker(&worker_url);
                     break;
                 }
             }
         }
 
         RouterMetrics::record_request_error(route, "request_failed");
-        HttpResponse::InternalServerError().body("All retry attempts failed")
+        (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            "All retry attempts failed",
+        )
+            .into_response()
     }
 
     // Helper method to select worker from text using the policy
@@ -521,14 +484,13 @@ impl Router {
     async fn send_typed_request<T: serde::Serialize>(
         &self,
         client: &reqwest::Client,
-        req: &HttpRequest,
+        headers: Option<&HeaderMap>,
         typed_req: &T,
         route: &str,
         worker_url: &str,
         is_stream: bool,
         load_incremented: bool, // Whether load was incremented for this request
-    ) -> HttpResponse {
-        let request_id = get_request_id(req);
+    ) -> Response {
         let start = Instant::now();
 
         let mut request_builder = if self.dp_aware {
@@ -536,7 +498,11 @@ impl Router {
                 Ok(tup) => tup,
                 Err(e) => {
                     error!("Failed to extract dp_rank: {}", e);
-                    return HttpResponse::InternalServerError().finish();
+                    return (
+                        StatusCode::INTERNAL_SERVER_ERROR,
+                        format!("Failed to extract dp_rank: {}", e),
+                    )
+                        .into_response();
                 }
             };
 
@@ -544,8 +510,11 @@ impl Router {
             let mut json_val = match serde_json::to_value(typed_req) {
                 Ok(j) => j,
                 Err(e) => {
-                    return HttpResponse::BadRequest()
-                        .body(format!("Convert into serde_json::Value failed: {}", e));
+                    return (
+                        StatusCode::BAD_REQUEST,
+                        format!("Convert into serde_json::Value failed: {}", e),
+                    )
+                        .into_response();
                 }
             };
 
@@ -560,8 +529,11 @@ impl Router {
                     serde_json::to_string(&json_val).unwrap_or(String::from("ERR"))
                 );
             } else {
-                return HttpResponse::BadRequest()
-                    .body("Failed to insert the data_parallel_rank field into the request body");
+                return (
+                    StatusCode::BAD_REQUEST,
+                    "Failed to insert the data_parallel_rank field into the request body",
+                )
+                    .into_response();
             }
 
             client
@@ -573,11 +545,15 @@ impl Router {
                 .json(typed_req) // Use json() directly with typed request
         };
 
-        // Copy all headers from original request
-        for (name, value) in copy_request_headers(req) {
-            // Skip Content-Type and Content-Length as .json() sets them
-            if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length" {
-                request_builder = request_builder.header(&name, &value);
+        // Copy all headers from original request if provided
+        if let Some(headers) = headers {
+            for (name, value) in headers {
+                // Skip Content-Type and Content-Length as .json() sets them
+                if name.to_string().to_lowercase() != "content-type"
+                    && name.to_string().to_lowercase() != "content-length"
+                {
+                    request_builder = request_builder.header(name, value);
+                }
             }
         }
 
@@ -585,7 +561,6 @@ impl Router {
             Ok(res) => res,
             Err(e) => {
                 error!(
-                    request_id = %request_id,
                     "Failed to send typed request worker_url={} route={} error={}",
                     worker_url, route, e
                 );
@@ -600,20 +575,24 @@ impl Router {
                     }
                 }
 
-                return HttpResponse::InternalServerError().body(format!("Request failed: {}", e));
+                return (
+                    StatusCode::INTERNAL_SERVER_ERROR,
+                    format!("Request failed: {}", e),
+                )
+                    .into_response();
             }
         };
 
-        let status = actix_web::http::StatusCode::from_u16(res.status().as_u16())
-            .unwrap_or(actix_web::http::StatusCode::INTERNAL_SERVER_ERROR);
+        let status = StatusCode::from_u16(res.status().as_u16())
+            .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
 
         if !is_stream {
             // For non-streaming requests, get response first
             let response = match res.bytes().await {
-                Ok(body) => HttpResponse::build(status).body(body.to_vec()),
+                Ok(body) => (status, body).into_response(),
                 Err(e) => {
                     let error_msg = format!("Failed to get response body: {}", e);
-                    HttpResponse::InternalServerError().body(error_msg)
+                    (StatusCode::INTERNAL_SERVER_ERROR, error_msg).into_response()
                 }
             };
 
@@ -638,42 +617,86 @@ impl Router {
             let workers = Arc::clone(&self.workers);
             let worker_url = worker_url.to_string();
 
-            HttpResponse::build(status)
-                .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
-                .streaming(
-                    res.bytes_stream()
-                        .map_err(|_| {
-                            actix_web::error::ErrorInternalServerError("Failed to read stream")
-                        })
-                        .inspect(move |bytes| {
-                            if let Ok(bytes) = bytes {
-                                if bytes
-                                    .as_ref()
-                                    .windows(12)
-                                    .any(|window| window == b"data: [DONE]")
-                                {
-                                    if let Ok(workers_guard) = workers.read() {
-                                        if let Some(worker) =
-                                            workers_guard.iter().find(|w| w.url() == &worker_url)
-                                        {
-                                            worker.decrement_load();
-                                            RouterMetrics::set_running_requests(
-                                                &worker_url,
-                                                worker.load(),
-                                            );
-                                        }
+            let stream = res.bytes_stream();
+            let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
+
+            // Spawn task to forward stream and detect completion
+            tokio::spawn(async move {
+                let mut stream = stream;
+                while let Some(chunk) = stream.next().await {
+                    match chunk {
+                        Ok(bytes) => {
+                            // Check for stream end marker
+                            if bytes
+                                .as_ref()
+                                .windows(12)
+                                .any(|window| window == b"data: [DONE]")
+                            {
+                                if let Ok(workers_guard) = workers.read() {
+                                    if let Some(worker) =
+                                        workers_guard.iter().find(|w| w.url() == &worker_url)
+                                    {
+                                        worker.decrement_load();
+                                        RouterMetrics::set_running_requests(
+                                            &worker_url,
+                                            worker.load(),
+                                        );
                                     }
                                 }
                             }
-                        }),
-                )
+                            if tx.send(Ok(bytes)).is_err() {
+                                break;
+                            }
+                        }
+                        Err(e) => {
+                            let _ = tx.send(Err(format!("Stream error: {}", e)));
+                            break;
+                        }
+                    }
+                }
+            });
+
+            let stream = UnboundedReceiverStream::new(rx);
+            let body = Body::from_stream(stream);
+
+            let mut response = Response::new(body);
+            *response.status_mut() = status;
+            response
+                .headers_mut()
+                .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
+            response
         } else {
             // For requests without load tracking, just stream
-            HttpResponse::build(status)
-                .insert_header((CONTENT_TYPE, HeaderValue::from_static("text/event-stream")))
-                .streaming(res.bytes_stream().map_err(|_| {
-                    actix_web::error::ErrorInternalServerError("Failed to read stream")
-                }))
+            let stream = res.bytes_stream();
+            let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
+
+            // Spawn task to forward stream
+            tokio::spawn(async move {
+                let mut stream = stream;
+                while let Some(chunk) = stream.next().await {
+                    match chunk {
+                        Ok(bytes) => {
+                            if tx.send(Ok(bytes)).is_err() {
+                                break;
+                            }
+                        }
+                        Err(e) => {
+                            let _ = tx.send(Err(format!("Stream error: {}", e)));
+                            break;
+                        }
+                    }
+                }
+            });
+
+            let stream = UnboundedReceiverStream::new(rx);
+            let body = Body::from_stream(stream);
+
+            let mut response = Response::new(body);
+            *response.status_mut() = status;
+            response
+                .headers_mut()
+                .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
+            response
         }
     }
 
@@ -775,7 +798,6 @@ impl Router {
         }
     }
 
-    /// Remove all the worker(s) that match the URL prefix
     pub fn remove_worker(&self, worker_url: &str) {
         if self.dp_aware {
             // remove dp-aware workers in a prefix-matching fashion
@@ -844,28 +866,6 @@ impl Router {
         }
     }
 
-    /// Remove a specific failed worker; for internal usage
-    fn remove_failed_worker(&self, worker_url: &str) {
-        let mut workers_guard = self.workers.write().unwrap();
-        if let Some(index) = workers_guard.iter().position(|w| w.url() == worker_url) {
-            workers_guard.remove(index);
-            info!("Removed failed worker: {}", worker_url);
-            RouterMetrics::set_active_workers(workers_guard.len());
-        } else {
-            warn!("Worker {} not found, skipping removal", worker_url);
-            return;
-        }
-
-        // If cache aware policy, remove the worker from the tree
-        if let Some(cache_aware) = self
-            .policy
-            .as_any()
-            .downcast_ref::<crate::policies::CacheAwarePolicy>()
-        {
-            cache_aware.remove_worker(worker_url);
-        }
-    }
-
     async fn get_worker_load(&self, client: &reqwest::Client, worker_url: &str) -> Option<isize> {
         let worker_url = if self.dp_aware {
             // Need to extract the URL from "http://host:port@dp_rank"
@@ -1004,7 +1004,6 @@ impl Router {
     }
 }
 
-use crate::routers::{RouterTrait, WorkerManagement};
 use async_trait::async_trait;
 use reqwest::Client;
 
@@ -1023,100 +1022,78 @@ impl WorkerManagement for Router {
     }
 }
 
-#[async_trait(?Send)]
+#[async_trait]
 impl RouterTrait for Router {
     fn as_any(&self) -> &dyn std::any::Any {
         self
     }
 
-    async fn health(&self, _client: &Client, _req: &HttpRequest) -> HttpResponse {
-        // Check local health state of all workers (consistent with PD router)
-        // Note: This uses cached health status from background health checks, not live checks
-        let mut all_healthy = true;
-        let mut unhealthy_servers = Vec::new();
-
-        for worker in self.workers.read().unwrap().iter() {
-            if !worker.is_healthy() {
-                all_healthy = false;
-                unhealthy_servers.push(worker.url().to_string());
-            }
-        }
+    async fn health(&self, _client: &Client, _req: Request<Body>) -> Response {
+        let workers = self.workers.read().unwrap();
+        let unhealthy_servers: Vec<_> = workers
+            .iter()
+            .filter(|w| !w.is_healthy())
+            .map(|w| w.url().to_string())
+            .collect();
 
-        if all_healthy {
-            HttpResponse::Ok().body("All servers healthy")
+        if unhealthy_servers.is_empty() {
+            (StatusCode::OK, "All servers healthy").into_response()
         } else {
-            HttpResponse::ServiceUnavailable()
-                .body(format!("Unhealthy servers: {:?}", unhealthy_servers))
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                format!("Unhealthy servers: {:?}", unhealthy_servers),
+            )
+                .into_response()
         }
     }
 
-    async fn health_generate(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
-        // Test model generation capability by sending to first available worker
-        // Note: This endpoint actually causes the model to generate a token, so we only test one worker
-        self.route_to_first(client, "/health_generate", req).await
+    async fn health_generate(&self, client: &Client, req: Request<Body>) -> Response {
+        self.proxy_get_request(client, req, "health_generate").await
     }
 
-    async fn get_server_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
-        self.route_to_first(client, "/get_server_info", req).await
+    async fn get_server_info(&self, client: &Client, req: Request<Body>) -> Response {
+        self.proxy_get_request(client, req, "get_server_info").await
     }
 
-    async fn get_models(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
-        self.route_to_first(client, "/v1/models", req).await
+    async fn get_models(&self, client: &Client, req: Request<Body>) -> Response {
+        self.proxy_get_request(client, req, "v1/models").await
     }
 
-    async fn get_model_info(&self, client: &Client, req: &HttpRequest) -> HttpResponse {
-        self.route_to_first(client, "/get_model_info", req).await
+    async fn get_model_info(&self, client: &Client, req: Request<Body>) -> Response {
+        self.proxy_get_request(client, req, "get_model_info").await
     }
 
     async fn route_generate(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse {
-        // Convert JSON to typed request
-        match serde_json::from_value::<crate::openai_api_types::GenerateRequest>(body) {
-            Ok(typed_req) => {
-                self.route_typed_request(client, req, &typed_req, "/generate")
-                    .await
-            }
-            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request: {}", e)),
-        }
+        headers: Option<&HeaderMap>,
+        body: &GenerateRequest,
+    ) -> Response {
+        self.route_typed_request(client, headers, body, "/generate")
+            .await
     }
 
     async fn route_chat(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse {
-        // Convert JSON to typed request
-        match serde_json::from_value::<crate::openai_api_types::ChatCompletionRequest>(body) {
-            Ok(typed_req) => {
-                self.route_typed_request(client, req, &typed_req, "/v1/chat/completions")
-                    .await
-            }
-            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request: {}", e)),
-        }
+        headers: Option<&HeaderMap>,
+        body: &ChatCompletionRequest,
+    ) -> Response {
+        self.route_typed_request(client, headers, body, "/v1/chat/completions")
+            .await
     }
 
     async fn route_completion(
         &self,
         client: &Client,
-        req: &HttpRequest,
-        body: serde_json::Value,
-    ) -> HttpResponse {
-        // Convert JSON to typed request
-        match serde_json::from_value::<crate::openai_api_types::CompletionRequest>(body) {
-            Ok(typed_req) => {
-                self.route_typed_request(client, req, &typed_req, "/v1/completions")
-                    .await
-            }
-            Err(e) => HttpResponse::BadRequest().body(format!("Invalid request: {}", e)),
-        }
+        headers: Option<&HeaderMap>,
+        body: &CompletionRequest,
+    ) -> Response {
+        self.route_typed_request(client, headers, body, "/v1/completions")
+            .await
     }
 
-    async fn flush_cache(&self, client: &Client) -> HttpResponse {
+    async fn flush_cache(&self, client: &Client) -> Response {
         // Get all worker URLs
         let worker_urls = self.get_worker_urls();
 
@@ -1129,7 +1106,11 @@ impl RouterTrait for Router {
                     Ok(tup) => tup,
                     Err(e) => {
                         error!("Failed to extract dp_rank: {}", e);
-                        return HttpResponse::InternalServerError().finish();
+                        return (
+                            StatusCode::INTERNAL_SERVER_ERROR,
+                            format!("Failed to extract dp_rank: {}", e),
+                        )
+                            .into_response();
                     }
                 };
                 worker_url_prefix
@@ -1151,13 +1132,17 @@ impl RouterTrait for Router {
         });
 
         if all_success {
-            HttpResponse::Ok().body("Cache flushed on all servers")
+            (StatusCode::OK, "Cache flushed on all servers").into_response()
         } else {
-            HttpResponse::InternalServerError().body("Cache flush failed on one or more servers")
+            (
+                StatusCode::INTERNAL_SERVER_ERROR,
+                "Cache flush failed on one or more servers",
+            )
+                .into_response()
         }
     }
 
-    async fn get_worker_loads(&self, client: &Client) -> HttpResponse {
+    async fn get_worker_loads(&self, client: &Client) -> Response {
         let urls = self.get_worker_urls();
         let mut loads = Vec::new();
 
@@ -1170,16 +1155,17 @@ impl RouterTrait for Router {
             }));
         }
 
-        HttpResponse::Ok().json(serde_json::json!({
+        Json(serde_json::json!({
             "workers": loads
         }))
+        .into_response()
     }
 
     fn router_type(&self) -> &'static str {
         "regular"
     }
 
-    fn readiness(&self) -> HttpResponse {
+    fn readiness(&self) -> Response {
         // Regular router is ready if it has at least one healthy worker
         let healthy_count = self
             .workers
@@ -1190,17 +1176,22 @@ impl RouterTrait for Router {
             .count();
 
         if healthy_count > 0 {
-            HttpResponse::Ok().json(serde_json::json!({
+            Json(serde_json::json!({
                 "status": "ready",
                 "healthy_workers": healthy_count,
                 "total_workers": self.workers.read().unwrap().len()
             }))
+            .into_response()
         } else {
-            HttpResponse::ServiceUnavailable().json(serde_json::json!({
-                "status": "not_ready",
-                "reason": "no healthy workers available",
-                "total_workers": self.workers.read().unwrap().len()
-            }))
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                Json(serde_json::json!({
+                    "status": "not_ready",
+                    "reason": "no healthy workers available",
+                    "total_workers": self.workers.read().unwrap().len()
+                })),
+            )
+                .into_response()
         }
     }
 }
diff --git a/sgl-router/src/server.rs b/sgl-router/src/server.rs
index acbc9d9e9e14..0463f1f2a6e7 100644
--- a/sgl-router/src/server.rs
+++ b/sgl-router/src/server.rs
@@ -1,285 +1,169 @@
 use crate::config::RouterConfig;
 use crate::logging::{self, LoggingConfig};
 use crate::metrics::{self, PrometheusConfig};
-use crate::middleware::{get_request_id, RequestIdMiddleware};
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::routers::{RouterFactory, RouterTrait};
 use crate::service_discovery::{start_service_discovery, ServiceDiscoveryConfig};
-use actix_web::{
-    error, get, post, web, App, Error, HttpRequest, HttpResponse, HttpServer, Responder,
+use axum::{
+    extract::{Query, Request, State},
+    http::StatusCode,
+    response::{IntoResponse, Response},
+    routing::{get, post},
+    Json, Router,
 };
-use futures_util::StreamExt;
 use reqwest::Client;
 use std::collections::HashMap;
 use std::sync::atomic::{AtomicBool, Ordering};
 use std::sync::Arc;
 use std::time::Duration;
+use tokio::net::TcpListener;
+use tokio::signal;
 use tokio::spawn;
 use tracing::{error, info, warn, Level};
 
-#[derive(Debug)]
+#[derive(Clone)]
 pub struct AppState {
-    router: Arc<dyn RouterTrait>,
-    client: Client,
+    pub router: Arc<dyn RouterTrait>,
+    pub client: Client,
+    pub _concurrency_limiter: Arc<tokio::sync::Semaphore>,
 }
 
 impl AppState {
-    pub fn new(router_config: RouterConfig, client: Client) -> Result<Self, String> {
-        // Use RouterFactory to create the appropriate router type
+    pub fn new(
+        router_config: RouterConfig,
+        client: Client,
+        max_concurrent_requests: usize,
+    ) -> Result<Self, String> {
         let router = RouterFactory::create_router(&router_config)?;
-
-        // Convert Box<dyn RouterTrait> to Arc<dyn RouterTrait>
         let router = Arc::from(router);
-
-        Ok(Self { router, client })
+        let concurrency_limiter = Arc::new(tokio::sync::Semaphore::new(max_concurrent_requests));
+        Ok(Self {
+            router,
+            client,
+            _concurrency_limiter: concurrency_limiter,
+        })
     }
 }
 
-async fn sink_handler(_req: HttpRequest, mut payload: web::Payload) -> Result<HttpResponse, Error> {
-    // Drain the payload
-    while let Some(chunk) = payload.next().await {
-        if let Err(err) = chunk {
-            println!("Error while draining payload: {:?}", err);
-            break;
-        }
-    }
-    Ok(HttpResponse::NotFound().finish())
-}
-
-// Custom error handler for JSON payload errors.
-fn json_error_handler(err: error::JsonPayloadError, req: &HttpRequest) -> Error {
-    let request_id = get_request_id(req);
-    match &err {
-        error::JsonPayloadError::OverflowKnownLength { length, limit } => {
-            error!(
-                request_id = %request_id,
-                "Payload too large length={} limit={}", length, limit
-            );
-            error::ErrorPayloadTooLarge(format!(
-                "Payload too large: {} bytes exceeds limit of {} bytes",
-                length, limit
-            ))
-        }
-        error::JsonPayloadError::Overflow { limit } => {
-            error!(
-                request_id = %request_id,
-                "Payload overflow limit={}", limit
-            );
-            error::ErrorPayloadTooLarge(format!("Payload exceeds limit of {} bytes", limit))
-        }
-        _ => {
-            error!(
-                request_id = %request_id,
-                "Invalid JSON payload error={}", err
-            );
-            error::ErrorBadRequest(format!("Invalid JSON payload: {}", err))
-        }
-    }
+// Fallback handler for unmatched routes
+async fn sink_handler() -> Response {
+    StatusCode::NOT_FOUND.into_response()
 }
 
-#[get("/liveness")]
-async fn liveness(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.liveness()
+// Health check endpoints
+async fn liveness(State(state): State<Arc<AppState>>) -> Response {
+    state.router.liveness()
 }
 
-#[get("/readiness")]
-async fn readiness(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.readiness()
+async fn readiness(State(state): State<Arc<AppState>>) -> Response {
+    state.router.readiness()
 }
 
-#[get("/health")]
-async fn health(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.health(&data.client, &req).await
+async fn health(State(state): State<Arc<AppState>>, req: Request) -> Response {
+    state.router.health(&state.client, req).await
 }
 
-#[get("/health_generate")]
-async fn health_generate(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.health_generate(&data.client, &req).await
+async fn health_generate(State(state): State<Arc<AppState>>, req: Request) -> Response {
+    state.router.health_generate(&state.client, req).await
 }
 
-#[get("/get_server_info")]
-async fn get_server_info(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.get_server_info(&data.client, &req).await
+async fn get_server_info(State(state): State<Arc<AppState>>, req: Request) -> Response {
+    state.router.get_server_info(&state.client, req).await
 }
 
-#[get("/v1/models")]
-async fn v1_models(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.get_models(&data.client, &req).await
+async fn v1_models(State(state): State<Arc<AppState>>, req: Request) -> Response {
+    state.router.get_models(&state.client, req).await
 }
 
-#[get("/get_model_info")]
-async fn get_model_info(req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.get_model_info(&data.client, &req).await
+async fn get_model_info(State(state): State<Arc<AppState>>, req: Request) -> Response {
+    state.router.get_model_info(&state.client, req).await
 }
 
-#[post("/generate")]
+// Generation endpoints
+// The RouterTrait now accepts optional headers and typed body directly
 async fn generate(
-    req: HttpRequest,
-    body: web::Json<GenerateRequest>,
-    state: web::Data<AppState>,
-) -> Result<HttpResponse, Error> {
-    let request_id = get_request_id(&req);
-    info!(
-        request_id = %request_id,
-        "Received generate request method=\"POST\" path=\"/generate\""
-    );
-
-    let json_body = serde_json::to_value(body.into_inner()).map_err(|e| {
-        error!(
-            request_id = %request_id,
-            "Failed to parse generate request body error={}", e
-        );
-        error::ErrorBadRequest(format!("Invalid JSON: {}", e))
-    })?;
-
-    Ok(state
+    State(state): State<Arc<AppState>>,
+    headers: http::HeaderMap,
+    Json(body): Json<GenerateRequest>,
+) -> Response {
+    state
         .router
-        .route_generate(&state.client, &req, json_body)
-        .await)
+        .route_generate(&state.client, Some(&headers), &body)
+        .await
 }
 
-#[post("/v1/chat/completions")]
 async fn v1_chat_completions(
-    req: HttpRequest,
-    body: web::Json<ChatCompletionRequest>,
-    state: web::Data<AppState>,
-) -> Result<HttpResponse, Error> {
-    let request_id = get_request_id(&req);
-    info!(
-        request_id = %request_id,
-        "Received chat completion request method=\"POST\" path=\"/v1/chat/completions\""
-    );
-
-    let json_body = serde_json::to_value(body.into_inner()).map_err(|e| {
-        error!(
-            request_id = %request_id,
-            "Failed to parse chat completion request body error={}", e
-        );
-        error::ErrorBadRequest(format!("Invalid JSON: {}", e))
-    })?;
-
-    Ok(state
+    State(state): State<Arc<AppState>>,
+    headers: http::HeaderMap,
+    Json(body): Json<ChatCompletionRequest>,
+) -> Response {
+    state
         .router
-        .route_chat(&state.client, &req, json_body)
-        .await)
+        .route_chat(&state.client, Some(&headers), &body)
+        .await
 }
 
-#[post("/v1/completions")]
 async fn v1_completions(
-    req: HttpRequest,
-    body: web::Json<CompletionRequest>,
-    state: web::Data<AppState>,
-) -> Result<HttpResponse, Error> {
-    let request_id = get_request_id(&req);
-    info!(
-        request_id = %request_id,
-        "Received completion request method=\"POST\" path=\"/v1/completions\""
-    );
-
-    let json_body = serde_json::to_value(body.into_inner()).map_err(|e| {
-        error!(
-            request_id = %request_id,
-            "Failed to parse completion request body error={}", e
-        );
-        error::ErrorBadRequest(format!("Invalid JSON: {}", e))
-    })?;
-
-    Ok(state
+    State(state): State<Arc<AppState>>,
+    headers: http::HeaderMap,
+    Json(body): Json<CompletionRequest>,
+) -> Response {
+    state
         .router
-        .route_completion(&state.client, &req, json_body)
-        .await)
+        .route_completion(&state.client, Some(&headers), &body)
+        .await
 }
 
-#[post("/add_worker")]
+// Worker management endpoints
 async fn add_worker(
-    req: HttpRequest,
-    query: web::Query<HashMap<String, String>>,
-    data: web::Data<AppState>,
-) -> impl Responder {
-    let request_id = get_request_id(&req);
-
-    let worker_url = match query.get("url") {
+    State(state): State<Arc<AppState>>,
+    Query(params): Query<HashMap<String, String>>,
+) -> Response {
+    let worker_url = match params.get("url") {
         Some(url) => url.to_string(),
         None => {
-            warn!(
-                request_id = %request_id,
-                "Add worker request missing URL parameter"
-            );
-            return HttpResponse::BadRequest()
-                .body("Worker URL required. Provide 'url' query parameter");
+            return (
+                StatusCode::BAD_REQUEST,
+                "Worker URL required. Provide 'url' query parameter",
+            )
+                .into_response();
         }
     };
 
-    info!(
-        request_id = %request_id,
-        worker_url = %worker_url,
-        "Adding worker"
-    );
-
-    match data.router.add_worker(&worker_url).await {
-        Ok(message) => {
-            info!(
-                request_id = %request_id,
-                worker_url = %worker_url,
-                "Successfully added worker"
-            );
-            HttpResponse::Ok().body(message)
-        }
-        Err(error) => {
-            error!(
-                request_id = %request_id,
-                worker_url = %worker_url,
-                error = %error,
-                "Failed to add worker"
-            );
-            HttpResponse::BadRequest().body(error)
-        }
+    match state.router.add_worker(&worker_url).await {
+        Ok(message) => (StatusCode::OK, message).into_response(),
+        Err(error) => (StatusCode::BAD_REQUEST, error).into_response(),
     }
 }
 
-#[get("/list_workers")]
-async fn list_workers(data: web::Data<AppState>) -> impl Responder {
-    let worker_list = data.router.get_worker_urls();
-    HttpResponse::Ok().json(serde_json::json!({ "urls": worker_list }))
+async fn list_workers(State(state): State<Arc<AppState>>) -> Response {
+    let worker_list = state.router.get_worker_urls();
+    Json(serde_json::json!({ "urls": worker_list })).into_response()
 }
 
-#[post("/remove_worker")]
 async fn remove_worker(
-    req: HttpRequest,
-    query: web::Query<HashMap<String, String>>,
-    data: web::Data<AppState>,
-) -> impl Responder {
-    let request_id = get_request_id(&req);
-
-    let worker_url = match query.get("url") {
+    State(state): State<Arc<AppState>>,
+    Query(params): Query<HashMap<String, String>>,
+) -> Response {
+    let worker_url = match params.get("url") {
         Some(url) => url.to_string(),
-        None => {
-            warn!(
-                request_id = %request_id,
-                "Remove worker request missing URL parameter"
-            );
-            return HttpResponse::BadRequest().finish();
-        }
+        None => return StatusCode::BAD_REQUEST.into_response(),
     };
 
-    info!(
-        request_id = %request_id,
-        worker_url = %worker_url,
-        "Removing worker"
-    );
-
-    data.router.remove_worker(&worker_url);
-    HttpResponse::Ok().body(format!("Successfully removed worker: {}", worker_url))
+    state.router.remove_worker(&worker_url);
+    (
+        StatusCode::OK,
+        format!("Successfully removed worker: {}", worker_url),
+    )
+        .into_response()
 }
 
-#[post("/flush_cache")]
-async fn flush_cache(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.flush_cache(&data.client).await
+async fn flush_cache(State(state): State<Arc<AppState>>, _req: Request) -> Response {
+    state.router.flush_cache(&state.client).await
 }
 
-#[get("/get_loads")]
-async fn get_loads(_req: HttpRequest, data: web::Data<AppState>) -> impl Responder {
-    data.router.get_worker_loads(&data.client).await
+async fn get_loads(State(state): State<Arc<AppState>>, _req: Request) -> Response {
+    state.router.get_worker_loads(&state.client).await
 }
 
 pub struct ServerConfig {
@@ -295,7 +179,58 @@ pub struct ServerConfig {
     pub request_id_headers: Option<Vec<String>>,
 }
 
-pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
+/// Build the Axum application with all routes and middleware
+pub fn build_app(
+    app_state: Arc<AppState>,
+    max_payload_size: usize,
+    request_id_headers: Vec<String>,
+    cors_allowed_origins: Vec<String>,
+) -> Router {
+    // Create routes
+    let protected_routes = Router::new()
+        .route("/generate", post(generate))
+        .route("/v1/chat/completions", post(v1_chat_completions))
+        .route("/v1/completions", post(v1_completions));
+
+    let public_routes = Router::new()
+        .route("/liveness", get(liveness))
+        .route("/readiness", get(readiness))
+        .route("/health", get(health))
+        .route("/health_generate", get(health_generate))
+        .route("/v1/models", get(v1_models))
+        .route("/get_model_info", get(get_model_info))
+        .route("/get_server_info", get(get_server_info));
+
+    let admin_routes = Router::new()
+        .route("/add_worker", post(add_worker))
+        .route("/remove_worker", post(remove_worker))
+        .route("/list_workers", get(list_workers))
+        .route("/flush_cache", post(flush_cache))
+        .route("/get_loads", get(get_loads));
+
+    // Build app with all routes and middleware
+    Router::new()
+        .merge(protected_routes)
+        .merge(public_routes)
+        .merge(admin_routes)
+        // Request body size limiting
+        .layer(tower_http::limit::RequestBodyLimitLayer::new(
+            max_payload_size,
+        ))
+        // Request ID layer - must be added AFTER logging layer in the code
+        // so it executes BEFORE logging layer at runtime (layers execute bottom-up)
+        .layer(crate::middleware::RequestIdLayer::new(request_id_headers))
+        // Custom logging layer that can now see request IDs from extensions
+        .layer(crate::middleware::create_logging_layer())
+        // CORS (should be outermost)
+        .layer(create_cors_layer(cors_allowed_origins))
+        // Fallback
+        .fallback(sink_handler)
+        // State - apply last to get Router<Arc<AppState>>
+        .with_state(app_state)
+}
+
+pub async fn startup(config: ServerConfig) -> Result<(), Box<dyn std::error::Error>> {
     // Only initialize logging if not already done (for Python bindings support)
     static LOGGING_INITIALIZED: AtomicBool = AtomicBool::new(false);
 
@@ -338,14 +273,20 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
 
     let client = Client::builder()
         .pool_idle_timeout(Some(Duration::from_secs(50)))
-        .timeout(Duration::from_secs(config.request_timeout_secs)) // Use configurable timeout
+        .pool_max_idle_per_host(100) // Increase from default of 1 to allow more concurrent connections
+        .timeout(Duration::from_secs(config.request_timeout_secs))
+        .connect_timeout(Duration::from_secs(10)) // Separate connection timeout
+        .tcp_nodelay(true)
+        .tcp_keepalive(Some(Duration::from_secs(30))) // Keep connections alive
         .build()
         .expect("Failed to create HTTP client");
 
-    let app_state_init = AppState::new(config.router_config.clone(), client.clone())
-        .map_err(|e| std::io::Error::new(std::io::ErrorKind::Other, e))?;
-    let router_arc = Arc::clone(&app_state_init.router);
-    let app_state = web::Data::new(app_state_init);
+    let app_state = Arc::new(AppState::new(
+        config.router_config.clone(),
+        client.clone(),
+        config.router_config.max_concurrent_requests,
+    )?);
+    let router_arc = Arc::clone(&app_state.router);
 
     // Start the service discovery if enabled
     if let Some(service_discovery_config) = config.service_discovery_config {
@@ -383,36 +324,83 @@ pub async fn startup(config: ServerConfig) -> std::io::Result<()> {
         ]
     });
 
-    HttpServer::new(move || {
-        let request_id_middleware = RequestIdMiddleware::new(request_id_headers.clone());
+    // Build the application
+    let app = build_app(
+        app_state,
+        config.max_payload_size,
+        request_id_headers,
+        config.router_config.cors_allowed_origins.clone(),
+    );
 
-        App::new()
-            .wrap(request_id_middleware)
-            .app_data(app_state.clone())
-            .app_data(
-                web::JsonConfig::default()
-                    .limit(config.max_payload_size)
-                    .error_handler(json_error_handler),
-            )
-            .app_data(web::PayloadConfig::default().limit(config.max_payload_size))
-            .service(generate)
-            .service(v1_chat_completions)
-            .service(v1_completions)
-            .service(v1_models)
-            .service(get_model_info)
-            .service(liveness)
-            .service(readiness)
-            .service(health)
-            .service(health_generate)
-            .service(get_server_info)
-            .service(add_worker)
-            .service(remove_worker)
-            .service(list_workers)
-            .service(flush_cache)
-            .service(get_loads)
-            .default_service(web::route().to(sink_handler))
-    })
-    .bind_auto_h2c((config.host, config.port))?
-    .run()
-    .await
+    // Create TCP listener - use the configured host
+    let addr = format!("{}:{}", config.host, config.port);
+    let listener = TcpListener::bind(&addr).await?;
+
+    // Start server with graceful shutdown
+    info!("Starting server on {}", addr);
+
+    // Serve the application with graceful shutdown
+    axum::serve(listener, app)
+        .with_graceful_shutdown(shutdown_signal())
+        .await
+        .map_err(|e| Box::new(e) as Box<dyn std::error::Error>)?;
+
+    Ok(())
+}
+
+// Graceful shutdown handler
+async fn shutdown_signal() {
+    let ctrl_c = async {
+        signal::ctrl_c()
+            .await
+            .expect("failed to install Ctrl+C handler");
+    };
+
+    #[cfg(unix)]
+    let terminate = async {
+        signal::unix::signal(signal::unix::SignalKind::terminate())
+            .expect("failed to install signal handler")
+            .recv()
+            .await;
+    };
+
+    #[cfg(not(unix))]
+    let terminate = std::future::pending::<()>();
+
+    tokio::select! {
+        _ = ctrl_c => {
+            info!("Received Ctrl+C, starting graceful shutdown");
+        },
+        _ = terminate => {
+            info!("Received terminate signal, starting graceful shutdown");
+        },
+    }
+}
+
+// CORS Layer Creation
+fn create_cors_layer(allowed_origins: Vec<String>) -> tower_http::cors::CorsLayer {
+    use tower_http::cors::Any;
+
+    let cors = if allowed_origins.is_empty() {
+        // Allow all origins if none specified
+        tower_http::cors::CorsLayer::new()
+            .allow_origin(Any)
+            .allow_methods(Any)
+            .allow_headers(Any)
+            .expose_headers(Any)
+    } else {
+        // Restrict to specific origins
+        let origins: Vec<http::HeaderValue> = allowed_origins
+            .into_iter()
+            .filter_map(|origin| origin.parse().ok())
+            .collect();
+
+        tower_http::cors::CorsLayer::new()
+            .allow_origin(origins)
+            .allow_methods([http::Method::GET, http::Method::POST, http::Method::OPTIONS])
+            .allow_headers([http::header::CONTENT_TYPE, http::header::AUTHORIZATION])
+            .expose_headers([http::header::HeaderName::from_static("x-request-id")])
+    };
+
+    cors.max_age(Duration::from_secs(3600))
 }
diff --git a/sgl-router/tests/api_endpoints_test.rs b/sgl-router/tests/api_endpoints_test.rs
index c38843b7760c..2626174ce8dd 100644
--- a/sgl-router/tests/api_endpoints_test.rs
+++ b/sgl-router/tests/api_endpoints_test.rs
@@ -1,20 +1,24 @@
 mod common;
 
-use actix_web::{http::StatusCode, rt::System, test as actix_test, web, App};
+use axum::{
+    body::Body,
+    extract::Request,
+    http::{header::CONTENT_TYPE, StatusCode},
+};
 use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
 use reqwest::Client;
 use serde_json::json;
 use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
-use sglang_router_rs::server::{
-    add_worker, flush_cache, generate, get_loads, get_model_info, get_server_info, health,
-    health_generate, list_workers, liveness, readiness, remove_worker, v1_chat_completions,
-    v1_completions, v1_models, AppState,
-};
+use sglang_router_rs::routers::{RouterFactory, RouterTrait};
+use std::sync::Arc;
+use tower::ServiceExt;
 
 /// Test context that manages mock workers
 struct TestContext {
     workers: Vec<MockWorker>,
-    app_state: web::Data<AppState>,
+    router: Arc<dyn RouterTrait>,
+    client: Client,
+    config: RouterConfig,
 }
 
 impl TestContext {
@@ -31,19 +35,24 @@ impl TestContext {
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 1,
             worker_startup_check_interval_secs: 1,
+            discovery: None,
             dp_aware: false,
             api_key: None,
-            discovery: None,
             metrics: None,
             log_dir: None,
             log_level: None,
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
         Self::new_with_config(config, worker_configs).await
     }
 
-    async fn new_with_config(config: RouterConfig, worker_configs: Vec<MockWorkerConfig>) -> Self {
+    async fn new_with_config(
+        mut config: RouterConfig,
+        worker_configs: Vec<MockWorkerConfig>,
+    ) -> Self {
         let mut workers = Vec::new();
         let mut worker_urls = Vec::new();
 
@@ -59,62 +68,51 @@ impl TestContext {
             tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
         }
 
+        // Update config with worker URLs if not already set
+        if let RoutingMode::Regular {
+            worker_urls: ref mut urls,
+        } = config.mode
+        {
+            if urls.is_empty() {
+                *urls = worker_urls.clone();
+            }
+        }
+
         let client = Client::builder()
             .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
             .build()
             .unwrap();
 
-        let app_state = AppState::new(config, client).unwrap();
-        let app_state = web::Data::new(app_state);
-
-        // Add workers if any
-        if !worker_urls.is_empty() {
-            let app = actix_test::init_service(
-                App::new().app_data(app_state.clone()).service(add_worker),
-            )
-            .await;
-
-            for url in &worker_urls {
-                let req = actix_test::TestRequest::post()
-                    .uri(&format!("/add_worker?url={}", url))
-                    .to_request();
-                let resp = actix_test::call_service(&app, req).await;
-                assert!(resp.status().is_success());
-            }
+        // Clone config for the closure
+        let config_clone = config.clone();
+
+        // Create router using sync factory in a blocking context
+        let router =
+            tokio::task::spawn_blocking(move || RouterFactory::create_router(&config_clone))
+                .await
+                .unwrap()
+                .unwrap();
+        let router = Arc::from(router);
 
+        // Wait for router to discover workers
+        if !workers.is_empty() {
             tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
         }
 
-        Self { workers, app_state }
+        Self {
+            workers,
+            router,
+            client,
+            config,
+        }
     }
 
-    async fn create_app(
-        &self,
-    ) -> impl actix_web::dev::Service<
-        actix_http::Request,
-        Response = actix_web::dev::ServiceResponse,
-        Error = actix_web::Error,
-    > {
-        actix_test::init_service(
-            App::new()
-                .app_data(self.app_state.clone())
-                .service(liveness)
-                .service(readiness)
-                .service(health)
-                .service(health_generate)
-                .service(get_server_info)
-                .service(get_model_info)
-                .service(v1_models)
-                .service(generate)
-                .service(v1_chat_completions)
-                .service(v1_completions)
-                .service(add_worker)
-                .service(list_workers)
-                .service(remove_worker)
-                .service(flush_cache)
-                .service(get_loads),
+    async fn create_app(&self) -> axum::Router {
+        common::test_app::create_test_app(
+            Arc::clone(&self.router),
+            self.client.clone(),
+            &self.config,
         )
-        .await
     }
 
     async fn shutdown(mut self) {
@@ -128,129 +126,137 @@ impl TestContext {
 mod health_tests {
     use super::*;
 
-    #[test]
-    fn test_liveness_endpoint() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![]).await;
-            let app = ctx.create_app().await;
+    #[tokio::test]
+    async fn test_liveness_endpoint() {
+        let ctx = TestContext::new(vec![]).await;
+        let app = ctx.create_app().await;
 
-            let req = actix_test::TestRequest::get().uri("/liveness").to_request();
+        let req = Request::builder()
+            .method("GET")
+            .uri("/liveness")
+            .body(Body::empty())
+            .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_readiness_with_healthy_workers() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18001,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let req = actix_test::TestRequest::get()
-                .uri("/readiness")
-                .to_request();
+    #[tokio::test]
+    async fn test_readiness_with_healthy_workers() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18001,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("GET")
+            .uri("/readiness")
+            .body(Body::empty())
+            .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_readiness_with_unhealthy_workers() {
-        System::new().block_on(async {
-            // Create an empty context (no workers)
-            let ctx = TestContext::new(vec![]).await;
-
-            let app = ctx.create_app().await;
-
-            let req = actix_test::TestRequest::get()
-                .uri("/readiness")
-                .to_request();
+    #[tokio::test]
+    async fn test_readiness_with_unhealthy_workers() {
+        let ctx = TestContext::new(vec![]).await;
 
-            let resp = actix_test::call_service(&app, req).await;
-            // With no workers, readiness should return SERVICE_UNAVAILABLE
-            assert_eq!(resp.status(), StatusCode::SERVICE_UNAVAILABLE);
-
-            ctx.shutdown().await;
-        });
-    }
+        let app = ctx.create_app().await;
 
-    #[test]
-    fn test_health_endpoint_details() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![
-                MockWorkerConfig {
-                    port: 18003,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-                MockWorkerConfig {
-                    port: 18004,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-            ])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let req = actix_test::TestRequest::get().uri("/health").to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        let req = Request::builder()
+            .method("GET")
+            .uri("/readiness")
+            .body(Body::empty())
+            .unwrap();
 
-            // The health endpoint returns plain text, not JSON
-            let body = actix_test::read_body(resp).await;
-            let body_str = String::from_utf8_lossy(&body);
-            assert!(body_str.contains("All servers healthy"));
+        let resp = app.oneshot(req).await.unwrap();
+        // With no workers, readiness should return SERVICE_UNAVAILABLE
+        assert_eq!(resp.status(), StatusCode::SERVICE_UNAVAILABLE);
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_health_generate_endpoint() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18005,
+    #[tokio::test]
+    async fn test_health_endpoint_details() {
+        let ctx = TestContext::new(vec![
+            MockWorkerConfig {
+                port: 18003,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            },
+            MockWorkerConfig {
+                port: 18004,
                 worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            }])
-            .await;
+            },
+        ])
+        .await;
 
-            let app = ctx.create_app().await;
+        let app = ctx.create_app().await;
 
-            let req = actix_test::TestRequest::get()
-                .uri("/health_generate")
-                .to_request();
+        let req = Request::builder()
+            .method("GET")
+            .uri("/health")
+            .body(Body::empty())
+            .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.is_object());
+        // The health endpoint returns plain text, not JSON
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_str = String::from_utf8_lossy(&body);
+        assert!(body_str.contains("All servers healthy"));
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
+    }
+
+    #[tokio::test]
+    async fn test_health_generate_endpoint() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18005,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("GET")
+            .uri("/health_generate")
+            .body(Body::empty())
+            .unwrap();
+
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
+
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        assert!(body_json.is_object());
+
+        ctx.shutdown().await;
     }
 }
 
@@ -258,602 +264,720 @@ mod health_tests {
 mod generation_tests {
     use super::*;
 
-    #[test]
-    fn test_generate_success() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18101,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "text": "Hello, world!",
-                "stream": false
-            });
+    #[tokio::test]
+    async fn test_generate_success() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18101,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let payload = json!({
+            "text": "Hello, world!",
+            "stream": false
+        });
 
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.get("text").is_some());
-            assert!(body.get("meta_info").is_some());
-            let meta_info = &body["meta_info"];
-            assert!(meta_info.get("finish_reason").is_some());
-            assert_eq!(meta_info["finish_reason"]["type"], "stop");
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        assert!(body_json.get("text").is_some());
+        assert!(body_json.get("meta_info").is_some());
+        let meta_info = &body_json["meta_info"];
+        assert!(meta_info.get("finish_reason").is_some());
+        assert_eq!(meta_info["finish_reason"]["type"], "stop");
+
+        ctx.shutdown().await;
+    }
 
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_generate_streaming() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18102,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let payload = json!({
+            "text": "Stream test",
+            "stream": true
         });
-    }
 
-    #[test]
-    fn test_generate_streaming() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18102,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
 
-            let app = ctx.create_app().await;
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let payload = json!({
-                "text": "Stream test",
-                "stream": true
-            });
+        // For streaming responses, the router might use chunked encoding or other streaming mechanisms
+        // The exact content-type can vary based on the router implementation
+        // Just verify we got a successful response
+        // Note: In a real implementation, we'd check for text/event-stream or appropriate streaming headers
 
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
+        ctx.shutdown().await;
+    }
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+    #[tokio::test]
+    async fn test_generate_with_worker_failure() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18103,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 1.0, // Always fail
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let payload = json!({
+            "text": "This should fail",
+            "stream": false
+        });
 
-            // Check that it's a streaming response
-            let content_type = resp.headers().get("content-type");
-            assert!(content_type.is_some());
-            assert_eq!(content_type.unwrap(), "text/event-stream");
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
 
-            ctx.shutdown().await;
-        });
-    }
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::INTERNAL_SERVER_ERROR);
 
-    #[test]
-    fn test_generate_with_worker_failure() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18103,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 1.0, // Always fail
-            }])
-            .await;
+        ctx.shutdown().await;
+    }
 
-            let app = ctx.create_app().await;
+    #[tokio::test]
+    async fn test_v1_chat_completions_success() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18104,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let payload = json!({
+            "model": "test-model",
+            "messages": [
+                {"role": "user", "content": "Hello!"}
+            ],
+            "stream": false
+        });
 
-            let payload = json!({
-                "text": "This should fail",
-                "stream": false
-            });
+        let req = Request::builder()
+            .method("POST")
+            .uri("/v1/chat/completions")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
 
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::INTERNAL_SERVER_ERROR);
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        assert!(body_json.get("choices").is_some());
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
+}
 
-    #[test]
-    fn test_v1_chat_completions_success() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18104,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+#[cfg(test)]
+mod model_info_tests {
+    use super::*;
 
-            let app = ctx.create_app().await;
+    #[tokio::test]
+    async fn test_get_server_info() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18201,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("GET")
+            .uri("/get_server_info")
+            .body(Body::empty())
+            .unwrap();
 
-            let payload = json!({
-                "model": "test-model",
-                "messages": [
-                    {"role": "user", "content": "Hello!"}
-                ],
-                "stream": false
-            });
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/chat/completions")
-                .set_json(&payload)
-                .to_request();
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        assert!(body_json.is_object());
+        // Check for actual sglang server fields
+        assert!(body_json.get("version").is_some());
+        assert!(body_json.get("model_path").is_some());
+        assert!(body_json.get("tokenizer_path").is_some());
+        assert!(body_json.get("port").is_some());
+        assert!(body_json.get("max_num_batched_tokens").is_some());
+        assert!(body_json.get("schedule_policy").is_some());
+
+        ctx.shutdown().await;
+    }
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+    #[tokio::test]
+    async fn test_get_model_info() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18202,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("GET")
+            .uri("/get_model_info")
+            .body(Body::empty())
+            .unwrap();
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.get("choices").is_some());
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            ctx.shutdown().await;
-        });
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        assert!(body_json.is_object());
+        // Check for actual sglang model info fields
+        assert_eq!(
+            body_json.get("model_path").and_then(|v| v.as_str()),
+            Some("mock-model-path")
+        );
+        assert_eq!(
+            body_json.get("tokenizer_path").and_then(|v| v.as_str()),
+            Some("mock-tokenizer-path")
+        );
+        assert_eq!(
+            body_json.get("is_generation").and_then(|v| v.as_bool()),
+            Some(true)
+        );
+        assert!(body_json.get("preferred_sampling_params").is_some());
+
+        ctx.shutdown().await;
     }
-}
 
-#[cfg(test)]
-mod model_info_tests {
-    use super::*;
-
-    #[test]
-    fn test_get_server_info() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18201,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+    #[tokio::test]
+    async fn test_v1_models() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18203,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("GET")
+            .uri("/v1/models")
+            .body(Body::empty())
+            .unwrap();
 
-            let app = ctx.create_app().await;
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let req = actix_test::TestRequest::get()
-                .uri("/get_server_info")
-                .to_request();
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        assert!(body_json.get("object").is_some());
+        assert_eq!(
+            body_json.get("object").and_then(|v| v.as_str()),
+            Some("list")
+        );
+
+        let data = body_json.get("data").and_then(|v| v.as_array());
+        assert!(data.is_some());
+
+        let models = data.unwrap();
+        assert!(!models.is_empty());
+
+        let first_model = &models[0];
+        assert_eq!(
+            first_model.get("id").and_then(|v| v.as_str()),
+            Some("mock-model")
+        );
+        assert_eq!(
+            first_model.get("object").and_then(|v| v.as_str()),
+            Some("model")
+        );
+        assert!(first_model.get("created").is_some());
+        assert_eq!(
+            first_model.get("owned_by").and_then(|v| v.as_str()),
+            Some("organization-owner")
+        );
+
+        ctx.shutdown().await;
+    }
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+    #[tokio::test]
+    async fn test_model_info_with_no_workers() {
+        let ctx = TestContext::new(vec![]).await;
+        let app = ctx.create_app().await;
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.is_object());
-            // Check for actual sglang server fields
-            assert!(body.get("version").is_some());
-            assert!(body.get("model_path").is_some());
-            assert!(body.get("tokenizer_path").is_some());
-            assert!(body.get("port").is_some());
-            assert!(body.get("max_num_batched_tokens").is_some());
-            assert!(body.get("schedule_policy").is_some());
-
-            ctx.shutdown().await;
-        });
+        // Test server info with no workers
+        let req = Request::builder()
+            .method("GET")
+            .uri("/get_server_info")
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.clone().oneshot(req).await.unwrap();
+        // Router may return various error codes when no workers
+        assert!(
+            resp.status() == StatusCode::OK
+                || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+                || resp.status() == StatusCode::NOT_FOUND
+                || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
+            "Unexpected status code: {:?}",
+            resp.status()
+        );
+
+        // Test model info with no workers
+        let req = Request::builder()
+            .method("GET")
+            .uri("/get_model_info")
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.clone().oneshot(req).await.unwrap();
+        // Router may return various error codes when no workers
+        assert!(
+            resp.status() == StatusCode::OK
+                || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+                || resp.status() == StatusCode::NOT_FOUND
+                || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
+            "Unexpected status code: {:?}",
+            resp.status()
+        );
+
+        // Test v1/models with no workers
+        let req = Request::builder()
+            .method("GET")
+            .uri("/v1/models")
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.oneshot(req).await.unwrap();
+        // Router may return various error codes when no workers
+        assert!(
+            resp.status() == StatusCode::OK
+                || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+                || resp.status() == StatusCode::NOT_FOUND
+                || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
+            "Unexpected status code: {:?}",
+            resp.status()
+        );
+
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_get_model_info() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18202,
+    #[tokio::test]
+    async fn test_model_info_with_multiple_workers() {
+        let ctx = TestContext::new(vec![
+            MockWorkerConfig {
+                port: 18204,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            },
+            MockWorkerConfig {
+                port: 18205,
                 worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            }])
-            .await;
+            },
+        ])
+        .await;
 
-            let app = ctx.create_app().await;
+        let app = ctx.create_app().await;
 
-            let req = actix_test::TestRequest::get()
+        // Test that model info is consistent across workers
+        for _ in 0..5 {
+            let req = Request::builder()
+                .method("GET")
                 .uri("/get_model_info")
-                .to_request();
+                .body(Body::empty())
+                .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
+            let resp = app.clone().oneshot(req).await.unwrap();
             assert_eq!(resp.status(), StatusCode::OK);
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.is_object());
-            // Check for actual sglang model info fields
+            let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+                .await
+                .unwrap();
+            let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
             assert_eq!(
-                body.get("model_path").and_then(|v| v.as_str()),
+                body_json.get("model_path").and_then(|v| v.as_str()),
                 Some("mock-model-path")
             );
-            assert_eq!(
-                body.get("tokenizer_path").and_then(|v| v.as_str()),
-                Some("mock-tokenizer-path")
-            );
-            assert_eq!(
-                body.get("is_generation").and_then(|v| v.as_bool()),
-                Some(true)
-            );
-            assert!(body.get("preferred_sampling_params").is_some());
+        }
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_v1_models() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18203,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let req = actix_test::TestRequest::get()
-                .uri("/v1/models")
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.get("object").is_some());
-            assert_eq!(body.get("object").and_then(|v| v.as_str()), Some("list"));
+    #[tokio::test]
+    async fn test_model_info_with_unhealthy_worker() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18206,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 1.0, // Always fail
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("GET")
+            .uri("/get_model_info")
+            .body(Body::empty())
+            .unwrap();
 
-            let data = body.get("data").and_then(|v| v.as_array());
-            assert!(data.is_some());
+        let resp = app.oneshot(req).await.unwrap();
+        // Worker with fail_rate: 1.0 should always return an error status
+        assert!(
+            resp.status() == StatusCode::INTERNAL_SERVER_ERROR
+                || resp.status() == StatusCode::SERVICE_UNAVAILABLE,
+            "Expected error status for always-failing worker, got: {:?}",
+            resp.status()
+        );
 
-            let models = data.unwrap();
-            assert!(!models.is_empty());
+        ctx.shutdown().await;
+    }
+}
 
-            let first_model = &models[0];
-            assert_eq!(
-                first_model.get("id").and_then(|v| v.as_str()),
-                Some("mock-model-v1")
-            );
-            assert_eq!(
-                first_model.get("object").and_then(|v| v.as_str()),
-                Some("model")
-            );
-            assert!(first_model.get("created").is_some());
-            assert_eq!(
-                first_model.get("owned_by").and_then(|v| v.as_str()),
-                Some("sglang")
-            );
+#[cfg(test)]
+mod worker_management_tests {
+    use super::*;
 
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_add_new_worker() {
+        let ctx = TestContext::new(vec![]).await;
+        let app = ctx.create_app().await;
+
+        // Start a mock worker
+        let mut worker = MockWorker::new(MockWorkerConfig {
+            port: 18301,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
         });
-    }
+        let url = worker.start().await.unwrap();
 
-    #[test]
-    fn test_model_info_with_no_workers() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![]).await;
-            let app = ctx.create_app().await;
-
-            // Test server info with no workers
-            let req = actix_test::TestRequest::get()
-                .uri("/get_server_info")
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            // Router may return various error codes when no workers
-            assert!(
-                resp.status() == StatusCode::OK
-                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
-                    || resp.status() == StatusCode::NOT_FOUND
-                    || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
-                "Unexpected status code: {:?}",
-                resp.status()
-            );
+        // Add the worker
+        let req = Request::builder()
+            .method("POST")
+            .uri(&format!("/add_worker?url={}", url))
+            .body(Body::empty())
+            .unwrap();
 
-            // Test model info with no workers
-            let req = actix_test::TestRequest::get()
-                .uri("/get_model_info")
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            // Router may return various error codes when no workers
-            assert!(
-                resp.status() == StatusCode::OK
-                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
-                    || resp.status() == StatusCode::NOT_FOUND
-                    || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
-                "Unexpected status code: {:?}",
-                resp.status()
-            );
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            // Test v1/models with no workers
-            let req = actix_test::TestRequest::get()
-                .uri("/v1/models")
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            // Router may return various error codes when no workers
-            assert!(
-                resp.status() == StatusCode::OK
-                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
-                    || resp.status() == StatusCode::NOT_FOUND
-                    || resp.status() == StatusCode::INTERNAL_SERVER_ERROR,
-                "Unexpected status code: {:?}",
-                resp.status()
-            );
+        // List workers to verify
+        let req = Request::builder()
+            .method("GET")
+            .uri("/list_workers")
+            .body(Body::empty())
+            .unwrap();
 
-            ctx.shutdown().await;
-        });
-    }
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-    #[test]
-    fn test_model_info_with_multiple_workers() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![
-                MockWorkerConfig {
-                    port: 18204,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-                MockWorkerConfig {
-                    port: 18205,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-            ])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Test that model info is consistent across workers
-            for _ in 0..5 {
-                let req = actix_test::TestRequest::get()
-                    .uri("/get_model_info")
-                    .to_request();
-
-                let resp = actix_test::call_service(&app, req).await;
-                assert_eq!(resp.status(), StatusCode::OK);
-
-                let body: serde_json::Value = actix_test::read_body_json(resp).await;
-                assert_eq!(
-                    body.get("model_path").and_then(|v| v.as_str()),
-                    Some("mock-model-path")
-                );
-            }
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        let workers = body_json["urls"].as_array().unwrap();
+        assert!(workers.iter().any(|w| w.as_str().unwrap() == url));
 
-            ctx.shutdown().await;
-        });
+        worker.stop().await;
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_model_info_with_unhealthy_worker() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18206,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 1.0, // Always fail
-            }])
-            .await;
+    #[tokio::test]
+    async fn test_remove_existing_worker() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18302,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        // Get the worker URL
+        let req = Request::builder()
+            .method("GET")
+            .uri("/list_workers")
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.clone().oneshot(req).await.unwrap();
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        let workers = body_json["urls"].as_array().unwrap();
+        let worker_url = workers[0].as_str().unwrap();
+
+        // Remove the worker
+        let req = Request::builder()
+            .method("POST")
+            .uri(&format!("/remove_worker?url={}", worker_url))
+            .body(Body::empty())
+            .unwrap();
 
-            let app = ctx.create_app().await;
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let req = actix_test::TestRequest::get()
-                .uri("/get_model_info")
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            // Worker with fail_rate: 1.0 should always return an error status
-            assert!(
-                resp.status() == StatusCode::INTERNAL_SERVER_ERROR
-                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE,
-                "Expected error status for always-failing worker, got: {:?}",
-                resp.status()
-            );
+        // Verify it's removed
+        let req = Request::builder()
+            .method("GET")
+            .uri("/list_workers")
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.oneshot(req).await.unwrap();
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
+        let workers = body_json["urls"].as_array().unwrap();
+        assert!(workers.is_empty());
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
-}
 
-#[cfg(test)]
-mod worker_management_tests {
-    use super::*;
-
-    #[test]
-    fn test_add_new_worker() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![]).await;
-            let app = ctx.create_app().await;
+    #[tokio::test]
+    async fn test_add_worker_invalid_url() {
+        let ctx = TestContext::new(vec![]).await;
+        let app = ctx.create_app().await;
 
-            // Start a mock worker
-            let mut worker = MockWorker::new(MockWorkerConfig {
-                port: 18301,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            });
-            let url = worker.start().await.unwrap();
+        // Invalid URL format
+        let req = Request::builder()
+            .method("POST")
+            .uri("/add_worker?url=not-a-valid-url")
+            .body(Body::empty())
+            .unwrap();
 
-            // Add the worker
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/add_worker?url={}", url))
-                .to_request();
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        // Missing URL parameter
+        let req = Request::builder()
+            .method("POST")
+            .uri("/add_worker")
+            .body(Body::empty())
+            .unwrap();
 
-            // List workers to verify
-            let req = actix_test::TestRequest::get()
-                .uri("/list_workers")
-                .to_request();
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        // Empty URL
+        let req = Request::builder()
+            .method("POST")
+            .uri("/add_worker?url=")
+            .body(Body::empty())
+            .unwrap();
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            let workers = body["urls"].as_array().unwrap();
-            assert!(workers.iter().any(|w| w.as_str().unwrap() == url));
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
 
-            worker.stop().await;
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_remove_existing_worker() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18302,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Get the worker URL
-            let req = actix_test::TestRequest::get()
-                .uri("/list_workers")
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            let workers = body["urls"].as_array().unwrap();
-            let worker_url = workers[0].as_str().unwrap();
-
-            // Remove the worker
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/remove_worker?url={}", worker_url))
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+    #[tokio::test]
+    async fn test_add_duplicate_worker() {
+        // Start a mock worker
+        let mut worker = MockWorker::new(MockWorkerConfig {
+            port: 18303,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        });
+        let url = worker.start().await.unwrap();
 
-            // Verify it's removed
-            let req = actix_test::TestRequest::get()
-                .uri("/list_workers")
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            let workers = body["urls"].as_array().unwrap();
-            assert!(workers.is_empty());
+        let ctx = TestContext::new(vec![]).await;
+        let app = ctx.create_app().await;
 
-            ctx.shutdown().await;
-        });
-    }
+        // Add worker first time
+        let req = Request::builder()
+            .method("POST")
+            .uri(&format!("/add_worker?url={}", url))
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-    #[test]
-    fn test_add_worker_invalid_url() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![]).await;
-            let app = ctx.create_app().await;
+        tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
 
-            // Invalid URL format
-            let req = actix_test::TestRequest::post()
-                .uri("/add_worker?url=not-a-valid-url")
-                .to_request();
+        // Try to add same worker again
+        let req = Request::builder()
+            .method("POST")
+            .uri(&format!("/add_worker?url={}", url))
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.oneshot(req).await.unwrap();
+        // Should return error for duplicate
+        assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+        worker.stop().await;
+        ctx.shutdown().await;
+    }
 
-            // Missing URL parameter
-            let req = actix_test::TestRequest::post()
-                .uri("/add_worker")
-                .to_request();
+    #[tokio::test]
+    async fn test_add_unhealthy_worker() {
+        // Start unhealthy worker
+        let mut worker = MockWorker::new(MockWorkerConfig {
+            port: 18304,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Unhealthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        });
+        let url = worker.start().await.unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+        let ctx = TestContext::new(vec![]).await;
+        let app = ctx.create_app().await;
 
-            // Empty URL
-            let req = actix_test::TestRequest::post()
-                .uri("/add_worker?url=")
-                .to_request();
+        // Try to add unhealthy worker
+        let req = Request::builder()
+            .method("POST")
+            .uri(&format!("/add_worker?url={}", url))
+            .body(Body::empty())
+            .unwrap();
+        let resp = app.oneshot(req).await.unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+        // Router should reject unhealthy workers
+        assert!(
+            resp.status() == StatusCode::BAD_REQUEST
+                || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+        );
 
-            ctx.shutdown().await;
-        });
+        worker.stop().await;
+        ctx.shutdown().await;
     }
+}
+
+#[cfg(test)]
+mod router_policy_tests {
+    use super::*;
 
-    #[test]
-    fn test_add_duplicate_worker() {
-        System::new().block_on(async {
-            // Start a mock worker
-            let mut worker = MockWorker::new(MockWorkerConfig {
-                port: 18303,
+    #[tokio::test]
+    async fn test_random_policy() {
+        let ctx = TestContext::new(vec![
+            MockWorkerConfig {
+                port: 18801,
                 worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            });
-            let url = worker.start().await.unwrap();
-
-            let ctx = TestContext::new(vec![]).await;
-            let app = ctx.create_app().await;
-
-            // Add worker first time
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/add_worker?url={}", url))
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
-
-            // Try to add same worker again
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/add_worker?url={}", url))
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            // Should return error for duplicate
-            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
-
-            worker.stop().await;
-            ctx.shutdown().await;
-        });
-    }
-
-    #[test]
-    fn test_add_unhealthy_worker() {
-        System::new().block_on(async {
-            // Start unhealthy worker
-            let mut worker = MockWorker::new(MockWorkerConfig {
-                port: 18304,
+            },
+            MockWorkerConfig {
+                port: 18802,
                 worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Unhealthy,
+                health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
+            },
+        ])
+        .await;
+
+        // Send multiple requests and verify they succeed
+        let app = ctx.create_app().await;
+
+        for i in 0..10 {
+            let payload = json!({
+                "text": format!("Request {}", i),
+                "stream": false
             });
-            let url = worker.start().await.unwrap();
 
-            let ctx = TestContext::new(vec![]).await;
-            let app = ctx.create_app().await;
+            let req = Request::builder()
+                .method("POST")
+                .uri("/generate")
+                .header(CONTENT_TYPE, "application/json")
+                .body(Body::from(serde_json::to_string(&payload).unwrap()))
+                .unwrap();
 
-            // Try to add unhealthy worker
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/add_worker?url={}", url))
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
+            let resp = app.clone().oneshot(req).await.unwrap();
+            assert_eq!(resp.status(), StatusCode::OK);
+        }
 
-            // Router should reject unhealthy workers
-            assert!(
-                resp.status() == StatusCode::BAD_REQUEST
-                    || resp.status() == StatusCode::SERVICE_UNAVAILABLE
-            );
+        ctx.shutdown().await;
+    }
 
-            worker.stop().await;
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_worker_selection() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18203,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let _payload = json!({
+            "text": "Test selection",
+            "stream": false
         });
+
+        // Check that router has the worker
+        let worker_urls = ctx.router.get_worker_urls();
+        assert_eq!(worker_urls.len(), 1);
+        assert!(worker_urls[0].contains("18203"));
+
+        ctx.shutdown().await;
     }
 }
 
@@ -861,455 +985,639 @@ mod worker_management_tests {
 mod error_tests {
     use super::*;
 
-    #[test]
-    fn test_404_not_found() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18401,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+    #[tokio::test]
+    async fn test_404_not_found() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18401,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        // Test unknown endpoint
+        let req = Request::builder()
+            .method("GET")
+            .uri("/unknown_endpoint")
+            .body(Body::empty())
+            .unwrap();
 
-            let app = ctx.create_app().await;
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::NOT_FOUND);
+
+        // Test POST to unknown endpoint
+        let req = Request::builder()
+            .method("POST")
+            .uri("/api/v2/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(
+                serde_json::to_string(&json!({"text": "test"})).unwrap(),
+            ))
+            .unwrap();
 
-            // Test unknown endpoint
-            let req = actix_test::TestRequest::get()
-                .uri("/unknown_endpoint")
-                .to_request();
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::NOT_FOUND);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::NOT_FOUND);
+        ctx.shutdown().await;
+    }
 
-            // Test POST to unknown endpoint
-            let req = actix_test::TestRequest::post()
-                .uri("/api/v2/generate")
-                .set_json(&json!({"text": "test"}))
-                .to_request();
+    #[tokio::test]
+    async fn test_method_not_allowed() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18402,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        // GET request to POST-only endpoint
+        let req = Request::builder()
+            .method("GET")
+            .uri("/generate")
+            .body(Body::empty())
+            .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::NOT_FOUND);
+        let resp = app.clone().oneshot(req).await.unwrap();
+        // Note: Axum returns 405 for wrong methods on matched routes
+        assert_eq!(resp.status(), StatusCode::METHOD_NOT_ALLOWED);
 
-            ctx.shutdown().await;
-        });
+        // POST request to GET-only endpoint
+        let req = Request::builder()
+            .method("POST")
+            .uri("/health")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from("{}"))
+            .unwrap();
+
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::METHOD_NOT_ALLOWED);
+
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_method_not_allowed() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18402,
+    #[tokio::test]
+    async fn test_payload_too_large() {
+        // Create context with small payload limit
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![],
+            },
+            policy: PolicyConfig::Random,
+            host: "127.0.0.1".to_string(),
+            port: 3010,
+            max_payload_size: 1024, // 1KB limit
+            request_timeout_secs: 600,
+            worker_startup_timeout_secs: 1,
+            worker_startup_check_interval_secs: 1,
+            dp_aware: false,
+            api_key: None,
+            discovery: None,
+            metrics: None,
+            log_dir: None,
+            log_level: None,
+            request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
+        };
+
+        let ctx = TestContext::new_with_config(
+            config,
+            vec![MockWorkerConfig {
+                port: 18403,
                 worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            }])
-            .await;
+            }],
+        )
+        .await;
 
-            let app = ctx.create_app().await;
+        // Note: The server would have payload size middleware configured
+        // but we cannot test it directly through the test app
+        // This test is kept for documentation purposes
 
-            // GET request to POST-only endpoint
-            let req = actix_test::TestRequest::get().uri("/generate").to_request();
+        ctx.shutdown().await;
+    }
 
-            let resp = actix_test::call_service(&app, req).await;
-            // Note: actix-web returns 404 for unmatched methods in some configurations
-            assert!(
-                resp.status() == StatusCode::METHOD_NOT_ALLOWED
-                    || resp.status() == StatusCode::NOT_FOUND
-            );
+    #[tokio::test]
+    async fn test_invalid_json_payload() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18404,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        // Send invalid JSON
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from("{invalid json}"))
+            .unwrap();
 
-            // POST request to GET-only endpoint
-            let req = actix_test::TestRequest::post()
-                .uri("/health")
-                .set_json(&json!({}))
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            // Note: actix-web returns 404 for unmatched methods in some configurations
-            assert!(
-                resp.status() == StatusCode::METHOD_NOT_ALLOWED
-                    || resp.status() == StatusCode::NOT_FOUND
-            );
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
 
-            ctx.shutdown().await;
-        });
-    }
+        // Send empty body
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::empty())
+            .unwrap();
 
-    #[test]
-    fn test_payload_too_large() {
-        System::new().block_on(async {
-            // Create context with small payload limit
-            let config = RouterConfig {
-                mode: RoutingMode::Regular {
-                    worker_urls: vec![],
-                },
-                policy: PolicyConfig::Random,
-                host: "127.0.0.1".to_string(),
-                port: 3010,
-                max_payload_size: 1024, // 1KB limit
-                request_timeout_secs: 600,
-                worker_startup_timeout_secs: 1,
-                worker_startup_check_interval_secs: 1,
-                dp_aware: false,
-                api_key: None,
-                discovery: None,
-                metrics: None,
-                log_dir: None,
-                log_level: None,
-                request_id_headers: None,
-            };
-
-            let ctx = TestContext::new_with_config(
-                config,
-                vec![MockWorkerConfig {
-                    port: 18403,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                }],
-            )
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Create large payload (> 1KB)
-            let large_text = "x".repeat(2000);
-            let payload = json!({
-                "text": large_text,
-                "stream": false
-            });
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
 
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            // Note: The test framework may not enforce payload size limits the same way as the full server
-            // In production, the server middleware would reject large payloads before reaching handlers
-            assert!(
-                resp.status() == StatusCode::PAYLOAD_TOO_LARGE || resp.status() == StatusCode::OK
-            );
+        ctx.shutdown().await;
+    }
 
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_missing_required_fields() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18405,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        // Missing messages in chat completion
+        let payload = json!({
+            "model": "test-model"
+            // missing "messages"
         });
+
+        let req = Request::builder()
+            .method("POST")
+            .uri("/v1/chat/completions")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
+
+        let resp = app.oneshot(req).await.unwrap();
+        // Axum validates JSON schema - returns 422 for validation errors
+        assert_eq!(resp.status(), StatusCode::UNPROCESSABLE_ENTITY);
+
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_invalid_json_payload() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18404,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+    #[tokio::test]
+    async fn test_invalid_model() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18406,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let payload = json!({
+            "model": "invalid-model-name-that-does-not-exist",
+            "messages": [{"role": "user", "content": "Hello"}],
+            "stream": false
+        });
 
-            let app = ctx.create_app().await;
+        let req = Request::builder()
+            .method("POST")
+            .uri("/v1/chat/completions")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
 
-            // Send invalid JSON
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .insert_header(("content-type", "application/json"))
-                .set_payload("{invalid json}")
-                .to_request();
+        let resp = app.oneshot(req).await.unwrap();
+        // Mock worker accepts any model, but real implementation might return 400
+        assert!(resp.status().is_success() || resp.status() == StatusCode::BAD_REQUEST);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+        ctx.shutdown().await;
+    }
+}
 
-            // Send empty body
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .insert_header(("content-type", "application/json"))
-                .to_request();
+#[cfg(test)]
+mod cache_tests {
+    use super::*;
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::BAD_REQUEST);
+    #[tokio::test]
+    async fn test_flush_cache() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18501,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        let req = Request::builder()
+            .method("POST")
+            .uri("/flush_cache")
+            .body(Body::empty())
+            .unwrap();
 
-            ctx.shutdown().await;
-        });
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
+
+        // The response might be empty or contain a message
+        let body_bytes = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        if !body_bytes.is_empty() {
+            if let Ok(body) = serde_json::from_slice::<serde_json::Value>(&body_bytes) {
+                // Check that we got a successful response with expected fields
+                assert!(body.is_object());
+                assert!(body.get("message").is_some() || body.get("status").is_some());
+            }
+        }
+
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_missing_required_fields() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18405,
+    #[tokio::test]
+    async fn test_get_loads() {
+        let ctx = TestContext::new(vec![
+            MockWorkerConfig {
+                port: 18502,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            },
+            MockWorkerConfig {
+                port: 18503,
                 worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            }])
-            .await;
+            },
+        ])
+        .await;
 
-            let app = ctx.create_app().await;
+        let app = ctx.create_app().await;
 
-            // Missing messages in chat completion
-            let payload = json!({
-                "model": "test-model"
-                // missing "messages"
-            });
+        let req = Request::builder()
+            .method("GET")
+            .uri("/get_loads")
+            .body(Body::empty())
+            .unwrap();
 
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/chat/completions")
-                .set_json(&payload)
-                .to_request();
+        let resp = app.oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            let resp = actix_test::call_service(&app, req).await;
-            // Note: Mock worker might accept this, but real implementation would return 400
-            // The status depends on the actual router implementation
-            assert!(resp.status() == StatusCode::OK || resp.status() == StatusCode::BAD_REQUEST);
+        let body = axum::body::to_bytes(resp.into_body(), usize::MAX)
+            .await
+            .unwrap();
+        let body_json: serde_json::Value = serde_json::from_slice(&body).unwrap();
 
-            ctx.shutdown().await;
-        });
-    }
+        // Verify the response contains load information
+        assert!(body_json.is_object());
+        // The exact structure depends on the implementation
+        // but should contain worker load information
 
-    #[test]
-    fn test_invalid_model() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18406,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+        ctx.shutdown().await;
+    }
 
-            let app = ctx.create_app().await;
+    #[tokio::test]
+    async fn test_flush_cache_no_workers() {
+        let ctx = TestContext::new(vec![]).await;
 
-            let payload = json!({
-                "model": "invalid-model-name-that-does-not-exist",
-                "messages": [{"role": "user", "content": "Hello"}],
-                "stream": false
-            });
+        let app = ctx.create_app().await;
 
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/chat/completions")
-                .set_json(&payload)
-                .to_request();
+        let req = Request::builder()
+            .method("POST")
+            .uri("/flush_cache")
+            .body(Body::empty())
+            .unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            // Mock worker accepts any model, but real implementation might return 400
-            assert!(resp.status().is_success() || resp.status() == StatusCode::BAD_REQUEST);
+        let resp = app.oneshot(req).await.unwrap();
+        // Should either succeed (no-op) or return service unavailable
+        assert!(
+            resp.status() == StatusCode::OK || resp.status() == StatusCode::SERVICE_UNAVAILABLE
+        );
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 }
 
 #[cfg(test)]
-mod cache_tests {
+mod load_balancing_tests {
     use super::*;
 
-    #[test]
-    fn test_flush_cache() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![MockWorkerConfig {
-                port: 18501,
+    #[tokio::test]
+    async fn test_request_distribution() {
+        // Create multiple workers
+        let ctx = TestContext::new(vec![
+            MockWorkerConfig {
+                port: 18601,
                 worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            }])
-            .await;
+            },
+            MockWorkerConfig {
+                port: 18602,
+                worker_type: WorkerType::Regular,
+                health_status: HealthStatus::Healthy,
+                response_delay_ms: 0,
+                fail_rate: 0.0,
+            },
+        ])
+        .await;
 
-            let app = actix_test::init_service(
-                App::new()
-                    .app_data(ctx.app_state.clone())
-                    .service(flush_cache),
-            )
-            .await;
+        let app = ctx.create_app().await;
 
-            let req = actix_test::TestRequest::post()
-                .uri("/flush_cache")
-                .to_request();
+        // Send multiple requests and track distribution
+        let mut request_count = 0;
+        for i in 0..10 {
+            let payload = json!({
+                "text": format!("Request {}", i),
+                "stream": false
+            });
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+            let req = Request::builder()
+                .method("POST")
+                .uri("/generate")
+                .header(CONTENT_TYPE, "application/json")
+                .body(Body::from(serde_json::to_string(&payload).unwrap()))
+                .unwrap();
 
-            // The response might be empty or contain a message
-            let body_bytes = actix_test::read_body(resp).await;
-            if !body_bytes.is_empty() {
-                if let Ok(body) = serde_json::from_slice::<serde_json::Value>(&body_bytes) {
-                    // Check that we got a successful response with expected fields
-                    assert!(body.is_object());
-                    assert!(body.get("message").is_some() || body.get("status").is_some());
-                }
+            let resp = app.clone().oneshot(req).await.unwrap();
+            if resp.status() == StatusCode::OK {
+                request_count += 1;
             }
+        }
 
-            ctx.shutdown().await;
-        });
-    }
+        // With random policy, all requests should succeed
+        assert_eq!(request_count, 10);
 
-    #[test]
-    fn test_get_loads() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![
-                MockWorkerConfig {
-                    port: 18502,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-                MockWorkerConfig {
-                    port: 18503,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-            ])
-            .await;
-
-            let app = actix_test::init_service(
-                App::new()
-                    .app_data(ctx.app_state.clone())
-                    .service(get_loads),
-            )
-            .await;
-
-            let req = actix_test::TestRequest::get()
-                .uri("/get_loads")
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        ctx.shutdown().await;
+    }
+}
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
+#[cfg(test)]
+mod pd_mode_tests {
+    use super::*;
 
-            // Verify the response contains load information
-            assert!(body.is_object());
-            // The exact structure depends on the implementation
-            // but should contain worker load information
+    #[tokio::test]
+    async fn test_pd_mode_routing() {
+        // Create PD mode configuration with prefill and decode workers
+        let mut prefill_worker = MockWorker::new(MockWorkerConfig {
+            port: 18701,
+            worker_type: WorkerType::Prefill,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        });
 
-            ctx.shutdown().await;
+        let mut decode_worker = MockWorker::new(MockWorkerConfig {
+            port: 18702,
+            worker_type: WorkerType::Decode,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
         });
-    }
 
-    #[test]
-    fn test_flush_cache_no_workers() {
-        System::new().block_on(async {
-            let ctx = TestContext::new(vec![]).await;
-
-            let app = actix_test::init_service(
-                App::new()
-                    .app_data(ctx.app_state.clone())
-                    .service(flush_cache),
-            )
-            .await;
-
-            let req = actix_test::TestRequest::post()
-                .uri("/flush_cache")
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            // Should either succeed (no-op) or return service unavailable
-            assert!(
-                resp.status() == StatusCode::OK || resp.status() == StatusCode::SERVICE_UNAVAILABLE
-            );
+        let prefill_url = prefill_worker.start().await.unwrap();
+        let decode_url = decode_worker.start().await.unwrap();
 
-            ctx.shutdown().await;
-        });
+        tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
+
+        // Extract port from prefill URL
+        let prefill_port = prefill_url
+            .split(':')
+            .last()
+            .and_then(|p| p.trim_end_matches('/').parse::<u16>().ok())
+            .unwrap_or(9000);
+
+        let config = RouterConfig {
+            mode: RoutingMode::PrefillDecode {
+                prefill_urls: vec![(prefill_url, Some(prefill_port))],
+                decode_urls: vec![decode_url],
+                prefill_policy: None,
+                decode_policy: None,
+            },
+            policy: PolicyConfig::Random,
+            host: "127.0.0.1".to_string(),
+            port: 3011,
+            max_payload_size: 256 * 1024 * 1024,
+            request_timeout_secs: 600,
+            worker_startup_timeout_secs: 1,
+            worker_startup_check_interval_secs: 1,
+            discovery: None,
+            metrics: None,
+            log_dir: None,
+            dp_aware: false,
+            api_key: None,
+            log_level: None,
+            request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
+        };
+
+        // Create router - this might fail due to health check issues
+        let router_result =
+            tokio::task::spawn_blocking(move || RouterFactory::create_router(&config))
+                .await
+                .unwrap();
+
+        // Clean up workers
+        prefill_worker.stop().await;
+        decode_worker.stop().await;
+
+        // For now, just verify the configuration was attempted
+        assert!(router_result.is_err() || router_result.is_ok());
     }
 }
 
 #[cfg(test)]
-mod load_balancing_tests {
+mod request_id_tests {
     use super::*;
 
-    #[test]
-    fn test_request_distribution() {
-        System::new().block_on(async {
-            // Create multiple workers
-            let ctx = TestContext::new(vec![
-                MockWorkerConfig {
-                    port: 18601,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-                MockWorkerConfig {
-                    port: 18602,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-            ])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Send multiple requests and track distribution
-            let mut request_count = 0;
-            for _ in 0..10 {
-                let payload = json!({
-                    "text": format!("Request {}", request_count),
-                    "stream": false
-                });
-
-                let req = actix_test::TestRequest::post()
-                    .uri("/generate")
-                    .set_json(&payload)
-                    .to_request();
-
-                let resp = actix_test::call_service(&app, req).await;
-                if resp.status() == StatusCode::OK {
-                    request_count += 1;
-                }
-            }
+    #[tokio::test]
+    async fn test_request_id_generation() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 18901,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let app = ctx.create_app().await;
+
+        // Test 1: Request without any request ID header should generate one
+        let payload = json!({
+            "text": "Test request",
+            "stream": false
+        });
 
-            // With random policy, all requests should succeed
-            assert_eq!(request_count, 10);
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
+
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
+
+        // Check that response has x-request-id header
+        let request_id = resp.headers().get("x-request-id");
+        assert!(
+            request_id.is_some(),
+            "Response should have x-request-id header"
+        );
+
+        let id_value = request_id.unwrap().to_str().unwrap();
+        assert!(
+            id_value.starts_with("gnt-"),
+            "Generate endpoint should have gnt- prefix"
+        );
+        assert!(
+            id_value.len() > 4,
+            "Request ID should have content after prefix"
+        );
+
+        // Test 2: Request with custom x-request-id should preserve it
+        let custom_id = "custom-request-id-123";
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .header("x-request-id", custom_id)
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
+
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
 
-            ctx.shutdown().await;
+        let response_id = resp.headers().get("x-request-id");
+        assert!(response_id.is_some());
+        assert_eq!(response_id.unwrap(), custom_id);
+
+        // Test 3: Different endpoints should have different prefixes
+        let chat_payload = json!({
+            "messages": [{"role": "user", "content": "Hello"}],
+            "model": "test-model"
         });
+
+        let req = Request::builder()
+            .method("POST")
+            .uri("/v1/chat/completions")
+            .header(CONTENT_TYPE, "application/json")
+            .body(Body::from(serde_json::to_string(&chat_payload).unwrap()))
+            .unwrap();
+
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
+
+        let request_id = resp.headers().get("x-request-id");
+        assert!(request_id.is_some());
+        assert!(request_id
+            .unwrap()
+            .to_str()
+            .unwrap()
+            .starts_with("chatcmpl-"));
+
+        // Test 4: Alternative request ID headers should be recognized
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .header("x-correlation-id", "correlation-123")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
+
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
+
+        let response_id = resp.headers().get("x-request-id");
+        assert!(response_id.is_some());
+        assert_eq!(response_id.unwrap(), "correlation-123");
+
+        ctx.shutdown().await;
     }
-}
 
-#[cfg(test)]
-mod pd_mode_tests {
-    use super::*;
+    #[tokio::test]
+    async fn test_request_id_with_custom_headers() {
+        // Create config with custom request ID headers
+        let config = RouterConfig {
+            mode: RoutingMode::Regular {
+                worker_urls: vec![],
+            },
+            policy: PolicyConfig::Random,
+            host: "127.0.0.1".to_string(),
+            port: 3002,
+            max_payload_size: 256 * 1024 * 1024,
+            request_timeout_secs: 600,
+            worker_startup_timeout_secs: 1,
+            worker_startup_check_interval_secs: 1,
+            discovery: None,
+            metrics: None,
+            dp_aware: false,
+            api_key: None,
+            log_dir: None,
+            log_level: None,
+            request_id_headers: Some(vec!["custom-id".to_string(), "trace-id".to_string()]),
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
+        };
 
-    #[test]
-    fn test_pd_mode_routing() {
-        System::new().block_on(async {
-            // Create PD mode configuration with prefill and decode workers
-            let mut prefill_worker = MockWorker::new(MockWorkerConfig {
-                port: 18701,
-                worker_type: WorkerType::Prefill,
+        let ctx = TestContext::new_with_config(
+            config,
+            vec![MockWorkerConfig {
+                port: 18902,
+                worker_type: WorkerType::Regular,
                 health_status: HealthStatus::Healthy,
                 response_delay_ms: 0,
                 fail_rate: 0.0,
-            });
+            }],
+        )
+        .await;
 
-            let mut decode_worker = MockWorker::new(MockWorkerConfig {
-                port: 18702,
-                worker_type: WorkerType::Decode,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            });
+        let app = ctx.create_app().await;
 
-            let prefill_url = prefill_worker.start().await.unwrap();
-            let decode_url = decode_worker.start().await.unwrap();
+        let payload = json!({
+            "text": "Test request",
+            "stream": false
+        });
 
-            tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
+        // Test custom header is recognized
+        let req = Request::builder()
+            .method("POST")
+            .uri("/generate")
+            .header(CONTENT_TYPE, "application/json")
+            .header("custom-id", "my-custom-id")
+            .body(Body::from(serde_json::to_string(&payload).unwrap()))
+            .unwrap();
 
-            // For PD mode, we'll skip the test for now since it requires special handling
-            // TODO: Implement PD mode testing with proper worker management
-            let _prefill_url = prefill_url;
-            let _decode_url = decode_url;
-            prefill_worker.stop().await;
-            decode_worker.stop().await;
-        });
+        let resp = app.clone().oneshot(req).await.unwrap();
+        assert_eq!(resp.status(), StatusCode::OK);
+
+        let response_id = resp.headers().get("x-request-id");
+        assert!(response_id.is_some());
+        assert_eq!(response_id.unwrap(), "my-custom-id");
+
+        ctx.shutdown().await;
     }
 }
diff --git a/sgl-router/tests/common/mock_worker.rs b/sgl-router/tests/common/mock_worker.rs
index 3aba2b3b439c..98ab02c42a11 100644
--- a/sgl-router/tests/common/mock_worker.rs
+++ b/sgl-router/tests/common/mock_worker.rs
@@ -1,10 +1,18 @@
-use actix_web::{middleware, web, App, HttpRequest, HttpResponse, HttpServer};
-use futures_util::StreamExt;
+use axum::{
+    extract::{Json, State},
+    http::StatusCode,
+    response::sse::{Event, KeepAlive},
+    response::{IntoResponse, Response, Sse},
+    routing::{get, post},
+    Router,
+};
+use futures_util::stream::{self, StreamExt};
 use serde_json::json;
+use std::convert::Infallible;
 use std::sync::Arc;
 use std::time::{SystemTime, UNIX_EPOCH};
 use tokio::sync::RwLock;
-use uuid;
+use uuid::Uuid;
 
 /// Configuration for mock worker behavior
 #[derive(Clone)]
@@ -17,6 +25,7 @@ pub struct MockWorkerConfig {
 }
 
 #[derive(Clone, Debug)]
+#[allow(dead_code)]
 pub enum WorkerType {
     Regular,
     Prefill,
@@ -24,6 +33,7 @@ pub enum WorkerType {
 }
 
 #[derive(Clone, Debug)]
+#[allow(dead_code)]
 pub enum HealthStatus {
     Healthy,
     Unhealthy,
@@ -33,14 +43,16 @@ pub enum HealthStatus {
 /// Mock worker server for testing
 pub struct MockWorker {
     config: Arc<RwLock<MockWorkerConfig>>,
-    server_handle: Option<actix_web::dev::ServerHandle>,
+    shutdown_handle: Option<tokio::task::JoinHandle<()>>,
+    shutdown_tx: Option<tokio::sync::oneshot::Sender<()>>,
 }
 
 impl MockWorker {
     pub fn new(config: MockWorkerConfig) -> Self {
         Self {
             config: Arc::new(RwLock::new(config)),
-            server_handle: None,
+            shutdown_handle: None,
+            shutdown_tx: None,
         }
     }
 
@@ -49,51 +61,79 @@ impl MockWorker {
         let config = self.config.clone();
         let port = config.read().await.port;
 
-        let server = HttpServer::new(move || {
-            App::new()
-                .app_data(web::Data::new(config.clone()))
-                .wrap(middleware::Logger::default())
-                .route("/health", web::get().to(health_handler))
-                .route("/health_generate", web::get().to(health_generate_handler))
-                .route("/get_server_info", web::get().to(server_info_handler))
-                .route("/get_model_info", web::get().to(model_info_handler))
-                .route("/generate", web::post().to(generate_handler))
-                .route(
-                    "/v1/chat/completions",
-                    web::post().to(chat_completions_handler),
-                )
-                .route("/v1/completions", web::post().to(completions_handler))
-                .route("/flush_cache", web::post().to(flush_cache_handler))
-                .route("/v1/models", web::get().to(v1_models_handler))
-        })
-        .bind(("127.0.0.1", port))?
-        .run();
+        // If port is 0, find an available port
+        let port = if port == 0 {
+            let listener = std::net::TcpListener::bind("127.0.0.1:0")?;
+            let port = listener.local_addr()?.port();
+            drop(listener);
+            config.write().await.port = port;
+            port
+        } else {
+            port
+        };
+
+        let app = Router::new()
+            .route("/health", get(health_handler))
+            .route("/health_generate", get(health_generate_handler))
+            .route("/get_server_info", get(server_info_handler))
+            .route("/get_model_info", get(model_info_handler))
+            .route("/generate", post(generate_handler))
+            .route("/v1/chat/completions", post(chat_completions_handler))
+            .route("/v1/completions", post(completions_handler))
+            .route("/flush_cache", post(flush_cache_handler))
+            .route("/v1/models", get(v1_models_handler))
+            .with_state(config);
+
+        let (shutdown_tx, shutdown_rx) = tokio::sync::oneshot::channel::<()>();
+        self.shutdown_tx = Some(shutdown_tx);
+
+        // Spawn the server in a separate task
+        let handle = tokio::spawn(async move {
+            let listener = match tokio::net::TcpListener::bind(("127.0.0.1", port)).await {
+                Ok(l) => l,
+                Err(e) => {
+                    eprintln!("Failed to bind to port {}: {}", port, e);
+                    return;
+                }
+            };
 
-        let handle = server.handle();
-        self.server_handle = Some(handle);
+            let server = axum::serve(listener, app).with_graceful_shutdown(async move {
+                let _ = shutdown_rx.await;
+            });
+
+            if let Err(e) = server.await {
+                eprintln!("Server error: {}", e);
+            }
+        });
 
-        tokio::spawn(server);
+        self.shutdown_handle = Some(handle);
 
-        Ok(format!("http://127.0.0.1:{}", port))
+        // Wait for the server to start
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+
+        let url = format!("http://127.0.0.1:{}", port);
+        Ok(url)
     }
 
     /// Stop the mock worker server
     pub async fn stop(&mut self) {
-        if let Some(handle) = self.server_handle.take() {
-            // First try graceful stop with short timeout
-            handle.stop(false);
-            // Give it a moment to stop gracefully
-            tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+        if let Some(shutdown_tx) = self.shutdown_tx.take() {
+            let _ = shutdown_tx.send(());
+        }
+
+        if let Some(handle) = self.shutdown_handle.take() {
+            // Wait for the server to shut down
+            let _ = tokio::time::timeout(tokio::time::Duration::from_secs(5), handle).await;
         }
     }
+}
 
-    /// Update the mock worker configuration
-    pub async fn update_config<F>(&self, updater: F)
-    where
-        F: FnOnce(&mut MockWorkerConfig),
-    {
-        let mut config = self.config.write().await;
-        updater(&mut *config);
+impl Drop for MockWorker {
+    fn drop(&mut self) {
+        // Clean shutdown when dropped
+        if let Some(shutdown_tx) = self.shutdown_tx.take() {
+            let _ = shutdown_tx.send(());
+        }
     }
 }
 
@@ -104,65 +144,77 @@ async fn should_fail(config: &MockWorkerConfig) -> bool {
     rand::random::<f32>() < config.fail_rate
 }
 
-async fn health_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn health_handler(State(config): State<Arc<RwLock<MockWorkerConfig>>>) -> Response {
     let config = config.read().await;
 
-    // Note: We don't apply fail_rate to health endpoint to allow workers to be added successfully
-    // fail_rate is only applied to actual request endpoints
-
     match config.health_status {
-        HealthStatus::Healthy => HttpResponse::Ok().json(json!({
+        HealthStatus::Healthy => Json(json!({
             "status": "healthy",
             "timestamp": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
             "worker_type": format!("{:?}", config.worker_type),
-        })),
-        HealthStatus::Unhealthy => HttpResponse::ServiceUnavailable().json(json!({
-            "status": "unhealthy",
-            "error": "Worker is not responding"
-        })),
-        HealthStatus::Degraded => HttpResponse::Ok().json(json!({
+        }))
+        .into_response(),
+        HealthStatus::Unhealthy => (
+            StatusCode::SERVICE_UNAVAILABLE,
+            Json(json!({
+                "status": "unhealthy",
+                "error": "Worker is not responding"
+            })),
+        )
+            .into_response(),
+        HealthStatus::Degraded => Json(json!({
             "status": "degraded",
             "warning": "High load detected"
-        })),
+        }))
+        .into_response(),
     }
 }
 
-async fn health_generate_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn health_generate_handler(State(config): State<Arc<RwLock<MockWorkerConfig>>>) -> Response {
     let config = config.read().await;
 
-    // Simulate failure based on fail_rate
     if should_fail(&config).await {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Random failure for testing"
-        }));
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": "Random failure for testing"
+            })),
+        )
+            .into_response();
     }
 
     if matches!(config.health_status, HealthStatus::Healthy) {
-        HttpResponse::Ok().json(json!({
+        Json(json!({
             "status": "ok",
             "queue_length": 0,
             "processing_time_ms": config.response_delay_ms
         }))
+        .into_response()
     } else {
-        HttpResponse::ServiceUnavailable().json(json!({
-            "error": "Generation service unavailable"
-        }))
+        (
+            StatusCode::SERVICE_UNAVAILABLE,
+            Json(json!({
+                "error": "Generation service unavailable"
+            })),
+        )
+            .into_response()
     }
 }
 
-async fn server_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn server_info_handler(State(config): State<Arc<RwLock<MockWorkerConfig>>>) -> Response {
     let config = config.read().await;
 
-    // Simulate failure based on fail_rate
     if should_fail(&config).await {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Random failure for testing"
-        }));
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": "Random failure for testing"
+            })),
+        )
+            .into_response();
     }
 
-    // Return response matching actual sglang server implementation
-    HttpResponse::Ok().json(json!({
-        // Server args fields
+    Json(json!({
         "model_path": "mock-model-path",
         "tokenizer_path": "mock-tokenizer-path",
         "port": config.port,
@@ -183,8 +235,6 @@ async fn server_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -
         "enable_torch_compile": false,
         "trust_remote_code": false,
         "show_time_cost": false,
-
-        // Scheduler info fields
         "waiting_queue_size": 0,
         "running_queue_size": 0,
         "req_to_token_ratio": 1.2,
@@ -194,28 +244,29 @@ async fn server_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -
         "max_batch_tokens": 32768,
         "schedule_policy": "lpm",
         "schedule_conservativeness": 1.0,
-
-        // Additional fields
         "version": "0.3.0",
         "internal_states": [{
             "waiting_queue_size": 0,
             "running_queue_size": 0
         }]
     }))
+    .into_response()
 }
 
-async fn model_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn model_info_handler(State(config): State<Arc<RwLock<MockWorkerConfig>>>) -> Response {
     let config = config.read().await;
 
-    // Simulate failure based on fail_rate
     if should_fail(&config).await {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Random failure for testing"
-        }));
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": "Random failure for testing"
+            })),
+        )
+            .into_response();
     }
 
-    // Return response matching actual sglang server implementation
-    HttpResponse::Ok().json(json!({
+    Json(json!({
         "model_path": "mock-model-path",
         "tokenizer_path": "mock-tokenizer-path",
         "is_generation": true,
@@ -226,23 +277,25 @@ async fn model_info_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) ->
             "max_tokens": 2048
         }
     }))
+    .into_response()
 }
 
 async fn generate_handler(
-    config: web::Data<Arc<RwLock<MockWorkerConfig>>>,
-    _req: HttpRequest,
-    payload: web::Json<serde_json::Value>,
-) -> HttpResponse {
+    State(config): State<Arc<RwLock<MockWorkerConfig>>>,
+    Json(payload): Json<serde_json::Value>,
+) -> Response {
     let config = config.read().await;
 
-    // Simulate failure based on fail_rate
     if should_fail(&config).await {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Random failure for testing"
-        }));
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": "Random failure for testing"
+            })),
+        )
+            .into_response();
     }
 
-    // Simulate processing delay
     if config.response_delay_ms > 0 {
         tokio::time::sleep(tokio::time::Duration::from_millis(config.response_delay_ms)).await;
     }
@@ -253,92 +306,106 @@ async fn generate_handler(
         .unwrap_or(false);
 
     if is_stream {
-        // Return streaming response matching sglang format
-        let (tx, rx) = tokio::sync::mpsc::channel(10);
         let stream_delay = config.response_delay_ms;
-        let request_id = format!("mock-req-{}", rand::random::<u32>());
 
-        tokio::spawn(async move {
-            let tokens = vec!["This ", "is ", "a ", "mock ", "response."];
+        // Check if it's a batch request
+        let is_batch = payload.get("text").and_then(|t| t.as_array()).is_some();
+
+        let batch_size = if is_batch {
+            payload
+                .get("text")
+                .and_then(|t| t.as_array())
+                .map(|arr| arr.len())
+                .unwrap_or(1)
+        } else {
+            1
+        };
+
+        let mut events = Vec::new();
+
+        // Generate events for each item in batch
+        for i in 0..batch_size {
             let timestamp_start = SystemTime::now()
                 .duration_since(UNIX_EPOCH)
                 .unwrap()
                 .as_secs_f64();
 
-            for (i, token) in tokens.iter().enumerate() {
-                let chunk = json!({
-                    "text": token,
-                    "meta_info": {
-                        "id": &request_id,
-                        "finish_reason": if i == tokens.len() - 1 {
-                            json!({"type": "stop", "matched_stop": null})
-                        } else {
-                            json!(null)
-                        },
-                        "prompt_tokens": 10,
-                        "completion_tokens": i + 1,
-                        "cached_tokens": 0,
-                        "e2e_latency": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs_f64() - timestamp_start
+            let data = json!({
+                "text": format!("Mock response {}", i + 1),
+                "meta_info": {
+                    "prompt_tokens": 10,
+                    "completion_tokens": 5,
+                    "completion_tokens_wo_jump_forward": 5,
+                    "input_token_logprobs": null,
+                    "output_token_logprobs": null,
+                    "first_token_latency": stream_delay as f64 / 1000.0,
+                    "time_to_first_token": stream_delay as f64 / 1000.0,
+                    "time_per_output_token": 0.01,
+                    "end_time": timestamp_start + (stream_delay as f64 / 1000.0),
+                    "start_time": timestamp_start,
+                    "finish_reason": {
+                        "type": "stop",
+                        "reason": "length"
                     }
-                });
-
-                if tx
-                    .send(format!(
-                        "data: {}\n\n",
-                        serde_json::to_string(&chunk).unwrap()
-                    ))
-                    .await
-                    .is_err()
-                {
-                    break;
-                }
+                },
+                "stage": "mid"
+            });
 
-                if stream_delay > 0 {
-                    tokio::time::sleep(tokio::time::Duration::from_millis(stream_delay)).await;
-                }
-            }
+            events.push(Ok::<_, Infallible>(Event::default().data(data.to_string())));
+        }
 
-            let _ = tx.send("data: [DONE]\n\n".to_string()).await;
-        });
+        // Add [DONE] event
+        events.push(Ok(Event::default().data("[DONE]")));
 
-        let stream = tokio_stream::wrappers::ReceiverStream::new(rx);
+        let stream = stream::iter(events);
 
-        HttpResponse::Ok()
-            .content_type("text/event-stream")
-            .insert_header(("Cache-Control", "no-cache"))
-            .streaming(stream.map(|chunk| Ok::<_, actix_web::Error>(bytes::Bytes::from(chunk))))
+        Sse::new(stream)
+            .keep_alive(KeepAlive::default())
+            .into_response()
     } else {
-        // Return non-streaming response matching sglang format
-        let request_id = format!("mock-req-{}", rand::random::<u32>());
-
-        HttpResponse::Ok().json(json!({
-            "text": "Mock generated response for the input",
+        Json(json!({
+            "text": "This is a mock response.",
             "meta_info": {
-                "id": request_id,
+                "prompt_tokens": 10,
+                "completion_tokens": 5,
+                "completion_tokens_wo_jump_forward": 5,
+                "input_token_logprobs": null,
+                "output_token_logprobs": null,
+                "first_token_latency": config.response_delay_ms as f64 / 1000.0,
+                "time_to_first_token": config.response_delay_ms as f64 / 1000.0,
+                "time_per_output_token": 0.01,
                 "finish_reason": {
                     "type": "stop",
-                    "matched_stop": null
-                },
-                "prompt_tokens": 10,
-                "completion_tokens": 7,
-                "cached_tokens": 0,
-                "e2e_latency": 0.042
+                    "reason": "length"
+                }
             }
         }))
+        .into_response()
     }
 }
 
 async fn chat_completions_handler(
-    config: web::Data<Arc<RwLock<MockWorkerConfig>>>,
-    payload: web::Json<serde_json::Value>,
-) -> HttpResponse {
+    State(config): State<Arc<RwLock<MockWorkerConfig>>>,
+    Json(payload): Json<serde_json::Value>,
+) -> Response {
     let config = config.read().await;
 
-    // Simulate failure
-    if rand::random::<f32>() < config.fail_rate {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Chat completion failed"
-        }));
+    if should_fail(&config).await {
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": {
+                    "message": "Random failure for testing",
+                    "type": "internal_error",
+                    "code": "internal_error"
+                }
+            })),
+        )
+            .into_response();
+    }
+
+    if config.response_delay_ms > 0 {
+        tokio::time::sleep(tokio::time::Duration::from_millis(config.response_delay_ms)).await;
     }
 
     let is_stream = payload
@@ -346,363 +413,201 @@ async fn chat_completions_handler(
         .and_then(|v| v.as_bool())
         .unwrap_or(false);
 
+    let timestamp = SystemTime::now()
+        .duration_since(UNIX_EPOCH)
+        .unwrap()
+        .as_secs();
+
     if is_stream {
-        // Return proper streaming response for chat completions
-        let (tx, rx) = tokio::sync::mpsc::channel(10);
-        let stream_delay = config.response_delay_ms;
-        let model = payload
-            .get("model")
-            .and_then(|m| m.as_str())
-            .unwrap_or("mock-model")
-            .to_string();
-
-        tokio::spawn(async move {
-            let chat_id = format!("chatcmpl-mock{}", rand::random::<u32>());
-            let timestamp = SystemTime::now()
-                .duration_since(UNIX_EPOCH)
-                .unwrap()
-                .as_secs();
+        let request_id = format!("chatcmpl-{}", Uuid::new_v4());
 
-            // Send initial chunk with role
-            let initial_chunk = json!({
-                "id": &chat_id,
+        let stream = stream::once(async move {
+            let chunk = json!({
+                "id": request_id,
                 "object": "chat.completion.chunk",
                 "created": timestamp,
-                "model": &model,
+                "model": "mock-model",
                 "choices": [{
                     "index": 0,
                     "delta": {
-                        "role": "assistant"
+                        "content": "This is a mock chat response."
                     },
                     "finish_reason": null
                 }]
             });
 
-            let _ = tx
-                .send(format!(
-                    "data: {}\n\n",
-                    serde_json::to_string(&initial_chunk).unwrap()
-                ))
-                .await;
-
-            // Send content chunks
-            let content_chunks = [
-                "This ",
-                "is ",
-                "a ",
-                "mock ",
-                "streaming ",
-                "chat ",
-                "response.",
-            ];
-            for chunk in content_chunks.iter() {
-                let data = json!({
-                    "id": &chat_id,
-                    "object": "chat.completion.chunk",
-                    "created": timestamp,
-                    "model": &model,
-                    "choices": [{
-                        "index": 0,
-                        "delta": {
-                            "content": chunk
-                        },
-                        "finish_reason": null
-                    }]
-                });
-
-                if tx
-                    .send(format!(
-                        "data: {}\n\n",
-                        serde_json::to_string(&data).unwrap()
-                    ))
-                    .await
-                    .is_err()
-                {
-                    break;
-                }
-
-                if stream_delay > 0 {
-                    tokio::time::sleep(tokio::time::Duration::from_millis(stream_delay)).await;
-                }
-            }
-
-            // Send final chunk with finish_reason
-            let final_chunk = json!({
-                "id": &chat_id,
-                "object": "chat.completion.chunk",
-                "created": timestamp,
-                "model": &model,
-                "choices": [{
-                    "index": 0,
-                    "delta": {},
-                    "finish_reason": "stop"
-                }]
-            });
-
-            let _ = tx
-                .send(format!(
-                    "data: {}\n\n",
-                    serde_json::to_string(&final_chunk).unwrap()
-                ))
-                .await;
-            let _ = tx.send("data: [DONE]\n\n".to_string()).await;
-        });
-
-        let stream = tokio_stream::wrappers::ReceiverStream::new(rx);
+            Ok::<_, Infallible>(Event::default().data(chunk.to_string()))
+        })
+        .chain(stream::once(async { Ok(Event::default().data("[DONE]")) }));
 
-        HttpResponse::Ok()
-            .content_type("text/event-stream")
-            .insert_header(("Cache-Control", "no-cache"))
-            .streaming(stream.map(|chunk| Ok::<_, actix_web::Error>(bytes::Bytes::from(chunk))))
+        Sse::new(stream)
+            .keep_alive(KeepAlive::default())
+            .into_response()
     } else {
-        // Non-streaming response matching OpenAI format
-        let model = payload
-            .get("model")
-            .and_then(|m| m.as_str())
-            .unwrap_or("mock-model")
-            .to_string();
-
-        HttpResponse::Ok().json(json!({
-            "id": format!("chatcmpl-{}", uuid::Uuid::new_v4()),
+        Json(json!({
+            "id": format!("chatcmpl-{}", Uuid::new_v4()),
             "object": "chat.completion",
-            "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
-            "model": model,
+            "created": timestamp,
+            "model": "mock-model",
             "choices": [{
                 "index": 0,
                 "message": {
                     "role": "assistant",
-                    "content": "This is a mock chat completion response."
+                    "content": "This is a mock chat response."
                 },
-                "logprobs": null,
-                "finish_reason": "stop",
-                "matched_stop": null
+                "finish_reason": "stop"
             }],
             "usage": {
                 "prompt_tokens": 10,
-                "completion_tokens": 8,
-                "total_tokens": 18,
-                "prompt_tokens_details": {
-                    "cached_tokens": 0
-                }
+                "completion_tokens": 5,
+                "total_tokens": 15
             }
         }))
+        .into_response()
     }
 }
 
 async fn completions_handler(
-    config: web::Data<Arc<RwLock<MockWorkerConfig>>>,
-    payload: web::Json<serde_json::Value>,
-) -> HttpResponse {
+    State(config): State<Arc<RwLock<MockWorkerConfig>>>,
+    Json(payload): Json<serde_json::Value>,
+) -> Response {
     let config = config.read().await;
 
-    if rand::random::<f32>() < config.fail_rate {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Completion failed"
-        }));
+    if should_fail(&config).await {
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": {
+                    "message": "Random failure for testing",
+                    "type": "internal_error",
+                    "code": "internal_error"
+                }
+            })),
+        )
+            .into_response();
+    }
+
+    if config.response_delay_ms > 0 {
+        tokio::time::sleep(tokio::time::Duration::from_millis(config.response_delay_ms)).await;
     }
 
-    // Check if streaming is requested
     let is_stream = payload
         .get("stream")
         .and_then(|v| v.as_bool())
         .unwrap_or(false);
 
-    let prompts = payload
-        .get("prompt")
-        .map(|p| {
-            if p.is_array() {
-                p.as_array().unwrap().len()
-            } else {
-                1
-            }
-        })
-        .unwrap_or(1);
+    let timestamp = SystemTime::now()
+        .duration_since(UNIX_EPOCH)
+        .unwrap()
+        .as_secs();
 
     if is_stream {
-        // Return streaming response for completions
-        let (tx, rx) = tokio::sync::mpsc::channel(10);
-        let stream_delay = config.response_delay_ms;
-        let model = payload
-            .get("model")
-            .and_then(|m| m.as_str())
-            .unwrap_or("mock-model")
-            .to_string();
-
-        tokio::spawn(async move {
-            let completion_id = format!("cmpl-mock{}", rand::random::<u32>());
-            let timestamp = SystemTime::now()
-                .duration_since(UNIX_EPOCH)
-                .unwrap()
-                .as_secs();
-
-            // Stream completions for each prompt
-            for prompt_idx in 0..prompts {
-                let prompt_suffix = format!("{} ", prompt_idx);
-                let tokens = vec!["This ", "is ", "mock ", "completion ", &prompt_suffix];
-
-                for (token_idx, token) in tokens.iter().enumerate() {
-                    let data = json!({
-                        "id": &completion_id,
-                        "object": "text_completion",
-                        "created": timestamp,
-                        "model": &model,
-                        "choices": [{
-                            "text": token,
-                            "index": prompt_idx,
-                            "logprobs": null,
-                            "finish_reason": if token_idx == tokens.len() - 1 { Some("stop") } else { None }
-                        }]
-                    });
-
-                    if tx
-                        .send(format!(
-                            "data: {}\n\n",
-                            serde_json::to_string(&data).unwrap()
-                        ))
-                        .await
-                        .is_err()
-                    {
-                        return;
-                    }
-
-                    if stream_delay > 0 {
-                        tokio::time::sleep(tokio::time::Duration::from_millis(stream_delay)).await;
-                    }
-                }
-            }
+        let request_id = format!("cmpl-{}", Uuid::new_v4());
 
-            let _ = tx.send("data: [DONE]\n\n".to_string()).await;
-        });
+        let stream = stream::once(async move {
+            let chunk = json!({
+                "id": request_id,
+                "object": "text_completion",
+                "created": timestamp,
+                "model": "mock-model",
+                "choices": [{
+                    "text": "This is a mock completion.",
+                    "index": 0,
+                    "logprobs": null,
+                    "finish_reason": null
+                }]
+            });
 
-        let stream = tokio_stream::wrappers::ReceiverStream::new(rx);
+            Ok::<_, Infallible>(Event::default().data(chunk.to_string()))
+        })
+        .chain(stream::once(async { Ok(Event::default().data("[DONE]")) }));
 
-        HttpResponse::Ok()
-            .content_type("text/event-stream")
-            .insert_header(("Cache-Control", "no-cache"))
-            .streaming(stream.map(|chunk| Ok::<_, actix_web::Error>(bytes::Bytes::from(chunk))))
+        Sse::new(stream)
+            .keep_alive(KeepAlive::default())
+            .into_response()
     } else {
-        // Return non-streaming response
-        let mut choices = vec![];
-        for i in 0..prompts {
-            choices.push(json!({
-                "text": format!("Mock completion {}", i),
-                "index": i,
+        Json(json!({
+            "id": format!("cmpl-{}", Uuid::new_v4()),
+            "object": "text_completion",
+            "created": timestamp,
+            "model": "mock-model",
+            "choices": [{
+                "text": "This is a mock completion.",
+                "index": 0,
                 "logprobs": null,
                 "finish_reason": "stop"
-            }));
-        }
-
-        HttpResponse::Ok().json(json!({
-            "id": format!("cmpl-mock{}", rand::random::<u32>()),
-            "object": "text_completion",
-            "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
-            "model": payload.get("model").and_then(|m| m.as_str()).unwrap_or("mock-model"),
-            "choices": choices,
+            }],
             "usage": {
-                "prompt_tokens": 5 * prompts,
-                "completion_tokens": 10 * prompts,
-                "total_tokens": 15 * prompts
+                "prompt_tokens": 10,
+                "completion_tokens": 5,
+                "total_tokens": 15
             }
         }))
+        .into_response()
     }
 }
 
-async fn flush_cache_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn flush_cache_handler(State(config): State<Arc<RwLock<MockWorkerConfig>>>) -> Response {
     let config = config.read().await;
 
-    // Simulate failure based on fail_rate
     if should_fail(&config).await {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Random failure for testing"
-        }));
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": "Random failure for testing"
+            })),
+        )
+            .into_response();
     }
 
-    HttpResponse::Ok().json(json!({
-        "status": "success",
-        "message": "Cache flushed",
-        "freed_entries": 42
+    Json(json!({
+        "message": "Cache flushed successfully"
     }))
+    .into_response()
 }
 
-async fn v1_models_handler(config: web::Data<Arc<RwLock<MockWorkerConfig>>>) -> HttpResponse {
+async fn v1_models_handler(State(config): State<Arc<RwLock<MockWorkerConfig>>>) -> Response {
     let config = config.read().await;
 
-    // Simulate failure based on fail_rate
     if should_fail(&config).await {
-        return HttpResponse::InternalServerError().json(json!({
-            "error": "Random failure for testing"
-        }));
+        return (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            Json(json!({
+                "error": {
+                    "message": "Random failure for testing",
+                    "type": "internal_error",
+                    "code": "internal_error"
+                }
+            })),
+        )
+            .into_response();
     }
 
-    HttpResponse::Ok().json(json!({
+    let timestamp = SystemTime::now()
+        .duration_since(UNIX_EPOCH)
+        .unwrap()
+        .as_secs();
+
+    Json(json!({
         "object": "list",
         "data": [{
-            "id": "mock-model-v1",
+            "id": "mock-model",
             "object": "model",
-            "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
-            "owned_by": "sglang",
-            "permission": [{
-                "id": "modelperm-mock",
-                "object": "model_permission",
-                "created": SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs(),
-                "allow_create_engine": false,
-                "allow_sampling": true,
-                "allow_logprobs": true,
-                "allow_search_indices": false,
-                "allow_view": true,
-                "allow_fine_tuning": false,
-                "organization": "*",
-                "group": null,
-                "is_blocking": false
-            }],
-            "root": "mock-model-v1",
-            "parent": null
+            "created": timestamp,
+            "owned_by": "organization-owner"
         }]
     }))
+    .into_response()
 }
 
-#[cfg(test)]
-mod tests {
-    use super::*;
-
-    #[tokio::test]
-    async fn test_mock_worker_lifecycle() {
-        let config = MockWorkerConfig {
-            port: 18080,
+impl Default for MockWorkerConfig {
+    fn default() -> Self {
+        Self {
+            port: 0,
             worker_type: WorkerType::Regular,
             health_status: HealthStatus::Healthy,
             response_delay_ms: 0,
             fail_rate: 0.0,
-        };
-
-        let mut worker = MockWorker::new(config);
-
-        // Start the worker
-        let url = worker.start().await.unwrap();
-        assert_eq!(url, "http://127.0.0.1:18080");
-
-        // Give server time to start
-        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
-
-        // Test health endpoint
-        let client = reqwest::Client::new();
-        let resp = client.get(&format!("{}/health", url)).send().await.unwrap();
-
-        assert_eq!(resp.status(), 200);
-        let body: serde_json::Value = resp.json().await.unwrap();
-        assert_eq!(body["status"], "healthy");
-
-        // Update config to unhealthy
-        worker
-            .update_config(|c| c.health_status = HealthStatus::Unhealthy)
-            .await;
-
-        // Test health again
-        let resp = client.get(&format!("{}/health", url)).send().await.unwrap();
-
-        assert_eq!(resp.status(), 503);
-
-        // Stop the worker
-        worker.stop().await;
+        }
     }
 }
diff --git a/sgl-router/tests/common/mod.rs b/sgl-router/tests/common/mod.rs
index 47aafae32eee..436b57a6cdbf 100644
--- a/sgl-router/tests/common/mod.rs
+++ b/sgl-router/tests/common/mod.rs
@@ -1,62 +1,2 @@
 pub mod mock_worker;
-
-use actix_web::web;
-use reqwest::Client;
-use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
-use sglang_router_rs::server::AppState;
-
-/// Helper function to create test router configuration
-pub fn create_test_config(worker_urls: Vec<String>) -> RouterConfig {
-    RouterConfig {
-        mode: RoutingMode::Regular { worker_urls },
-        policy: PolicyConfig::Random,
-        host: "127.0.0.1".to_string(),
-        port: 3001,
-        max_payload_size: 256 * 1024 * 1024, // 256MB
-        request_timeout_secs: 600,
-        worker_startup_timeout_secs: 300,
-        worker_startup_check_interval_secs: 10,
-        dp_aware: false,
-        api_key: None,
-        discovery: None,
-        metrics: None,
-        log_dir: None,
-        log_level: None,
-        request_id_headers: None,
-    }
-}
-
-/// Helper function to create test router configuration with no health check
-pub fn create_test_config_no_workers() -> RouterConfig {
-    RouterConfig {
-        mode: RoutingMode::Regular {
-            worker_urls: vec![],
-        }, // Empty to skip health check
-        policy: PolicyConfig::Random,
-        host: "127.0.0.1".to_string(),
-        port: 3001,
-        max_payload_size: 256 * 1024 * 1024, // 256MB
-        request_timeout_secs: 600,
-        worker_startup_timeout_secs: 0, // No wait
-        worker_startup_check_interval_secs: 10,
-        dp_aware: false,
-        api_key: None,
-        discovery: None,
-        metrics: None,
-        log_dir: None,
-        log_level: None,
-        request_id_headers: None,
-    }
-}
-
-/// Helper function to create test app state
-pub async fn create_test_app_state(config: RouterConfig) -> Result<web::Data<AppState>, String> {
-    // Create a non-blocking client
-    let client = Client::builder()
-        .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
-        .build()
-        .map_err(|e| e.to_string())?;
-
-    let app_state = AppState::new(config, client)?;
-    Ok(web::Data::new(app_state))
-}
+pub mod test_app;
diff --git a/sgl-router/tests/common/test_app.rs b/sgl-router/tests/common/test_app.rs
new file mode 100644
index 000000000000..d4a001ce3905
--- /dev/null
+++ b/sgl-router/tests/common/test_app.rs
@@ -0,0 +1,42 @@
+use axum::Router;
+use reqwest::Client;
+use sglang_router_rs::{
+    config::RouterConfig,
+    routers::RouterTrait,
+    server::{build_app, AppState},
+};
+use std::sync::Arc;
+
+/// Create a test Axum application using the actual server's build_app function
+pub fn create_test_app(
+    router: Arc<dyn RouterTrait>,
+    client: Client,
+    router_config: &RouterConfig,
+) -> Router {
+    // Create AppState with the test router
+    let app_state = Arc::new(AppState {
+        router,
+        client,
+        _concurrency_limiter: Arc::new(tokio::sync::Semaphore::new(
+            router_config.max_concurrent_requests,
+        )),
+    });
+
+    // Configure request ID headers (use defaults if not specified)
+    let request_id_headers = router_config.request_id_headers.clone().unwrap_or_else(|| {
+        vec![
+            "x-request-id".to_string(),
+            "x-correlation-id".to_string(),
+            "x-trace-id".to_string(),
+            "request-id".to_string(),
+        ]
+    });
+
+    // Use the actual server's build_app function
+    build_app(
+        app_state,
+        router_config.max_payload_size,
+        request_id_headers,
+        router_config.cors_allowed_origins.clone(),
+    )
+}
diff --git a/sgl-router/tests/request_formats_test.rs b/sgl-router/tests/request_formats_test.rs
index b6bc6ac4a3f1..320ad893edbb 100644
--- a/sgl-router/tests/request_formats_test.rs
+++ b/sgl-router/tests/request_formats_test.rs
@@ -1,43 +1,27 @@
 mod common;
 
-use actix_web::{http::StatusCode, rt::System, test as actix_test, web, App};
 use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
 use reqwest::Client;
 use serde_json::json;
 use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
-use sglang_router_rs::server::{
-    add_worker, generate, v1_chat_completions, v1_completions, AppState,
-};
+use sglang_router_rs::routers::{RouterFactory, RouterTrait};
+use std::sync::Arc;
 
-/// Test context for request type testing
-struct RequestTestContext {
+/// Test context that manages mock workers
+struct TestContext {
     workers: Vec<MockWorker>,
-    app_state: web::Data<AppState>,
+    router: Arc<dyn RouterTrait>,
 }
 
-impl RequestTestContext {
+impl TestContext {
     async fn new(worker_configs: Vec<MockWorkerConfig>) -> Self {
-        let mut workers = Vec::new();
-        let mut worker_urls = Vec::new();
-
-        // Start mock workers
-        for config in worker_configs {
-            let mut worker = MockWorker::new(config);
-            let url = worker.start().await.unwrap();
-            worker_urls.push(url);
-            workers.push(worker);
-        }
-
-        tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
-
-        // Create router config
-        let config = RouterConfig {
+        let mut config = RouterConfig {
             mode: RoutingMode::Regular {
                 worker_urls: vec![],
             },
             policy: PolicyConfig::Random,
             host: "127.0.0.1".to_string(),
-            port: 3006,
+            port: 3003,
             max_payload_size: 256 * 1024 * 1024,
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 1,
@@ -49,528 +33,348 @@ impl RequestTestContext {
             log_dir: None,
             log_level: None,
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
-        let client = Client::builder()
-            .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
-            .build()
-            .unwrap();
-
-        let app_state = AppState::new(config, client).unwrap();
-        let app_state = web::Data::new(app_state);
+        let mut workers = Vec::new();
+        let mut worker_urls = Vec::new();
 
-        // Add workers via HTTP API
-        let app =
-            actix_test::init_service(App::new().app_data(app_state.clone()).service(add_worker))
-                .await;
+        for worker_config in worker_configs {
+            let mut worker = MockWorker::new(worker_config);
+            let url = worker.start().await.unwrap();
+            worker_urls.push(url);
+            workers.push(worker);
+        }
 
-        for url in &worker_urls {
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/add_worker?url={}", url))
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            assert!(resp.status().is_success());
+        if !workers.is_empty() {
+            tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
         }
 
-        tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
+        config.mode = RoutingMode::Regular { worker_urls };
 
-        Self { workers, app_state }
-    }
+        let router = tokio::task::spawn_blocking(move || RouterFactory::create_router(&config))
+            .await
+            .unwrap()
+            .unwrap();
+        let router = Arc::from(router);
 
-    async fn create_app(
-        &self,
-    ) -> impl actix_web::dev::Service<
-        actix_http::Request,
-        Response = actix_web::dev::ServiceResponse,
-        Error = actix_web::Error,
-    > {
-        actix_test::init_service(
-            App::new()
-                .app_data(self.app_state.clone())
-                .service(generate)
-                .service(v1_chat_completions)
-                .service(v1_completions),
-        )
-        .await
+        if !workers.is_empty() {
+            tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
+        }
+
+        Self { workers, router }
     }
 
     async fn shutdown(mut self) {
+        // Small delay to ensure any pending operations complete
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+
         for worker in &mut self.workers {
             worker.stop().await;
         }
+
+        // Another small delay to ensure cleanup completes
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+    }
+
+    async fn make_request(
+        &self,
+        endpoint: &str,
+        body: serde_json::Value,
+    ) -> Result<serde_json::Value, String> {
+        let client = Client::new();
+
+        // Get any worker URL for testing
+        let worker_urls = self.router.get_worker_urls();
+        if worker_urls.is_empty() {
+            return Err("No available workers".to_string());
+        }
+
+        let worker_url = &worker_urls[0];
+
+        let response = client
+            .post(&format!("{}{}", worker_url, endpoint))
+            .json(&body)
+            .send()
+            .await
+            .map_err(|e| format!("Request failed: {}", e))?;
+
+        if !response.status().is_success() {
+            return Err(format!("Request failed with status: {}", response.status()));
+        }
+
+        response
+            .json::<serde_json::Value>()
+            .await
+            .map_err(|e| format!("Failed to parse response: {}", e))
     }
 }
 
 #[cfg(test)]
-mod generate_input_format_tests {
+mod request_format_tests {
     use super::*;
 
-    #[test]
-    fn test_generate_with_text_input() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21001,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Standard text input
-            let payload = json!({
-                "text": "Hello world",
-                "stream": false
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.get("text").is_some());
-
-            ctx.shutdown().await;
-        });
-    }
-
-    #[test]
-    fn test_generate_with_prompt_input() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21002,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Prompt input (alternative to text)
-            let payload = json!({
-                "prompt": "Once upon a time",
-                "stream": false
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_generate_request_formats() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 19001,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Test 1: Basic text request
+        let payload = json!({
+            "text": "Hello, world!",
+            "stream": false
         });
-    }
 
-    #[test]
-    fn test_generate_with_input_ids() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21003,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // Input IDs (tokenized input)
-            let payload = json!({
-                "input_ids": [1, 2, 3, 4, 5],
-                "stream": false
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
-        });
-    }
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
 
-    #[test]
-    fn test_generate_with_all_parameters() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21004,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            // All generation parameters
-            let payload = json!({
-                "text": "Complete this",
+        // Test 2: Request with sampling parameters
+        let payload = json!({
+            "text": "Tell me a story",
+            "sampling_params": {
                 "temperature": 0.7,
-                "top_p": 0.9,
-                "top_k": 50,
                 "max_new_tokens": 100,
-                "min_new_tokens": 10,
-                "frequency_penalty": 0.5,
-                "presence_penalty": 0.3,
-                "repetition_penalty": 1.1,
-                "stop": [".", "!", "?"],
-                "stream": false
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+                "top_p": 0.9
+            },
+            "stream": false
         });
-    }
-}
 
-#[cfg(test)]
-mod chat_completion_format_tests {
-    use super::*;
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
 
-    #[test]
-    fn test_chat_with_system_message() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21010,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "messages": [
-                    {"role": "system", "content": "You are a helpful assistant."},
-                    {"role": "user", "content": "Hello!"}
-                ]
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/chat/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+        // Test 3: Request with input_ids
+        let payload = json!({
+            "input_ids": [1, 2, 3, 4, 5],
+            "sampling_params": {
+                "temperature": 0.0,
+                "max_new_tokens": 50
+            },
+            "stream": false
         });
+
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
+
+        ctx.shutdown().await;
     }
 
-    // Note: Function calling and tools tests are commented out because
-    // they require special handling in the mock worker that's not implemented yet.
-    // In production, these would be forwarded to the actual model.
-
-    // #[test]
-    // fn test_chat_with_function_calling() {
-    //     // Test would go here when mock worker supports function calling
-    // }
-
-    // #[test]
-    // fn test_chat_with_tools() {
-    //     // Test would go here when mock worker supports tools
-    // }
-
-    #[test]
-    fn test_chat_with_response_format() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21013,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "messages": [
-                    {"role": "user", "content": "Return JSON"}
-                ],
-                "response_format": {
-                    "type": "json_object"
-                }
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/chat/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_v1_chat_completions_formats() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 19002,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Test 1: Basic chat completion
+        let payload = json!({
+            "model": "test-model",
+            "messages": [
+                {"role": "system", "content": "You are a helpful assistant."},
+                {"role": "user", "content": "Hello!"}
+            ],
+            "stream": false
         });
+
+        let result = ctx.make_request("/v1/chat/completions", payload).await;
+        assert!(result.is_ok());
+
+        let response = result.unwrap();
+        assert!(response.get("choices").is_some());
+        assert!(response.get("id").is_some());
+        assert_eq!(
+            response.get("object").and_then(|v| v.as_str()),
+            Some("chat.completion")
+        );
+
+        // Test 2: Chat completion with parameters
+        let payload = json!({
+            "model": "test-model",
+            "messages": [
+                {"role": "user", "content": "Tell me a joke"}
+            ],
+            "temperature": 0.8,
+            "max_tokens": 150,
+            "top_p": 0.95,
+            "stream": false
+        });
+
+        let result = ctx.make_request("/v1/chat/completions", payload).await;
+        assert!(result.is_ok());
+
+        ctx.shutdown().await;
     }
-}
 
-#[cfg(test)]
-mod completion_format_tests {
-    use super::*;
+    #[tokio::test]
+    async fn test_v1_completions_formats() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 19003,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Test 1: Basic completion
+        let payload = json!({
+            "model": "test-model",
+            "prompt": "Once upon a time",
+            "max_tokens": 50,
+            "stream": false
+        });
 
-    #[test]
-    fn test_completion_with_single_prompt() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21020,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "prompt": "Once upon a time",
-                "max_tokens": 50
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            assert!(body.get("choices").is_some());
-
-            ctx.shutdown().await;
+        let result = ctx.make_request("/v1/completions", payload).await;
+        assert!(result.is_ok());
+
+        let response = result.unwrap();
+        assert!(response.get("choices").is_some());
+        assert_eq!(
+            response.get("object").and_then(|v| v.as_str()),
+            Some("text_completion")
+        );
+
+        // Test 2: Completion with array prompt
+        let payload = json!({
+            "model": "test-model",
+            "prompt": ["First prompt", "Second prompt"],
+            "temperature": 0.5,
+            "stream": false
         });
-    }
 
-    #[test]
-    fn test_completion_with_batch_prompts() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21021,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "prompt": ["First prompt", "Second prompt", "Third prompt"],
-                "max_tokens": 30
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+        let result = ctx.make_request("/v1/completions", payload).await;
+        assert!(result.is_ok());
+
+        // Test 3: Completion with logprobs
+        let payload = json!({
+            "model": "test-model",
+            "prompt": "The capital of France is",
+            "max_tokens": 10,
+            "logprobs": 5,
+            "stream": false
         });
+
+        let result = ctx.make_request("/v1/completions", payload).await;
+        assert!(result.is_ok());
+
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_completion_with_echo() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21022,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "prompt": "Echo this prompt",
-                "echo": true,
-                "max_tokens": 20
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_batch_requests() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 19004,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Test batch text generation
+        let payload = json!({
+            "text": ["First text", "Second text", "Third text"],
+            "sampling_params": {
+                "temperature": 0.7,
+                "max_new_tokens": 50
+            },
+            "stream": false
         });
-    }
 
-    #[test]
-    fn test_completion_with_logprobs() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21023,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "prompt": "Calculate probability",
-                "logprobs": 5,
-                "max_tokens": 10
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
+
+        // Test batch with input_ids
+        let payload = json!({
+            "input_ids": [[1, 2, 3], [4, 5, 6], [7, 8, 9]],
+            "stream": false
         });
+
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
+
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_completion_with_suffix() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21024,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "prompt": "Insert text here: ",
-                "suffix": " and continue from here.",
-                "max_tokens": 20
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_special_parameters() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 19005,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Test with return_logprob
+        let payload = json!({
+            "text": "Test",
+            "return_logprob": true,
+            "stream": false
         });
-    }
-}
 
-#[cfg(test)]
-mod stop_sequence_tests {
-    use super::*;
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
 
-    #[test]
-    fn test_stop_sequences_array() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21030,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "text": "Generate until stop",
-                "stop": [".", "!", "?", "\n"],
-                "stream": false
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+        // Test with json_schema
+        let payload = json!({
+            "text": "Generate JSON",
+            "sampling_params": {
+                "temperature": 0.0,
+                "json_schema": "$$ANY$$"
+            },
+            "stream": false
         });
-    }
 
-    #[test]
-    fn test_stop_sequences_string() {
-        System::new().block_on(async {
-            let ctx = RequestTestContext::new(vec![MockWorkerConfig {
-                port: 21031,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "text": "Generate until stop",
-                "stop": "\n\n",
-                "stream": false
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
+
+        // Test with ignore_eos
+        let payload = json!({
+            "text": "Continue forever",
+            "sampling_params": {
+                "temperature": 0.7,
+                "max_new_tokens": 100,
+                "ignore_eos": true
+            },
+            "stream": false
         });
+
+        let result = ctx.make_request("/generate", payload).await;
+        assert!(result.is_ok());
+
+        ctx.shutdown().await;
+    }
+
+    #[tokio::test]
+    async fn test_error_handling() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 19006,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Test with empty body - should still work with mock worker
+        let payload = json!({});
+
+        let result = ctx.make_request("/generate", payload).await;
+        // Mock worker accepts empty body
+        assert!(result.is_ok());
+
+        ctx.shutdown().await;
     }
 }
diff --git a/sgl-router/tests/streaming_tests.rs b/sgl-router/tests/streaming_tests.rs
index 3fce7b8350dc..b64aa9a4a527 100644
--- a/sgl-router/tests/streaming_tests.rs
+++ b/sgl-router/tests/streaming_tests.rs
@@ -1,47 +1,28 @@
 mod common;
 
-use actix_web::{http::StatusCode, rt::System, test as actix_test, web, App};
-use bytes::Bytes;
 use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
+use futures_util::StreamExt;
 use reqwest::Client;
 use serde_json::json;
 use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
-use sglang_router_rs::server::{
-    add_worker, generate, list_workers, v1_chat_completions, v1_completions, AppState,
-};
-use std::time::Instant;
+use sglang_router_rs::routers::{RouterFactory, RouterTrait};
+use std::sync::Arc;
 
-/// Test context for streaming tests
-struct StreamingTestContext {
+/// Test context that manages mock workers
+struct TestContext {
     workers: Vec<MockWorker>,
-    app_state: web::Data<AppState>,
+    router: Arc<dyn RouterTrait>,
 }
 
-impl StreamingTestContext {
+impl TestContext {
     async fn new(worker_configs: Vec<MockWorkerConfig>) -> Self {
-        let mut workers = Vec::new();
-        let mut worker_urls = Vec::new();
-
-        // Start mock workers
-        for config in worker_configs {
-            let mut worker = MockWorker::new(config);
-            let url = worker.start().await.unwrap();
-            worker_urls.push(url);
-            workers.push(worker);
-        }
-
-        // Give workers time to start
-        tokio::time::sleep(tokio::time::Duration::from_millis(50)).await;
-
-        // Create router config with empty worker URLs initially
-        // We'll add workers via the /add_worker endpoint
-        let config = RouterConfig {
+        let mut config = RouterConfig {
             mode: RoutingMode::Regular {
                 worker_urls: vec![],
             },
             policy: PolicyConfig::Random,
             host: "127.0.0.1".to_string(),
-            port: 3003,
+            port: 3004,
             max_payload_size: 256 * 1024 * 1024,
             request_timeout_secs: 600,
             worker_startup_timeout_secs: 1,
@@ -53,530 +34,325 @@ impl StreamingTestContext {
             log_dir: None,
             log_level: None,
             request_id_headers: None,
+            max_concurrent_requests: 64,
+            cors_allowed_origins: vec![],
         };
 
-        let client = Client::builder()
-            .timeout(std::time::Duration::from_secs(config.request_timeout_secs))
-            .build()
-            .unwrap();
-
-        let app_state = AppState::new(config, client).unwrap();
-        let app_state = web::Data::new(app_state);
+        let mut workers = Vec::new();
+        let mut worker_urls = Vec::new();
 
-        // Add workers via HTTP API
-        let app =
-            actix_test::init_service(App::new().app_data(app_state.clone()).service(add_worker))
-                .await;
+        for worker_config in worker_configs {
+            let mut worker = MockWorker::new(worker_config);
+            let url = worker.start().await.unwrap();
+            worker_urls.push(url);
+            workers.push(worker);
+        }
 
-        for url in &worker_urls {
-            let req = actix_test::TestRequest::post()
-                .uri(&format!("/add_worker?url={}", url))
-                .to_request();
-            let resp = actix_test::call_service(&app, req).await;
-            assert!(resp.status().is_success());
+        if !workers.is_empty() {
+            tokio::time::sleep(tokio::time::Duration::from_millis(200)).await;
         }
 
-        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+        config.mode = RoutingMode::Regular { worker_urls };
 
-        Self { workers, app_state }
-    }
+        let router = tokio::task::spawn_blocking(move || RouterFactory::create_router(&config))
+            .await
+            .unwrap()
+            .unwrap();
+        let router = Arc::from(router);
 
-    async fn create_app(
-        &self,
-    ) -> impl actix_web::dev::Service<
-        actix_http::Request,
-        Response = actix_web::dev::ServiceResponse,
-        Error = actix_web::Error,
-    > {
-        actix_test::init_service(
-            App::new()
-                .app_data(self.app_state.clone())
-                .service(generate)
-                .service(v1_chat_completions)
-                .service(v1_completions)
-                .service(list_workers),
-        )
-        .await
+        if !workers.is_empty() {
+            tokio::time::sleep(tokio::time::Duration::from_millis(500)).await;
+        }
+
+        Self { workers, router }
     }
 
     async fn shutdown(mut self) {
+        // Small delay to ensure any pending operations complete
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+
         for worker in &mut self.workers {
             worker.stop().await;
         }
-    }
-}
 
-/// Parse SSE (Server-Sent Events) from response body
-async fn parse_sse_stream(body: Bytes) -> Vec<serde_json::Value> {
-    let text = String::from_utf8_lossy(&body);
-    let mut events = Vec::new();
+        // Another small delay to ensure cleanup completes
+        tokio::time::sleep(tokio::time::Duration::from_millis(100)).await;
+    }
 
-    for line in text.lines() {
-        if line.starts_with("data: ") {
-            let data = &line[6..];
-            if data == "[DONE]" {
-                continue;
-            }
-            if let Ok(json) = serde_json::from_str::<serde_json::Value>(data) {
-                events.push(json);
-            }
+    async fn make_streaming_request(
+        &self,
+        endpoint: &str,
+        body: serde_json::Value,
+    ) -> Result<Vec<String>, String> {
+        let client = Client::new();
+
+        // Get any worker URL for testing
+        let worker_urls = self.router.get_worker_urls();
+        if worker_urls.is_empty() {
+            return Err("No available workers".to_string());
         }
-    }
 
-    events
-}
+        let worker_url = &worker_urls[0];
 
-#[cfg(test)]
-mod basic_streaming_tests {
-    use super::*;
+        let response = client
+            .post(&format!("{}{}", worker_url, endpoint))
+            .json(&body)
+            .send()
+            .await
+            .map_err(|e| format!("Request failed: {}", e))?;
 
-    #[test]
-    fn test_router_uses_mock_workers() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19000,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+        if !response.status().is_success() {
+            return Err(format!("Request failed with status: {}", response.status()));
+        }
 
-            let app = ctx.create_app().await;
+        // Check if it's a streaming response
+        let content_type = response
+            .headers()
+            .get("content-type")
+            .and_then(|v| v.to_str().ok())
+            .unwrap_or("");
 
-            // Verify workers are registered with the router
-            let req = actix_test::TestRequest::get()
-                .uri("/list_workers")
-                .to_request();
+        if !content_type.contains("text/event-stream") {
+            return Err("Response is not a stream".to_string());
+        }
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        let mut stream = response.bytes_stream();
+        let mut events = Vec::new();
 
-            let body: serde_json::Value = actix_test::read_body_json(resp).await;
-            let urls = body["urls"].as_array().unwrap();
-            assert_eq!(urls.len(), 1);
-            assert!(urls[0].as_str().unwrap().contains("19000"));
+        while let Some(chunk) = stream.next().await {
+            if let Ok(bytes) = chunk {
+                let text = String::from_utf8_lossy(&bytes);
+                for line in text.lines() {
+                    if line.starts_with("data: ") {
+                        events.push(line[6..].to_string());
+                    }
+                }
+            }
+        }
 
-            ctx.shutdown().await;
-        });
+        Ok(events)
     }
+}
 
-    #[test]
-    fn test_generate_streaming() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19001,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "text": "Hello, streaming world!",
-                "stream": true,
-                "max_new_tokens": 50
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            // Check content type
-            let content_type = resp.headers().get("content-type").unwrap();
-            assert_eq!(content_type, "text/event-stream");
-
-            // Read streaming body
-            let body = actix_test::read_body(resp).await;
-            let events = parse_sse_stream(body).await;
-
-            // Verify we got multiple chunks
-            assert!(events.len() > 1);
-
-            // Verify first chunk has text
-            assert!(events[0].get("text").is_some());
-
-            // Verify last chunk has finish_reason in meta_info
-            let last_event = events.last().unwrap();
-            assert!(last_event.get("meta_info").is_some());
-            let meta_info = &last_event["meta_info"];
-            assert!(meta_info.get("finish_reason").is_some());
+#[cfg(test)]
+mod streaming_tests {
+    use super::*;
 
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_generate_streaming() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 20001,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 10,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let payload = json!({
+            "text": "Stream test",
+            "stream": true,
+            "sampling_params": {
+                "temperature": 0.7,
+                "max_new_tokens": 10
+            }
         });
-    }
-
-    #[test]
-    fn test_chat_completion_streaming() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19002,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "messages": [
-                    {"role": "user", "content": "Hello, streaming!"}
-                ],
-                "stream": true
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/chat/completions")
-                .set_json(&payload)
-                .to_request();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-            assert_eq!(
-                resp.headers().get("content-type").unwrap(),
-                "text/event-stream"
-            );
+        let result = ctx.make_streaming_request("/generate", payload).await;
+        assert!(result.is_ok());
 
-            let body = actix_test::read_body(resp).await;
-            let events = parse_sse_stream(body).await;
+        let events = result.unwrap();
+        // Should have at least one data chunk and [DONE]
+        assert!(events.len() >= 2);
+        assert_eq!(events.last().unwrap(), "[DONE]");
 
-            // Verify we got streaming events
-            // Note: Mock doesn't provide full OpenAI format, just verify we got chunks
-            assert!(!events.is_empty(), "Should have received streaming events");
+        ctx.shutdown().await;
+    }
 
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_v1_chat_completions_streaming() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 20002,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 10,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let payload = json!({
+            "model": "test-model",
+            "messages": [
+                {"role": "user", "content": "Count to 3"}
+            ],
+            "stream": true,
+            "max_tokens": 20
         });
-    }
 
-    #[test]
-    fn test_completion_streaming() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19003,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
+        let result = ctx
+            .make_streaming_request("/v1/chat/completions", payload)
             .await;
+        assert!(result.is_ok());
+
+        let events = result.unwrap();
+        assert!(events.len() >= 2); // At least one chunk + [DONE]
+
+        // Verify events are valid JSON (except [DONE])
+        for event in &events {
+            if event != "[DONE]" {
+                let parsed: Result<serde_json::Value, _> = serde_json::from_str(event);
+                assert!(parsed.is_ok(), "Invalid JSON in SSE event: {}", event);
+
+                let json = parsed.unwrap();
+                assert_eq!(
+                    json.get("object").and_then(|v| v.as_str()),
+                    Some("chat.completion.chunk")
+                );
+            }
+        }
 
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "model": "test-model",
-                "prompt": "Once upon a time",
-                "stream": true,
-                "max_tokens": 30
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/v1/completions")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-            assert_eq!(
-                resp.headers().get("content-type").unwrap(),
-                "text/event-stream"
-            );
-
-            let _body = actix_test::read_body(resp).await;
-
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
-}
-
-#[cfg(test)]
-mod streaming_performance_tests {
-    use super::*;
-
-    #[test]
-    fn test_streaming_first_token_latency() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19010,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 10, // Small delay to simulate processing
-                fail_rate: 0.0,
-            }])
-            .await;
 
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "text": "Measure latency",
-                "stream": true
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let start = Instant::now();
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            // Note: actix_test framework doesn't provide easy access to streaming chunks.
-            // The ideal solution would be to:
-            // 1. Start the router as a real HTTP server
-            // 2. Use reqwest::Client to make streaming requests
-            // 3. Measure time to first chunk properly
-            //
-            // For now, we verify that streaming responses work correctly,
-            // but cannot accurately measure TTFT with actix_test.
-            let body = actix_test::read_body(resp).await;
-            let total_time = start.elapsed();
-
-            // Verify we got streaming data
-            let events = parse_sse_stream(body).await;
-            assert!(!events.is_empty(), "Should receive streaming events");
-
-            // With mock worker delay of 10ms, total time should still be reasonable
-            assert!(
-                total_time.as_millis() < 1000,
-                "Total response took {}ms",
-                total_time.as_millis()
-            );
-
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_v1_completions_streaming() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 20003,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 10,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let payload = json!({
+            "model": "test-model",
+            "prompt": "Once upon a time",
+            "stream": true,
+            "max_tokens": 15
         });
-    }
 
-    #[test]
-    fn test_concurrent_streaming_requests() {
-        System::new().block_on(async {
-            // Test basic concurrent streaming functionality
-            let ctx = StreamingTestContext::new(vec![
-                MockWorkerConfig {
-                    port: 19050,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-                MockWorkerConfig {
-                    port: 19051,
-                    worker_type: WorkerType::Regular,
-                    health_status: HealthStatus::Healthy,
-                    response_delay_ms: 0,
-                    fail_rate: 0.0,
-                },
-            ])
-            .await;
+        let result = ctx.make_streaming_request("/v1/completions", payload).await;
+        assert!(result.is_ok());
 
-            let app = ctx.create_app().await;
+        let events = result.unwrap();
+        assert!(events.len() >= 2); // At least one chunk + [DONE]
 
-            // Send a moderate number of concurrent requests for unit testing
-            use futures::future::join_all;
-            let mut futures = Vec::new();
+        ctx.shutdown().await;
+    }
 
-            for i in 0..20 {
-                let app_ref = &app;
-                let future = async move {
-                    let payload = json!({
-                        "text": format!("Concurrent request {}", i),
-                        "stream": true,
-                        "max_new_tokens": 5
-                    });
+    #[tokio::test]
+    async fn test_streaming_with_error() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 20004,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 0,
+            fail_rate: 1.0, // Always fail
+        }])
+        .await;
+
+        let payload = json!({
+            "text": "This should fail",
+            "stream": true
+        });
 
-                    let req = actix_test::TestRequest::post()
-                        .uri("/generate")
-                        .set_json(&payload)
-                        .to_request();
+        let result = ctx.make_streaming_request("/generate", payload).await;
+        // With fail_rate: 1.0, the request should fail
+        assert!(result.is_err());
 
-                    let resp = actix_test::call_service(app_ref, req).await;
-                    resp.status() == StatusCode::OK
-                };
+        ctx.shutdown().await;
+    }
 
-                futures.push(future);
+    #[tokio::test]
+    async fn test_streaming_timeouts() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 20005,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 100, // Slow response
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        let payload = json!({
+            "text": "Slow stream",
+            "stream": true,
+            "sampling_params": {
+                "max_new_tokens": 5
             }
-
-            let results = join_all(futures).await;
-            let successful = results.iter().filter(|&&r| r).count();
-
-            // All requests should succeed in a unit test environment
-            assert_eq!(
-                successful, 20,
-                "Expected all 20 requests to succeed, got {}",
-                successful
-            );
-
-            ctx.shutdown().await;
         });
-    }
-
-    // Note: Extreme load testing has been moved to benches/streaming_load_test.rs
-    // Run with: cargo run --release --bin streaming_load_test 10000 10
-    // Or: cargo bench streaming_load_test
-}
-
-#[cfg(test)]
-mod streaming_error_tests {
-    use super::*;
-
-    #[test]
-    fn test_streaming_with_worker_failure() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19020,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 1.0, // Always fail
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
 
-            let payload = json!({
-                "text": "This should fail",
-                "stream": true
-            });
+        let start = std::time::Instant::now();
+        let result = ctx.make_streaming_request("/generate", payload).await;
+        let elapsed = start.elapsed();
 
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
+        assert!(result.is_ok());
+        let events = result.unwrap();
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::INTERNAL_SERVER_ERROR);
+        // Should have received multiple chunks over time
+        assert!(!events.is_empty());
+        assert!(elapsed.as_millis() >= 100); // At least one delay
 
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_streaming_with_invalid_payload() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19021,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                // Missing required fields
-                "stream": true
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            // TODO: Router should validate payload and reject requests with missing content fields
-            // Currently, the router accepts requests with no prompt/text/input_ids which is a bug
-            // This should return StatusCode::BAD_REQUEST once proper validation is implemented
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            ctx.shutdown().await;
+    #[tokio::test]
+    async fn test_batch_streaming() {
+        let ctx = TestContext::new(vec![MockWorkerConfig {
+            port: 20006,
+            worker_type: WorkerType::Regular,
+            health_status: HealthStatus::Healthy,
+            response_delay_ms: 10,
+            fail_rate: 0.0,
+        }])
+        .await;
+
+        // Batch request with streaming
+        let payload = json!({
+            "text": ["First", "Second", "Third"],
+            "stream": true,
+            "sampling_params": {
+                "max_new_tokens": 5
+            }
         });
-    }
-}
 
-#[cfg(test)]
-mod streaming_content_tests {
-    use super::*;
-
-    #[test]
-    fn test_unicode_streaming() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19030,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
+        let result = ctx.make_streaming_request("/generate", payload).await;
+        assert!(result.is_ok());
 
-            let app = ctx.create_app().await;
+        let events = result.unwrap();
+        // Should have multiple events for batch
+        assert!(events.len() >= 4); // At least 3 responses + [DONE]
 
-            let payload = json!({
-                "text": "Test Unicode: 你好世界 🌍 émojis",
-                "stream": true
-            });
-
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
-
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
-
-            let body = actix_test::read_body(resp).await;
-            let events = parse_sse_stream(body).await;
-
-            // Verify events were parsed correctly (Unicode didn't break parsing)
-            assert!(!events.is_empty());
-
-            ctx.shutdown().await;
-        });
+        ctx.shutdown().await;
     }
 
-    #[test]
-    fn test_incremental_text_building() {
-        System::new().block_on(async {
-            let ctx = StreamingTestContext::new(vec![MockWorkerConfig {
-                port: 19031,
-                worker_type: WorkerType::Regular,
-                health_status: HealthStatus::Healthy,
-                response_delay_ms: 0,
-                fail_rate: 0.0,
-            }])
-            .await;
-
-            let app = ctx.create_app().await;
-
-            let payload = json!({
-                "text": "Build text incrementally",
-                "stream": true
-            });
+    #[tokio::test]
+    async fn test_sse_format_parsing() {
+        // Test SSE format parsing
+        let parse_sse_chunk = |chunk: &[u8]| -> Vec<String> {
+            let text = String::from_utf8_lossy(chunk);
+            text.lines()
+                .filter(|line| line.starts_with("data: "))
+                .map(|line| line[6..].to_string())
+                .collect()
+        };
 
-            let req = actix_test::TestRequest::post()
-                .uri("/generate")
-                .set_json(&payload)
-                .to_request();
+        let sse_data =
+            b"data: {\"text\":\"Hello\"}\n\ndata: {\"text\":\" world\"}\n\ndata: [DONE]\n\n";
+        let events = parse_sse_chunk(sse_data);
 
-            let resp = actix_test::call_service(&app, req).await;
-            assert_eq!(resp.status(), StatusCode::OK);
+        assert_eq!(events.len(), 3);
+        assert_eq!(events[0], "{\"text\":\"Hello\"}");
+        assert_eq!(events[1], "{\"text\":\" world\"}");
+        assert_eq!(events[2], "[DONE]");
 
-            let body = actix_test::read_body(resp).await;
-            let events = parse_sse_stream(body).await;
+        // Test with mixed content
+        let mixed = b"event: message\ndata: {\"test\":true}\n\n: comment\ndata: [DONE]\n\n";
+        let events = parse_sse_chunk(mixed);
 
-            // Build complete text from chunks
-            let mut complete_text = String::new();
-            for event in &events {
-                if let Some(text) = event.get("text").and_then(|t| t.as_str()) {
-                    complete_text.push_str(text);
-                }
-            }
-
-            // Verify we got some text
-            assert!(!complete_text.is_empty());
-
-            ctx.shutdown().await;
-        });
+        assert_eq!(events.len(), 2);
+        assert_eq!(events[0], "{\"test\":true}");
+        assert_eq!(events[1], "[DONE]");
     }
 }
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index 8bf0c2ee28c1..aea6df4d35e7 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -176,6 +176,8 @@ mod test_pd_routing {
                 log_dir: None,
                 log_level: None,
                 request_id_headers: None,
+                max_concurrent_requests: 64,
+                cors_allowed_origins: vec![],
             };
 
             // Router creation will fail due to health checks, but config should be valid

From 9b9e82539b77ff81fb3bc255ea3b28e03adbe8a7 Mon Sep 17 00:00:00 2001
From: Qi Yuhang <45795032+HydraQYH@users.noreply.github.com>
Date: Thu, 31 Jul 2025 10:49:35 +0800
Subject: [PATCH 233/396] [Fix]Fix index oob in get_group_gemm_starts kernel.
 (#8564)

---
 sgl-kernel/csrc/moe/cutlass_moe_helper.cu | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/sgl-kernel/csrc/moe/cutlass_moe_helper.cu b/sgl-kernel/csrc/moe/cutlass_moe_helper.cu
index e8af2093e3ee..576ad233bd7a 100644
--- a/sgl-kernel/csrc/moe/cutlass_moe_helper.cu
+++ b/sgl-kernel/csrc/moe/cutlass_moe_helper.cu
@@ -31,7 +31,7 @@ __global__ void get_group_gemm_starts(
     int* problem_sizes,
     int* problem_sizes_transpose,
     bool transpose = false) {
-  int expert_id = threadIdx.x;
+  int64_t expert_id = static_cast<int64_t>(threadIdx.x);
 
   if (expert_id >= gridDim.x * blockDim.x) {
     return;
@@ -46,11 +46,11 @@ __global__ void get_group_gemm_starts(
     problem_sizes_transpose[expert_id * 3 + 2] = k;
   }
 
-  int32_t expert_offset = expert_offsets[expert_id];
-  int a_stride = 0;
-  int b_stride = 0;
-  int a_scale_stride = 0;
-  int b_scale_stride = 0;
+  int64_t expert_offset = static_cast<int64_t>(expert_offsets[expert_id]);
+  int64_t a_stride = 0;
+  int64_t b_stride = 0;
+  int64_t a_scale_stride = 0;
+  int64_t b_scale_stride = 0;
   if (!transpose) {
     a_stride = expert_offset * k;
     b_stride = expert_id * k * n;

From 67e53b16f5f18fdfb2a08a42b77af8dd29057459 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Wed, 30 Jul 2025 19:50:54 -0700
Subject: [PATCH 234/396] Bump transfomers to 4.54.1 to fix Gemma cache issue.
 (#8541)

---
 python/pyproject.toml                     | 2 +-
 test/srt/models/test_generation_models.py | 3 +--
 2 files changed, 2 insertions(+), 3 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 980cb6f8c4f2..1924352d082d 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -45,7 +45,7 @@ runtime_common = [
     "soundfile==0.13.1",
     "scipy",
     "torchao==0.9.0",
-    "transformers==4.54.0",
+    "transformers==4.54.1",
     "timm==1.0.16",
     "uvicorn",
     "uvloop",
diff --git a/test/srt/models/test_generation_models.py b/test/srt/models/test_generation_models.py
index 4ed9d4e12c7c..daa99001d7b7 100644
--- a/test/srt/models/test_generation_models.py
+++ b/test/srt/models/test_generation_models.py
@@ -51,8 +51,7 @@ class ModelCase:
 # Popular models that run on the CI
 CI_MODELS = [
     ModelCase("meta-llama/Llama-3.1-8B-Instruct"),
-    # TODO: Gemma is broken by the bug introduced in the latest transformers version, we should restore once its fixed: https://github.com/huggingface/transformers/issues/39711
-    # ModelCase("google/gemma-2-2b"),
+    ModelCase("google/gemma-2-2b"),
 ]
 
 # the complete set of models to test sglang's generation model

From 659bfd10239e284a119bdece95eb502c22dbc943 Mon Sep 17 00:00:00 2001
From: Charles Chen <pychen96@gmail.com>
Date: Wed, 30 Jul 2025 20:28:07 -0700
Subject: [PATCH 235/396] Add GKE's default CUDA runtime lib location to PATH
 and LD_LIBRARY_PATH. (#8544)

---
 docker/Dockerfile | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 1e3872c9e76e..7fe76d2825ec 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -8,6 +8,9 @@ ENV DEBIAN_FRONTEND=noninteractive \
     CUDA_HOME=/usr/local/cuda \
     GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/ \
     NVSHMEM_DIR=/sgl-workspace/nvshmem/install
+# Add GKE default lib and bin locations.
+ENV PATH="${PATH}:/usr/local/nvidia/bin" \
+    LD_LIBRARY_PATH="${LD_LIBRARY_PATH}:/usr/local/nvidia/lib:/usr/local/nvidia/lib64"
 
 # Set timezone and install all packages
 RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \

From 59aab76f0a8ccdb8babd9fd278d09a13e665bdc2 Mon Sep 17 00:00:00 2001
From: Binyao Jiang <byjiang1996@gmail.com>
Date: Wed, 30 Jul 2025 21:23:09 -0700
Subject: [PATCH 236/396] Bug: Fix google gemma3n-mm audio input not working
 bug (#8365)

---
 .../sglang/srt/multimodal/processors/base_processor.py   | 7 ++++++-
 test/srt/test_vision_openai_server_b.py                  | 9 ++++++---
 2 files changed, 12 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index c7df9265d34f..c98720652dae 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -192,7 +192,12 @@ def __init__(
 
         # name of the feature filed
         # TODO: pass from processors
-        self.FEATURE_NAMES = ["pixel_values", "pixel_values_videos", "audio_features"]
+        self.FEATURE_NAMES = [
+            "pixel_values",
+            "pixel_values_videos",
+            "audio_features",
+            "input_features",
+        ]
 
     def process_mm_data(
         self, input_text, images=None, videos=None, audios=None, **kwargs
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index f5b33a72e380..533312aafccd 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -171,6 +171,11 @@ def setUpClass(cls):
         )
         cls.base_url += "/v1"
 
+    def test_audio_chat_completion(self):
+        self._test_audio_speech_completion()
+        # This _test_audio_ambient_completion test is way too complicated to pass for a small LLM
+        # self._test_audio_ambient_completion()
+
 
 class TestKimiVLServer(TestOpenAIVisionServer):
     @classmethod
@@ -252,9 +257,7 @@ def get_audio_request_kwargs(self):
 
     def test_audio_chat_completion(self):
         self._test_audio_speech_completion()
-        # TODO: currently phi4-mm cannot pass this test.
-        # We are investigating this issue.
-        # Response: La ciudad está situada en la costa este de la isla, en la desembocadura del río St. Lawrence.
+        # This _test_audio_ambient_completion test is way too complicated to pass for a small LLM
         # self._test_audio_ambient_completion()
 
 

From a5f5ab4030a17db00e88009706511101013fd963 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Wed, 30 Jul 2025 22:19:55 -0700
Subject: [PATCH 237/396] update sgl-kernel for EP: kernel part  (#8514)

Co-authored-by: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Co-authored-by: Ke Bao <ispobaoke@gmail.com>
---
 sgl-kernel/benchmark/bench_moe_align_block_size.py | 10 ----------
 sgl-kernel/csrc/common_extension.cc                |  2 +-
 sgl-kernel/csrc/moe/moe_align_kernel.cu            | 13 ++++++-------
 sgl-kernel/csrc/torch_extension_rocm.cc            |  2 +-
 sgl-kernel/include/sgl_kernel_ops.h                |  1 -
 sgl-kernel/python/sgl_kernel/moe.py                |  2 --
 sgl-kernel/tests/test_moe_align.py                 | 14 ++++----------
 7 files changed, 12 insertions(+), 32 deletions(-)

diff --git a/sgl-kernel/benchmark/bench_moe_align_block_size.py b/sgl-kernel/benchmark/bench_moe_align_block_size.py
index 30eae0b9a97a..ed8a7b8f32c0 100644
--- a/sgl-kernel/benchmark/bench_moe_align_block_size.py
+++ b/sgl-kernel/benchmark/bench_moe_align_block_size.py
@@ -164,9 +164,6 @@ def calculate_diff(num_tokens, num_experts=256, block_size=128, topk=8):
     num_tokens_post_pad_cuda = torch.empty(
         (1), dtype=torch.int32, device=topk_ids.device
     )
-    token_cnts_buffer = torch.zeros(
-        (num_experts + 1) * num_experts, dtype=torch.int32, device=topk_ids.device
-    )
     cumsum_buffer = torch.zeros(
         num_experts + 1, dtype=torch.int32, device=topk_ids.device
     )
@@ -189,7 +186,6 @@ def calculate_diff(num_tokens, num_experts=256, block_size=128, topk=8):
         sorted_ids_cuda,
         expert_ids_cuda,
         num_tokens_post_pad_cuda,
-        token_cnts_buffer,
         cumsum_buffer,
     )
     moe_align_block_size_triton(
@@ -273,11 +269,6 @@ def sgl_moe_align_block_size_with_empty(
     if not pad_sorted_token_ids:
         sorted_ids.fill_(topk_ids.numel())
 
-    token_cnts_buffer = torch.empty(
-        (num_experts + 1) * num_experts,
-        dtype=torch.int32,
-        device=topk_ids.device,
-    )
     cumsum_buffer = torch.empty(
         num_experts + 1, dtype=torch.int32, device=topk_ids.device
     )
@@ -289,7 +280,6 @@ def sgl_moe_align_block_size_with_empty(
         sorted_ids.clone(),
         expert_ids.clone(),
         num_tokens_post_pad.clone(),
-        token_cnts_buffer,
         cumsum_buffer,
         pad_sorted_token_ids,
     )
diff --git a/sgl-kernel/csrc/common_extension.cc b/sgl-kernel/csrc/common_extension.cc
index 623fbefb514b..2959399007dd 100644
--- a/sgl-kernel/csrc/common_extension.cc
+++ b/sgl-kernel/csrc/common_extension.cc
@@ -165,7 +165,7 @@ TORCH_LIBRARY_FRAGMENT(sgl_kernel, m) {
    */
   m.def(
       "moe_align_block_size(Tensor topk_ids, int num_experts, int block_size, Tensor! sorted_token_ids, Tensor! "
-      "experts_ids, Tensor! num_tokens_post_pad, Tensor! token_cnts_buffer, Tensor! cumsum_buffer, bool "
+      "experts_ids, Tensor! num_tokens_post_pad, Tensor! cumsum_buffer, bool "
       "pad_sorted_token_ids) -> ()");
   m.impl("moe_align_block_size", torch::kCUDA, &moe_align_block_size);
 
diff --git a/sgl-kernel/csrc/moe/moe_align_kernel.cu b/sgl-kernel/csrc/moe/moe_align_kernel.cu
index ea17b329c376..19d0cc7a98db 100644
--- a/sgl-kernel/csrc/moe/moe_align_kernel.cu
+++ b/sgl-kernel/csrc/moe/moe_align_kernel.cu
@@ -36,7 +36,7 @@ __global__ void count_and_sort_expert_tokens_kernel(
   const size_t stride = blockDim.x * gridDim.x;
 
   for (size_t i = tid; i < numel; i += stride) {
-    int32_t expert_id = topk_ids[i];
+    int32_t expert_id = topk_ids[i] + 1;
     int32_t rank_post_pad = atomicAdd(&cumsum_buffer[expert_id], 1);
     sorted_token_ids[rank_post_pad] = i;
   }
@@ -82,7 +82,7 @@ __global__ void moe_align_block_size_kernel(
   __syncthreads();
 
   for (size_t i = tid; i < numel; i += stride) {
-    int expert_id = topk_ids[i];
+    int expert_id = topk_ids[i] + 1;
     atomicAdd(&shared_counts[expert_id], 1);
   }
 
@@ -215,7 +215,7 @@ __global__ void moe_align_block_size_kernel(
         right = mid;
       }
     }
-    expert_ids[i] = left - 1;
+    expert_ids[i] = left - 2;
   }
 
   if (pad_sorted_token_ids) {
@@ -251,7 +251,7 @@ __global__ void moe_align_block_size_small_batch_expert_kernel(
   }
 
   for (size_t i = tid; i < numel; i += stride) {
-    ++tokens_cnts[(threadIdx.x + 1) * num_experts + topk_ids[i]];
+    ++tokens_cnts[(threadIdx.x + 1) * num_experts + topk_ids[i] + 1];
   }
 
   __syncthreads();
@@ -277,7 +277,7 @@ __global__ void moe_align_block_size_small_batch_expert_kernel(
 
   if (threadIdx.x < num_experts) {
     for (int i = cumsum[threadIdx.x]; i < cumsum[threadIdx.x + 1]; i += block_size) {
-      expert_ids[i / block_size] = threadIdx.x;
+      expert_ids[i / block_size] = threadIdx.x - 1;
     }
   }
 
@@ -294,7 +294,7 @@ __global__ void moe_align_block_size_small_batch_expert_kernel(
   __syncthreads();
 
   for (size_t i = tid; i < numel; i += stride) {
-    int32_t expert_id = topk_ids[i];
+    int32_t expert_id = topk_ids[i] + 1;
     int32_t rank_post_pad = tokens_cnts[threadIdx.x * num_experts + expert_id] + cumsum[expert_id];
     sorted_token_ids[rank_post_pad] = i;
     ++tokens_cnts[threadIdx.x * num_experts + expert_id];
@@ -308,7 +308,6 @@ void moe_align_block_size(
     torch::Tensor sorted_token_ids,
     torch::Tensor experts_ids,
     torch::Tensor num_tokens_post_pad,
-    torch::Tensor token_cnts_buffer,
     torch::Tensor cumsum_buffer,
     bool pad_sorted_token_ids) {
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
diff --git a/sgl-kernel/csrc/torch_extension_rocm.cc b/sgl-kernel/csrc/torch_extension_rocm.cc
index 9010d0b260f0..aaf474fb2078 100644
--- a/sgl-kernel/csrc/torch_extension_rocm.cc
+++ b/sgl-kernel/csrc/torch_extension_rocm.cc
@@ -92,7 +92,7 @@ TORCH_LIBRARY_EXPAND(sgl_kernel, m) {
    */
   m.def(
       "moe_align_block_size(Tensor topk_ids, int num_experts, int block_size, Tensor! sorted_token_ids, Tensor! "
-      "experts_ids, Tensor! num_tokens_post_pad, Tensor! token_cnts_buffer, Tensor! cumsum_buffer, bool "
+      "experts_ids, Tensor! num_tokens_post_pad, Tensor! cumsum_buffer, bool "
       "pad_sorted_token_ids) -> ()");
   m.impl("moe_align_block_size", torch::kCUDA, &moe_align_block_size);
 
diff --git a/sgl-kernel/include/sgl_kernel_ops.h b/sgl-kernel/include/sgl_kernel_ops.h
index ca82760500ce..fa6de7362c74 100644
--- a/sgl-kernel/include/sgl_kernel_ops.h
+++ b/sgl-kernel/include/sgl_kernel_ops.h
@@ -230,7 +230,6 @@ void moe_align_block_size(
     torch::Tensor sorted_token_ids,
     torch::Tensor experts_ids,
     torch::Tensor num_tokens_post_pad,
-    torch::Tensor token_cnts_buffer,
     torch::Tensor cumsum_buffer,
     bool pad_sorted_token_ids);
 
diff --git a/sgl-kernel/python/sgl_kernel/moe.py b/sgl-kernel/python/sgl_kernel/moe.py
index ab7e1702a11a..c16a2b6feb78 100755
--- a/sgl-kernel/python/sgl_kernel/moe.py
+++ b/sgl-kernel/python/sgl_kernel/moe.py
@@ -10,7 +10,6 @@ def moe_align_block_size(
     sorted_token_ids,
     experts_ids,
     num_tokens_post_pad,
-    token_cnts_buffer,
     cumsum_buffer,
     pad_sorted_token_ids=False,
 ):
@@ -21,7 +20,6 @@ def moe_align_block_size(
         sorted_token_ids,
         experts_ids,
         num_tokens_post_pad,
-        token_cnts_buffer,
         cumsum_buffer,
         pad_sorted_token_ids,
     )
diff --git a/sgl-kernel/tests/test_moe_align.py b/sgl-kernel/tests/test_moe_align.py
index 550c7a1ad744..90f04ec9543d 100644
--- a/sgl-kernel/tests/test_moe_align.py
+++ b/sgl-kernel/tests/test_moe_align.py
@@ -157,7 +157,7 @@ def test_moe_align_block_size_compare_implementations(
         :, :topk
     ]
 
-    max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
+    max_num_tokens_padded = topk_ids.numel() + (num_experts + 1) * (block_size - 1)
 
     sorted_ids_cuda = torch.empty(
         (max_num_tokens_padded,), dtype=torch.int32, device=topk_ids.device
@@ -171,13 +171,8 @@ def test_moe_align_block_size_compare_implementations(
     num_tokens_post_pad_cuda = torch.empty(
         (1), dtype=torch.int32, device=topk_ids.device
     )
-    token_cnts_buffer = torch.empty(
-        (num_experts + 1) * num_experts,
-        dtype=torch.int32,
-        device=topk_ids.device,
-    )
     cumsum_buffer = torch.empty(
-        num_experts + 1, dtype=torch.int32, device=topk_ids.device
+        num_experts + 2, dtype=torch.int32, device=topk_ids.device
     )
 
     sorted_ids_triton = torch.empty_like(sorted_ids_cuda)
@@ -187,19 +182,18 @@ def test_moe_align_block_size_compare_implementations(
 
     moe_align_block_size(
         topk_ids,
-        num_experts,
+        num_experts + 1,
         block_size,
         sorted_ids_cuda,
         expert_ids_cuda,
         num_tokens_post_pad_cuda,
-        token_cnts_buffer,
         cumsum_buffer,
         pad_sorted_token_ids,
     )
 
     moe_align_block_size_triton(
         topk_ids,
-        num_experts,
+        num_experts + 1,
         block_size,
         sorted_ids_triton,
         expert_ids_triton,

From 43118f5f2ad3aa37170e39fab807afa80471af85 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Wed, 30 Jul 2025 22:23:52 -0700
Subject: [PATCH 238/396] chore: bump sgl-kernel v0.2.8 (#8599)

---
 docker/Dockerfile                       | 2 +-
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 5 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 7fe76d2825ec..b758ce21381f 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -63,7 +63,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.7/sgl_kernel-0.2.7+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.8/sgl_kernel-0.2.8+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
 # Build and install NVSHMEM + DeepEP
diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index 59f69f628346..49ce2a1f61e0 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.7"
+version = "0.2.8"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index f9d5cb3975aa..8bfa109b15b8 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.7"
+version = "0.2.8"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 6791bb47b2ce..391b83e92aa1 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.7"
+version = "0.2.8"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index 6cd38b746590..c49a95c35721 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.2.7"
+__version__ = "0.2.8"

From 5963e5050303070d2195fd7b329acb8e9d69f8eb Mon Sep 17 00:00:00 2001
From: yi wang <wangyi.ywq@bytedance.com>
Date: Thu, 31 Jul 2025 13:47:14 +0800
Subject: [PATCH 239/396] [bugfix] Fix 2 minor bugs in the hicache storage
 layer (#8404)

---
 .../grafana/dashboards/json/sglang-dashboard.json      | 10 +++++-----
 python/sglang/srt/mem_cache/hiradix_cache.py           |  1 +
 2 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/examples/monitoring/grafana/dashboards/json/sglang-dashboard.json b/examples/monitoring/grafana/dashboards/json/sglang-dashboard.json
index d4a022d08bfd..ebd663e41354 100644
--- a/examples/monitoring/grafana/dashboards/json/sglang-dashboard.json
+++ b/examples/monitoring/grafana/dashboards/json/sglang-dashboard.json
@@ -147,7 +147,7 @@
           "hide": false,
           "includeNullMetadata": true,
           "instant": false,
-          "legendFormat": "P95",
+          "legendFormat": "P50",
           "range": true,
           "refId": "C",
           "useBackend": false
@@ -164,7 +164,7 @@
           "hide": false,
           "includeNullMetadata": true,
           "instant": false,
-          "legendFormat": "P50",
+          "legendFormat": "Avg",
           "range": true,
           "refId": "D",
           "useBackend": false
@@ -393,7 +393,7 @@
           "hide": false,
           "includeNullMetadata": true,
           "instant": false,
-          "legendFormat": "P95",
+          "legendFormat": "P50",
           "range": true,
           "refId": "C",
           "useBackend": false
@@ -405,12 +405,12 @@
           },
           "disableTextWrap": false,
           "editorMode": "code",
-          "expr": "avg(rate(sglang:time_to_first_token_seconds_bucket[$__rate_interval]) /  rate(sglang:time_to_first_token_seconds_bucket[$__rate_interval]))\r\n",
+          "expr": "avg(rate(sglang:time_to_first_token_seconds_sum[$__rate_interval]) /  rate(sglang:time_to_first_token_seconds_count[$__rate_interval]))\r\n",
           "fullMetaSearch": false,
           "hide": false,
           "includeNullMetadata": true,
           "instant": false,
-          "legendFormat": "P50",
+          "legendFormat": "Avg",
           "range": true,
           "refId": "D",
           "useBackend": false
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index f939fff4b2cf..d21077eca553 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -113,6 +113,7 @@ def write_backup(self, node: TreeNode, write_back=False):
             )
         if host_indices is not None:
             node.host_value = host_indices
+            assert len(node.host_value) > 0
             self.ongoing_write_through[node.id] = node
             if not write_back:
                 # no need to lock nodes if write back

From 26c8a310bd0387ed3100608102d99ab331e90657 Mon Sep 17 00:00:00 2001
From: huangtingwei <141888744+huangtingwei9988@users.noreply.github.com>
Date: Thu, 31 Jul 2025 14:02:42 +0800
Subject: [PATCH 240/396] fix incorrect increase of hit count (#8533)

Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
---
 python/sglang/srt/mem_cache/hiradix_cache.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index d21077eca553..ef61101d7959 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -560,13 +560,11 @@ def _match_prefix_helper(self, node: TreeNode, key: List):
             prefix_len = self.key_match_fn(child.key, key)
             if prefix_len < len(child.key):
                 new_node = self._split_node(child.key, child, prefix_len)
-                self.inc_hit_count(new_node)
                 if not new_node.evicted:
                     value.append(new_node.value)
                 node = new_node
                 break
             else:
-                self.inc_hit_count(child)
                 if not child.evicted:
                     value.append(child.value)
                 node = child

From d904959233bb21f5bb713ac3da46da616160d3f3 Mon Sep 17 00:00:00 2001
From: huangtingwei <141888744+huangtingwei9988@users.noreply.github.com>
Date: Thu, 31 Jul 2025 14:15:51 +0800
Subject: [PATCH 241/396] Support l3 cache (mooncake store) for hiradix cache
 (#7211)

Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
Co-authored-by: AniZpZ <zhuangsen.zp@antgroup.com>
Co-authored-by: zuoyuan <zhangzuo21@mails.tsinghua.edu.cn>
Co-authored-by: @wangyueneng.wyn <wangyueneng.wyn@antgroup.com>
Co-authored-by: JinYan Su <jinyansu792@gmail.com>
---
 .../sglang/srt/managers/cache_controller.py   | 161 ++++++++---
 .../sglang/srt/mem_cache/hicache_storage.py   |  54 +++-
 python/sglang/srt/mem_cache/hiradix_cache.py  |   4 +
 .../sglang/srt/mem_cache/memory_pool_host.py  |  64 +++++
 .../srt/mem_cache/mooncake_store/README.md    |  71 +++++
 .../mooncake_store/mooncake_store.py          | 264 ++++++++++++++++++
 .../srt/mem_cache/mooncake_store/unit_test.py |  40 +++
 python/sglang/srt/server_args.py              |   2 +-
 8 files changed, 607 insertions(+), 53 deletions(-)
 create mode 100644 python/sglang/srt/mem_cache/mooncake_store/README.md
 create mode 100644 python/sglang/srt/mem_cache/mooncake_store/mooncake_store.py
 create mode 100644 python/sglang/srt/mem_cache/mooncake_store/unit_test.py

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index 629e77748a31..a6e48961ca10 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -26,6 +26,10 @@
     from sglang.srt.mem_cache.memory_pool_host import HostKVCache
 
 from sglang.srt.mem_cache.hicache_storage import HiCacheFile, get_hash_str
+from sglang.srt.mem_cache.mooncake_store.mooncake_store import (
+    MooncakeStore,
+    get_hash_str_mooncake,
+)
 from sglang.srt.mem_cache.storage.hf3fs.storage_hf3fs import HiCacheHF3FS
 
 logger = logging.getLogger(__name__)
@@ -125,7 +129,7 @@ class TransferBuffer:
     """
 
     def __init__(
-        self, stop_event, buffer_count: int = 3, max_buffer_size: int = 1000
+        self, stop_event, buffer_count: int = 3, max_buffer_size: int = 1024
     ) -> None:
         self.stop_event = stop_event
         self.buffers = Queue(maxsize=buffer_count)
@@ -260,6 +264,11 @@ def __init__(
 
             if storage_backend == "file":
                 self.storage_backend = HiCacheFile()
+                self.get_hash_str = get_hash_str
+            elif storage_backend == "mooncake":
+                self.storage_backend = MooncakeStore()
+                self.get_hash_str = get_hash_str_mooncake
+                self.storage_backend.register_buffer(self.mem_pool_host.kv_buffer)
             elif storage_backend == "hf3fs":
                 from sglang.srt.distributed import get_tensor_model_parallel_rank
 
@@ -271,6 +280,7 @@ def __init__(
                 self.storage_backend = HiCacheHF3FS.from_env_config(
                     rank, bytes_per_page, dtype
                 )
+                self.get_hash_str = get_hash_str
             else:
                 raise NotImplementedError(
                     f"Unsupported storage backend: {storage_backend}"
@@ -532,6 +542,37 @@ def terminate_prefetch(self, operation):
         operation.mark_done()
         return operation.completed_tokens, operation.hash_value
 
+    def generic_page_transfer(self, operation, batch_size=8):
+        for i in range(0, len(operation.hash_value), batch_size):
+            page_hashes = operation.hash_value[i : i + batch_size]
+            page_data = self.storage_backend.batch_get(page_hashes)
+            if page_data is None:
+                logger.warning(
+                    f"Prefetch operation {operation.request_id} failed to retrieve page {page_hashes}."
+                )
+                break
+            completed_tokens = operation.completed_tokens
+            if operation.increment(self.page_size * len(page_hashes)):
+                for i in range(len(page_hashes)):
+                    self.mem_pool_host.set_from_flat_data_page(
+                        operation.host_indices[completed_tokens],
+                        page_data[i],
+                    )
+                    completed_tokens += self.page_size
+            else:
+                # operation terminated by controller, release pre-allocated memory
+                self.mem_pool_host.free(
+                    operation.host_indices[operation.completed_tokens :]
+                )
+                break
+
+    def mooncake_page_transfer(self, operation):
+        key_strs, buffer_ptrs, buffer_sizes = self.mem_pool_host.get_buffer_meta(
+            operation.hash_value, operation.host_indices
+        )
+        self.storage_backend.batch_get(key_strs, buffer_ptrs, buffer_sizes)
+        operation.increment(len(operation.hash_value) * self.page_size)
+
     def prefetch_io_aux_func(self):
         """
         Auxiliary function conducting IO operations for prefetching.
@@ -539,26 +580,10 @@ def prefetch_io_aux_func(self):
         while not self.stop_event.is_set():
             try:
                 operation = self.prefetch_buffer.get(block=True, timeout=1)
-                page_datas = self.storage_backend.batch_get(operation.hash_value)
-                for h, page_data in zip(operation.hash_value, page_datas):
-                    if page_data is None:
-                        logger.warning(
-                            f"Prefetch operation {operation.request_id} failed to retrieve page {h}."
-                        )
-                        break
-                    if operation.increment(self.page_size):
-                        self.mem_pool_host.set_from_flat_data_page(
-                            operation.host_indices[
-                                operation.completed_tokens - self.page_size
-                            ],
-                            page_data,
-                        )
-                    else:
-                        # operation terminated by controller, release pre-allocated memory
-                        self.mem_pool_host.free(
-                            operation.host_indices[operation.completed_tokens :]
-                        )
-                        break
+                if isinstance(self.storage_backend, MooncakeStore):
+                    self.mooncake_page_transfer(operation)
+                else:
+                    self.generic_page_transfer(operation)
             except Empty:
                 continue
 
@@ -582,18 +607,27 @@ def prefetch_thread_func(self):
                 remaining_tokens = len(tokens_to_fetch)
                 hash_value = []
                 while remaining_tokens >= self.page_size:
-                    last_hash = get_hash_str(
+                    last_hash = self.get_hash_str(
                         tokens_to_fetch[
                             storage_hit_count : storage_hit_count + self.page_size
                         ],
                         last_hash,
                     )
-                    if self.storage_backend.exists(last_hash):
-                        storage_hit_count += self.page_size
-                        hash_value.append(last_hash)
-                        remaining_tokens -= self.page_size
-                    else:
-                        break
+
+                    # todo, more unified interface
+                    if not isinstance(self.storage_backend, MooncakeStore):
+                        if not self.storage_backend.exists(last_hash):
+                            break
+                    hash_value.append(last_hash)
+                    storage_hit_count += self.page_size
+                    remaining_tokens -= self.page_size
+
+                if isinstance(self.storage_backend, MooncakeStore):
+                    # deferring to batch exists for mooncake store
+                    exist_result = self.storage_backend.exists(hash_value)
+                    storage_hit_count = (
+                        sum(1 for v in exist_result.values() if v != 0) * self.page_size
+                    )
 
                 if self.tp_world_size > 1:
                     storage_hit_count_tensor = torch.tensor(
@@ -641,6 +675,47 @@ def write_storage(
         self.backup_queue.put(operation)
         return operation.id
 
+    def generic_page_backup(self, operation, batch_size=8):
+        for i in range(0, len(operation.hash_value), batch_size):
+            page_hashes = operation.hash_value[i : i + batch_size]
+            page_data = [
+                self.mem_pool_host.get_flat_data_pages(
+                    operation.host_indices[j * self.page_size]
+                )
+                for j in range(i, i + len(page_hashes))
+            ]
+            success = self.storage_backend.batch_set(page_hashes, page_data)
+            if not success:
+                logger.warning(f"Failed to write page {page_hashes} to storage.")
+                break
+            operation.completed_tokens += self.page_size * len(page_hashes)
+
+    def mooncake_page_backup(self, operation):
+        if len(operation.hash_value):
+            exist_hashvalues = self.storage_backend.exists(operation.hash_value)
+            indices = operation.host_indices.tolist()
+            non_exist_keys = []
+            non_exist_indices = []
+            for i in range(len(operation.hash_value)):
+                if not exist_hashvalues[operation.hash_value[i]]:
+                    non_exist_keys.append(operation.hash_value[i])
+                    non_exist_indices.extend(
+                        indices[i * self.page_size : (i + 1) * self.page_size]
+                    )
+            if len(non_exist_keys) > 0:
+                key_strs, buffer_ptrs, buffer_sizes = (
+                    self.mem_pool_host.get_buffer_meta(
+                        non_exist_keys, non_exist_indices
+                    )
+                )
+                # TODO: check the return value of batch set to see how many tokens are set successfully
+                self.storage_backend.batch_set(
+                    key_strs,
+                    target_location=buffer_ptrs,
+                    target_sizes=buffer_sizes,
+                )
+        operation.completed_tokens += len(operation.hash_value) * self.page_size
+
     def backup_thread_func(self):
         """
         Manage backup operations from host memory to storage backend.
@@ -654,23 +729,25 @@ def backup_thread_func(self):
                 last_hash = operation.last_hash
                 tokens_to_backup = operation.token_ids
 
-                last_hashes, data_pages = [], []
-                for i in range(0, len(tokens_to_backup), self.page_size):
-                    last_hash = get_hash_str(
-                        tokens_to_backup[i : i + self.page_size], last_hash
-                    )
-                    data_page = self.mem_pool_host.get_flat_data_page(
-                        operation.host_indices[i]
+                backup_hit_count = 0
+                remaining_tokens = len(tokens_to_backup)
+                hash_value = []
+                while remaining_tokens >= self.page_size:
+                    last_hash = self.get_hash_str(
+                        tokens_to_backup[
+                            backup_hit_count : backup_hit_count + self.page_size
+                        ],
+                        last_hash,
                     )
-                    last_hashes.append(last_hash)
-                    data_pages.append(data_page)
+                    backup_hit_count += self.page_size
+                    hash_value.append(last_hash)
+                    remaining_tokens -= self.page_size
+                operation.hash_value = hash_value
 
-                success = self.storage_backend.batch_set(last_hashes, data_pages)
-                if not success:
-                    logger.warning(f"Failed to write page {last_hashes} to storage.")
+                if isinstance(self.storage_backend, MooncakeStore):
+                    self.mooncake_page_backup(operation)
                 else:
-                    operation.completed_tokens += len(tokens_to_backup)
-                    operation.hash_value.extend(last_hashes)
+                    self.generic_page_backup(operation)
 
                 min_completed_tokens = operation.completed_tokens
                 if self.tp_world_size > 1:
diff --git a/python/sglang/srt/mem_cache/hicache_storage.py b/python/sglang/srt/mem_cache/hicache_storage.py
index 0e4a7184cf4e..d0dec8ac9648 100644
--- a/python/sglang/srt/mem_cache/hicache_storage.py
+++ b/python/sglang/srt/mem_cache/hicache_storage.py
@@ -2,7 +2,7 @@
 import logging
 import os
 from abc import ABC, abstractmethod
-from typing import List, Optional
+from typing import Any, List, Optional
 
 import torch
 
@@ -39,7 +39,10 @@ class HiCacheStorage(ABC):
 
     @abstractmethod
     def get(
-        self, key: str, target_location: Optional[torch.Tensor] = None
+        self,
+        key: str,
+        target_location: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
     ) -> torch.Tensor | None:
         """
         Retrieve the value associated with the given key.
@@ -49,7 +52,10 @@ def get(
 
     @abstractmethod
     def batch_get(
-        self, keys: List[str], target_locations: Optional[List[torch.Tensor]] = None
+        self,
+        keys: List[str],
+        target_locations: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
     ) -> List[torch.Tensor | None]:
         """
         Retrieve values for multiple keys.
@@ -58,7 +64,13 @@ def batch_get(
         pass
 
     @abstractmethod
-    def set(self, key, value) -> bool:
+    def set(
+        self,
+        key: str,
+        value: Optional[Any] = None,
+        target_location: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
+    ) -> bool:
         """
         Store the value associated with the given key.
         Returns True if the operation was successful, False otherwise.
@@ -66,7 +78,13 @@ def set(self, key, value) -> bool:
         pass
 
     @abstractmethod
-    def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
+    def batch_set(
+        self,
+        keys: List[str],
+        values: Optional[Any] = None,
+        target_locations: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
+    ) -> bool:
         """
         Store multiple key-value pairs.
         Returns True if all operations were successful, False otherwise.
@@ -74,7 +92,7 @@ def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
         pass
 
     @abstractmethod
-    def exists(self, key: str) -> bool:
+    def exists(self, key: str) -> bool | dict:
         """
         Check if the key exists in the storage.
         Returns True if the key exists, False otherwise.
@@ -97,7 +115,10 @@ def _get_suffixed_key(self, key: str) -> str:
         return key + self.tp_suffix
 
     def get(
-        self, key: str, target_location: Optional[torch.Tensor] = None
+        self,
+        key: str,
+        target_location: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
     ) -> torch.Tensor | None:
         key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
@@ -115,7 +136,8 @@ def get(
     def batch_get(
         self,
         keys: List[str],
-        target_locations: Optional[List[torch.Tensor]] = None,
+        target_locations: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
     ) -> List[torch.Tensor | None]:
         return [
             self.get(key, target_location)
@@ -124,7 +146,13 @@ def batch_get(
             )
         ]
 
-    def set(self, key: str, value: torch.Tensor) -> bool:
+    def set(
+        self,
+        key: str,
+        value: Optional[Any] = None,
+        target_location: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
+    ) -> bool:
         key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         if self.exists(key):
@@ -137,7 +165,13 @@ def set(self, key: str, value: torch.Tensor) -> bool:
             logger.error(f"Failed to save tensor {key}: {e}")
             return False
 
-    def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
+    def batch_set(
+        self,
+        keys: List[str],
+        values: Optional[Any] = None,
+        target_locations: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
+    ) -> bool:
         for key, value in zip(keys, values):
             if not self.set(key, value):
                 return False
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index ef61101d7959..681985ad192c 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -594,6 +594,10 @@ def _split_node(self, key, child: TreeNode, split_len: int):
         if child.backuped:
             new_node.host_value = child.host_value[:split_len]
             child.host_value = child.host_value[split_len:]
+
+        if child.hash_value:
+            new_node.hash_value = child.hash_value[: split_len // self.page_size]
+            child.hash_value = child.hash_value[split_len // self.page_size :]
         child.parent = new_node
         child.key = child.key[split_len:]
         new_node.parent.children[self.get_child_key_fn(key)] = new_node
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index c2fb4fa4627a..4202db80154b 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -265,6 +265,43 @@ def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
             self.head_dim,
         )
 
+    def get_buffer_meta(self, keys, indices):
+        ptr_list = []
+        key_list = []
+        kv_buffer_data_ptr = self.kv_buffer.data_ptr()
+        v_offset = (
+            self.layer_num
+            * self.size
+            * self.head_num
+            * self.head_dim
+            * self.dtype.itemsize
+        )
+        for index in range(0, len(indices), self.page_size):
+            for layer_id in range(self.layer_num):
+                k_ptr = (
+                    kv_buffer_data_ptr
+                    + indices[index]
+                    * self.head_num
+                    * self.head_dim
+                    * self.dtype.itemsize
+                    + layer_id
+                    * self.size
+                    * self.head_num
+                    * self.head_dim
+                    * self.dtype.itemsize
+                )
+                v_ptr = k_ptr + v_offset
+                ptr_list.append(k_ptr)
+                ptr_list.append(v_ptr)
+                key_ = keys[index // self.page_size]
+                key_list.append(f"{key_}_{layer_id}_k")
+                key_list.append(f"{key_}_{layer_id}_v")
+        element_size = (
+            self.dtype.itemsize * self.page_size * self.head_num * self.head_dim
+        )
+        element_size_list = [element_size] * len(key_list)
+        return key_list, ptr_list, element_size_list
+
     @property
     def k_buffer(self):
         return self.kv_buffer[0]
@@ -325,3 +362,30 @@ def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
             1,
             self.kv_lora_rank + self.qk_rope_head_dim,
         )
+
+    def get_buffer_meta(self, keys, indices):
+        ptr_list = []
+        key_list = []
+        kv_buffer_data_ptr = self.kv_buffer.data_ptr()
+        for index in range(0, len(indices), self.page_size):
+            for layer_id in range(self.layer_num):
+                k_ptr = (
+                    kv_buffer_data_ptr
+                    + indices[index]
+                    * (self.kv_lora_rank + self.qk_rope_head_dim)
+                    * self.dtype.itemsize
+                    + layer_id
+                    * self.size
+                    * (self.kv_lora_rank + self.qk_rope_head_dim)
+                    * self.dtype.itemsize
+                )
+                ptr_list.append(k_ptr)
+                key_ = keys[index // self.page_size]
+                key_list.append(f"{key_}_{layer_id}_k")
+        element_size = (
+            self.dtype.itemsize
+            * self.page_size
+            * (self.kv_lora_rank + self.qk_rope_head_dim)
+        )
+        element_size_list = [element_size] * len(key_list)
+        return key_list, ptr_list, element_size_list
diff --git a/python/sglang/srt/mem_cache/mooncake_store/README.md b/python/sglang/srt/mem_cache/mooncake_store/README.md
new file mode 100644
index 000000000000..6ad71821ead6
--- /dev/null
+++ b/python/sglang/srt/mem_cache/mooncake_store/README.md
@@ -0,0 +1,71 @@
+# Mooncake as L3 KV Cache
+
+This document describes how to use Mooncake as the L3 KV cache for SGLang.
+For more details about Mooncake, please refer to: https://kvcache-ai.github.io/
+
+## Install Mooncake
+
+### Method 1: with pip
+
+```bash
+pip install mooncake-transfer-engine
+```
+
+### Method 2: from source
+
+Clone Mooncake project:
+
+```bash
+git clone https://github.com/kvcache-ai/Mooncake --recursive
+```
+
+Install dependencies:
+
+```bash
+cd Mooncake
+bash dependencies.sh
+```
+
+Build the project. For additional build options, please refer to [the official guide](https://kvcache-ai.github.io/Mooncake/getting_started/build.html).
+
+```bash
+mkdir build
+cd build
+cmake ..
+make -j
+```
+
+Install Mooncake:
+
+```bash
+sudo make install
+```
+
+## Use Mooncake
+
+Launch Mooncake master server:
+
+```bash
+mooncake_master
+```
+
+Launch Mooncake meta server:
+
+```bash
+python -m mooncake.http_metadata_server
+```
+
+Start the SGLang server with Mooncake enabled. Mooncake configuration can be provided via environment variables:
+
+```bash
+MOONCAKE_TE_META_DATA_SERVER="http://127.0.0.1:8080/metadata" \
+MOONCAKE_GLOBAL_SEGMENT_SIZE=4294967296 \
+MOONCAKE_LOCAL_BUFFER_SIZE=134217728 \
+MOONCAKE_PROTOCOL="rdma" \
+MOONCAKE_DEVICE="erdma_0,erdma_1" \
+MOONCAKE_MASTER=127.0.0.1:50051 \
+python -m sglang.launch_server \
+    --enable-hierarchical-cache \
+    --hicache-storage-backend mooncake\
+    --model-path [model_path]
+```
diff --git a/python/sglang/srt/mem_cache/mooncake_store/mooncake_store.py b/python/sglang/srt/mem_cache/mooncake_store/mooncake_store.py
new file mode 100644
index 000000000000..05dc7a3ce5cb
--- /dev/null
+++ b/python/sglang/srt/mem_cache/mooncake_store/mooncake_store.py
@@ -0,0 +1,264 @@
+import hashlib
+import json
+import logging
+import os
+import uuid
+from dataclasses import dataclass
+from typing import Any, List, Optional
+
+import numpy as np
+import torch
+
+from sglang.srt.distributed import get_tensor_model_parallel_rank
+from sglang.srt.mem_cache.hicache_storage import HiCacheStorage
+
+DEFAULT_GLOBAL_SEGMENT_SIZE = 4 * 1024 * 1024 * 1024  # 4 GiB
+DEFAULT_LOCAL_BUFFER_SIZE = 128 * 1024 * 1024  # 128 MB
+
+logger = logging.getLogger(__name__)
+
+
+def get_hash_str_mooncake(current_page_ids: List, prefix_block_key: str):
+    local_rank = get_tensor_model_parallel_rank()
+    prefix_str = ""
+    if prefix_block_key:
+        if len(prefix_block_key):
+            prefix_str = hashlib.sha256(prefix_block_key.encode()).hexdigest()
+    current_token_ids_bytes = np.array(current_page_ids).tobytes()
+    current_hash_object = hashlib.sha256(current_token_ids_bytes)
+    current_hash_hex = current_hash_object.hexdigest()
+    return f"{prefix_str}_{int(current_hash_hex[:16], 16)}_{local_rank}"
+
+
+@dataclass
+class MooncakeStoreConfig:
+    local_hostname: str
+    metadata_server: str
+    global_segment_size: int
+    local_buffer_size: int
+    protocol: str
+    device_name: str
+    master_server_address: str
+
+    @staticmethod
+    def from_file() -> "MooncakeStoreConfig":
+        """Load the config from a JSON file."""
+        file_path = os.getenv("MOONCAKE_CONFIG_PATH")
+        if file_path is None:
+            raise ValueError(
+                "The environment variable 'MOONCAKE_CONFIG_PATH' is not set."
+            )
+        with open(file_path) as fin:
+            config = json.load(fin)
+        return MooncakeStoreConfig(
+            local_hostname=config.get("local_hostname"),
+            metadata_server=config.get("metadata_server"),
+            global_segment_size=config.get(
+                "global_segment_size", DEFAULT_GLOBAL_SEGMENT_SIZE
+            ),
+            local_buffer_size=config.get(
+                "local_buffer_size", DEFAULT_LOCAL_BUFFER_SIZE
+            ),
+            protocol=config.get("protocol", "tcp"),
+            device_name=config.get("device_name", "auto"),
+            master_server_address=config.get("master_server_address"),
+        )
+
+    @staticmethod
+    def load_from_env() -> "MooncakeStoreConfig":
+        """Load config from a file specified in the environment variable.
+        export MOONCAKE_MASTER=10.13.3.232:50051
+        export MOONCAKE_PROTOCOL="rdma"
+        export MOONCAKE_DEVICE="auto"
+        export MOONCAKE_TE_META_DATA_SERVER="P2PHANDSHAKE"
+        """
+        # other required environment variables...
+        if not os.getenv("MOONCAKE_MASTER"):
+            raise ValueError("The environment variable 'MOONCAKE_MASTER' is not set.")
+        return MooncakeStoreConfig(
+            local_hostname=os.getenv("LOCAL_HOSTNAME", "localhost"),
+            metadata_server=os.getenv("MOONCAKE_TE_META_DATA_SERVER", "P2PHANDSHAKE"),
+            global_segment_size=int(
+                os.getenv("MOONCAKE_GLOBAL_SEGMENT_SIZE", DEFAULT_GLOBAL_SEGMENT_SIZE)
+            ),
+            local_buffer_size=int(
+                os.getenv("MOONCAKE_LOCAL_BUFFER_SIZE", DEFAULT_LOCAL_BUFFER_SIZE)
+            ),
+            protocol=os.getenv("MOONCAKE_PROTOCOL", "tcp"),
+            device_name=os.getenv("MOONCAKE_DEVICE", "auto"),
+            master_server_address=os.getenv("MOONCAKE_MASTER"),
+        )
+
+    def __post_init__(self):
+        if self.device_name == "auto":
+            os.environ["MC_MS_AUTO_DISC"] = "1"
+            os.environ["MC_MS_FILTERS"] = (
+                "mlx5_bond_0, mlx5_bond_1, mlx5_bond_2, mlx5_bond_3"
+            )
+
+
+class MooncakeStore(HiCacheStorage):
+    def __init__(self):
+        try:
+            from mooncake.store import MooncakeDistributedStore
+        except ImportError as e:
+            raise ImportError(
+                "Please install mooncake by following the instructions at "
+                "https://kvcache-ai.github.io/Mooncake/getting_started/build.html"
+                "to run SGLang with MooncakeConnector."
+            ) from e
+
+        try:
+            self.store = MooncakeDistributedStore()
+            self.config = MooncakeStoreConfig.load_from_env()
+            logger.info("Mooncake Configuration loaded from env successfully.")
+
+            ret_code = self.store.setup(
+                self.config.local_hostname,
+                self.config.metadata_server,
+                self.config.global_segment_size,
+                self.config.local_buffer_size,
+                self.config.protocol,
+                self.config.device_name,
+                self.config.master_server_address,
+            )
+            if ret_code:
+                logger.error(f"failed to setup mooncake store, error code: {ret_code}")
+
+            logger.info("Connect to Mooncake store successfully.")
+            self.warmup()
+            logger.info("Mooncake store warmup successfully.")
+
+        except ValueError as e:
+            logger.error("Configuration loading failed: %s", e)
+            raise
+        except Exception as exc:
+            logger.error("An error occurred while loading the configuration: %s", exc)
+            raise
+
+    def warmup(self):
+        warmup_key = "sglang_mooncake_store_warmup_key" + uuid.uuid4().hex
+        # 10 MB
+        warmup_value = bytes(10 * 1024 * 1024)
+        self.store.put(warmup_key, warmup_value)
+        assert self.store.is_exist(warmup_key) == 1
+        self.store.get(warmup_key)
+        self.store.remove(warmup_key)
+
+    def register_buffer(self, buffer: torch.Tensor) -> None:
+        try:
+            buffer_ptr = buffer.data_ptr()
+            buffer_size = buffer.numel() * buffer.element_size()
+            ret_code = self.store.register_buffer(buffer_ptr, buffer_size)
+            if ret_code:
+                logger.error(f"failed to register buffer, error code: {ret_code}")
+        except TypeError as err:
+            logger.error("Failed to register buffer to Mooncake Store: %s", err)
+            raise TypeError("Mooncake Store Register Buffer Error.") from err
+
+    def set(
+        self,
+        key,
+        value: Optional[Any] = None,
+        target_location: Optional[List[int]] = None,
+        target_sizes: Optional[List[int]] = None,
+    ) -> bool:
+        assert len(key) == len(target_location) == len(target_sizes)
+        if len(key) == 0:
+            return
+
+        for i in range(len(key)):
+            if key[i] is None or target_location[i] is None or target_sizes[i] is None:
+                return
+
+        self._put_batch_zero_copy_impl(key, target_location, target_sizes)
+
+    def batch_set(
+        self,
+        keys: List[str],
+        value: Optional[Any] = None,
+        target_location: Optional[List[int]] = None,
+        target_sizes: Optional[List[int]] = None,
+    ) -> bool:
+        assert len(keys) == len(target_location) == len(target_sizes)
+        if len(keys) == 0:
+            return
+
+        for i in range(len(keys)):
+            if keys[i] is None or target_location[i] is None or target_sizes[i] is None:
+                return
+
+        self._put_batch_zero_copy_impl(keys, target_location, target_sizes)
+
+    def get(
+        self,
+        key,
+        target_location: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
+    ) -> torch.Tensor | None:
+        assert len(key) == len(target_location) == len(target_sizes)
+        if len(key) == 0:
+            return
+
+        for i in range(len(key)):
+            if key[i] is None or target_location[i] is None or target_sizes[i] is None:
+                return
+
+        return self._get_batch_zero_copy_impl(key, target_location, target_sizes)
+
+    def batch_get(
+        self,
+        keys: List[str],
+        target_location: Optional[Any] = None,
+        target_sizes: Optional[Any] = None,
+    ) -> torch.Tensor | None:
+        assert len(keys) == len(target_location) == len(target_sizes)
+        if len(keys) == 0:
+            return
+
+        for i in range(len(keys)):
+            if keys[i] is None or target_location[i] is None or target_sizes[i] is None:
+                return
+
+        return self._get_batch_zero_copy_impl(keys, target_location, target_sizes)
+
+    def exists(self, keys) -> bool | dict:
+        _keys = []
+        local_rank = torch.cuda.current_device()
+        for key in keys:
+            if key is None:
+                return None
+            # Since mooncake store is stored in layer by layer,
+            # only the first layer is checked here.
+            _keys.append(f"{key}_{local_rank}_k")
+        result = {k: v for k, v in zip(keys, self.store.batch_is_exist(_keys))}
+        return result
+
+    def delete(self, key) -> None:
+        raise (NotImplementedError)
+
+    def close(self):
+        # MooncakeDistributedStore will automatically call the destructor, so
+        # it is unnecessary to close it manually.
+        pass
+
+    def clear(self) -> None:
+        raise (NotImplementedError)
+
+    def _put_batch_zero_copy_impl(
+        self, key_strs: List[str], buffer_ptrs: List[int], buffer_sizes: List[int]
+    ) -> None:
+        try:
+            self.store.batch_put_from(key_strs, buffer_ptrs, buffer_sizes)
+        except TypeError as err:
+            logger.error("Failed to put value to Mooncake Store: %s", err)
+            raise TypeError("Mooncake Store Put Type Error.") from err
+
+    def _get_batch_zero_copy_impl(
+        self, key_strs: List[str], buffer_ptrs: List[int], buffer_sizes: List[int]
+    ) -> None:
+        try:
+            self.store.batch_get_into(key_strs, buffer_ptrs, buffer_sizes)
+        except TypeError as err:
+            logger.error("Failed to get value from Mooncake Store: %s", err)
+            raise TypeError("Mooncake Store Get Type Error.") from err
diff --git a/python/sglang/srt/mem_cache/mooncake_store/unit_test.py b/python/sglang/srt/mem_cache/mooncake_store/unit_test.py
new file mode 100644
index 000000000000..801b0ec1bc3f
--- /dev/null
+++ b/python/sglang/srt/mem_cache/mooncake_store/unit_test.py
@@ -0,0 +1,40 @@
+import torch
+from mooncake_store import MooncakeStore
+
+
+def test_init_and_warmup():
+    store = MooncakeStore()
+    assert store.store is not None
+
+
+def test_register_buffer():
+    store = MooncakeStore()
+    tensor = torch.zeros(1024, dtype=torch.float32)
+    store.register_buffer(tensor)
+
+
+def test_set_and_get():
+    store = MooncakeStore()
+
+    key = ["test_key_" + str(i) for i in range(2)]
+    tensor = torch.arange(256, dtype=torch.float32).cuda()
+    ptrs = [tensor.data_ptr(), tensor.data_ptr()]
+    sizes = [tensor.numel() * tensor.element_size()] * 2
+
+    store.set(key, target_location=ptrs, target_sizes=sizes)
+    store.get(key, target_location=ptrs, target_sizes=sizes)
+
+
+def test_exists():
+    store = MooncakeStore()
+    keys = ["test_key_0", "non_existent_key"]
+    result = store.exists(keys)
+    assert isinstance(result, dict)
+    assert "test_key_0" in result
+
+
+if __name__ == "__main__":
+    test_init_and_warmup()
+    test_register_buffer()
+    test_set_and_get()
+    test_exists()
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index d53558211acb..9929054370d2 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1476,7 +1476,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
         parser.add_argument(
             "--hicache-storage-backend",
             type=str,
-            choices=["file", "hf3fs"],  # todo, mooncake
+            choices=["file", "mooncake", "hf3fs"],
             default=ServerArgs.hicache_storage_backend,
             help="The storage backend for hierarchical KV cache.",
         )

From e179e0b79738b0718f2ae4e8653554188badc904 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Thu, 31 Jul 2025 00:14:39 -0700
Subject: [PATCH 242/396] update sgl-kernel for EP: python part (#8550)

---
 python/pyproject.toml                               |  2 +-
 python/sglang/srt/entrypoints/engine.py             |  2 +-
 .../srt/layers/moe/fused_moe_triton/fused_moe.py    | 13 ++++---------
 3 files changed, 6 insertions(+), 11 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 1924352d082d..ca0c92cbf140 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -54,7 +54,7 @@ runtime_common = [
 
 srt = [
     "sglang[runtime_common]",
-    "sgl-kernel==0.2.7",
+    "sgl-kernel==0.2.8",
     "torch==2.7.1",
     "torchaudio==2.7.1",
     "torchvision==0.22.1",
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index e52c546a0b39..8e1fc51d2f38 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -648,7 +648,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if _is_cuda:
         assert_pkg_version(
             "sgl-kernel",
-            "0.2.7",
+            "0.2.8",
             "Please reinstall the latest version with `pip install sgl-kernel --force-reinstall`",
         )
 
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
index 267b594c0a7b..cd027d1139bc 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -568,7 +568,7 @@ def moe_align_block_size(
     - The padding ensures that the total number of tokens is now divisible
         by block_size for proper block matrix operations.
     """
-    max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
+    max_num_tokens_padded = topk_ids.numel() + (num_experts + 1) * (block_size - 1)
     sorted_ids = torch.empty(
         (max_num_tokens_padded,), dtype=torch.int32, device=topk_ids.device
     )
@@ -578,13 +578,9 @@ def moe_align_block_size(
     )
     num_tokens_post_pad = torch.empty((1), dtype=torch.int32, device=topk_ids.device)
 
+    # In EP, expert_ids for filtered experts are -1. We have num_experts + 1 ids in total.
     cumsum_buffer = torch.empty(
-        (num_experts + 1,), dtype=torch.int32, device=topk_ids.device
-    )
-    token_cnts_buffer = torch.empty(
-        (num_experts + 1) * num_experts,
-        dtype=torch.int32,
-        device=topk_ids.device,
+        (num_experts + 2,), dtype=torch.int32, device=topk_ids.device
     )
 
     # Threshold based on benchmark results
@@ -594,12 +590,11 @@ def moe_align_block_size(
 
     sgl_moe_align_block_size(
         topk_ids,
-        num_experts,
+        num_experts + 1,
         block_size,
         sorted_ids,
         expert_ids,
         num_tokens_post_pad,
-        token_cnts_buffer,
         cumsum_buffer,
         fuse_sorted_ids_padding,
     )

From e7dc163f57f2d3b7b6b16fdfeb8eb673b9915d9b Mon Sep 17 00:00:00 2001
From: Liangsheng Yin <hnyls2002@gmail.com>
Date: Thu, 31 Jul 2025 15:56:26 +0800
Subject: [PATCH 243/396] add SVG logo (#8603)

---
 assets/logo.svg        | 1 +
 assets/logo_square.svg | 1 +
 2 files changed, 2 insertions(+)
 create mode 100644 assets/logo.svg
 create mode 100644 assets/logo_square.svg

diff --git a/assets/logo.svg b/assets/logo.svg
new file mode 100644
index 000000000000..cd9244b38db8
--- /dev/null
+++ b/assets/logo.svg
@@ -0,0 +1 @@
+<svg width="2392" height="729" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:space="preserve" overflow="hidden"><defs><filter id="fx0" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="7.638889 7.638889"/></filter><filter id="fx1" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="6.111111 6.111111"/></filter><filter id="fx2" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="7.638889 7.638889"/></filter><clipPath id="clip3"><path d="M1756.97 902.5C1708.88 902.5 1667.36 908.097 1632.43 919.291 1597.49 930.485 1568.73 945.491 1546.14 964.309 1523.56 983.128 1506.82 1004.62 1495.94 1028.8 1485.05 1052.97 1479.61 1078.03 1479.61 1103.99 1479.61 1125.73 1483.26 1144.63 1490.57 1160.69 1497.89 1176.75 1507.63 1190.86 1519.82 1203.03 1532.01 1215.2 1545.74 1225.74 1561.01 1234.66 1576.29 1243.59 1591.97 1251.86 1608.05 1259.48 1624.14 1267.11 1639.9 1274.49 1655.34 1281.63 1670.77 1288.77 1684.58 1296.39 1696.77 1304.5 1708.96 1312.61 1718.71 1321.62 1726.02 1331.51 1733.33 1341.41 1736.99 1353.17 1736.99 1366.8 1736.99 1378.48 1734.23 1389.59 1728.7 1400.14 1723.18 1410.68 1714.48 1420.01 1702.62 1428.12 1690.76 1436.23 1675.65 1442.64 1657.29 1447.35 1638.93 1452.05 1616.91 1454.4 1591.24 1454.4 1576.61 1454.4 1561.5 1453.59 1545.9 1451.97 1530.3 1450.35 1514.7 1448.08 1499.1 1445.16 1483.51 1442.23 1468.07 1438.67 1452.79 1434.45 1437.52 1430.23 1423.06 1425.69 1409.41 1420.82L1386.5 1533.25C1415.1 1542.33 1444.83 1549.14 1475.71 1553.69 1506.58 1558.23 1540.05 1560.5 1576.12 1560.5 1621.3 1560.5 1662.24 1555.47 1698.96 1545.41 1735.69 1535.35 1766.97 1520.92 1792.8 1502.1 1818.64 1483.28 1838.54 1460.57 1852.52 1433.96 1866.49 1407.36 1873.48 1377.67 1873.48 1344.9 1873.48 1323.48 1869.74 1304.58 1862.27 1288.2 1854.79 1271.81 1844.96 1257.38 1832.77 1244.88 1820.59 1232.39 1806.78 1221.44 1791.34 1212.03 1775.9 1202.62 1760.06 1193.94 1743.81 1185.99 1727.56 1178.05 1711.72 1170.5 1696.28 1163.36 1680.85 1156.23 1667.04 1148.76 1654.85 1140.98 1642.66 1133.19 1632.83 1124.67 1625.36 1115.42 1617.88 1106.18 1614.15 1095.39 1614.15 1083.06 1614.15 1072.35 1616.66 1062.21 1621.7 1052.64 1626.74 1043.07 1634.62 1034.8 1645.34 1027.82 1656.07 1020.85 1669.72 1015.33 1686.29 1011.27 1702.87 1007.22 1722.69 1005.19 1745.76 1005.19 1757.46 1005.19 1769.81 1005.76 1782.81 1006.89 1795.81 1008.03 1808.73 1009.65 1821.56 1011.76 1834.4 1013.87 1846.75 1016.3 1858.61 1019.06 1870.47 1021.82 1881.11 1024.82 1890.54 1028.06L1911.5 922.455C1901.75 919.859 1890.86 917.344 1878.84 914.91 1866.82 912.477 1854.06 910.368 1840.57 908.584 1827.09 906.799 1813.28 905.339 1799.14 904.203 1785 903.068 1770.95 902.5 1756.97 902.5ZM756 866 3148 866 3148 1595 756 1595Z" fill-rule="evenodd" clip-rule="evenodd"/></clipPath><clipPath id="clip4"><rect x="1.24353" y="1.08319" width="595.223" height="724.834"/></clipPath><clipPath id="clip5"><rect x="1.41663" y="1.66669" width="592.667" height="675.667"/></clipPath><clipPath id="clip6"><rect x="-2078.55" y="-2770.64" width="374073" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img7"></image><clipPath id="clip8"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip9"><rect x="-0.363636" y="-2770.64" width="371302" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img10"></image><clipPath id="clip11"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip12"><path d="M2369.95 902.5C2319.29 902.5 2274.72 909.476 2236.23 923.428 2197.75 937.38 2164.46 955.873 2136.37 978.909 2108.28 1001.95 2084.82 1028.23 2065.98 1057.75 2047.14 1087.28 2032.04 1117.78 2020.68 1149.25 2009.31 1180.72 2001.27 1211.79 1996.56 1242.45 1991.85 1273.11 1989.5 1300.93 1989.5 1325.92 1989.5 1363.55 1994.86 1396.89 2005.58 1425.93 2016.29 1454.97 2031.8 1479.47 2052.1 1499.42 2072.39 1519.38 2097.08 1534.54 2126.14 1544.93 2155.21 1555.31 2188.25 1560.5 2225.27 1560.5 2262.62 1560.5 2296.8 1557.17 2327.81 1550.52 2358.83 1543.87 2390.09 1533.89 2421.59 1520.59L2490.27 1181.37 2263.76 1181.37 2244.27 1280.17 2351.93 1280.17 2318.8 1442.72C2308.41 1446.29 2298.1 1448.97 2287.87 1450.75 2277.64 1452.54 2265.05 1453.43 2250.12 1453.43 2226.08 1453.43 2205.54 1450.59 2188.49 1444.91 2171.44 1439.23 2157.48 1430.8 2146.6 1419.6 2135.72 1408.41 2127.76 1394.78 2122.73 1378.72 2117.7 1362.66 2115.18 1344.09 2115.18 1323 2115.18 1302.56 2117.05 1280.57 2120.78 1257.05 2124.52 1233.53 2130.44 1210.17 2138.56 1186.97 2146.68 1163.77 2157.07 1141.54 2169.74 1120.29 2182.41 1099.04 2197.75 1080.22 2215.77 1063.84 2233.8 1047.45 2254.58 1034.31 2278.13 1024.41 2301.67 1014.52 2328.22 1009.57 2357.77 1009.57 2387.33 1009.57 2415.66 1012.9 2442.78 1019.55 2469.89 1026.2 2494.17 1033.58 2515.6 1041.69L2538.5 931.214C2512.84 922.778 2485.56 915.883 2456.66 910.53 2427.76 905.177 2398.85 902.5 2369.95 902.5ZM756 866 3148 866 3148 1595 756 1595Z" fill-rule="evenodd" clip-rule="evenodd"/></clipPath><clipPath id="clip13"><rect x="0.916748" y="1.08319" width="617.517" height="724.834"/></clipPath></defs><g transform="translate(-756 -866)"><g><g clip-path="url(#clip3)"><g clip-path="url(#clip4)" filter="url(#fx0)" transform="translate(1396 868)"><g><g><path d="M406.807 34.4998C420.781 34.4998 434.837 35.068 448.972 36.2035 463.109 37.3389 476.921 38.799 490.407 40.5838 503.894 42.3677 516.649 44.4772 528.673 46.9104 540.697 49.3436 551.584 51.859 561.333 54.4545L540.372 160.065C530.948 156.821 520.305 153.819 508.444 151.061 496.581 148.304 484.232 145.87 471.396 143.761 458.559 141.652 445.642 140.03 432.642 138.894 419.644 137.759 407.295 137.191 395.595 137.191 372.522 137.191 352.699 139.219 336.125 143.275 319.551 147.33 305.902 152.846 295.178 159.822 284.453 166.797 276.572 175.071 271.535 184.642 266.497 194.214 263.979 204.354 263.979 215.061 263.979 227.39 267.717 238.178 275.191 247.425 282.666 256.673 292.496 265.189 304.683 272.977 316.87 280.763 330.681 288.226 346.117 295.364 361.554 302.502 377.396 310.046 393.646 317.995 409.894 325.944 425.737 334.624 441.173 344.033 456.61 353.442 470.422 364.392 482.608 376.884 494.795 389.376 504.625 403.814 512.099 420.199 519.574 436.584 523.311 455.483 523.311 476.898 523.311 509.669 516.324 539.356 502.35 565.962 488.376 592.567 468.471 615.279 442.636 634.098 416.8 652.916 385.521 667.354 348.798 677.413 312.076 687.471 271.129 692.5 225.957 692.5 189.884 692.5 156.412 690.229 125.539 685.687 94.6662 681.144 64.931 674.33 36.3331 665.246L59.2438 552.821C72.8928 557.688 87.3538 562.23 102.628 566.448 117.902 570.666 133.339 574.235 148.937 577.155 164.536 580.075 180.136 582.347 195.734 583.969 211.333 585.591 226.445 586.403 241.068 586.403 266.741 586.403 288.759 584.05 307.12 579.346 325.481 574.641 340.592 568.233 352.455 560.122 364.316 552.01 373.009 542.682 378.534 532.137 384.059 521.592 386.821 510.479 386.821 498.799 386.821 485.172 383.164 473.41 375.853 463.514 368.541 453.618 358.791 444.614 346.605 436.503 334.418 428.391 320.607 420.767 305.17 413.629 289.733 406.491 273.972 399.11 257.886 391.484 241.8 383.86 226.119 375.586 210.845 366.663 195.571 357.741 181.841 347.197 169.654 335.028 157.468 322.861 147.718 308.748 140.407 292.687 133.095 276.626 129.439 257.727 129.439 235.988 129.439 210.032 134.882 184.967 145.769 160.795 156.656 136.624 173.391 115.128 195.978 96.3092 218.563 77.4909 247.324 62.4847 282.259 51.2908 317.194 40.0968 358.71 34.4998 406.807 34.4998Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/></g></g></g></g><path d="M1756.97 902.5C1770.95 902.5 1785 903.068 1799.14 904.203 1813.28 905.339 1827.09 906.799 1840.57 908.584 1854.06 910.368 1866.82 912.477 1878.84 914.91 1890.86 917.344 1901.75 919.859 1911.5 922.455L1890.54 1028.06C1881.11 1024.82 1870.47 1021.82 1858.61 1019.06 1846.75 1016.3 1834.4 1013.87 1821.56 1011.76 1808.73 1009.65 1795.81 1008.03 1782.81 1006.89 1769.81 1005.76 1757.46 1005.19 1745.76 1005.19 1722.69 1005.19 1702.87 1007.22 1686.29 1011.27 1669.72 1015.33 1656.07 1020.85 1645.34 1027.82 1634.62 1034.8 1626.74 1043.07 1621.7 1052.64 1616.66 1062.21 1614.15 1072.35 1614.15 1083.06 1614.15 1095.39 1617.88 1106.18 1625.36 1115.42 1632.83 1124.67 1642.66 1133.19 1654.85 1140.98 1667.04 1148.76 1680.85 1156.23 1696.28 1163.36 1711.72 1170.5 1727.56 1178.05 1743.81 1185.99 1760.06 1193.94 1775.9 1202.62 1791.34 1212.03 1806.78 1221.44 1820.59 1232.39 1832.77 1244.88 1844.96 1257.38 1854.79 1271.81 1862.27 1288.2 1869.74 1304.58 1873.48 1323.48 1873.48 1344.9 1873.48 1377.67 1866.49 1407.36 1852.52 1433.96 1838.54 1460.57 1818.64 1483.28 1792.8 1502.1 1766.97 1520.92 1735.69 1535.35 1698.96 1545.41 1662.24 1555.47 1621.3 1560.5 1576.12 1560.5 1540.05 1560.5 1506.58 1558.23 1475.71 1553.69 1444.83 1549.14 1415.1 1542.33 1386.5 1533.25L1409.41 1420.82C1423.06 1425.69 1437.52 1430.23 1452.79 1434.45 1468.07 1438.67 1483.51 1442.23 1499.1 1445.16 1514.7 1448.08 1530.3 1450.35 1545.9 1451.97 1561.5 1453.59 1576.61 1454.4 1591.24 1454.4 1616.91 1454.4 1638.93 1452.05 1657.29 1447.35 1675.65 1442.64 1690.76 1436.23 1702.62 1428.12 1714.48 1420.01 1723.18 1410.68 1728.7 1400.14 1734.23 1389.59 1736.99 1378.48 1736.99 1366.8 1736.99 1353.17 1733.33 1341.41 1726.02 1331.51 1718.71 1321.62 1708.96 1312.61 1696.77 1304.5 1684.58 1296.39 1670.77 1288.77 1655.34 1281.63 1639.9 1274.49 1624.14 1267.11 1608.05 1259.48 1591.97 1251.86 1576.29 1243.59 1561.01 1234.66 1545.74 1225.74 1532.01 1215.2 1519.82 1203.03 1507.63 1190.86 1497.89 1176.75 1490.57 1160.69 1483.26 1144.63 1479.61 1125.73 1479.61 1103.99 1479.61 1078.03 1485.05 1052.97 1495.94 1028.8 1506.82 1004.62 1523.56 983.128 1546.14 964.309 1568.73 945.491 1597.49 930.485 1632.43 919.291 1667.36 908.097 1708.88 902.5 1756.97 902.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip5)" filter="url(#fx1)" transform="translate(757 888)"><g><g><path d="M482.943 195.5C482.943 283.043 379.597 370.586 276.25 370.586" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M195.25 316.5C262.575 316.5 329.901 417.048 329.901 517.595" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M30.2499 316C30.2499 270.437 67.1864 233.5 112.75 233.5 158.313 233.5 195.25 270.437 195.25 316 195.25 361.564 158.313 398.5 112.75 398.5 67.1864 398.5 30.2499 361.564 30.2499 316Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M400.25 113C400.25 67.4365 437.187 30.5 482.75 30.5 528.314 30.5 565.25 67.4365 565.25 113 565.25 158.563 528.314 195.5 482.75 195.5 437.187 195.5 400.25 158.563 400.25 113Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M237.25 539.334C237.25 527.275 247.025 517.5 259.084 517.5L400.417 517.5C412.475 517.5 422.25 527.275 422.25 539.334L422.25 626.666C422.25 638.725 412.475 648.5 400.417 648.5L259.084 648.5C247.025 648.5 237.25 638.725 237.25 626.666Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip6)" transform="matrix(0.000360892 0 0 0.000360892 261.75 517)"><g clip-path="url(#clip8)" transform="matrix(1 0 0 1 0.0663341 0.216198)"><use width="100%" height="100%" xlink:href="#img7" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></g><path d="M1226.19 1083.5C1226.19 1171.04 1122.85 1258.59 1019.5 1258.59" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M938.5 1204.5C1005.83 1204.5 1073.15 1305.05 1073.15 1405.6" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M773.5 1204C773.5 1158.44 810.436 1121.5 856 1121.5 901.563 1121.5 938.5 1158.44 938.5 1204 938.5 1249.56 901.563 1286.5 856 1286.5 810.436 1286.5 773.5 1249.56 773.5 1204Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M1143.5 1001C1143.5 955.437 1180.44 918.5 1226 918.5 1271.56 918.5 1308.5 955.437 1308.5 1001 1308.5 1046.56 1271.56 1083.5 1226 1083.5 1180.44 1083.5 1143.5 1046.56 1143.5 1001Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M980.5 1427.33C980.5 1415.28 990.275 1405.5 1002.33 1405.5L1143.67 1405.5C1155.72 1405.5 1165.5 1415.28 1165.5 1427.33L1165.5 1514.67C1165.5 1526.72 1155.72 1536.5 1143.67 1536.5L1002.33 1536.5C990.275 1536.5 980.5 1526.72 980.5 1514.67Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip9)" transform="matrix(0.000360892 0 0 0.000360892 1005 1405)"><g clip-path="url(#clip11)" transform="matrix(1 0 0 1 0.0684703 0.216198)"><use width="100%" height="100%" xlink:href="#img10" opacity="1" transform="scale(725.197 725.197)"></use></g></g><g clip-path="url(#clip12)"><g clip-path="url(#clip13)" filter="url(#fx2)" transform="translate(2001 868)"><g><g><path d="M414.785 34.4998C443.687 34.4998 472.591 37.1766 501.494 42.53 530.398 47.8835 557.677 54.7783 583.333 63.2143L560.437 173.692C539.004 165.581 514.728 158.2 487.611 151.548 460.494 144.896 432.159 141.571 402.606 141.571 373.053 141.571 346.504 146.519 322.96 156.415 299.415 166.311 278.631 179.451 260.607 195.836 242.582 212.221 227.238 231.04 214.573 252.292 201.907 273.544 191.515 295.769 183.396 318.968 175.278 342.167 169.35 365.528 165.616 389.051 161.881 412.575 160.014 434.557 160.014 454.997 160.014 476.087 162.531 494.662 167.564 510.723 172.598 526.783 180.555 540.41 191.434 551.604 202.313 562.798 216.278 571.234 233.327 576.913 250.377 582.59 270.918 585.429 294.95 585.429 309.888 585.429 322.473 584.537 332.703 582.752 342.932 580.968 353.244 578.291 363.636 574.722L396.761 412.169 289.104 412.169 308.589 313.371 535.107 313.371 466.421 652.592C434.92 665.894 403.662 675.872 372.647 682.523 341.633 689.174 307.453 692.5 270.106 692.5 233.083 692.5 200.039 687.309 170.974 676.926 141.908 666.544 117.227 651.375 96.9299 631.421 76.6329 611.467 61.1254 586.97 50.4087 557.931 39.6919 528.893 34.3335 495.554 34.3335 457.918 34.3335 432.934 36.6877 405.112 41.3971 374.451 46.1055 343.789 54.1431 312.723 65.5098 281.25 76.8756 249.778 91.9768 219.279 110.813 189.753 129.649 160.227 153.113 133.946 181.204 110.909 209.296 87.8731 242.582 69.3795 281.066 55.4276 319.55 41.4758 364.123 34.4998 414.785 34.4998Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/></g></g></g></g><path d="M2369.95 902.5C2398.85 902.5 2427.76 905.177 2456.66 910.53 2485.56 915.883 2512.84 922.778 2538.5 931.214L2515.6 1041.69C2494.17 1033.58 2469.89 1026.2 2442.78 1019.55 2415.66 1012.9 2387.33 1009.57 2357.77 1009.57 2328.22 1009.57 2301.67 1014.52 2278.13 1024.41 2254.58 1034.31 2233.8 1047.45 2215.77 1063.84 2197.75 1080.22 2182.41 1099.04 2169.74 1120.29 2157.07 1141.54 2146.68 1163.77 2138.56 1186.97 2130.44 1210.17 2124.52 1233.53 2120.78 1257.05 2117.05 1280.57 2115.18 1302.56 2115.18 1323 2115.18 1344.09 2117.7 1362.66 2122.73 1378.72 2127.76 1394.78 2135.72 1408.41 2146.6 1419.6 2157.48 1430.8 2171.44 1439.23 2188.49 1444.91 2205.54 1450.59 2226.08 1453.43 2250.12 1453.43 2265.05 1453.43 2277.64 1452.54 2287.87 1450.75 2298.1 1448.97 2308.41 1446.29 2318.8 1442.72L2351.93 1280.17 2244.27 1280.17 2263.76 1181.37 2490.27 1181.37 2421.59 1520.59C2390.09 1533.89 2358.83 1543.87 2327.81 1550.52 2296.8 1557.17 2262.62 1560.5 2225.27 1560.5 2188.25 1560.5 2155.21 1555.31 2126.14 1544.93 2097.08 1534.54 2072.39 1519.38 2052.1 1499.42 2031.8 1479.47 2016.29 1454.97 2005.58 1425.93 1994.86 1396.89 1989.5 1363.55 1989.5 1325.92 1989.5 1300.93 1991.85 1273.11 1996.56 1242.45 2001.27 1211.79 2009.31 1180.72 2020.68 1149.25 2032.04 1117.78 2047.14 1087.28 2065.98 1057.75 2084.82 1028.23 2108.28 1001.95 2136.37 978.909 2164.46 955.873 2197.75 937.38 2236.23 923.428 2274.72 909.476 2319.29 902.5 2369.95 902.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/><path d="M2837.7 900.5 2964.33 900.5 2853.41 1455.63 3132.5 1455.63 3111.73 1562.5 2705.5 1562.5 2837.7 900.5Z" stroke="#E4C0B8" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2807.7 900.5 2934.33 900.5 2823.41 1455.63 3102.5 1455.63 3081.73 1562.5 2675.5 1562.5 2807.7 900.5Z" stroke="#D29886" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2778.7 900.5 2905.33 900.5 2794.41 1455.63 3073.5 1455.63 3052.73 1562.5 2646.5 1562.5 2778.7 900.5Z" stroke="#BC644B" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2748.7 900.5 2875.33 900.5 2764.41 1455.63 3043.5 1455.63 3022.73 1562.5 2616.5 1562.5 2748.7 900.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/></g></g></svg>
\ No newline at end of file
diff --git a/assets/logo_square.svg b/assets/logo_square.svg
new file mode 100644
index 000000000000..b9e1c36acb8f
--- /dev/null
+++ b/assets/logo_square.svg
@@ -0,0 +1 @@
+<svg width="596" height="683" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:space="preserve" overflow="hidden"><defs><filter id="fx0" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="6.111111 6.111111"/></filter><clipPath id="clip1"><rect x="1.41663" y="1.66669" width="592.667" height="675.667"/></clipPath><clipPath id="clip2"><rect x="-2078.55" y="-2770.64" width="374073" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img3"></image><clipPath id="clip4"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip5"><rect x="-0.363636" y="-2770.64" width="371302" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img6"></image><clipPath id="clip7"><rect x="0" y="0" width="371301" height="371301"/></clipPath></defs><g transform="translate(-756 -884)"><g><g clip-path="url(#clip1)" filter="url(#fx0)" transform="translate(757 888)"><g><g><path d="M482.943 195.5C482.943 283.043 379.597 370.586 276.25 370.586" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M195.25 316.5C262.575 316.5 329.901 417.048 329.901 517.595" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M30.2499 316C30.2499 270.437 67.1864 233.5 112.75 233.5 158.313 233.5 195.25 270.437 195.25 316 195.25 361.564 158.313 398.5 112.75 398.5 67.1864 398.5 30.2499 361.564 30.2499 316Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M400.25 113C400.25 67.4365 437.187 30.5 482.75 30.5 528.314 30.5 565.25 67.4365 565.25 113 565.25 158.563 528.314 195.5 482.75 195.5 437.187 195.5 400.25 158.563 400.25 113Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M237.25 539.334C237.25 527.275 247.025 517.5 259.084 517.5L400.417 517.5C412.475 517.5 422.25 527.275 422.25 539.334L422.25 626.666C422.25 638.725 412.475 648.5 400.417 648.5L259.084 648.5C247.025 648.5 237.25 638.725 237.25 626.666Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip2)" transform="matrix(0.000360892 0 0 0.000360892 261.75 517)"><g clip-path="url(#clip4)" transform="matrix(1 0 0 1 0.0663341 0.216198)"><use width="100%" height="100%" xlink:href="#img3" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></g><path d="M1226.19 1083.5C1226.19 1171.04 1122.85 1258.59 1019.5 1258.59" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M938.5 1204.5C1005.83 1204.5 1073.15 1305.05 1073.15 1405.6" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M773.5 1204C773.5 1158.44 810.436 1121.5 856 1121.5 901.563 1121.5 938.5 1158.44 938.5 1204 938.5 1249.56 901.563 1286.5 856 1286.5 810.436 1286.5 773.5 1249.56 773.5 1204Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M1143.5 1001C1143.5 955.437 1180.44 918.5 1226 918.5 1271.56 918.5 1308.5 955.437 1308.5 1001 1308.5 1046.56 1271.56 1083.5 1226 1083.5 1180.44 1083.5 1143.5 1046.56 1143.5 1001Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M980.5 1427.33C980.5 1415.28 990.275 1405.5 1002.33 1405.5L1143.67 1405.5C1155.72 1405.5 1165.5 1415.28 1165.5 1427.33L1165.5 1514.67C1165.5 1526.72 1155.72 1536.5 1143.67 1536.5L1002.33 1536.5C990.275 1536.5 980.5 1526.72 980.5 1514.67Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip5)" transform="matrix(0.000360892 0 0 0.000360892 1005 1405)"><g clip-path="url(#clip7)" transform="matrix(1 0 0 1 0.0684703 0.216198)"><use width="100%" height="100%" xlink:href="#img6" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></svg>
\ No newline at end of file

From 32fa1e9cc286f8fcbee8735b9cb6e776e4a89231 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Thu, 31 Jul 2025 02:34:02 -0700
Subject: [PATCH 244/396] [4/N] MoE Refactor: Unified Triton Kernel for
 FusedMoE and EPMoE (#8515)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 663 +-----------------
 .../layers/moe/fused_moe_triton/fused_moe.py  |  26 +-
 .../srt/layers/moe/fused_moe_triton/layer.py  |  44 +-
 python/sglang/srt/layers/quantization/fp8.py  |  18 -
 .../sglang/srt/layers/quantization/unquant.py |   8 -
 .../sglang/srt/layers/quantization/w4afp8.py  |   1 +
 6 files changed, 70 insertions(+), 690 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index c9a20d276050..e74df36da3a7 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -86,79 +86,6 @@
 logger = logging.getLogger(__name__)
 
 
-class GroupedGemmRunner(torch.nn.Module):
-    flashinfer_gemm_warpper = None
-
-    def __init__(
-        self,
-        device,
-        use_flashinfer: bool = False,
-        use_per_token_if_dynamic: bool = True,
-    ):
-        super().__init__()
-        self.device = device
-        self.use_flashinfer = use_flashinfer
-        self.use_per_token_if_dynamic = use_per_token_if_dynamic
-        if self.use_flashinfer and GroupedGemmRunner.flashinfer_gemm_warpper is None:
-            GroupedGemmRunner._init_flashinfer_wrapper(device)
-
-    @classmethod
-    def _init_flashinfer_wrapper(cls, device):
-        from flashinfer import SegmentGEMMWrapper
-
-        workspace_buffer = torch.empty(
-            128 * 1024 * 1024, dtype=torch.int8, device=device
-        )
-        cls.flashinfer_gemm_warpper = SegmentGEMMWrapper(workspace_buffer)
-
-    # c = a * b
-    def forward(
-        self,
-        a: torch.Tensor,
-        b: torch.Tensor,
-        c: torch.Tensor,
-        batch_size: int,
-        weight_column_major: bool,
-        seg_indptr: Optional[torch.Tensor] = None,
-        weight_indices: Optional[torch.Tensor] = None,
-        use_fp8_w8a8: bool = False,
-        scale_a: torch.Tensor = None,
-        scale_b: torch.Tensor = None,
-        block_shape: Optional[List[int]] = None,
-        c_dtype=None,
-    ):
-        if self.use_flashinfer:
-            # TODO: flashinfer
-            assert False
-            assert GroupedGemmRunner.flashinfer_gemm_warpper is not None
-            c = GroupedGemmRunner.flashinfer_gemm_warpper.run(
-                x=a,
-                weights=b,
-                batch_size=batch_size,
-                weight_column_major=weight_column_major,
-                seg_indptr=seg_indptr,
-                weight_indices=weight_indices,
-            )
-        else:
-            assert weight_column_major == True
-            c = grouped_gemm_triton(
-                a,
-                b,
-                c,
-                batch_size,
-                weight_column_major,
-                seg_indptr,
-                weight_indices,
-                use_fp8_w8a8,
-                scale_a,
-                scale_b,
-                block_shape=block_shape,
-                c_dtype=c_dtype,
-                use_per_token_if_dynamic=self.use_per_token_if_dynamic,
-            )
-        return c
-
-
 def _get_tile_tokens_dim(num_tokens, top_k, num_experts):
     # Guess tokens per expert assuming perfect expert distribution first.
     num_tokens_per_expert = (num_tokens * top_k) // num_experts
@@ -190,135 +117,50 @@ def __init__(
         prefix: str = "",
         activation: str = "silu",
         routed_scaling_factor: Optional[float] = None,
-        use_per_token_if_dynamic: bool = True,
     ):
         super().__init__(
             num_experts=num_experts,
             hidden_size=hidden_size,
             intermediate_size=intermediate_size,
-            top_k=top_k,
             num_fused_shared_experts=num_fused_shared_experts,
             layer_id=layer_id,
+            top_k=top_k,
             params_dtype=params_dtype,
             quant_config=quant_config,
             tp_size=tp_size,
             prefix=prefix,
             activation=activation,
+            # apply_router_weight_on_input=apply_router_weight_on_input,
             routed_scaling_factor=routed_scaling_factor,
             enable_ep_moe=True,
-            skip_quant=True,
         )
 
-        if params_dtype is None:
-            params_dtype = torch.get_default_dtype()
-
-        self.layer_id = layer_id
-        self.num_local_experts, self.expert_map = self.determine_expert_map()
         self.start_expert_id = self.ep_rank * self.num_local_experts
         self.end_expert_id = self.start_expert_id + self.num_local_experts - 1
 
         self.intermediate_size = intermediate_size
-        self.use_per_token_if_dynamic = use_per_token_if_dynamic
 
-        # TODO(ch-wan): move quant preparation to FusedMoE
-        if quant_config is None:
-            self.quant_method: Optional[QuantizeMethodBase] = (
-                UnquantizedFusedMoEMethod()
-            )
-            self.use_fp8_w8a8 = False
-            self.use_block_quant = False
-            self.block_shape = None
-            self.activation_scheme = None
-            self.w13_input_scale = None
-            self.w2_input_scale = None
-            self.w13_weight_scale = None
-            self.w2_weight_scale = None
-        elif isinstance(quant_config, W4AFp8Config):
-            self.quant_method: Optional[QuantizeMethodBase] = W4AFp8MoEMethod(
-                quant_config
-            )
-            self.use_fp8_w8a8 = False
-            self.use_block_quant = False
-            self.fp8_dtype = torch.float8_e4m3fn
-            self.w13_input_scale = None
-            self.w2_input_scale = None
-            self.w13_weight_scale = None
-            self.w2_weight_scale = None
-            self.activation_scheme = quant_config.moe_activation_scheme
-        elif isinstance(quant_config, Fp8Config):
-            self.quant_method: Optional[QuantizeMethodBase] = Fp8MoEMethod(quant_config)
-            self.use_fp8_w8a8 = True
+        if isinstance(quant_config, Fp8Config):
             self.use_block_quant = getattr(self.quant_method, "block_quant", False)
             self.block_shape = (
                 self.quant_method.quant_config.weight_block_size
                 if self.use_block_quant
                 else None
             )
+            self.use_fp8_w8a8 = True
             self.fp8_dtype = torch.float8_e4m3fn
             self.activation_scheme = quant_config.activation_scheme
         else:
-            raise ValueError(f"Unsupported quant_config: {quant_config}")
-
-        self.quant_config = quant_config
-        self.quant_method.create_weights(
-            layer=self,
-            num_experts=self.num_local_experts,
-            hidden_size=hidden_size,
-            intermediate_size=self.intermediate_size,
-            params_dtype=params_dtype,
-            weight_loader=self.weight_loader,
-        )
-
-        self.grouped_gemm_runner = None
-
-    # Adapted from https://github.com/vllm-project/vllm/blob/9fb52e523abf7bdaf7e60cf2971edb5a1b13dc08/vllm/model_executor/layers/fused_moe/layer.py#L544C1-L586C43
-    # Modifications: use determine_expert_map as a class internal function, set 'global_num_experts' rather than '-1' for experts not assigned to the current rank.
-    def determine_expert_map(self) -> Tuple[int, Optional[torch.Tensor]]:
-        """
-        Calculates how many experts should be assigned to each rank for EP and
-        creates a mapping from global to local expert index. Experts are
-        distributed evenly across ranks. Any remaining are assigned to the
-        last rank.
-
-        Returns:
-            Tuple[int, Optional[torch.Tensor]]: A tuple containing:
-                - local_num_experts (int): The number of experts assigned
-                    to the current rank.
-                - expert_map (Optional[torch.Tensor]): A tensor of shape
-                    (global_num_experts,) mapping from global to local index.
-                    Contains global_num_experts for experts not assigned to the current rank.
-                    Returns None if ep_size is 1.
-        """
-        ep_size = self.ep_size
-        ep_rank = self.ep_rank
-        global_num_experts = self.num_experts
-
-        assert ep_size > 0
-        if ep_size == 1:
-            return (global_num_experts, None)
-
-        local_num_experts = global_num_experts // ep_size
-
-        expert_map = torch.full(
-            (global_num_experts,), global_num_experts, dtype=torch.int32
-        )
-        if ep_rank < (ep_size - 1):
-            expert_map[
-                ep_rank * local_num_experts : (ep_rank + 1) * local_num_experts
-            ] = torch.arange(0, local_num_experts, dtype=torch.int32)
-        else:
-            local_num_experts = global_num_experts - ep_rank * local_num_experts
-
-            expert_map[-local_num_experts:] = torch.arange(
-                0, local_num_experts, dtype=torch.int32
-            )
-        return (local_num_experts, expert_map)
+            self.use_fp8_w8a8 = False
+            self.use_block_quant = False
+            self.block_shape = None
+            self.activation_scheme = None
 
     def forward(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
         if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM and self.use_fp8_w8a8:
             return self.forward_deepgemm(hidden_states, topk_output)
         else:
-            return self.forward_normal(hidden_states, topk_output)
+            return super().forward(hidden_states, topk_output)
 
     def forward_deepgemm(
         self,
@@ -477,303 +319,6 @@ def forward_deepgemm(
         )
         return output
 
-    def forward_normal(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
-        return self.quant_method.apply(self, hidden_states, topk_output)
-
-    def run_moe(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
-
-        topk_weights, topk_ids, _ = topk_output
-
-        hidden_states_shape = hidden_states.shape
-        hidden_states_dtype = hidden_states.dtype
-        hidden_states_device = hidden_states.device
-        if self.grouped_gemm_runner is None:
-            self.grouped_gemm_runner = GroupedGemmRunner(
-                hidden_states.device,
-                use_flashinfer=False,  # TODO: use flashinfer
-                use_per_token_if_dynamic=self.use_per_token_if_dynamic,
-            )
-
-        num_experts = self.num_experts
-
-        reorder_topk_ids, src2dst, seg_indptr = run_moe_ep_preproess(
-            topk_ids,
-            num_experts,
-        )
-
-        gateup_input = torch.empty(
-            (int(hidden_states.shape[0] * self.top_k), hidden_states.shape[1]),
-            device=hidden_states.device,
-            dtype=(
-                self.fp8_dtype
-                if self.use_fp8_w8a8 and not self.use_block_quant
-                else hidden_states.dtype
-            ),
-        )
-        if self.activation_scheme == "dynamic" and not self.use_block_quant:
-            if self.use_per_token_if_dynamic:
-                max_value = torch.max(hidden_states, dim=1).values.to(torch.float32)
-                self.w13_input_scale = max_value / torch.finfo(self.fp8_dtype).max
-            else:
-                max_value = (
-                    torch.max(hidden_states)
-                    .repeat(self.num_local_experts)
-                    .to(torch.float32)
-                )
-                self.w13_input_scale = max_value / torch.finfo(self.fp8_dtype).max
-
-        # PreReorder
-        pre_reorder_triton_kernel[(hidden_states.shape[0],)](
-            hidden_states,
-            gateup_input,
-            src2dst,
-            topk_ids,
-            self.w13_input_scale,
-            self.start_expert_id,
-            self.end_expert_id,
-            self.top_k,
-            hidden_states.shape[1],
-            BLOCK_SIZE=512,
-            use_per_token_if_dynamic=self.use_per_token_if_dynamic,
-        )
-        dispose_tensor(hidden_states)
-
-        if (
-            self.activation_scheme == "dynamic"
-            and not self.use_block_quant
-            and self.use_per_token_if_dynamic
-        ):
-            scale = torch.empty(
-                hidden_states_shape[0] * self.top_k,
-                device=hidden_states_device,
-                dtype=torch.float32,
-            )
-            scale[src2dst] = (
-                self.w13_input_scale.unsqueeze(1)
-                .expand(hidden_states_shape[0], self.top_k)
-                .reshape(-1)
-            )
-            self.w13_input_scale = scale
-
-        seg_indptr_cur_rank = seg_indptr[self.start_expert_id : self.end_expert_id + 2]
-        weight_indices_cur_rank = torch.arange(
-            0,
-            self.num_local_experts,
-            device=hidden_states_device,
-            dtype=torch.int64,
-        )
-        # GroupGemm-0
-        gateup_output = self.grouped_gemm_runner(
-            a=gateup_input,
-            b=self.w13_weight,
-            c=None,
-            c_dtype=hidden_states_dtype,
-            batch_size=self.num_local_experts,
-            weight_column_major=True,
-            seg_indptr=seg_indptr_cur_rank,
-            weight_indices=weight_indices_cur_rank,
-            use_fp8_w8a8=self.use_fp8_w8a8,
-            scale_a=self.w13_input_scale,
-            scale_b=self.w13_weight_scale,
-            block_shape=self.block_shape,
-        )
-        del gateup_input
-
-        # Act
-        if self.activation_scheme == "dynamic" and not self.use_block_quant:
-            self.w2_input_scale = None
-            down_input = torch.empty(
-                gateup_output.shape[0],
-                gateup_output.shape[1] // 2,
-                device=gateup_output.device,
-                dtype=hidden_states_dtype,
-            )
-        else:
-            down_input = torch.empty(
-                gateup_output.shape[0],
-                gateup_output.shape[1] // 2,
-                device=gateup_output.device,
-                dtype=(
-                    self.fp8_dtype
-                    if (self.use_fp8_w8a8 and not self.use_block_quant)
-                    else hidden_states_dtype
-                ),
-            )
-
-        if self.activation == "silu":
-            silu_and_mul_triton_kernel[(gateup_output.shape[0],)](
-                gateup_output,
-                down_input,
-                gateup_output.shape[1],
-                reorder_topk_ids,
-                self.w2_input_scale,
-                self.start_expert_id,
-                self.end_expert_id,
-                BLOCK_SIZE=512,
-            )
-        elif self.activation == "gelu":
-            gelu_and_mul_triton_kernel[(gateup_output.shape[0],)](
-                gateup_output,
-                down_input,
-                gateup_output.shape[1],
-                reorder_topk_ids,
-                self.w2_input_scale,
-                self.start_expert_id,
-                self.end_expert_id,
-                BLOCK_SIZE=512,
-            )
-        else:
-            raise ValueError(f"Unsupported activation: {self.activation=}")
-        del gateup_output
-
-        if self.activation_scheme == "dynamic" and not self.use_block_quant:
-            if self.use_per_token_if_dynamic:
-                down_input, self.w2_input_scale = sglang_per_token_quant_fp8(down_input)
-            else:
-                self.w2_input_scale = torch.ones(
-                    self.num_local_experts,
-                    dtype=torch.float32,
-                    device=hidden_states_device,
-                )
-
-        # GroupGemm-1
-        down_output = torch.empty(
-            down_input.shape[0],
-            self.w2_weight.shape[1],
-            device=hidden_states_device,
-            dtype=hidden_states_dtype,
-        )
-        down_output = self.grouped_gemm_runner(
-            a=down_input,
-            b=self.w2_weight,
-            c=down_output,
-            batch_size=self.num_local_experts,
-            weight_column_major=True,
-            seg_indptr=seg_indptr_cur_rank,
-            weight_indices=weight_indices_cur_rank,
-            use_fp8_w8a8=self.use_fp8_w8a8,
-            scale_a=self.w2_input_scale,
-            scale_b=self.w2_weight_scale,
-            block_shape=self.block_shape,
-        )
-        del down_input
-
-        # PostReorder
-        output = torch.empty(
-            hidden_states_shape, dtype=hidden_states_dtype, device=hidden_states_device
-        )
-        post_reorder_triton_kernel[(hidden_states_shape[0],)](
-            down_output,
-            output,
-            src2dst,
-            topk_ids,
-            topk_weights,
-            self.start_expert_id,
-            self.end_expert_id,
-            self.top_k,
-            hidden_states_shape[1],
-            0,
-            BLOCK_SIZE=512,
-        )
-        return output
-
-    @classmethod
-    def make_expert_params_mapping(
-        cls,
-        ckpt_gate_proj_name: str,
-        ckpt_down_proj_name: str,
-        ckpt_up_proj_name: str,
-        num_experts: int,
-    ) -> List[Tuple[str, str, int, str]]:
-        return [
-            # (param_name, weight_name, expert_id, shard_id)
-            (
-                (
-                    "experts.w13_"
-                    if weight_name in [ckpt_gate_proj_name, ckpt_up_proj_name]
-                    else "experts.w2_"
-                ),
-                f"experts.{expert_id}.{weight_name}.",
-                expert_id,
-                shard_id,
-            )
-            for expert_id in range(num_experts)
-            for shard_id, weight_name in [
-                ("w1", ckpt_gate_proj_name),
-                ("w2", ckpt_down_proj_name),
-                ("w3", ckpt_up_proj_name),
-            ]
-        ]
-
-    @classmethod
-    def make_expert_input_scale_params_mapping(
-        cls,
-        num_experts: int,
-    ) -> List[Tuple[str, str, int, str]]:
-        # (param_name, weight_name, expert_id, shard_id)
-        return [
-            (
-                "experts.w13_" if shard_id in ["w1", "w3"] else "experts.w2_",
-                f"experts.{expert_id}.{shard_id}.",
-                expert_id,
-                shard_id,
-            )
-            for expert_id in range(num_experts)
-            for shard_id in ["w1", "w2", "w3"]
-        ]
-
-    def weight_loader(
-        self,
-        param: torch.nn.Parameter,
-        loaded_weight: torch.Tensor,
-        weight_name: str,
-        shard_id: str,
-        expert_id: int,
-    ) -> None:
-        global_expert_location_metadata = get_global_expert_location_metadata()
-        if global_expert_location_metadata is None:
-            self._weight_loader_impl(
-                param=param,
-                loaded_weight=loaded_weight,
-                weight_name=weight_name,
-                shard_id=shard_id,
-                expert_id=expert_id,
-            )
-            return
-
-        physical_expert_ids = global_expert_location_metadata.logical_to_all_physical(
-            self.layer_id, expert_id
-        )
-        for physical_expert_id in physical_expert_ids:
-            self._weight_loader_physical(
-                param=param,
-                loaded_weight=loaded_weight,
-                weight_name=weight_name,
-                shard_id=shard_id,
-                expert_id=physical_expert_id,
-            )
-
-    def _weight_loader_physical(
-        self,
-        param: torch.nn.Parameter,
-        loaded_weight: torch.Tensor,
-        weight_name: str,
-        shard_id: str,
-        expert_id: int,
-    ) -> None:
-        if expert_id < self.start_expert_id or expert_id > self.end_expert_id:
-            return
-        expert_id = expert_id - self.start_expert_id
-
-        self._weight_loader_impl(
-            param=param,
-            loaded_weight=loaded_weight,
-            weight_name=weight_name,
-            shard_id=shard_id,
-            expert_id=expert_id,
-        )
-        return
-
 
 class DeepEPMoE(EPMoE):
     """
@@ -905,14 +450,15 @@ def moe_impl(self, dispatch_output: DispatchOutput):
             # in forward_aiter, we skip token permutation and unpermutation, which have been fused inside aiter kernel
             return self.forward_aiter(dispatch_output)
         if dispatch_output.format.is_deepep_normal():
-            if deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM and self.use_fp8_w8a8:
-                return self.forward_deepgemm_contiguous(dispatch_output)
-            else:
-                return self.forward_normal(dispatch_output)
+            assert deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM and self.use_fp8_w8a8
+            return self.forward_deepgemm_contiguous(dispatch_output)
         elif dispatch_output.format.is_deepep_ll():
+            assert deep_gemm_wrapper.ENABLE_JIT_DEEPGEMM and self.use_fp8_w8a8
             return self.forward_deepgemm_masked(dispatch_output)
         else:
-            raise ValueError(f"Invalid deepep_mode: {self.deepep_mode}")
+            raise ValueError(
+                f"Dispatch output format {dispatch_output.format} is not supported"
+            )
 
     def combine(
         self,
@@ -928,185 +474,6 @@ def combine(
             forward_batch=forward_batch,
         )
 
-    def _prepare_for_normal(
-        self,
-        hidden_states: torch.Tensor,
-        topk_idx: torch.Tensor,
-    ):
-        from sglang.srt.layers.moe.ep_moe.kernels import (
-            deepep_permute_triton_kernel,
-            deepep_run_moe_deep_preprocess,
-        )
-
-        if hidden_states.shape[0] == 0:
-            reorder_topk_ids = torch.empty(
-                (0,), device=hidden_states.device, dtype=torch.int64
-            )
-            seg_indptr = torch.zeros(
-                (self.num_experts + 1,),
-                device=hidden_states.device,
-                dtype=torch.int64,
-            )
-            return reorder_topk_ids, seg_indptr, hidden_states
-        else:
-            if _use_aiter:
-                # skip permutation here as aiter fused_moe has fused inside
-                reorder_topk_ids = torch.empty(
-                    (0,), device=hidden_states.device, dtype=torch.int64
-                )
-                seg_indptr = torch.zeros(
-                    (self.num_experts + 1,),
-                    device=hidden_states.device,
-                    dtype=torch.int64,
-                )
-                return reorder_topk_ids, seg_indptr, hidden_states
-
-            reorder_topk_ids, self.src2dst, seg_indptr = deepep_run_moe_deep_preprocess(
-                topk_idx, self.num_experts
-            )
-            num_total_tokens = reorder_topk_ids.numel()
-            gateup_input = torch.empty(
-                (int(num_total_tokens), hidden_states.shape[1]),
-                device=hidden_states.device,
-                dtype=hidden_states.dtype,
-            )
-            # PreReorder
-            deepep_permute_triton_kernel[(hidden_states.shape[0],)](
-                hidden_states,
-                gateup_input,
-                self.src2dst,
-                topk_idx,
-                None,
-                self.router_topk,
-                hidden_states.shape[1],
-                BLOCK_SIZE=512,
-            )
-            return reorder_topk_ids, seg_indptr, gateup_input
-
-    def forward_normal(
-        self,
-        dispatch_output: DeepEPNormalOutput,
-    ):
-        hidden_states, topk_idx = (
-            dispatch_output.hidden_states,
-            dispatch_output.topk_idx,
-        )
-        reorder_topk_ids, seg_indptr, hidden_states = self._prepare_for_normal(
-            hidden_states, topk_idx
-        )
-        hidden_states_dtype = hidden_states.dtype
-        hidden_states_device = hidden_states.device
-
-        assert self.quant_method is not None
-        assert self.activation == "silu"
-        if self.grouped_gemm_runner is None:
-            self.grouped_gemm_runner = GroupedGemmRunner(
-                hidden_states.device, use_flashinfer=False  # TODO: use flashinfer
-            )
-
-        if self.activation_scheme == "dynamic" and not self.use_block_quant:
-            max_value = (
-                torch.max(hidden_states)
-                .repeat(self.num_local_experts)
-                .to(torch.float32)
-            )
-            self.w13_input_scale = max_value / torch.finfo(self.fp8_dtype).max
-        weight_indices_cur_rank = torch.arange(
-            0,
-            self.num_local_experts,
-            device=hidden_states.device,
-            dtype=torch.int64,
-        )
-
-        # GroupGemm-0
-        if hidden_states.shape[0] > 0:
-            gateup_output = self.grouped_gemm_runner(
-                a=hidden_states,
-                b=self.w13_weight,
-                c=None,
-                c_dtype=hidden_states.dtype,
-                batch_size=self.num_local_experts,
-                weight_column_major=True,
-                seg_indptr=seg_indptr,
-                weight_indices=weight_indices_cur_rank,
-                use_fp8_w8a8=self.use_fp8_w8a8,
-                scale_a=self.w13_input_scale,
-                scale_b=(
-                    self.w13_weight_scale_inv
-                    if self.use_block_quant
-                    else self.w13_weight_scale
-                ),
-                block_shape=self.block_shape,
-            )
-        else:
-            gateup_output = torch.empty(
-                hidden_states.shape[0],
-                self.w13_weight.shape[1],
-                device=hidden_states.device,
-                dtype=hidden_states.dtype,
-            )
-
-        # Act
-        down_input = torch.empty(
-            gateup_output.shape[0],
-            gateup_output.shape[1] // 2,
-            device=gateup_output.device,
-            dtype=(
-                self.fp8_dtype
-                if (self.use_fp8_w8a8 and not self.use_block_quant)
-                else hidden_states_dtype
-            ),
-        )
-        if self.w2_input_scale is None and not self.use_block_quant:
-            self.w2_input_scale = torch.ones(
-                self.num_local_experts,
-                dtype=torch.float32,
-                device=hidden_states_device,
-            )
-
-        if self.activation == "silu":
-            silu_and_mul_triton_kernel[(gateup_output.shape[0],)](
-                gateup_output,
-                down_input,
-                gateup_output.shape[1],
-                reorder_topk_ids,
-                self.w2_input_scale,
-                0,
-                self.num_local_experts - 1,
-                BLOCK_SIZE=512,
-            )
-        else:
-            raise ValueError(f"Unsupported activation: {self.activation=}")
-
-        del gateup_output
-
-        # GroupGemm-1
-        down_output = torch.empty(
-            down_input.shape[0],
-            self.w2_weight.shape[1],
-            device=hidden_states_device,
-            dtype=hidden_states_dtype,
-        )
-        if down_input.shape[0] > 0:
-            down_output = self.grouped_gemm_runner(
-                a=down_input,
-                b=self.w2_weight,
-                c=down_output,
-                batch_size=self.num_local_experts,
-                weight_column_major=True,
-                seg_indptr=seg_indptr,
-                weight_indices=weight_indices_cur_rank,
-                use_fp8_w8a8=self.use_fp8_w8a8,
-                scale_a=self.w2_input_scale,
-                scale_b=(
-                    self.w2_weight_scale_inv
-                    if self.use_block_quant
-                    else self.w2_weight_scale
-                ),
-                block_shape=self.block_shape,
-            )
-        return down_output
-
     def forward_aiter(
         self,
         dispatch_output: DeepEPNormalOutput,
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
index cd027d1139bc..d2c65d973b80 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -413,18 +413,37 @@ def fused_moe_kernel(
     num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr)
     if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
         return
-    offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
     offs_token = tl.load(sorted_token_ids_ptr + offs_token_id)
     offs_token = offs_token.to(tl.int64)
     token_mask = offs_token < num_valid_tokens
 
-    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    off_experts = tl.load(expert_ids_ptr + pid_m).to(tl.int64)
+
+    if off_experts == -1:
+        # -----------------------------------------------------------
+        # Write back zeros to the output when the expert is not
+        # in the current expert parallel rank.
+        write_zeros_to_output(
+            c_ptr,
+            stride_cm,
+            stride_cn,
+            pid_n,
+            N,
+            offs_token,
+            token_mask,
+            BLOCK_SIZE_M,
+            BLOCK_SIZE_N,
+            compute_type,
+        )
+        return
+
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)) % N
     offs_k = tl.arange(0, BLOCK_SIZE_K)
     a_ptrs = a_ptr + (
         offs_token[:, None] // top_k * stride_am + offs_k[None, :] * stride_ak
     )
 
-    off_experts = tl.load(expert_ids_ptr + pid_m)
     b_ptrs = (
         b_ptr
         + off_experts * stride_be
@@ -497,7 +516,6 @@ def fused_moe_kernel(
 
                 accumulator += tl.dot(a, b) * a_scale[:, None] * b_scale[None, :]
             else:
-                # fix out of shared memory issue
                 if use_fp8_w8a8:
                     accumulator = tl.dot(a, b, acc=accumulator)
                 else:
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 316bced90227..81e35d0024b3 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -12,7 +12,7 @@
     tensor_model_parallel_all_reduce,
 )
 from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
-from sglang.srt.layers.moe.topk import TopKOutput
+from sglang.srt.layers.moe.topk import StandardTopKOutput
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
@@ -79,7 +79,6 @@ def __init__(
         routed_scaling_factor: Optional[float] = None,
         enable_flashinfer_cutlass_moe: Optional[bool] = False,
         enable_ep_moe: Optional[bool] = False,
-        skip_quant: Optional[bool] = False,
     ):
         super().__init__()
 
@@ -95,7 +94,8 @@ def __init__(
         self.tp_rank = get_tensor_model_parallel_rank()
         self.num_experts = num_experts
         self.num_fused_shared_experts = num_fused_shared_experts
-        self.expert_map = None
+        self.expert_map_cpu = None
+        self.expert_map_gpu = None
 
         if enable_flashinfer_cutlass_moe and quant_config is None:
             logger.warning("Disable flashinfer MoE when quantization config is None.")
@@ -104,20 +104,22 @@ def __init__(
 
         self.enable_flashinfer_cutlass_moe = enable_flashinfer_cutlass_moe
         if enable_ep_moe:
+            # TODO(ch-wan): support shared experts fusion
             self.ep_size = self.tp_size
             self.ep_rank = self.tp_rank
             self.tp_size = 1
             self.tp_rank = 0
             # Create a tensor of size num_experts filled with -1
-            self.expert_map = torch.full((self.num_experts,), -1, dtype=torch.int32)
+            self.expert_map_cpu = torch.full((self.num_experts,), -1, dtype=torch.int32)
             # Create a expert map for the local experts
             assert num_experts % self.ep_size == 0
             self.num_local_experts = num_experts // self.ep_size
-            self.expert_map[
+            self.expert_map_cpu[
                 self.ep_rank
                 * self.num_local_experts : (self.ep_rank + 1)
                 * self.num_local_experts
             ] = torch.arange(0, self.num_local_experts, dtype=torch.int32, device="cpu")
+            self.expert_map_gpu = self.expert_map_cpu.to(device="cuda")
         else:
             self.ep_size = 1
             self.ep_rank = 0
@@ -136,9 +138,6 @@ def __init__(
             not _is_cpu and global_server_args_dict["enable_triton_kernel_moe"]
         )
 
-        if skip_quant:
-            return
-
         if quant_config is None:
             self.quant_method: Optional[QuantizeMethodBase] = UnquantizedFusedMoEMethod(
                 self.use_triton_kernels
@@ -367,9 +366,9 @@ def _load_g_idx(
             expert_data.copy_(loaded_weight)
 
     def _map_global_expert_id_to_local_expert_id(self, expert_id: int) -> int:
-        if self.expert_map is None:
+        if self.expert_map_cpu is None:
             return expert_id
-        return self.expert_map[expert_id].item()
+        return self.expert_map_cpu[expert_id].item()
 
     def weight_loader(
         self,
@@ -421,7 +420,6 @@ def _weight_loader_physical(
         expert_id = self._map_global_expert_id_to_local_expert_id(expert_id)
         if expert_id == -1:
             return
-
         self._weight_loader_impl(
             param=param,
             loaded_weight=loaded_weight,
@@ -614,9 +612,14 @@ def _weight_loader_impl(
             )
             return
 
-    def forward(self, hidden_states: torch.Tensor, topk_output: TopKOutput):
+    def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
         assert self.quant_method is not None
 
+        if self.expert_map_gpu is not None:
+            topk_output = topk_output._replace(
+                topk_ids=self.expert_map_gpu[topk_output.topk_ids]
+            )
+
         # Matrix multiply.
         final_hidden_states = self.quant_method.apply(
             layer=self,
@@ -670,3 +673,20 @@ def make_expert_params_mapping(
                 ("w3", ckpt_up_proj_name),
             ]
         ]
+
+    @classmethod
+    def make_expert_input_scale_params_mapping(
+        cls,
+        num_experts: int,
+    ) -> List[Tuple[str, str, int, str]]:
+        # (param_name, weight_name, expert_id, shard_id)
+        return [
+            (
+                "experts.w13_" if shard_id in ["w1", "w3"] else "experts.w2_",
+                f"experts.{expert_id}.{shard_id}.",
+                expert_id,
+                shard_id,
+            )
+            for expert_id in range(num_experts)
+            for shard_id in ["w1", "w2", "w3"]
+        ]
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index ff10b801b26f..49a3af57f740 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -172,7 +172,6 @@ def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
-        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 
         if isinstance(layer, LinearBase):
@@ -181,8 +180,6 @@ def get_quant_method(
             return Fp8LinearMethod(self)
         elif isinstance(layer, FusedMoE):
             return Fp8MoEMethod(self)
-        elif isinstance(layer, EPMoE):
-            return Fp8EPMoEMethod(self)
         return None
 
     def get_scaled_act_names(self) -> List[str]:
@@ -984,23 +981,8 @@ def apply(
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
-        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
         from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
 
-        if isinstance(layer, EPMoE):
-            layer.w13_weight_scale = (
-                layer.w13_weight_scale_inv
-                if self.block_quant
-                else layer.w13_weight_scale
-            )
-            layer.w2_weight_scale = (
-                layer.w2_weight_scale_inv if self.block_quant else layer.w2_weight_scale
-            )
-            return layer.run_moe(
-                hidden_states=x,
-                topk_output=topk_output,
-            )
-
         if use_intel_amx_backend(layer):
             from sglang.srt.layers.moe.topk import apply_topk_weights_cpu
 
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index a307fcc11f8a..38b8896952b9 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -204,14 +204,6 @@ def apply(
         routed_scaling_factor: Optional[float] = None,
     ) -> torch.Tensor:
 
-        from sglang.srt.layers.moe.ep_moe.layer import EPMoE
-
-        if isinstance(layer, EPMoE):
-            return layer.run_moe(
-                hidden_states=x,
-                topk_output=topk_output,
-            )
-
         return self.forward(
             x=x,
             layer=layer,
diff --git a/python/sglang/srt/layers/quantization/w4afp8.py b/python/sglang/srt/layers/quantization/w4afp8.py
index 0a2f555c89c7..8619c042b1c4 100644
--- a/python/sglang/srt/layers/quantization/w4afp8.py
+++ b/python/sglang/srt/layers/quantization/w4afp8.py
@@ -276,6 +276,7 @@ def apply(
         layer: EPMoE,
         hidden_states: torch.Tensor,
         topk_output: TopKOutput,
+        **kwargs,
     ) -> torch.Tensor:
 
         # TODO(ch-wan): move it out of this class

From 09f1a247ce48811de3ea9c73f71398322813c87d Mon Sep 17 00:00:00 2001
From: yihong <zouzou0208@gmail.com>
Date: Thu, 31 Jul 2025 17:37:13 +0800
Subject: [PATCH 245/396] fix: fork should not run pypi router (#8604)

Signed-off-by: yihong0618 <zouzou0208@gmail.com>
---
 .github/workflows/release-pypi-router.yml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.github/workflows/release-pypi-router.yml b/.github/workflows/release-pypi-router.yml
index 547522e8aa6c..948b3f584028 100644
--- a/.github/workflows/release-pypi-router.yml
+++ b/.github/workflows/release-pypi-router.yml
@@ -94,6 +94,7 @@ jobs:
 
   upload:
     name: Upload to PyPI
+    if: github.repository == 'sgl-project/sglang'  # Ensure this job only runs for the sgl-project/sglang repository
     needs: [build, build-sdist]
     runs-on: ubuntu-latest
     steps:

From 51c38163c19cb64aee7727a60363d4f44108809b Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Thu, 31 Jul 2025 02:41:00 -0700
Subject: [PATCH 246/396] model: support Step3V (#8583)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
Co-authored-by: nnnobody-code <nnnobody@foxmail.com>
Co-authored-by: ispobock <ispobaoke@gmail.com>
Co-authored-by: Qiaolin-Yu <qy254@cornell.edu>
Co-authored-by: Qiaolin-Yu <liin1211@outlook.com>
Co-authored-by: Xinyuan Tong <justinning0323@outlook.com>
Co-authored-by: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
---
 docs/backend/server_arguments.md              |   2 +-
 python/sglang/srt/configs/__init__.py         |   8 +
 python/sglang/srt/configs/model_config.py     |   3 +
 python/sglang/srt/configs/step3_vl.py         | 172 +++
 python/sglang/srt/conversation.py             |  23 +
 .../srt/function_call/function_call_parser.py |   2 +
 .../srt/function_call/step3_detector.py       | 436 ++++++++
 python/sglang/srt/hf_transformers_utils.py    |   2 +
 python/sglang/srt/jinja_template_utils.py     |   5 +-
 .../sglang/srt/managers/template_manager.py   |  81 +-
 python/sglang/srt/models/step3_vl.py          | 994 ++++++++++++++++++
 .../multimodal/processors/base_processor.py   |   2 +
 .../srt/multimodal/processors/step3_vl.py     | 515 +++++++++
 python/sglang/srt/reasoning_parser.py         |   3 +-
 python/sglang/srt/server_args.py              |   3 +-
 test/srt/test_reasoning_parser.py             | 112 ++
 16 files changed, 2340 insertions(+), 23 deletions(-)
 create mode 100644 python/sglang/srt/configs/step3_vl.py
 create mode 100644 python/sglang/srt/function_call/step3_detector.py
 create mode 100644 python/sglang/srt/models/step3_vl.py
 create mode 100644 python/sglang/srt/multimodal/processors/step3_vl.py

diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index 985596292596..636bb4f1b3cf 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -148,7 +148,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--file-storage-path` | The path of the file storage in backend. | sglang_storage |
 | `--enable-cache-report` | Return number of cached tokens in usage.prompt_tokens_details for each openai request. | False |
 | `--reasoning-parser` | Specify the parser for reasoning models, supported parsers are: {list(ReasoningParser.DetectorMap.keys())}. | None |
-| `--tool-call-parser` | Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', and 'kimi_k2'. | None |
+| `--tool-call-parser` | Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', 'kimi_k2', 'qwen3_coder', 'glm45', and 'step3'. | None |
 
 ## Data parallelism
 
diff --git a/python/sglang/srt/configs/__init__.py b/python/sglang/srt/configs/__init__.py
index 49d59b6f7025..9c3008572632 100644
--- a/python/sglang/srt/configs/__init__.py
+++ b/python/sglang/srt/configs/__init__.py
@@ -5,6 +5,11 @@
 from sglang.srt.configs.janus_pro import MultiModalityConfig
 from sglang.srt.configs.kimi_vl import KimiVLConfig
 from sglang.srt.configs.kimi_vl_moonvit import MoonViTConfig
+from sglang.srt.configs.step3_vl import (
+    Step3TextConfig,
+    Step3VisionEncoderConfig,
+    Step3VLConfig,
+)
 
 __all__ = [
     "ExaoneConfig",
@@ -14,4 +19,7 @@
     "MultiModalityConfig",
     "KimiVLConfig",
     "MoonViTConfig",
+    "Step3VLConfig",
+    "Step3TextConfig",
+    "Step3VisionEncoderConfig",
 ]
diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index 37722c492529..37fbf07c7c69 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -335,6 +335,8 @@ def get_total_num_kv_heads(self) -> int:
             "num_key_value_heads",
             # For ChatGLM:
             "multi_query_group_num",
+            # For Step3
+            "num_attention_groups",
         ]
         for attr in attributes:
             num_kv_heads = getattr(self.hf_text_config, attr, None)
@@ -644,6 +646,7 @@ def is_generation_model(model_architectures: List[str], is_embedding: bool = Fal
     "InternS1ForConditionalGeneration",
     "Phi4MMForCausalLM",
     "VILAForConditionalGeneration",
+    "Step3VLForConditionalGeneration",
 ]
 
 
diff --git a/python/sglang/srt/configs/step3_vl.py b/python/sglang/srt/configs/step3_vl.py
new file mode 100644
index 000000000000..5519605c6755
--- /dev/null
+++ b/python/sglang/srt/configs/step3_vl.py
@@ -0,0 +1,172 @@
+from typing import Any, Optional, Union
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class Step3VisionEncoderConfig(PretrainedConfig):
+    model_type = "step3_vision_encoder"
+
+    def __init__(
+        self,
+        hidden_size=1792,
+        intermediate_size=3072,
+        output_hidden_size=4096,
+        num_hidden_layers=63,
+        num_attention_heads=16,
+        num_channels=3,
+        image_size=728,
+        patch_size=14,
+        hidden_act="quick_gelu",
+        layer_norm_eps=1e-5,
+        **kwargs,
+    ):
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.output_hidden_size = output_hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_channels = num_channels
+        self.patch_size = patch_size
+        self.image_size = image_size
+        self.layer_norm_eps = layer_norm_eps
+        self.hidden_act = hidden_act
+        super().__init__(**kwargs)
+
+
+class Step3TextConfig(PretrainedConfig):
+    model_type = "step3_text"
+    architectures = ["Step3TextForCausalLM"]
+
+    def __init__(
+        self,
+        hidden_size: int = 7168,
+        intermediate_size: int = 18432,
+        num_attention_heads: int = 64,
+        num_attention_groups: int = 1,
+        num_hidden_layers: int = 61,
+        max_seq_len: int = 65536,
+        vocab_size: int = 128815,
+        rms_norm_eps: float = 1e-5,
+        moe_intermediate_size: int = 5120,
+        moe_num_experts: int = 48,
+        moe_top_k: int = 3,
+        rope_theta: float = 500000,
+        rope_scaling: Optional[dict[str, Any]] = None,
+        max_position_embedding: int = 65536,
+        share_expert_dim: int = 5120,
+        share_q_dim: int = 2048,
+        head_dim: int = 256,
+        norm_expert_weight: bool = False,
+        moe_layers_enum: tuple[int] = (
+            4,
+            5,
+            6,
+            7,
+            8,
+            9,
+            10,
+            11,
+            12,
+            13,
+            14,
+            15,
+            16,
+            17,
+            18,
+            19,
+            20,
+            21,
+            22,
+            23,
+            24,
+            25,
+            26,
+            27,
+            28,
+            29,
+            30,
+            31,
+            32,
+            33,
+            34,
+            35,
+            36,
+            37,
+            38,
+            39,
+            40,
+            41,
+            42,
+            43,
+            44,
+            45,
+            46,
+            47,
+            48,
+            49,
+            50,
+            51,
+            52,
+            53,
+            54,
+            55,
+            56,
+            57,
+            58,
+            59,
+        ),
+        **kwargs,
+    ) -> None:
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_attention_heads = num_attention_heads
+        self.num_attention_groups = num_attention_groups
+        self.num_hidden_layers = num_hidden_layers
+        self.max_seq_len = max_seq_len
+        self.vocab_size = vocab_size
+        self.rms_norm_eps = rms_norm_eps
+        self.moe_intermediate_size = moe_intermediate_size
+        self.moe_num_experts = moe_num_experts
+        self.moe_top_k = moe_top_k
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.max_position_embedding = max_position_embedding
+        self.share_expert_dim = share_expert_dim
+        self.share_q_dim = share_q_dim
+        self.head_dim = head_dim
+        self.norm_expert_weight = norm_expert_weight
+        self.moe_layers_enum = moe_layers_enum
+
+        super().__init__(**kwargs)
+
+
+class Step3VLConfig(PretrainedConfig):
+    model_type = "step3_vl"
+
+    def __init__(
+        self,
+        vision_config: Optional[Union[dict, Step3VisionEncoderConfig]] = None,
+        text_config: Optional[Union[dict, Step3TextConfig]] = None,
+        understand_projector_stride: int = 1,
+        projector_bias: bool = True,
+        image_token_id: int = 128001,
+        **kwargs,
+    ) -> None:
+        if vision_config is None:
+            vision_config = Step3VisionEncoderConfig()
+        elif isinstance(vision_config, dict):
+            vision_config = Step3VisionEncoderConfig(**vision_config)
+        self.vision_config = vision_config
+
+        if text_config is None:
+            text_config = Step3TextConfig()
+        elif isinstance(text_config, dict):
+            text_config = Step3TextConfig(**text_config)
+        self.text_config = text_config
+
+        self.understand_projector_stride = understand_projector_stride
+        self.projector_bias = projector_bias
+        self.hidden_size = text_config.hidden_size
+        self.image_token_id = image_token_id
+
+        super().__init__(**kwargs)
diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index 81e406eb7966..c345275918b5 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -994,6 +994,23 @@ def generate_chat_conv(
     )
 )
 
+register_conv_template(
+    Conversation(
+        name="step3-vl",
+        system_message="<｜begin▁of▁sentence｜>You are a helpful assistant",
+        system_template="{system_message}\n",
+        roles=(
+            "<|BOT|>user\n",
+            "<|BOT|>assistant\n<think>\n",
+        ),
+        sep="<|EOT|>",
+        sep_style=SeparatorStyle.NO_COLON_SINGLE,
+        stop_str="<|EOT|>",
+        image_token="<im_patch>",
+        # add_bos=True,
+    )
+)
+
 
 @register_conv_template_matching_function
 def match_internvl(model_path: str):
@@ -1103,3 +1120,9 @@ def match_vila(model_path: str):
 def match_mimo_vl(model_path: str):
     if re.search(r"mimo.*vl", model_path, re.IGNORECASE):
         return "mimo-vl"
+
+
+# @register_conv_template_matching_function
+# def match_step3(model_path: str):
+#     if re.search(r"step3", model_path, re.IGNORECASE):
+#         return "step3-vl"
diff --git a/python/sglang/srt/function_call/function_call_parser.py b/python/sglang/srt/function_call/function_call_parser.py
index bf6a3d959ce7..6f6403de0be7 100644
--- a/python/sglang/srt/function_call/function_call_parser.py
+++ b/python/sglang/srt/function_call/function_call_parser.py
@@ -17,6 +17,7 @@
 from sglang.srt.function_call.pythonic_detector import PythonicDetector
 from sglang.srt.function_call.qwen3_coder_detector import Qwen3CoderDetector
 from sglang.srt.function_call.qwen25_detector import Qwen25Detector
+from sglang.srt.function_call.step3_detector import Step3Detector
 
 logger = logging.getLogger(__name__)
 
@@ -39,6 +40,7 @@ class FunctionCallParser:
         "kimi_k2": KimiK2Detector,
         "qwen3_coder": Qwen3CoderDetector,
         "glm45": Glm4MoeDetector,
+        "step3": Step3Detector,
     }
 
     def __init__(self, tools: List[Tool], tool_call_parser: str):
diff --git a/python/sglang/srt/function_call/step3_detector.py b/python/sglang/srt/function_call/step3_detector.py
new file mode 100644
index 000000000000..b46f4544f160
--- /dev/null
+++ b/python/sglang/srt/function_call/step3_detector.py
@@ -0,0 +1,436 @@
+import ast
+import json
+import logging
+import re
+from typing import Any, Dict, List
+
+from sglang.srt.entrypoints.openai.protocol import Tool
+from sglang.srt.function_call.base_format_detector import BaseFormatDetector
+from sglang.srt.function_call.core_types import (
+    StreamingParseResult,
+    ToolCallItem,
+    _GetInfoFunc,
+)
+from sglang.srt.function_call.ebnf_composer import EBNFComposer
+
+logger = logging.getLogger(__name__)
+
+
+def get_argument_type(func_name: str, arg_key: str, defined_tools: List[Tool]) -> str:
+    """Get the expected type for a function argument from tool schema."""
+    name2tool = {tool.function.name: tool for tool in defined_tools}
+    if func_name not in name2tool:
+        return None
+    tool = name2tool[func_name]
+    parameters = tool.function.parameters or {}
+    properties = parameters.get("properties", {})
+    if arg_key not in properties:
+        return None
+    return properties[arg_key].get("type", None)
+
+
+def parse_arguments(value: str) -> tuple[Any, bool]:
+    """Parse a string value to appropriate type. Returns (parsed_value, success)."""
+    try:
+        try:
+            parsed_value = json.loads(value)
+        except:
+            parsed_value = ast.literal_eval(value)
+        return parsed_value, True
+    except:
+        return value, False
+
+
+class Step3Detector(BaseFormatDetector):
+    """
+    Detector for Step3 model function call format.
+
+    The Step3 format uses special Unicode tokens to delimit function calls
+    with steptml XML format for invocations.
+
+    Format Structure:
+    ```
+    <｜tool_calls_begin｜>
+    <｜tool_call_begin｜>function<｜tool_sep｜><steptml:invoke name="function_name">
+    <steptml:parameter name="param1">value1</steptml:parameter>
+    <steptml:parameter name="param2">value2</steptml:parameter>
+    </steptml:invoke><｜tool_call_end｜>
+    <｜tool_calls_end｜>
+    ```
+    """
+
+    def __init__(self):
+        super().__init__()
+        self.bot_token = "<｜tool_calls_begin｜>"
+        self.eot_token = "<｜tool_calls_end｜>"
+        self.tool_call_begin = "<｜tool_call_begin｜>"
+        self.tool_call_end = "<｜tool_call_end｜>"
+        self.tool_sep = "<｜tool_sep｜>"
+
+        # Regex for parsing steptml invocations
+        self.invoke_regex = re.compile(
+            r'<steptml:invoke name="([^"]+)">(.+?)</steptml:invoke>', re.DOTALL
+        )
+        self.param_regex = re.compile(
+            r'<steptml:parameter name="([^"]+)">([^<]*)</steptml:parameter>', re.DOTALL
+        )
+
+        # Streaming state variables
+        self._in_tool_block: bool = False
+        self._tool_block_finished: bool = False
+        self._current_function_name: str = ""
+        self._current_parameters: Dict[str, Any] = {}
+        self._in_tool_call: bool = False
+        self._function_name_sent: bool = False
+
+    def has_tool_call(self, text: str) -> bool:
+        """Check if the text contains a Step3 format tool call."""
+        return self.bot_token in text
+
+    def _parse_steptml_invoke(
+        self, text: str, tools: List[Tool] = None
+    ) -> tuple[str, dict]:
+        """Parse steptml invoke format to extract function name and parameters."""
+        invoke_match = self.invoke_regex.search(text)
+        if not invoke_match:
+            return None, {}
+
+        func_name = invoke_match.group(1)
+        params_text = invoke_match.group(2)
+
+        params = {}
+        for param_match in self.param_regex.finditer(params_text):
+            param_name = param_match.group(1)
+            param_value = param_match.group(2).strip()
+
+            # If tools provided, use schema-aware parsing
+            if tools:
+                arg_type = get_argument_type(func_name, param_name, tools)
+                if arg_type and arg_type != "string":
+                    parsed_value, _ = parse_arguments(param_value)
+                    params[param_name] = parsed_value
+                else:
+                    params[param_name] = param_value
+            else:
+                # Fallback to generic parsing if no tools provided
+                parsed_value, _ = parse_arguments(param_value)
+                params[param_name] = parsed_value
+
+        return func_name, params
+
+    def detect_and_parse(self, text: str, tools: List[Tool]) -> StreamingParseResult:
+        """
+        One-time parsing: Detects and parses tool calls in the provided text.
+        """
+        if self.bot_token not in text:
+            return StreamingParseResult(normal_text=text, calls=[])
+
+        try:
+            pre_text, rest = text.split(self.bot_token, 1)
+
+            # If no end token, return everything as normal text
+            if self.eot_token not in rest:
+                return StreamingParseResult(normal_text=text, calls=[])
+
+            tool_section, post_text = rest.split(self.eot_token, 1)
+
+            # Find all individual tool calls using regex
+            calls = []
+            tool_call_pattern = (
+                f"{re.escape(self.tool_call_begin)}(.*?){re.escape(self.tool_call_end)}"
+            )
+
+            for match in re.finditer(tool_call_pattern, tool_section, re.DOTALL):
+                call_content = match.group(1)
+
+                # Check if it's a function call
+                if self.tool_sep not in call_content:
+                    continue
+
+                type_part, invoke_part = call_content.split(self.tool_sep, 1)
+                if type_part.strip() != "function":
+                    continue
+
+                func_name, params = self._parse_steptml_invoke(invoke_part, tools)
+                if func_name:
+                    # Use parse_base_json to create the ToolCallItem
+                    action = {"name": func_name, "arguments": params}
+                    calls.extend(self.parse_base_json(action, tools))
+
+            # Combine pre and post text
+            normal_text = pre_text + post_text
+
+            return StreamingParseResult(normal_text=normal_text, calls=calls)
+
+        except Exception as e:
+            logger.error(f"Error in detect_and_parse: {e}")
+            # Return the original text if parsing fails
+            return StreamingParseResult(normal_text=text)
+
+    def parse_streaming_increment(
+        self, new_text: str, tools: List[Tool]
+    ) -> StreamingParseResult:
+        """
+        Streaming incremental parsing for Step3 format.
+        """
+        self._buffer += new_text
+
+        # Build tool indices for validation
+        if not hasattr(self, "_tool_indices"):
+            self._tool_indices = self._get_tool_indices(tools)
+
+        # If we've finished the tool block, everything is normal text
+        if self._tool_block_finished:
+            normal_text = self._buffer
+            self._buffer = ""
+            return StreamingParseResult(normal_text=normal_text)
+
+        # Check if tool block hasn't started yet
+        if not self._in_tool_block:
+            if self.bot_token in self._buffer:
+                idx = self._buffer.find(self.bot_token)
+                normal_text = self._buffer[:idx]
+                self._buffer = self._buffer[idx + len(self.bot_token) :]
+                self._in_tool_block = True
+                return StreamingParseResult(normal_text=normal_text)
+            else:
+                # Check if we might have a partial bot_token
+                partial_len = self._ends_with_partial_token(
+                    self._buffer, self.bot_token
+                )
+                if partial_len:
+                    return StreamingParseResult()  # Wait for more text
+                else:
+                    normal_text = self._buffer
+                    self._buffer = ""
+                    return StreamingParseResult(normal_text=normal_text)
+
+        # We're inside the tool block
+        calls: List[ToolCallItem] = []
+
+        # Check if tool block is ending
+        if self.eot_token in self._buffer:
+            idx = self._buffer.find(self.eot_token)
+
+            # If we're in the middle of a tool call, we need to handle it
+            if self._in_tool_call:
+                # The buffer before eot_token might contain the end of the current tool call
+                before_eot = self._buffer[:idx]
+                if self.tool_call_end in before_eot:
+                    # Parse this final tool call
+                    result = self._parse_partial_tool_call(tools)
+                    calls.extend(result.calls)
+                else:
+                    # Incomplete tool call - log warning
+                    logger.warning("Tool block ended with incomplete tool call")
+
+            remaining = self._buffer[idx + len(self.eot_token) :]
+            self._buffer = ""
+            self._tool_block_finished = True
+
+            # Reset any partial tool call state
+            self._reset_streaming_state()
+
+            return StreamingParseResult(normal_text=remaining, calls=calls)
+
+        # Check if we're in a tool call or need to start one
+        if not self._in_tool_call:
+            if self.tool_call_begin in self._buffer:
+                idx = self._buffer.find(self.tool_call_begin)
+                # Remove any content before tool call begin (shouldn't happen but be safe)
+                self._buffer = self._buffer[idx + len(self.tool_call_begin) :]
+                self._in_tool_call = True
+                self._function_name_sent = False
+                self._current_function_name = ""
+                self._current_parameters = {}
+                # Fall through to parse the partial tool call
+            else:
+                # Wait for tool call to begin
+                return StreamingParseResult()
+
+        # Parse partial tool call
+        if self._in_tool_call:
+            return self._parse_partial_tool_call(tools)
+
+        return StreamingParseResult()
+
+    def _parse_partial_tool_call(self, tools: List[Tool]) -> StreamingParseResult:
+        """Parse partial tool call for streaming scenarios."""
+        calls = []
+
+        # Check if we have tool_sep (means we're past the type declaration)
+        if self.tool_sep not in self._buffer:
+            return StreamingParseResult(calls=calls)  # Wait for more text
+
+        type_part, invoke_part = self._buffer.split(self.tool_sep, 1)
+        if type_part.strip() != "function":
+            # Invalid tool type, skip this tool call
+            self._reset_streaming_state()
+            return StreamingParseResult(calls=calls)
+
+        # Try to extract function name if not sent yet
+        if not self._function_name_sent:
+            name_match = re.search(r'<steptml:invoke name="([^"]+)">', invoke_part)
+            if name_match:
+                func_name = name_match.group(1)
+
+                # Validate function name
+                if func_name in self._tool_indices:
+                    self._current_function_name = func_name
+                    self._function_name_sent = True
+
+                    # Initialize tool tracking
+                    if self.current_tool_id == -1:
+                        self.current_tool_id = 0
+
+                    # Ensure tracking arrays are large enough
+                    while len(self.prev_tool_call_arr) <= self.current_tool_id:
+                        self.prev_tool_call_arr.append({})
+                    while len(self.streamed_args_for_tool) <= self.current_tool_id:
+                        self.streamed_args_for_tool.append("")
+
+                    # Store tool call info
+                    self.prev_tool_call_arr[self.current_tool_id] = {
+                        "name": func_name,
+                        "arguments": {},
+                    }
+
+                    # Send tool name with empty parameters
+                    calls.append(
+                        ToolCallItem(
+                            tool_index=self.current_tool_id,
+                            name=func_name,
+                            parameters="",
+                        )
+                    )
+                else:
+                    # Invalid function name
+                    logger.warning(f"Invalid function name: {func_name}")
+                    self._reset_streaming_state()
+                    return StreamingParseResult(calls=calls)
+            else:
+                # Function name not complete yet
+                return StreamingParseResult(calls=calls)
+
+        # Parse parameters incrementally
+        if self._function_name_sent:
+            # Extract all complete parameters
+            new_params = {}
+            for param_match in self.param_regex.finditer(invoke_part):
+                param_name = param_match.group(1)
+                param_value = param_match.group(2).strip()
+
+                # Use schema-aware parsing
+                arg_type = get_argument_type(
+                    self._current_function_name, param_name, tools
+                )
+                if arg_type and arg_type != "string":
+                    parsed_value, _ = parse_arguments(param_value)
+                    new_params[param_name] = parsed_value
+                else:
+                    new_params[param_name] = param_value
+
+            # Check if we have new parameters to stream
+            if new_params != self._current_parameters:
+                # Build the JSON content without the closing brace for streaming
+                if not self._current_parameters:
+                    # First parameters - send opening brace and content
+                    params_content = json.dumps(new_params, ensure_ascii=False)
+                    if len(params_content) > 2:  # More than just "{}"
+                        # Send everything except the closing brace
+                        diff = params_content[:-1]
+                    else:
+                        diff = "{"
+                else:
+                    # Subsequent parameters - calculate the incremental diff
+                    old_json = json.dumps(self._current_parameters, ensure_ascii=False)
+                    new_json = json.dumps(new_params, ensure_ascii=False)
+
+                    # Remove closing braces for comparison
+                    old_without_brace = old_json[:-1]
+                    new_without_brace = new_json[:-1]
+
+                    # The new content should extend the old content
+                    if new_without_brace.startswith(old_without_brace):
+                        diff = new_without_brace[len(old_without_brace) :]
+                    else:
+                        # Parameters changed in unexpected way - shouldn't happen in normal streaming
+                        diff = ""
+
+                if diff:
+                    calls.append(
+                        ToolCallItem(
+                            tool_index=self.current_tool_id,
+                            parameters=diff,
+                        )
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += diff
+
+                # Update current state
+                self._current_parameters = new_params
+                self.prev_tool_call_arr[self.current_tool_id]["arguments"] = new_params
+
+            # Check if tool call is complete
+            if self.tool_call_end in self._buffer:
+                # Send closing brace if we've sent any parameters
+                if self.streamed_args_for_tool[self.current_tool_id]:
+                    calls.append(
+                        ToolCallItem(
+                            tool_index=self.current_tool_id,
+                            parameters="}",
+                        )
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += "}"
+
+                # Find the end position
+                end_idx = self._buffer.find(self.tool_call_end)
+                # Remove the processed tool call from buffer
+                self._buffer = self._buffer[end_idx + len(self.tool_call_end) :]
+
+                # Reset state for next tool call
+                self._reset_streaming_state()
+                self.current_tool_id += 1
+
+        return StreamingParseResult(calls=calls)
+
+    def _reset_streaming_state(self):
+        """Reset streaming state for the next tool call"""
+        self._in_tool_call = False
+        self._function_name_sent = False
+        self._current_function_name = ""
+        self._current_parameters = {}
+
+    def supports_structural_tag(self) -> bool:
+        """Return True if this detector supports structural tag format."""
+        return False
+
+    def structure_info(self) -> _GetInfoFunc:
+        raise NotImplementedError()
+
+    def build_ebnf(self, tools: List[Tool]) -> str:
+        """
+        Build EBNF grammar for Step3 tool call format.
+        """
+        # Custom call rule for steptml format
+        call_rule_fmt = (
+            '"function" "<｜tool_sep｜>" "<steptml:invoke name=\\"{name}\\">" '
+            '{arguments_rule} "</steptml:invoke>"'
+        )
+
+        # Custom key-value rule for steptml parameters
+        key_value_rule_fmt = (
+            '"<steptml:parameter name=\\"{key}\\">" {valrule} "</steptml:parameter>"'
+        )
+
+        return EBNFComposer.build_ebnf(
+            tools,
+            sequence_start_token=self.bot_token,
+            sequence_end_token=self.eot_token,
+            individual_call_start_token=self.tool_call_begin,
+            individual_call_end_token=self.tool_call_end,
+            tool_call_separator="",
+            function_format="xml",
+            call_rule_fmt=call_rule_fmt,
+            key_value_rule_fmt=key_value_rule_fmt,
+            key_value_separator="",
+        )
diff --git a/python/sglang/srt/hf_transformers_utils.py b/python/sglang/srt/hf_transformers_utils.py
index 7c056acddee3..bf16addc5829 100644
--- a/python/sglang/srt/hf_transformers_utils.py
+++ b/python/sglang/srt/hf_transformers_utils.py
@@ -41,6 +41,7 @@
     ExaoneConfig,
     KimiVLConfig,
     MultiModalityConfig,
+    Step3VLConfig,
 )
 from sglang.srt.configs.internvl import InternVLChatConfig
 from sglang.srt.connector import create_remote_connector
@@ -54,6 +55,7 @@
     MultiModalityConfig.model_type: MultiModalityConfig,
     KimiVLConfig.model_type: KimiVLConfig,
     InternVLChatConfig.model_type: InternVLChatConfig,
+    Step3VLConfig.model_type: Step3VLConfig,
 }
 
 for name, cls in _CONFIG_REGISTRY.items():
diff --git a/python/sglang/srt/jinja_template_utils.py b/python/sglang/srt/jinja_template_utils.py
index 9a944c9940e4..ac55699dcadf 100644
--- a/python/sglang/srt/jinja_template_utils.py
+++ b/python/sglang/srt/jinja_template_utils.py
@@ -165,7 +165,7 @@ def process_content_for_template_format(
         new_msg["content"] = processed_content_parts
         return new_msg
 
-    else:  # content_format == "string"
+    elif content_format == "string":
         # String format: flatten to text only (for templates like DeepSeek)
         text_parts = []
         for chunk in msg_dict["content"]:
@@ -179,3 +179,6 @@ def process_content_for_template_format(
         new_msg["content"] = " ".join(text_parts) if text_parts else ""
         new_msg = {k: v for k, v in new_msg.items() if v is not None}
         return new_msg
+
+    else:
+        raise ValueError(f"Invalid content format: {content_format}")
diff --git a/python/sglang/srt/managers/template_manager.py b/python/sglang/srt/managers/template_manager.py
index 4684bf1a042c..e340f65f0824 100644
--- a/python/sglang/srt/managers/template_manager.py
+++ b/python/sglang/srt/managers/template_manager.py
@@ -53,7 +53,7 @@ class TemplateManager:
     def __init__(self):
         self._chat_template_name: Optional[str] = None
         self._completion_template_name: Optional[str] = None
-        self._jinja_template_content_format: Optional[str] = None
+        self._jinja_template_content_format: Optional[str] = "openai"
 
     @property
     def chat_template_name(self) -> Optional[str]:
@@ -71,31 +71,60 @@ def jinja_template_content_format(self) -> Optional[str]:
         return self._jinja_template_content_format
 
     def load_chat_template(
-        self, tokenizer_manager, chat_template_arg: str, model_path: str
+        self, tokenizer_manager, chat_template_arg: Optional[str], model_path: str
     ) -> None:
         """
         Load a chat template from various sources.
 
         Args:
             tokenizer_manager: The tokenizer manager instance
-            chat_template_arg: Template name or file path
+            chat_template_arg: Template name, file path, or None to auto-detect
             model_path: Path to the model
         """
-        logger.info(f"Loading chat template: {chat_template_arg}")
+        if chat_template_arg:
+            self._load_explicit_chat_template(tokenizer_manager, chat_template_arg)
+        else:
+            # Try HuggingFace template first
+            hf_template = self._resolve_hf_chat_template(tokenizer_manager)
+            if hf_template:
+                self._jinja_template_content_format = (
+                    detect_jinja_template_content_format(hf_template)
+                )
+                logger.info(
+                    f"Using default HuggingFace chat template with detected content format: {self._jinja_template_content_format}"
+                )
+                return
 
-        if not chat_template_exists(chat_template_arg):
-            if not os.path.exists(chat_template_arg):
-                raise RuntimeError(
-                    f"Chat template {chat_template_arg} is not a built-in template name "
-                    "or a valid chat template file path."
+            # Fallback to SGLang template guessing
+            self.guess_chat_template_from_model_path(model_path)
+
+            # Set default format if no template was found
+            if self._chat_template_name is None:
+                self._jinja_template_content_format = "string"
+                logger.info(
+                    "No chat template found, defaulting to 'string' content format"
                 )
 
-            if chat_template_arg.endswith(".jinja"):
-                self._load_jinja_template(tokenizer_manager, chat_template_arg)
-            else:
-                self._load_json_chat_template(chat_template_arg)
-        else:
+    def _load_explicit_chat_template(
+        self, tokenizer_manager, chat_template_arg: str
+    ) -> None:
+        """Load explicitly specified chat template."""
+        logger.info(f"Loading chat template from argument: {chat_template_arg}")
+
+        if chat_template_exists(chat_template_arg):
             self._chat_template_name = chat_template_arg
+            return
+
+        if not os.path.exists(chat_template_arg):
+            raise RuntimeError(
+                f"Chat template {chat_template_arg} is not a built-in template name "
+                "or a valid chat template file path."
+            )
+
+        if chat_template_arg.endswith(".jinja"):
+            self._load_jinja_template(tokenizer_manager, chat_template_arg)
+        else:
+            self._load_json_chat_template(chat_template_arg)
 
     def guess_chat_template_from_model_path(self, model_path: str) -> None:
         """
@@ -146,10 +175,7 @@ def initialize_templates(
             completion_template: Optional completion template name/path
         """
         # Load chat template
-        if chat_template:
-            self.load_chat_template(tokenizer_manager, chat_template, model_path)
-        else:
-            self.guess_chat_template_from_model_path(model_path)
+        self.load_chat_template(tokenizer_manager, chat_template, model_path)
 
         # Load completion template
         if completion_template:
@@ -166,7 +192,7 @@ def _load_jinja_template(self, tokenizer_manager, template_path: str) -> None:
             chat_template
         )
         logger.info(
-            f"Detected chat template content format: {self._jinja_template_content_format}"
+            f"Detected user specified Jinja chat template with content format: {self._jinja_template_content_format}"
         )
 
     def _load_json_chat_template(self, template_path: str) -> None:
@@ -224,3 +250,20 @@ def _load_json_completion_template(self, template_path: str) -> None:
                 override=True,
             )
         self._completion_template_name = template["name"]
+
+    def _resolve_hf_chat_template(self, tokenizer_manager) -> Optional[str]:
+        """
+        Resolve HuggingFace chat template.
+
+        Returns the chat template string if found, None otherwise.
+        """
+        tokenizer = tokenizer_manager.tokenizer
+
+        # Try to get AutoTokenizer chat template
+        try:
+            return tokenizer.get_chat_template()
+        except Exception as e:
+            logger.debug(f"Error getting chat template via get_chat_template(): {e}")
+
+        logger.debug("No HuggingFace chat template found")
+        return None
diff --git a/python/sglang/srt/models/step3_vl.py b/python/sglang/srt/models/step3_vl.py
new file mode 100644
index 000000000000..3ed0a153f785
--- /dev/null
+++ b/python/sglang/srt/models/step3_vl.py
@@ -0,0 +1,994 @@
+import logging
+import math
+from collections.abc import Iterable
+from math import sqrt
+from typing import Any, Dict, Iterable, List, Literal, Optional, Tuple, TypedDict, Union
+
+import torch
+from torch import nn
+from torch.nn import LayerNorm
+from torch.nn import functional as F
+from transformers import PretrainedConfig
+from transformers.activations import ACT2FN
+
+from sglang.srt.configs.step3_vl import (
+    Step3TextConfig,
+    Step3VisionEncoderConfig,
+    Step3VLConfig,
+)
+from sglang.srt.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from sglang.srt.eplb.expert_location import ModelConfigForExpertLocation
+from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.attention.vision import VisionAttention
+from sglang.srt.layers.communicator import LayerCommunicator, LayerScatterModes
+from sglang.srt.layers.dp_attention import get_attention_tp_rank, get_attention_tp_size
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor
+from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
+from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.managers.mm_utils import (
+    MultiModalityDataPaddingPatternMultimodalTokens,
+    general_mm_embed_routine,
+)
+from sglang.srt.managers.schedule_batch import (
+    Modality,
+    MultimodalDataItem,
+    MultimodalInputs,
+    global_server_args_dict,
+)
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.model_loader.weight_utils import default_weight_loader
+from sglang.srt.utils import add_prefix, log_info_on_rank0, make_layers
+
+logger = logging.getLogger(__name__)
+
+
+"""
+Text Model
+"""
+
+
+class Step3TextMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=add_prefix("gate_up_proj", prefix),
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=add_prefix("down_proj", prefix),
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. "
+                "Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class Step3TextMoEMLP(nn.Module):
+    # Native
+    def __init__(
+        self,
+        layer_id: int,
+        config: Step3TextConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.layer_id = layer_id
+        if self.tp_size > config.moe_num_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.moe_num_experts}."
+            )
+
+        self.topk = TopK(
+            top_k=config.moe_top_k,
+            renormalize=config.norm_expert_weight,
+            use_grouped_topk=False,
+        )
+
+        self.experts = get_moe_impl_class()(
+            num_experts=config.moe_num_experts,
+            top_k=config.moe_top_k,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=add_prefix("experts", prefix),
+        )
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            output_size=config.moe_num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=add_prefix("gate", prefix),
+        )
+
+        if global_server_args_dict["enable_deepep_moe"]:
+            raise NotImplementedError("DeepEP MoE is not supported yet in Step3 model.")
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits, _ = self.gate(hidden_states)
+        topk_output = self.topk(hidden_states, router_logits)
+        final_hidden_states = self.experts(
+            hidden_states=hidden_states, topk_output=topk_output
+        )
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class Step3TextAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        share_q_dim: int,
+        layer_id: int = 0,
+        rope_theta: float = 10000,
+        rope_scaling: Optional[Dict[str, Any]] = None,
+        max_position_embeddings: int = 8192,
+        quant_config: Optional[QuantizationConfig] = None,
+        rms_norm_eps=None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+
+        attn_tp_rank = get_attention_tp_rank()
+        attn_tp_size = get_attention_tp_size()
+
+        self.all_tp_rank = get_tensor_model_parallel_rank()
+        self.total_num_heads = num_heads
+        self.attn_tp_rank = attn_tp_rank
+        self.layer_id = layer_id
+        assert self.total_num_heads % attn_tp_size == 0
+        self.num_heads = self.total_num_heads // attn_tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= attn_tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % attn_tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert attn_tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // attn_tp_size)
+        self.head_dim = head_dim
+        self.q_size = share_q_dim if share_q_dim else head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [self.q_size, self.kv_size, self.kv_size],
+            bias=False,
+            quant_config=quant_config,
+            tp_rank=0,  # In fact, we need a MergedReplicatedLinear
+            tp_size=1,
+            prefix=add_prefix("qkv_proj", prefix),
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
+            reduce_results=False,
+            prefix=add_prefix("o_proj", prefix),
+        )
+
+        self.inter_norm = RMSNorm(self.q_size, eps=rms_norm_eps)
+
+        self.wq = ColumnParallelLinear(
+            self.q_size,
+            self.head_dim * self.total_num_heads,
+            bias=False,
+            quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
+            prefix=add_prefix("wq", prefix),
+        )
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=add_prefix("attn", prefix),
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q = self.inter_norm(q.contiguous())
+        q, _ = self.wq(q)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v, forward_batch)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class Step3TextDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: Step3TextConfig,
+        layer_id: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        head_dim = getattr(
+            config, "head_dim", config.hidden_size // config.num_attention_heads
+        )
+        # TODO: support shared experts fusion
+        # self.n_shared_experts = 1
+        # self.num_fused_shared_experts = (
+        #     0
+        #     if global_server_args_dict["disable_shared_experts_fusion"]
+        #     else self.n_shared_experts
+        # )
+        self.num_fused_shared_experts = 0
+        rms_norm_eps = config.rms_norm_eps
+        self.self_attn = Step3TextAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=1,
+            head_dim=head_dim,
+            share_q_dim=config.share_q_dim,
+            layer_id=layer_id,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            rms_norm_eps=rms_norm_eps,
+            quant_config=quant_config,
+            prefix=add_prefix("self_attn", prefix),
+        )
+
+        moe_layers_enum = getattr(config, "moe_layers_enum", None)
+        if moe_layers_enum is not None:
+            moe_layers_idx = [int(i) for i in moe_layers_enum.strip().split(",")]
+        else:
+            # Default to 1dense.
+            moe_layers_idx = [i for i in range(1, config.num_hidden_layers)]
+
+        self.use_moe = False
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.layer_id = layer_id
+        self.is_layer_sparse = True if layer_id in moe_layers_idx else False
+        self.is_previous_layer_sparse = (
+            True if layer_id - 1 in moe_layers_idx else False
+        )
+
+        self.layer_scatter_modes = LayerScatterModes.init_new(
+            layer_id=layer_id,
+            num_layers=config.num_hidden_layers,
+            is_layer_sparse=self.is_layer_sparse,
+            is_previous_layer_sparse=self.is_previous_layer_sparse,
+        )
+
+        if not self.is_layer_sparse:
+            self.mlp = Step3TextMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act="silu",
+                quant_config=quant_config,
+                prefix=add_prefix("mlp", prefix),
+            )
+        else:
+            self.use_moe = True
+            if self.num_fused_shared_experts == 0:
+                self.moe = Step3TextMoEMLP(
+                    layer_id=layer_id,
+                    config=config,
+                    quant_config=quant_config,
+                    prefix=add_prefix("mlp", prefix),
+                )
+                self.share_expert = Step3TextMLP(
+                    hidden_size=config.hidden_size,
+                    intermediate_size=config.share_expert_dim,
+                    hidden_act="silu",
+                    quant_config=quant_config,
+                    prefix=add_prefix("share_expert", prefix),
+                )
+            else:
+                self.moe = Step3TextMoEMLP(
+                    layer_id=layer_id,
+                    config=config,
+                    quant_config=quant_config,
+                    prefix=add_prefix("mlp", prefix),
+                )
+
+        self.layer_communicator = LayerCommunicator(
+            layer_scatter_modes=self.layer_scatter_modes,
+            input_layernorm=self.input_layernorm,
+            post_attention_layernorm=self.post_attention_layernorm,
+        )
+
+    def moe_mlp_forward(self, hidden_states):
+        if not self.num_fused_shared_experts:
+            h = hidden_states.clone()
+            hidden_states = self.moe(hidden_states)
+            hidden_states += self.share_expert(h)
+        else:
+            hidden_states = self.moe(hidden_states)
+        return hidden_states
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+        residual: Optional[torch.Tensor],
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+
+        hidden_states, residual = self.layer_communicator.prepare_attn(
+            hidden_states, residual, forward_batch
+        )
+
+        if hidden_states.shape[0] != 0:
+            hidden_states = self.self_attn(
+                positions=positions,
+                hidden_states=hidden_states,
+                forward_batch=forward_batch,
+            )
+
+        hidden_states, residual = self.layer_communicator.prepare_mlp(
+            hidden_states, residual, forward_batch
+        )
+        if self.use_moe:
+            hidden_states = self.moe_mlp_forward(hidden_states)
+        else:
+            hidden_states = self.mlp(hidden_states)
+
+        hidden_states, residual = self.layer_communicator.postprocess_layer(
+            hidden_states, residual, forward_batch
+        )
+
+        return hidden_states, residual
+
+
+class Step3TextModel(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            enable_tp=not global_server_args_dict["enable_dp_attention"],
+            prefix=add_prefix("embed_tokens", prefix),
+        )
+
+        self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda idx, prefix: Step3TextDecoderLayer(
+                layer_id=idx,
+                config=config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=add_prefix("layers", prefix),
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+    ) -> torch.Tensor:
+        if input_embeds is None:
+            hidden_states = self.embed_tokens(input_ids)
+        else:
+            hidden_states = input_embeds
+
+        residual = None
+        for i in range(len(self.layers)):
+            layer = self.layers[i]
+            hidden_states, residual = layer(
+                positions, hidden_states, forward_batch, residual
+            )
+
+        if hidden_states.shape[0] != 0:
+            if residual is None:
+                hidden_states = self.norm(hidden_states)
+            else:
+                hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+"""
+Vision Model
+"""
+
+
+def get_abs_pos(abs_pos, tgt_size):
+    dim = abs_pos.size(-1)
+    abs_pos_new = abs_pos.squeeze(0)
+    cls_token, old_pos_embed = abs_pos_new[:1], abs_pos_new[1:]
+
+    src_size = int(math.sqrt(abs_pos_new.shape[0] - 1))
+    tgt_size = int(math.sqrt(tgt_size))
+    dtype = abs_pos.dtype
+
+    if src_size != tgt_size:
+        old_pos_embed = (
+            old_pos_embed.view(1, src_size, src_size, dim)
+            .permute(0, 3, 1, 2)
+            .contiguous()
+        )
+        old_pos_embed = old_pos_embed.to(torch.float32)
+        new_pos_embed = F.interpolate(
+            old_pos_embed,
+            size=(tgt_size, tgt_size),
+            mode="bicubic",
+            antialias=True,
+            align_corners=False,
+        ).to(dtype)
+        new_pos_embed = new_pos_embed.permute(0, 2, 3, 1)
+        new_pos_embed = new_pos_embed.view(tgt_size * tgt_size, dim)
+        vision_pos_embed = torch.cat([cls_token, new_pos_embed], dim=0)
+        vision_pos_embed = vision_pos_embed.view(1, tgt_size * tgt_size + 1, dim)
+        return vision_pos_embed
+    else:
+        return abs_pos
+
+
+class Step3VisionMLP(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        intermediate_size: int,
+        bias: bool = True,
+        hidden_act="quick_gelu",
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.fc1 = ColumnParallelLinear(
+            dim,
+            intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=add_prefix("gate_proj", prefix),
+        )
+        self.act = ACT2FN[hidden_act]  # quick_gelu
+        self.fc2 = RowParallelLinear(
+            intermediate_size,
+            dim,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=add_prefix("down_proj", prefix),
+        )
+
+    def forward(self, hidden_states) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class Step3VisionAttention(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int = 16,
+        qkv_backend="fa3",
+        quant_config=None,
+        prefix: str = "",
+    ) -> None:
+
+        super().__init__()
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        self.out_proj = RowParallelLinear(
+            dim,
+            dim,
+            bias=True,
+            quant_config=quant_config,
+            prefix=add_prefix("out_proj", prefix),
+        )
+        self.scale = self.head_dim**-0.5
+
+        self.attn = VisionAttention(
+            embed_dim=dim,
+            num_heads=num_heads,
+            projection_size=dim,
+            use_qkv_parallel=True,
+            rotary_embed="normal",
+            proj_bias=True,
+            qkv_backend=qkv_backend,
+            quant_config=quant_config,
+            prefix=add_prefix("attn", prefix),
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        attn_output = self.attn(hidden_states)
+        return attn_output
+
+
+class Step3VisionEmbeddings(nn.Module):
+
+    def __init__(self, config: Step3VisionEncoderConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.class_embedding = nn.Parameter(torch.randn(1, self.embed_dim))
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=True,
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.pad_tp_size = 4  # hard code for padding
+        # To load the pretrained weights, we still use P+1 as the seqlen
+        self.position_embedding = torch.nn.Embedding(
+            self.num_patches + 1, self.embed_dim
+        )
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_patches + 1).expand((1, -1)),
+            persistent=False,
+        )
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        batch_size = pixel_values.shape[0]
+        patch_embeds = self.patch_embedding(
+            pixel_values
+        )  # shape = [*, width, grid, grid]
+        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)
+
+        # pad
+        class_embeds = self.class_embedding.expand(batch_size, 1, -1)
+        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
+        embeddings = embeddings + get_abs_pos(
+            self.position_embedding(self.position_ids), patch_embeds.size(1)
+        )
+        embeddings = torch.cat(
+            [
+                embeddings[:, 0, :].unsqueeze(1).repeat(1, self.pad_tp_size - 1, 1),
+                embeddings,
+            ],
+            dim=1,
+        )
+        return embeddings
+
+
+class Step3VisionEncoderLayer(nn.Module):
+    def __init__(self, config, attn_implementation: str = "sdpa") -> None:
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.layer_norm1 = LayerNorm(self.embed_dim, eps=1e-6)
+        self.layer_norm2 = LayerNorm(self.embed_dim, eps=1e-6)
+
+        self.self_attn = Step3VisionAttention(
+            self.embed_dim, num_heads=config.num_attention_heads
+        )
+        self.mlp = Step3VisionMLP(
+            dim=self.embed_dim,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+        )
+
+    def forward(self, hidden_states) -> torch.Tensor:
+        hidden_states = hidden_states + self.layer_norm1(self.self_attn(hidden_states))
+        hidden_states = hidden_states + self.layer_norm2(self.mlp(hidden_states))
+        return hidden_states
+
+
+class Step3VisionTransformer(nn.Module):
+    def __init__(self, config: Step3VisionEncoderConfig):
+        super().__init__()
+        self.config = config
+        self.image_size = config.image_size
+        self.embeddings = Step3VisionEmbeddings(config)
+        self.transformer = Step3VisionEncoder(config)
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.embeddings.patch_embedding.weight.dtype
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+    ):
+        hidden_states = self.embeddings(pixel_values)
+        hidden_states = self.transformer(inputs_embeds=hidden_states)
+        return hidden_states
+
+
+class Step3VisionEncoder(nn.Module):
+    """
+    Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
+    [`Step3VisionEncoderLayer`].
+
+    Args:
+        config: StepVisionEncoderConfig
+    """
+
+    def __init__(self, config: Step3VisionEncoderConfig):
+        super().__init__()
+        self.config = config
+        self.layers = nn.ModuleList(
+            [Step3VisionEncoderLayer(config) for _ in range(config.num_hidden_layers)]
+        )
+
+    def forward(
+        self,
+        inputs_embeds,
+    ) -> torch.Tensor:
+
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(
+                hidden_states,
+            )
+
+        return hidden_states
+
+
+class Step3VLForConditionalGeneration(nn.Module):
+
+    def __init__(
+        self,
+        config: Step3VLConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.quant_config = quant_config
+        self.model = Step3TextModel(
+            config.text_config, quant_config, prefix=add_prefix("model", prefix)
+        )
+
+        self.vision_model = Step3VisionTransformer(config.vision_config)
+
+        self.vit_downsampler = nn.Conv2d(
+            config.vision_config.hidden_size,
+            config.vision_config.output_hidden_size,
+            kernel_size=2,
+            stride=config.understand_projector_stride,
+        )
+        self.vit_downsampler2 = nn.Conv2d(
+            config.vision_config.output_hidden_size,
+            config.vision_config.output_hidden_size * 2,
+            kernel_size=3,
+            stride=2,
+            padding=1,
+        )
+        self.vit_large_projector = nn.Linear(
+            config.vision_config.output_hidden_size * 2,
+            config.hidden_size,
+            bias=config.projector_bias,
+        )
+
+        # TODO: support shared experts fusion
+        # self.n_shared_experts = 1
+        # self.num_fused_shared_experts = (
+        #     0
+        #     if global_server_args_dict["disable_shared_experts_fusion"]
+        #     else self.n_shared_experts
+        # )
+        self.num_fused_shared_experts = 0
+        self.config.tie_word_embeddings = False
+        if getattr(self.config, "tie_word_embeddings", False):
+            self.lm_head = self.model.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.text_config.vocab_size,
+                config.text_config.hidden_size,
+                quant_config=quant_config,
+                prefix=add_prefix("lm_head", prefix),
+            )
+        self.logits_processor = LogitsProcessor(config.text_config)
+
+    def _get_vision_model_output(self, input_tensor: torch.Tensor) -> torch.Tensor:
+        return self.vision_model(input_tensor)[:, 4:]
+
+    def _flatten_embeddings(self, embeddings) -> torch.Tensor:
+
+        if isinstance(embeddings, torch.Tensor):
+            # Flatten all but the last dimension.
+            return embeddings.flatten(0, -2)
+
+        return torch.cat(tuple(self._flatten_embeddings(t) for t in embeddings))
+
+    def _process_image_features(self, image_features: torch.Tensor) -> torch.Tensor:
+        B, P = image_features.shape[:2]
+        HW = int(sqrt(P))
+        image_features = image_features.permute(0, 2, 1).view(B, -1, HW, HW)
+        image_features = self.vit_downsampler(image_features)
+        image_features = self.vit_downsampler2(image_features)
+        n_dim = image_features.size(1)
+        image_features = image_features.view(B, n_dim, -1).permute(0, 2, 1)
+        image_features = self.vit_large_projector(image_features)
+        return image_features
+
+    def get_image_feature(self, items: List[MultimodalDataItem]) -> torch.Tensor:
+        assert len(items) == 1  # We only have images.
+
+        item = items[0]
+        pixel_values = item.feature.type(self.vision_model.dtype)
+        num_patches = item.model_specific_data.get("num_patches")
+        patch_pixel_values = item.model_specific_data.get("patch_pixel_values", None)
+        if patch_pixel_values is not None:
+            patch_pixel_values = patch_pixel_values.type(self.vision_model.dtype)
+
+        if patch_pixel_values is not None:
+            patch_pixel_values = patch_pixel_values.to("cuda")
+
+        image_features = self._get_vision_model_output(pixel_values)
+        patch_image_features = (
+            self._get_vision_model_output(patch_pixel_values)
+            if patch_pixel_values is not None
+            else None
+        )
+
+        image_features = self._process_image_features(image_features)
+        patch_image_features = (
+            self._process_image_features(patch_image_features)
+            if patch_image_features is not None
+            else None
+        )
+
+        merged_image_features = []
+        cur_patch_idx = 0
+        for i, num_patch in enumerate(num_patches):
+            cur_feature = []
+            if num_patch > 0:
+                patch_slice = patch_image_features[
+                    cur_patch_idx : cur_patch_idx + num_patch
+                ]
+                cur_feature.append(patch_slice.view(-1, patch_slice.shape[-1]))
+            cur_feature.append(image_features[i].view(-1, image_features.shape[-1]))
+            cur_patch_idx += num_patch
+            merged_image_features.append(
+                torch.cat(cur_feature) if len(cur_feature) > 1 else cur_feature[0]
+            )
+        return self._flatten_embeddings(merged_image_features)
+
+    def pad_input_ids(self, input_ids: List[int], mm_inputs: MultimodalInputs):
+        pattern = MultiModalityDataPaddingPatternMultimodalTokens()
+        return pattern.pad_input_tokens(input_ids, mm_inputs)
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+    ) -> torch.Tensor:
+        hidden_states = general_mm_embed_routine(
+            input_ids=input_ids,
+            forward_batch=forward_batch,
+            language_model=self.model,
+            data_embedding_funcs={
+                Modality.IMAGE: self.get_image_feature,
+            },
+            positions=positions,
+        )
+
+        return self.logits_processor(
+            input_ids, hidden_states, self.lm_head, forward_batch
+        )
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        # TODO:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", 0),
+            (".qkv_proj", ".k_proj", 1),
+            (".qkv_proj", ".v_proj", 2),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+
+        if self.num_fused_shared_experts > 0:
+            assert self.num_fused_shared_experts == 1
+            log_info_on_rank0(logger, "Shared experts fusion optimization enabled.")
+
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.text_config.moe_num_experts
+            + self.num_fused_shared_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params = set()
+
+        def match_expert_and_shard_ids(name_path: str, weight_path: str) -> bool:
+            name_parts = name_path.split(".")
+            weight_parts = weight_path.split(".")
+            shard_id_matches = name_parts[4] == weight_parts[2]
+            return shard_id_matches
+
+        for name, loaded_weight in weights:
+            if "vision_model" in name:
+                # 1.It’s not great, but let’s leave it like this for now
+                name = name.replace("self_attn", "self_attn.attn")
+                # 2.
+                name = name.replace("out_proj", "proj")
+
+            # TODO: support vision model
+            if self.num_fused_shared_experts > 0 and "share" in name:
+                # assert False
+                name = name.replace("share_expert", "moe")
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if (
+                        expert_id != self.config.text_config.moe_num_experts
+                        or not match_expert_and_shard_ids(name, weight_name)
+                    ):
+                        continue
+
+                    part_name = weight_name.split(".")[-2]
+                    fake_weight_name = name.replace(part_name, weight_name[:-1])
+                    actual_param_name = name.replace(part_name + ".", param_name)
+                    param = params_dict[actual_param_name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                continue
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if "gate." not in name and "moe" in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                loaded_params.add(name)
+                break
+            else:
+                if "moe" not in name:
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+                    loaded_params.add(name)
+                else:
+                    if "gate." in name:
+                        name = name.replace(weight_name, param_name)
+                        param = params_dict[name]
+                        weight_loader = param.weight_loader
+                        weight_loader(param, loaded_weight)
+                        loaded_params.add(name)
+                        continue
+
+                    for mapping in expert_params_mapping:
+                        param_name, weight_name, expert_id, shard_id = mapping
+                        if expert_id == self.config.text_config.moe_num_experts:
+                            continue
+                        if not match_expert_and_shard_ids(name, weight_name):
+                            continue
+                        part_name = weight_name.split(".")[-2]
+                        fake_weight_name = name.replace(part_name, weight_name[:-1])
+                        actual_param_name = name.replace(part_name + ".", param_name)
+                        param = params_dict[actual_param_name]
+                        weight_loader = param.weight_loader
+                        weight_loader(
+                            param,
+                            loaded_weight[expert_id],
+                            name,
+                            shard_id=shard_id,
+                            expert_id=expert_id,
+                        )
+                        loaded_params.add(actual_param_name)
+                        # Don't break here, because this 'loaded_weight' includes all the weights for this layer
+
+    @classmethod
+    def get_model_config_for_expert_location(cls, config: Step3VLConfig):
+        return ModelConfigForExpertLocation(
+            num_layers=config.text_config.num_hidden_layers,
+            num_logical_experts=config.text_config.moe_num_experts,
+            num_groups=None,
+        )
+
+
+EntryClass = Step3VLForConditionalGeneration
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index c98720652dae..06e5c0da0a5c 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -176,6 +176,8 @@ def __init__(
             "image_grid_hws": Modality.IMAGE,
             "aspect_ratio_ids": Modality.IMAGE,
             "aspect_ratio_mask": Modality.IMAGE,
+            "num_patches": Modality.IMAGE,
+            "patch_pixel_values": Modality.IMAGE,
             # Audio-related attributes
             "audio_features": Modality.AUDIO,
             "audio_feature_lens": Modality.AUDIO,
diff --git a/python/sglang/srt/multimodal/processors/step3_vl.py b/python/sglang/srt/multimodal/processors/step3_vl.py
new file mode 100644
index 000000000000..4ed09635b83b
--- /dev/null
+++ b/python/sglang/srt/multimodal/processors/step3_vl.py
@@ -0,0 +1,515 @@
+import math
+import re
+from itertools import product
+from typing import List, Literal, Optional, TypedDict, Union
+
+import numpy as np
+import torch
+from PIL import Image
+from torchvision import transforms
+from torchvision.transforms import InterpolationMode
+from transformers import BatchFeature, TensorType
+
+from sglang.srt.models.step3_vl import Step3VLForConditionalGeneration
+from sglang.srt.multimodal.processors.base_processor import (
+    BaseMultimodalProcessor as SGLangBaseProcessor,
+)
+from sglang.srt.multimodal.processors.base_processor import MultimodalSpecialTokens
+
+ImageWithPatches = tuple[Image.Image, list[Image.Image], list[int] | None]
+
+
+class GPUToTensor(torch.nn.Module):
+
+    def forward(self, raw_image: Union[np.ndarray, Image.Image]) -> torch.Tensor:
+        if isinstance(raw_image, Image.Image):
+            return transforms.ToTensor()(raw_image)
+        if raw_image.ndim == 2:
+            raw_image = raw_image[:, :, None].repeat(3, -1)
+        if torch.cuda.is_available():
+            device = torch.device("cuda")
+        else:
+            device = torch.device("cpu")
+        image_tensor = torch.from_numpy(raw_image).to(device)
+        image_tensor = torch.permute(image_tensor, (2, 0, 1)).contiguous()
+        if image_tensor.dtype == torch.uint8:
+            image_tensor = image_tensor.to(torch.float32).div(255)
+        return image_tensor
+
+
+class Step3VisionProcessor:
+    def __init__(self, size, interpolation_mode="bicubic", patch_size=None):
+        mean = [0.48145466, 0.4578275, 0.40821073]
+        std = [0.26862954, 0.26130258, 0.27577711]
+        patch_size = patch_size if patch_size is not None else size
+
+        self.transform = transforms.Compose(
+            [
+                GPUToTensor(),
+                transforms.Normalize(mean, std),
+                transforms.Resize(
+                    (size, size),
+                    interpolation=(
+                        InterpolationMode.BICUBIC
+                        if interpolation_mode == "bicubic"
+                        else InterpolationMode.BILINEAR
+                    ),
+                    antialias=True,
+                ),
+            ]
+        )
+
+        self.patch_transform = (
+            transforms.Compose(
+                [
+                    GPUToTensor(),
+                    transforms.Normalize(mean, std),
+                    transforms.Resize(
+                        (patch_size, patch_size),
+                        interpolation=(
+                            InterpolationMode.BICUBIC
+                            if interpolation_mode == "bicubic"
+                            else InterpolationMode.BILINEAR
+                        ),
+                        antialias=True,
+                    ),
+                ]
+            )
+            if patch_size is not None
+            else None
+        )
+
+    def __call__(self, image, is_patch=False):
+        if is_patch:
+            return {"pixel_values": self.patch_transform(image).unsqueeze(0)}
+        else:
+            return {"pixel_values": self.transform(image).unsqueeze(0)}
+
+
+class ImagePatcher:
+
+    def determine_window_size(self, long: int, short: int) -> int:
+        if long <= 728:
+            return short if long / short > 1.5 else 0
+        return min(short, 504) if long / short > 4 else 504
+
+    def slide_window(
+        self,
+        width: int,
+        height: int,
+        sizes: list[tuple[int, int]],
+        steps: list[tuple[int, int]],
+        img_rate_thr: float = 0.6,
+    ) -> tuple[list[tuple[int, int, int, int]], tuple[int, int]]:
+        assert 1 >= img_rate_thr >= 0, "The `in_rate_thr` should lie in 0~1"
+        windows = []
+        # Sliding windows.
+        for size, step in zip(sizes, steps):
+            size_w, size_h = size
+            step_w, step_h = step
+
+            x_num = 1 if width <= size_w else math.ceil((width - size_w) / step_w + 1)
+            x_start = [step_w * i for i in range(x_num)]
+            if len(x_start) > 1 and x_start[-1] + size_w > width:
+                x_start[-1] = width - size_w
+
+            y_num = 1 if height <= size_h else math.ceil((height - size_h) / step_h + 1)
+            y_start = [step_h * i for i in range(y_num)]
+            if len(y_start) > 1 and y_start[-1] + size_h > height:
+                y_start[-1] = height - size_h
+
+            start = np.array(list(product(y_start, x_start)), dtype=int)
+            start[:, [0, 1]] = start[:, [1, 0]]
+            windows.append(np.concatenate([start, start + size], axis=1))
+        windows = np.concatenate(windows, axis=0)
+
+        return [
+            (int(box[0]), int(box[1]), int(box[2] - box[0]), int(box[3] - box[1]))
+            for box in windows
+        ], (x_num, y_num)
+
+    def square_pad(self, img: Image.Image) -> Image.Image:
+        w, h = img.size
+        if w == h:
+            return img
+        size = max(w, h)
+        padded = Image.new(img.mode, (size, size), 0)
+        padded.paste(img, (0, 0))
+        return padded
+
+    def get_image_size_for_padding(
+        self, img_width: int, img_height: int
+    ) -> tuple[int, int]:
+        ratio = img_width / img_height
+        if min(img_height, img_width) < 32 and (ratio > 4 or ratio < 1 / 4):
+            new_size = max(img_height, img_width)
+            return new_size, new_size
+        return img_width, img_height
+
+    def get_image_size_for_preprocess(
+        self, img_width: int, img_height: int
+    ) -> tuple[int, int]:
+
+        if max(img_height, img_width) > 3024:
+            scale_factor = 3024 / max(img_height, img_width)
+            img_width = int(img_width * scale_factor)
+            img_height = int(img_height * scale_factor)
+            return img_width, img_height
+        else:
+            return img_width, img_height
+
+    def get_image_size_for_crop(
+        self, img_width: int, img_height: int, window_size: int
+    ):
+        w_ratio = img_width / window_size
+        h_ratio = img_height / window_size
+
+        if w_ratio < 1:
+            width_new = img_width
+        else:
+            decimal_w = w_ratio - img_width // window_size
+            w_ratio = int(w_ratio) + 1 if decimal_w > 0.2 else int(w_ratio)
+            width_new = window_size * w_ratio
+        if h_ratio < 1:
+            height_new = img_height
+        else:
+            decimal_h = h_ratio - img_height // window_size
+            h_ratio = int(h_ratio) + 1 if decimal_h > 0.2 else int(h_ratio)
+            height_new = window_size * h_ratio
+        return int(width_new), int(height_new)
+
+    def patch_crop(self, img: Image.Image, i: int, j: int, th: int, tw: int):
+        target = img.crop((j, i, j + tw, i + th))
+        return target
+
+    def get_num_patches(self, img_width: int, img_height: int) -> tuple[int, int]:
+        img_width, img_height = self.get_image_size_for_padding(img_width, img_height)
+        img_width, img_height = self.get_image_size_for_preprocess(
+            img_width, img_height
+        )
+        window_size = self.determine_window_size(
+            max(img_height, img_width), min(img_height, img_width)
+        )
+        if window_size == 0:
+            return 0, 0
+        else:
+            img_width, img_height = self.get_image_size_for_crop(
+                img_width, img_height, window_size
+            )
+            center_list, (x_num, y_num) = self.slide_window(
+                img_width,
+                img_height,
+                [(window_size, window_size)],
+                [(window_size, window_size)],
+            )
+            full_rows = (len(center_list) - 1) // x_num + 1
+            if len(center_list) > 0 and len(center_list) % x_num == 0:
+                full_rows -= 1
+            return len(center_list), full_rows
+
+    def __call__(
+        self, img: Image.Image
+    ) -> tuple[Image.Image, list[Image.Image], list[bool] | None]:
+        img_width, img_height = img.size
+        new_img_width, new_img_height = self.get_image_size_for_padding(
+            img_width, img_height
+        )
+        if new_img_width != img_width or new_img_height != img_height:
+            img = self.square_pad(img)
+            img_width, img_height = img.size
+
+        new_img_width, new_img_height = self.get_image_size_for_preprocess(
+            img_width, img_height
+        )
+        img = img.resize((new_img_width, new_img_height), Image.Resampling.BILINEAR)
+        window_size = self.determine_window_size(
+            max(new_img_height, new_img_width), min(new_img_height, new_img_width)
+        )
+        if window_size == 0:
+            return img, [], None
+        else:
+            new_img_width, new_img_height = self.get_image_size_for_crop(
+                new_img_width, new_img_height, window_size
+            )
+            if (new_img_width, new_img_height) != (img_width, img_height):
+                img_for_crop = img.resize(
+                    (new_img_width, new_img_height), Image.Resampling.BILINEAR
+                )
+            else:
+                img_for_crop = img
+
+            patches = []
+            newlines = []
+            center_list, (x_num, y_num) = self.slide_window(
+                new_img_width,
+                new_img_height,
+                [(window_size, window_size)],
+                [(window_size, window_size)],
+            )
+            for patch_id, center_lf_point in enumerate(center_list):
+                x, y, patch_w, patch_h = center_lf_point
+                big_patch = self.patch_crop(img_for_crop, y, x, patch_h, patch_w)
+                patches.append(big_patch)
+                if (patch_id + 1) % x_num == 0:
+                    newlines.append(patch_id)
+
+            if newlines and newlines[-1] == len(patches) - 1:
+                newlines.pop()
+
+            return (
+                img,
+                patches,
+                (
+                    [i in newlines for i in range(len(patches))]
+                    if len(patches) > 0
+                    else None
+                ),
+            )
+
+
+class Step3VLProcessor:
+    def __init__(
+        self,
+        config,
+        tokenizer,
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.tokenizer = tokenizer
+
+        self.image_size = 728
+        self.patch_size = 504
+        self.image_preprocessor = Step3VisionProcessor(
+            self.image_size, "bilinear", self.patch_size
+        )
+
+        self.num_image_feature_size = 169
+        self.num_patch_feature_size = 81
+        self.image_token = "<im_patch>"
+        self.image_feature_placeholder = self.image_token * self.num_image_feature_size
+        self.patch_feature_placeholder = self.image_token * self.num_patch_feature_size
+
+        self.patcher = ImagePatcher()
+
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[self.image_token]
+
+    def get_num_image_tokens(self, img_width: int, img_height: int) -> int:
+        num_patches, num_newlines = self.patcher.get_num_patches(img_width, img_height)
+
+        return (
+            num_patches * (self.num_patch_feature_size + 2)
+            + self.num_image_feature_size
+            + 2
+            + num_newlines
+        )
+
+    def _split_images(self, images: list[Image.Image]) -> list[ImageWithPatches]:
+        result = []
+        for img in images:
+            result.append(self.patcher(img))
+        return result
+
+    def _convert_images_to_pixel_values(
+        self,
+        images: list[Image.Image],
+        is_patch: bool = False,
+    ) -> list[torch.Tensor]:
+        return [
+            self.image_preprocessor(img, is_patch=is_patch)["pixel_values"]
+            for img in images
+        ]
+
+    def _get_patch_repl(
+        self,
+        num_patches: int,
+        patch_newline_mask: list[bool] | None,
+    ) -> tuple[str, list[int]]:
+        text = ""
+        token_ids = []
+        for i in range(num_patches):
+            assert len(patch_newline_mask) == num_patches
+            text += f"<patch_start>{self.patch_feature_placeholder}<patch_end>"
+            token_ids.extend(
+                [self.tokenizer.convert_tokens_to_ids("<patch_start>")]
+                + [self.image_token_id] * self.num_patch_feature_size
+                + [self.tokenizer.convert_tokens_to_ids("<patch_end>")]
+            )
+            if patch_newline_mask and patch_newline_mask[i]:
+                text += "<patch_newline>"
+                token_ids.append(
+                    self.tokenizer.convert_tokens_to_ids("<patch_newline>")
+                )
+        return text, token_ids
+
+    def _get_image_repl(
+        self,
+        num_images: int,
+    ) -> tuple[str, list[int]]:
+        text = f"<im_start>{self.image_feature_placeholder}<im_end>"
+        token_ids = (
+            [self.tokenizer.convert_tokens_to_ids("<im_start>")]
+            + [self.image_token_id] * self.num_image_feature_size
+            + [self.tokenizer.convert_tokens_to_ids("<im_end>")]
+        )
+        return text * num_images, token_ids * num_images
+
+    def _get_image_repl_features(
+        self,
+        num_images: int,
+        num_patches: int,
+        patch_new_line_idx: Optional[list[bool]],
+    ) -> tuple[str, list[int]]:
+        if num_patches > 0:
+            patch_repl, patch_repl_ids = self._get_patch_repl(
+                num_patches, patch_new_line_idx
+            )
+        else:
+            patch_repl = ""
+            patch_repl_ids = []
+        image_repl, image_repl_ids = self._get_image_repl(num_images)
+        return patch_repl + image_repl, patch_repl_ids + image_repl_ids
+
+    def replace_placeholder(self, text: str, placeholder: str, repls: list[str]) -> str:
+        parts = text.split(placeholder)
+
+        if len(parts) - 1 != len(repls):
+            raise ValueError(
+                "The number of placeholders does not match the number of replacements."  # noqa: E501
+            )
+
+        result = [parts[0]]
+        for i, repl in enumerate(repls):
+            result.append(repl)
+            result.append(parts[i + 1])
+
+        return "".join(result)
+
+    def __call__(
+        self,
+        text: Optional[Union[str, list[str]]] = None,
+        images: Optional[Union[Image.Image, list[Image.Image]]] = None,
+        return_tensors: Optional[Union[str, TensorType]] = None,
+        *args,
+        **kwargs,
+    ) -> BatchFeature:
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        if not isinstance(images, list):
+            images = [images]
+
+        if len(images) == 0:
+            image_inputs = {}
+            text_inputs = self.tokenizer(text)
+        else:
+            splitted_images_data = self._split_images(images)
+            pixel_values_lst = []
+            patch_pixel_values_lst = []
+            patch_newline_mask_lst = []
+            image_repl_str_lst = []
+            image_repl_ids_lst = []
+            num_patches = []
+            for (
+                raw_img,
+                img_patches,
+                patch_newline_mask,
+            ) in splitted_images_data:  # noqa: E501
+                pixel_values_lst.extend(self._convert_images_to_pixel_values([raw_img]))
+
+                if len(img_patches) > 0:
+                    patch_pixel_values_lst.extend(
+                        self._convert_images_to_pixel_values(img_patches, is_patch=True)
+                    )
+                num_patches.append(len(img_patches))
+
+                image_repl_str, image_repl_ids = self._get_image_repl_features(
+                    1, len(img_patches), patch_newline_mask
+                )
+                image_repl_str_lst.append(image_repl_str)
+                image_repl_ids_lst.extend(image_repl_ids)
+
+                if patch_newline_mask is not None:
+                    patch_newline_mask_lst.extend(patch_newline_mask)
+
+            image_inputs = {
+                "pixel_values": torch.cat(pixel_values_lst),
+                "num_patches": num_patches,
+            }
+            if patch_pixel_values_lst:
+                image_inputs["patch_pixel_values"] = torch.cat(patch_pixel_values_lst)
+            if patch_newline_mask_lst:
+                image_inputs["patch_newline_mask"] = torch.tensor(
+                    patch_newline_mask_lst, dtype=torch.bool
+                )
+
+            text = [
+                self.replace_placeholder(t, self.image_token, image_repl_str_lst)
+                for t in text
+            ]
+            text_inputs = self.tokenizer(text)
+
+        return BatchFeature(
+            {
+                **text_inputs,
+                **image_inputs,
+            },
+            tensor_type=return_tensors,
+        )
+
+
+################################################
+
+
+class Step3VLImageProcessor(SGLangBaseProcessor):
+    models = [Step3VLForConditionalGeneration]
+
+    def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
+        # TODO, check _processor is tokenizer or processor.
+        processor = Step3VLProcessor(hf_config, _processor)
+        super().__init__(hf_config, server_args, processor, *args, **kwargs)
+        self.IM_TOKEN_ID = 128001
+        self.mm_tokens = MultimodalSpecialTokens(
+            image_token="<im_patch>",
+            image_token_id=128001,
+            image_token_regex=re.compile(r"(?:<im_patch>)"),
+        ).build(_processor)
+
+        mean = [0.48145466, 0.4578275, 0.40821073]
+        std = [0.26862954, 0.26130258, 0.27577711]
+
+    def preprocess(self, image):
+        return {"pixel_values": self.transform(image).unsqueeze(0)}
+
+    def __call__(self, image):
+        return self.preprocess(image)
+
+    async def process_mm_data_async(
+        self,
+        image_data: List[Union[str, bytes]],
+        input_text: str | List[int],
+        request_obj,
+        *args,
+        **kwargs,
+    ):
+        base_output = self.load_mm_data(
+            prompt=input_text,
+            image_data=image_data,
+            video_data=request_obj.video_data,
+            multimodal_tokens=self.mm_tokens,
+        )
+
+        mm_items, input_ids, ret = self.process_and_combine_mm_data(
+            base_output, self.mm_tokens
+        )
+
+        return {
+            "input_ids": input_ids.tolist(),
+            "mm_items": mm_items,
+            "im_token_id": self.mm_tokens.image_token_id,
+        }
diff --git a/python/sglang/srt/reasoning_parser.py b/python/sglang/srt/reasoning_parser.py
index b5b737856c24..a2561a18d101 100644
--- a/python/sglang/srt/reasoning_parser.py
+++ b/python/sglang/srt/reasoning_parser.py
@@ -105,7 +105,7 @@ def parse_streaming_increment(self, new_text: str) -> StreamingParseResult:
         # If we're not in a reasoning block return as normal text
         if not self._in_reasoning:
             self._buffer = ""
-            return StreamingParseResult(normal_text=new_text)
+            return StreamingParseResult(normal_text=current_text)
 
         return StreamingParseResult()
 
@@ -233,6 +233,7 @@ class ReasoningParser:
         "qwen3-thinking": Qwen3ThinkingDetector,
         "glm45": Qwen3Detector,
         "kimi": KimiDetector,
+        "step3": DeepSeekR1Detector,
     }
 
     def __init__(self, model_type: Optional[str] = None, stream_reasoning: bool = True):
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 9929054370d2..9e673a9f4855 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1117,9 +1117,10 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "kimi_k2",
                 "qwen3_coder",
                 "glm45",
+                "step3",
             ],
             default=ServerArgs.tool_call_parser,
-            help="Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', 'kimi_k2', and 'qwen3_coder'.",
+            help="Specify the parser for handling tool-call interactions. Options include: 'qwen25', 'mistral', 'llama3', 'deepseekv3', 'pythonic', 'kimi_k2', 'qwen3_coder', 'glm45', and 'step3'.",
         )
 
         # Data parallelism
diff --git a/test/srt/test_reasoning_parser.py b/test/srt/test_reasoning_parser.py
index 7f33591443e1..97eea82b43b2 100644
--- a/test/srt/test_reasoning_parser.py
+++ b/test/srt/test_reasoning_parser.py
@@ -493,5 +493,117 @@ def test_qwen3_thinking_streaming_scenario(self):
         self.assertIn("final answer", all_normal)
 
 
+class TestBufferLossBugFix(CustomTestCase):
+    """Test cases for the buffer loss bug fix in parse_streaming_increment."""
+
+    def test_partial_end_tag_buffer_loss_bug(self):
+        """
+        Test the bug where partial end tag fragments are lost when followed by normal text.
+
+        Bug scenario:
+        1. _in_reasoning is False
+        2. new_text is "</" (part of closing thinking tag)
+        3. Fragment is stored in buffer and empty string is returned
+        4. Next step: new_text is "answer", _in_reasoning still False
+        5. Buffer is cleared and "answer" is returned directly
+        6. The "</" from previous step is lost
+
+        This test verifies the fix where line 108 was changed from:
+        return StreamingParseResult(normal_text=new_text)
+        to:
+        return StreamingParseResult(normal_text=current_text)
+        """
+        detector = BaseReasoningFormatDetector("<think>", "</think>")
+
+        # Step 1: Send partial end tag when not in reasoning mode
+        # This should be buffered since it could be start of "</think>"
+        result1 = detector.parse_streaming_increment("</")
+        self.assertEqual(result1.normal_text, "")
+        self.assertEqual(result1.reasoning_text, "")
+
+        # Step 2: Send normal text that doesn't complete the end tag
+        # Before fix: would return only "answer", losing the "</"
+        # After fix: should return the complete buffered content "</answer"
+        result2 = detector.parse_streaming_increment("answer")
+        self.assertEqual(result2.normal_text, "</answer")
+        self.assertEqual(result2.reasoning_text, "")
+
+    def test_partial_start_tag_buffer_preservation(self):
+        """
+        Test that partial start tag fragments are properly preserved.
+        """
+        detector = BaseReasoningFormatDetector("<think>", "</think>")
+
+        # Send partial start tag
+        result1 = detector.parse_streaming_increment("<th")
+        self.assertEqual(result1.normal_text, "")
+        self.assertEqual(result1.reasoning_text, "")
+
+        # Complete with non-matching text
+        result2 = detector.parse_streaming_increment("is is text")
+        self.assertEqual(result2.normal_text, "<this is text")
+        self.assertEqual(result2.reasoning_text, "")
+
+    def test_partial_end_tag_in_reasoning_mode(self):
+        """
+        Test partial end tag handling when already in reasoning mode.
+        """
+        detector = BaseReasoningFormatDetector("<think>", "</think>")
+
+        # Enter reasoning mode
+        detector.parse_streaming_increment("<think>")
+        detector.parse_streaming_increment("some reasoning")
+
+        # Send partial end tag
+        result1 = detector.parse_streaming_increment("</")
+        self.assertEqual(result1.normal_text, "")
+        self.assertEqual(result1.reasoning_text, "")
+
+        # Complete the end tag with normal text
+        result2 = detector.parse_streaming_increment("think>normal text")
+        self.assertEqual(result2.normal_text, "normal text")
+        # The reasoning text should be empty since buffer was cleared when end tag was processed
+        self.assertEqual(result2.reasoning_text, "")
+
+    def test_multiple_partial_fragments(self):
+        """
+        Test handling of multiple partial fragments that don't match any tokens.
+        """
+        detector = BaseReasoningFormatDetector("<think>", "</think>")
+
+        # Send multiple partial fragments
+        result1 = detector.parse_streaming_increment("<")
+        self.assertEqual(result1.normal_text, "")
+        self.assertEqual(result1.reasoning_text, "")
+
+        result2 = detector.parse_streaming_increment("/")
+        self.assertEqual(result2.normal_text, "")
+        self.assertEqual(result2.reasoning_text, "")
+
+        result3 = detector.parse_streaming_increment("random>")
+        self.assertEqual(result3.normal_text, "</random>")
+        self.assertEqual(result3.reasoning_text, "")
+
+    def test_edge_case_exact_token_match(self):
+        """
+        Test edge case where buffer content exactly matches a token.
+        """
+        detector = BaseReasoningFormatDetector("<think>", "</think>")
+
+        # Build up the exact start token character by character
+        detector.parse_streaming_increment("<")
+        detector.parse_streaming_increment("t")
+        detector.parse_streaming_increment("h")
+        detector.parse_streaming_increment("i")
+        detector.parse_streaming_increment("n")
+        result = detector.parse_streaming_increment("k>")
+
+        # Should enter reasoning mode
+        self.assertEqual(result.normal_text, "")
+        self.assertEqual(result.reasoning_text, "")
+        self.assertTrue(detector._in_reasoning)
+        self.assertTrue(detector.stripped_think_start)
+
+
 if __name__ == "__main__":
     unittest.main()

From 7a1f7fc5049d4fd5b3adc88fe48466fccbe676d8 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Thu, 31 Jul 2025 02:53:25 -0700
Subject: [PATCH 247/396] [Feature] Hybrid EP and TP (#8590)

---
 assets/logo.svg                               |  2 +-
 assets/logo_square.svg                        |  2 +-
 python/sglang/bench_one_batch.py              |  3 +
 .../sglang/srt/distributed/parallel_state.py  | 87 ++++++++++++++++++-
 python/sglang/srt/entrypoints/engine.py       |  2 +
 python/sglang/srt/layers/moe/ep_moe/layer.py  |  2 +-
 .../srt/layers/moe/fused_moe_triton/layer.py  | 46 +++++-----
 .../srt/managers/data_parallel_controller.py  |  2 +
 python/sglang/srt/managers/scheduler.py       | 12 ++-
 python/sglang/srt/managers/tp_worker.py       |  4 +
 .../srt/managers/tp_worker_overlap_thread.py  |  3 +-
 .../sglang/srt/model_executor/model_runner.py |  5 ++
 python/sglang/srt/server_args.py              |  9 +-
 python/sglang/srt/speculative/eagle_worker.py |  2 +
 14 files changed, 142 insertions(+), 39 deletions(-)

diff --git a/assets/logo.svg b/assets/logo.svg
index cd9244b38db8..4d6393926740 100644
--- a/assets/logo.svg
+++ b/assets/logo.svg
@@ -1 +1 @@
-<svg width="2392" height="729" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:space="preserve" overflow="hidden"><defs><filter id="fx0" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="7.638889 7.638889"/></filter><filter id="fx1" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="6.111111 6.111111"/></filter><filter id="fx2" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="7.638889 7.638889"/></filter><clipPath id="clip3"><path d="M1756.97 902.5C1708.88 902.5 1667.36 908.097 1632.43 919.291 1597.49 930.485 1568.73 945.491 1546.14 964.309 1523.56 983.128 1506.82 1004.62 1495.94 1028.8 1485.05 1052.97 1479.61 1078.03 1479.61 1103.99 1479.61 1125.73 1483.26 1144.63 1490.57 1160.69 1497.89 1176.75 1507.63 1190.86 1519.82 1203.03 1532.01 1215.2 1545.74 1225.74 1561.01 1234.66 1576.29 1243.59 1591.97 1251.86 1608.05 1259.48 1624.14 1267.11 1639.9 1274.49 1655.34 1281.63 1670.77 1288.77 1684.58 1296.39 1696.77 1304.5 1708.96 1312.61 1718.71 1321.62 1726.02 1331.51 1733.33 1341.41 1736.99 1353.17 1736.99 1366.8 1736.99 1378.48 1734.23 1389.59 1728.7 1400.14 1723.18 1410.68 1714.48 1420.01 1702.62 1428.12 1690.76 1436.23 1675.65 1442.64 1657.29 1447.35 1638.93 1452.05 1616.91 1454.4 1591.24 1454.4 1576.61 1454.4 1561.5 1453.59 1545.9 1451.97 1530.3 1450.35 1514.7 1448.08 1499.1 1445.16 1483.51 1442.23 1468.07 1438.67 1452.79 1434.45 1437.52 1430.23 1423.06 1425.69 1409.41 1420.82L1386.5 1533.25C1415.1 1542.33 1444.83 1549.14 1475.71 1553.69 1506.58 1558.23 1540.05 1560.5 1576.12 1560.5 1621.3 1560.5 1662.24 1555.47 1698.96 1545.41 1735.69 1535.35 1766.97 1520.92 1792.8 1502.1 1818.64 1483.28 1838.54 1460.57 1852.52 1433.96 1866.49 1407.36 1873.48 1377.67 1873.48 1344.9 1873.48 1323.48 1869.74 1304.58 1862.27 1288.2 1854.79 1271.81 1844.96 1257.38 1832.77 1244.88 1820.59 1232.39 1806.78 1221.44 1791.34 1212.03 1775.9 1202.62 1760.06 1193.94 1743.81 1185.99 1727.56 1178.05 1711.72 1170.5 1696.28 1163.36 1680.85 1156.23 1667.04 1148.76 1654.85 1140.98 1642.66 1133.19 1632.83 1124.67 1625.36 1115.42 1617.88 1106.18 1614.15 1095.39 1614.15 1083.06 1614.15 1072.35 1616.66 1062.21 1621.7 1052.64 1626.74 1043.07 1634.62 1034.8 1645.34 1027.82 1656.07 1020.85 1669.72 1015.33 1686.29 1011.27 1702.87 1007.22 1722.69 1005.19 1745.76 1005.19 1757.46 1005.19 1769.81 1005.76 1782.81 1006.89 1795.81 1008.03 1808.73 1009.65 1821.56 1011.76 1834.4 1013.87 1846.75 1016.3 1858.61 1019.06 1870.47 1021.82 1881.11 1024.82 1890.54 1028.06L1911.5 922.455C1901.75 919.859 1890.86 917.344 1878.84 914.91 1866.82 912.477 1854.06 910.368 1840.57 908.584 1827.09 906.799 1813.28 905.339 1799.14 904.203 1785 903.068 1770.95 902.5 1756.97 902.5ZM756 866 3148 866 3148 1595 756 1595Z" fill-rule="evenodd" clip-rule="evenodd"/></clipPath><clipPath id="clip4"><rect x="1.24353" y="1.08319" width="595.223" height="724.834"/></clipPath><clipPath id="clip5"><rect x="1.41663" y="1.66669" width="592.667" height="675.667"/></clipPath><clipPath id="clip6"><rect x="-2078.55" y="-2770.64" width="374073" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img7"></image><clipPath id="clip8"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip9"><rect x="-0.363636" y="-2770.64" width="371302" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img10"></image><clipPath id="clip11"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip12"><path d="M2369.95 902.5C2319.29 902.5 2274.72 909.476 2236.23 923.428 2197.75 937.38 2164.46 955.873 2136.37 978.909 2108.28 1001.95 2084.82 1028.23 2065.98 1057.75 2047.14 1087.28 2032.04 1117.78 2020.68 1149.25 2009.31 1180.72 2001.27 1211.79 1996.56 1242.45 1991.85 1273.11 1989.5 1300.93 1989.5 1325.92 1989.5 1363.55 1994.86 1396.89 2005.58 1425.93 2016.29 1454.97 2031.8 1479.47 2052.1 1499.42 2072.39 1519.38 2097.08 1534.54 2126.14 1544.93 2155.21 1555.31 2188.25 1560.5 2225.27 1560.5 2262.62 1560.5 2296.8 1557.17 2327.81 1550.52 2358.83 1543.87 2390.09 1533.89 2421.59 1520.59L2490.27 1181.37 2263.76 1181.37 2244.27 1280.17 2351.93 1280.17 2318.8 1442.72C2308.41 1446.29 2298.1 1448.97 2287.87 1450.75 2277.64 1452.54 2265.05 1453.43 2250.12 1453.43 2226.08 1453.43 2205.54 1450.59 2188.49 1444.91 2171.44 1439.23 2157.48 1430.8 2146.6 1419.6 2135.72 1408.41 2127.76 1394.78 2122.73 1378.72 2117.7 1362.66 2115.18 1344.09 2115.18 1323 2115.18 1302.56 2117.05 1280.57 2120.78 1257.05 2124.52 1233.53 2130.44 1210.17 2138.56 1186.97 2146.68 1163.77 2157.07 1141.54 2169.74 1120.29 2182.41 1099.04 2197.75 1080.22 2215.77 1063.84 2233.8 1047.45 2254.58 1034.31 2278.13 1024.41 2301.67 1014.52 2328.22 1009.57 2357.77 1009.57 2387.33 1009.57 2415.66 1012.9 2442.78 1019.55 2469.89 1026.2 2494.17 1033.58 2515.6 1041.69L2538.5 931.214C2512.84 922.778 2485.56 915.883 2456.66 910.53 2427.76 905.177 2398.85 902.5 2369.95 902.5ZM756 866 3148 866 3148 1595 756 1595Z" fill-rule="evenodd" clip-rule="evenodd"/></clipPath><clipPath id="clip13"><rect x="0.916748" y="1.08319" width="617.517" height="724.834"/></clipPath></defs><g transform="translate(-756 -866)"><g><g clip-path="url(#clip3)"><g clip-path="url(#clip4)" filter="url(#fx0)" transform="translate(1396 868)"><g><g><path d="M406.807 34.4998C420.781 34.4998 434.837 35.068 448.972 36.2035 463.109 37.3389 476.921 38.799 490.407 40.5838 503.894 42.3677 516.649 44.4772 528.673 46.9104 540.697 49.3436 551.584 51.859 561.333 54.4545L540.372 160.065C530.948 156.821 520.305 153.819 508.444 151.061 496.581 148.304 484.232 145.87 471.396 143.761 458.559 141.652 445.642 140.03 432.642 138.894 419.644 137.759 407.295 137.191 395.595 137.191 372.522 137.191 352.699 139.219 336.125 143.275 319.551 147.33 305.902 152.846 295.178 159.822 284.453 166.797 276.572 175.071 271.535 184.642 266.497 194.214 263.979 204.354 263.979 215.061 263.979 227.39 267.717 238.178 275.191 247.425 282.666 256.673 292.496 265.189 304.683 272.977 316.87 280.763 330.681 288.226 346.117 295.364 361.554 302.502 377.396 310.046 393.646 317.995 409.894 325.944 425.737 334.624 441.173 344.033 456.61 353.442 470.422 364.392 482.608 376.884 494.795 389.376 504.625 403.814 512.099 420.199 519.574 436.584 523.311 455.483 523.311 476.898 523.311 509.669 516.324 539.356 502.35 565.962 488.376 592.567 468.471 615.279 442.636 634.098 416.8 652.916 385.521 667.354 348.798 677.413 312.076 687.471 271.129 692.5 225.957 692.5 189.884 692.5 156.412 690.229 125.539 685.687 94.6662 681.144 64.931 674.33 36.3331 665.246L59.2438 552.821C72.8928 557.688 87.3538 562.23 102.628 566.448 117.902 570.666 133.339 574.235 148.937 577.155 164.536 580.075 180.136 582.347 195.734 583.969 211.333 585.591 226.445 586.403 241.068 586.403 266.741 586.403 288.759 584.05 307.12 579.346 325.481 574.641 340.592 568.233 352.455 560.122 364.316 552.01 373.009 542.682 378.534 532.137 384.059 521.592 386.821 510.479 386.821 498.799 386.821 485.172 383.164 473.41 375.853 463.514 368.541 453.618 358.791 444.614 346.605 436.503 334.418 428.391 320.607 420.767 305.17 413.629 289.733 406.491 273.972 399.11 257.886 391.484 241.8 383.86 226.119 375.586 210.845 366.663 195.571 357.741 181.841 347.197 169.654 335.028 157.468 322.861 147.718 308.748 140.407 292.687 133.095 276.626 129.439 257.727 129.439 235.988 129.439 210.032 134.882 184.967 145.769 160.795 156.656 136.624 173.391 115.128 195.978 96.3092 218.563 77.4909 247.324 62.4847 282.259 51.2908 317.194 40.0968 358.71 34.4998 406.807 34.4998Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/></g></g></g></g><path d="M1756.97 902.5C1770.95 902.5 1785 903.068 1799.14 904.203 1813.28 905.339 1827.09 906.799 1840.57 908.584 1854.06 910.368 1866.82 912.477 1878.84 914.91 1890.86 917.344 1901.75 919.859 1911.5 922.455L1890.54 1028.06C1881.11 1024.82 1870.47 1021.82 1858.61 1019.06 1846.75 1016.3 1834.4 1013.87 1821.56 1011.76 1808.73 1009.65 1795.81 1008.03 1782.81 1006.89 1769.81 1005.76 1757.46 1005.19 1745.76 1005.19 1722.69 1005.19 1702.87 1007.22 1686.29 1011.27 1669.72 1015.33 1656.07 1020.85 1645.34 1027.82 1634.62 1034.8 1626.74 1043.07 1621.7 1052.64 1616.66 1062.21 1614.15 1072.35 1614.15 1083.06 1614.15 1095.39 1617.88 1106.18 1625.36 1115.42 1632.83 1124.67 1642.66 1133.19 1654.85 1140.98 1667.04 1148.76 1680.85 1156.23 1696.28 1163.36 1711.72 1170.5 1727.56 1178.05 1743.81 1185.99 1760.06 1193.94 1775.9 1202.62 1791.34 1212.03 1806.78 1221.44 1820.59 1232.39 1832.77 1244.88 1844.96 1257.38 1854.79 1271.81 1862.27 1288.2 1869.74 1304.58 1873.48 1323.48 1873.48 1344.9 1873.48 1377.67 1866.49 1407.36 1852.52 1433.96 1838.54 1460.57 1818.64 1483.28 1792.8 1502.1 1766.97 1520.92 1735.69 1535.35 1698.96 1545.41 1662.24 1555.47 1621.3 1560.5 1576.12 1560.5 1540.05 1560.5 1506.58 1558.23 1475.71 1553.69 1444.83 1549.14 1415.1 1542.33 1386.5 1533.25L1409.41 1420.82C1423.06 1425.69 1437.52 1430.23 1452.79 1434.45 1468.07 1438.67 1483.51 1442.23 1499.1 1445.16 1514.7 1448.08 1530.3 1450.35 1545.9 1451.97 1561.5 1453.59 1576.61 1454.4 1591.24 1454.4 1616.91 1454.4 1638.93 1452.05 1657.29 1447.35 1675.65 1442.64 1690.76 1436.23 1702.62 1428.12 1714.48 1420.01 1723.18 1410.68 1728.7 1400.14 1734.23 1389.59 1736.99 1378.48 1736.99 1366.8 1736.99 1353.17 1733.33 1341.41 1726.02 1331.51 1718.71 1321.62 1708.96 1312.61 1696.77 1304.5 1684.58 1296.39 1670.77 1288.77 1655.34 1281.63 1639.9 1274.49 1624.14 1267.11 1608.05 1259.48 1591.97 1251.86 1576.29 1243.59 1561.01 1234.66 1545.74 1225.74 1532.01 1215.2 1519.82 1203.03 1507.63 1190.86 1497.89 1176.75 1490.57 1160.69 1483.26 1144.63 1479.61 1125.73 1479.61 1103.99 1479.61 1078.03 1485.05 1052.97 1495.94 1028.8 1506.82 1004.62 1523.56 983.128 1546.14 964.309 1568.73 945.491 1597.49 930.485 1632.43 919.291 1667.36 908.097 1708.88 902.5 1756.97 902.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip5)" filter="url(#fx1)" transform="translate(757 888)"><g><g><path d="M482.943 195.5C482.943 283.043 379.597 370.586 276.25 370.586" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M195.25 316.5C262.575 316.5 329.901 417.048 329.901 517.595" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M30.2499 316C30.2499 270.437 67.1864 233.5 112.75 233.5 158.313 233.5 195.25 270.437 195.25 316 195.25 361.564 158.313 398.5 112.75 398.5 67.1864 398.5 30.2499 361.564 30.2499 316Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M400.25 113C400.25 67.4365 437.187 30.5 482.75 30.5 528.314 30.5 565.25 67.4365 565.25 113 565.25 158.563 528.314 195.5 482.75 195.5 437.187 195.5 400.25 158.563 400.25 113Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M237.25 539.334C237.25 527.275 247.025 517.5 259.084 517.5L400.417 517.5C412.475 517.5 422.25 527.275 422.25 539.334L422.25 626.666C422.25 638.725 412.475 648.5 400.417 648.5L259.084 648.5C247.025 648.5 237.25 638.725 237.25 626.666Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip6)" transform="matrix(0.000360892 0 0 0.000360892 261.75 517)"><g clip-path="url(#clip8)" transform="matrix(1 0 0 1 0.0663341 0.216198)"><use width="100%" height="100%" xlink:href="#img7" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></g><path d="M1226.19 1083.5C1226.19 1171.04 1122.85 1258.59 1019.5 1258.59" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M938.5 1204.5C1005.83 1204.5 1073.15 1305.05 1073.15 1405.6" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M773.5 1204C773.5 1158.44 810.436 1121.5 856 1121.5 901.563 1121.5 938.5 1158.44 938.5 1204 938.5 1249.56 901.563 1286.5 856 1286.5 810.436 1286.5 773.5 1249.56 773.5 1204Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M1143.5 1001C1143.5 955.437 1180.44 918.5 1226 918.5 1271.56 918.5 1308.5 955.437 1308.5 1001 1308.5 1046.56 1271.56 1083.5 1226 1083.5 1180.44 1083.5 1143.5 1046.56 1143.5 1001Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M980.5 1427.33C980.5 1415.28 990.275 1405.5 1002.33 1405.5L1143.67 1405.5C1155.72 1405.5 1165.5 1415.28 1165.5 1427.33L1165.5 1514.67C1165.5 1526.72 1155.72 1536.5 1143.67 1536.5L1002.33 1536.5C990.275 1536.5 980.5 1526.72 980.5 1514.67Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip9)" transform="matrix(0.000360892 0 0 0.000360892 1005 1405)"><g clip-path="url(#clip11)" transform="matrix(1 0 0 1 0.0684703 0.216198)"><use width="100%" height="100%" xlink:href="#img10" opacity="1" transform="scale(725.197 725.197)"></use></g></g><g clip-path="url(#clip12)"><g clip-path="url(#clip13)" filter="url(#fx2)" transform="translate(2001 868)"><g><g><path d="M414.785 34.4998C443.687 34.4998 472.591 37.1766 501.494 42.53 530.398 47.8835 557.677 54.7783 583.333 63.2143L560.437 173.692C539.004 165.581 514.728 158.2 487.611 151.548 460.494 144.896 432.159 141.571 402.606 141.571 373.053 141.571 346.504 146.519 322.96 156.415 299.415 166.311 278.631 179.451 260.607 195.836 242.582 212.221 227.238 231.04 214.573 252.292 201.907 273.544 191.515 295.769 183.396 318.968 175.278 342.167 169.35 365.528 165.616 389.051 161.881 412.575 160.014 434.557 160.014 454.997 160.014 476.087 162.531 494.662 167.564 510.723 172.598 526.783 180.555 540.41 191.434 551.604 202.313 562.798 216.278 571.234 233.327 576.913 250.377 582.59 270.918 585.429 294.95 585.429 309.888 585.429 322.473 584.537 332.703 582.752 342.932 580.968 353.244 578.291 363.636 574.722L396.761 412.169 289.104 412.169 308.589 313.371 535.107 313.371 466.421 652.592C434.92 665.894 403.662 675.872 372.647 682.523 341.633 689.174 307.453 692.5 270.106 692.5 233.083 692.5 200.039 687.309 170.974 676.926 141.908 666.544 117.227 651.375 96.9299 631.421 76.6329 611.467 61.1254 586.97 50.4087 557.931 39.6919 528.893 34.3335 495.554 34.3335 457.918 34.3335 432.934 36.6877 405.112 41.3971 374.451 46.1055 343.789 54.1431 312.723 65.5098 281.25 76.8756 249.778 91.9768 219.279 110.813 189.753 129.649 160.227 153.113 133.946 181.204 110.909 209.296 87.8731 242.582 69.3795 281.066 55.4276 319.55 41.4758 364.123 34.4998 414.785 34.4998Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/></g></g></g></g><path d="M2369.95 902.5C2398.85 902.5 2427.76 905.177 2456.66 910.53 2485.56 915.883 2512.84 922.778 2538.5 931.214L2515.6 1041.69C2494.17 1033.58 2469.89 1026.2 2442.78 1019.55 2415.66 1012.9 2387.33 1009.57 2357.77 1009.57 2328.22 1009.57 2301.67 1014.52 2278.13 1024.41 2254.58 1034.31 2233.8 1047.45 2215.77 1063.84 2197.75 1080.22 2182.41 1099.04 2169.74 1120.29 2157.07 1141.54 2146.68 1163.77 2138.56 1186.97 2130.44 1210.17 2124.52 1233.53 2120.78 1257.05 2117.05 1280.57 2115.18 1302.56 2115.18 1323 2115.18 1344.09 2117.7 1362.66 2122.73 1378.72 2127.76 1394.78 2135.72 1408.41 2146.6 1419.6 2157.48 1430.8 2171.44 1439.23 2188.49 1444.91 2205.54 1450.59 2226.08 1453.43 2250.12 1453.43 2265.05 1453.43 2277.64 1452.54 2287.87 1450.75 2298.1 1448.97 2308.41 1446.29 2318.8 1442.72L2351.93 1280.17 2244.27 1280.17 2263.76 1181.37 2490.27 1181.37 2421.59 1520.59C2390.09 1533.89 2358.83 1543.87 2327.81 1550.52 2296.8 1557.17 2262.62 1560.5 2225.27 1560.5 2188.25 1560.5 2155.21 1555.31 2126.14 1544.93 2097.08 1534.54 2072.39 1519.38 2052.1 1499.42 2031.8 1479.47 2016.29 1454.97 2005.58 1425.93 1994.86 1396.89 1989.5 1363.55 1989.5 1325.92 1989.5 1300.93 1991.85 1273.11 1996.56 1242.45 2001.27 1211.79 2009.31 1180.72 2020.68 1149.25 2032.04 1117.78 2047.14 1087.28 2065.98 1057.75 2084.82 1028.23 2108.28 1001.95 2136.37 978.909 2164.46 955.873 2197.75 937.38 2236.23 923.428 2274.72 909.476 2319.29 902.5 2369.95 902.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/><path d="M2837.7 900.5 2964.33 900.5 2853.41 1455.63 3132.5 1455.63 3111.73 1562.5 2705.5 1562.5 2837.7 900.5Z" stroke="#E4C0B8" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2807.7 900.5 2934.33 900.5 2823.41 1455.63 3102.5 1455.63 3081.73 1562.5 2675.5 1562.5 2807.7 900.5Z" stroke="#D29886" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2778.7 900.5 2905.33 900.5 2794.41 1455.63 3073.5 1455.63 3052.73 1562.5 2646.5 1562.5 2778.7 900.5Z" stroke="#BC644B" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2748.7 900.5 2875.33 900.5 2764.41 1455.63 3043.5 1455.63 3022.73 1562.5 2616.5 1562.5 2748.7 900.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/></g></g></svg>
\ No newline at end of file
+<svg width="2392" height="729" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:space="preserve" overflow="hidden"><defs><filter id="fx0" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="7.638889 7.638889"/></filter><filter id="fx1" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="6.111111 6.111111"/></filter><filter id="fx2" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="7.638889 7.638889"/></filter><clipPath id="clip3"><path d="M1756.97 902.5C1708.88 902.5 1667.36 908.097 1632.43 919.291 1597.49 930.485 1568.73 945.491 1546.14 964.309 1523.56 983.128 1506.82 1004.62 1495.94 1028.8 1485.05 1052.97 1479.61 1078.03 1479.61 1103.99 1479.61 1125.73 1483.26 1144.63 1490.57 1160.69 1497.89 1176.75 1507.63 1190.86 1519.82 1203.03 1532.01 1215.2 1545.74 1225.74 1561.01 1234.66 1576.29 1243.59 1591.97 1251.86 1608.05 1259.48 1624.14 1267.11 1639.9 1274.49 1655.34 1281.63 1670.77 1288.77 1684.58 1296.39 1696.77 1304.5 1708.96 1312.61 1718.71 1321.62 1726.02 1331.51 1733.33 1341.41 1736.99 1353.17 1736.99 1366.8 1736.99 1378.48 1734.23 1389.59 1728.7 1400.14 1723.18 1410.68 1714.48 1420.01 1702.62 1428.12 1690.76 1436.23 1675.65 1442.64 1657.29 1447.35 1638.93 1452.05 1616.91 1454.4 1591.24 1454.4 1576.61 1454.4 1561.5 1453.59 1545.9 1451.97 1530.3 1450.35 1514.7 1448.08 1499.1 1445.16 1483.51 1442.23 1468.07 1438.67 1452.79 1434.45 1437.52 1430.23 1423.06 1425.69 1409.41 1420.82L1386.5 1533.25C1415.1 1542.33 1444.83 1549.14 1475.71 1553.69 1506.58 1558.23 1540.05 1560.5 1576.12 1560.5 1621.3 1560.5 1662.24 1555.47 1698.96 1545.41 1735.69 1535.35 1766.97 1520.92 1792.8 1502.1 1818.64 1483.28 1838.54 1460.57 1852.52 1433.96 1866.49 1407.36 1873.48 1377.67 1873.48 1344.9 1873.48 1323.48 1869.74 1304.58 1862.27 1288.2 1854.79 1271.81 1844.96 1257.38 1832.77 1244.88 1820.59 1232.39 1806.78 1221.44 1791.34 1212.03 1775.9 1202.62 1760.06 1193.94 1743.81 1185.99 1727.56 1178.05 1711.72 1170.5 1696.28 1163.36 1680.85 1156.23 1667.04 1148.76 1654.85 1140.98 1642.66 1133.19 1632.83 1124.67 1625.36 1115.42 1617.88 1106.18 1614.15 1095.39 1614.15 1083.06 1614.15 1072.35 1616.66 1062.21 1621.7 1052.64 1626.74 1043.07 1634.62 1034.8 1645.34 1027.82 1656.07 1020.85 1669.72 1015.33 1686.29 1011.27 1702.87 1007.22 1722.69 1005.19 1745.76 1005.19 1757.46 1005.19 1769.81 1005.76 1782.81 1006.89 1795.81 1008.03 1808.73 1009.65 1821.56 1011.76 1834.4 1013.87 1846.75 1016.3 1858.61 1019.06 1870.47 1021.82 1881.11 1024.82 1890.54 1028.06L1911.5 922.455C1901.75 919.859 1890.86 917.344 1878.84 914.91 1866.82 912.477 1854.06 910.368 1840.57 908.584 1827.09 906.799 1813.28 905.339 1799.14 904.203 1785 903.068 1770.95 902.5 1756.97 902.5ZM756 866 3148 866 3148 1595 756 1595Z" fill-rule="evenodd" clip-rule="evenodd"/></clipPath><clipPath id="clip4"><rect x="1.24353" y="1.08319" width="595.223" height="724.834"/></clipPath><clipPath id="clip5"><rect x="1.41663" y="1.66669" width="592.667" height="675.667"/></clipPath><clipPath id="clip6"><rect x="-2078.55" y="-2770.64" width="374073" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img7"></image><clipPath id="clip8"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip9"><rect x="-0.363636" y="-2770.64" width="371302" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img10"></image><clipPath id="clip11"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip12"><path d="M2369.95 902.5C2319.29 902.5 2274.72 909.476 2236.23 923.428 2197.75 937.38 2164.46 955.873 2136.37 978.909 2108.28 1001.95 2084.82 1028.23 2065.98 1057.75 2047.14 1087.28 2032.04 1117.78 2020.68 1149.25 2009.31 1180.72 2001.27 1211.79 1996.56 1242.45 1991.85 1273.11 1989.5 1300.93 1989.5 1325.92 1989.5 1363.55 1994.86 1396.89 2005.58 1425.93 2016.29 1454.97 2031.8 1479.47 2052.1 1499.42 2072.39 1519.38 2097.08 1534.54 2126.14 1544.93 2155.21 1555.31 2188.25 1560.5 2225.27 1560.5 2262.62 1560.5 2296.8 1557.17 2327.81 1550.52 2358.83 1543.87 2390.09 1533.89 2421.59 1520.59L2490.27 1181.37 2263.76 1181.37 2244.27 1280.17 2351.93 1280.17 2318.8 1442.72C2308.41 1446.29 2298.1 1448.97 2287.87 1450.75 2277.64 1452.54 2265.05 1453.43 2250.12 1453.43 2226.08 1453.43 2205.54 1450.59 2188.49 1444.91 2171.44 1439.23 2157.48 1430.8 2146.6 1419.6 2135.72 1408.41 2127.76 1394.78 2122.73 1378.72 2117.7 1362.66 2115.18 1344.09 2115.18 1323 2115.18 1302.56 2117.05 1280.57 2120.78 1257.05 2124.52 1233.53 2130.44 1210.17 2138.56 1186.97 2146.68 1163.77 2157.07 1141.54 2169.74 1120.29 2182.41 1099.04 2197.75 1080.22 2215.77 1063.84 2233.8 1047.45 2254.58 1034.31 2278.13 1024.41 2301.67 1014.52 2328.22 1009.57 2357.77 1009.57 2387.33 1009.57 2415.66 1012.9 2442.78 1019.55 2469.89 1026.2 2494.17 1033.58 2515.6 1041.69L2538.5 931.214C2512.84 922.778 2485.56 915.883 2456.66 910.53 2427.76 905.177 2398.85 902.5 2369.95 902.5ZM756 866 3148 866 3148 1595 756 1595Z" fill-rule="evenodd" clip-rule="evenodd"/></clipPath><clipPath id="clip13"><rect x="0.916748" y="1.08319" width="617.517" height="724.834"/></clipPath></defs><g transform="translate(-756 -866)"><g><g clip-path="url(#clip3)"><g clip-path="url(#clip4)" filter="url(#fx0)" transform="translate(1396 868)"><g><g><path d="M406.807 34.4998C420.781 34.4998 434.837 35.068 448.972 36.2035 463.109 37.3389 476.921 38.799 490.407 40.5838 503.894 42.3677 516.649 44.4772 528.673 46.9104 540.697 49.3436 551.584 51.859 561.333 54.4545L540.372 160.065C530.948 156.821 520.305 153.819 508.444 151.061 496.581 148.304 484.232 145.87 471.396 143.761 458.559 141.652 445.642 140.03 432.642 138.894 419.644 137.759 407.295 137.191 395.595 137.191 372.522 137.191 352.699 139.219 336.125 143.275 319.551 147.33 305.902 152.846 295.178 159.822 284.453 166.797 276.572 175.071 271.535 184.642 266.497 194.214 263.979 204.354 263.979 215.061 263.979 227.39 267.717 238.178 275.191 247.425 282.666 256.673 292.496 265.189 304.683 272.977 316.87 280.763 330.681 288.226 346.117 295.364 361.554 302.502 377.396 310.046 393.646 317.995 409.894 325.944 425.737 334.624 441.173 344.033 456.61 353.442 470.422 364.392 482.608 376.884 494.795 389.376 504.625 403.814 512.099 420.199 519.574 436.584 523.311 455.483 523.311 476.898 523.311 509.669 516.324 539.356 502.35 565.962 488.376 592.567 468.471 615.279 442.636 634.098 416.8 652.916 385.521 667.354 348.798 677.413 312.076 687.471 271.129 692.5 225.957 692.5 189.884 692.5 156.412 690.229 125.539 685.687 94.6662 681.144 64.931 674.33 36.3331 665.246L59.2438 552.821C72.8928 557.688 87.3538 562.23 102.628 566.448 117.902 570.666 133.339 574.235 148.937 577.155 164.536 580.075 180.136 582.347 195.734 583.969 211.333 585.591 226.445 586.403 241.068 586.403 266.741 586.403 288.759 584.05 307.12 579.346 325.481 574.641 340.592 568.233 352.455 560.122 364.316 552.01 373.009 542.682 378.534 532.137 384.059 521.592 386.821 510.479 386.821 498.799 386.821 485.172 383.164 473.41 375.853 463.514 368.541 453.618 358.791 444.614 346.605 436.503 334.418 428.391 320.607 420.767 305.17 413.629 289.733 406.491 273.972 399.11 257.886 391.484 241.8 383.86 226.119 375.586 210.845 366.663 195.571 357.741 181.841 347.197 169.654 335.028 157.468 322.861 147.718 308.748 140.407 292.687 133.095 276.626 129.439 257.727 129.439 235.988 129.439 210.032 134.882 184.967 145.769 160.795 156.656 136.624 173.391 115.128 195.978 96.3092 218.563 77.4909 247.324 62.4847 282.259 51.2908 317.194 40.0968 358.71 34.4998 406.807 34.4998Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/></g></g></g></g><path d="M1756.97 902.5C1770.95 902.5 1785 903.068 1799.14 904.203 1813.28 905.339 1827.09 906.799 1840.57 908.584 1854.06 910.368 1866.82 912.477 1878.84 914.91 1890.86 917.344 1901.75 919.859 1911.5 922.455L1890.54 1028.06C1881.11 1024.82 1870.47 1021.82 1858.61 1019.06 1846.75 1016.3 1834.4 1013.87 1821.56 1011.76 1808.73 1009.65 1795.81 1008.03 1782.81 1006.89 1769.81 1005.76 1757.46 1005.19 1745.76 1005.19 1722.69 1005.19 1702.87 1007.22 1686.29 1011.27 1669.72 1015.33 1656.07 1020.85 1645.34 1027.82 1634.62 1034.8 1626.74 1043.07 1621.7 1052.64 1616.66 1062.21 1614.15 1072.35 1614.15 1083.06 1614.15 1095.39 1617.88 1106.18 1625.36 1115.42 1632.83 1124.67 1642.66 1133.19 1654.85 1140.98 1667.04 1148.76 1680.85 1156.23 1696.28 1163.36 1711.72 1170.5 1727.56 1178.05 1743.81 1185.99 1760.06 1193.94 1775.9 1202.62 1791.34 1212.03 1806.78 1221.44 1820.59 1232.39 1832.77 1244.88 1844.96 1257.38 1854.79 1271.81 1862.27 1288.2 1869.74 1304.58 1873.48 1323.48 1873.48 1344.9 1873.48 1377.67 1866.49 1407.36 1852.52 1433.96 1838.54 1460.57 1818.64 1483.28 1792.8 1502.1 1766.97 1520.92 1735.69 1535.35 1698.96 1545.41 1662.24 1555.47 1621.3 1560.5 1576.12 1560.5 1540.05 1560.5 1506.58 1558.23 1475.71 1553.69 1444.83 1549.14 1415.1 1542.33 1386.5 1533.25L1409.41 1420.82C1423.06 1425.69 1437.52 1430.23 1452.79 1434.45 1468.07 1438.67 1483.51 1442.23 1499.1 1445.16 1514.7 1448.08 1530.3 1450.35 1545.9 1451.97 1561.5 1453.59 1576.61 1454.4 1591.24 1454.4 1616.91 1454.4 1638.93 1452.05 1657.29 1447.35 1675.65 1442.64 1690.76 1436.23 1702.62 1428.12 1714.48 1420.01 1723.18 1410.68 1728.7 1400.14 1734.23 1389.59 1736.99 1378.48 1736.99 1366.8 1736.99 1353.17 1733.33 1341.41 1726.02 1331.51 1718.71 1321.62 1708.96 1312.61 1696.77 1304.5 1684.58 1296.39 1670.77 1288.77 1655.34 1281.63 1639.9 1274.49 1624.14 1267.11 1608.05 1259.48 1591.97 1251.86 1576.29 1243.59 1561.01 1234.66 1545.74 1225.74 1532.01 1215.2 1519.82 1203.03 1507.63 1190.86 1497.89 1176.75 1490.57 1160.69 1483.26 1144.63 1479.61 1125.73 1479.61 1103.99 1479.61 1078.03 1485.05 1052.97 1495.94 1028.8 1506.82 1004.62 1523.56 983.128 1546.14 964.309 1568.73 945.491 1597.49 930.485 1632.43 919.291 1667.36 908.097 1708.88 902.5 1756.97 902.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip5)" filter="url(#fx1)" transform="translate(757 888)"><g><g><path d="M482.943 195.5C482.943 283.043 379.597 370.586 276.25 370.586" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M195.25 316.5C262.575 316.5 329.901 417.048 329.901 517.595" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M30.2499 316C30.2499 270.437 67.1864 233.5 112.75 233.5 158.313 233.5 195.25 270.437 195.25 316 195.25 361.564 158.313 398.5 112.75 398.5 67.1864 398.5 30.2499 361.564 30.2499 316Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M400.25 113C400.25 67.4365 437.187 30.5 482.75 30.5 528.314 30.5 565.25 67.4365 565.25 113 565.25 158.563 528.314 195.5 482.75 195.5 437.187 195.5 400.25 158.563 400.25 113Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M237.25 539.334C237.25 527.275 247.025 517.5 259.084 517.5L400.417 517.5C412.475 517.5 422.25 527.275 422.25 539.334L422.25 626.666C422.25 638.725 412.475 648.5 400.417 648.5L259.084 648.5C247.025 648.5 237.25 638.725 237.25 626.666Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip6)" transform="matrix(0.000360892 0 0 0.000360892 261.75 517)"><g clip-path="url(#clip8)" transform="matrix(1 0 0 1 0.0663341 0.216198)"><use width="100%" height="100%" xlink:href="#img7" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></g><path d="M1226.19 1083.5C1226.19 1171.04 1122.85 1258.59 1019.5 1258.59" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M938.5 1204.5C1005.83 1204.5 1073.15 1305.05 1073.15 1405.6" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M773.5 1204C773.5 1158.44 810.436 1121.5 856 1121.5 901.563 1121.5 938.5 1158.44 938.5 1204 938.5 1249.56 901.563 1286.5 856 1286.5 810.436 1286.5 773.5 1249.56 773.5 1204Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M1143.5 1001C1143.5 955.437 1180.44 918.5 1226 918.5 1271.56 918.5 1308.5 955.437 1308.5 1001 1308.5 1046.56 1271.56 1083.5 1226 1083.5 1180.44 1083.5 1143.5 1046.56 1143.5 1001Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M980.5 1427.33C980.5 1415.28 990.275 1405.5 1002.33 1405.5L1143.67 1405.5C1155.72 1405.5 1165.5 1415.28 1165.5 1427.33L1165.5 1514.67C1165.5 1526.72 1155.72 1536.5 1143.67 1536.5L1002.33 1536.5C990.275 1536.5 980.5 1526.72 980.5 1514.67Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip9)" transform="matrix(0.000360892 0 0 0.000360892 1005 1405)"><g clip-path="url(#clip11)" transform="matrix(1 0 0 1 0.0684703 0.216198)"><use width="100%" height="100%" xlink:href="#img10" opacity="1" transform="scale(725.197 725.197)"></use></g></g><g clip-path="url(#clip12)"><g clip-path="url(#clip13)" filter="url(#fx2)" transform="translate(2001 868)"><g><g><path d="M414.785 34.4998C443.687 34.4998 472.591 37.1766 501.494 42.53 530.398 47.8835 557.677 54.7783 583.333 63.2143L560.437 173.692C539.004 165.581 514.728 158.2 487.611 151.548 460.494 144.896 432.159 141.571 402.606 141.571 373.053 141.571 346.504 146.519 322.96 156.415 299.415 166.311 278.631 179.451 260.607 195.836 242.582 212.221 227.238 231.04 214.573 252.292 201.907 273.544 191.515 295.769 183.396 318.968 175.278 342.167 169.35 365.528 165.616 389.051 161.881 412.575 160.014 434.557 160.014 454.997 160.014 476.087 162.531 494.662 167.564 510.723 172.598 526.783 180.555 540.41 191.434 551.604 202.313 562.798 216.278 571.234 233.327 576.913 250.377 582.59 270.918 585.429 294.95 585.429 309.888 585.429 322.473 584.537 332.703 582.752 342.932 580.968 353.244 578.291 363.636 574.722L396.761 412.169 289.104 412.169 308.589 313.371 535.107 313.371 466.421 652.592C434.92 665.894 403.662 675.872 372.647 682.523 341.633 689.174 307.453 692.5 270.106 692.5 233.083 692.5 200.039 687.309 170.974 676.926 141.908 666.544 117.227 651.375 96.9299 631.421 76.6329 611.467 61.1254 586.97 50.4087 557.931 39.6919 528.893 34.3335 495.554 34.3335 457.918 34.3335 432.934 36.6877 405.112 41.3971 374.451 46.1055 343.789 54.1431 312.723 65.5098 281.25 76.8756 249.778 91.9768 219.279 110.813 189.753 129.649 160.227 153.113 133.946 181.204 110.909 209.296 87.8731 242.582 69.3795 281.066 55.4276 319.55 41.4758 364.123 34.4998 414.785 34.4998Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/></g></g></g></g><path d="M2369.95 902.5C2398.85 902.5 2427.76 905.177 2456.66 910.53 2485.56 915.883 2512.84 922.778 2538.5 931.214L2515.6 1041.69C2494.17 1033.58 2469.89 1026.2 2442.78 1019.55 2415.66 1012.9 2387.33 1009.57 2357.77 1009.57 2328.22 1009.57 2301.67 1014.52 2278.13 1024.41 2254.58 1034.31 2233.8 1047.45 2215.77 1063.84 2197.75 1080.22 2182.41 1099.04 2169.74 1120.29 2157.07 1141.54 2146.68 1163.77 2138.56 1186.97 2130.44 1210.17 2124.52 1233.53 2120.78 1257.05 2117.05 1280.57 2115.18 1302.56 2115.18 1323 2115.18 1344.09 2117.7 1362.66 2122.73 1378.72 2127.76 1394.78 2135.72 1408.41 2146.6 1419.6 2157.48 1430.8 2171.44 1439.23 2188.49 1444.91 2205.54 1450.59 2226.08 1453.43 2250.12 1453.43 2265.05 1453.43 2277.64 1452.54 2287.87 1450.75 2298.1 1448.97 2308.41 1446.29 2318.8 1442.72L2351.93 1280.17 2244.27 1280.17 2263.76 1181.37 2490.27 1181.37 2421.59 1520.59C2390.09 1533.89 2358.83 1543.87 2327.81 1550.52 2296.8 1557.17 2262.62 1560.5 2225.27 1560.5 2188.25 1560.5 2155.21 1555.31 2126.14 1544.93 2097.08 1534.54 2072.39 1519.38 2052.1 1499.42 2031.8 1479.47 2016.29 1454.97 2005.58 1425.93 1994.86 1396.89 1989.5 1363.55 1989.5 1325.92 1989.5 1300.93 1991.85 1273.11 1996.56 1242.45 2001.27 1211.79 2009.31 1180.72 2020.68 1149.25 2032.04 1117.78 2047.14 1087.28 2065.98 1057.75 2084.82 1028.23 2108.28 1001.95 2136.37 978.909 2164.46 955.873 2197.75 937.38 2236.23 923.428 2274.72 909.476 2319.29 902.5 2369.95 902.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#D55816" fill-rule="evenodd" fill-opacity="1"/><path d="M2837.7 900.5 2964.33 900.5 2853.41 1455.63 3132.5 1455.63 3111.73 1562.5 2705.5 1562.5 2837.7 900.5Z" stroke="#E4C0B8" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2807.7 900.5 2934.33 900.5 2823.41 1455.63 3102.5 1455.63 3081.73 1562.5 2675.5 1562.5 2807.7 900.5Z" stroke="#D29886" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2778.7 900.5 2905.33 900.5 2794.41 1455.63 3073.5 1455.63 3052.73 1562.5 2646.5 1562.5 2778.7 900.5Z" stroke="#BC644B" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FFFFFF" fill-rule="evenodd" fill-opacity="1"/><path d="M2748.7 900.5 2875.33 900.5 2764.41 1455.63 3043.5 1455.63 3022.73 1562.5 2616.5 1562.5 2748.7 900.5Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/></g></g></svg>
diff --git a/assets/logo_square.svg b/assets/logo_square.svg
index b9e1c36acb8f..a82fa0aeb163 100644
--- a/assets/logo_square.svg
+++ b/assets/logo_square.svg
@@ -1 +1 @@
-<svg width="596" height="683" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:space="preserve" overflow="hidden"><defs><filter id="fx0" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="6.111111 6.111111"/></filter><clipPath id="clip1"><rect x="1.41663" y="1.66669" width="592.667" height="675.667"/></clipPath><clipPath id="clip2"><rect x="-2078.55" y="-2770.64" width="374073" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img3"></image><clipPath id="clip4"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip5"><rect x="-0.363636" y="-2770.64" width="371302" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img6"></image><clipPath id="clip7"><rect x="0" y="0" width="371301" height="371301"/></clipPath></defs><g transform="translate(-756 -884)"><g><g clip-path="url(#clip1)" filter="url(#fx0)" transform="translate(757 888)"><g><g><path d="M482.943 195.5C482.943 283.043 379.597 370.586 276.25 370.586" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M195.25 316.5C262.575 316.5 329.901 417.048 329.901 517.595" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M30.2499 316C30.2499 270.437 67.1864 233.5 112.75 233.5 158.313 233.5 195.25 270.437 195.25 316 195.25 361.564 158.313 398.5 112.75 398.5 67.1864 398.5 30.2499 361.564 30.2499 316Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M400.25 113C400.25 67.4365 437.187 30.5 482.75 30.5 528.314 30.5 565.25 67.4365 565.25 113 565.25 158.563 528.314 195.5 482.75 195.5 437.187 195.5 400.25 158.563 400.25 113Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M237.25 539.334C237.25 527.275 247.025 517.5 259.084 517.5L400.417 517.5C412.475 517.5 422.25 527.275 422.25 539.334L422.25 626.666C422.25 638.725 412.475 648.5 400.417 648.5L259.084 648.5C247.025 648.5 237.25 638.725 237.25 626.666Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip2)" transform="matrix(0.000360892 0 0 0.000360892 261.75 517)"><g clip-path="url(#clip4)" transform="matrix(1 0 0 1 0.0663341 0.216198)"><use width="100%" height="100%" xlink:href="#img3" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></g><path d="M1226.19 1083.5C1226.19 1171.04 1122.85 1258.59 1019.5 1258.59" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M938.5 1204.5C1005.83 1204.5 1073.15 1305.05 1073.15 1405.6" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M773.5 1204C773.5 1158.44 810.436 1121.5 856 1121.5 901.563 1121.5 938.5 1158.44 938.5 1204 938.5 1249.56 901.563 1286.5 856 1286.5 810.436 1286.5 773.5 1249.56 773.5 1204Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M1143.5 1001C1143.5 955.437 1180.44 918.5 1226 918.5 1271.56 918.5 1308.5 955.437 1308.5 1001 1308.5 1046.56 1271.56 1083.5 1226 1083.5 1180.44 1083.5 1143.5 1046.56 1143.5 1001Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M980.5 1427.33C980.5 1415.28 990.275 1405.5 1002.33 1405.5L1143.67 1405.5C1155.72 1405.5 1165.5 1415.28 1165.5 1427.33L1165.5 1514.67C1165.5 1526.72 1155.72 1536.5 1143.67 1536.5L1002.33 1536.5C990.275 1536.5 980.5 1526.72 980.5 1514.67Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip5)" transform="matrix(0.000360892 0 0 0.000360892 1005 1405)"><g clip-path="url(#clip7)" transform="matrix(1 0 0 1 0.0684703 0.216198)"><use width="100%" height="100%" xlink:href="#img6" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></svg>
\ No newline at end of file
+<svg width="596" height="683" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:space="preserve" overflow="hidden"><defs><filter id="fx0" x="-10%" y="-10%" width="120%" height="120%" filterUnits="userSpaceOnUse" primitiveUnits="userSpaceOnUse"><feComponentTransfer color-interpolation-filters="sRGB"><feFuncR type="discrete" tableValues="0.835294 0.835294"/><feFuncG type="discrete" tableValues="0.345098 0.345098"/><feFuncB type="discrete" tableValues="0.086275 0.086275"/><feFuncA type="linear" slope="0.400000" intercept="0.000000"/></feComponentTransfer><feGaussianBlur stdDeviation="6.111111 6.111111"/></filter><clipPath id="clip1"><rect x="1.41663" y="1.66669" width="592.667" height="675.667"/></clipPath><clipPath id="clip2"><rect x="-2078.55" y="-2770.64" width="374073" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img3"></image><clipPath id="clip4"><rect x="0" y="0" width="371301" height="371301"/></clipPath><clipPath id="clip5"><rect x="-0.363636" y="-2770.64" width="371302" height="374073"/></clipPath><image width="512" height="512" xlink:href="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAYAAAD0eNT6AAAAAXNSR0IArs4c6QAAAIRlWElmTU0AKgAAAAgABQESAAMAAAABAAEAAAEaAAUAAAABAAAASgEbAAUAAAABAAAAUgEoAAMAAAABAAIAAIdpAAQAAAABAAAAWgAAAAAAAACQAAAAAQAAAJAAAAABAAOgAQADAAAAAQABAACgAgAEAAAAAQAAAgCgAwAEAAAAAQAAAgAAAAAAGcBUEAAAAAlwSFlzAAAWJQAAFiUBSVIk8AAAQABJREFUeAHt3QmcXFWd6PF/VXVWwq6OozAgIjoiDKQTEBjHwCij7Nla2Yc1Ks6Mz+d7b5aPb9pZ3rzZfM8NCKC4IWMnnYAs6jAIjEImJJ1gEFRkGQVxYSdk63TVnf+pTnf6dN3uruUu55z7u34wfW/de5bvuVX/f926iwgTAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIAAAggggAACCCCAAAIIIIBAwgKlhMujOAQQQCA1gUikdNsRss+OmbJvKZLZUUm2Vrtkx8Nr5Be9IrXUKqZgBAIUIAEIcFDpEgKhCNx8tLyuWpF3RZGcKCU5Uvv1Fv1vdkz/duiyJ/S/72uS8L1yTe5ctEF+GLMeixBAYJcACQC7AgIIOCVw+6EyY9u+crZEcoE27J36X7nNBm7S7W6oTpPretbI822WwWYIBCtAAhDs0NIxBPwSuH6BzNx7i3xYv+1/VFv+mwm2/hU9KnBtrSp/17NRnkmwXIpCwGsBEgCvh4/GIxCGQH+3nKqH+D+tvTkktR6V5AU9b+Djm9bLVb2cL5AaMwX7I0AC4M9Y0VIEghMw3/r33CJ/r4H5j7PqnH7o3V2pyrlnbpSns6qTehBwUYAEwMVRoU0IFECg/1g5QKpym3bVnNyX9fQrPbHgjIXr5f6sK6Y+BFwRaPfkGlfaTzsQQMBDgZXdejZ/Ve7VpucR/I3Yb+g1g3eu6JaTPeSjyQgkIsARgEQYKQQBBJoVuGm+HFiN6sH/wGa3SXG97bWanLx0g3w3xTooGgEnBUgAnBwWGoVAmAJ9x8l+lZ2yRnt3mDM9NCcHVuUE7hvgzIjQkIwE+AkgI2iqQaDoAnopXqkyKNepgzvB3wxKJPtGZVlxS3fsDYaKPmz0P2ABEoCAB5euIeCSgF7q9wG91G+hS20a05bDB8vyT2Pm+ROB4AX4CSD4IaaDCOQvsOpIeU00XX6sLdkn/9ZM2IKa3oTo+CUDsnbCNXgBgYAEugLqC12ZRMAcfr15vhygd0N7kx7ufL1+E5ulH3Z7l0rykmaBW/T1J6sij/Ssk19OUgwvIdCWQDRD/lYPtbsc/E2/yvp++JT++/a2OunBRnctkK5nXpaD9YP/t/RzYI7ef2GGfhYMVkvyin4ePCXb5Imeh2TQg67QxAQEOAKQAKKrRdQfpFKWJfrEtN/XNv6u/rdfE239pX4gmDOi/02fsraSe6g3IcYqkwrsut7/MV1p+qQrOvJiVJP3LNkg33akOR01o+9wmV6eLX+ghbxLE7Df0w/8w/XvaZMUOqSv/Vg/A/5d1/+OPkfhNv0M2DbJ+rzksQAJgMeDF9d0802/f568Vwf2I/r6SfpfJW69JpeZbwK362VSn+QyqSbFWK1BYOU8+aTuj/+t4QV3F9y1eH39veNuC6do2apj5DD9Rv8RDeLv01WbSfwnKnGzltFfLsunFq6TByZaieV+CpAA+Dlusa02NzXRQ5j/pIN6ROwKnS28Tz9QPsrvo50hFm1r/QY6pzJLDy2L7O1R3yP9Bnzo4nXyuEdtrje1b64cWinL/9UZc7Jl0id5f0uPjvwvPTqyyTcX2hsvQAIQ7+LV0puPld8YGpKr9EMr7TOs9eZpcv22inz0vLXysldINDYXgf75crl+g1yeS+WdVKoPDVo8IH/TSRFZbmsO9XfNkv+tRwA/pvXOSLFu8xPB1VsG5U8v2CRbUqyHojMQSDpDzKDJVDFWQD9g3zVU1UNz6Qd/U63ZXy6ZVZWB1XOle2w7+BuBWIFIlsUud31hSd7rehNH2rf67XJwZbbco8H/L3RZmsHfVGlOHP/wnOn6GTBfjjILmPwV4AiAv2MnGvz/UL9dXatdMG/KrKcdegbx+YsGZEXWFVOfHwL9c/Vs+nL9rn9+NNhu5ZAe6drf9SNd+hnwe/oZcLM2PY8rLLZpADl70fp6/bYec14IcATAi2FqbKSeWPUX+sa/Xl/JI/ibBs3Qqwtu1HZc3Ng6liCgAmX5oMcOXTN2yu+43H492fcM/QwwVyvkEfwNzSw96tCv7bjEZSfaNrEACcDENs6+om+4Xs28Xfh9sqLtuFbbs8RZLBqWi8CtR8i+WrHX+0Wlok8sdHRaMU8WaNO+rv/NzLmJ5iqja1fNkytybgfVtyFAAtAGWp6bmOCv9f9lnm0YV7fZh76ij3c9dtxyZgsssGN6/cjQbJ8J9NvtG11svwbbt2nUNYf98w7+Izz6a6B8ZpW51TOTVwIkAB4Nl4PBf0Rvpl5+uMI86W1kAf8WV0CDQUn/d7n3AvqQINf6cP0Cmam+N+h/eznWtpL+JHglRwIcG5UpmkMCMAWQKy87HPxHiA7UJ719emSGf4srsHqe3nXOtSf+tTcczt27YK8t8kntypHtdSf1rTgSkDpxshWQACTrmUppHgT/4X6X5Nxdv02m4kChfgjot9MP+dHSKVvp1D3x9WmKc/WkP9cvq+RIwJS7lTsrkAC4MxaxLfEm+O9qve5Qn6wfAo7tDQtDF9CfgV6vfTwtkH66dQ/8knxGXX34zOZIgCdvAB92Jk8ok2+mb8F/l8DRN82T9ySvQYk+CHQN1n/7z+vS1ESJNIr9MtECOyhMv/2fqJsf30ERWW/KkYCsxduojwSgDbQsNvE0+Ndp9AjAf8/CiDrcEjCPmtWxD+aacL3vtTvPAih5+Z7iSIBbb9GG1pAANJDkv8Dn4G/0NAic1H+0HJS/JC3IUuCFLXpjmlL9J4Asq02tLo1eP06t8BYK7psvr9XVfT2qxpGAFsY661VJALIWn6I+34P/ru6V9JdKr28CM8Uw8XKcQBTMyX+md9uqO2RDXDezXqYf0uaRvuaGO75OHAlwdORIABwamECCf11U7wtwskO0NCVlgfrz5/XIT8rVZFd8Sdb0PCROXAWg0dPXb/9jx4sjAWM1HPmbBMCRgQgp+BtS/Rng+OXdMs0RXpqRskCtVr8LnN4ZOpip34We9C0Vc7ttn07+m4xt+EgAtw2ezCjT10gAMuWOryy04L+rl3P2L8th8T1maUgCeunfLA1SFwbUp6GusjiRAMjP5M2aTLt2179OhpqfAzrRS3hbEoCEQVstLtDgX2coR3Joqx6s759AZaj+G3Uwt4HWgHvbmWvlVy6MRHkoyCSanwNc2Lm0DSQAOQ5EyMHfsNZKcnCOvFSdlUDk9WN/G5VqclXjwnyW6Lk0B+dTc+q1ciQgdeKpKyABmNoolTVCD/4GrVQL6tBlKvuB74Wuni9HaR+O8b0fY9r/+A82yB1j5vP+07nnESQIwpGABDHbKYoEoB21DrcpQvCvE5Vljw6p2NxxAb1ZTlDPgdfD/1f36sErh9i9fqRyE44cCWgCKa1VSADSkp2g3MIEf9P/SLZPwMDiAAT6umVvHeOzA+jKSBd2lAflSyMzLvyrJ1fudKEdKbeBIwEpA09UPAnARDIpLC9U8Fc//f3ylRQYKdIRAb3hvznzP5ijPBpsVyzaJL92hLfejKgkW1xqT4pt4RLBFHEnKpoEYCKZhJcXLfgbvqgmTyfMSHEOCWhwutyh5nTclGrJnZP/RjqjSYkzDyQaaVOK//JzQIq4cUWTAMSpJLysiMG/TliWnyRMSXGOCKyYJwu0KYc70pwkmrFp6Tq5L4mCkiyjWpVHkyzPg7L4OSDDQSIBSBm7sMFfpNo1XX6UMi/F5yRQCe3SP5Erc6KctNpKlzysK+i5iYWaOBKQ0XCTAKQIXeDgb1Q3nnmvbE6Rl6JzEjBPp9PD/2flVH0a1W7eVpEb0yi40zIX3S/PaTT8YafleLg9RwIyGDQSgJSQCx78jep3UqKl2JwF9A6Pl2gTpufcjOSqj+Qr562Vl5MrMNmS9Ov/3cmW6E1pHAlIeahIAFIAJvjrLSZr0pcCLUXmLNCrQ6ufypfm3IxEq9fn7F6daIHJF7Yy+SK9KZEjASkOFQlAwrgE/zroIws3yEDCtBTngMDb5supEtbtab931oA86ADthE14cEDu0RefmnCF8F+oHwnQz9Zl4Xc12x6SACToTfDfhVmSTyXISlEuCYR28l/k3qV/44e7d/jOhM48n2B8+zKa1ysi5apVPEo4UW4SgIQ4Cf6jkM9Mr8kXR+f4IxiB/qPlIP0UPjmYDok8+/KessqH/uhTAc1VCkU/qZYjAQnvrCQACYAS/HcjRpH85ekDsnX3Ev4KRqCr/tQ//ck8kKkkn7/obj9uV73wAXlRLwb8h0DkO+kGRwI60Ru3LQnAOJBWZwn+u8X0bOUHaofINbuX8FcoAn2H18/6vyiU/mg/Ir3JznU+9WfWS/KPmgRwcy29y7h+1nyGnwM633tJADowJPhbeNsrJbmoZ4VUraXMBCFQmSlLNPi8JojOaCc0gHyrZ4Nfd9k75VHZURu+BJP3GElAIm9FEoA2GQn+Npwe+v/ownXygL2UuWAESvXD/8F0R69k8PKkuqUb5Ls6CH8dzkB01BPOCeiIT6/p7XD7Qm5O8B837PphumTAzw/UcT1hNkag71h5qy4+IeYlXxc9WTtYbve18Q+ul7/WyMd9NoYHkHMCOtiRSQBaxCP4jwMryYoH18mHxy1lNiCBSq0+vuaDNohJD/8v9/mnql69LHDmS3KBHsXgbpvDeyRHAtp8Z5IAtABH8Lex9IN01bM1Obd3+Dpl+0XmghDQk//m6KfruUF0ZrgTO6dV5Xrf+2POB9DLbU/Xftzle18Saj9HAtqAJAFoEo3gb0OZ4P9cJO9fNiA77VeYC0mga6acp2O9Vyh90mRm9Zkb5ekQ+mMut50eyWkcCRgdzfqRAK4OGPWY8g8SgCmJRAj+NhLB3/YIeU6f+nd5SP2renry30RjUE8CzJEAfg4YISIJGJFo4t9gftdroq9trULwt9kI/rZHyHMr5svx+uS/ewPq4w8XrZfD9UNPd+Owplu6ZfZgWW7Rnp0UVs/a7o3mrvJHOt6fa7uEAmzIEYBJBpngb+MQ/G2P0OcqAd73P8Tgb/ZDjgQ0vBs5EtBA0riABKDRpL6E4G/DEPxtj9DnVh0j++uYLwmon1tnDMpXA+pPQ1dIAhpISAIaSOwFJAC2R32O4G+jEPxtjyLM1WpysfZzZjB9LcnXTntQXgimPxN0hCSgAYYkoIFk9wISgN0W9b8I/jYIwd/2KMKcjnlJPzUvC6mv5apcHVJ/JusLSUCDDklAA8nwAhKAMTAE/zEY+ifB3/Yoylz/XH3kb0neFFB/71+4QQYC6s+UXSEJaCAiCWgg4VbAoyQE/1GK+h8Ef9ujUHNl7vsfwniTBDSMIknAOBKOACgIwd/eKwj+tkeR5vqPlQP0TPlTA+rzi3rHvMLeN58koGFPJgkYQ1L4BIDgP2Zv0D8J/rZH4eZq9Rv/dIXSb92frzdBMJT+tNOPkSRAE7s729k+wG1IAnYNaqETAIK//dYm+NseRZu7a4F0yfDZ/6F0Parpg39C6Uwn/TBJwLRIziAJGFUkCVCKwiYABP/RN0L9D4K/7VHEuRc2y0I9+e/1ofRdg913etbLj0PpT6f9IAloECx8ElDIBIDgb78RCP62R1Hn9N6pHwyp7/rt/6qQ+pNEX0gCGhQLnQQULgEg+NtvAIK/7VHUuZXd8hbt+4KA+v8LfVrlNwLqT2JdIQlooCxsElCoBIDgb+/4BH/bo8hz+kHwAe2/HjUPY9JP9Gt5VPXEY0kS0GBTyCSgMAkAwd/e4Qn+tkeR5/qOk1l6+P/8gAyGoi65NqD+pNIVkoAG1sIlAYVIAAj+9o5O8Lc9ij5X3ilnq8F+wThEcsvitfJUMP1JsSMjSYBW8W8pVuNT0YVKAoJPAAj+9nuP4G97MFc/7h/UyX+lEif/tbJfmySgOk3O0G1IAobhCpMEBJ0AEPztjwGCv+3BnMjKeXK0OswLyOKxTeu54U2r49mzRraRBFhqhUgCgk0ACP7Wzswd/mwO5nYJ6AfAh4PCiOSqXtHbGTG1LEAS0EAWfBIQZAJA8Ld3ZL752x7MDQusPkr20X3jfQF57KjW5MsB9SfzrpAENJAHnQQElwAQ/O0dmOBvezC3W0AP+V6oc3vsXuL9X1/v2SjPeN+LnDtAEtAwAMEmAUElAAR/e8cl+NsezNkC+ql2mb3E87kaJ/8lNYIkAQ2SQSYBwSQABH97hyX42x7M2QL93XKiLjncXurxXCTfX7xB/sPjHjjXdJKAhiEJLgkIIgEg+Ns7KsHf9mAuRqAc1n3/9bFmV8b0kkUdCpAENAAGlQR4nwAQ/O0dlOBvezDXKNA3X16rl4Wc1fiKt0s2d02XG71tveMNN0nArBflNG3mbY43NavmBZMEeJ0AEPzt/Z3gb3swFy9QqdV/+58W/6p/S3W///KZ98pm/1ruT4tPeVR2aBKwWFtMEjA8bEEkAd4mAAR/+8OD4G97MBcv0LdUKvrIn0viX/VzaVcky/1suV+tJgloGC/vkwAvEwCCv70jEvxtD+YmFuh6on4o96CJ1/DrFb3t73fPGpAH/Wq1v60lCWgYO6+TAO8SAIK/vQMS/G0P5iYX0Kf+BXXf/5re+W/yHvNq0gIkAQ2i3iYBXiUABH97xyP42x7MTS7QP18O0ZP/3j35Wl69+szsF2WVVy0OpLEkAQ0D6WUS4E0CQPC3dziCv+3B3NQC+gn1AV3Lm/f8lD2K5DoTiKZcjxVSESAJaGD1Lgnw4sOA4G/vaAR/24O5qQVuP1Rm6OH/C6de05s1atWKXOtNawNt6EgSoPvWrYF2sdVueZUEOJ8AEPzt/Y/gb3sw15zA1n1lqR7+f01za3ux1jd77pcnvGhp4I00ScDsF2QJScDoQHuTBDidABD8R3eo+h8Ef9uDueYF9BMpqJP/NJnh5L/mhz/1NUkCGoi9SAKcTQAI/vYORfC3PZhrXmDlXDlS1z6++S2cX/Nn1UPkW863smANJAloGHDnkwAnEwCCv70jEfxtD+ZaFAjtvv8lubpnhVRbVGD1DARMElDbKov5OWAU2+kkwLkEgOA/uuPU/yD42x7MtSbQd7jM0Tf5Oa1t5fTag11l+YLTLSx443oekkGSAGsncDYJcCoBIPhbO43+zCmrnovk/csGZKf9CnMINCdQninn6360V3Nre7HWqjPXyq+8aGmBG0kS0DD4TiYBziQABH97hyH42x7MtSegt8o11/6HM5U4+c+XwSQJaBgp55KAUkMTc1hA8LfRCf62B3PtCazqlt/V32K/297WTm71w0Xr5XD90NK3CJMvAvoz1PTybOnX6GceKcyk+6/uw3+k+/Ln8sbI/QgAwd/eBQj+tgdz7QtEgZ38p++NKwn+7e8PeW3JkYAGeWeOBOSaABD87R2D4G97MNe+wC3d8ir9nryo/RKc23LrzB1yg3OtokFNCYwkAbryLU1tEP5KTiQBuSUABH97Dyf42x7MdSagZ41eoiXM7KwUd7aOIrnhtAflBXdaREtaFTBJQHWbLNHtSAKG8XJPAnJJAAj+9luH4G97MNeZgO5PJf2R8dLOSnFr60oky91qEa1pR4AkoEEt1yQg8wSA4G/vAAR/24O5zgVumifv0VIO7bwkZ0pYu3CDDDjTGhrSkQBJQANfbklApgkAwd8eeIK/7cFcMgI1Ceu+/3r4n/v+J7NrOFMKSUDDUOSSBGSWABD87QEn+NsezCUjcNN8OVBLOiWZ0hwopSQvzBBZ4UBLaELCAiQBDaCZJwGZJAAEf3ugCf62B3PJCdQiWaalVZIrMfeSvnD6gGzNvRU0IBUBkoAG1kyTgNQTAIK/PcAEf9uDueQElnfLNN2/LkquxNxLivROhtfk3goakKrAmCTgG6lW5E/hmSUBqSYABH97jyP42x7MJSuwf1kWaomvS7bUXEv7t0X3yyO5toDKMxHYlQQs1cpIAobFM0kCUksACP72+4bgb3swl7xAOQrr5D8pc/Jf8nuJuyWSBDSMTepJQCoJAMHfHkiCv+3BXPICK7vlLbqfvTP5knMr8RfPVuXW3Gqn4lwESAIa2FNNAhJPAAj+9gAS/G0P5lISGL7vv94qP5hpOY/BDmYsW+oISUADV2pJQKIJAMHfHjiCv+3BXDoCet//2Rr5z0+n9FxKHapOk+tyqZlKnRAgCWgYhlSSgMQSAIK/PWAEf9uDufQEBkXO0Qf/7JteDdmWrO+db/SskZ9nWyu1uSZAEtAwIoknAYkkAAR/e6AI/rYHcykLlOUDKdeQafF66R93/stU3N3KSAIaxibRJKDjBIDgbw8Qwd/2YC5dgdXz5Bj99t+dbi2Zlv7Yg+vkO5nWSGVOC5AENAxPYklARwkAwd8eGIK/7cFc+gJ6578Ppl9LdjXoff+v7BXRxxkwIbBbgCRgt8WuvxJJAtpOAAj+9oAQ/G0P5tIXWH2U7CMl6Um/psxq2FauyJcyq42KvBIYSQL0s/ZmrxqeXmM7TgLaSgAI/vaIEvxtD+ayEYi66rf9nZ1NbenXor/99+md/55LvyZq8FXAJAG1bdJDEjA6gh0lAS0nAAT/Ufj6HwR/24O5bAR0vzPX/JsH/wQz1Wqc/BfMYKbYEZKABty2k4CWEgCCvw1P8Lc9mMtOYOV8OUn3vzdnV2O6NWlfHlgyIGvTrYXSQxEgCWgYybaSgKYTAIK/DU7wtz2Yy1YgtPv+66fX57IVpDbfBUgCGkaw5SSgqQSA4G9DE/xtD+ayFejvlt/UGs/IttZUa3tpy065MdUaKDxIAZKAhmFtKQmYMgEg+NvABH/bg7nsBaKyXKa1Tsu+5tRq/PIFm2RLaqVTcNACI0mAdvKmoDvafOeaTgImTQA0+P+l1mn+Y1IBgj+7Qd4CfUulou/ui/NuR5L169mM1yRZHmUVT8AkAdVt8j7tOUnA8PA3lQRMmACsmidXaDm9w2Xx/wR/9gEXBMqPy+najoNcaEtCbbhn0Xr5QUJlUUyBBUgCGga/ngToo8IvbHhl14LYBEB/YzxHA95nJtqoaMsJ/kUbcXf7Wy6Fdec/vZiR+/67u7t517IxScA3vGt8Og0u6f01rtEv9O+OK95cS2xNfcfKWytVWacLg7nBiNXBFmcI/i2CsXpqAqu75Y21kjyiFcQm7qlVnF7Bz8x6UQ485VHZkV4VlFxEgb7DZXpllnxd+35WEfvf0OeSvCBDcvTijfLTsa9ZHyS3HyozNPgbNIK/IhD8x+4q/J23QK1c//ZvvWfzblOH9V9L8O9QkM1jBUaOBOhnOLcNNkL6uPBSl3zFnEM0Fsz6MNm6j3xMX3zb2BWK+jfBv6gj72a/TXKub+IL3GxdW62qlbvk2ra2ZCMEmhAwScBzkSzVVTkxUBH0QVvvqDwhl46lG00A+o+VA/T3gD8b+2JR/yb4F3Xk3e339n3qZzi/2t0WttayqCS3L/wP+c/WtmJtBFoTWDYgO83VARwJGHX7277jZL+RudEEoDRU//a/x8gLRf2X4F/UkXe73xowg3rsrx7N4OQ/t3e5YFrHkQBrKPev7JQ/HllSTwBuPUL21Q+YS0YWFvVfgn9RR97tfq86Rn5HA+bb3W5lS637We0N8u2WtmBlBDoQMEcCno3qj87m5wCRP9KTJOcYznoCsGOmnK1/1xd0YOz1pgR/r4cv6MZHNflQSB3U3yKv6lkh1ZD6RF/cFxhNAiJZ7X5rU23hfl2zZJGpYfgngEjOSbU6xwsn+Ds+QAVu3s0nyJ7afZOghzINTuuS60PpDP3wS6CeBIieT1PwJEBjXv0zpXxLt7xKh/B4v4YxudYS/JOzpKTkBao76mf+myQgjKkkK89cK78KozP0wkeB0SSg2FcH/L75GaA8WJF36CA23BDIx4Fttc0E/1bFWD9rgZrIsqzrTLO+Uo2T/9L0pezmBPg5QKbpzwDHlfVQyLHNkYW1FsE/rPEMsTcr5so7NDM/IpS+6Y3JH144IPeG0h/64bfA6JGAgv4coDHwBJMAvNnvYWy99QT/1s3YInuByvCd/7KvOKUa9THGn9OERt9+TAi4IVDwJODNZX03vtGNocimFQT/bJyppTMBc26O7qv1M3U7K8mZrV/ZVpavOtMaGoLALoHCJgEleZM+XEz2LcqeQPAvykj738/BslymvZjhf09Ge3DDeWvl5dE5/kDAIQGTBFQPqd82+F8cala6TYlkv7Ke/leIu/8R/NPdlyg9OYFec3luVE8Akis075IiuSbvJlA/ApMJmHtTVN8g5+k6RUkC9jQfNBobw5/0SMeMA18K5jGq4Q9YgXt4RLe8V7v/hoAI1iwekA0B9YeuBCrwwuNifhafHmj3xnerZG4EtGX80kDnT922j/TXn6oWaAfpViACod33X7j0L5A9M+huLO+WaXpTnK/rl8WQzr2ZbMxeMQnAs5OtEdhrp+ojj79mBjqwftGdQAT6uuW3tCvvCaQ7phvPvTxHVgTUH7oSoICJCfuX9NB/SRYG2L2JuvS8SQAem+jVEJeb7O5VJVnNkYAQR9f/PlVEPqC90H/CmPS+/9dfdLdsD6M39CJEgQJ+8x8ZxsfMSYA/Gpkr0L8cCSjQYPvSVb0153R9P17sS3ubaGdUrsi1TazHKgjkIlDQb/4j1o+UNUNfMzJXpH85ElCk0fajr7ue0PUbfrR26lbqe+yORffLI1OvyRoIZC9Q4G/+w9iR3FfeXpHv6dxQ9vxO1MiRACeGgUYYAT37+IMhSdT0sb8h9Ye+hCNQ8G/+ZiCr+jzu75V33ZzjrnCGtrWecCSgNS/WTkdg1Vz5bS3ZPJgrlOnp50RuC6Uz9CMcgcJ/8zdDWZJ7egbkJXMSoJRKcqP5t8ATlwgWePBd6LreJ/9D2g7NR8OYopIsN3dXC6M39CIUgZHgr++0Ip3t3zB8+kFTv9lRPQGYVpOv6xpFuhywAUQXkATEqbAsdQG97/9s/UA6N/WKsqtgqNYln8+uOmpCYGoBDvsPG2nwf7m0c/jS3HoCcPqAbNUPIH6vIwmY+l3EGokL7Cxr8I+CeibHTT1r5OeJQ1EgAm0KjHzzNz/5tllEMJvpuUZXL3xAXjQdqicA5g/9GeBT+s/z5u+CT5wYWPAdIOvu6xtyWdZ1pllfqcaXiTR9Kbs1Ab75W16bqyX5fyNLRhMAvVznOT0K8PGRF4r8r8kSuVlQkfeA7Pq+sluO1W//3dnVmHpNjy7cIIU9qTh1XSpoSYBv/jaXftH/q5518suRpaMJgFlQPViW6z/mskAm/TmA2wazG6QtUC6Hdemfen1OE2g9qMGEQL4CfPO3/fVN+cDQVvn02KVWAmAeh6g3IT1bV9AreJg4EsA+kKbArUfIvnojrqVp1pFx2duq0+TLGddJdQg0CPDNv4Fki6blZ/c8JINjX7ESAPPC4rXylAY+kwRYK47dqGB/cySgYAOeVXd3TK/f9nd2VvVlUM+/6Ml/nEeUATRVTCzAN/8Gm1opkouWDDTe9r8hATCbLlovd2gScKH+WWsoqoALOBJQwEFPuct6OK6k/7s85WqyLZ4ribL1prYGAb75N5Dox4x8bNFA/BM5YxMAU4QmAeZGAeYDiiTAgHCJ4LAC/5+IwOp58i4t6LBECnOgEPP74uJ1ss6BptCEggrwzT924Hs1lo+e9T9+jQkTALPi4vX1m3mQBOxW42ZBuy34qwMB/e0/qPv+67eMz3bAwaYIdCTAN/9Yvl6N4Z+IfWXXwkkTALMOSUADH0lAAwkLWhHo75bf1ONyp7WyjePrvrRlcPjWoo63k+YFKDAS/PU9Vejb+44b2imDv1l/ygTArEQSYBSsiSTA4mCmJYFS/cY/01raxuGV9b7/X7pgk2xxuIk0LVABgn/swDYV/M2WTSUAZkWSAKNgTSQBFgczzQjctUC69HKcS5tZ16N1rvGorTQ1EAGCf+xANh38zdZNJwBmZZIAo2BNJAEWBzNTCbywRc7QQ5Wvn2o9X17X3/7vXrJOHvKlvbQzDAGCf+w4thT8TQktJQBmA5IAo2BNJAEWBzOTCYR28l+NS/8mG25eS0GA4B+L2nLwN6W0nACYjUgCjII1kQRYHMzECazuljfq8pPiXvN02S+fq8lqT9tOsz0UIPjHDlpbwd+U1FYCYDYkCTAK1kQSYHEwM15AT5b7kC5r+z03vrzc50ty3bIB2Zl7O2hAIQQI/rHD3HbwN6V19GFEEtAwICQBDSQsMAJ9x8ksvVmOubtmKFNVhuS6UDpDP9wWIPjHjk9Hwd+U2FECYAogCTAK1kQSYHEwYwQqQ/I+/Wf/gDRuW7xRfhpQf+iKowIE/9iB6Tj4m1I7TgBMISQBRsGaSAIsDmb00r+w7vzHyX/s1BkIEPxjkRMJ/qbkRBIAUxBJgFGwJpIAi6O4M6vny1Ha+2MCEnh80zr514D6Q1ccFCD4xw5KYsHflJ5YAmAKIwkwCtZEEmBxFHNGn6Z1RWA9X97LQ8ICG1K3ukPwjx2PRIO/qSHRBMAUSBJgFKyJJMDiKNZMX7fsrYf/zw6o14OlQfliQP2hK44JEPxjByTx4G9qSTwBMIWSBBgFayIJsDiKM1MRuUB7u0cwPY5kxaJN8utg+kNHnBIg+McORyrB39SUSgJgCiYJMArWRBJgcRRkpiTmcdrhTJz8F85YOtYTgn/sgKQW/E1tqSUApnCSAKNgTSQBFkfYM6vmyzu1h28LpZelSB7W9/S9ofSHfrgjQPCPHYtUg7+pMdUEwFRAEmAUrIkkwOIIdya4+/6LfDbc0aJneQkQ/GPlUw/+ptbUEwBTCUmAUbAmkgCLI7yZvqPl1dqrswLq2Svbu+SGgPpDVxwQIPjHDkImwd/UnEkCYCoiCTAK1kQSYHGENVOpyGXaoxmh9EpvY/zV89bKy6H0h37kL0Dwjx2DzIK/qT2zBMBURhJgFKyJJMDiCGOm17yvonoCEEaHhntxTUidoS/5ChD8Y/0zDf6mBZkmAKZCkgCjYE0kARaH/zNHzpVTpCQH+9+T0R7cu2S9bByd4w8EOhAg+MfiZR78TSsyTwBMpSQBRsGaSAIsDr9nojL3/fd7BGl9WgIE/1jZXIK/aUkuCYCpmCTAKFgTSYDF4eeM3vnvt7Tlf+Bn62Nb/exLe0h/7CssRKAFAYJ/LFZuwd+0JrcEwFROEmAUrIkkwOLwb6Zr+Nu/3gAwmOkLF90t24PpDR3JRYDgH8uea/A3Lco1ATANIAkwCtZEEmBx+DPTd7hM17PlL/anxVO2NIoqct2Ua7ECApMIEPxjcXIP/qZVuScAphEkAUbBmkgCLA4/ZiozZYme/f8aP1rbVCu/vWSt/KSpNVkJgRgBgn8MiogTwd+0zIkEwDSEJMAoWBNJgMXhwUwprJP/VPwqD9RpoqMCBP/YgXEm+JvWOZMAmMaQBBgFayIJsDjcnek7Vt6qrTvB3Ra23LInq2+Q21reig0QUAGCf+xu4FTwNy10KgEwDSIJMArWRBJgcbg5UxmSK7RlJTdb10arIrmmZ4VU29iSTQouQPCP3QGcC/6mlc4lAKZRJAFGwZpIAiwOt2b05L85pZKc51arOmrNUFdNvtBRCWxcSAGCf+ywOxn8TUudTABMw0gCjII1kQRYHO7MVGbJuXr2/17utKjDlpRk9Zkb5ekOS2HzggkQ/GMH3Nngb1rrbAJgGkcSYBSsiSTA4nBm5nJnWpJEQ2qc/JcEY5HKIPjHjrbTwd+02IvfLPvnySXaVvMwEqcTFgOa0XTbrBdl8SmPyo6M6qOaCQRWHSPHRTW5b4KXfVz8o0Xr5a36waAHNZgQmFqA4B9r5HzwN632IqByJKBhB+NIQANJPgs0+H8wn5rTqTUqydUE/3RsQyyV4B87ql4Ef9NyLxIA01CSAKNgTSQBFkf2M/rtf3+tdWn2NadW47Zal3wltdIpOCgBgn/scHoT/E3rvUkATGNJAoyCNZEEWBwZz0RykdY4M+Na06zuaz1r5Pk0K6DsMAQI/rHj6FXwNz3wKgEwDSYJMArWRBJgcWQzoz+Ql6JILsumtmxq0ccYX51NTdTiswDBP3b0vAv+phfeJQCm0SQBRsGaSAIsjvRn+ufKyVrLYenXlFkN65bcL+szq42KvBQg+McOm5fB3/TEywTANJwkwChYE0mAxZHyzPBjf1OuJLvi9UZG3Pc/O24vayL4xw6bt8Hf9MbbBMA0niTAKFgTSYDFkc5M/7FygJ4pf2o6pedS6ovTavL1XGqmUi8ECP6xw+R18Dc98joBMB0gCTAK1kQSYHGkMFMTc+OfrhRKzqvIL54+IFvzqpx63RYg+MeOj/fB3/TK+wTAdIIkwChYE0mAxZHczF0LNPDX5OLkSsy/pGpFrs2/FbTARQGCf+yoBBH8Tc+CSABMR0gCjII1kQRYHMnMPP+KnKX3z3x9MqU5UEpJvtOzVh52oCU0wTEBgn/sgAQT/E3vgkkATGdIAoyCNZEEWBwJzJTCuvOf3vCXk/8S2C1CK4LgHzuiQQV/08OgEgDTIZIAo2BNJAEWR/szfXPlUA2YJ7ZfgnNb/vLZSG52rlU0KFcBgn8sf3DB3/QyuATAdIokwChYE0mAxdHeTKUsV+iWegFAIFNJrl02IDsD6Q3dSECA4B+LGGTwNz0NMgEwHSMJMArWRBJgcbQ203eczNItLmhtK6fXrsqQfN7pFtK4TAUI/rHcwQZ/09tgEwDTOZIAo2BNJAEWR/MzXUPyfl17v+a3cHtNvZXxrYs3yk/dbiWty0qA4B8rHXTwNz0OOgEwHSQJMArWRBJgcTQ3o/f9D+qxv3opIyf/NTf0wa9F8I8d4uCDv+l18AmA6SRJgFGwJpIAi2PymdXz5ShdY/7ka3n16uM/2CB3eNViGpuKAME/lrUQwd/0vBAJgOloPQmIZJn+WTPzTEIS0OROUIvkw02u6sVqevj/6l7eB16MVZqNJPjH6hYm+JveFyYBMJ1dPCDX6WVcJAEGY3giCRiRmODf1UfJPvqS+f0/lGlHeVC+FEpn6Ed7AgT/WLdCBX8jUKgEwHSYJMAoWBNJgMVhz1SnyYW6ZA97qddzfYs2ya+97gGN70iA4B/LV7jgbxQKlwCYTpMEGAVrIgmwOHbPlCK5bPec/3+Vypz85/8ott8Dgn+sXSGDv5EoZAJgOk4SYBSsiSTA4hDp767f9e/wcYt9nt206H5Z43MHaHv7AgT/WLvCBn+jUdgEwHSeJMAoWBNJwFiOcmCX/olcObZ7/F0cAYJ/7FgXOvgbkUInAAaAJMAoWBNJgHL0zZfX6gmjZ1kyfs9s3laRG/3uAq1vR4DgH6tW+OBvVAqfABgEkgCjYE2FTwIqNblURaZZKj7PRPKV89bKyz53gba3LkDwjzUj+O9iIQHYBUES0PBGKWwS0LdUKvrIH5MABDNV9Nr/YDpDR5oSIPjHMhH8x7CQAIzBIAkYgzH8ZyGTgMoTcqp2/6AGDX8XfO+sAXnQ3+bT8lYFCP6xYgT/cSwkAONASALGgUgh7xgY1n3/Iy79a9irA15A8I8dXIJ/DAsJQAwKSUADSmGOBPTPl0O09yc3CPi74NmX95RV/jaflrciQPCP1SL4x7JwEuAELJwYGANTjCRg+FbR4STGJfn8RXfL9pjxZFFgAgT/2AEl+MeyDC8M54Nukk62+xJHAhrkgk4C+g6X6Xry3x829NrfBVG1qs+/YApegOAfO8QE/1iW3QtJAHZbxP5FEtDAEmwS0DVbluq1/69p6LGnC/Spf9/q2SCPetp8mt2kAME/ForgH8tiLyQBsD1i50gCGliCTAKiKLA7/5U4+a9hzw1sAcE/dkAJ/rEsjQtJABpNYpeQBDSwBJUErJwv5p7/JzT00t8FP6sdLLf723xaPpUAwT9WiOAfyxK/kAQg3iV2aT0JEPmQvqhHV5lUwCQBX+oN4WTSSD4c2Igu71kh1cD6RHd2CfTqe+7VIl/Vc1YWgjIq8InF6+UTo3P8MaUACcCURPYKuoMt1/B/uS6t2a8Udu59R8yXz/rcez35b46+Ec7xuQ/j2r6zqypfHLeM2YAEjpgnn4pK0hNQlzrtign+vZ0WUrTtSQDaGHF+DhiHpr+d66Nzvb11bnmmnK+HdPYa1yufZ1eduVGe9rkDtH1igVXz5TJ9NbQjVhN3eOpXzGH/3qlXY43xAiQA40WanCcJGAdVks+snCtHjlvqxWypVP9A9aKtzTRS+3NVM+uxjn8C5lwVPVn1//vX8tRazGH/DmhJADrAIwmw8GaWyvL5Xs/OB+ifVz/x72irJ37P/HDhOvl3v7tA6+ME9ChVqRTJlfra7LjXC7iMb/4dDjoJQIeAJAEW4Dw9H+ACa4nrM6Fd+qf3/S9xkqrre11b7dND/xfqhr/X1sbhbcQ3/wTGVD8rmJIQqP8GXtITBD37BpxE38eV8VR1m7yx5yEZHLfcudlbuuVVgyV5Uhs207nGtdegrTN2yAGnPSgvtLc5W7kqcNcC6Xp+s/xEz/o/2NU2ZtguLvVLCJsjAAlBciRgFPIAPanu7NE5h//Q4H+xNi+U4K8HiOVrBH+Hd7gOmvb8K/qeIvgbQYJ/B/vR+E1JAMaLdDBfTwK4T4D+UOn+Gcrm91S9nNPbKxfidtNyVa6OW86yIAQ+EEQvOusEwb8zv4atSQAaSDpbwH0C6n7zVh0jh3Umme7Wq+fLH2gK8KZ0a8m09PsXbpCBTGukskwE+o+Wg7Si4zKpzN1KCP4pjA0JQAqo5kiAnq17hRatXzSLOemlSotd7jn3/Xd5dGjbWIGoXH8vFfl8LU74G7tDJPg3CUCCmGOLWjSgh2MLfMdATYAWjPVw6e+b5suB2p5TXWpTh215cXpN+josg80dFdCf1BY42rQsmmW++fdmUVER6yABSHHUi3wkQA99HN+3VCop8rZdtN4g39zK2cm2tdMptb7+9AHZ2s62bOOFQEgPqWoFnG/+rWi1sS4JQBtorWxS4CMBc6Y9Wf+m3QpX6uuaJ6jpkZmLU68ouwoifSiFufyUKUCBvvnyWu3WfgF2baou8c1/KqEEXicBSABxqiKKeiRgaKd7JwLuX64/Pe11U42ZR6/f2bNefuxRe2lqCwJdNTm0hdVDWZVv/hmNJAlARtBFPBKgtwZ+TUa8TVdTDuzOf/r7MPf9b3r0PVzRwfdQyop8808ZeGzxJABjNVL+u36fgEiWaTXFeJRwTfZMmbSl4ld2y1v09/J3trSR2yv/4pma3OJ2E2ldRwKRzOloe7825lK/jMeLBCBj8EL9HFCW6RnzTl5dWT6oK4R0OdU1ywZk5+Sd5lWfBfSbQpfP7W+h7Rz2bwErqVVJAJKSbKGcwvwcEMnmFlhSXbXvOJmlkf/8VCvJtvAhvY7humyrpLYcBLblUGfWVXLYP2vxXfWRAOQEX4QjARpwX86Jt6Hayk45R8/+37fhBV8XRHLL4rXylK/Np93NCZRr7iTRzbW45bX45t8yWXIbkAAkZ9lyScEfCYjk8ZZR0tsgqHupc/JfejuKSyWXS/JTl9qTcFv45p8waKvFkQC0Kpbw+gEfCYi2dcmjCXO1VdzKuXKkbjivrY3d3OixTevlTjebRquSFBicXn8PhXjSMCf8JbmjtFkWCUCbcEluFuiRgB+ft9aNnwD0csRzkxyv3MuK5KreolxJkjt2vg3oWSPmHIDQ7vPAYf98d6vR2kkARiny/SPASwTvyVfUqt3pBxNZLZ16ZnupIl+cejXWCEVAL1116b3UKSuH/TsVTHB7EoAEMTstKqSfA/Rpe9/q1COJ7fuPlQO0nDcmUZYjZfQtul+ec6QtNCMDAT0P4I4MqsmiCr75Z6HcQh0kAC1gZbFqCD8HmLP/N+/pRgJQqsrvZjFuWdWhP2dcnVVd1OOGwEt7yO3akhfdaE3breCbf9t06W1IApCebdsl+34kQA9Z3njR3bK9bYAEN9S2vCXB4vItKpLv67f/Nfk2gtqzFjDvJT2itiLrehOsj2/+CWImWRQJQJKaCZbl8ZGAalSRf06QorOiSvKmzgpwaGvu++/QYGTelE9qjT5eDcA3/8x3leYrJAFo3irzNX08EqCH//uWrJWfZI41QYWlSF41wUu+Ld7cNUO+5lujaW8yAksG5Ed6NOumZErLrBS++WdG3V5FJADtuWW2lWdHArZFVfmzzHCaqEg/NIN4mIr248tn3hv8XeGaGNHirlKJ5H9q7534aa2JUeCbfxNIea9CApD3CDRRvy9HAvR3yr9avNGxO5eVJIh9XDvByX9NvFdCXmXhgDymR7T+wYM+8s3fg0EyTQziw9ET646a6cGRgHtqh8g/dtTJNDaO5JU0is24zH9ftF5+kHGdVOegwDMif6PNcvlEUL75O7jfTNQkEoCJZBxc7uyRgEh+3lWVc3pWSNVBtpccbFNrTYpkeWsbsHaoAubxz9XhO1u6eC8Ivvl7tuORAHg2YK4dCTDX/Oud6U49c6M87SjlY462q9lmPTPrJelvdmXWC1+g5355QkryXu2pS0e3+Obv4a5HAuDhoJkjAfpo22Xa9Ly/cb+oJ6edotemf99VRn1q3o9cbVsz7dL2f/6UR2VHM+uyTnEEFq+TdZp8L9Ieb8m515EmI3++eL18Iud2UH0bAiQAbaC5sEk9CRB5v7Ylr+DwlH4AvUPf+Pe64DFhGyJZN+Fr7r9QGyrJNe43kxbmIaDnhdyhdwZ4l9ad188BQ/oF4FJNRv4uj/5TZ+cCJACdG+ZWggbflXok4HhtQKaHuTXw36n1HuPDiWkL18tD6vOr3Aaps4q/WT/c21kZbB2wwOIN8h+VkhytXbwv424+qVcknLhkvXwh43qpLkEBEoAEMfMoSo8EbCgPyTwNyuaNqAl5qtNL+qb/E30W/cla7y9SrSmhwtXFmHw7oeIyLSYqcfJfpuCeVnbWOnny2UgWaPN79b+07xOgu6V8oTpNjtLzkb6n9TF5LKBjyRSKwIr5cnx5+DrhExLu0w6NotdPq0jvmWv9+za9ap68W9v/rwmbpF3cz6pvkEMcvbIi7b5TfpsCfXPl0EpF/o+mveYR2El/wbtHf3L4U3PUoc3msZljAiQAjg1IEs1ZNV/eGdXkT/TknFO0vBkdlPmUnoT21cqQfMbhs/yn7F6vfhAe0a0/k5Tk4ClXdmWFSD6mR1nceaaCKy60oymBVXPlt6OyfERX7tH/9mlqo/iVtulRv1v0a/+nnT/fJ779LJ1EgARgEhzfX7r1CNl3cKacpd8GTtJvwO/U/hw4RZ+26esbdae4S4PlHZvWyXd7/XwASUM39SjAFWrw2YYX3FzwbHWbvKHnIacu83JTilZNKnD9Apm511a9ZLCqJwuW5ERd+TD9rzLpRiKP6+v3aPJ/59ay3HLeWnl5ivV52VMBEgBPB66dZvd1y97lirypVJPXaTDcQzP7PTSzf0H/fb5akf98+H75aW8gAX+8T/2D8JX6Q4oOGP+ac/N8+3duSEJp0O2Hyozt++hngH4Z0Ft3z9GjBPvqv5vLNdmsnwVPV7fLIySeoYz21P0gAZjaiDUCEVjVLUv1Q67P8e78bMugvPWCTblf3+04E81DAIFOBZI+SaTT9rA9AqkJ6FnLK7Tw21OroPOCa/rA9wsJ/p1DUgICCEwtQAIwtRFrBCRQGpSLtDtO3rZYD8f989L1cndA3HQFAQQcFiABcHhwaFryAos2ya/1a3aed1CcqFP3znxRPj7RiyxHAAEEkhYgAUhalPKcF1i6Qb6r37bfpw2tOtHYSL4/Y4eczj3/nRgNGoFAYQRIAAoz1HR0rIDexvhmvczpQl22c+zyrP/WKzAeni7yrtMelBeyrpv6EECg2AIkAMUe/0L3ftE6uUGTgDP0aEAu1znrpZjfHJou7zh9QJ4t9EDQeQQQyEWABCAXdip1RUCTgG9FVTlS27M2wzaZR6j+/Q/Wy2k9a+T5DOulKgQQQGBUQL/8MCGAgLlByra95X9oYP5z1ZiVosgGPQnxI+Y8hBTroGgEEEBgSgESgCmJWKFIAqvfLgdHQ/JxPTx/vvZ7WmJ9j+TnpbJ8XG+v/KXeQO+2mJgVBSGAQCYCJACZMFOJbwL9R8tB0iWX6tPPztOjAge32f6q3nnwm/qExuv2nSO3nXi3DLVZDpshgAACiQuQACROSoEhCeiRgFL/MdKtz084SYP5O/Ss/bdq/w7S/+IeqLJFlz+s69xXK8t908pyj4+PTw5p/OgLAghMLEACMLENryAQK2DOF3jl1fKq8qDsqU9anF6bIc9t0f8uulu2x27AQgQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAA6eprwAAAPiSURBVAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQAABBBBAAAEEEEAAAQQQQACBIgj8F1Cx5oYEZQsEAAAAAElFTkSuQmCC" preserveAspectRatio="none" id="img6"></image><clipPath id="clip7"><rect x="0" y="0" width="371301" height="371301"/></clipPath></defs><g transform="translate(-756 -884)"><g><g clip-path="url(#clip1)" filter="url(#fx0)" transform="translate(757 888)"><g><g><path d="M482.943 195.5C482.943 283.043 379.597 370.586 276.25 370.586" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M195.25 316.5C262.575 316.5 329.901 417.048 329.901 517.595" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M30.2499 316C30.2499 270.437 67.1864 233.5 112.75 233.5 158.313 233.5 195.25 270.437 195.25 316 195.25 361.564 158.313 398.5 112.75 398.5 67.1864 398.5 30.2499 361.564 30.2499 316Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M400.25 113C400.25 67.4365 437.187 30.5 482.75 30.5 528.314 30.5 565.25 67.4365 565.25 113 565.25 158.563 528.314 195.5 482.75 195.5 437.187 195.5 400.25 158.563 400.25 113Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M237.25 539.334C237.25 527.275 247.025 517.5 259.084 517.5L400.417 517.5C412.475 517.5 422.25 527.275 422.25 539.334L422.25 626.666C422.25 638.725 412.475 648.5 400.417 648.5L259.084 648.5C247.025 648.5 237.25 638.725 237.25 626.666Z" stroke="#A5300F" stroke-width="21" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip2)" transform="matrix(0.000360892 0 0 0.000360892 261.75 517)"><g clip-path="url(#clip4)" transform="matrix(1 0 0 1 0.0663341 0.216198)"><use width="100%" height="100%" xlink:href="#img3" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></g><path d="M1226.19 1083.5C1226.19 1171.04 1122.85 1258.59 1019.5 1258.59" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M938.5 1204.5C1005.83 1204.5 1073.15 1305.05 1073.15 1405.6" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="none" fill-rule="evenodd"/><path d="M773.5 1204C773.5 1158.44 810.436 1121.5 856 1121.5 901.563 1121.5 938.5 1158.44 938.5 1204 938.5 1249.56 901.563 1286.5 856 1286.5 810.436 1286.5 773.5 1249.56 773.5 1204Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M1143.5 1001C1143.5 955.437 1180.44 918.5 1226 918.5 1271.56 918.5 1308.5 955.437 1308.5 1001 1308.5 1046.56 1271.56 1083.5 1226 1083.5 1180.44 1083.5 1143.5 1046.56 1143.5 1001Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><path d="M980.5 1427.33C980.5 1415.28 990.275 1405.5 1002.33 1405.5L1143.67 1405.5C1155.72 1405.5 1165.5 1415.28 1165.5 1427.33L1165.5 1514.67C1165.5 1526.72 1155.72 1536.5 1143.67 1536.5L1002.33 1536.5C990.275 1536.5 980.5 1526.72 980.5 1514.67Z" stroke="#A5300F" stroke-width="20.625" stroke-linecap="butt" stroke-linejoin="miter" stroke-miterlimit="8" stroke-opacity="1" fill="#FADDCD" fill-rule="evenodd" fill-opacity="1"/><g clip-path="url(#clip5)" transform="matrix(0.000360892 0 0 0.000360892 1005 1405)"><g clip-path="url(#clip7)" transform="matrix(1 0 0 1 0.0684703 0.216198)"><use width="100%" height="100%" xlink:href="#img6" opacity="1" transform="scale(725.197 725.197)"></use></g></g></g></g></svg>
diff --git a/python/sglang/bench_one_batch.py b/python/sglang/bench_one_batch.py
index 4a027ae99721..03c575564d99 100644
--- a/python/sglang/bench_one_batch.py
+++ b/python/sglang/bench_one_batch.py
@@ -138,6 +138,7 @@ def from_cli_args(cls, args: argparse.Namespace):
 def load_model(server_args, port_args, tp_rank):
     suppress_other_loggers()
     rank_print = print if tp_rank == 0 else lambda *args, **kwargs: None
+    moe_ep_rank = tp_rank // (server_args.tp_size // server_args.ep_size)
 
     model_config = ModelConfig.from_server_args(server_args)
     model_runner = ModelRunner(
@@ -146,6 +147,8 @@ def load_model(server_args, port_args, tp_rank):
         gpu_id=tp_rank,
         tp_rank=tp_rank,
         tp_size=server_args.tp_size,
+        moe_ep_rank=moe_ep_rank,
+        moe_ep_size=server_args.ep_size,
         pp_rank=0,
         pp_size=1,
         nccl_port=port_args.nccl_port,
diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
index 45a1a42093cd..279393f95d99 100644
--- a/python/sglang/srt/distributed/parallel_state.py
+++ b/python/sglang/srt/distributed/parallel_state.py
@@ -354,6 +354,13 @@ def __init__(
                 self.cpu_group, 1 << 22, 6
             )
 
+    def __repr__(self):
+        return (
+            f"ranks={self.ranks} rank={self.rank} local_rank={self.local_rank} use_pynccl={self.use_pynccl} "
+            f"device_group={self.device_group} cpu_group={self.cpu_group} unique_name={self.unique_name} "
+            f"world_size={self.world_size} rank_in_group={self.rank_in_group}"
+        )
+
     @property
     def first_rank(self):
         """Return the global rank of the first process in the group"""
@@ -1141,6 +1148,20 @@ def get_tp_group() -> GroupCoordinator:
     return _TP
 
 
+_MOE_EP: Optional[GroupCoordinator] = None
+_MOE_TP: Optional[GroupCoordinator] = None
+
+
+def get_moe_ep_group() -> GroupCoordinator:
+    assert _MOE_EP is not None, "expert model parallel group is not initialized"
+    return _MOE_EP
+
+
+def get_moe_tp_group() -> GroupCoordinator:
+    assert _MOE_TP is not None, "expert model parallel group is not initialized"
+    return _MOE_TP
+
+
 # kept for backward compatibility
 get_tensor_model_parallel_group = get_tp_group
 
@@ -1250,6 +1271,7 @@ def init_distributed_environment(
 
 def initialize_model_parallel(
     tensor_model_parallel_size: int = 1,
+    expert_model_parallel_size: int = 1,
     pipeline_model_parallel_size: int = 1,
     backend: Optional[str] = None,
     duplicate_tp_group: bool = False,
@@ -1327,6 +1349,45 @@ def initialize_model_parallel(
         _TP.pynccl_comm.disabled = False
         _PDMUX_PREFILL_TP_GROUP.pynccl_comm.disabled = False
 
+    moe_ep_size = expert_model_parallel_size
+
+    moe_tp_size = tensor_model_parallel_size // moe_ep_size
+    global _MOE_EP
+    assert _MOE_EP is None, "expert model parallel group is already initialized"
+    group_ranks = []
+    for i in range(num_tensor_model_parallel_groups):
+        for j in range(moe_tp_size):
+            st = i * tensor_model_parallel_size + j
+            en = (i + 1) * tensor_model_parallel_size + j
+            ranks = list(range(st, en, moe_tp_size))
+            group_ranks.append(ranks)
+
+    _MOE_EP = init_model_parallel_group(
+        group_ranks,
+        get_world_group().local_rank,
+        backend,
+        use_custom_allreduce=False,
+        group_name="moe_ep",
+    )
+
+    global _MOE_TP
+    assert _MOE_TP is None, "expert model parallel group is already initialized"
+    group_ranks = []
+    for i in range(num_tensor_model_parallel_groups):
+        for j in range(moe_ep_size):
+            st = i * tensor_model_parallel_size + j * moe_tp_size
+            en = i * tensor_model_parallel_size + (j + 1) * moe_tp_size
+            ranks = list(range(st, en))
+            group_ranks.append(ranks)
+
+    _MOE_TP = init_model_parallel_group(
+        group_ranks,
+        get_world_group().local_rank,
+        backend,
+        use_custom_allreduce=False,
+        group_name="moe_tp",
+    )
+
     # Build the pipeline model-parallel groups.
     num_pipeline_model_parallel_groups: int = world_size // pipeline_model_parallel_size
     global _PP
@@ -1347,6 +1408,7 @@ def initialize_model_parallel(
 
 def ensure_model_parallel_initialized(
     tensor_model_parallel_size: int,
+    expert_model_parallel_size: int,
     pipeline_model_parallel_size: int,
     backend: Optional[str] = None,
 ) -> None:
@@ -1357,7 +1419,10 @@ def ensure_model_parallel_initialized(
     backend = backend or torch.distributed.get_backend(get_world_group().device_group)
     if not model_parallel_is_initialized():
         initialize_model_parallel(
-            tensor_model_parallel_size, pipeline_model_parallel_size, backend
+            tensor_model_parallel_size,
+            expert_model_parallel_size,
+            pipeline_model_parallel_size,
+            backend,
         )
         return
 
@@ -1417,6 +1482,26 @@ def get_tensor_model_parallel_rank():
     return get_tp_group().rank_in_group
 
 
+def get_moe_expert_parallel_world_size():
+    """Return world size for the moe expert parallel group."""
+    return get_moe_ep_group().world_size
+
+
+def get_moe_expert_parallel_rank():
+    """Return my rank for the moe expert parallel group."""
+    return get_moe_ep_group().rank_in_group
+
+
+def get_moe_tensor_parallel_world_size():
+    """Return world size for the moe tensor parallel group."""
+    return get_moe_tp_group().world_size
+
+
+def get_moe_tensor_parallel_rank():
+    """Return my rank for the moe tensor parallel group."""
+    return get_moe_tp_group().rank_in_group
+
+
 def destroy_model_parallel():
     """Set the groups to none and destroy them."""
     global _TP
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 8e1fc51d2f38..cfe3e0a5bfff 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -719,6 +719,7 @@ def _launch_subprocesses(
                     + ((pp_rank % pp_size_per_node) * tp_size_per_node)
                     + (tp_rank % tp_size_per_node) * server_args.gpu_id_step
                 )
+                moe_ep_rank = tp_rank // (server_args.tp_size // server_args.ep_size)
                 proc = mp.Process(
                     target=run_scheduler_process,
                     args=(
@@ -726,6 +727,7 @@ def _launch_subprocesses(
                         port_args,
                         gpu_id,
                         tp_rank,
+                        moe_ep_rank,
                         pp_rank,
                         None,
                         writer,
diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index e74df36da3a7..d2faf12cf22e 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -135,7 +135,7 @@ def __init__(
             enable_ep_moe=True,
         )
 
-        self.start_expert_id = self.ep_rank * self.num_local_experts
+        self.start_expert_id = self.moe_ep_rank * self.num_local_experts
         self.end_expert_id = self.start_expert_id + self.num_local_experts - 1
 
         self.intermediate_size = intermediate_size
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 81e35d0024b3..ce76d2f2dd41 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -7,6 +7,10 @@
 import torch
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_rank,
+    get_moe_expert_parallel_world_size,
+    get_moe_tensor_parallel_rank,
+    get_moe_tensor_parallel_world_size,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
@@ -88,10 +92,6 @@ def __init__(
         self.layer_id = layer_id
         self.top_k = top_k
         self.hidden_size = hidden_size
-        self.tp_size = (
-            tp_size if tp_size is not None else get_tensor_model_parallel_world_size()
-        )
-        self.tp_rank = get_tensor_model_parallel_rank()
         self.num_experts = num_experts
         self.num_fused_shared_experts = num_fused_shared_experts
         self.expert_map_cpu = None
@@ -103,30 +103,27 @@ def __init__(
             enable_ep_moe = False
 
         self.enable_flashinfer_cutlass_moe = enable_flashinfer_cutlass_moe
+        self.moe_ep_size = get_moe_expert_parallel_world_size()
+        self.moe_ep_rank = get_moe_expert_parallel_rank()
+        self.moe_tp_size = get_moe_tensor_parallel_world_size()
+        self.moe_tp_rank = get_moe_tensor_parallel_rank()
+        assert num_experts % self.moe_ep_size == 0
+        self.num_local_experts = num_experts // self.moe_ep_size
         if enable_ep_moe:
             # TODO(ch-wan): support shared experts fusion
-            self.ep_size = self.tp_size
-            self.ep_rank = self.tp_rank
-            self.tp_size = 1
-            self.tp_rank = 0
             # Create a tensor of size num_experts filled with -1
             self.expert_map_cpu = torch.full((self.num_experts,), -1, dtype=torch.int32)
             # Create a expert map for the local experts
-            assert num_experts % self.ep_size == 0
-            self.num_local_experts = num_experts // self.ep_size
             self.expert_map_cpu[
-                self.ep_rank
-                * self.num_local_experts : (self.ep_rank + 1)
+                self.moe_ep_rank
+                * self.num_local_experts : (self.moe_ep_rank + 1)
                 * self.num_local_experts
             ] = torch.arange(0, self.num_local_experts, dtype=torch.int32, device="cpu")
             self.expert_map_gpu = self.expert_map_cpu.to(device="cuda")
-        else:
-            self.ep_size = 1
-            self.ep_rank = 0
-            self.num_local_experts = num_experts
+
         self.routed_scaling_factor = routed_scaling_factor
-        assert intermediate_size % self.tp_size == 0
-        self.intermediate_size_per_partition = intermediate_size // self.tp_size
+        assert intermediate_size % self.moe_tp_size == 0
+        self.intermediate_size_per_partition = intermediate_size // self.moe_tp_size
         self.reduce_results = reduce_results
         self.activation = activation
         self.apply_router_weight_on_input = apply_router_weight_on_input
@@ -437,8 +434,7 @@ def _weight_loader_impl(
         expert_id: int,
     ) -> None:
 
-        # TP rank is set to 0 if EP is enabled
-        tp_rank = 0 if self.ep_size > 1 else get_tensor_model_parallel_rank()
+        tp_rank = self.moe_tp_rank
 
         # compressed-tensors checkpoints with packed weights are stored flipped
         # TODO (mgoin): check self.quant_method.quant_config.quant_format
@@ -630,17 +626,17 @@ def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
             routed_scaling_factor=self.routed_scaling_factor,
             **(
                 dict(
-                    tp_rank=self.tp_rank,
-                    tp_size=self.tp_size,
-                    ep_rank=self.ep_rank,
-                    ep_size=self.ep_size,
+                    tp_rank=self.moe_tp_rank,
+                    tp_size=self.moe_tp_size,
+                    ep_rank=self.moe_ep_rank,
+                    ep_size=self.moe_ep_size,
                 )
                 if self.quant_method.__class__.__name__ == "ModelOptNvFp4FusedMoEMethod"
                 else {}
             ),
         )
 
-        if self.reduce_results and (self.tp_size > 1 or self.ep_size > 1):
+        if self.reduce_results and (self.moe_tp_size > 1 or self.moe_ep_size > 1):
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
 
         return final_hidden_states
diff --git a/python/sglang/srt/managers/data_parallel_controller.py b/python/sglang/srt/managers/data_parallel_controller.py
index 1e2bfbf100a2..98173f7a6ffa 100644
--- a/python/sglang/srt/managers/data_parallel_controller.py
+++ b/python/sglang/srt/managers/data_parallel_controller.py
@@ -222,6 +222,7 @@ def launch_tensor_parallel_group(
                     + ((pp_rank % pp_size_per_node) * tp_size_per_node)
                     + (tp_rank % tp_size_per_node) * server_args.gpu_id_step
                 )
+                moe_ep_rank = tp_rank // (server_args.tp_size // server_args.ep_size)
                 proc = mp.Process(
                     target=run_scheduler_process,
                     args=(
@@ -229,6 +230,7 @@ def launch_tensor_parallel_group(
                         rank_port_args,
                         gpu_id,
                         tp_rank,
+                        moe_ep_rank,
                         pp_rank,
                         dp_rank,
                         writer,
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index b6cf72d4e553..d71f02275daa 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -200,15 +200,18 @@ def __init__(
         port_args: PortArgs,
         gpu_id: int,
         tp_rank: int,
+        moe_ep_rank: int,
         pp_rank: int,
         dp_rank: Optional[int],
     ):
         # Parse args
         self.server_args = server_args
         self.tp_rank = tp_rank
+        self.moe_ep_rank = moe_ep_rank
         self.pp_rank = pp_rank
         self.dp_rank = dp_rank
         self.tp_size = server_args.tp_size
+        self.moe_ep_size = server_args.ep_size
         self.pp_size = server_args.pp_size
         self.dp_size = server_args.dp_size
         self.schedule_policy = server_args.schedule_policy
@@ -310,6 +313,7 @@ def __init__(
             server_args=server_args,
             gpu_id=gpu_id,
             tp_rank=tp_rank,
+            moe_ep_rank=moe_ep_rank,
             pp_rank=pp_rank,
             dp_rank=dp_rank,
             nccl_port=port_args.nccl_port,
@@ -322,6 +326,7 @@ def __init__(
             self.draft_worker = EAGLEWorker(
                 gpu_id=gpu_id,
                 tp_rank=tp_rank,
+                moe_ep_rank=moe_ep_rank,
                 server_args=server_args,
                 nccl_port=port_args.nccl_port,
                 target_worker=self.tp_worker,
@@ -2358,6 +2363,7 @@ def run_scheduler_process(
     port_args: PortArgs,
     gpu_id: int,
     tp_rank: int,
+    moe_ep_rank: int,
     pp_rank: int,
     dp_rank: Optional[int],
     pipe_writer,
@@ -2368,6 +2374,8 @@ def run_scheduler_process(
         prefix += f" DP{dp_rank}"
     if server_args.tp_size > 1:
         prefix += f" TP{tp_rank}"
+    if server_args.ep_size > 1:
+        prefix += f" EP{moe_ep_rank}"
     if server_args.pp_size > 1:
         prefix += f" PP{pp_rank}"
 
@@ -2391,7 +2399,9 @@ def run_scheduler_process(
 
     # Create a scheduler and run the event loop
     try:
-        scheduler = Scheduler(server_args, port_args, gpu_id, tp_rank, pp_rank, dp_rank)
+        scheduler = Scheduler(
+            server_args, port_args, gpu_id, tp_rank, moe_ep_rank, pp_rank, dp_rank
+        )
         pipe_writer.send(
             {
                 "status": "ready",
diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index 42ed459499e5..0b2900b37a7e 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -56,6 +56,7 @@ def __init__(
         server_args: ServerArgs,
         gpu_id: int,
         tp_rank: int,
+        moe_ep_rank: int,
         pp_rank: int,
         dp_rank: Optional[int],
         nccl_port: int,
@@ -66,6 +67,7 @@ def __init__(
         # Parse args
         self.tp_size = server_args.tp_size
         self.tp_rank = tp_rank
+        self.moe_ep_rank = moe_ep_rank
         self.pp_rank = pp_rank
 
         # Init model and tokenizer
@@ -85,6 +87,8 @@ def __init__(
             gpu_id=gpu_id,
             tp_rank=tp_rank,
             tp_size=server_args.tp_size,
+            moe_ep_rank=moe_ep_rank,
+            moe_ep_size=server_args.ep_size,
             pp_rank=pp_rank,
             pp_size=server_args.pp_size,
             nccl_port=nccl_port,
diff --git a/python/sglang/srt/managers/tp_worker_overlap_thread.py b/python/sglang/srt/managers/tp_worker_overlap_thread.py
index 08d2dd477fe9..76498514d663 100644
--- a/python/sglang/srt/managers/tp_worker_overlap_thread.py
+++ b/python/sglang/srt/managers/tp_worker_overlap_thread.py
@@ -58,13 +58,14 @@ def __init__(
         server_args: ServerArgs,
         gpu_id: int,
         tp_rank: int,
+        moe_ep_rank: int,
         pp_rank: int,
         dp_rank: Optional[int],
         nccl_port: int,
     ):
         # Load the model
         self.worker = TpModelWorker(
-            server_args, gpu_id, tp_rank, pp_rank, dp_rank, nccl_port
+            server_args, gpu_id, tp_rank, moe_ep_rank, pp_rank, dp_rank, nccl_port
         )
         self.max_running_requests = self.worker.max_running_requests
         self.device = self.worker.device
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 02389108a8a4..caed3a6f4e95 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -157,6 +157,8 @@ def __init__(
         gpu_id: int,
         tp_rank: int,
         tp_size: int,
+        moe_ep_rank: int,
+        moe_ep_size: int,
         pp_rank: int,
         pp_size: int,
         nccl_port: int,
@@ -175,6 +177,8 @@ def __init__(
             logger.addFilter(RankZeroFilter(tp_rank == 0))
         self.tp_rank = tp_rank
         self.tp_size = tp_size
+        self.moe_ep_rank = moe_ep_rank
+        self.moe_ep_size = moe_ep_size
         self.dp_size = server_args.dp_size
         self.pp_rank = pp_rank
         self.pp_size = pp_size
@@ -549,6 +553,7 @@ def init_torch_distributed(self):
             initialize_model_parallel(
                 tensor_model_parallel_size=self.tp_size,
                 pipeline_model_parallel_size=self.pp_size,
+                expert_model_parallel_size=self.moe_ep_size,
                 duplicate_tp_group=self.server_args.enable_pdmux,
             )
             initialize_dp_attention(
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 9e673a9f4855..24ec434fb450 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -270,14 +270,6 @@ class ServerArgs:
     sm_group_num: int = 3
 
     def __post_init__(self):
-        # Expert parallelism
-        # We put it here first due to some internal ckpt conversation issues.
-        if self.enable_ep_moe:
-            self.ep_size = self.tp_size
-            logger.warning(
-                f"EP MoE is enabled. The expert parallel size is adjusted to be the same as the tensor parallel size[{self.tp_size}]."
-            )
-
         # Set missing default values
         if self.tokenizer_path is None:
             self.tokenizer_path = self.model_path
@@ -1335,6 +1327,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
         parser.add_argument(
             "--expert-parallel-size",
             "--ep-size",
+            "--ep",
             type=int,
             default=ServerArgs.ep_size,
             help="The expert parallelism size.",
diff --git a/python/sglang/srt/speculative/eagle_worker.py b/python/sglang/srt/speculative/eagle_worker.py
index 2d2e23a01066..376cd029c60d 100644
--- a/python/sglang/srt/speculative/eagle_worker.py
+++ b/python/sglang/srt/speculative/eagle_worker.py
@@ -73,6 +73,7 @@ def __init__(
         gpu_id: int,
         tp_rank: int,
         dp_rank: Optional[int],
+        moe_ep_rank: int,
         nccl_port: int,
         target_worker: TpModelWorker,
     ):
@@ -127,6 +128,7 @@ def __init__(
                 tp_rank=tp_rank,
                 pp_rank=0,  # FIXME
                 dp_rank=dp_rank,
+                moe_ep_rank=moe_ep_rank,
                 nccl_port=nccl_port,
                 is_draft_worker=True,
                 req_to_token_pool=self.req_to_token_pool,

From 023288645b80fb41b3eed55fd413dd69a7904593 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Thu, 31 Jul 2025 05:50:17 -0700
Subject: [PATCH 248/396] chore: bump v0.4.10 (#8608)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index f8efab2c144b..6e1aad03cae3 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.9.post6"
+pip install "sglang[all]>=0.4.10"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index 43ae73ac534e..a259d63fcdca 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post6-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.9.post6-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index 288fd3da934c..47886197db3e 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.9.post6"
+uv pip install "sglang[all]>=0.4.10"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.9.post6"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post6 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.10 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.9.post6 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.10 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -74,7 +74,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.9.post6 -t v0.4.9.post6-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.10 -t v0.4.10-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -83,11 +83,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.9.post6-rocm630 \
+    v0.4.10-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.9.post6-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.10-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
diff --git a/python/pyproject.toml b/python/pyproject.toml
index ca0c92cbf140..f3fcb1b7f666 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.9.post6"
+version = "0.4.10"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index 6cf0091fa526..805e7c470ea5 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.9.post6"
+__version__ = "0.4.10"

From 016fd2512788f029d6d9a7c866c12dadb34cde9c Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Thu, 31 Jul 2025 21:29:34 +0800
Subject: [PATCH 249/396] [PD] Use batch transfer for rdma transport and add
 notes for mnnvl usage (#8595)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 .../srt/disaggregation/mooncake/conn.py       | 48 +++++++++++++------
 1 file changed, 33 insertions(+), 15 deletions(-)

diff --git a/python/sglang/srt/disaggregation/mooncake/conn.py b/python/sglang/srt/disaggregation/mooncake/conn.py
index bb0b47471ca3..d366b279156f 100644
--- a/python/sglang/srt/disaggregation/mooncake/conn.py
+++ b/python/sglang/srt/disaggregation/mooncake/conn.py
@@ -37,6 +37,7 @@
 from sglang.srt.server_args import ServerArgs
 from sglang.srt.utils import (
     format_tcp_address,
+    get_bool_env_var,
     get_free_port,
     get_int_env_var,
     get_ip,
@@ -198,6 +199,10 @@ def __init__(
             self.bootstrap_timeout = get_int_env_var(
                 "SGLANG_DISAGGREGATION_BOOTSTRAP_TIMEOUT", 300
             )
+
+            self.enable_custom_mem_pool = get_bool_env_var(
+                "SGLANG_MOONCAKE_CUSTOM_MEM_POOL", "false"
+            )
         elif self.disaggregation_mode == DisaggregationMode.DECODE:
             self.heartbeat_failures = {}
             self.session_pool = defaultdict(requests.Session)
@@ -258,6 +263,26 @@ def _connect(self, endpoint: str, is_ipv6: bool = False):
         socket.connect(endpoint)
         return socket
 
+    def _transfer_data(self, mooncake_session_id, transfer_blocks):
+        if not transfer_blocks:
+            return 0
+
+        # TODO(shangming): Fix me when nvlink_transport of Mooncake is bug-free
+        if self.enable_custom_mem_pool:
+            # batch_transfer_sync has a higher chance to trigger an accuracy drop for MNNVL, fallback to transfer_sync temporarily
+            for src_addr, dst_addr, length in transfer_blocks:
+                status = self.engine.transfer_sync(
+                    mooncake_session_id, src_addr, dst_addr, length
+                )
+                if status != 0:
+                    return status
+            return 0
+        else:
+            src_addrs, dst_addrs, lengths = zip(*transfer_blocks)
+            return self.engine.batch_transfer_sync(
+                mooncake_session_id, list(src_addrs), list(dst_addrs), list(lengths)
+            )
+
     def send_kvcache(
         self,
         mooncake_session_id: str,
@@ -283,17 +308,14 @@ def send_kvcache(
 
         # Worker function for processing a single layer
         def process_layer(src_ptr: int, dst_ptr: int, item_len: int) -> int:
+            transfer_blocks = []
             for prefill_index, decode_index in zip(prefill_kv_blocks, dst_kv_blocks):
                 src_addr = src_ptr + int(prefill_index[0]) * item_len
                 dst_addr = dst_ptr + int(decode_index[0]) * item_len
                 length = item_len * len(prefill_index)
+                transfer_blocks.append((src_addr, dst_addr, length))
 
-                status = self.engine.transfer_sync(
-                    mooncake_session_id, src_addr, dst_addr, length
-                )
-                if status != 0:
-                    return status
-            return 0
+            return self._transfer_data(mooncake_session_id, transfer_blocks)
 
         futures = [
             executor.submit(
@@ -465,21 +487,17 @@ def send_aux(
         dst_aux_ptrs: list[int],
         dst_aux_index: int,
     ):
-        src_addr_list = []
-        dst_addr_list = []
-        length_list = []
+        transfer_blocks = []
         prefill_aux_ptrs = self.kv_args.aux_data_ptrs
         prefill_aux_item_lens = self.kv_args.aux_item_lens
+
         for i, dst_aux_ptr in enumerate(dst_aux_ptrs):
             length = prefill_aux_item_lens[i]
             src_addr = prefill_aux_ptrs[i] + length * prefill_aux_index
             dst_addr = dst_aux_ptrs[i] + length * dst_aux_index
-            src_addr_list.append(src_addr)
-            dst_addr_list.append(dst_addr)
-            length_list.append(length)
-        return self.engine.batch_transfer_sync(
-            mooncake_session_id, src_addr_list, dst_addr_list, length_list
-        )
+            transfer_blocks.append((src_addr, dst_addr, length))
+
+        return self._transfer_data(mooncake_session_id, transfer_blocks)
 
     def sync_status_to_decode_endpoint(
         self, remote: str, dst_port: int, room: int, status: int, prefill_rank: int

From 5d15fb8c9d0c62d4f9238ccfa2bc89eb78a99946 Mon Sep 17 00:00:00 2001
From: Tao He <linzhu.ht@alibaba-inc.com>
Date: Thu, 31 Jul 2025 22:41:39 +0800
Subject: [PATCH 250/396] [bugifx] QWen-1M context support[2/3] using current
 cuda stream in the DCA's kernel for bugfix. (#8611)

Signed-off-by: Tao He <linzhu.ht@alibaba-inc.com>
Co-authored-by: sa-buc <linzhu.ht@w32d09270.cloud.sqa.na131>
---
 sgl-kernel/csrc/attention/vertical_slash_index.cu | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/sgl-kernel/csrc/attention/vertical_slash_index.cu b/sgl-kernel/csrc/attention/vertical_slash_index.cu
index 93c936fdd428..118f780dd045 100644
--- a/sgl-kernel/csrc/attention/vertical_slash_index.cu
+++ b/sgl-kernel/csrc/attention/vertical_slash_index.cu
@@ -3,6 +3,7 @@
 // This file is for blocksparse attention utils cuda kernel.
 
 #include <assert.h>
+#include <c10/cuda/CUDAStream.h>
 #include <cuda.h>
 #include <torch/all.h>
 
@@ -176,7 +177,8 @@ void convert_vertical_slash_indexes_64x64(
   const dim3 dimBlock((int32_t)N_THREADS);
   const dim3 dimGrid(
       (int32_t)N_HEADS, (int32_t)BATCH_SIZE, ((int32_t)N_ROWS + (int32_t)N_THREADS - 1) / (int32_t)N_THREADS);
-  convert_vertical_slash_indexes_kernel<<<dimGrid, dimBlock>>>(
+  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  convert_vertical_slash_indexes_kernel<<<dimGrid, dimBlock, 0, stream>>>(
       q_seqlens,
       kv_seqlens,
       vertical_indexes,
@@ -393,7 +395,8 @@ void convert_vertical_slash_indexes_64x64_mergehead(
   const int N_THREADS = 64;
   const dim3 dimBlock(N_THREADS);
   const dim3 dimGrid(N_HEADS, BATCH_SIZE, (N_ROWS + N_THREADS - 1) / N_THREADS);
-  convert_vertical_slash_indexes_kernel_mergehead<<<dimGrid, dimBlock>>>(
+  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  convert_vertical_slash_indexes_kernel_mergehead<<<dimGrid, dimBlock, 0, stream>>>(
       q_seqlens,
       kv_seqlens,
       vertical_indexes,

From 3c307dc057c9be39c2e2c016aaf82157dadec7cd Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Thu, 31 Jul 2025 22:42:31 +0800
Subject: [PATCH 251/396] Fix hf3fs_fuse import error (#8623)

---
 .../sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py b/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py
index 09832b8e264b..e38facf3c854 100644
--- a/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py
+++ b/python/sglang/srt/mem_cache/storage/hf3fs/client_hf3fs.py
@@ -14,6 +14,7 @@
 
 logger = logging.getLogger(__name__)
 
+HF3FS_AVAILABLE = True
 try:
     from hf3fs_fuse.io import (
         deregister_fd,
@@ -22,8 +23,8 @@
         make_iovec,
         register_fd,
     )
-except ImportError as e:
-    logger.warning(f"hf3fs_fuse.io is not available: {e}")
+except ImportError:
+    HF3FS_AVAILABLE = False
 
 
 def rsynchronized():
@@ -52,6 +53,11 @@ def wrapper(self, *args, **kwargs):
 
 class Hf3fsClient:
     def __init__(self, path: str, size: int, bytes_per_page: int, entries: int):
+        if not HF3FS_AVAILABLE:
+            raise ImportError(
+                "hf3fs_fuse.io is not available. Please install the hf3fs_fuse package."
+            )
+
         self.path = path
         self.size = size
         self.bytes_per_page = bytes_per_page

From 8fbcfd07236df523fe2bc254ba394b8ca49b5bf5 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Fri, 1 Aug 2025 00:49:26 +0800
Subject: [PATCH 252/396] Update step3v default config (#8626)

---
 python/sglang/srt/configs/model_config.py | 1 +
 python/sglang/srt/models/step3_vl.py      | 3 ---
 python/sglang/srt/utils.py                | 1 +
 3 files changed, 2 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index 37fbf07c7c69..f3643d1549e2 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -112,6 +112,7 @@ def __init__(
             mm_disabled_models = [
                 "Gemma3ForConditionalGeneration",
                 "Llama4ForConditionalGeneration",
+                "Step3VLForConditionalGeneration",
             ]
             if self.hf_config.architectures[0] in mm_disabled_models:
                 enable_multimodal = False
diff --git a/python/sglang/srt/models/step3_vl.py b/python/sglang/srt/models/step3_vl.py
index 3ed0a153f785..c43d5bec87c6 100644
--- a/python/sglang/srt/models/step3_vl.py
+++ b/python/sglang/srt/models/step3_vl.py
@@ -868,7 +868,6 @@ def forward(
         )
 
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
-        # TODO:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", 0),
@@ -901,9 +900,7 @@ def match_expert_and_shard_ids(name_path: str, weight_path: str) -> bool:
 
         for name, loaded_weight in weights:
             if "vision_model" in name:
-                # 1.It’s not great, but let’s leave it like this for now
                 name = name.replace("self_attn", "self_attn.attn")
-                # 2.
                 name = name.replace("out_proj", "proj")
 
             # TODO: support vision model
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index f824a006aecd..33112052bf5f 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2344,6 +2344,7 @@ def is_fa3_default_architecture(hf_config):
         "Qwen3ForCausalLM",
         "Qwen3MoeForCausalLM",
         "Glm4MoeForCausalLM",
+        "Step3VLForConditionalGeneration",
     }
     return architectures[0] in default_archs
 

From ae807774f52552ab479f50068774119b4d1b5825 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 31 Jul 2025 10:40:54 -0700
Subject: [PATCH 253/396] [ci] fix genai-bench execution cmd (#8629)

---
 .github/workflows/pr-test-pd-router.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/pr-test-pd-router.yml b/.github/workflows/pr-test-pd-router.yml
index e0f78554bd4d..a57e34c94cb9 100644
--- a/.github/workflows/pr-test-pd-router.yml
+++ b/.github/workflows/pr-test-pd-router.yml
@@ -253,7 +253,7 @@ jobs:
 
           # Run genai-bench benchmark
           echo "Running genai-bench for $policy..."
-          genai-bench benchmark \
+          python3 -m genai-bench benchmark \
             --api-backend openai \
             --api-base "http://127.0.0.9:8000" \
             --api-key "dummy-token" \

From aee0ef52f52c279c0195427721bcf6b232dc1b1a Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 31 Jul 2025 11:24:12 -0700
Subject: [PATCH 254/396] [router] update router pypi version (#8628)

---
 .github/workflows/pr-test-pd-router.yml |  4 +-
 sgl-router/pyproject.toml               |  2 +-
 sgl-router/v0.1.0.md                    | 63 -------------------------
 3 files changed, 3 insertions(+), 66 deletions(-)
 delete mode 100644 sgl-router/v0.1.0.md

diff --git a/.github/workflows/pr-test-pd-router.yml b/.github/workflows/pr-test-pd-router.yml
index a57e34c94cb9..d433dba074a4 100644
--- a/.github/workflows/pr-test-pd-router.yml
+++ b/.github/workflows/pr-test-pd-router.yml
@@ -115,7 +115,7 @@ jobs:
         echo "Installing SGLang with all extras..."
         python3 -m pip --no-cache-dir install -e "python[all]" --break-system-packages
         python3 -m pip --no-cache-dir install mooncake-transfer-engine==0.3.5
-        python3 -m pip --no-cache-dir install genai-bench==0.0.1
+        python3 -m pip --no-cache-dir install --user --force-reinstall genai-bench==0.0.1
 
     - name: Build and install sgl-router
       run: |
@@ -253,7 +253,7 @@ jobs:
 
           # Run genai-bench benchmark
           echo "Running genai-bench for $policy..."
-          python3 -m genai-bench benchmark \
+          genai-bench benchmark \
             --api-backend openai \
             --api-base "http://127.0.0.9:8000" \
             --api-key "dummy-token" \
diff --git a/sgl-router/pyproject.toml b/sgl-router/pyproject.toml
index 7422aa6bb428..705d9b225d50 100644
--- a/sgl-router/pyproject.toml
+++ b/sgl-router/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang-router"
-version = "0.1.6"
+version = "0.1.7"
 description = "High-performance Rust-based load balancer for SGLang with multiple routing algorithms and prefill-decode disaggregation support"
 authors = [{name = "Byron Hsu", email = "byronhsu1230@gmail.com"}]
 requires-python = ">=3.8"
diff --git a/sgl-router/v0.1.0.md b/sgl-router/v0.1.0.md
deleted file mode 100644
index 747731a71c2d..000000000000
--- a/sgl-router/v0.1.0.md
+++ /dev/null
@@ -1,63 +0,0 @@
-# SGLang Router v0.1.0: Dynamic Scaling and Fault Tolerance
-
-We have released `sglang-router` v0.1.0 equipped with dynamic scaling and fault tolerance! It is essential for the router to be able to dynamically scale the number of workers and handle worker failures. To achieve this, we have implemented the following features:
-
-## 1. Dynamic scaling: The router can dynamically scale the number of workers based on the request load.
-
-We offer `/add_worker` and `/remove_worker` APIs to dynamically add or remove workers from the router.
-
-- `/add_worker`
-
-Usage:
-
-```bash
-$ curl -X POST http://localhost:30000/add_worker?url=http://worker_url_1
-```
-
-Example:
-
-```bash
-$ python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct --port 30001
-$ curl -X POST http://localhost:30000/add_worker?url=http://127.0.0.1:30001
-Successfully added worker: http://127.0.0.1:30001
-```
-
-- `/remove_worker`
-
-Usage:
-
-```bash
-$ curl -X POST http://localhost:30000/remove_worker?url=http://worker_url_1
-```
-
-Example:
-
-```bash
-$ curl -X POST http://localhost:30000/remove_worker?url=http://127.0.0.1:30001
-Successfully removed worker: http://127.0.0.1:30001
-```
-
-Note:
-
-- For cache-aware router, the worker will be removed from the tree and the queues.
-
-## 2. Fault tolerance: The router can handle worker failures and automatically remove the failed worker from the router.
-
-We provide retries based for failure tolerance.
-
-1. If the request to a worker fails for `max_worker_retries` times, the router will remove the worker from the router and move on to the next worker.
-2. If the total number of retries exceeds `max_total_retries`, the router will return an error.
-
-Note:
-
-- `max_worker_retries` is 3 and `max_total_retries` is 6 by default.
-
-## Closing remarks:
-
-1. Please read the full usage at https://docs.sglang.ai/router/router.html
-2. The feature is still under active improvement, so please don't hesitate to raise issues or submit PRs if you have any suggestions or feedback.
-
-
-# Release Instructions
-
-Update the version in `rust/pyproject.toml` and `py_src/sglang_router/version.py`.

From 4acf6902066c80b0c08371eaedbb8170a0b2914e Mon Sep 17 00:00:00 2001
From: Brayden Zhong <b8zhong@uwaterloo.ca>
Date: Thu, 31 Jul 2025 14:31:21 -0400
Subject: [PATCH 255/396] [Optimization][Perf] Disable the GC during CUDA graph
 capture to speed up by up to 3x (#8577)

---
 .../srt/model_executor/cuda_graph_runner.py   | 26 ++++++++++++++++++-
 python/sglang/srt/server_args.py              |  6 +++++
 2 files changed, 31 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/model_executor/cuda_graph_runner.py b/python/sglang/srt/model_executor/cuda_graph_runner.py
index eef7fba14734..fb703255b0ac 100644
--- a/python/sglang/srt/model_executor/cuda_graph_runner.py
+++ b/python/sglang/srt/model_executor/cuda_graph_runner.py
@@ -16,6 +16,7 @@
 from __future__ import annotations
 
 import bisect
+import gc
 import inspect
 import logging
 import os
@@ -75,6 +76,24 @@ def model_capture_mode():
     is_capture_mode = False
 
 
+@contextmanager
+def freeze_gc(enable_cudagraph_gc: bool):
+    """
+    Optimize garbage collection during CUDA graph capture.
+    Clean up, then freeze all remaining objects from being included
+    in future collections if GC is disabled during capture.
+    """
+    gc.collect()
+    should_freeze = not enable_cudagraph_gc
+    if should_freeze:
+        gc.freeze()
+    try:
+        yield
+    finally:
+        if should_freeze:
+            gc.unfreeze()
+
+
 def _to_torch(model: torch.nn.Module, reverse: bool, num_tokens: int):
     for sub in model._modules.values():
         if isinstance(sub, CustomOp):
@@ -423,7 +442,12 @@ def capture(self) -> None:
                 record_shapes=True,
             )
 
-        with graph_capture() as graph_capture_context:
+        # Trigger CUDA graph capture for specific shapes.
+        # Capture the large shapes first so that the smaller shapes
+        # can reuse the memory pool allocated for the large shapes.
+        with freeze_gc(
+            self.model_runner.server_args.enable_cudagraph_gc
+        ), graph_capture() as graph_capture_context:
             with profile_context as prof:
                 self.stream = graph_capture_context.stream
                 avail_mem = get_available_gpu_memory(
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 24ec434fb450..4ba08973dc4f 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -215,6 +215,7 @@ class ServerArgs:
     disable_cuda_graph: bool = False
     disable_cuda_graph_padding: bool = False
     enable_profile_cuda_graph: bool = False
+    enable_cudagraph_gc: bool = False
     enable_nccl_nvls: bool = False
     enable_tokenizer_batch_encode: bool = False
     disable_outlines_disk_cache: bool = False
@@ -1545,6 +1546,11 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Enable profiling of cuda graph capture.",
         )
+        parser.add_argument(
+            "--enable-cudagraph-gc",
+            action="store_true",
+            help="Enable garbage collection during CUDA graph capture. If disabled (default), GC is frozen during capture to speed up the process.",
+        )
         parser.add_argument(
             "--enable-nccl-nvls",
             action="store_true",

From 061c8959ff01b244bf6bb0a2737033ba990c38f1 Mon Sep 17 00:00:00 2001
From: Michael Yao <haifeng.yao@daocloud.io>
Date: Fri, 1 Aug 2025 03:48:47 +0800
Subject: [PATCH 256/396] Fix typos in py_test/test_launch_server.py (#6227)

Signed-off-by: windsonsea <haifeng.yao@daocloud.io>
---
 sgl-router/py_test/test_launch_server.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/sgl-router/py_test/test_launch_server.py b/sgl-router/py_test/test_launch_server.py
index d361e8d66f84..2c826b9713c6 100644
--- a/sgl-router/py_test/test_launch_server.py
+++ b/sgl-router/py_test/test_launch_server.py
@@ -249,7 +249,7 @@ def test_2_add_and_remove_worker(self):
         )
         self.other_process.append(worker_process)
 
-        # 2. use /add_worker api to add it the the router. It will be used by router after it is healthy
+        # 2. use /add_worker api to add it to the router. It will be used by the router after it is healthy
         with requests.Session() as session:
             response = session.post(f"{self.base_url}/add_worker?url={worker_url}")
             print(f"status code: {response.status_code}, response: {response.text}")
@@ -304,7 +304,7 @@ def test_3_lazy_fault_tolerance(self):
         )
         self.other_process.append(worker_process)
 
-        # 2. use /add_worker api to add it the the router. It will be used by router after it is healthy
+        # 2. use /add_worker api to add it to the router. It will be used by the router after it is healthy
         with requests.Session() as session:
             response = session.post(f"{self.base_url}/add_worker?url={worker_url}")
             print(f"status code: {response.status_code}, response: {response.text}")
@@ -340,7 +340,7 @@ def kill_worker():
 
     def test_4_payload_size(self):
         print("Running test_4_payload_size...")
-        # Start router with 3MB limit
+        # Start router with 1MB limit
         self.process = popen_launch_router(
             self.model,
             self.base_url,
@@ -398,7 +398,7 @@ def test_5_api_key(self):
             api_key="correct_api_key",
         )
 
-        # # Test case 1: request without api key should fail
+        # Test case 1: request without api key should fail
         with requests.Session() as session:
             response = session.post(
                 f"{self.base_url}/generate",

From 743638bc038b013e37f1c58a589e707217cd265e Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Thu, 31 Jul 2025 12:56:52 -0700
Subject: [PATCH 257/396] misc: Remove debug print to logger.info (#8633)

---
 python/sglang/srt/model_executor/model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index caed3a6f4e95..41016c3d9dfa 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -671,7 +671,7 @@ def load_model(self):
             self.sliding_window_size = self.model.get_attention_sliding_window_size()
         elif self.model_config.attention_chunk_size is not None:
             self.sliding_window_size = self.model_config.attention_chunk_size
-            print(
+            logger.info(
                 f"Setting sliding_window_size to be attention_chunk_size: {self.sliding_window_size}"
             )
 

From 2cd2e27f80bb6f811b76e989ff08d2ed23e951cc Mon Sep 17 00:00:00 2001
From: Vishwanath Venkatesan <vvenkates27@users.noreply.github.com>
Date: Thu, 31 Jul 2025 15:09:42 -0500
Subject: [PATCH 258/396] SGLang HiCache NIXL Connector (#8488)

Signed-off-by: Vishwanath Venkatesan <vvenkatesan@nvidia.com>
Co-authored-by: Moein Khazraee <moein@nvidia.com>
Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
---
 .../sglang/srt/managers/cache_controller.py   |  13 +-
 .../sglang/srt/mem_cache/hicache_storage.py   |  21 +-
 .../sglang/srt/mem_cache/memory_pool_host.py  |  29 +++
 python/sglang/srt/mem_cache/nixl/README.md    | 164 ++++++++++++
 .../sglang/srt/mem_cache/nixl/hicache_nixl.py | 163 ++++++++++++
 .../sglang/srt/mem_cache/nixl/nixl_utils.py   | 238 ++++++++++++++++++
 .../nixl/test_hicache_nixl_storage.py         | 216 ++++++++++++++++
 python/sglang/srt/server_args.py              |   2 +-
 8 files changed, 837 insertions(+), 9 deletions(-)
 create mode 100644 python/sglang/srt/mem_cache/nixl/README.md
 create mode 100644 python/sglang/srt/mem_cache/nixl/hicache_nixl.py
 create mode 100644 python/sglang/srt/mem_cache/nixl/nixl_utils.py
 create mode 100755 python/sglang/srt/mem_cache/nixl/test_hicache_nixl_storage.py

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index a6e48961ca10..fca7a6a395ae 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -265,6 +265,11 @@ def __init__(
             if storage_backend == "file":
                 self.storage_backend = HiCacheFile()
                 self.get_hash_str = get_hash_str
+            elif storage_backend == "nixl":
+                from sglang.srt.mem_cache.nixl.hicache_nixl import HiCacheNixl
+
+                self.storage_backend = HiCacheNixl()
+                self.get_hash_str = get_hash_str
             elif storage_backend == "mooncake":
                 self.storage_backend = MooncakeStore()
                 self.get_hash_str = get_hash_str_mooncake
@@ -545,7 +550,11 @@ def terminate_prefetch(self, operation):
     def generic_page_transfer(self, operation, batch_size=8):
         for i in range(0, len(operation.hash_value), batch_size):
             page_hashes = operation.hash_value[i : i + batch_size]
-            page_data = self.storage_backend.batch_get(page_hashes)
+            # todo: zero copy
+            dummy_page_dst = [self.mem_pool_host.get_dummy_flat_data_page()] * len(
+                page_hashes
+            )
+            page_data = self.storage_backend.batch_get(page_hashes, dummy_page_dst)
             if page_data is None:
                 logger.warning(
                     f"Prefetch operation {operation.request_id} failed to retrieve page {page_hashes}."
@@ -679,7 +688,7 @@ def generic_page_backup(self, operation, batch_size=8):
         for i in range(0, len(operation.hash_value), batch_size):
             page_hashes = operation.hash_value[i : i + batch_size]
             page_data = [
-                self.mem_pool_host.get_flat_data_pages(
+                self.mem_pool_host.get_flat_data_page(
                     operation.host_indices[j * self.page_size]
                 )
                 for j in range(i, i + len(page_hashes))
diff --git a/python/sglang/srt/mem_cache/hicache_storage.py b/python/sglang/srt/mem_cache/hicache_storage.py
index d0dec8ac9648..de069c4b79db 100644
--- a/python/sglang/srt/mem_cache/hicache_storage.py
+++ b/python/sglang/srt/mem_cache/hicache_storage.py
@@ -123,13 +123,22 @@ def get(
         key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         try:
-            # todo: fixing the target_location logic to enable in-place loading
-            loaded_tensor = torch.load(tensor_path)
-            if isinstance(loaded_tensor, torch.Tensor):
-                return loaded_tensor
+            if target_location is not None:
+                # Load directly into target_location's memory buffer
+                with open(tensor_path, "rb") as f:
+                    target_location.set_(
+                        torch.frombuffer(f.read(), dtype=target_location.dtype)
+                        .reshape(target_location.shape)
+                        .storage()
+                    )
+                return target_location
             else:
-                logger.error(f"Loaded data for key {key} is not a tensor.")
-                return None
+                loaded_tensor = torch.load(tensor_path)
+                if isinstance(loaded_tensor, torch.Tensor):
+                    return loaded_tensor
+                else:
+                    logger.error(f"Loaded data for key {key} is not a tensor.")
+                    return None
         except FileNotFoundError:
             return None
 
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index 4202db80154b..5d9a88f35d04 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -105,6 +105,14 @@ def get_flat_data_page(self, index) -> torch.Tensor:
         """
         raise NotImplementedError()
 
+    @abc.abstractmethod
+    def get_dummy_flat_data_page(self) -> torch.Tensor:
+        """
+        Get a dummy flat data page from the host memory pool.
+        This is used for prefetching or initializing empty pages.
+        """
+        raise NotImplementedError()
+
     @abc.abstractmethod
     def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
         """
@@ -256,6 +264,14 @@ def init_kv_buffer(self):
     def get_flat_data_page(self, index) -> torch.Tensor:
         return self.kv_buffer[:, :, index : index + self.page_size, :, :].flatten()
 
+    def get_dummy_flat_data_page(self) -> torch.Tensor:
+        return torch.zeros(
+            (2, self.layer_num, self.page_size, self.head_num, self.head_dim),
+            dtype=self.dtype,
+            device=self.device,
+            pin_memory=self.pin_memory,
+        ).flatten()
+
     def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
         self.kv_buffer[:, :, index : index + self.page_size, :, :] = data_page.reshape(
             2,
@@ -355,6 +371,19 @@ def init_kv_buffer(self):
     def get_flat_data_page(self, index) -> torch.Tensor:
         return self.kv_buffer[:, index : index + self.page_size, :, :].flatten()
 
+    def get_dummy_flat_data_page(self) -> torch.Tensor:
+        return torch.zeros(
+            (
+                self.layer_num,
+                self.page_size,
+                1,
+                self.kv_lora_rank + self.qk_rope_head_dim,
+            ),
+            dtype=self.dtype,
+            device=self.device,
+            pin_memory=self.pin_memory,
+        ).flatten()
+
     def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
         self.kv_buffer[:, index : index + self.page_size, :, :] = data_page.reshape(
             self.layer_num,
diff --git a/python/sglang/srt/mem_cache/nixl/README.md b/python/sglang/srt/mem_cache/nixl/README.md
new file mode 100644
index 000000000000..b00e0774e33c
--- /dev/null
+++ b/python/sglang/srt/mem_cache/nixl/README.md
@@ -0,0 +1,164 @@
+# NIXL Integration for HiCache
+
+This directory contains the **NIXL (NVIDIA Inference Xfer Library)** integration for **HiCache**, enabling high-performance storage across multiple backends.
+
+NIXL provides a unified API for accessing various storage plugins, including but not limited to:
+
+- **Deepseek's 3FS APIs** for high-throughput file operations
+- **GPU Direct Storage (GDS)** for direct data movement between storage and GPU memory, bypassing CPU memory copies
+- **Amazon S3-compatible object storage** for key-value access patterns
+
+Additional backend integrations are planned for future releases.
+
+## NIXL Resources
+
+- **Project Repository**: [NIXL on GitHub](https://github.com/ai-dynamo/nixl)
+- **Documentation**: [NIXL Documentation](https://github.com/ai-dynamo/nixl/tree/main/docs)
+
+## Overview
+
+The NIXL integration consists of two main files:
+
+- **`hicache_nixl.py`** - Main HiCache storage connector using NIXL
+- **`nixl_utils.py`** - Utility classes for backend selection, registration, and file management
+
+## Components
+
+### HiCacheNixl
+The main storage connector that provides:
+- Single and batch tensor set/get operations
+- Automatic backend selection (3FS > POSIX > GDS_MT > GDS > OBJ)
+- High-performance file-based (or) object based storage access using NIXL
+
+### NixlUtils
+Consolidated utility classes:
+- **NixlBackendSelection** - Handles backend selection and creation
+- **NixlRegistration** - Manages memory registration for tensors, files and objects
+- **NixlFileManager** - Handles file system operations and NIXL tuple creation
+
+## Running Unit Tests
+
+### Prerequisites
+- NIXL library installed and available (latest main required for supporting object query)
+- PyTorch installed
+- Python 3.8+
+
+### Unit tests from Project root
+Navigate to the project root directory (`/path/to/sglang`) and run:
+
+#### Run all NIXL tests:
+```bash
+PYTHONPATH=. python -m pytest test/srt/test_hicache_nixl_storage.py -o asyncio_mode=strict
+```
+
+#### Run with verbose output:
+```bash
+PYTHONPATH=. python -m pytest test/srt/test_hicache_nixl_storage.py -v -o asyncio_mode=strict
+```
+
+Note: The `-v` flag provides more detailed output, showing each test case name and its result.
+
+#### Run a specific test:
+```bash
+PYTHONPATH=. python -m pytest test/srt/test_hicache_nixl_storage.py -v -k test_single_set_get -o asyncio_mode=strict
+```
+
+### From Tests Directory
+Navigate to the tests directory and run:
+
+```bash
+cd test/srt
+PYTHONPATH=../.. python -m pytest test_hicache_nixl_storage.py -o asyncio_mode=strict
+```
+Note: The `-o asyncio_mode=strict` flag is added to suppress warnings about asyncio configuration. This is not required for test functionality but provides cleaner output.
+
+## Test Coverage
+
+Tests for this integration, a test suite can be found at `test_hicache_nixl_storage.py` which covers:
+
+### HiCache Integration Tests (4 tests)
+- Single tensor set/get operations
+- Batch tensor set/get operations
+- Mixed single and batch operations
+- Data integrity for various tensor types
+
+### File Management Tests (5 tests)
+- Basic file operations
+- NIXL tuple creation
+- Error handling in file operations
+
+### Registration Tests (2 tests)
+- Tensor registration with memory type detection
+- File registration using NIXL tuples
+
+## Expected Output
+
+When tests run successfully, you should see:
+- NIXL agent initialization messages
+- Backend selection messages (e.g., "Backend POSIX was instantiated")
+- Test results with "ok" for passed tests
+- Summary showing "Ran X tests in Y seconds" and "OK"
+
+## Troubleshooting
+
+### Import Errors
+If you encounter `ModuleNotFoundError`, ensure:
+- You're running from the correct directory
+- `PYTHONPATH` is set correctly
+- NIXL library is properly installed
+
+### NIXL Errors
+If NIXL operations fail:
+- Check that NIXL is properly installed
+- Verify that required plugins are available
+- Ensure file permissions are correct for test directories
+
+## File Structure
+
+```
+python/sglang/srt/mem_cache/nixl/
+├── hicache_nixl.py          # Main HiCache storage connector
+├── nixl_utils.py            # All NIXL utility classes
+├── README.md                # This file
+└── tests/
+    └── test_nixl_unified.py # All tests in one file
+```
+
+## Dependencies
+
+- **NIXL**: NVIDIA Inference Xfer Library (version 0.4 or later)
+  - Required plugins: POSIX (minimum), 3FS/GDS (optional for better performance)
+  - See [NIXL Installation Guide](https://github.com/ai-dynamo/nixl/blob/main/README.md#installation)
+- **PyTorch**: For tensor operations (version 1.8 or later)
+- **Python 3.8+**: For type hints and modern features
+
+## Supported Features
+
+### Memory Types
+- **Tensor side**: multi-dimensional tensors of all numeric types (int32, int64, float32, float64) are supported.
+  - Tensors can be on CPU or GPU (as long as a GPU capable backend such as GDS_MT is available).
+  - Currently each tensor is mapped to a file or key, but it can be extended to support multiple keys per file or key.
+
+- **Storage side**: file and object are supported through their relevant backends (e.g., 3FS or OBJ).
+
+### Backend Priority
+
+The NIXL backend selection follows this priority order:
+1. **3FS** - Highest performance (if available)
+    - Best for high-throughput file operations using Deepseek 3FS APIs
+2. **POSIX** - Standard file I/O (fallback)
+    - Universal compatibility
+    - Good for development and testing - Leverages both libaio/liburing
+3. **GDS_MT** - Multi-threaded GDS (if available)
+    - Optimized for concurrent operations
+    - Supports GPU Direct storage with multiple light weight threads
+4. **GDS** - GPU Direct Storage (if available)
+    - Direct GPU-storage data path
+    - Best for filesystems benefiting from batch operations and smaller IOs.
+5. **OBJ** - Amazon S3 based Object Storage
+    - Key-value based storage
+The system automatically selects the best available backend, with POSIX as the default fallback.
+
+## Note
+
+This is v0 of the NIXL connector. Future versions will focus on further performance optimizations such as memory pre-registration (pre-allocating and registering memory buffers to reduce registration overhead during transfers) and block merging (combining related blocks as offsets within the same file to reduce file operations and improve throughput). These optimizations require changes at a higher layer, as the current HiCache API doesn't expose information like block relationships or hash patterns that would enable these optimizations.
diff --git a/python/sglang/srt/mem_cache/nixl/hicache_nixl.py b/python/sglang/srt/mem_cache/nixl/hicache_nixl.py
new file mode 100644
index 000000000000..35d8ec38ad46
--- /dev/null
+++ b/python/sglang/srt/mem_cache/nixl/hicache_nixl.py
@@ -0,0 +1,163 @@
+import hashlib
+import logging
+import os
+import time
+import uuid
+from typing import Dict, List, Optional, Tuple, Union
+
+import torch
+
+from sglang.srt.mem_cache.hicache_storage import HiCacheStorage
+
+from .nixl_utils import NixlBackendSelection, NixlFileManager, NixlRegistration
+
+try:
+    from nixl._api import nixl_agent, nixl_agent_config
+except ImportError as e:
+    raise ImportError(
+        "Please install NIXL by following the instructions at "
+        "https://github.com/ai-dynamo/nixl/blob/main/README.md "
+        "to use HiCacheNixl storage backend."
+    ) from e
+
+logger = logging.getLogger(__name__)
+
+
+class HiCacheNixl(HiCacheStorage):
+    """HiCacheNixl provides high-performance storage using NIXL plugins."""
+
+    def __init__(self, file_path: str = "/tmp/hicache_storage", plugin: str = "auto"):
+        """Initialize NIXL storage connector."""
+        self.file_manager = (
+            NixlFileManager(file_path)
+            if plugin not in NixlBackendSelection.OBJ_PLUGINS
+            else None
+        )
+
+        agent_config = nixl_agent_config(backends=[])
+        self.agent_name = f"hicache_nixl_{str(uuid.uuid4())}"
+        self.agent = nixl_agent(self.agent_name, agent_config)
+
+        self.backend_selector = NixlBackendSelection(plugin)
+        if not self.backend_selector.create_backend(self.agent):
+            raise RuntimeError("Failed to create NIXL backend")
+
+        self.registration = NixlRegistration(self.agent)
+
+    def _execute_transfer(
+        self, tensors: List[torch.Tensor], keys: List[str], direction: str
+    ) -> bool:
+        if len(tensors) != len(keys):
+            logger.error("Mismatch between number of tensors and files/objects")
+            return False
+
+        if not self.registration.register_buffers(tensors):
+            logger.error("Failed to register tensors")
+            return False
+
+        # Get transfer tuples based on backend type
+        tensor_sizes = [tensor.element_size() * tensor.numel() for tensor in tensors]
+        if self.backend_selector.mem_type == "FILE":
+            file_tuples = self.file_manager.files_to_nixl_tuples(keys)
+            if not file_tuples or not self.registration.register_files(file_tuples):
+                logger.error("Failed to prepare files for transfer")
+                return False
+            transfer_tuples = [
+                (x[0], s, x[2]) for x, s in zip(file_tuples, tensor_sizes)
+            ]
+        else:
+            if not self.registration.register_objects(keys, tensors):
+                logger.error("Failed to register objects")
+                return False
+            transfer_tuples = [(0, s, key) for s, key in zip(tensor_sizes, keys)]
+
+        try:
+            # Get transfer descriptors
+            if (tensor_descs := self.agent.get_xfer_descs(tensors)) is None or (
+                file_descs := self.agent.get_xfer_descs(
+                    transfer_tuples, self.backend_selector.mem_type
+                )
+            ) is None:
+                logger.error("Failed to get transfer descriptors")
+                return False
+
+            # Initialize and execute transfer
+            if (
+                xfer_req := self.agent.initialize_xfer(
+                    direction, tensor_descs, file_descs, self.agent_name
+                )
+            ) is None:
+                logger.error("Failed to create transfer request")
+                return False
+
+            state = self.agent.transfer(xfer_req)
+            while state != "DONE":
+                state = self.agent.check_xfer_state(xfer_req)
+                if state == "ERR":
+                    logger.error("Transfer failed")
+                    return False
+            time.sleep(0.0001)  # Can be changed to os.sched_yield() or parametrized
+            return True
+
+        except Exception as e:
+            logger.error(f"Failed to execute transfer: {e}")
+            import traceback
+
+            logger.error(f"Traceback: {traceback.format_exc()}")
+            return False
+
+    def batch_set(self, keys: List[str], values: List[torch.Tensor]) -> bool:
+        if not keys:
+            return True
+
+        if self.backend_selector.mem_type == "FILE":
+            file_paths = []
+            for key in keys:
+                tensor_path = self.file_manager.get_file_path(key)
+                if not self.file_manager.create_file(tensor_path):
+                    logger.error(f"Failed to create file {tensor_path}")
+                    return False
+                file_paths.append(tensor_path)
+            return self._execute_transfer(values, file_paths, "WRITE")
+        else:
+            return self._execute_transfer(values, keys, "WRITE")
+
+    def set(self, key: str, value: torch.Tensor) -> bool:
+        return self.batch_set([key], [value])
+
+    def get(
+        self, key: str, dst_tensor: Optional[torch.Tensor] = None
+    ) -> torch.Tensor | None:
+        if dst_tensor is None:  # To be removed, being compatible with the current API
+            return None
+        result = self.batch_get([key], [dst_tensor])
+        return result[0] if result else None
+
+    def batch_get(
+        self, keys: List[str], dst_tensors: List[torch.Tensor]
+    ) -> List[Optional[torch.Tensor]]:
+        if not keys:
+            return []
+
+        if self.backend_selector.mem_type == "FILE":
+            file_paths = [self.file_manager.get_file_path(key) for key in keys]
+            success = self._execute_transfer(dst_tensors, file_paths, "READ")
+        else:
+            success = self._execute_transfer(dst_tensors, keys, "READ")
+        return dst_tensors if success else [None] * len(keys)
+
+    def exists(self, key: str) -> bool:
+        tuples = self.registration.create_query_tuples(
+            key,
+            self.backend_selector.mem_type,
+            self.file_manager if self.backend_selector.mem_type == "FILE" else None,
+        )
+        if not tuples:
+            return False
+
+        query_res = self.agent.query_memory(
+            tuples,
+            self.backend_selector.backend_name,
+            mem_type=self.backend_selector.mem_type,
+        )
+        return query_res[0] is not None  # can be expanded to multiple keys
diff --git a/python/sglang/srt/mem_cache/nixl/nixl_utils.py b/python/sglang/srt/mem_cache/nixl/nixl_utils.py
new file mode 100644
index 000000000000..476aed3a4755
--- /dev/null
+++ b/python/sglang/srt/mem_cache/nixl/nixl_utils.py
@@ -0,0 +1,238 @@
+import logging
+import os
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+import torch
+
+logger = logging.getLogger(__name__)
+
+
+class NixlBackendSelection:
+    """Handles NIXL backend selection and creation."""
+
+    # Priority order for File-based plugins in case of auto selection
+    FILE_PLUGINS = ["3FS", "POSIX", "GDS_MT", "GDS"]
+    # Priority order for File-based plugins in case of auto selection (add more as needed)
+    OBJ_PLUGINS = ["OBJ"]  # Based on Amazon S3 SDK
+
+    def __init__(self, plugin: str = "auto"):
+        """Initialize backend selection.
+        Args:
+            plugin: Plugin to use (default "auto" selects best available).
+                   Can be a file plugin (3FS, POSIX, GDS, GDS_MT) or
+                   an object plugin (OBJ).
+        """
+        self.plugin = plugin
+        self.backend_name = None
+        self.mem_type = None
+
+    def set_bucket(self, bucket_name: str) -> None:
+        """Set AWS bucket name in environment variable."""
+        os.environ["AWS_DEFAULT_BUCKET"] = bucket_name
+        logger.debug(f"Set AWS bucket name to: {bucket_name}")
+
+    def create_backend(self, agent) -> bool:
+        """Create the appropriate NIXL backend based on configuration."""
+        try:
+            plugin_list = agent.get_plugin_list()
+            logger.debug(f"Available NIXL plugins: {plugin_list}")
+
+            # Handle explicit plugin selection or auto priority
+            if self.plugin == "auto":
+                # Try all file plugins first
+                for plugin in self.FILE_PLUGINS:
+                    if plugin in plugin_list:
+                        self.backend_name = plugin
+                        break
+                # If no file plugin found, try object plugins
+                if not self.backend_name:
+                    for plugin in self.OBJ_PLUGINS:
+                        if plugin in plugin_list:
+                            self.backend_name = plugin
+                            break
+            else:
+                # Use explicitly requested plugin
+                self.backend_name = self.plugin
+
+            if self.backend_name not in plugin_list:
+                logger.error(
+                    f"Backend {self.backend_name} not available in plugins: {plugin_list}"
+                )
+                return False
+
+            # Create backend and set memory type
+            if self.backend_name in self.OBJ_PLUGINS:
+                bucket = os.environ.get("AWS_DEFAULT_BUCKET")
+                if not bucket:
+                    logger.error(
+                        "AWS_DEFAULT_BUCKET environment variable must be set for object storage"
+                    )
+                    return False
+                agent.create_backend(self.backend_name, {"bucket": bucket})
+            else:
+                agent.create_backend(self.backend_name)
+
+            self.mem_type = "OBJ" if self.backend_name in self.OBJ_PLUGINS else "FILE"
+            logger.debug(
+                f"Created NIXL backend: {self.backend_name} with memory type: {self.mem_type}"
+            )
+            return True
+
+        except Exception as e:
+            logger.error(f"Failed to create NIXL backend: {e}")
+            return False
+
+
+class NixlRegistration:
+    """Handles NIXL memory registration."""
+
+    def __init__(self, agent):
+        self.agent = agent
+
+    def create_query_tuples(
+        self, key: str, mem_type: str, file_manager=None
+    ) -> List[Tuple]:
+        """Create NIXL tuples for querying memory.
+        Args:
+            key: Key to query (file path for FILE or object key for OBJ)
+            mem_type: Memory type ("FILE" or "OBJ")
+            file_manager: Optional NixlFileManager for FILE memory type
+        Returns:
+            List of NIXL tuples for querying
+        """
+        if mem_type == "FILE":
+            if file_manager is None:
+                logger.error("file_manager required for FILE memory type")
+                return []
+            return [(0, 0, 0, file_manager.get_file_path(key))]
+        else:  # OBJ
+            return [(0, 0, key)]
+
+    def _register_memory(
+        self, items: Union[List[tuple], List[torch.Tensor]], mem_type: str, desc: str
+    ) -> Optional[Any]:
+        """Common registration logic for files, objects, and buffers.
+        Args:
+            items: List of tuples or tensors to register
+            mem_type: Memory type ("FILE", "OBJ", "DRAM", "VRAM")
+            desc: Description for logging
+        """
+        try:
+            if not items:
+                return None
+
+            reg_descs = self.agent.get_reg_descs(items, mem_type)
+            if reg_descs is None:
+                logger.error("Failed to create registration descriptors")
+                return None
+
+            registered_memory = self.agent.register_memory(reg_descs)
+            if registered_memory:
+                return registered_memory
+            else:
+                logger.error("Failed to register with NIXL")
+                return None
+
+        except Exception as e:
+            logger.error(f"Failed to register {desc}: {e}")
+            return None
+
+    def register_buffers(
+        self, buffers: Union[torch.Tensor, List[torch.Tensor]]
+    ) -> Optional[Any]:
+        """Register tensors/buffers with NIXL."""
+        if isinstance(buffers, torch.Tensor):
+            buffers = [buffers]
+
+        if not buffers:
+            return None
+
+        # Determine memory type based on tensor device
+        mem_type = "VRAM" if buffers[0].device.type == "cuda" else "DRAM"
+        return self._register_memory(buffers, mem_type, "buffers")
+
+    def register_files(self, tuples: List[tuple]) -> Optional[Any]:
+        """Register files with NIXL using (0, 0, fd, file_path) tuples."""
+        return self._register_memory(tuples, "FILE", "files")
+
+    def register_objects(
+        self, keys: List[str], tensors: Optional[List[torch.Tensor]] = None
+    ) -> Optional[Any]:
+        """Register objects with NIXL."""
+        if not keys:
+            return None
+
+        # Create object tuples with proper sizes
+        tuples = [
+            (0, tensor.element_size() * tensor.numel() if tensor else 0, key)
+            for key, tensor in zip(keys, tensors or [None] * len(keys))
+        ]
+        return self._register_memory(tuples, "OBJ", "objects")
+
+
+class NixlFileManager:
+    """Handles file system operations for NIXL."""
+
+    def __init__(self, base_dir: str):
+        """
+        Initialize file manager.
+        Args:
+            base_dir: Base directory for storing tensor files
+        """
+        self.base_dir = base_dir
+        if base_dir == "":
+            logger.debug(f"Initialized file manager without a base directory")
+        else:
+            os.makedirs(base_dir, exist_ok=True)
+            logger.debug(f"Initialized file manager with base directory: {base_dir}")
+
+    def get_file_path(self, key: str) -> str:
+        """Get full file path for a given key."""
+        return os.path.join(self.base_dir, key)
+
+    def create_file(self, file_path: str) -> bool:
+        """Create a file if it doesn't exist."""
+        try:
+            os.makedirs(os.path.dirname(file_path), exist_ok=True)
+            if not os.path.exists(file_path):
+                with open(file_path, "wb") as f:
+                    pass  # Create empty file
+            return True
+        except Exception as e:
+            logger.error(f"Failed to create file {file_path}: {e}")
+            return False
+
+    def open_file(self, file_path: str) -> Optional[int]:
+        """Open a file and return its file descriptor."""
+        try:
+            fd = os.open(file_path, os.O_RDWR)
+            return fd
+        except Exception as e:
+            logger.error(f"Failed to open file {file_path}: {e}")
+            return None
+
+    def close_file(self, fd: int) -> bool:
+        """Close a file descriptor."""
+        try:
+            os.close(fd)
+            return True
+        except Exception as e:
+            logger.error(f"Failed to close file descriptor {fd}: {e}")
+            return False
+
+    def files_to_nixl_tuples(
+        self, file_paths: List[str], open_file: bool = True
+    ) -> List[Tuple[int, int, int, str]]:
+        """Create NIXL tuples (offset, length, fd, file_path) for given files."""
+        if not open_file:
+            return [(0, 0, 0, path) for path in file_paths]
+
+        tuples = []
+        for path in file_paths:
+            if (fd := self.open_file(path)) is None:
+                # Clean up on failure
+                for t in tuples:
+                    self.close_file(t[2])
+                return []
+            tuples.append((0, 0, fd, path))
+        return tuples
diff --git a/python/sglang/srt/mem_cache/nixl/test_hicache_nixl_storage.py b/python/sglang/srt/mem_cache/nixl/test_hicache_nixl_storage.py
new file mode 100755
index 000000000000..572a032bf999
--- /dev/null
+++ b/python/sglang/srt/mem_cache/nixl/test_hicache_nixl_storage.py
@@ -0,0 +1,216 @@
+#!/usr/bin/env python3
+
+import os
+import unittest
+from typing import List, Optional
+from unittest.mock import MagicMock
+
+import torch
+
+from sglang.srt.mem_cache.nixl.hicache_nixl import HiCacheNixl
+from sglang.srt.mem_cache.nixl.nixl_utils import NixlFileManager, NixlRegistration
+
+
+class TestNixlUnified(unittest.TestCase):
+    """Unified test suite for all NIXL components."""
+
+    def setUp(self):
+        """Set up test environment."""
+        # Create test directories
+        self.test_dir = "/tmp/test_nixl_unified"
+        os.makedirs(self.test_dir, exist_ok=True)
+
+        # Mock NIXL agent for registration tests
+        self.mock_agent = MagicMock()
+        self.mock_agent.get_reg_descs.return_value = "mock_reg_descs"
+        self.mock_agent.register_memory.return_value = "mock_registered_memory"
+
+        # Create instances
+        self.file_manager = NixlFileManager(self.test_dir)
+        self.registration = NixlRegistration(self.mock_agent)
+        try:
+            self.hicache = HiCacheNixl(file_path=self.test_dir, plugin="POSIX")
+        except ImportError:
+            self.skipTest("NIXL not available, skipping NIXL storage tests")
+
+    def tearDown(self):
+        """Clean up test directories."""
+        if os.path.exists(self.test_dir):
+            import shutil
+
+            shutil.rmtree(self.test_dir)
+
+    def delete_test_file(self, file_path: str) -> bool:
+        """Helper method to delete a test file.
+
+        Args:
+            file_path: Path to the file to delete
+
+        Returns:
+            bool: True if file was deleted or didn't exist, False on error
+        """
+        try:
+            if os.path.exists(file_path):
+                os.remove(file_path)
+            return True
+        except Exception as e:
+            return False
+
+    def verify_tensors_equal(self, expected: torch.Tensor, actual: torch.Tensor):
+        """Helper to verify tensor equality."""
+        self.assertIsNotNone(actual, "Retrieved tensor is None")
+        self.assertTrue(
+            torch.allclose(expected, actual, atol=1e-6),
+            f"Tensors not equal:\nExpected: {expected}\nActual: {actual}",
+        )
+
+    def verify_tensor_lists_equal(
+        self, expected: List[torch.Tensor], actual: List[torch.Tensor]
+    ):
+        """Helper to verify lists of tensors are equal."""
+        self.assertEqual(len(expected), len(actual), "Lists have different lengths")
+        for exp, act in zip(expected, actual):
+            self.verify_tensors_equal(exp, act)
+
+    # ============================================================================
+    # HiCache Integration Tests
+    # ============================================================================
+
+    def test_single_set_get(self):
+        """Test single tensor set/get operations."""
+        key = "test_key"
+        value = torch.randn(10, 10, device="cpu")
+        dst_tensor = torch.zeros_like(value, device="cpu")
+
+        # Test set
+        self.assertTrue(self.hicache.set(key, value))
+        self.assertTrue(self.hicache.exists(key))
+
+        # Test get
+        retrieved = self.hicache.get(key, dst_tensor)
+        self.verify_tensors_equal(value, retrieved)
+
+    def test_batch_set_get(self):
+        """Test batch tensor set/get operations."""
+        keys = ["key1", "key2", "key3"]
+        values = [
+            torch.randn(5, 5, device="cpu"),
+            torch.randn(3, 3, device="cpu"),
+            torch.randn(7, 7, device="cpu"),
+        ]
+        dst_tensors = [torch.zeros_like(v, device="cpu") for v in values]
+
+        # Test batch set
+        self.assertTrue(self.hicache.batch_set(keys, values))
+        self.assertTrue(all(self.hicache.exists(key) for key in keys))
+
+        # Test batch get
+        retrieved = self.hicache.batch_get(keys, dst_tensors)
+        self.verify_tensor_lists_equal(values, retrieved)
+
+    def test_mixed_operations(self):
+        """Test mixing single and batch operations."""
+        # Test interleaved set/get operations
+        key1, key2 = "key1", "key2"
+        value1 = torch.randn(4, 4, device="cpu")
+        value2 = torch.randn(6, 6, device="cpu")
+        dst1 = torch.zeros_like(value1)
+        dst2 = torch.zeros_like(value2)
+
+        # Single set/get
+        self.assertTrue(self.hicache.set(key1, value1))
+        retrieved1 = self.hicache.get(key1, dst1)
+        self.verify_tensors_equal(value1, retrieved1)
+
+        # Batch set/get
+        self.assertTrue(self.hicache.batch_set([key2], [value2]))
+        retrieved2 = self.hicache.batch_get([key2], [dst2])
+        self.verify_tensors_equal(value2, retrieved2[0])
+
+    def test_data_integrity(self):
+        """Test data integrity across operations."""
+        # Test with various tensor types and sizes
+        test_cases = [
+            ("float32", torch.randn(10, 10, dtype=torch.float32)),
+            ("float64", torch.randn(5, 5, dtype=torch.float64)),
+            ("int32", torch.randint(-100, 100, (8, 8), dtype=torch.int32)),
+            ("int64", torch.randint(-100, 100, (6, 6), dtype=torch.int64)),
+            ("bool", torch.randint(0, 2, (4, 4)).bool()),
+        ]
+
+        for name, tensor in test_cases:
+            with self.subTest(tensor_type=name):
+                key = f"test_{name}"
+                dst_tensor = torch.zeros_like(tensor)
+
+                # Set and immediately get
+                self.assertTrue(self.hicache.set(key, tensor))
+                retrieved1 = self.hicache.get(key, dst_tensor)
+                self.verify_tensors_equal(tensor, retrieved1)
+
+                # Get again to verify persistence
+                dst_tensor.zero_()
+                retrieved2 = self.hicache.get(key, dst_tensor)
+                self.verify_tensors_equal(tensor, retrieved2)
+
+    def test_basic_file_operations(self):
+        """Test basic file operations."""
+        test_file = os.path.join(self.test_dir, "test_file.bin")
+        self.file_manager.create_file(test_file)
+        self.assertTrue(os.path.exists(test_file))
+        self.assertEqual(os.path.getsize(test_file), 0)  # Empty file
+
+        # Test file deletion
+        self.assertTrue(self.delete_test_file(test_file))
+        self.assertFalse(os.path.exists(test_file))
+
+    def test_create_nixl_tuples(self):
+        """Test creation of NIXL tuples."""
+        test_file = os.path.join(self.test_dir, "test_file.bin")
+        self.file_manager.create_file(test_file)
+
+        # Test tuple creation
+        tuples = self.file_manager.files_to_nixl_tuples([test_file], False)
+        self.assertIsNotNone(tuples)
+        self.assertTrue(len(tuples) > 0)
+
+    def test_error_handling(self):
+        """Test error handling in file operations."""
+        # Test non-existent file
+        self.assertTrue(
+            self.delete_test_file("nonexistent_file.bin")
+        )  # Returns True if file doesn't exist
+
+        # Test invalid file path
+        self.assertFalse(self.file_manager.create_file(""))  # Empty path should fail
+
+    def test_register_buffers(self):
+        """Test registration of memory buffers."""
+        # Create test tensor
+        tensor = torch.randn(10, 10)
+
+        # Test buffer registration
+        self.assertIsNotNone(self.registration.register_buffers(tensor))
+
+        # Test batch registration
+        tensors = [torch.randn(5, 5) for _ in range(3)]
+        self.assertIsNotNone(self.registration.register_buffers(tensors))
+
+    def test_register_files_with_tuples(self):
+        """Test registration of files using NIXL tuples."""
+        files = [os.path.join(self.test_dir, f"test_file_{i}.bin") for i in range(3)]
+        for file in files:
+            self.file_manager.create_file(file)
+
+        # Create tuples and register
+        tuples = self.file_manager.files_to_nixl_tuples(files, False)
+        self.registration.register_files(tuples)
+
+        # Verify tuples
+        self.assertEqual(len(tuples), len(files))
+        for t, f in zip(tuples, files):
+            self.assertEqual(t[3], f)  # Check file path
+
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 4ba08973dc4f..0a35fa00e81e 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1471,7 +1471,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
         parser.add_argument(
             "--hicache-storage-backend",
             type=str,
-            choices=["file", "mooncake", "hf3fs"],
+            choices=["file", "mooncake", "hf3fs", "nixl"],
             default=ServerArgs.hicache_storage_backend,
             help="The storage backend for hierarchical KV cache.",
         )

From 5c14515feca116ff31c665484d01fd416597341b Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 31 Jul 2025 13:54:02 -0700
Subject: [PATCH 259/396] [bug] remove pdlb from minilb since its no longer
 available (#8634)

---
 python/sglang/srt/disaggregation/launch_lb.py | 25 ++++---------------
 1 file changed, 5 insertions(+), 20 deletions(-)

diff --git a/python/sglang/srt/disaggregation/launch_lb.py b/python/sglang/srt/disaggregation/launch_lb.py
index 96ffe48bf672..bc116fb554a5 100644
--- a/python/sglang/srt/disaggregation/launch_lb.py
+++ b/python/sglang/srt/disaggregation/launch_lb.py
@@ -1,6 +1,8 @@
 import argparse
 import dataclasses
 
+from sglang.srt.disaggregation.mini_lb import PrefillConfig, run
+
 
 @dataclasses.dataclass
 class LBArgs:
@@ -18,7 +20,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
         parser.add_argument(
             "--rust-lb",
             action="store_true",
-            help="Use Rust load balancer",
+            help="Deprecated, please use SGLang Router instead, this argument will have no effect.",
         )
         parser.add_argument(
             "--host",
@@ -115,25 +117,8 @@ def main():
     args = parser.parse_args()
     lb_args = LBArgs.from_cli_args(args)
 
-    if lb_args.rust_lb:
-        from sgl_pdlb._rust import LoadBalancer as RustLB
-
-        RustLB(
-            host=lb_args.host,
-            port=lb_args.port,
-            policy=lb_args.policy,
-            prefill_infos=lb_args.prefill_infos,
-            decode_infos=lb_args.decode_infos,
-            log_interval=lb_args.log_interval,
-            timeout=lb_args.timeout,
-        ).start()
-    else:
-        from sglang.srt.disaggregation.mini_lb import PrefillConfig, run
-
-        prefill_configs = [
-            PrefillConfig(url, port) for url, port in lb_args.prefill_infos
-        ]
-        run(prefill_configs, lb_args.decode_infos, lb_args.host, lb_args.port)
+    prefill_configs = [PrefillConfig(url, port) for url, port in lb_args.prefill_infos]
+    run(prefill_configs, lb_args.decode_infos, lb_args.host, lb_args.port)
 
 
 if __name__ == "__main__":

From b7170cc8206248c9670a0062d9af38c3a59fea4e Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Thu, 31 Jul 2025 13:57:08 -0700
Subject: [PATCH 260/396] [bugfix] Fix flashinfer cutlass EP moe after MoE
 refactor (#8630)

---
 python/sglang/srt/layers/moe/fused_moe_triton/layer.py | 3 ++-
 python/sglang/srt/server_args.py                       | 5 +++++
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index ce76d2f2dd41..88e150e4df20 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -119,7 +119,8 @@ def __init__(
                 * self.num_local_experts : (self.moe_ep_rank + 1)
                 * self.num_local_experts
             ] = torch.arange(0, self.num_local_experts, dtype=torch.int32, device="cpu")
-            self.expert_map_gpu = self.expert_map_cpu.to(device="cuda")
+            if not self.enable_flashinfer_cutlass_moe:
+                self.expert_map_gpu = self.expert_map_cpu.to(device="cuda")
 
         self.routed_scaling_factor = routed_scaling_factor
         assert intermediate_size % self.moe_tp_size == 0
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 0a35fa00e81e..507fb7121856 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -437,6 +437,11 @@ def __post_init__(self):
                 self.quantization == "modelopt_fp4"
             ), "modelopt_fp4 quantization is required for Flashinfer MOE"
             os.environ["TRTLLM_ENABLE_PDL"] = "1"
+            if self.enable_ep_moe:
+                self.ep_size = self.tp_size
+                logger.warning(
+                    f"Flashinfer cutlass MoE and EP MoE are enabled. The expert parallel size is adjusted to be the same as the tensor parallel size[{self.tp_size}]."
+                )
 
         if self.enable_flashinfer_trtllm_moe:
             assert self.enable_ep_moe, "EP MoE is required for Flashinfer TRTLLM MOE"

From 3dde86194a750a39d33b493ef957407c8eafc834 Mon Sep 17 00:00:00 2001
From: pansicheng <sicheng.pan.chn@gmail.com>
Date: Fri, 1 Aug 2025 05:59:29 +0800
Subject: [PATCH 261/396] Conditionally import HiCacheHF3FS (#8598)

Co-authored-by: Zhiqiang Xie <xiezhq@stanford.edu>
---
 .../sglang/srt/managers/cache_controller.py   | 35 ++++++++++---------
 1 file changed, 19 insertions(+), 16 deletions(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index fca7a6a395ae..629dd71a2152 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -25,12 +25,6 @@
     from sglang.srt.mem_cache.allocator import BaseTokenToKVPoolAllocator
     from sglang.srt.mem_cache.memory_pool_host import HostKVCache
 
-from sglang.srt.mem_cache.hicache_storage import HiCacheFile, get_hash_str
-from sglang.srt.mem_cache.mooncake_store.mooncake_store import (
-    MooncakeStore,
-    get_hash_str_mooncake,
-)
-from sglang.srt.mem_cache.storage.hf3fs.storage_hf3fs import HiCacheHF3FS
 
 logger = logging.getLogger(__name__)
 
@@ -251,16 +245,7 @@ def __init__(
         self.enable_storage = False
         # todo: move backend initialization to storage backend module
         if storage_backend is not None:
-            # create a new communication group for synchronizing storage operations across TP workers
-            self.tp_world_size = torch.distributed.get_world_size(group=tp_group)
-            if self.tp_world_size > 1:
-                group_ranks = torch.distributed.get_process_group_ranks(tp_group)
-                self.prefetch_tp_group = torch.distributed.new_group(
-                    group_ranks, backend="gloo"
-                )
-                self.backup_tp_group = torch.distributed.new_group(
-                    group_ranks, backend="gloo"
-                )
+            from sglang.srt.mem_cache.hicache_storage import HiCacheFile, get_hash_str
 
             if storage_backend == "file":
                 self.storage_backend = HiCacheFile()
@@ -271,11 +256,19 @@ def __init__(
                 self.storage_backend = HiCacheNixl()
                 self.get_hash_str = get_hash_str
             elif storage_backend == "mooncake":
+                from sglang.srt.mem_cache.mooncake_store.mooncake_store import (
+                    MooncakeStore,
+                    get_hash_str_mooncake,
+                )
+
                 self.storage_backend = MooncakeStore()
                 self.get_hash_str = get_hash_str_mooncake
                 self.storage_backend.register_buffer(self.mem_pool_host.kv_buffer)
             elif storage_backend == "hf3fs":
                 from sglang.srt.distributed import get_tensor_model_parallel_rank
+                from sglang.srt.mem_cache.storage.hf3fs.storage_hf3fs import (
+                    HiCacheHF3FS,
+                )
 
                 rank = get_tensor_model_parallel_rank()
                 bytes_per_page = (
@@ -293,6 +286,16 @@ def __init__(
             self.enable_storage = True
             # todo: threshold policy for prefetching
             self.prefetch_threshold = max(prefetch_threshold, self.page_size)
+            # create a new communication group for synchronizing storage operations across TP workers
+            self.tp_world_size = torch.distributed.get_world_size(group=tp_group)
+            if self.tp_world_size > 1:
+                group_ranks = torch.distributed.get_process_group_ranks(tp_group)
+                self.prefetch_tp_group = torch.distributed.new_group(
+                    group_ranks, backend="gloo"
+                )
+                self.backup_tp_group = torch.distributed.new_group(
+                    group_ranks, backend="gloo"
+                )
 
         self.load_cache_event = load_cache_event
         self.layer_done_counter = LayerDoneCounter(self.mem_pool_device.layer_num)

From 4b04998d3854830d482b7f5b2eda4ebb49e3dd19 Mon Sep 17 00:00:00 2001
From: Faraz <58580514+farazkh80@users.noreply.github.com>
Date: Thu, 31 Jul 2025 19:03:40 -0400
Subject: [PATCH 262/396] TRTLLM Gen MLA Decode Kernel Integration (same as
 #7938) (#8632)

Signed-off-by: Faraz Khoubsirat <58580514+farazkh80@users.noreply.github.com>
---
 docs/backend/attention_backend.md             |   9 +
 docs/references/deepseek.md                   |   6 +-
 .../layers/attention/trtllm_mla_backend.py    | 372 +++++++
 python/sglang/srt/layers/attention/utils.py   |   7 +-
 .../sglang/srt/model_executor/model_runner.py |   7 +
 python/sglang/srt/models/deepseek_v2.py       |   1 +
 python/sglang/srt/server_args.py              |  18 +
 .../test/attention/test_trtllm_mla_backend.py | 945 ++++++++++++++++++
 8 files changed, 1361 insertions(+), 4 deletions(-)
 create mode 100755 python/sglang/srt/layers/attention/trtllm_mla_backend.py
 create mode 100755 python/sglang/test/attention/test_trtllm_mla_backend.py

diff --git a/docs/backend/attention_backend.md b/docs/backend/attention_backend.md
index caf23446f5a6..3dfe6cb3de5f 100644
--- a/docs/backend/attention_backend.md
+++ b/docs/backend/attention_backend.md
@@ -9,8 +9,12 @@
 | **Triton**               | ❌                | ✅                 | ✅      | ✅                 | ❌              |
 | **Torch Native**         | ❌                | ❌                 | ❌      | ❌                 | ❌              |
 | **FlashMLA**             | ✅                | ✅                 | ✅      | ❌                 | ❌              |
+| **TRTLLM MLA**           | ✅                | ❌                 | ✅      | ✅                 | ❌              |
 | **Ascend**               | ✅                | ❌                 | ❌      | ❌                 | ❌              |
 
+**Notes:**
+- TRTLLM MLA only implements decode operations. For prefill operations (including multimodal inputs), it falls back to FlashInfer MLA backend.
+
 Note: Every kernel backend is compatible with a page size > 1 by specifying an argument such as `--page-size 16`.
 This is because a page size of 16 can be converted to a page size of 1 in the kernel backend.
 The "❌" and "✅" symbols in the table above under "Page Size > 1" indicate whether the kernel actually operates with a page size greater than 1, rather than treating a page size of 16 as a page size of 1.
@@ -48,6 +52,11 @@ python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-R1 --attenti
 python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-R1 --attention-backend flashmla --kv-cache-dtype fp8_e4m3 --trust-remote-code
 ```
 
+- TRTLLM MLA (Optimized for Blackwell Architecture, e.g., B200)
+```bash
+python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-R1 --attention-backend trtllm_mla --trust-remote-code
+```
+
 - Ascend
 ```bash
 python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --attention-backend ascend
diff --git a/docs/references/deepseek.md b/docs/references/deepseek.md
index 8b6d688d1507..af5e38677318 100644
--- a/docs/references/deepseek.md
+++ b/docs/references/deepseek.md
@@ -90,7 +90,7 @@ Please refer to [the example](https://github.com/sgl-project/sglang/tree/main/be
 
 - **Weight Absorption**: By applying the associative law of matrix multiplication to reorder computation steps, this method balances computation and memory access and improves efficiency in the decoding phase.
 
-- **MLA Attention Backends**: Currently SGLang supports different optimized MLA attention backends, including [FlashAttention3](https://github.com/Dao-AILab/flash-attention), [Flashinfer](https://docs.flashinfer.ai/api/mla.html), [FlashMLA](https://github.com/deepseek-ai/FlashMLA), [CutlassMLA](https://github.com/sgl-project/sglang/pull/5390), and [Triton](https://github.com/triton-lang/triton) backends. The default FA3 provides good performance across wide workloads.
+- **MLA Attention Backends**: Currently SGLang supports different optimized MLA attention backends, including [FlashAttention3](https://github.com/Dao-AILab/flash-attention), [Flashinfer](https://docs.flashinfer.ai/api/mla.html), [FlashMLA](https://github.com/deepseek-ai/FlashMLA), [CutlassMLA](https://github.com/sgl-project/sglang/pull/5390), **TRTLLM MLA** (optimized for Blackwell architecture), and [Triton](https://github.com/triton-lang/triton) backends. The default FA3 provides good performance across wide workloads.
 
 - **FP8 Quantization**: W8A8 FP8 and KV Cache FP8 quantization enables efficient FP8 inference. Additionally, we have implemented Batched Matrix Multiplication (BMM) operator to facilitate FP8 inference in MLA with weight absorption.
 
@@ -104,7 +104,7 @@ Overall, with these optimizations, we have achieved up to **7x** acceleration in
   <img src="https://lmsys.org/images/blog/sglang_v0_3/deepseek_mla.svg" alt="Multi-head Latent Attention for DeepSeek Series Models">
 </p>
 
-**Usage**: MLA optimization is enabled by default.
+**Usage**: MLA optimization is enabled by default. For MLA models on Blackwell architecture (e.g., B200), the default backend is FlashInfer. To use the optimized TRTLLM MLA backend for decode operations, explicitly specify `--attention-backend trtllm_mla`. Note that TRTLLM MLA only optimizes decode operations - prefill operations (including multimodal inputs) will fall back to FlashInfer MLA.
 
 **Reference**: Check [Blog](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations) and [Slides](https://github.com/sgl-project/sgl-learning-materials/blob/main/slides/lmsys_1st_meetup_deepseek_mla.pdf) for more details.
 
@@ -161,7 +161,7 @@ Add arguments `--speculative-algorithm`, `--speculative-num-steps`, `--speculati
 python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 --trust-remote-code --tp 8
 ```
 - The best configuration for `--speculative-num-steps`, `--speculative-eagle-topk` and `--speculative-num-draft-tokens` can be searched with [bench_speculative.py](https://github.com/sgl-project/sglang/blob/main/scripts/playground/bench_speculative.py) script for given batch size. The minimum configuration is `--speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2`, which can achieve speedup for larger batch sizes.
-- FlashAttention3 FlashMLA and Triton backend fully supports MTP usage. For FlashInfer backend (`--attention-backend flashinfer`) with speculative decoding,`--speculative-eagle-topk` parameter should be set to `1`. MTP support for the CutlassMLA backend is still under development.
+- FlashAttention3, FlashMLA, and Triton backend fully supports MTP usage. For FlashInfer backend (`--attention-backend flashinfer`) with speculative decoding,`--speculative-eagle-topk` parameter should be set to `1`. MTP support for the CutlassMLA and TRTLLM MLA backends are still under development.
 - To enable DeepSeek MTP for large batch sizes (>32), there are some parameters should be changed (Reference [this discussion](https://github.com/sgl-project/sglang/issues/4543#issuecomment-2737413756)):
   - Adjust `--max-running-requests` to a larger number. The default value is `32` for MTP. For larger batch sizes, you should increase this value beyond the default value.
   - Set `--cuda-graph-bs`. It's a list of batch sizes for cuda graph capture. The default captured batch sizes for speculative decoding is set [here](https://github.com/sgl-project/sglang/blob/49420741746c8f3e80e0eb17e7d012bfaf25793a/python/sglang/srt/model_executor/cuda_graph_runner.py#L126). You can include more batch sizes into it.
diff --git a/python/sglang/srt/layers/attention/trtllm_mla_backend.py b/python/sglang/srt/layers/attention/trtllm_mla_backend.py
new file mode 100755
index 000000000000..d3320144248c
--- /dev/null
+++ b/python/sglang/srt/layers/attention/trtllm_mla_backend.py
@@ -0,0 +1,372 @@
+from __future__ import annotations
+
+"""
+Support attention backend for TRTLLM MLA kernels from flashinfer.
+"""
+
+import math
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Optional, Union
+
+import torch
+import triton
+
+from sglang.srt.layers.attention.flashinfer_mla_backend import FlashInferMLAAttnBackend
+from sglang.srt.layers.attention.utils import (
+    TRITON_PAD_NUM_PAGE_PER_BLOCK,
+    create_flashmla_kv_indices_triton,
+)
+from sglang.srt.layers.dp_attention import get_attention_tp_size
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
+from sglang.srt.utils import is_flashinfer_available
+
+if is_flashinfer_available():
+    import flashinfer
+
+if TYPE_CHECKING:
+    from sglang.srt.layers.radix_attention import RadixAttention
+    from sglang.srt.model_executor.model_runner import ModelRunner
+    from sglang.srt.speculative.spec_info import SpecInfo
+
+# Constants
+DEFAULT_WORKSPACE_SIZE_MB = 128  # Memory workspace size in MB
+
+# Block constraint from flashinfer requirements
+# From flashinfer.decode._check_trtllm_gen_mla_shape:
+#   block_num % (128 / block_size) == 0
+# This imposes that the total number of blocks must be divisible by
+# (128 / block_size). We capture the 128 constant here so we can
+# compute the LCM with other padding constraints.
+TRTLLM_BLOCK_CONSTRAINT = 128
+
+
+@dataclass
+class TRTLLMMLADecodeMetadata:
+    """Metadata for TRTLLM MLA decode operations."""
+
+    workspace: Optional[torch.Tensor] = None
+    block_kv_indices: Optional[torch.Tensor] = None
+
+
+class TRTLLMMLABackend(FlashInferMLAAttnBackend):
+    """TRTLLM MLA attention kernel from flashinfer."""
+
+    def __init__(
+        self,
+        model_runner: ModelRunner,
+        skip_prefill: bool = False,
+        kv_indptr_buf: Optional[torch.Tensor] = None,
+        q_indptr_decode_buf: Optional[torch.Tensor] = None,
+    ):
+        super().__init__(model_runner, skip_prefill, kv_indptr_buf, q_indptr_decode_buf)
+
+        config = model_runner.model_config
+
+        # Model parameters
+        self.num_q_heads = config.num_attention_heads // get_attention_tp_size()
+        self.num_kv_heads = config.get_num_kv_heads(get_attention_tp_size())
+        self.num_local_heads = config.num_attention_heads // get_attention_tp_size()
+
+        # MLA-specific dimensions
+        self.kv_lora_rank = config.kv_lora_rank
+        self.qk_nope_head_dim = config.qk_nope_head_dim
+        self.qk_rope_head_dim = config.qk_rope_head_dim
+        self.v_head_dim = config.v_head_dim
+        self.kv_cache_dim = self.kv_lora_rank + self.qk_rope_head_dim
+
+        # Runtime parameters
+        self.scaling = config.scaling
+        self.data_type = model_runner.kv_cache_dtype
+        self.q_data_type = model_runner.dtype
+        self.page_size = model_runner.page_size
+        self.req_to_token = model_runner.req_to_token_pool.req_to_token
+
+        # Workspace allocation
+        self.workspace_size = DEFAULT_WORKSPACE_SIZE_MB * 1024 * 1024
+        self.workspace_buffer = torch.empty(
+            self.workspace_size, dtype=torch.int8, device=self.device
+        )
+
+        # CUDA graph state
+        self.decode_cuda_graph_metadata = {}
+        self.cuda_graph_kv_indices = None
+        self.forward_metadata: Union[TRTLLMMLADecodeMetadata, None] = None
+
+    def _calc_padded_blocks(self, max_seq_len: int) -> int:
+        """
+        Calculate padded block count that satisfies both TRT-LLM and Triton constraints.
+
+        Args:
+            max_seq_len: Maximum sequence length in tokens
+
+        Returns:
+            Number of blocks padded to satisfy all constraints
+        """
+        blocks = triton.cdiv(max_seq_len, self.page_size)
+
+        # Apply dual constraints (take LCM to satisfy both):
+        # 1. TRT-LLM: block_num % (128 / page_size) == 0
+        # 2. Triton: page table builder uses 64-index bursts, needs multiple of 64
+        trtllm_constraint = TRTLLM_BLOCK_CONSTRAINT // self.page_size
+        constraint_lcm = math.lcm(trtllm_constraint, TRITON_PAD_NUM_PAGE_PER_BLOCK)
+
+        if blocks % constraint_lcm != 0:
+            blocks = triton.cdiv(blocks, constraint_lcm) * constraint_lcm
+        return blocks
+
+    def _create_block_kv_indices(
+        self,
+        batch_size: int,
+        max_blocks: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        device: torch.device,
+    ) -> torch.Tensor:
+        """
+        Create block KV indices tensor using Triton kernel.
+
+        Args:
+            batch_size: Batch size
+            max_blocks: Maximum number of blocks per sequence
+            req_pool_indices: Request pool indices
+            seq_lens: Sequence lengths
+            device: Target device
+
+        Returns:
+            Block KV indices tensor
+        """
+        block_kv_indices = torch.full(
+            (batch_size, max_blocks), -1, dtype=torch.int32, device=device
+        )
+
+        create_flashmla_kv_indices_triton[(batch_size,)](
+            self.req_to_token,
+            req_pool_indices,
+            seq_lens,
+            None,
+            block_kv_indices,
+            self.req_to_token.stride(0),
+            max_blocks,
+            TRITON_PAD_NUM_PAGE_PER_BLOCK,
+            self.page_size,
+        )
+
+        return block_kv_indices
+
+    def init_cuda_graph_state(
+        self,
+        max_bs: int,
+        max_num_tokens: int,
+        kv_indices_buf: Optional[torch.Tensor] = None,
+    ):
+        """Initialize CUDA graph state for TRTLLM MLA."""
+        max_blocks_per_seq = self._calc_padded_blocks(self.max_context_len)
+
+        self.cuda_graph_kv_indices = torch.full(
+            (max_bs, max_blocks_per_seq), -1, dtype=torch.int32, device=self.device
+        )
+        self.cuda_graph_workspace = torch.empty(
+            self.workspace_size, dtype=torch.int8, device=self.device
+        )
+
+    def init_forward_metadata_capture_cuda_graph(
+        self,
+        bs: int,
+        num_tokens: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        encoder_lens: Optional[torch.Tensor],
+        forward_mode: ForwardMode,
+        spec_info: Optional[SpecInfo],
+    ):
+        """Initialize metadata for CUDA graph capture."""
+        # Delegate to parent for non-decode modes or when speculative execution is used.
+        if not (forward_mode.is_decode_or_idle() and spec_info is None):
+            return super().init_forward_metadata_capture_cuda_graph(
+                bs,
+                num_tokens,
+                req_pool_indices,
+                seq_lens,
+                encoder_lens,
+                forward_mode,
+                spec_info,
+            )
+
+        # Custom fast-path for decode/idle without speculative execution.
+        max_seqlen_pad = self._calc_padded_blocks(seq_lens.max().item())
+        block_kv_indices = self.cuda_graph_kv_indices[:bs, :max_seqlen_pad]
+
+        create_flashmla_kv_indices_triton[(bs,)](
+            self.req_to_token,
+            req_pool_indices,
+            seq_lens,
+            None,
+            block_kv_indices,
+            self.req_to_token.stride(0),
+            max_seqlen_pad,
+            TRITON_PAD_NUM_PAGE_PER_BLOCK,
+            self.page_size,
+        )
+
+        metadata = TRTLLMMLADecodeMetadata(self.cuda_graph_workspace, block_kv_indices)
+        self.decode_cuda_graph_metadata[bs] = metadata
+        self.forward_metadata = metadata
+
+    def init_forward_metadata_replay_cuda_graph(
+        self,
+        bs: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        seq_lens_sum: int,
+        encoder_lens: Optional[torch.Tensor],
+        forward_mode: ForwardMode,
+        spec_info: Optional[SpecInfo],
+        seq_lens_cpu: Optional[torch.Tensor],
+    ):
+        """Replay CUDA graph with new inputs."""
+        # Delegate to parent for non-decode modes or when speculative execution is used.
+        if not (forward_mode.is_decode_or_idle() and spec_info is None):
+            return super().init_forward_metadata_replay_cuda_graph(
+                bs,
+                req_pool_indices,
+                seq_lens,
+                seq_lens_sum,
+                encoder_lens,
+                forward_mode,
+                spec_info,
+                seq_lens_cpu,
+            )
+
+        metadata = self.decode_cuda_graph_metadata[bs]
+
+        # Update block indices for new sequences.
+        create_flashmla_kv_indices_triton[(bs,)](
+            self.req_to_token,
+            req_pool_indices[:bs],
+            seq_lens[:bs],
+            None,
+            metadata.block_kv_indices,
+            self.req_to_token.stride(0),
+            metadata.block_kv_indices.shape[1],
+            TRITON_PAD_NUM_PAGE_PER_BLOCK,
+            self.page_size,
+        )
+
+    def get_cuda_graph_seq_len_fill_value(self) -> int:
+        """Get the fill value for sequence lengths in CUDA graph."""
+        return 1
+
+    def init_forward_metadata(self, forward_batch: ForwardBatch):
+        """Initialize the metadata for a forward pass."""
+        # Delegate to parent for non-decode modes or when speculative execution is used.
+        if not (
+            forward_batch.forward_mode.is_decode_or_idle()
+            and forward_batch.spec_info is None
+        ):
+            return super().init_forward_metadata(forward_batch)
+
+        bs = forward_batch.batch_size
+
+        # Get maximum sequence length.
+        if getattr(forward_batch, "seq_lens_cpu", None) is not None:
+            max_seq = forward_batch.seq_lens_cpu.max().item()
+        else:
+            max_seq = forward_batch.seq_lens.max().item()
+
+        max_seqlen_pad = self._calc_padded_blocks(max_seq)
+        block_kv_indices = self._create_block_kv_indices(
+            bs,
+            max_seqlen_pad,
+            forward_batch.req_pool_indices,
+            forward_batch.seq_lens,
+            forward_batch.seq_lens.device,
+        )
+
+        self.forward_metadata = TRTLLMMLADecodeMetadata(
+            self.workspace_buffer, block_kv_indices
+        )
+        forward_batch.decode_trtllm_mla_metadata = self.forward_metadata
+
+    def forward_decode(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        layer: RadixAttention,
+        forward_batch: ForwardBatch,
+        save_kv_cache: bool = True,
+        q_rope: Optional[torch.Tensor] = None,
+        k_rope: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """Run forward for decode using TRTLLM MLA kernel."""
+        # Save KV cache if requested
+        if k is not None and save_kv_cache:
+            cache_loc = forward_batch.out_cache_loc
+            if k_rope is not None:
+                forward_batch.token_to_kv_pool.set_mla_kv_buffer(
+                    layer, cache_loc, k, k_rope
+                )
+            elif v is not None:
+                forward_batch.token_to_kv_pool.set_kv_buffer(layer, cache_loc, k, v)
+
+        # Prepare query tensor inline
+        if q_rope is not None:
+            # q contains NOPE part (v_head_dim)
+            q_nope = q.view(-1, layer.tp_q_head_num, layer.v_head_dim)
+            q_rope_reshaped = q_rope.view(
+                -1, layer.tp_q_head_num, layer.head_dim - layer.v_head_dim
+            )
+            query = torch.cat([q_nope, q_rope_reshaped], dim=-1)
+        else:
+            # q already has both parts
+            query = q.view(-1, layer.tp_q_head_num, layer.head_dim)
+
+        # Ensure query has shape [bs, acc_q_len, num_q_heads, head_dim] when seq_len 1
+        if query.dim() == 3:
+            query = query.unsqueeze(1)
+
+        # Prepare KV cache inline
+        k_cache = forward_batch.token_to_kv_pool.get_key_buffer(layer.layer_id)
+        pages = k_cache.view(-1, self.page_size, self.kv_cache_dim)
+        # TRT-LLM expects single KV data with extra dimension
+        kv_cache = pages.unsqueeze(1)
+
+        # Get metadata
+        metadata = (
+            getattr(forward_batch, "decode_trtllm_mla_metadata", None)
+            or self.forward_metadata
+        )
+
+        # Scale computation for TRTLLM MLA kernel:
+        # - BMM1 scale = q_scale * k_scale * softmax_scale
+        # - For FP16 path we keep q_scale = 1.0, softmax_scale = 1/sqrt(head_dim) which is pre-computed as layer.scaling
+        # - k_scale is read from model checkpoint if available
+        # TODO: Change once fp8 path is supported
+        q_scale = 1.0
+        k_scale = (
+            layer.k_scale_float
+            if getattr(layer, "k_scale_float", None) is not None
+            else 1.0
+        )
+
+        bmm1_scale = q_scale * k_scale * layer.scaling
+
+        # Call TRT-LLM kernel
+        raw_out = flashinfer.decode.trtllm_batch_decode_with_kv_cache_mla(
+            query=query,
+            kv_cache=kv_cache,
+            workspace_buffer=metadata.workspace,
+            qk_nope_head_dim=self.qk_nope_head_dim,
+            kv_lora_rank=self.kv_lora_rank,
+            qk_rope_head_dim=self.qk_rope_head_dim,
+            block_tables=metadata.block_kv_indices,
+            seq_lens=forward_batch.seq_lens.to(torch.int32),
+            max_seq_len=int(metadata.block_kv_indices.shape[1] * self.page_size),
+            bmm1_scale=bmm1_scale,
+        )
+
+        # Extract value projection part and reshape
+        raw_out_v = raw_out[..., : layer.v_head_dim].contiguous()
+        output = raw_out_v.view(-1, layer.tp_q_head_num * layer.v_head_dim)
+
+        return output
diff --git a/python/sglang/srt/layers/attention/utils.py b/python/sglang/srt/layers/attention/utils.py
index 71633d12dce5..e8cd2e1580a1 100644
--- a/python/sglang/srt/layers/attention/utils.py
+++ b/python/sglang/srt/layers/attention/utils.py
@@ -1,6 +1,11 @@
 import triton
 import triton.language as tl
 
+# Keep this in sync with the Triton kernel inside `create_flashmla_kv_indices_triton`.
+# Number of pages that the kernel writes per iteration.
+# Exposed here so other Python modules can import it instead of hard-coding 64.
+TRITON_PAD_NUM_PAGE_PER_BLOCK = 64
+
 
 @triton.jit
 def create_flashinfer_kv_indices_triton(
@@ -50,10 +55,10 @@ def create_flashmla_kv_indices_triton(
     kv_indices_ptr,
     req_to_token_ptr_stride: tl.constexpr,
     kv_indices_ptr_stride: tl.constexpr,
+    NUM_PAGE_PER_BLOCK: tl.constexpr = TRITON_PAD_NUM_PAGE_PER_BLOCK,
     PAGED_SIZE: tl.constexpr = 64,
 ):
     BLOCK_SIZE: tl.constexpr = 4096
-    NUM_PAGE_PER_BLOCK: tl.constexpr = 64
     pid = tl.program_id(axis=0)
 
     # find the req pool idx, this is for batch to token
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 41016c3d9dfa..d04b3c47dc71 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -436,6 +436,7 @@ def model_specific_adjustment(self):
                     "triton",
                     "flashmla",
                     "cutlass_mla",
+                    "trtllm_mla",
                     "ascend",
                 ]:
                     logger.info(
@@ -1437,6 +1438,12 @@ def _get_attention_backend_from_str(self, backend_str: str):
             )
 
             return CutlassMLABackend(self)
+        elif self.server_args.attention_backend == "trtllm_mla":
+            if not self.use_mla_backend:
+                raise ValueError("trtllm_mla backend can only be used with MLA models.")
+            from sglang.srt.layers.attention.trtllm_mla_backend import TRTLLMMLABackend
+
+            return TRTLLMMLABackend(self)
         elif self.server_args.attention_backend == "intel_amx":
             from sglang.srt.layers.attention.intel_amx_backend import (
                 IntelAMXAttnBackend,
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index ace06cb7bc38..bd0e35a2e0a6 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -1259,6 +1259,7 @@ def forward_absorb_core(
             self.current_attention_backend == "fa3"
             or self.current_attention_backend == "flashinfer"
             or self.current_attention_backend == "cutlass_mla"
+            or self.current_attention_backend == "trtllm_mla"
         ):
             attn_output = self.attn_mqa(
                 q_nope_out, k_nope, k_nope, forward_batch, q_rope=q_pe, k_rope=k_pe
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 507fb7121856..c4a520f1ce4f 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -24,6 +24,7 @@
 from typing import List, Literal, Optional, Union
 
 from sglang.srt.hf_transformers_utils import check_gguf_file, get_config
+from sglang.srt.layers.utils import is_sm100_supported
 from sglang.srt.lora.lora_registry import LoRARef
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.utils import (
@@ -402,6 +403,22 @@ def __post_init__(self):
             )
             self.page_size = 128
 
+        if self.attention_backend == "trtllm_mla":
+            if not is_sm100_supported():
+                raise ValueError(
+                    "TRTLLM MLA backend is only supported on Blackwell GPUs (SM100). Please use a different backend."
+                )
+
+            if self.page_size not in [32, 64]:
+                logger.warning(
+                    f"TensorRT-LLM MLA only supports page_size of 32 or 64, changing page_size from {self.page_size} to 64."
+                )
+                self.page_size = 64
+            if self.speculative_algorithm is not None:
+                raise ValueError(
+                    "trtllm_mla backend does not support speculative decoding yet."
+                )
+
         # Set page size
         if self.page_size is None:
             self.page_size = 1
@@ -1225,6 +1242,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "torch_native",
                 "ascend",
                 "triton",
+                "trtllm_mla",
             ],
             default=ServerArgs.attention_backend,
             help="Choose the kernels for attention layers.",
diff --git a/python/sglang/test/attention/test_trtllm_mla_backend.py b/python/sglang/test/attention/test_trtllm_mla_backend.py
new file mode 100755
index 000000000000..be3ed08f40f3
--- /dev/null
+++ b/python/sglang/test/attention/test_trtllm_mla_backend.py
@@ -0,0 +1,945 @@
+import math
+import unittest
+
+import numpy as np
+import torch
+
+from sglang.srt.layers import dp_attention as _dp_attn
+
+# Patch DP-attention globals before importing backends
+# TODO: change the interface of both trtllm_mla and flashinfer backends to take tp_size as an argument instead of patching
+_dp_attn.get_attention_tp_size = lambda: 1  # TP size = 1 for unit test
+
+from sglang.srt.configs.model_config import AttentionArch
+from sglang.srt.layers.attention.flashinfer_mla_backend import FlashInferMLAAttnBackend
+from sglang.srt.layers.attention.trtllm_mla_backend import (
+    TRTLLMMLABackend,
+    TRTLLMMLADecodeMetadata,
+)
+from sglang.srt.layers.attention.utils import TRITON_PAD_NUM_PAGE_PER_BLOCK
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.mem_cache.memory_pool import MLATokenToKVPool
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
+from sglang.srt.utils import is_flashinfer_available
+from sglang.test.test_utils import CustomTestCase
+
+# Global configuration for all tests
+DEFAULT_CONFIG = {
+    "device": "cuda",
+    "dtype": torch.bfloat16,
+    "kv_cache_dtype": torch.bfloat16,
+    "context_len": 2048,
+    "max_bs": 64,
+    "tolerance": 1e-2,
+    "seed_cache": 42,
+    "seed_qkv": 123,
+    # MLA model config (TRTLLM MLA has fixed constraints)
+    "num_attention_heads": 128,
+    "kv_lora_rank": 512,
+    "qk_nope_head_dim": 128,
+    "qk_rope_head_dim": 64,
+    "v_head_dim": 512,
+    "num_kv_heads": 1,
+    "layer_id": 0,
+}
+
+# Centralized test cases for different test scenarios
+TEST_CASES = {
+    "basic_functionality": [
+        {
+            "name": "single",
+            "batch_size": 1,
+            "max_seq_len": 32,
+            "page_size": 32,
+            "description": "Minimal smoke test",
+        },
+        {
+            "name": "batch",
+            "batch_size": 32,
+            "max_seq_len": 128,
+            "page_size": 32,
+            "description": "Medium-scale batch",
+        },
+    ],
+    "decode_output_match": [
+        {
+            "name": "single",
+            "batch_size": 1,
+            "max_seq_len": 64,
+            "page_size": 32,
+            "description": "Single vs reference",
+        },
+        {
+            "name": "batch",
+            "batch_size": 32,
+            "max_seq_len": 64,
+            "page_size": 32,
+            "description": "Batch vs reference",
+        },
+    ],
+    "page_size_consistency": [
+        # Only 32 and 64 supported for now in flashinfer TRTLLM-GEN MLA kernel
+        {
+            "name": "page_32",
+            "batch_size": 8,
+            "max_seq_len": 128,
+            "page_size": 32,
+            "description": "32-token pages",
+        },
+        {
+            "name": "page_64",
+            "batch_size": 8,
+            "max_seq_len": 128,
+            "page_size": 64,
+            "description": "64-token pages",
+        },
+    ],
+    "shape_sanity_tests": [
+        {
+            "name": "basic",
+            "batch_size": 1,
+            "max_seq_len": 128,
+            "page_size": 32,
+            "description": "Single sequence",
+        },
+        {
+            "name": "basic_different_pagesize",
+            "batch_size": 1,
+            "max_seq_len": 128,
+            "page_size": 64,
+            "description": "Different page size",
+        },
+        {
+            "name": "batch",
+            "batch_size": 8,
+            "max_seq_len": 128,
+            "page_size": 32,
+            "description": "Batch shapes",
+        },
+    ],
+    "metadata_tests": [
+        {
+            "name": "single_sequence",
+            "batch_size": 1,
+            "max_seq_len": 64,
+            "page_size": 32,
+            "description": "Single sequence metadata",
+        },
+        {
+            "name": "batch_mixed_lengths",
+            "batch_size": 8,
+            "max_seq_len": 128,
+            "page_size": 32,
+            "description": "Mixed sequence lengths",
+        },
+        {
+            "name": "large_batch",
+            "batch_size": 32,
+            "max_seq_len": 256,
+            "page_size": 64,
+            "description": "Large batch stress test",
+        },
+        {
+            "name": "edge_case_short",
+            "batch_size": 4,
+            "max_seq_len": 16,
+            "page_size": 32,
+            "description": "Sub-page sequences",
+        },
+    ],
+}
+
+
+class MockModelRunner:
+    """Minimal fake ModelRunner for testing MLA backends."""
+
+    def __init__(self, config):
+        self.device = config["device"]
+        self.dtype = config["dtype"]
+        self.kv_cache_dtype = config["kv_cache_dtype"]
+        self.page_size = config["page_size"]
+
+        # Model-config stub with MLA attributes
+        self.model_config = type(
+            "ModelConfig",
+            (),
+            {
+                "context_len": config["context_len"],
+                "attention_arch": AttentionArch.MLA,
+                "num_attention_heads": config["num_attention_heads"],
+                "kv_lora_rank": config["kv_lora_rank"],
+                "qk_nope_head_dim": config["qk_nope_head_dim"],
+                "qk_rope_head_dim": config["qk_rope_head_dim"],
+                "v_head_dim": config["v_head_dim"],
+                "scaling": 1.0
+                / ((config["qk_nope_head_dim"] + config["qk_rope_head_dim"]) ** 0.5),
+                "get_num_kv_heads": staticmethod(lambda _: config["num_kv_heads"]),
+            },
+        )
+
+        # Req-to-token pool
+        max_bs = config["max_bs"]
+        max_ctx = self.model_config.context_len
+        req_to_token = torch.arange(
+            max_bs * max_ctx, dtype=torch.int32, device=self.device
+        ).reshape(max_bs, max_ctx)
+        self.req_to_token_pool = type(
+            "TokenPool",
+            (),
+            {
+                "size": max_bs,
+                "req_to_token": req_to_token,
+            },
+        )
+
+        # KV-token pool (MLA)
+        self.token_to_kv_pool = MLATokenToKVPool(
+            size=max_bs * max_ctx,
+            page_size=config["page_size"],
+            dtype=self.kv_cache_dtype,
+            kv_lora_rank=config["kv_lora_rank"],
+            qk_rope_head_dim=config["qk_rope_head_dim"],
+            layer_num=1,
+            device=self.device,
+            enable_memory_saver=False,
+        )
+
+
+def compare_outputs(trtllm_out, reference_out, tolerance=1e-2):
+    """Compare outputs with detailed analysis."""
+
+    # Basic checks
+    assert (
+        trtllm_out.shape == reference_out.shape
+    ), f"Shape mismatch: {trtllm_out.shape} vs {reference_out.shape}"
+    assert (
+        trtllm_out.dtype == reference_out.dtype
+    ), f"Dtype mismatch: {trtllm_out.dtype} vs {reference_out.dtype}"
+
+    # Check for NaN/Inf
+    assert not torch.isnan(trtllm_out).any(), "TRTLLM output contains NaN"
+    assert not torch.isnan(reference_out).any(), "Reference output contains NaN"
+    assert not torch.isinf(trtllm_out).any(), "TRTLLM output contains Inf"
+    assert not torch.isinf(reference_out).any(), "Reference output contains Inf"
+
+    # Element-wise differences
+    diff = (trtllm_out - reference_out).abs()
+    max_diff = diff.max().item()
+    mean_diff = diff.mean().item()
+
+    # Check numerical equivalence
+    all_close = torch.allclose(
+        trtllm_out, reference_out, rtol=tolerance, atol=tolerance
+    )
+
+    if not all_close:
+        print(
+            f"Comparison failed: max_diff={max_diff:.6f}, mean_diff={mean_diff:.6f}, tolerance={tolerance}"
+        )
+        # Find top differences for debugging
+        flat_diff = diff.flatten()
+        top_diff_indices = torch.topk(flat_diff, k=min(5, flat_diff.numel())).indices
+        print("Top 5 differences:")
+        for i, idx in enumerate(top_diff_indices):
+            idx_tuple = np.unravel_index(idx.cpu().numpy(), trtllm_out.shape)
+            trt_val = trtllm_out[idx_tuple].item()
+            ref_val = reference_out[idx_tuple].item()
+            print(
+                f"  [{idx_tuple}]: TRTLLM={trt_val:.6f}, Reference={ref_val:.6f}, diff={abs(trt_val-ref_val):.6f}"
+            )
+
+    return all_close
+
+
+@unittest.skipIf(
+    not torch.cuda.is_available() or not is_flashinfer_available(),
+    "CUDA + flashinfer required",
+)
+class TestTRTLLMMLA(CustomTestCase):
+    """Test suite for TRTLLM MLA backend with centralized configuration."""
+
+    def _merge_config(self, test_case):
+        """Merge test case with default configuration."""
+        config = DEFAULT_CONFIG.copy()
+        config.update(test_case)
+        return config
+
+    def _create_model_components(self, config):
+        """Create model runners, backends, and layer for testing."""
+        # Create model runners
+        model_runner_trtllm = MockModelRunner(config)
+        model_runner_reference = MockModelRunner(config)
+
+        # Create backends
+        trtllm_backend = TRTLLMMLABackend(model_runner_trtllm)
+        reference_backend = FlashInferMLAAttnBackend(model_runner_reference)
+
+        # Create RadixAttention layer
+        layer = RadixAttention(
+            num_heads=config["num_attention_heads"],
+            head_dim=config["kv_lora_rank"] + config["qk_rope_head_dim"],
+            scaling=model_runner_trtllm.model_config.scaling,
+            num_kv_heads=config["num_kv_heads"],
+            layer_id=config["layer_id"],
+            v_head_dim=config["v_head_dim"],
+            prefix="attn_mqa",
+        )
+
+        return (
+            model_runner_trtllm,
+            model_runner_reference,
+            trtllm_backend,
+            reference_backend,
+            layer,
+        )
+
+    def _create_qkv_tensors(self, batch_size, config):
+        """Create Q, K, V tensors for testing."""
+        head_dim = config["kv_lora_rank"] + config["qk_rope_head_dim"]
+        device = config["device"]
+        dtype = config["dtype"]
+
+        q = torch.randn(
+            (batch_size, config["num_attention_heads"], head_dim),
+            dtype=dtype,
+            device=device,
+        )
+        k = torch.randn(
+            (batch_size, config["num_kv_heads"], head_dim), dtype=dtype, device=device
+        )
+        v = torch.randn(
+            (batch_size, config["num_kv_heads"], config["v_head_dim"]),
+            dtype=dtype,
+            device=device,
+        )
+        return q, k, v
+
+    def _create_forward_batch(
+        self, batch_size, seq_lens, backend, model_runner, config
+    ):
+        """Create a forward batch for the given backend."""
+        fb = ForwardBatch(
+            batch_size=batch_size,
+            input_ids=torch.randint(0, 100, (batch_size, 1), device=config["device"]),
+            out_cache_loc=torch.arange(batch_size, device=config["device"]),
+            seq_lens_sum=int(seq_lens.sum().item()),
+            forward_mode=ForwardMode.DECODE,
+            req_pool_indices=torch.arange(batch_size, device=config["device"]),
+            seq_lens=seq_lens,
+            seq_lens_cpu=seq_lens.cpu(),
+            attn_backend=backend,
+        )
+        fb.req_to_token_pool = model_runner.req_to_token_pool
+        fb.token_to_kv_pool = model_runner.token_to_kv_pool
+        return fb
+
+    def _populate_kv_cache(self, batch_size, seq_lens, model_runners, layer, config):
+        """Populate KV cache with identical data for both backends."""
+        torch.manual_seed(config["seed_cache"])  # Fixed seed for reproducible cache
+
+        for model_runner in model_runners:
+            torch.manual_seed(config["seed_cache"])  # Reset seed for each backend
+            for i in range(batch_size):
+                seq_len = int(seq_lens[i].item())
+                for token_idx in range(seq_len - 1):
+                    # Create random K components for MLA
+                    cache_k_nope = torch.randn(
+                        (1, config["qk_nope_head_dim"]),
+                        dtype=config["dtype"],
+                        device=config["device"],
+                    )
+                    cache_k_rope = torch.randn(
+                        (1, config["qk_rope_head_dim"]),
+                        dtype=config["dtype"],
+                        device=config["device"],
+                    )
+
+                    # Calculate cache location
+                    cache_loc = model_runner.req_to_token_pool.req_to_token[
+                        i, token_idx
+                    ]
+
+                    # Save to KV cache
+                    model_runner.token_to_kv_pool.set_mla_kv_buffer(
+                        layer,
+                        cache_loc.unsqueeze(0),
+                        cache_k_nope.squeeze(0),
+                        cache_k_rope.squeeze(0),
+                    )
+
+    def test_basic_functionality(self):
+        """Test basic functionality with minimal setup."""
+        print(f"\nRunning basic functionality tests...")
+
+        for test_case in TEST_CASES["basic_functionality"]:
+            with self.subTest(test_case=test_case["name"]):
+                print(f"  Testing {test_case['name']}: {test_case['description']}")
+
+                config = self._merge_config(test_case)
+                batch_size = config["batch_size"]
+                max_seq_len = config["max_seq_len"]
+
+                # Create components
+                model_runner_trtllm, _, trtllm_backend, _, layer = (
+                    self._create_model_components(config)
+                )
+
+                # Create sequence lengths - properly handle different batch sizes
+                if batch_size == 2:
+                    seq_lens = torch.tensor(
+                        [max_seq_len, max_seq_len // 2], device=config["device"]
+                    )
+                else:
+                    # For larger batch sizes, create varied sequence lengths
+                    torch.manual_seed(config["seed_cache"])
+                    seq_lens = torch.randint(
+                        max_seq_len // 2,
+                        max_seq_len + 1,
+                        (batch_size,),
+                        device=config["device"],
+                    )
+                    seq_lens[0] = max_seq_len  # Ensure at least one max length
+
+                # Create forward batch
+                fb = self._create_forward_batch(
+                    batch_size, seq_lens, trtllm_backend, model_runner_trtllm, config
+                )
+                trtllm_backend.init_forward_metadata(fb)
+
+                # Populate KV cache
+                self._populate_kv_cache(
+                    batch_size, seq_lens, [model_runner_trtllm], layer, config
+                )
+
+                # Create Q, K, V tensors
+                torch.manual_seed(config["seed_qkv"])
+                q, k, v = self._create_qkv_tensors(batch_size, config)
+
+                # Run forward decode
+                output = trtllm_backend.forward_decode(q, k, v, layer, fb)
+
+                # Basic checks
+                expected_shape = (
+                    batch_size,
+                    config["num_attention_heads"] * config["v_head_dim"],
+                )
+                self.assertEqual(output.shape, expected_shape)
+                self.assertEqual(output.dtype, config["dtype"])
+                self.assertFalse(torch.isnan(output).any())
+                self.assertFalse(torch.isinf(output).any())
+
+    def test_decode_output_match(self):
+        """Test that TRTLLM and FlashInfer MLA backends produce matching outputs."""
+        print(f"\nRunning decode output matching tests...")
+
+        for test_case in TEST_CASES["decode_output_match"]:
+            with self.subTest(test_case=test_case["name"]):
+                print(f"  Testing {test_case['name']}: {test_case['description']}")
+
+                config = self._merge_config(test_case)
+                batch_size = config["batch_size"]
+                max_seq_len = config["max_seq_len"]
+
+                # Create components
+                (
+                    model_runner_trtllm,
+                    model_runner_reference,
+                    trtllm_backend,
+                    reference_backend,
+                    layer,
+                ) = self._create_model_components(config)
+
+                # Create identical sequence lengths for both backends
+                torch.manual_seed(config["seed_cache"])
+                seq_lens = torch.randint(
+                    1, max_seq_len, (batch_size,), device=config["device"]
+                )
+                seq_lens[0] = max_seq_len  # Ensure at least one max length
+
+                # Create forward batches with identical inputs
+                fb_trtllm = self._create_forward_batch(
+                    batch_size,
+                    seq_lens.clone(),
+                    trtllm_backend,
+                    model_runner_trtllm,
+                    config,
+                )
+                fb_reference = self._create_forward_batch(
+                    batch_size,
+                    seq_lens.clone(),
+                    reference_backend,
+                    model_runner_reference,
+                    config,
+                )
+
+                # Initialize metadata for both backends
+                trtllm_backend.init_forward_metadata(fb_trtllm)
+                reference_backend.init_forward_metadata(fb_reference)
+
+                # Populate both KV caches identically
+                self._populate_kv_cache(
+                    batch_size,
+                    seq_lens,
+                    [model_runner_trtllm, model_runner_reference],
+                    layer,
+                    config,
+                )
+
+                # Create Q, K, V tensors for current decode step
+                torch.manual_seed(config["seed_qkv"])
+                q, k, v = self._create_qkv_tensors(batch_size, config)
+
+                # Run forward decode on both backends
+                out_trtllm = trtllm_backend.forward_decode(
+                    q.clone(), k.clone(), v.clone(), layer, fb_trtllm
+                )
+                out_reference = reference_backend.forward_decode(
+                    q.clone(), k.clone(), v.clone(), layer, fb_reference
+                )
+
+                # Compare outputs
+                comparison_passed = compare_outputs(
+                    out_trtllm, out_reference, tolerance=config["tolerance"]
+                )
+
+                self.assertTrue(
+                    comparison_passed,
+                    f"TRTLLM and Reference outputs differ beyond tolerance. "
+                    f"Config: {test_case['name']}, "
+                    f"Max diff: {(out_trtllm - out_reference).abs().max().item()}",
+                )
+
+    def test_page_size_consistency(self):
+        """Test output consistency across different page sizes."""
+        print(f"\nRunning page size consistency tests...")
+
+        for test_case in TEST_CASES["page_size_consistency"]:
+            with self.subTest(test_case=test_case["name"]):
+                print(f"  Testing {test_case['name']}: {test_case['description']}")
+
+                config = self._merge_config(test_case)
+                batch_size = config["batch_size"]
+                max_seq_len = config["max_seq_len"]
+
+                # Create components
+                model_runner, _, backend, _, layer = self._create_model_components(
+                    config
+                )
+
+                # Create sequence lengths
+                torch.manual_seed(config["seed_cache"])
+                seq_lens = torch.randint(
+                    1, max_seq_len, (batch_size,), device=config["device"]
+                )
+                seq_lens[0] = max_seq_len
+
+                # Create forward batch
+                fb = self._create_forward_batch(
+                    batch_size, seq_lens, backend, model_runner, config
+                )
+                backend.init_forward_metadata(fb)
+
+                # Populate KV cache
+                self._populate_kv_cache(
+                    batch_size, seq_lens, [model_runner], layer, config
+                )
+
+                # Create Q, K, V tensors
+                torch.manual_seed(config["seed_qkv"])
+                q, k, v = self._create_qkv_tensors(batch_size, config)
+
+                # Run forward decode
+                output = backend.forward_decode(q, k, v, layer, fb)
+
+                expected_shape = (
+                    batch_size,
+                    config["num_attention_heads"] * config["v_head_dim"],
+                )
+                self.assertEqual(
+                    output.shape,
+                    expected_shape,
+                    f"Output shape mismatch: {output.shape} vs {expected_shape}",
+                )
+                self.assertFalse(torch.isnan(output).any(), "Output contains NaN")
+                self.assertFalse(torch.isinf(output).any(), "Output contains Inf")
+
+    def test_shape_sanity(self):
+        """Smoke test decode across several configurations."""
+        print(f"\nRunning shape sanity tests...")
+
+        for test_case in TEST_CASES["shape_sanity_tests"]:
+            with self.subTest(test_case=test_case["name"]):
+                print(f"  Testing {test_case['name']}: {test_case['description']}")
+
+                config = self._merge_config(test_case)
+                batch_size = config["batch_size"]
+                max_seq_len = config["max_seq_len"]
+
+                model_runner, _, backend, _, layer = self._create_model_components(
+                    config
+                )
+
+                # Random seq lens (ensure one matches max)
+                torch.manual_seed(config["seed_cache"])
+                seq_lens = torch.randint(
+                    1, max_seq_len, (batch_size,), device=config["device"]
+                )
+                seq_lens[0] = max_seq_len
+
+                fb = self._create_forward_batch(
+                    batch_size, seq_lens, backend, model_runner, config
+                )
+                backend.init_forward_metadata(fb)
+
+                # Create Q, K, V tensors
+                torch.manual_seed(config["seed_qkv"])
+                head_dim = config["kv_lora_rank"] + config["qk_rope_head_dim"]
+                q = torch.randn(
+                    (batch_size, config["num_attention_heads"], head_dim),
+                    dtype=config["dtype"],
+                    device=config["device"],
+                )
+                k = torch.randn(
+                    (batch_size, config["num_kv_heads"], head_dim),
+                    dtype=config["dtype"],
+                    device=config["device"],
+                )
+                v = None
+
+                # Run forward decode
+                output = backend.forward_decode(q, k, v, layer, fb)
+
+                # Shape and sanity checks
+                expected_shape = (
+                    batch_size,
+                    config["num_attention_heads"] * config["v_head_dim"],
+                )
+                self.assertEqual(
+                    output.shape,
+                    expected_shape,
+                    f"Output shape mismatch for {test_case['name']}",
+                )
+                self.assertEqual(output.dtype, config["dtype"])
+                self.assertEqual(output.device.type, "cuda")
+                self.assertFalse(
+                    torch.isnan(output).any(),
+                    f"Output contains NaN for {test_case['name']}",
+                )
+                self.assertFalse(
+                    torch.isinf(output).any(),
+                    f"Output contains Inf for {test_case['name']}",
+                )
+
+    def test_metadata_initialization(self):
+        """Test TRTLLM MLA metadata initialization and structure."""
+        print(f"\nRunning metadata initialization tests...")
+
+        for test_case in TEST_CASES["metadata_tests"]:
+            with self.subTest(test_case=test_case["name"]):
+                print(f"  Testing {test_case['name']}: {test_case['description']}")
+
+                config = self._merge_config(test_case)
+                batch_size = config["batch_size"]
+                max_seq_len = config["max_seq_len"]
+
+                # Create components
+                model_runner, _, backend, _, layer = self._create_model_components(
+                    config
+                )
+
+                # Create varied sequence lengths
+                torch.manual_seed(config["seed_cache"])
+                if batch_size == 1:
+                    seq_lens = torch.tensor([max_seq_len], device=config["device"])
+                else:
+                    seq_lens = torch.randint(
+                        max(1, max_seq_len // 4),
+                        max_seq_len + 1,
+                        (batch_size,),
+                        device=config["device"],
+                    )
+                    seq_lens[0] = max_seq_len  # Ensure at least one max length
+
+                # Create forward batch
+                fb = self._create_forward_batch(
+                    batch_size, seq_lens, backend, model_runner, config
+                )
+
+                # Initialize metadata
+                backend.init_forward_metadata(fb)
+
+                # Verify metadata exists
+                self.assertIsNotNone(backend.forward_metadata)
+                self.assertIsInstance(backend.forward_metadata, TRTLLMMLADecodeMetadata)
+
+                # Test metadata structure
+                metadata = backend.forward_metadata
+                self.assertIsNotNone(
+                    metadata.workspace, "Workspace should be allocated"
+                )
+                self.assertIsNotNone(
+                    metadata.block_kv_indices, "Block KV indices should be created"
+                )
+
+                # Test workspace properties
+                self.assertEqual(metadata.workspace.device.type, "cuda")
+                self.assertEqual(metadata.workspace.dtype, torch.int8)
+                self.assertGreater(
+                    metadata.workspace.numel(), 0, "Workspace should have non-zero size"
+                )
+
+                # Test block KV indices properties
+                self.assertEqual(metadata.block_kv_indices.device.type, "cuda")
+                self.assertEqual(metadata.block_kv_indices.dtype, torch.int32)
+                self.assertEqual(metadata.block_kv_indices.shape[0], batch_size)
+
+                # Verify block indices are valid (>= -1, since -1 is padding)
+                self.assertTrue(
+                    (metadata.block_kv_indices >= -1).all(),
+                    "All block indices should be >= -1 (with -1 as padding)",
+                )
+
+    def test_metadata_block_calculation(self):
+        """Test block count calculation logic."""
+        print(f"\nRunning metadata block calculation tests...")
+
+        test_scenarios = [
+            {"seq_len": 31, "page_size": 32, "expected_min_blocks": 1},
+            {"seq_len": 32, "page_size": 32, "expected_min_blocks": 1},
+            {"seq_len": 33, "page_size": 32, "expected_min_blocks": 2},
+            {"seq_len": 128, "page_size": 32, "expected_min_blocks": 4},
+            {"seq_len": 128, "page_size": 64, "expected_min_blocks": 2},
+        ]
+
+        for scenario in test_scenarios:
+            with self.subTest(scenario=scenario):
+                config = self._merge_config(
+                    {
+                        "batch_size": 1,
+                        "max_seq_len": scenario["seq_len"],
+                        "page_size": scenario["page_size"],
+                    }
+                )
+
+                model_runner, _, backend, _, _ = self._create_model_components(config)
+
+                # Test internal block calculation
+                calculated_blocks = backend._calc_padded_blocks(scenario["seq_len"])
+
+                # Should be at least the minimum required
+                self.assertGreaterEqual(
+                    calculated_blocks,
+                    scenario["expected_min_blocks"],
+                    f"Calculated blocks ({calculated_blocks}) should be >= minimum required ({scenario['expected_min_blocks']})",
+                )
+
+                # Should satisfy page_size constraint
+                total_tokens = calculated_blocks * scenario["page_size"]
+                self.assertGreaterEqual(
+                    total_tokens,
+                    scenario["seq_len"],
+                    f"Total tokens ({total_tokens}) should cover sequence length ({scenario['seq_len']})",
+                )
+
+                # Should satisfy TRT-LLM and Triton constraints
+                trtllm_constraint = 128 // scenario["page_size"]
+                constraint_lcm = math.lcm(
+                    trtllm_constraint, TRITON_PAD_NUM_PAGE_PER_BLOCK
+                )
+                self.assertEqual(
+                    calculated_blocks % constraint_lcm,
+                    0,
+                    f"Block count should be multiple of LCM of constraints ({constraint_lcm})",
+                )
+
+    def test_metadata_kv_indices_correctness(self):
+        """Test KV indices creation and correctness."""
+        print(f"\nRunning KV indices correctness tests...")
+
+        for test_case in TEST_CASES["metadata_tests"][
+            :2
+        ]:  # Test subset for performance
+            with self.subTest(test_case=test_case["name"]):
+                print(f"  Testing {test_case['name']}: {test_case['description']}")
+
+                config = self._merge_config(test_case)
+                batch_size = config["batch_size"]
+                max_seq_len = config["max_seq_len"]
+
+                model_runner, _, backend, _, layer = self._create_model_components(
+                    config
+                )
+
+                # Create known sequence lengths
+                torch.manual_seed(config["seed_cache"])
+                if batch_size == 1:
+                    seq_lens = torch.tensor([max_seq_len], device=config["device"])
+                else:
+                    seq_lens = torch.randint(
+                        max_seq_len // 2,
+                        max_seq_len + 1,
+                        (batch_size,),
+                        device=config["device"],
+                    )
+
+                fb = self._create_forward_batch(
+                    batch_size, seq_lens, backend, model_runner, config
+                )
+
+                # Populate some KV cache to have valid indices
+                self._populate_kv_cache(
+                    batch_size, seq_lens, [model_runner], layer, config
+                )
+
+                # Initialize metadata
+                backend.init_forward_metadata(fb)
+                metadata = backend.forward_metadata
+
+                # Verify KV indices structure
+                block_kv_indices = metadata.block_kv_indices
+
+                for i in range(batch_size):
+                    seq_len = seq_lens[i].item()
+                    expected_blocks = backend._calc_padded_blocks(seq_len)
+
+                    # Count valid (non -1) indices for this sequence
+                    valid_indices = (block_kv_indices[i] >= 0).sum().item()
+
+                    # Should have at least enough blocks for the sequence
+                    min_required_blocks = (seq_len + config["page_size"] - 1) // config[
+                        "page_size"
+                    ]
+                    self.assertGreaterEqual(
+                        valid_indices,
+                        min_required_blocks,
+                        f"Sequence {i} should have at least {min_required_blocks} valid blocks, got {valid_indices}",
+                    )
+
+                    # Verify indices are within valid range
+                    valid_block_indices = block_kv_indices[i][block_kv_indices[i] >= 0]
+                    if len(valid_block_indices) > 0:
+                        max_possible_blocks = (
+                            model_runner.token_to_kv_pool.size // config["page_size"]
+                        )
+                        self.assertTrue(
+                            (valid_block_indices < max_possible_blocks).all(),
+                            f"All block indices should be < {max_possible_blocks}",
+                        )
+
+    def test_metadata_cuda_graph_compatibility(self):
+        """Test metadata compatibility with CUDA graph capture/replay."""
+        print(f"\nRunning CUDA graph compatibility tests...")
+
+        config = self._merge_config(
+            {"batch_size": 4, "max_seq_len": 64, "page_size": 32}
+        )
+
+        model_runner, _, backend, _, layer = self._create_model_components(config)
+        batch_size = config["batch_size"]
+
+        # Initialize CUDA graph state
+        backend.init_cuda_graph_state(
+            max_bs=batch_size, max_num_tokens=config["max_seq_len"] * batch_size
+        )
+
+        # Verify CUDA graph buffers are allocated
+        self.assertIsNotNone(backend.cuda_graph_kv_indices)
+        self.assertIsNotNone(backend.cuda_graph_workspace)
+
+        # Test capture metadata
+        seq_lens = torch.full(
+            (batch_size,), config["max_seq_len"], device=config["device"]
+        )
+        req_pool_indices = torch.arange(batch_size, device=config["device"])
+
+        backend.init_forward_metadata_capture_cuda_graph(
+            bs=batch_size,
+            num_tokens=batch_size,
+            req_pool_indices=req_pool_indices,
+            seq_lens=seq_lens,
+            encoder_lens=None,
+            forward_mode=ForwardMode.DECODE,
+            spec_info=None,
+        )
+
+        # Verify capture metadata
+        self.assertIn(batch_size, backend.decode_cuda_graph_metadata)
+        capture_metadata = backend.decode_cuda_graph_metadata[batch_size]
+
+        self.assertIsNotNone(capture_metadata.workspace)
+        self.assertIsNotNone(capture_metadata.block_kv_indices)
+
+        # Test replay with different sequence lengths
+        new_seq_lens = torch.randint(
+            config["max_seq_len"] // 2,
+            config["max_seq_len"] + 1,
+            (batch_size,),
+            device=config["device"],
+        )
+
+        backend.init_forward_metadata_replay_cuda_graph(
+            bs=batch_size,
+            req_pool_indices=req_pool_indices,
+            seq_lens=new_seq_lens,
+            seq_lens_sum=new_seq_lens.sum().item(),
+            encoder_lens=None,
+            forward_mode=ForwardMode.DECODE,
+            spec_info=None,
+            seq_lens_cpu=new_seq_lens.cpu(),
+        )
+
+        # Verify replay updated the metadata
+        replay_metadata = backend.forward_metadata
+        self.assertIsNotNone(replay_metadata)
+        self.assertEqual(
+            replay_metadata.workspace.data_ptr(), capture_metadata.workspace.data_ptr()
+        )
+
+    def test_metadata_consistency_across_calls(self):
+        """Test metadata consistency across multiple forward calls."""
+        print(f"\nRunning metadata consistency tests...")
+
+        config = self._merge_config(
+            {"batch_size": 2, "max_seq_len": 64, "page_size": 32}
+        )
+
+        model_runner, _, backend, _, layer = self._create_model_components(config)
+
+        # First call
+        seq_lens_1 = torch.tensor([32, 48], device=config["device"])
+        fb_1 = self._create_forward_batch(
+            config["batch_size"], seq_lens_1, backend, model_runner, config
+        )
+        backend.init_forward_metadata(fb_1)
+        metadata_1 = backend.forward_metadata
+
+        # Second call with same sequence lengths
+        seq_lens_2 = torch.tensor([32, 48], device=config["device"])
+        fb_2 = self._create_forward_batch(
+            config["batch_size"], seq_lens_2, backend, model_runner, config
+        )
+        backend.init_forward_metadata(fb_2)
+        metadata_2 = backend.forward_metadata
+
+        # Metadata structure should be consistent
+        self.assertEqual(metadata_1.workspace.shape, metadata_2.workspace.shape)
+        self.assertEqual(
+            metadata_1.block_kv_indices.shape, metadata_2.block_kv_indices.shape
+        )
+
+        # Third call with different sequence lengths
+        seq_lens_3 = torch.tensor([16, 64], device=config["device"])
+        fb_3 = self._create_forward_batch(
+            config["batch_size"], seq_lens_3, backend, model_runner, config
+        )
+        backend.init_forward_metadata(fb_3)
+        metadata_3 = backend.forward_metadata
+
+        # Should still have valid structure
+        self.assertIsNotNone(metadata_3.workspace)
+        self.assertIsNotNone(metadata_3.block_kv_indices)
+        self.assertEqual(metadata_3.block_kv_indices.shape[0], config["batch_size"])
+
+
+if __name__ == "__main__":
+    unittest.main()

From 4a6e7a66a02ac7ab966868933a59ddbb7c153c6b Mon Sep 17 00:00:00 2001
From: kk <43161300+kkHuang-amd@users.noreply.github.com>
Date: Fri, 1 Aug 2025 07:15:43 +0800
Subject: [PATCH 263/396] Fix nan value generated after custom all reduce
 (#8532)

---
 .../device_communicators/custom_all_reduce.py      | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py b/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
index a1d28f2fc1d1..92da101120d8 100644
--- a/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
+++ b/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
@@ -184,7 +184,7 @@ def __init__(
             # 8*world_size bytes where world_size is at most 8. Allocating 8MB
             # is enough for 131072 such tuples. The largest model I've seen only
             # needs less than 10000 of registered tuples.
-            self.rank_data = torch.empty(
+            self.rank_data = torch.zeros(
                 8 * 1024 * 1024, dtype=torch.uint8, device=self.device
             )
             self._ptr = ops.init_custom_ar(
@@ -194,14 +194,14 @@ def __init__(
         else:
             # meta data buffers need to be "uncached" for signal on MI200
             self.meta = ops.allocate_meta_buffer(ops.meta_size() + max_size)
-            self.buffer = torch.empty(max_size, dtype=torch.uint8, device=self.device)
+            self.buffer = torch.zeros(max_size, dtype=torch.uint8, device=self.device)
             handle = ops.get_meta_buffer_ipc_handle(self.meta)
             shard_data = (
                 bytes(handle),  # ipc handle to base ptr
                 0,  # offset of base ptr
             )
             handles, offsets = self._gather_ipc_meta(shard_data)
-            self.rank_data = torch.empty(
+            self.rank_data = torch.zeros(
                 8 * 1024 * 1024, dtype=torch.uint8, device=self.device
             )
             self._ptr = ops.init_custom_ar(
@@ -350,14 +350,14 @@ def should_custom_ar(self, inp: torch.Tensor):
     # or, in the context of cuda graphs, register_graph_buffers
     def all_reduce_reg(self, inp: torch.Tensor, out: torch.Tensor = None):
         if out is None:
-            out = torch.empty_like(inp)
+            out = torch.zeros_like(inp)
         ops.all_reduce_reg(self._ptr, inp, out)
         return out
 
     # all reduce, assuming inp tensor is NOT IPC registered
     def all_reduce_unreg(self, inp: torch.Tensor, out: torch.Tensor = None):
         if out is None:
-            out = torch.empty_like(inp)
+            out = torch.zeros_like(inp)
         ops.all_reduce_unreg(self._ptr, inp, self.buffer, out)
         return out
 
@@ -375,7 +375,7 @@ def all_reduce(
         buffer.
         """
         if out is None:
-            out = torch.empty_like(inp)
+            out = torch.zeros_like(inp)
         if registered:
             ops.all_reduce(self._ptr, inp, out, 0, 0)
         else:
@@ -398,7 +398,7 @@ def custom_all_reduce(self, input: torch.Tensor) -> Optional[torch.Tensor]:
             else:
                 # If warm up, mimic the allocation pattern since custom
                 # allreduce is out-of-place.
-                return torch.empty_like(input)
+                return torch.zeros_like(input)
         else:
             if _is_hip:
                 # note: outside of cuda graph context,

From 0ad098b494c5b3d6ad1c785371aa3ee804fc9985 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Thu, 31 Jul 2025 17:26:49 -0700
Subject: [PATCH 264/396] Revert "Fix nan value generated after custom all
 reduce (#8532)" (#8642)

---
 .../device_communicators/custom_all_reduce.py      | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py b/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
index 92da101120d8..a1d28f2fc1d1 100644
--- a/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
+++ b/python/sglang/srt/distributed/device_communicators/custom_all_reduce.py
@@ -184,7 +184,7 @@ def __init__(
             # 8*world_size bytes where world_size is at most 8. Allocating 8MB
             # is enough for 131072 such tuples. The largest model I've seen only
             # needs less than 10000 of registered tuples.
-            self.rank_data = torch.zeros(
+            self.rank_data = torch.empty(
                 8 * 1024 * 1024, dtype=torch.uint8, device=self.device
             )
             self._ptr = ops.init_custom_ar(
@@ -194,14 +194,14 @@ def __init__(
         else:
             # meta data buffers need to be "uncached" for signal on MI200
             self.meta = ops.allocate_meta_buffer(ops.meta_size() + max_size)
-            self.buffer = torch.zeros(max_size, dtype=torch.uint8, device=self.device)
+            self.buffer = torch.empty(max_size, dtype=torch.uint8, device=self.device)
             handle = ops.get_meta_buffer_ipc_handle(self.meta)
             shard_data = (
                 bytes(handle),  # ipc handle to base ptr
                 0,  # offset of base ptr
             )
             handles, offsets = self._gather_ipc_meta(shard_data)
-            self.rank_data = torch.zeros(
+            self.rank_data = torch.empty(
                 8 * 1024 * 1024, dtype=torch.uint8, device=self.device
             )
             self._ptr = ops.init_custom_ar(
@@ -350,14 +350,14 @@ def should_custom_ar(self, inp: torch.Tensor):
     # or, in the context of cuda graphs, register_graph_buffers
     def all_reduce_reg(self, inp: torch.Tensor, out: torch.Tensor = None):
         if out is None:
-            out = torch.zeros_like(inp)
+            out = torch.empty_like(inp)
         ops.all_reduce_reg(self._ptr, inp, out)
         return out
 
     # all reduce, assuming inp tensor is NOT IPC registered
     def all_reduce_unreg(self, inp: torch.Tensor, out: torch.Tensor = None):
         if out is None:
-            out = torch.zeros_like(inp)
+            out = torch.empty_like(inp)
         ops.all_reduce_unreg(self._ptr, inp, self.buffer, out)
         return out
 
@@ -375,7 +375,7 @@ def all_reduce(
         buffer.
         """
         if out is None:
-            out = torch.zeros_like(inp)
+            out = torch.empty_like(inp)
         if registered:
             ops.all_reduce(self._ptr, inp, out, 0, 0)
         else:
@@ -398,7 +398,7 @@ def custom_all_reduce(self, input: torch.Tensor) -> Optional[torch.Tensor]:
             else:
                 # If warm up, mimic the allocation pattern since custom
                 # allreduce is out-of-place.
-                return torch.zeros_like(input)
+                return torch.empty_like(input)
         else:
             if _is_hip:
                 # note: outside of cuda graph context,

From 04913430c66986f4e78d7e2c61bee970831587a3 Mon Sep 17 00:00:00 2001
From: yrk111222 <2493404415@qq.com>
Date: Fri, 1 Aug 2025 08:29:31 +0800
Subject: [PATCH 265/396] Feature/modelscope model download (#8083)

Co-authored-by: ronnie_zheng <zl19940307@163.com>
---
 python/sglang/bench_offline_throughput.py | 20 ++++++++++++++++++++
 1 file changed, 20 insertions(+)

diff --git a/python/sglang/bench_offline_throughput.py b/python/sglang/bench_offline_throughput.py
index 1ae893d46128..457d120d95bc 100644
--- a/python/sglang/bench_offline_throughput.py
+++ b/python/sglang/bench_offline_throughput.py
@@ -418,6 +418,26 @@ def throughput_test(
     ServerArgs.add_cli_args(parser)
     BenchArgs.add_cli_args(parser)
     args = parser.parse_args()
+
+    # handling ModelScope model downloads
+    if os.getenv("SGLANG_USE_MODELSCOPE", "false").lower() in ("true", "1"):
+        if os.path.exists(args.model_path):
+            print(f"Using local model path: {args.model_path}")
+        else:
+            try:
+                from modelscope import snapshot_download
+
+                print(f"Using ModelScope to download model: {args.model_path}")
+
+                # download the model and replace args.model_path
+                args.model_path = snapshot_download(
+                    args.model_path,
+                )
+                print(f"Model downloaded to: {args.model_path}")
+            except Exception as e:
+                print(f"ModelScope download failed: {str(e)}")
+                raise e
+
     server_args = ServerArgs.from_cli_args(args)
     bench_args = BenchArgs.from_cli_args(args)
 

From fe5086fd8bb34cb2b4ce10d9bc57ef61c2b11d94 Mon Sep 17 00:00:00 2001
From: li chaoran <pkwarcraft@gmail.com>
Date: Fri, 1 Aug 2025 08:29:50 +0800
Subject: [PATCH 266/396] chore: speedup NPU CI by cache (#8270)

Signed-off-by: mywaaagh_admin <pkwarcraft@gmail.com>
Co-authored-by: ronnie_zheng <zl19940307@163.com>
---
 .github/workflows/pr-test-npu.yml    |  4 +++-
 scripts/npu_ci_install_dependency.sh | 11 ++++++-----
 2 files changed, 9 insertions(+), 6 deletions(-)

diff --git a/.github/workflows/pr-test-npu.yml b/.github/workflows/pr-test-npu.yml
index be924d7bbc09..faae297811bc 100644
--- a/.github/workflows/pr-test-npu.yml
+++ b/.github/workflows/pr-test-npu.yml
@@ -35,8 +35,10 @@ jobs:
       - name: Install dependencies
         run: |
           bash scripts/npu_ci_install_dependency.sh
-          # copy required dataset file from our daily cache
+          # copy required file from our daily cache
           cp ~/.cache/modelscope/hub/datasets/otavia/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json /tmp
+          # copy download through proxy
+          curl -o /tmp/test.jsonl -L https://gh-proxy.test.osinfra.cn/https://raw.githubusercontent.com/openai/grade-school-math/master/grade_school_math/data/test.jsonl
 
       - name: Run test
         timeout-minutes: 30
diff --git a/scripts/npu_ci_install_dependency.sh b/scripts/npu_ci_install_dependency.sh
index ec3a162d52a4..3fcb36492438 100755
--- a/scripts/npu_ci_install_dependency.sh
+++ b/scripts/npu_ci_install_dependency.sh
@@ -1,13 +1,14 @@
 #!/bin/bash
 set -euo pipefail
 
-# Install the required dependencies in CI.
-sed -i 's|ports.ubuntu.com|mirrors.tuna.tsinghua.edu.cn|g' /etc/apt/sources.list
+# Install the required dependencies from cache
+sed -Ei 's@(ports|archive).ubuntu.com@cache-service.nginx-pypi-cache.svc.cluster.local:8081@g' /etc/apt/sources.list
 apt update -y
-apt install -y build-essential cmake python3-pip python3-dev wget net-tools zlib1g-dev lld clang software-properties-common
+apt install -y build-essential cmake python3-pip python3-dev wget net-tools zlib1g-dev lld clang software-properties-common curl
 
-
-pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple
+# Setup pip cache
+pip config set global.index-url http://cache-service.nginx-pypi-cache.svc.cluster.local/pypi/simple
+pip config set global.trusted-host cache-service.nginx-pypi-cache.svc.cluster.local
 python3 -m pip install --upgrade pip
 pip uninstall sgl-kernel -y || true
 

From 99795d61e682e4ff2d6ad73cecb1b408c02a3a92 Mon Sep 17 00:00:00 2001
From: Even Zhou <even.y.zhou@outlook.com>
Date: Fri, 1 Aug 2025 08:30:16 +0800
Subject: [PATCH 267/396] [Bugfix] fix w8a8_int8 load issue (#8308)

Co-authored-by: ronnie_zheng <zl19940307@163.com>
---
 python/sglang/srt/layers/quantization/w8a8_int8.py | 5 ++++-
 python/sglang/srt/model_loader/weight_utils.py     | 2 ++
 2 files changed, 6 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/w8a8_int8.py b/python/sglang/srt/layers/quantization/w8a8_int8.py
index 22e8b108f7f8..826a8c8e81fb 100644
--- a/python/sglang/srt/layers/quantization/w8a8_int8.py
+++ b/python/sglang/srt/layers/quantization/w8a8_int8.py
@@ -231,7 +231,10 @@ def get_name(self) -> str:
 
     @classmethod
     def get_config_filenames(cls) -> List[str]:
-        return []
+        filenames = []
+        if _is_npu:
+            filenames.append("quant_model_description.json")
+        return filenames
 
     @classmethod
     def from_config(cls, config: Dict[str, Any]) -> W8A8Int8Config:
diff --git a/python/sglang/srt/model_loader/weight_utils.py b/python/sglang/srt/model_loader/weight_utils.py
index b3cf18ec942e..33f11b8af016 100644
--- a/python/sglang/srt/model_loader/weight_utils.py
+++ b/python/sglang/srt/model_loader/weight_utils.py
@@ -229,6 +229,8 @@ def get_quant_config(
                     f"Unsupported quantization config"
                     f" found for {model_config.quantization} in {f}."
                 )
+        elif model_config.quantization == "w8a8_int8":
+            config["packed_modules_mapping"] = packed_modules_mapping
 
     return quant_cls.from_config(config)
 

From 2886e23dbd439afd1d2cd9f8f1a53dd08138676c Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 31 Jul 2025 18:09:31 -0700
Subject: [PATCH 268/396] [bugfix] fix router python parser for pd urls (#8644)

---
 .../py_src/sglang_router/launch_router.py     | 54 +++++++++++++------
 1 file changed, 37 insertions(+), 17 deletions(-)

diff --git a/sgl-router/py_src/sglang_router/launch_router.py b/sgl-router/py_src/sglang_router/launch_router.py
index e3e625c670a0..901ca7d9b37c 100644
--- a/sgl-router/py_src/sglang_router/launch_router.py
+++ b/sgl-router/py_src/sglang_router/launch_router.py
@@ -145,10 +145,11 @@ def add_cli_args(
         )
         parser.add_argument(
             f"--{prefix}prefill",
-            nargs=2,
+            nargs="+",
             action="append",
-            metavar=("URL", "BOOTSTRAP_PORT"),
-            help="Prefill server URL and bootstrap port. Can be specified multiple times. BOOTSTRAP_PORT can be 'none' for no bootstrap port.",
+            help="Prefill server URL and optional bootstrap port. Can be specified multiple times. "
+            "Format: --prefill URL [BOOTSTRAP_PORT]. "
+            "BOOTSTRAP_PORT can be a port number, 'none', or omitted (defaults to none).",
         )
         parser.add_argument(
             f"--{prefix}decode",
@@ -389,24 +390,36 @@ def _parse_selector(selector_list):
     def _parse_prefill_urls(prefill_list):
         """Parse prefill URLs from --prefill arguments.
 
-        Format: --prefill URL BOOTSTRAP_PORT
-        Example: --prefill http://prefill1:8080 9000 --prefill http://prefill2:8080 none
+        Format: --prefill URL [BOOTSTRAP_PORT]
+        Example:
+            --prefill http://prefill1:8080 9000  # With bootstrap port
+            --prefill http://prefill2:8080 none  # Explicitly no bootstrap port
+            --prefill http://prefill3:8080       # Defaults to no bootstrap port
         """
         if not prefill_list:
             return []
 
         prefill_urls = []
-        for url, bootstrap_port_str in prefill_list:
-            # Handle 'none' as None
-            if bootstrap_port_str.lower() == "none":
-                bootstrap_port = None
+        for prefill_args in prefill_list:
+
+            url = prefill_args[0]
+
+            # Handle optional bootstrap port
+            if len(prefill_args) >= 2:
+                bootstrap_port_str = prefill_args[1]
+                # Handle 'none' as None
+                if bootstrap_port_str.lower() == "none":
+                    bootstrap_port = None
+                else:
+                    try:
+                        bootstrap_port = int(bootstrap_port_str)
+                    except ValueError:
+                        raise ValueError(
+                            f"Invalid bootstrap port: {bootstrap_port_str}. Must be a number or 'none'"
+                        )
             else:
-                try:
-                    bootstrap_port = int(bootstrap_port_str)
-                except ValueError:
-                    raise ValueError(
-                        f"Invalid bootstrap port: {bootstrap_port_str}. Must be a number or 'none'"
-                    )
+                # No bootstrap port specified, default to None
+                bootstrap_port = None
 
             prefill_urls.append((url, bootstrap_port))
 
@@ -578,13 +591,20 @@ def parse_router_args(args: List[str]) -> RouterArgs:
 
   # PD disaggregated mode with same policy for both
   python -m sglang_router.launch_router --pd-disaggregation \\
-    --prefill http://prefill1:8000 9000 --prefill http://prefill2:8000 none \\
+    --prefill http://prefill1:8000 9000 --prefill http://prefill2:8000 \\
     --decode http://decode1:8001 --decode http://decode2:8001 \\
     --policy cache_aware
 
+  # PD mode with optional bootstrap ports
+  python -m sglang_router.launch_router --pd-disaggregation \\
+    --prefill http://prefill1:8000 9000 \\    # With bootstrap port
+    --prefill http://prefill2:8000 none \\    # Explicitly no bootstrap port
+    --prefill http://prefill3:8000 \\         # Defaults to no bootstrap port
+    --decode http://decode1:8001 --decode http://decode2:8001
+
   # PD mode with different policies for prefill and decode
   python -m sglang_router.launch_router --pd-disaggregation \\
-    --prefill http://prefill1:8000 9000 --prefill http://prefill2:8000 none \\
+    --prefill http://prefill1:8000 --prefill http://prefill2:8000 \\
     --decode http://decode1:8001 --decode http://decode2:8001 \\
     --prefill-policy cache_aware --decode-policy power_of_two
 

From f6f46f46291041a83084a8f9e4d731b27c2969f0 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 31 Jul 2025 18:11:48 -0700
Subject: [PATCH 269/396] [router] add basic usage doc (#8640)

---
 sgl-router/README.md | 23 +++++++++++++++++++++++
 1 file changed, 23 insertions(+)

diff --git a/sgl-router/README.md b/sgl-router/README.md
index 6cc10c159117..415034ddb440 100644
--- a/sgl-router/README.md
+++ b/sgl-router/README.md
@@ -54,12 +54,35 @@ pip install -e .
 ```bash
 # Build Rust components
 cargo build
+```
 
+#### Launch Router with Worker URLs in regular mode
+```bash
 # Launch router with worker URLs
 python -m sglang_router.launch_router \
     --worker-urls http://worker1:8000 http://worker2:8000
 ```
 
+#### Launch Router with Worker URLs in prefill-decode mode
+```bash
+# Note that the prefill and decode URLs must be provided in the following format:
+# http://<ip>:<port> for  decode nodes
+# http://<ip>:<port> bootstrap-port for  prefill nodes, where bootstrap-port is optional
+# Launch router with worker URLs
+python -m sglang_router.launch_router \
+    --pd-disaggregation \
+    --policy cache_aware \
+    --prefill http://127.0.0.1:30001 9001 \
+    --prefill http://127.0.0.2:30002 9002 \
+    --prefill http://127.0.0.3:30003 9003 \
+    --prefill http://127.0.0.4:30004 9004 \
+    --decode http://127.0.0.5:30005 \
+    --decode http://127.0.0.6:30006 \
+    --decode http://127.0.0.7:30007 \
+    --host 0.0.0.0 \
+    --port 8080
+````
+
 ## Configuration
 
 ### Logging

From 39decec10b3438b9612abccca0d8d27b0b222a56 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Thu, 31 Jul 2025 19:00:23 -0700
Subject: [PATCH 270/396] [router] upgrade router version to 0.1.8 (#8645)

---
 sgl-router/py_src/sglang_router/version.py | 2 +-
 sgl-router/pyproject.toml                  | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/sgl-router/py_src/sglang_router/version.py b/sgl-router/py_src/sglang_router/version.py
index bbab0242f6aa..9cb17e797629 100644
--- a/sgl-router/py_src/sglang_router/version.py
+++ b/sgl-router/py_src/sglang_router/version.py
@@ -1 +1 @@
-__version__ = "0.1.4"
+__version__ = "0.1.8"
diff --git a/sgl-router/pyproject.toml b/sgl-router/pyproject.toml
index 705d9b225d50..a8a6791e1139 100644
--- a/sgl-router/pyproject.toml
+++ b/sgl-router/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang-router"
-version = "0.1.7"
+version = "0.1.8"
 description = "High-performance Rust-based load balancer for SGLang with multiple routing algorithms and prefill-decode disaggregation support"
 authors = [{name = "Byron Hsu", email = "byronhsu1230@gmail.com"}]
 requires-python = ">=3.8"

From aa4c66b564b7c32133c7485025008bc645711769 Mon Sep 17 00:00:00 2001
From: Kaixi Hou <kaixih@nvidia.com>
Date: Thu, 31 Jul 2025 19:56:34 -0700
Subject: [PATCH 271/396] [NVIDIA] Enable Flashinfer MoE blockscale fp8 backend
 for TP MoE (#8450)

Co-authored-by: kushanam <42385577+kushanam@users.noreply.github.com>
---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 53 +++++++-----------
 .../srt/layers/moe/fused_moe_triton/layer.py  | 55 ++++++++++++++++++-
 python/sglang/srt/layers/quantization/fp8.py  | 52 ++++++++++++++++++
 python/sglang/srt/models/deepseek_v2.py       |  7 +--
 python/sglang/srt/models/glm4_moe.py          |  6 +-
 python/sglang/srt/server_args.py              |  4 --
 6 files changed, 131 insertions(+), 46 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index d2faf12cf22e..6f896e2973fd 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -25,14 +25,22 @@
     silu_and_mul_triton_kernel,
     tma_align_input_scale,
 )
-from sglang.srt.layers.moe.fused_moe_triton.layer import FusedMoE
+from sglang.srt.layers.moe.fused_moe_triton.layer import (
+    FlashInferFusedMoE,
+    FusedMoE,
+    should_use_flashinfer_trtllm_moe,
+)
 from sglang.srt.layers.moe.topk import TopKOutput
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
-from sglang.srt.layers.quantization.fp8 import Fp8Config, Fp8MoEMethod
+from sglang.srt.layers.quantization.fp8 import (
+    Fp8Config,
+    Fp8MoEMethod,
+    get_tile_tokens_dim,
+)
 from sglang.srt.layers.quantization.fp8_kernel import (
     is_fp8_fnuz,
     sglang_per_token_group_quant_fp8,
@@ -49,7 +57,6 @@
     get_bool_env_var,
     is_hip,
     is_npu,
-    next_power_of_2,
 )
 
 if TYPE_CHECKING:
@@ -63,10 +70,7 @@
 _is_npu = is_npu()
 _is_fp8_fnuz = is_fp8_fnuz()
 _use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
-use_flashinfer_trtllm_moe = (
-    global_server_args_dict["enable_flashinfer_trtllm_moe"]
-    and global_server_args_dict["enable_ep_moe"]
-)
+
 
 if not (_is_npu or _is_hip):
     from sgl_kernel import silu_and_mul
@@ -76,26 +80,9 @@
     from aiter.fused_moe import fused_moe
     from aiter.ops.shuffle import shuffle_weight
 
-if use_flashinfer_trtllm_moe:
-    try:
-        import flashinfer.fused_moe as fi_fused_moe
-    except ImportError:
-        fi_fused_moe = None
-        use_flashinfer_trtllm_moe = False
-
 logger = logging.getLogger(__name__)
 
 
-def _get_tile_tokens_dim(num_tokens, top_k, num_experts):
-    # Guess tokens per expert assuming perfect expert distribution first.
-    num_tokens_per_expert = (num_tokens * top_k) // num_experts
-    # And pad the number to the next power of 2.
-    tile_tokens_dim = next_power_of_2(num_tokens_per_expert)
-    # Cap to 8-64 tokens per CTA tile as it's the range supported by the kernel.
-    tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
-    return tile_tokens_dim
-
-
 class EPMoE(FusedMoE):
     """
     MoE Expert Parallel Impl
@@ -731,10 +718,10 @@ def __init__(self, *args, **kwargs):
         self.num_expert_group = num_expert_group
         self.topk_group = topk_group
         self.correction_bias = correction_bias
-        self.use_flashinfer_trtllm_moe = use_flashinfer_trtllm_moe
+        self.use_flashinfer_trtllm_moe = should_use_flashinfer_trtllm_moe()
 
     def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
-        assert use_flashinfer_trtllm_moe
+        assert self.use_flashinfer_trtllm_moe
         assert (
             self.activation == "silu"
         ), "Only silu is supported for flashinfer blockscale fp8 moe"
@@ -747,8 +734,9 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
         a_q, a_sf = sglang_per_token_group_quant_fp8(hidden_states, self.block_shape[1])
         # NOTE: scales of hidden states have to be transposed!
         a_sf_t = a_sf.t().contiguous()
-        assert fi_fused_moe is not None
-        return fi_fused_moe.trtllm_fp8_block_scale_moe(
+        from flashinfer.fused_moe import trtllm_fp8_block_scale_moe
+
+        return trtllm_fp8_block_scale_moe(
             routing_logits=router_logits.to(torch.float32),
             routing_bias=self.correction_bias.to(hidden_states.dtype),
             hidden_states=a_q,
@@ -765,7 +753,7 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
             local_expert_offset=self.start_expert_id,
             local_num_experts=self.num_local_experts,
             routed_scaling_factor=self.routed_scaling_factor,
-            tile_tokens_dim=_get_tile_tokens_dim(
+            tile_tokens_dim=get_tile_tokens_dim(
                 hidden_states.shape[0], self.top_k, self.num_experts
             ),
             routing_method_type=2,  # DeepSeek-styled routing method
@@ -779,9 +767,6 @@ def get_moe_impl_class():
     if global_server_args_dict["enable_flashinfer_cutlass_moe"]:
         # Must come before EPMoE because FusedMoE also supports enable_ep_moe
         return FusedMoE
-    if use_flashinfer_trtllm_moe:
-        # Must come before EPMoE because FusedMoE also supports enable_ep_moe
-        return FlashInferEPMoE
     if global_server_args_dict["enable_ep_moe"]:
-        return EPMoE
-    return FusedMoE
+        return FlashInferEPMoE if should_use_flashinfer_trtllm_moe() else EPMoE
+    return FlashInferFusedMoE if should_use_flashinfer_trtllm_moe() else FusedMoE
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 88e150e4df20..e3a16669b438 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -1,10 +1,13 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/a6221a144af772fd1a68fe7e627935dc53e81738/vllm/model_executor/layers/fused_moe/layer.py
 
+import importlib.util
 import logging
 from enum import Enum
+from functools import lru_cache
 from typing import List, Optional, Tuple
 
 import torch
+from packaging import version as pkg_version
 
 from sglang.srt.distributed import (
     get_moe_expert_parallel_rank,
@@ -33,6 +36,15 @@
 logger = logging.getLogger(__name__)
 
 
+@lru_cache(maxsize=1)
+def should_use_flashinfer_trtllm_moe():
+    return global_server_args_dict["enable_flashinfer_trtllm_moe"] and (
+        not importlib.util.find_spec("flashinfer")
+        or pkg_version.parse(__import__("flashinfer").__version__)
+        >= pkg_version.parse("0.2.9rc1")
+    )
+
+
 class FusedMoeWeightScaleSupported(Enum):
     TENSOR = "tensor"
     CHANNEL = "channel"
@@ -455,7 +467,7 @@ def _weight_loader_impl(
             )
 
         # Flashinfer assumes w31 format for w13_weight. Same for the scales.
-        if getattr(self, "use_flashinfer_trtllm_moe", False):
+        if should_use_flashinfer_trtllm_moe():
             shard_id = {"w1": "w3", "w3": "w1", "w2": "w2"}[shard_id]
 
         WEIGHT_SCALE_SUPPORTED = [e.value for e in FusedMoeWeightScaleSupported]
@@ -687,3 +699,44 @@ def make_expert_input_scale_params_mapping(
             for expert_id in range(num_experts)
             for shard_id in ["w1", "w2", "w3"]
         ]
+
+
+class FlashInferFusedMoE(FusedMoE):
+    def __init__(self, *args, **kwargs):
+        renormalize = kwargs.pop("renormalize", True)
+        num_fused_shared_experts = kwargs.pop("num_fused_shared_experts", 0)
+        use_grouped_topk = kwargs.pop("use_grouped_topk", False)
+        num_expert_group = kwargs.pop("num_expert_group", None)
+        topk_group = kwargs.pop("topk_group", None)
+        correction_bias = kwargs.pop("correction_bias", None)
+        super().__init__(*args, **kwargs)
+        self.renormalize = renormalize
+        self.num_fused_shared_experts = num_fused_shared_experts
+        self.use_grouped_topk = use_grouped_topk
+        if self.use_grouped_topk:
+            assert num_expert_group is not None and topk_group is not None
+        self.num_expert_group = num_expert_group
+        self.topk_group = topk_group
+        self.correction_bias = correction_bias
+
+    def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
+        assert self.quant_method is not None
+        assert (
+            self.renormalize
+        ), "Renormalize is required for flashinfer blockscale fp8 moe"
+        assert (
+            self.num_fused_shared_experts == 0
+        ), "Fused shared experts are not supported for flashinfer blockscale fp8 moe"
+        # Matrix multiply.
+        final_hidden_states = self.quant_method.apply_with_router_logits(
+            layer=self,
+            x=hidden_states,
+            router_logits=router_logits,
+            activation=self.activation,
+            routed_scaling_factor=self.routed_scaling_factor,
+        )
+
+        if self.reduce_results and (self.tp_size > 1 or self.ep_size > 1):
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 49a3af57f740..0578ee60cb66 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -72,6 +72,7 @@ def dummy_func(*args, **kwargs):
     is_hip,
     is_npu,
     log_info_on_rank0,
+    next_power_of_2,
     print_warning_once,
     set_weight_attrs,
     use_intel_amx_backend,
@@ -490,6 +491,16 @@ def apply(
         )
 
 
+def get_tile_tokens_dim(num_tokens, top_k, num_experts):
+    # Guess tokens per expert assuming perfect expert distribution first.
+    num_tokens_per_expert = (num_tokens * top_k) // num_experts
+    # And pad the number to the next power of 2.
+    tile_tokens_dim = next_power_of_2(num_tokens_per_expert)
+    # Cap to 8-64 tokens per CTA tile as it's the range supported by the kernel.
+    tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
+    return tile_tokens_dim
+
+
 class Fp8MoEMethod(FusedMoEMethodBase):
     """MoE method for FP8.
     Supports loading FP8 checkpoints with static weight scale and
@@ -1076,6 +1087,47 @@ def apply(
             routed_scaling_factor=routed_scaling_factor,
         )
 
+    def apply_with_router_logits(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        *,
+        activation: str = "silu",
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+        assert (
+            activation == "silu"
+        ), "Only silu is supported for flashinfer blockscale fp8 moe"
+        a_q, a_sf = per_token_group_quant_fp8(x, self.quant_config.weight_block_size[1])
+        # NOTE: scales of hidden states have to be transposed!
+        a_sf_t = a_sf.t().contiguous()
+        from flashinfer.fused_moe import trtllm_fp8_block_scale_moe
+
+        return trtllm_fp8_block_scale_moe(
+            routing_logits=router_logits.to(torch.float32),
+            routing_bias=layer.correction_bias.to(x.dtype),
+            hidden_states=a_q,
+            hidden_states_scale=a_sf_t,
+            gemm1_weights=layer.w13_weight,
+            gemm1_weights_scale=layer.w13_weight_scale_inv,
+            gemm2_weights=layer.w2_weight,
+            gemm2_weights_scale=layer.w2_weight_scale_inv,
+            num_experts=layer.num_experts,
+            top_k=layer.top_k,
+            n_group=layer.num_expert_group,
+            topk_group=layer.topk_group,
+            intermediate_size=layer.w2_weight.shape[2],
+            local_expert_offset=layer.moe_ep_rank * layer.num_local_experts,
+            local_num_experts=layer.num_local_experts,
+            routed_scaling_factor=routed_scaling_factor,
+            tile_tokens_dim=get_tile_tokens_dim(
+                x.shape[0], layer.top_k, layer.num_experts
+            ),
+            routing_method_type=2,  # DeepSeek-styled routing method
+            use_shuffled_weight=False,
+        )
+
     def maybe_apply_hip_fused_experts(
         self,
         layer: torch.nn.Module,
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index bd0e35a2e0a6..5ed19ed86815 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -59,7 +59,7 @@
 from sglang.srt.layers.moe.ep_moe.layer import (
     DeepEPMoE,
     get_moe_impl_class,
-    use_flashinfer_trtllm_moe,
+    should_use_flashinfer_trtllm_moe,
 )
 from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
 from sglang.srt.layers.moe.topk import TopK
@@ -317,7 +317,7 @@ def __init__(
                 correction_bias=self.gate.e_score_correction_bias,
                 routed_scaling_factor=self.routed_scaling_factor,
             )
-            if not use_flashinfer_trtllm_moe
+            if not should_use_flashinfer_trtllm_moe()
             else None
         )
 
@@ -352,11 +352,10 @@ def __init__(
                     renormalize=config.norm_topk_prob,
                     use_grouped_topk=True,
                     num_expert_group=config.n_group,
-                    num_fused_shared_experts=self.num_fused_shared_experts,
                     topk_group=config.topk_group,
                     correction_bias=self.gate.e_score_correction_bias,
                 )
-                if use_flashinfer_trtllm_moe
+                if should_use_flashinfer_trtllm_moe()
                 else {}
             ),
         )
diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 6031e76009a1..645ecf344ca3 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -52,7 +52,7 @@
 from sglang.srt.layers.moe.ep_moe.layer import (
     DeepEPMoE,
     get_moe_impl_class,
-    use_flashinfer_trtllm_moe,
+    should_use_flashinfer_trtllm_moe,
 )
 from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
@@ -426,7 +426,7 @@ def __init__(
                 correction_bias=self.gate.e_score_correction_bias,
                 routed_scaling_factor=self.routed_scaling_factor,
             )
-            if not use_flashinfer_trtllm_moe
+            if not should_use_flashinfer_trtllm_moe()
             else None
         )
 
@@ -465,7 +465,7 @@ def __init__(
                     topk_group=config.topk_group,
                     correction_bias=self.gate.e_score_correction_bias,
                 )
-                if use_flashinfer_trtllm_moe
+                if should_use_flashinfer_trtllm_moe()
                 else {}
             ),
         )
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index c4a520f1ce4f..2927a707104c 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -460,10 +460,6 @@ def __post_init__(self):
                     f"Flashinfer cutlass MoE and EP MoE are enabled. The expert parallel size is adjusted to be the same as the tensor parallel size[{self.tp_size}]."
                 )
 
-        if self.enable_flashinfer_trtllm_moe:
-            assert self.enable_ep_moe, "EP MoE is required for Flashinfer TRTLLM MOE"
-            logger.warning(f"Flashinfer TRTLLM MoE is enabled.")
-
         # DeepEP MoE
         if self.enable_deepep_moe:
             if self.deepep_mode == "normal":

From 9305ea6c2dbe10f87a2d0cdb47cb6f1811916151 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Thu, 31 Jul 2025 20:29:51 -0700
Subject: [PATCH 272/396] HiCache, fixing hash value indexing (#8636)

---
 python/sglang/srt/mem_cache/hiradix_cache.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index 681985ad192c..5a2ff6fb8396 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -436,7 +436,7 @@ def check_prefetch_progress(self, req_id: str):
             last_host_node,
             fetched_token_ids,
             written_indices,
-            hash_value[:min_completed_tokens],
+            hash_value[: min_completed_tokens // self.page_size],
         )
         if len(written_indices):
             self.cache_controller.mem_pool_host.update_prefetch(written_indices)
@@ -529,7 +529,7 @@ def _insert_helper_host(self, node: TreeNode, key: List, host_value, hash_value)
             prefix_len = self.key_match_fn(node.key, key)
             key = key[prefix_len:]
             host_value = host_value[prefix_len:]
-            hash_value = hash_value[prefix_len:]
+            hash_value = hash_value[prefix_len // self.page_size :]
             matched_length += prefix_len
 
             if prefix_len < len(node.key):

From dd7ca00601b1dec54c620ad4cc5824d61b17fed2 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Thu, 31 Jul 2025 20:37:49 -0700
Subject: [PATCH 273/396] Interface change for kvcache io to support page first
 layout (#8318)

---
 .../sglang/srt/managers/cache_controller.py   |  22 +-
 python/sglang/srt/managers/scheduler.py       |   1 +
 python/sglang/srt/mem_cache/hiradix_cache.py  |  21 +-
 python/sglang/srt/mem_cache/memory_pool.py    | 133 +------
 .../sglang/srt/mem_cache/memory_pool_host.py  | 354 ++++++++++++++++--
 python/sglang/srt/server_args.py              |  11 +-
 6 files changed, 371 insertions(+), 171 deletions(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index 629dd71a2152..91f6ef37d9bf 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -231,16 +231,7 @@ def __init__(
         self.mem_pool_host = mem_pool_host
         self.write_policy = write_policy
         self.page_size = page_size
-        # using kernel for small page KV cache transfer and DMA for large pages
-        if not io_backend:
-            IO_BACKEND_PAGE_SIZE_THRESHOLD = 64
-            self.io_backend = (
-                "direct"
-                if self.page_size >= IO_BACKEND_PAGE_SIZE_THRESHOLD
-                else "kernel"
-            )
-        else:
-            self.io_backend = io_backend
+        self.io_backend = io_backend
 
         self.enable_storage = False
         # todo: move backend initialization to storage backend module
@@ -447,11 +438,8 @@ def write_thread_func_direct(self):
                 host_indices, device_indices = self.move_indices(
                     operation.host_indices, operation.device_indices
                 )
-                self.mem_pool_device.backup_to_host_all_layer(
-                    self.mem_pool_host,
-                    host_indices,
-                    device_indices,
-                    self.io_backend,
+                self.mem_pool_host.backup_from_device_all_layer(
+                    self.mem_pool_device, host_indices, device_indices, self.io_backend
                 )
                 self.write_stream.synchronize()
                 self.mem_pool_host.complete_io(operation.host_indices)
@@ -491,8 +479,8 @@ def load_thread_func_layer_by_layer(self):
                 batch_operation.host_indices, batch_operation.device_indices
             )
             for i in range(self.mem_pool_host.layer_num):
-                self.mem_pool_device.load_from_host_per_layer(
-                    self.mem_pool_host,
+                self.mem_pool_host.load_to_device_per_layer(
+                    self.mem_pool_device,
                     host_indices,
                     device_indices,
                     i,
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index d71f02275daa..c5998cdeca98 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -588,6 +588,7 @@ def init_memory_pool_and_cache(self):
                         == "fa3"  # hot fix for incompatibility
                         else server_args.hicache_io_backend
                     ),
+                    hicache_mem_layout=server_args.hicache_mem_layout,
                     hicache_storage_backend=server_args.hicache_storage_backend,
                 )
                 self.tp_worker.register_hicache_layer_transfer_counter(
diff --git a/python/sglang/srt/mem_cache/hiradix_cache.py b/python/sglang/srt/mem_cache/hiradix_cache.py
index 5a2ff6fb8396..7b26fa8a70c7 100644
--- a/python/sglang/srt/mem_cache/hiradix_cache.py
+++ b/python/sglang/srt/mem_cache/hiradix_cache.py
@@ -35,16 +35,33 @@ def __init__(
         hicache_size: int,
         hicache_write_policy: str,
         hicache_io_backend: str,
+        hicache_mem_layout: str,
         hicache_storage_backend: Optional[str] = None,
     ):
+
+        if hicache_io_backend == "direct":
+            if hicache_mem_layout == "page_first":
+                hicache_mem_layout = "layer_first"
+                logger.warning(
+                    "Page first layout is not supported with direct IO backend, switching to layer first layout"
+                )
+
         self.kv_cache = token_to_kv_pool_allocator.get_kvcache()
         if isinstance(self.kv_cache, MHATokenToKVPool):
             self.token_to_kv_pool_host = MHATokenToKVPoolHost(
-                self.kv_cache, hicache_ratio, hicache_size, page_size
+                self.kv_cache,
+                hicache_ratio,
+                hicache_size,
+                page_size,
+                hicache_mem_layout,
             )
         elif isinstance(self.kv_cache, MLATokenToKVPool):
             self.token_to_kv_pool_host = MLATokenToKVPoolHost(
-                self.kv_cache, hicache_ratio, hicache_size, page_size
+                self.kv_cache,
+                hicache_ratio,
+                hicache_size,
+                page_size,
+                hicache_mem_layout,
             )
         else:
             raise ValueError(f"HiRadixCache only supports MHA and MLA yet")
diff --git a/python/sglang/srt/mem_cache/memory_pool.py b/python/sglang/srt/mem_cache/memory_pool.py
index 2af8838b97cd..cc3faea0a03d 100644
--- a/python/sglang/srt/mem_cache/memory_pool.py
+++ b/python/sglang/srt/mem_cache/memory_pool.py
@@ -31,21 +31,17 @@
 
 import numpy as np
 import torch
-import torch.distributed as dist
 import triton
 import triton.language as tl
 
 from sglang.srt.constants import GPU_MEMORY_TYPE_KV_CACHE
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.utils import get_bool_env_var, is_cuda, is_npu, next_power_of_2
+from sglang.srt.utils import get_bool_env_var, is_cuda, next_power_of_2
 
 logger = logging.getLogger(__name__)
 
 GB = 1024 * 1024 * 1024
 _is_cuda = is_cuda()
-_is_npu = is_npu()
-if not _is_npu:
-    from sgl_kernel.kvcacheio import transfer_kv_per_layer, transfer_kv_per_layer_mla
 
 
 class ReqToTokenPool:
@@ -153,18 +149,6 @@ def set_kv_buffer(
     ) -> None:
         raise NotImplementedError()
 
-    @abc.abstractmethod
-    def load_from_host_per_layer(
-        self, host_pool, host_indices, device_indices, layer_id, io_backend
-    ):
-        raise NotImplementedError()
-
-    @abc.abstractmethod
-    def backup_to_host_all_layer(
-        self, host_pool, host_indices, device_indices, io_backend
-    ):
-        raise NotImplementedError()
-
     def register_layer_transfer_counter(self, layer_transfer_counter):
         self.layer_transfer_counter = layer_transfer_counter
 
@@ -253,12 +237,18 @@ def _create_buffers(self):
                     )
                     for _ in range(self.layer_num)
                 ]
-        self.token_stride = self.head_num * self.head_dim
-        self.data_ptrs = torch.tensor(
-            [x.data_ptr() for x in self.k_buffer + self.v_buffer],
+
+        self.k_data_ptrs = torch.tensor(
+            [x.data_ptr() for x in self.k_buffer],
+            dtype=torch.uint64,
+            device=self.device,
+        )
+        self.v_data_ptrs = torch.tensor(
+            [x.data_ptr() for x in self.v_buffer],
             dtype=torch.uint64,
             device=self.device,
         )
+        self.data_ptrs = torch.cat([self.k_data_ptrs, self.v_data_ptrs], dim=0)
         self.data_strides = torch.tensor(
             [
                 np.prod(x.shape[1:]) * x.dtype.itemsize
@@ -347,47 +337,6 @@ def load_cpu_copy(self, kv_cache_cpu, indices):
                 self.v_buffer[layer_id][chunk_indices] = v_chunk
         torch.cuda.synchronize()
 
-    def load_from_host_per_layer(
-        self,
-        host_pool,
-        host_indices,
-        device_indices,
-        layer_id,
-        io_backend,
-    ):
-        transfer_kv_per_layer(
-            src_k=host_pool.k_buffer[layer_id],
-            dst_k=self.k_buffer[layer_id],
-            src_v=host_pool.v_buffer[layer_id],
-            dst_v=self.v_buffer[layer_id],
-            src_indices=host_indices,
-            dst_indices=device_indices,
-            io_backend=io_backend,
-            page_size=self.page_size,
-            item_size=self.token_stride,
-        )
-
-    def backup_to_host_all_layer(
-        self, host_pool, host_indices, device_indices, io_backend
-    ):
-        # todo: specialized all layer kernels for the layer-non-contiguous memory pool
-        for layer_id in range(self.start_layer, self.start_layer + self.layer_num):
-            if layer_id - self.start_layer >= len(host_pool.k_buffer):
-                raise ValueError(
-                    f"Layer ID {layer_id} exceeds the number of layers in host pool."
-                )
-            transfer_kv_per_layer(
-                src_k=self.k_buffer[layer_id],
-                dst_k=host_pool.k_buffer[layer_id],
-                src_v=self.v_buffer[layer_id],
-                dst_v=host_pool.v_buffer[layer_id],
-                src_indices=device_indices,
-                dst_indices=host_indices,
-                io_backend=io_backend,
-                page_size=self.page_size,
-                item_size=self.token_stride,
-            )
-
     def _get_key_buffer(self, layer_id: int):
         # for internal use of referencing
         if self.store_dtype != self.dtype:
@@ -602,16 +551,6 @@ def set_kv_buffer(
                 layer_id_override=layer_id_pool,
             )
 
-    def load_from_host_per_layer(
-        self, host_pool, host_indices, device_indices, layer_id, io_backend
-    ):
-        raise NotImplementedError("HiCache not supported for SWAKVPool.")
-
-    def backup_to_host_all_layer(
-        self, host_pool, host_indices, device_indices, io_backend
-    ):
-        raise NotImplementedError("HiCache not supported for SWAKVPool.")
-
 
 class AscendTokenToKVPool(MHATokenToKVPool):
 
@@ -823,7 +762,11 @@ def __init__(
                     for _ in range(layer_num)
                 ]
 
-        self.token_stride = kv_lora_rank + qk_rope_head_dim
+        self.data_ptrs = torch.tensor(
+            [x.data_ptr() for x in self.kv_buffer],
+            dtype=torch.uint64,
+            device=self.device,
+        )
         self.layer_transfer_counter = None
 
         kv_size = self.get_kv_size_bytes()
@@ -909,38 +852,6 @@ def set_mla_kv_buffer(
             self.kv_buffer[layer_id], loc, cache_k_nope, cache_k_rope
         )
 
-    def load_from_host_per_layer(
-        self, host_pool, host_indices, device_indices, layer_id, io_backend
-    ):
-        transfer_kv_per_layer_mla(
-            src=host_pool.kv_buffer[layer_id],
-            dst=self.kv_buffer[layer_id],
-            src_indices=host_indices,
-            dst_indices=device_indices,
-            io_backend=io_backend,
-            page_size=self.page_size,
-            item_size=self.token_stride,
-        )
-
-    def backup_to_host_all_layer(
-        self, host_pool, host_indices, device_indices, io_backend
-    ):
-        # todo: specialized all layer kernels for the layer-non-contiguous memory pool
-        for layer_id in range(self.start_layer, self.start_layer + self.layer_num):
-            if layer_id - self.start_layer >= len(host_pool.kv_buffer):
-                raise ValueError(
-                    f"Layer ID {layer_id} exceeds the number of layers in host pool."
-                )
-            transfer_kv_per_layer_mla(
-                src=self.kv_buffer[layer_id],
-                dst=host_pool.kv_buffer[layer_id],
-                src_indices=device_indices,
-                dst_indices=host_indices,
-                io_backend=io_backend,
-                page_size=self.page_size,
-                item_size=self.token_stride,
-            )
-
     def get_cpu_copy(self, indices):
         torch.cuda.synchronize()
         kv_cache_cpu = []
@@ -1131,20 +1042,6 @@ def set_kv_buffer(
         self.v_buffer[layer_id - self.start_layer][loc] = cache_v
         self.label_buffer[layer_id - self.start_layer][loc] = cache_label
 
-    def load_from_host_per_layer(
-        self, host_pool, host_indices, device_indices, layer_id, io_backend
-    ):
-        raise NotImplementedError(
-            "HiCache not supported for DoubleSparseTokenToKVPool."
-        )
-
-    def backup_to_host_all_layer(
-        self, host_pool, host_indices, device_indices, io_backend
-    ):
-        raise NotImplementedError(
-            "HiCache not supported for DoubleSparseTokenToKVPool."
-        )
-
 
 @triton.jit
 def copy_all_layer_kv_cache(
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index 5d9a88f35d04..fc0ba09bcbdd 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -8,6 +8,21 @@
 import torch
 
 from sglang.srt.mem_cache.memory_pool import KVCache, MHATokenToKVPool, MLATokenToKVPool
+from sglang.srt.utils import is_npu
+
+_is_npu = is_npu()
+if not _is_npu:
+    from sgl_kernel.kvcacheio import (
+        transfer_kv_all_layer,
+        transfer_kv_all_layer_lf_pf,
+        transfer_kv_all_layer_mla,
+        transfer_kv_all_layer_mla_lf_pf,
+        transfer_kv_direct,
+        transfer_kv_per_layer,
+        transfer_kv_per_layer_mla,
+        transfer_kv_per_layer_mla_pf_lf,
+        transfer_kv_per_layer_pf_lf,
+    )
 
 logger = logging.getLogger(__name__)
 
@@ -42,15 +57,18 @@ def __init__(
         device_pool: KVCache,
         host_to_device_ratio: float,
         host_size: int,
+        page_size: int,
+        layout: str,
         pin_memory: bool,
         device: str,
-        page_size: int,
     ):
         self.device_pool = device_pool
-        self.dtype = device_pool.store_dtype
+        self.page_size = page_size
+        self.layout = layout
         self.pin_memory = pin_memory
         self.device = device
-        self.page_size = page_size
+
+        self.dtype = device_pool.store_dtype
         self.size_per_token = self.get_size_per_token()
         if host_size > 0:
             self.size = int(host_size * 1e9 // self.size_per_token)
@@ -98,6 +116,24 @@ def get_size_per_token(self):
     def init_kv_buffer(self):
         raise NotImplementedError()
 
+    @abc.abstractmethod
+    def load_to_device_per_layer(
+        self, device_pool, host_indices, device_indices, layer_id, io_backend
+    ) -> None:
+        """
+        Load KV data from the host memory pool to the device memory pool for a specific layer.
+        """
+        raise NotImplementedError()
+
+    @abc.abstractmethod
+    def backup_from_device_all_layer(
+        self, device_pool, host_indices, device_indices, io_backend
+    ) -> None:
+        """
+        Backup KV data from the device memory pool to the host memory pool for all layers.
+        """
+        raise NotImplementedError()
+
     @abc.abstractmethod
     def get_flat_data_page(self, index) -> torch.Tensor:
         """
@@ -238,11 +274,30 @@ def __init__(
         host_to_device_ratio: float,
         host_size: int,
         page_size: int,
+        layout: str,
         pin_memory: bool = True,
         device: str = "cpu",
     ):
         super().__init__(
-            device_pool, host_to_device_ratio, host_size, pin_memory, device, page_size
+            device_pool,
+            host_to_device_ratio,
+            host_size,
+            page_size,
+            layout,
+            pin_memory,
+            device,
+        )
+        self.k_data_refs = [self.k_buffer[i] for i in range(self.layer_num)]
+        self.v_data_refs = [self.v_buffer[i] for i in range(self.layer_num)]
+        self.k_data_ptrs = torch.tensor(
+            [x.data_ptr() for x in self.k_data_refs],
+            dtype=torch.uint64,
+            device=self.device_pool.device,
+        )
+        self.v_data_ptrs = torch.tensor(
+            [x.data_ptr() for x in self.v_data_refs],
+            dtype=torch.uint64,
+            device=self.device_pool.device,
         )
 
     def get_size_per_token(self):
@@ -253,16 +308,128 @@ def get_size_per_token(self):
         return self.head_dim * self.head_num * self.layer_num * self.dtype.itemsize * 2
 
     def init_kv_buffer(self):
+        if self.layout == "layer_first":
+            dims = (2, self.layer_num, self.size, self.head_num, self.head_dim)
+        elif self.layout == "page_first":
+            dims = (2, self.size, self.layer_num, self.head_num, self.head_dim)
+        else:
+            raise ValueError(f"Unsupported layout: {self.layout}")
+        self.token_stride_size = self.head_num * self.head_dim * self.dtype.itemsize
+        self.layout_dim = self.token_stride_size * self.layer_num
         return torch.empty(
-            (2, self.layer_num, self.size, self.head_num, self.head_dim),
+            dims,
             dtype=self.dtype,
             device=self.device,
             pin_memory=self.pin_memory,
         )
 
-    # todo, page first memory layout
+    @property
+    def k_buffer(self):
+        return self.kv_buffer[0]
+
+    @property
+    def v_buffer(self):
+        return self.kv_buffer[1]
+
+    def load_to_device_per_layer(
+        self,
+        device_pool,
+        host_indices,
+        device_indices,
+        layer_id,
+        io_backend,
+    ):
+        if io_backend == "kernel":
+            if self.layout == "layer_first":
+                transfer_kv_per_layer(
+                    src_k=self.k_buffer[layer_id],
+                    dst_k=device_pool.k_buffer[layer_id],
+                    src_v=self.v_buffer[layer_id],
+                    dst_v=device_pool.v_buffer[layer_id],
+                    src_indices=host_indices,
+                    dst_indices=device_indices,
+                    item_size=self.token_stride_size,
+                )
+            elif self.layout == "page_first":
+                transfer_kv_per_layer_pf_lf(
+                    src_k=self.k_buffer,
+                    dst_k=device_pool.k_buffer[layer_id],
+                    src_v=self.v_buffer,
+                    dst_v=device_pool.v_buffer[layer_id],
+                    src_indices=host_indices,
+                    dst_indices=device_indices,
+                    item_size=self.token_stride_size,
+                    src_layout_dim=self.layout_dim,
+                )
+            else:
+                raise ValueError(f"Unsupported layout: {self.layout}")
+        elif io_backend == "direct":
+            assert (
+                self.layout == "layer_first"
+            ), f"Direct IO backend only supports layer_first layout."
+            transfer_kv_direct(
+                src_layers=[self.k_buffer[layer_id], self.v_buffer[layer_id]],
+                dst_layers=[
+                    device_pool.k_buffer[layer_id],
+                    device_pool.v_buffer[layer_id],
+                ],
+                src_indices=host_indices,
+                dst_indices=device_indices,
+                page_size=self.page_size,
+            )
+        else:
+            raise ValueError(f"Unsupported IO backend: {io_backend}")
+
+    def backup_from_device_all_layer(
+        self, device_pool, host_indices, device_indices, io_backend
+    ):
+        if io_backend == "kernel":
+            if self.layout == "layer_first":
+                transfer_kv_all_layer(
+                    src_k_layers=device_pool.k_data_ptrs,
+                    dst_k_layers=self.k_data_ptrs,
+                    src_v_layers=device_pool.v_data_ptrs,
+                    dst_v_layers=self.v_data_ptrs,
+                    src_indices=device_indices,
+                    dst_indices=host_indices,
+                    item_size=self.token_stride_size,
+                    num_layers=self.layer_num,
+                )
+            elif self.layout == "page_first":
+                transfer_kv_all_layer_lf_pf(
+                    src_k_layers=device_pool.k_data_ptrs,
+                    dst_k=self.k_buffer,
+                    src_v_layers=device_pool.v_data_ptrs,
+                    dst_v=self.v_buffer,
+                    src_indices=device_indices,
+                    dst_indices=host_indices,
+                    item_size=self.token_stride_size,
+                    dst_layout_dim=self.layout_dim,
+                    num_layers=self.layer_num,
+                )
+            else:
+                raise ValueError(f"Unsupported layout: {self.layout}")
+        elif io_backend == "direct":
+            assert (
+                self.layout == "layer_first"
+            ), f"Direct IO backend only supports layer_first layout."
+            transfer_kv_direct(
+                src_layers=device_pool.k_buffer + device_pool.v_buffer,
+                dst_layers=self.k_data_refs + self.v_data_refs,
+                src_indices=device_indices,
+                dst_indices=host_indices,
+                page_size=self.page_size,
+            )
+        else:
+            raise ValueError(f"Unsupported IO backend: {io_backend}")
+
     def get_flat_data_page(self, index) -> torch.Tensor:
-        return self.kv_buffer[:, :, index : index + self.page_size, :, :].flatten()
+        if self.layout == "layer_first":
+            return self.kv_buffer[:, :, index : index + self.page_size, :, :].flatten()
+        elif self.layout == "page_first":
+            return self.kv_buffer[:, index : index + self.page_size, :, :, :].flatten()
+        else:
+            raise ValueError(f"Unsupported layout: {self.layout}")
 
     def get_dummy_flat_data_page(self) -> torch.Tensor:
         return torch.zeros(
@@ -273,13 +440,24 @@ def get_dummy_flat_data_page(self) -> torch.Tensor:
         ).flatten()
 
     def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
-        self.kv_buffer[:, :, index : index + self.page_size, :, :] = data_page.reshape(
-            2,
-            self.layer_num,
-            self.page_size,
-            self.head_num,
-            self.head_dim,
-        )
+        if self.layout == "layer_first":
+            self.kv_buffer[:, :, index : index + self.page_size, :, :] = (
+                data_page.reshape(
+                    2,
+                    self.layer_num,
+                    self.page_size,
+                    self.head_num,
+                    self.head_dim,
+                )
+            )
+        elif self.layout == "page_first":
+            self.kv_buffer[:, index : index + self.page_size, :, :, :] = (
+                data_page.reshape(
+                    2, self.page_size, self.layer_num, self.head_num, self.head_dim
+                )
+            )
+        else:
+            raise ValueError(f"Unsupported layout: {self.layout}")
 
     def get_buffer_meta(self, keys, indices):
         ptr_list = []
@@ -318,14 +496,6 @@ def get_buffer_meta(self, keys, indices):
         element_size_list = [element_size] * len(key_list)
         return key_list, ptr_list, element_size_list
 
-    @property
-    def k_buffer(self):
-        return self.kv_buffer[0]
-
-    @property
-    def v_buffer(self):
-        return self.kv_buffer[1]
-
 
 class MLATokenToKVPoolHost(HostKVCache):
     device_pool: MLATokenToKVPool
@@ -336,11 +506,24 @@ def __init__(
         host_to_device_ratio: float,
         host_size: int,
         page_size: int,
+        layout: str,
         pin_memory: bool = True,
         device: str = "cpu",
     ):
         super().__init__(
-            device_pool, host_to_device_ratio, host_size, pin_memory, device, page_size
+            device_pool,
+            host_to_device_ratio,
+            host_size,
+            page_size,
+            layout,
+            pin_memory,
+            device,
+        )
+        self.data_refs = [self.kv_buffer[i] for i in range(self.layer_num)]
+        self.data_ptrs = torch.tensor(
+            [x.data_ptr() for x in self.data_refs],
+            dtype=torch.uint64,
+            device=self.device_pool.device,
         )
 
     def get_size_per_token(self):
@@ -356,20 +539,115 @@ def get_size_per_token(self):
         )
 
     def init_kv_buffer(self):
-        return torch.empty(
-            (
+        if self.layout == "layer_first":
+            dims = (
                 self.layer_num,
                 self.size,
                 1,
                 self.kv_lora_rank + self.qk_rope_head_dim,
-            ),
+            )
+        elif self.layout == "page_first":
+            dims = (
+                self.size,
+                self.layer_num,
+                1,
+                self.kv_lora_rank + self.qk_rope_head_dim,
+            )
+        else:
+            raise ValueError(f"Unsupported layout: {self.layout}")
+        self.token_stride_size = (
+            self.kv_lora_rank + self.qk_rope_head_dim
+        ) * self.dtype.itemsize
+        self.layout_dim = self.token_stride_size * self.layer_num
+
+        return torch.empty(
+            dims,
             dtype=self.dtype,
             device=self.device,
             pin_memory=self.pin_memory,
         )
 
+    def load_to_device_per_layer(
+        self, device_pool, host_indices, device_indices, layer_id, io_backend
+    ):
+        if io_backend == "kernel":
+            if self.layout == "layer_first":
+                transfer_kv_per_layer_mla(
+                    src=self.kv_buffer[layer_id],
+                    dst=device_pool.kv_buffer[layer_id],
+                    src_indices=host_indices,
+                    dst_indices=device_indices,
+                    item_size=self.token_stride_size,
+                )
+            elif self.layout == "page_first":
+                transfer_kv_per_layer_mla_pf_lf(
+                    src=self.kv_buffer,
+                    dst=device_pool.kv_buffer[layer_id],
+                    src_indices=host_indices,
+                    dst_indices=device_indices,
+                    item_size=self.token_stride_size,
+                    src_layout_dim=self.layout_dim,
+                )
+            else:
+                raise ValueError(f"Unsupported layout: {self.layout}")
+        elif io_backend == "direct":
+            assert (
+                self.layout == "layer_first"
+            ), f"Direct IO backend only supports layer_first layout."
+            transfer_kv_direct(
+                src_layers=[self.kv_buffer[layer_id]],
+                dst_layers=[device_pool.kv_buffer[layer_id]],
+                src_indices=host_indices,
+                dst_indices=device_indices,
+                page_size=self.page_size,
+            )
+
+    def backup_from_device_all_layer(
+        self, device_pool, host_indices, device_indices, io_backend
+    ):
+        if io_backend == "kernel":
+            if self.layout == "layer_first":
+                transfer_kv_all_layer_mla(
+                    src_layers=device_pool.data_ptrs,
+                    dst_layers=self.data_ptrs,
+                    src_indices=device_indices,
+                    dst_indices=host_indices,
+                    item_size=self.token_stride_size,
+                    num_layers=self.layer_num,
+                )
+            elif self.layout == "page_first":
+                transfer_kv_all_layer_mla_lf_pf(
+                    src_layers=device_pool.data_ptrs,
+                    dst_k=self.kv_buffer,
+                    src_indices=device_indices,
+                    dst_indices=host_indices,
+                    item_size=self.token_stride_size,
+                    dst_layout_dim=self.layout_dim,
+                    num_layers=self.layer_num,
+                )
+            else:
+                raise ValueError(f"Unsupported layout: {self.layout}")
+        elif io_backend == "direct":
+            assert (
+                self.layout == "layer_first"
+            ), f"Direct IO backend only supports layer_first layout."
+            transfer_kv_direct(
+                src_layers=device_pool.kv_buffer,
+                dst_layers=self.data_refs,
+                src_indices=device_indices,
+                dst_indices=host_indices,
+                page_size=self.page_size,
+            )
+        else:
+            raise ValueError(f"Unsupported IO backend: {io_backend}")
+
     def get_flat_data_page(self, index) -> torch.Tensor:
-        return self.kv_buffer[:, index : index + self.page_size, :, :].flatten()
+        if self.layout == "layer_first":
+            return self.kv_buffer[:, index : index + self.page_size, :, :].flatten()
+        elif self.layout == "page_first":
+            return self.kv_buffer[index : index + self.page_size, :, :, :].flatten()
+        else:
+            raise ValueError(f"Unsupported layout: {self.layout}")
 
     def get_dummy_flat_data_page(self) -> torch.Tensor:
         return torch.zeros(
@@ -385,12 +663,22 @@ def get_dummy_flat_data_page(self) -> torch.Tensor:
         ).flatten()
 
     def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
-        self.kv_buffer[:, index : index + self.page_size, :, :] = data_page.reshape(
-            self.layer_num,
-            self.page_size,
-            1,
-            self.kv_lora_rank + self.qk_rope_head_dim,
-        )
+        if self.layout == "layer_first":
+            self.kv_buffer[:, index : index + self.page_size, :, :] = data_page.reshape(
+                self.layer_num,
+                self.page_size,
+                1,
+                self.kv_lora_rank + self.qk_rope_head_dim,
+            )
+        elif self.layout == "page_first":
+            self.kv_buffer[index : index + self.page_size, :, :, :] = data_page.reshape(
+                self.page_size,
+                self.layer_num,
+                1,
+                self.kv_lora_rank + self.qk_rope_head_dim,
+            )
+        else:
+            raise ValueError(f"Unsupported layout: {self.layout}")
 
     def get_buffer_meta(self, keys, indices):
         ptr_list = []
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 2927a707104c..0b442dedeebc 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -198,7 +198,8 @@ class ServerArgs:
     hicache_ratio: float = 2.0
     hicache_size: int = 0
     hicache_write_policy: str = "write_through_selective"
-    hicache_io_backend: str = ""
+    hicache_io_backend: str = "kernel"
+    hicache_mem_layout: str = "layer_first"
     hicache_storage_backend: Optional[str] = None
 
     # Double Sparsity
@@ -1487,6 +1488,14 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=ServerArgs.hicache_io_backend,
             help="The IO backend for KV cache transfer between CPU and GPU",
         )
+        parser.add_argument(
+            "--hicache-mem-layout",
+            type=str,
+            choices=["layer_first", "page_first"],
+            default=ServerArgs.hicache_mem_layout,
+            help="The layout of host memory pool for hierarchical cache.",
+        )
+
         parser.add_argument(
             "--hicache-storage-backend",
             type=str,

From e7e5a3050a64cbdc7624ac24d289cff16f12e09c Mon Sep 17 00:00:00 2001
From: Baizhou Zhang <sobereddiezhang@gmail.com>
Date: Thu, 31 Jul 2025 20:53:31 -0700
Subject: [PATCH 274/396] Update batch size limitation of dsv3_router_gemm
 kernel to 16 (#8051)

---
 python/sglang/srt/models/deepseek_v2.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 5ed19ed86815..fcd9c43677c6 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -252,8 +252,7 @@ def forward(self, hidden_states):
         # NOTE: For some unknown reason, router_gemm seems degrade accept length.
         if (
             _is_cuda
-            and not self.is_nextn
-            and hidden_states.shape[0] < 4
+            and hidden_states.shape[0] <= 16
             and hidden_states.shape[1] == 7168
             and self.weight.shape[0] == 256
             and _device_sm >= 90

From 33f0de337d978b37c63b98575b4962c6e6479e8c Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Fri, 1 Aug 2025 12:07:30 +0800
Subject: [PATCH 275/396] chore: bump v0.4.10.post1 (#8652)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index 6e1aad03cae3..a06224dd19b4 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.10"
+pip install "sglang[all]>=0.4.10.post1"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index a259d63fcdca..16ddb27ca31d 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10.post1-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10.post1-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index 47886197db3e..10203a9e5d57 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.10"
+uv pip install "sglang[all]>=0.4.10.post1"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.10"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.10 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.10.post1 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.10 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.10.post1 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -74,7 +74,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.10 -t v0.4.10-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.10.post1 -t v0.4.10.post1-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -83,11 +83,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.10-rocm630 \
+    v0.4.10.post1-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.10-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.10.post1-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
diff --git a/python/pyproject.toml b/python/pyproject.toml
index f3fcb1b7f666..752e4e3cb2b3 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.10"
+version = "0.4.10.post1"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index 805e7c470ea5..f526d41e7226 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.10"
+__version__ = "0.4.10.post1"

From 20b5563eda2fdd4d6962aa02febebb82362fa75a Mon Sep 17 00:00:00 2001
From: pansicheng <sicheng.pan.chn@gmail.com>
Date: Fri, 1 Aug 2025 12:41:09 +0800
Subject: [PATCH 276/396] Add hf3fs_utils.cpp to package-data (#8653)

---
 python/pyproject.toml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 752e4e3cb2b3..11f6f80b85f2 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -130,6 +130,7 @@ dev_cpu = ["sglang[all_cpu]", "sglang[test]"]
 "sglang" = [
     "srt/layers/moe/fused_moe_triton/configs/*/*.json",
     "srt/layers/quantization/configs/*.json",
+    "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
 ]
 
 [tool.setuptools.packages.find]

From 7e831efee8c0ab00f1c5d77f8293dee0602fdbe9 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Thu, 31 Jul 2025 21:49:45 -0700
Subject: [PATCH 277/396] Fix chat template handling for OpenAI serving (#8635)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 python/sglang/srt/conversation.py             | 112 ------------------
 .../sglang/srt/managers/template_manager.py   |  47 ++++----
 .../sglang/srt/managers/tokenizer_manager.py  |   4 +-
 .../srt/multimodal/processors/gemma3n.py      |   7 --
 test/srt/test_vision_openai_server_a.py       |  19 ++-
 test/srt/test_vision_openai_server_b.py       |  26 +++-
 test/srt/test_vision_openai_server_common.py  |  24 ++--
 7 files changed, 83 insertions(+), 156 deletions(-)

diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index c345275918b5..1d1340a1d39a 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -954,20 +954,6 @@ def generate_chat_conv(
     )
 )
 
-register_conv_template(
-    Conversation(
-        name="mimo-vl",
-        system_message="You are MiMo, an AI assistant developed by Xiaomi.",
-        system_template="<|im_start|>system\n{system_message}",
-        roles=("<|im_start|>user", "<|im_start|>assistant"),
-        sep="<|im_end|>\n",
-        sep_style=SeparatorStyle.ADD_NEW_LINE_SINGLE,
-        stop_str=["<|im_end|>"],
-        image_token="<|vision_start|><|image_pad|><|vision_end|>",
-    )
-)
-
-
 register_conv_template(
     Conversation(
         name="qwen2-audio",
@@ -981,51 +967,11 @@ def generate_chat_conv(
     )
 )
 
-register_conv_template(
-    Conversation(
-        name="llama_4_vision",
-        system_message="You are a helpful language and vision assistant. You are able to understand the visual content that the user provides, and assist the user with a variety of tasks using natural language.",
-        system_template="<|header_start|>system<|header_end|>\n\n{system_message}<|eot|>",
-        roles=("user", "assistant"),
-        sep_style=SeparatorStyle.LLAMA4,
-        sep="",
-        stop_str="<|eot|>",
-        image_token="<|image|>",
-    )
-)
-
-register_conv_template(
-    Conversation(
-        name="step3-vl",
-        system_message="<｜begin▁of▁sentence｜>You are a helpful assistant",
-        system_template="{system_message}\n",
-        roles=(
-            "<|BOT|>user\n",
-            "<|BOT|>assistant\n<think>\n",
-        ),
-        sep="<|EOT|>",
-        sep_style=SeparatorStyle.NO_COLON_SINGLE,
-        stop_str="<|EOT|>",
-        image_token="<im_patch>",
-        # add_bos=True,
-    )
-)
-
 
 @register_conv_template_matching_function
 def match_internvl(model_path: str):
     if re.search(r"internvl", model_path, re.IGNORECASE):
         return "internvl-2-5"
-    if re.search(r"intern.*s1", model_path, re.IGNORECASE):
-        return "interns1"
-
-
-@register_conv_template_matching_function
-def match_llama_vision(model_path: str):
-    if re.search(r"llama.*3\.2.*vision", model_path, re.IGNORECASE):
-        return "llama_3_vision"
-    if re.search(r"llama.*4.*", model_path, re.IGNORECASE):
-        return "llama_4_vision"
 
 
 @register_conv_template_matching_function
@@ -1040,22 +986,6 @@ def match_vicuna(model_path: str):
         return "vicuna_v1.1"
 
 
-@register_conv_template_matching_function
-def match_llama2_chat(model_path: str):
-    if re.search(
-        r"llama-2.*chat|codellama.*instruct",
-        model_path,
-        re.IGNORECASE,
-    ):
-        return "llama-2"
-
-
-@register_conv_template_matching_function
-def match_mistral(model_path: str):
-    if re.search(r"pixtral|(mistral|mixtral).*instruct", model_path, re.IGNORECASE):
-        return "mistral"
-
-
 @register_conv_template_matching_function
 def match_deepseek_vl(model_path: str):
     if re.search(r"deepseek.*vl2", model_path, re.IGNORECASE):
@@ -1064,12 +994,6 @@ def match_deepseek_vl(model_path: str):
 
 @register_conv_template_matching_function
 def match_qwen_chat_ml(model_path: str):
-    if re.search(r"gme.*qwen.*vl", model_path, re.IGNORECASE):
-        return "gme-qwen2-vl"
-    if re.search(r"qwen.*vl", model_path, re.IGNORECASE):
-        return "qwen2-vl"
-    if re.search(r"qwen.*audio", model_path, re.IGNORECASE):
-        return "qwen2-audio"
     if re.search(
         r"llava-v1\.6-34b|llava-v1\.6-yi-34b|llava-next-video-34b|llava-onevision-qwen2",
         model_path,
@@ -1078,12 +1002,6 @@ def match_qwen_chat_ml(model_path: str):
         return "chatml-llava"
 
 
-@register_conv_template_matching_function
-def match_gemma3_instruct(model_path: str):
-    if re.search(r"gemma-3.*it", model_path, re.IGNORECASE):
-        return "gemma-it"
-
-
 @register_conv_template_matching_function
 def match_openbmb_minicpm(model_path: str):
     if re.search(r"minicpm-v", model_path, re.IGNORECASE):
@@ -1092,37 +1010,7 @@ def match_openbmb_minicpm(model_path: str):
         return "minicpmo"
 
 
-@register_conv_template_matching_function
-def match_moonshot_kimivl(model_path: str):
-    if re.search(r"kimi.*vl", model_path, re.IGNORECASE):
-        return "kimi-vl"
-
-
-@register_conv_template_matching_function
-def match_devstral(model_path: str):
-    if re.search(r"devstral", model_path, re.IGNORECASE):
-        return "devstral"
-
-
 @register_conv_template_matching_function
 def match_phi_4_mm(model_path: str):
     if "phi-4-multimodal" in model_path.lower():
         return "phi-4-mm"
-
-
-@register_conv_template_matching_function
-def match_vila(model_path: str):
-    if re.search(r"vila", model_path, re.IGNORECASE):
-        return "chatml"
-
-
-@register_conv_template_matching_function
-def match_mimo_vl(model_path: str):
-    if re.search(r"mimo.*vl", model_path, re.IGNORECASE):
-        return "mimo-vl"
-
-
-# @register_conv_template_matching_function
-# def match_step3(model_path: str):
-#     if re.search(r"step3", model_path, re.IGNORECASE):
-#         return "step3-vl"
diff --git a/python/sglang/srt/managers/template_manager.py b/python/sglang/srt/managers/template_manager.py
index e340f65f0824..c98e3d14a6e2 100644
--- a/python/sglang/srt/managers/template_manager.py
+++ b/python/sglang/srt/managers/template_manager.py
@@ -84,26 +84,27 @@ def load_chat_template(
         if chat_template_arg:
             self._load_explicit_chat_template(tokenizer_manager, chat_template_arg)
         else:
-            # Try HuggingFace template first
-            hf_template = self._resolve_hf_chat_template(tokenizer_manager)
-            if hf_template:
-                self._jinja_template_content_format = (
-                    detect_jinja_template_content_format(hf_template)
-                )
-                logger.info(
-                    f"Using default HuggingFace chat template with detected content format: {self._jinja_template_content_format}"
-                )
-                return
-
-            # Fallback to SGLang template guessing
+            # Guess chat template from model path
             self.guess_chat_template_from_model_path(model_path)
 
-            # Set default format if no template was found
+            # If no pre-defined template was found, fallback to HuggingFace template
             if self._chat_template_name is None:
-                self._jinja_template_content_format = "string"
-                logger.info(
-                    "No chat template found, defaulting to 'string' content format"
-                )
+                # Try HuggingFace template first
+                hf_template = self._resolve_hf_chat_template(tokenizer_manager)
+                if hf_template:
+                    # override the chat template
+                    tokenizer_manager.tokenizer.chat_template = hf_template
+                    self._jinja_template_content_format = (
+                        detect_jinja_template_content_format(hf_template)
+                    )
+                    logger.info(
+                        f"Using default HuggingFace chat template with detected content format: {self._jinja_template_content_format}"
+                    )
+                    return
+
+            # Default to string content format if no template was found
+            self._jinja_template_content_format = "string"
+            logger.info("No chat template found, defaulting to 'string' content format")
 
     def _load_explicit_chat_template(
         self, tokenizer_manager, chat_template_arg: str
@@ -257,13 +258,15 @@ def _resolve_hf_chat_template(self, tokenizer_manager) -> Optional[str]:
 
         Returns the chat template string if found, None otherwise.
         """
-        tokenizer = tokenizer_manager.tokenizer
-
-        # Try to get AutoTokenizer chat template
         try:
-            return tokenizer.get_chat_template()
+            if processor := tokenizer_manager.processor:
+                if hasattr(processor, "chat_template") and processor.chat_template:
+                    return processor.chat_template
+            if tokenizer := tokenizer_manager.tokenizer:
+                if hasattr(tokenizer, "chat_template") and tokenizer.chat_template:
+                    return tokenizer.chat_template
         except Exception as e:
-            logger.debug(f"Error getting chat template via get_chat_template(): {e}")
+            logger.debug(f"Error getting chat template: {e}")
 
         logger.debug("No HuggingFace chat template found")
         return None
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 9250c6866eef..46fd967e5f35 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -225,10 +225,10 @@ def __init__(
                 self.tokenizer = get_tokenizer_from_processor(self.processor)
                 os.environ["TOKENIZERS_PARALLELISM"] = "false"
         else:
-            self.mm_processor = None
+            self.mm_processor = self.processor = None
 
             if server_args.skip_tokenizer_init:
-                self.tokenizer = self.processor = None
+                self.tokenizer = None
             else:
                 self.tokenizer = get_tokenizer(
                     server_args.tokenizer_path,
diff --git a/python/sglang/srt/multimodal/processors/gemma3n.py b/python/sglang/srt/multimodal/processors/gemma3n.py
index 4bfbcaffa223..9ea8b8be3662 100644
--- a/python/sglang/srt/multimodal/processors/gemma3n.py
+++ b/python/sglang/srt/multimodal/processors/gemma3n.py
@@ -12,7 +12,6 @@
 # limitations under the License.
 # ==============================================================================
 
-import re
 from typing import Dict, List, Optional, Union
 
 from sglang.srt.managers.multimodal_processor import (
@@ -38,14 +37,8 @@ def __init__(self, hf_config, server_args, _processor, *args, **kwargs):
         self.mm_tokens = MultimodalSpecialTokens(
             image_token="<image_soft_token>",
             image_token_id=hf_config.image_token_id,
-            image_token_regex=re.compile(
-                r"<start_of_image>(?:(?:<image_soft_token>)*<end_of_image>)?"
-            ),
             audio_token="<audio_soft_token>",
             audio_token_id=hf_config.audio_token_id,
-            audio_token_regex=re.compile(
-                r"<start_of_audio>(?:(?:<audio_soft_token>)*<end_of_audio>)?"
-            ),
         ).build(_processor)
 
     async def process_mm_data_async(
diff --git a/test/srt/test_vision_openai_server_a.py b/test/srt/test_vision_openai_server_a.py
index 4c41e2feca90..9d69b918c42e 100644
--- a/test/srt/test_vision_openai_server_a.py
+++ b/test/srt/test_vision_openai_server_a.py
@@ -31,6 +31,8 @@ def setUpClass(cls):
             other_args=[
                 "--mem-fraction-static",
                 "0.35",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -53,6 +55,8 @@ def setUpClass(cls):
             other_args=[
                 "--mem-fraction-static",
                 "0.35",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -76,6 +80,8 @@ def setUpClass(cls):
                 "--context-length",
                 "300",
                 "--mem-fraction-static=0.75",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -149,6 +155,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--mem-fraction-static",
                 "0.35",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -164,7 +172,11 @@ def setUpClass(cls):
             cls.model,
             cls.base_url,
             timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            other_args=["--trust-remote-code"],
+            other_args=[
+                "--trust-remote-code",
+                "--cuda-graph-max-bs",
+                "4",
+            ],
         )
         cls.base_url += "/v1"
 
@@ -183,6 +195,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--mem-fraction-static",
                 "0.65",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -207,10 +221,13 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--mem-fraction-static",
                 "0.6",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
 
 
 if __name__ == "__main__":
+    del TestOpenAIVisionServer
     unittest.main()
diff --git a/test/srt/test_vision_openai_server_b.py b/test/srt/test_vision_openai_server_b.py
index 533312aafccd..81dc2c6b7365 100644
--- a/test/srt/test_vision_openai_server_b.py
+++ b/test/srt/test_vision_openai_server_b.py
@@ -23,6 +23,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--mem-fraction-static",
                 "0.70",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -45,6 +47,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--mem-fraction-static",
                 "0.75",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -67,7 +71,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--context-length",
                 "4096",
-                "--disable-cuda-graph",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -90,6 +95,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--mem-fraction-static",
                 "0.35",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -120,6 +127,10 @@ def test_single_image_chat_completion(self):
 #                 "0.8",
 #                 "--tp-size=8",
 #                 "--context-length=8192",
+#                 "--mm-attention-backend",
+#                 "fa3",
+#                 "--cuda-graph-max-bs",
+#                 "4",
 #             ],
 #         )
 #         cls.base_url += "/v1"
@@ -143,6 +154,8 @@ def setUpClass(cls):
                 "--mem-fraction-static",
                 "0.70",
                 "--enable-multimodal",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -154,7 +167,7 @@ def test_video_chat_completion(self):
 class TestGemma3nServer(TestOpenAIVisionServer):
     @classmethod
     def setUpClass(cls):
-        cls.model = "google/gemma-3n-E2B-it"
+        cls.model = "google/gemma-3n-E4B-it"
         cls.base_url = DEFAULT_URL_FOR_TEST
         cls.api_key = "sk-123456"
         cls.process = popen_launch_server(
@@ -166,7 +179,7 @@ def setUpClass(cls):
                 "--mem-fraction-static",
                 "0.70",
                 "--cuda-graph-max-bs",
-                "1",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -193,6 +206,8 @@ def setUpClass(cls):
                 "4096",
                 "--dtype",
                 "bfloat16",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -233,6 +248,8 @@ def setUpClass(cls):
                 "--lora-paths",
                 f"vision={constants.HF_HUB_CACHE}/models--microsoft--Phi-4-multimodal-instruct/snapshots/{revision}/vision-lora",
                 f"speech={constants.HF_HUB_CACHE}/models--microsoft--Phi-4-multimodal-instruct/snapshots/{revision}/speech-lora",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
@@ -277,10 +294,13 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--context-length=65536",
                 f"--revision={cls.revision}",
+                "--cuda-graph-max-bs",
+                "4",
             ],
         )
         cls.base_url += "/v1"
 
 
 if __name__ == "__main__":
+    del TestOpenAIVisionServer
     unittest.main()
diff --git a/test/srt/test_vision_openai_server_common.py b/test/srt/test_vision_openai_server_common.py
index 2f7e404cb697..d652c6be1d92 100644
--- a/test/srt/test_vision_openai_server_common.py
+++ b/test/srt/test_vision_openai_server_common.py
@@ -71,7 +71,7 @@ def test_single_image_chat_completion(self):
                         },
                         {
                             "type": "text",
-                            "text": "Describe this image in a very short sentence.",
+                            "text": "Describe this image in a sentence.",
                         },
                     ],
                 },
@@ -119,7 +119,7 @@ def test_multi_turn_chat_completion(self):
                         },
                         {
                             "type": "text",
-                            "text": "Describe this image in a very short sentence.",
+                            "text": "Describe this image in a sentence.",
                         },
                     ],
                 },
@@ -455,7 +455,7 @@ def run_decode_with_image(self, image_id):
         content.append(
             {
                 "type": "text",
-                "text": "Describe this image in a very short sentence.",
+                "text": "Describe this image in a sentence.",
             }
         )
 
@@ -528,14 +528,20 @@ def _test_audio_speech_completion(self):
         # a fragment of Trump's speech
         audio_response = self.get_audio_response(
             AUDIO_TRUMP_SPEECH_URL,
-            "I have an audio sample. Please repeat the person's words",
+            "Listen to this audio and write down the audio transcription in English.",
             category="speech",
         )
-        assert "thank you" in audio_response
-        assert "it's a privilege to be here" in audio_response
-        assert "leader" in audio_response
-        assert "science" in audio_response
-        assert "art" in audio_response
+        check_list = [
+            "thank you",
+            "it's a privilege to be here",
+            "leader",
+            "science",
+            "art",
+        ]
+        for check_word in check_list:
+            assert (
+                check_word in audio_response
+            ), f"audio_response: ｜{audio_response}｜ should contain ｜{check_word}｜"
 
     def _test_audio_ambient_completion(self):
         # bird song

From c8d3a402c1ca5f581e3466c0b745af758aa6c691 Mon Sep 17 00:00:00 2001
From: Binyao Jiang <byjiang1996@gmail.com>
Date: Fri, 1 Aug 2025 00:07:41 -0700
Subject: [PATCH 278/396] =?UTF-8?q?Bug:=20apply=20final=5Fhidden=5Fstates*?=
 =?UTF-8?q?=3Dself.routed=5Fscaling=5Ffactor=20at=20MoE=20lay=E2=80=A6=20(?=
 =?UTF-8?q?#8511)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Co-authored-by: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
---
 python/sglang/srt/layers/moe/ep_moe/layer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 6f896e2973fd..012a78f17900 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -304,7 +304,7 @@ def forward_deepgemm(
             m_max * self.start_expert_id,
             BLOCK_SIZE=512,
         )
-        return output
+        return output * self.routed_scaling_factor
 
 
 class DeepEPMoE(EPMoE):

From 6c88f6c8d9086083e69bd8fbb604c2967d38d395 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Fri, 1 Aug 2025 01:20:03 -0700
Subject: [PATCH 279/396] [5/N] MoE Refactor: Update MoE parallelism arguments
 (#8658)

---
 docker/k8s-sglang-distributed-sts.yaml        |   3 +-
 docs/backend/pd_disaggregation.md             |  16 +-
 docs/backend/server_arguments.md              |   3 +-
 .../disaggregation/lws-examples/d.yaml        |  10 +-
 .../disaggregation/lws-examples/p.yaml        |  10 +-
 .../disaggregation/lws_pd_deploy.md           |  20 +--
 python/sglang/srt/eplb/expert_distribution.py |   6 +-
 python/sglang/srt/layers/communicator.py      |   2 +-
 python/sglang/srt/layers/moe/ep_moe/layer.py  |  44 +----
 .../srt/layers/moe/fused_moe_triton/layer.py  |   6 +-
 .../layers/moe/token_dispatcher/__init__.py   |  23 +++
 .../moe/token_dispatcher/base_dispatcher.py   |  13 +-
 .../deepep.py}                                |  23 +--
 python/sglang/srt/layers/moe/utils.py         |  43 +++++
 python/sglang/srt/managers/schedule_batch.py  |   4 +-
 python/sglang/srt/managers/scheduler.py       |   8 +-
 .../srt/model_executor/forward_batch_info.py  |   3 +-
 .../sglang/srt/model_executor/model_runner.py |   5 +
 python/sglang/srt/models/deepseek_v2.py       |  25 ++-
 python/sglang/srt/models/glm4_moe.py          |  25 ++-
 python/sglang/srt/models/grok.py              |   6 +-
 python/sglang/srt/models/mixtral.py           |   6 +-
 python/sglang/srt/models/qwen2_moe.py         |   5 +-
 python/sglang/srt/models/qwen3_moe.py         |  15 +-
 python/sglang/srt/models/step3_vl.py          |   2 +-
 python/sglang/srt/operations_strategy.py      |   2 +-
 python/sglang/srt/server_args.py              |  67 +++++---
 python/sglang/srt/two_batch_overlap.py        |   9 +-
 python/sglang/srt/utils.py                    |  25 +--
 python/sglang/test/runners.py                 |   2 -
 test/srt/test_deepep_large.py                 |   6 +-
 test/srt/test_deepep_small.py                 |  21 ++-
 test/srt/test_eplb.py                         |   6 +-
 test/srt/test_hybrid_dp_ep_tp_mtp.py          | 160 +++++++++---------
 test/srt/test_moe_deepep.py                   |   6 +-
 .../test_moe_deepep_eval_accuracy_large.py    |   3 +-
 test/srt/test_moe_ep.py                       |   2 -
 test/srt/test_two_batch_overlap.py            |   6 +-
 38 files changed, 342 insertions(+), 299 deletions(-)
 rename python/sglang/srt/layers/moe/{ep_moe/token_dispatcher.py => token_dispatcher/deepep.py} (97%)
 create mode 100644 python/sglang/srt/layers/moe/utils.py

diff --git a/docker/k8s-sglang-distributed-sts.yaml b/docker/k8s-sglang-distributed-sts.yaml
index 6b81d9b14df4..4252363c7de7 100644
--- a/docker/k8s-sglang-distributed-sts.yaml
+++ b/docker/k8s-sglang-distributed-sts.yaml
@@ -23,7 +23,7 @@ spec:
         - /bin/bash
         - -c
         # please modify the sglang serving arguments below, as necessary.
-        # NOTE: the --expert-parallel-size and --enable-ep-moe are for MoE model like DeepSeek-R1
+        # NOTE: the --expert-parallel-size is for MoE model like DeepSeek-R1
         args:
         - |
           python3 -m sglang.launch_server \
@@ -36,7 +36,6 @@ spec:
           --host 0.0.0.0 \
           --port 8000 \
           --enable-metrics \
-          --enable-ep-moe \
           --expert-parallel-size 16
         env:
         - name: POD_INDEX     # reflects the node-rank
diff --git a/docs/backend/pd_disaggregation.md b/docs/backend/pd_disaggregation.md
index 9284dc048a06..9282e2f3ba1a 100644
--- a/docs/backend/pd_disaggregation.md
+++ b/docs/backend/pd_disaggregation.md
@@ -39,13 +39,13 @@ $ python -m sglang.srt.disaggregation.mini_lb --prefill http://127.0.0.1:30000 -
 
 ```bash
 # prefill 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode normal --mem-fraction-static 0.8
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
 # prefill 1
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode normal --mem-fraction-static 0.8
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
 # decode 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode low_latency --mem-fraction-static 0.8 --max-running-requests 128
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
 # decode 1
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode low_latency --mem-fraction-static 0.8 --max-running-requests 128
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-ib-device ${device_name} --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
 ```
 ### Advanced Configuration
 
@@ -103,13 +103,13 @@ $ python -m sglang.srt.disaggregation.mini_lb --prefill http://127.0.0.1:30000 -
 
 ```bash
 # prefill 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode normal --mem-fraction-static 0.8
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
 # prefill 1
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode normal --mem-fraction-static 0.8
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
 # decode 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode low_latency --mem-fraction-static 0.8 --max-running-requests 128
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
 # decode 1
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --enable-deepep-moe --deepep-mode low_latency --mem-fraction-static 0.8 --max-running-requests 128
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
 ```
 
 ## ASCEND
diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index 636bb4f1b3cf..ac56aebf632c 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -212,8 +212,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
 | `--ep-size` | The expert parallelism size. | 1 |
-| `--enable-ep-moe` | Enabling expert parallelism for moe. The ep size is equal to the tp size. | False |
-| `--enable-deepep-moe` | Enabling DeepEP MoE implementation for EP MoE. | False |
+| `--moe-a2a-backend` | Select the backend for all-to-all communication for expert parallelism. | None |
 | `--enable-flashinfer-cutlass-moe` | Enabling Flashinfer Cutlass MoE implementation for high throughput. | False |
 | `--enable-flashinfer-trtllm-moe` | Enabling Flashinfer Trtllm MoE implementation for low latency. | False |
 | `--deepep-mode` | Select the mode when enable DeepEP MoE, could be `normal`, `low_latency` or `auto`. Default is `auto`, which means `low_latency` for decode batch and `normal` for prefill batch. | auto |
diff --git a/docs/references/disaggregation/lws-examples/d.yaml b/docs/references/disaggregation/lws-examples/d.yaml
index 376af741a792..ac1d295eb090 100644
--- a/docs/references/disaggregation/lws-examples/d.yaml
+++ b/docs/references/disaggregation/lws-examples/d.yaml
@@ -28,9 +28,8 @@ spec:
           - --enable-dp-lm-head
           - --dp-size
           - "16"
-          - --enable-deepep-moe
-          - --deepep-mode
-          - low_latency
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - decode
           - --mem-fraction-static
@@ -166,9 +165,8 @@ spec:
           - --enable-dp-lm-head
           - --dp-size
           - "16"
-          - --enable-deepep-moe
-          - --deepep-mode
-          - low_latency
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - decode
           - --mem-fraction-static
diff --git a/docs/references/disaggregation/lws-examples/p.yaml b/docs/references/disaggregation/lws-examples/p.yaml
index 6a463dc69b34..62df262bb04d 100644
--- a/docs/references/disaggregation/lws-examples/p.yaml
+++ b/docs/references/disaggregation/lws-examples/p.yaml
@@ -38,9 +38,8 @@ spec:
           - --dp-size
           - "16"
           - --disable-radix-cache
-          - --enable-deepep-moe
-          - --deepep-mode
-          - normal
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - prefill
           - --mem-fraction-static
@@ -184,9 +183,8 @@ spec:
           - --dp-size
           - "16"
           - --disable-radix-cache
-          - --enable-deepep-moe
-          - --deepep-mode
-          - normal
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - prefill
           - --mem-fraction-static
diff --git a/docs/references/disaggregation/lws_pd_deploy.md b/docs/references/disaggregation/lws_pd_deploy.md
index bca7c6a28ba1..617017077d6e 100644
--- a/docs/references/disaggregation/lws_pd_deploy.md
+++ b/docs/references/disaggregation/lws_pd_deploy.md
@@ -64,9 +64,8 @@ spec:
           - --dp-size
           - "16"
           - --disable-radix-cache
-          - --enable-deepep-moe
-          - --deepep-mode
-          - normal
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - prefill
           - --mem-fraction-static
@@ -212,9 +211,8 @@ spec:
           - --dp-size
           - "16"
           - --disable-radix-cache
-          - --enable-deepep-moe
-          - --deepep-mode
-          - normal
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - prefill
           - --mem-fraction-static
@@ -373,9 +371,8 @@ spec:
           - --enable-dp-lm-head
           - --dp-size
           - "16"
-          - --enable-deepep-moe
-          - --deepep-mode
-          - low_latency
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - decode
           - --mem-fraction-static
@@ -508,9 +505,8 @@ spec:
             #- --enable-two-batch-overlap
           - --dp-size
           - "16"
-          - --enable-deepep-moe
-          - --deepep-mode
-          - low_latency
+          - --moe-a2a-backend
+          - deepep
           - --disaggregation-mode
           - decode
           - --mem-fraction-static
diff --git a/python/sglang/srt/eplb/expert_distribution.py b/python/sglang/srt/eplb/expert_distribution.py
index a7b8875d27ae..c954394e69b4 100644
--- a/python/sglang/srt/eplb/expert_distribution.py
+++ b/python/sglang/srt/eplb/expert_distribution.py
@@ -288,12 +288,14 @@ def init_new(
             )
 
         if server_args.expert_distribution_recorder_mode == "stat_approx":
-            if server_args.enable_deepep_moe and (server_args.deepep_mode == "normal"):
+            if server_args.moe_a2a_backend is not None and (
+                server_args.deepep_mode == "normal"
+            ):
                 return _DeepepNormalSinglePassGatherer(expert_location_metadata, rank)
             else:
                 raise NotImplementedError
 
-        if server_args.enable_deepep_moe:
+        if server_args.moe_a2a_backend is not None:
             if server_args.deepep_mode == "normal":
                 return _SelectExpertsSinglePassGatherer(expert_location_metadata, rank)
             elif server_args.deepep_mode == "low_latency":
diff --git a/python/sglang/srt/layers/communicator.py b/python/sglang/srt/layers/communicator.py
index aeb8449a17d7..6c61675cb8a0 100644
--- a/python/sglang/srt/layers/communicator.py
+++ b/python/sglang/srt/layers/communicator.py
@@ -108,7 +108,7 @@ def _compute_mlp_mode(cls, context: _LayerModeComputationContext):
         if context.is_layer_sparse:
             return (
                 ScatterMode.SCATTERED
-                if global_server_args_dict["enable_deepep_moe"]
+                if not global_server_args_dict["moe_a2a_backend"].is_standard()
                 else ScatterMode.FULL
             )
         else:
diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 012a78f17900..88a74d458463 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -1,28 +1,17 @@
 from __future__ import annotations
 
 import logging
-from typing import TYPE_CHECKING, List, Optional, Tuple
+from typing import TYPE_CHECKING, Optional
 
 import torch
 
-from sglang.srt.distributed import (
-    get_tensor_model_parallel_rank,
-    get_tensor_model_parallel_world_size,
-)
-from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
+from sglang.srt.distributed.parallel_state import get_moe_expert_parallel_world_size
 from sglang.srt.layers.moe.ep_moe.kernels import (
     ep_gather,
     ep_scatter,
-    gelu_and_mul_triton_kernel,
-    grouped_gemm_triton,
     moe_ep_deepgemm_preprocess,
     post_reorder_triton_kernel,
-    pre_reorder_triton_kernel,
-    pre_reorder_triton_kernel_for_cutlass_moe,
-    run_cutlass_moe_ep_preproess,
-    run_moe_ep_preproess,
     silu_and_mul_masked_post_quant_fwd,
-    silu_and_mul_triton_kernel,
     tma_align_input_scale,
 )
 from sglang.srt.layers.moe.fused_moe_triton.layer import (
@@ -31,11 +20,9 @@
     should_use_flashinfer_trtllm_moe,
 )
 from sglang.srt.layers.moe.topk import TopKOutput
+from sglang.srt.layers.moe.utils import DeepEPMode
 from sglang.srt.layers.quantization import deep_gemm_wrapper
-from sglang.srt.layers.quantization.base_config import (
-    QuantizationConfig,
-    QuantizeMethodBase,
-)
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.fp8 import (
     Fp8Config,
     Fp8MoEMethod,
@@ -44,23 +31,13 @@
 from sglang.srt.layers.quantization.fp8_kernel import (
     is_fp8_fnuz,
     sglang_per_token_group_quant_fp8,
-    sglang_per_token_quant_fp8,
 )
-from sglang.srt.layers.quantization.unquant import UnquantizedFusedMoEMethod
-from sglang.srt.layers.quantization.w4afp8 import W4AFp8Config, W4AFp8MoEMethod
 from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch
-from sglang.srt.utils import (
-    DeepEPMode,
-    ceil_div,
-    dispose_tensor,
-    get_bool_env_var,
-    is_hip,
-    is_npu,
-)
+from sglang.srt.utils import ceil_div, dispose_tensor, get_bool_env_var, is_hip, is_npu
 
 if TYPE_CHECKING:
-    from sglang.srt.layers.moe.ep_moe.token_dispatcher import (
+    from sglang.srt.layers.moe.token_dispatcher import (
         DeepEPLLOutput,
         DeepEPNormalOutput,
         DispatchOutput,
@@ -119,7 +96,6 @@ def __init__(
             activation=activation,
             # apply_router_weight_on_input=apply_router_weight_on_input,
             routed_scaling_factor=routed_scaling_factor,
-            enable_ep_moe=True,
         )
 
         self.start_expert_id = self.moe_ep_rank * self.num_local_experts
@@ -328,7 +304,7 @@ def __init__(
         prefix: str = "",
         activation: str = "silu",
         routed_scaling_factor: Optional[float] = None,
-        deepep_mode: DeepEPMode = DeepEPMode.auto,
+        deepep_mode: DeepEPMode = DeepEPMode.AUTO,
     ):
         super().__init__(
             num_experts=num_experts,
@@ -348,7 +324,6 @@ def __init__(
 
         # TODO: move to the beginning of the file
         from sglang.srt.distributed.parallel_state import get_tp_group
-        from sglang.srt.managers.schedule_batch import global_server_args_dict
         from sglang.srt.two_batch_overlap import MaybeTboDeepEPDispatcher
 
         self.deepep_dispatcher = MaybeTboDeepEPDispatcher(
@@ -762,11 +737,10 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
 
 
 def get_moe_impl_class():
-    if global_server_args_dict["enable_deepep_moe"]:
+    if global_server_args_dict["moe_a2a_backend"].is_deepep():
         return DeepEPMoE
     if global_server_args_dict["enable_flashinfer_cutlass_moe"]:
-        # Must come before EPMoE because FusedMoE also supports enable_ep_moe
         return FusedMoE
-    if global_server_args_dict["enable_ep_moe"]:
+    if get_moe_expert_parallel_world_size() > 1:
         return FlashInferEPMoE if should_use_flashinfer_trtllm_moe() else EPMoE
     return FlashInferFusedMoE if should_use_flashinfer_trtllm_moe() else FusedMoE
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index e3a16669b438..ba590dbef387 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -14,8 +14,6 @@
     get_moe_expert_parallel_world_size,
     get_moe_tensor_parallel_rank,
     get_moe_tensor_parallel_world_size,
-    get_tensor_model_parallel_rank,
-    get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
 )
 from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
@@ -94,7 +92,6 @@ def __init__(
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
         enable_flashinfer_cutlass_moe: Optional[bool] = False,
-        enable_ep_moe: Optional[bool] = False,
     ):
         super().__init__()
 
@@ -112,7 +109,6 @@ def __init__(
         if enable_flashinfer_cutlass_moe and quant_config is None:
             logger.warning("Disable flashinfer MoE when quantization config is None.")
             enable_flashinfer_cutlass_moe = False
-            enable_ep_moe = False
 
         self.enable_flashinfer_cutlass_moe = enable_flashinfer_cutlass_moe
         self.moe_ep_size = get_moe_expert_parallel_world_size()
@@ -121,7 +117,7 @@ def __init__(
         self.moe_tp_rank = get_moe_tensor_parallel_rank()
         assert num_experts % self.moe_ep_size == 0
         self.num_local_experts = num_experts // self.moe_ep_size
-        if enable_ep_moe:
+        if self.moe_ep_size > 1:
             # TODO(ch-wan): support shared experts fusion
             # Create a tensor of size num_experts filled with -1
             self.expert_map_cpu = torch.full((self.num_experts,), -1, dtype=torch.int32)
diff --git a/python/sglang/srt/layers/moe/token_dispatcher/__init__.py b/python/sglang/srt/layers/moe/token_dispatcher/__init__.py
index e69de29bb2d1..274626424201 100644
--- a/python/sglang/srt/layers/moe/token_dispatcher/__init__.py
+++ b/python/sglang/srt/layers/moe/token_dispatcher/__init__.py
@@ -0,0 +1,23 @@
+from sglang.srt.layers.moe.token_dispatcher.base_dispatcher import (
+    BaseDispatcher,
+    BaseDispatcherConfig,
+    DispatchOutput,
+    DispatchOutputFormat,
+)
+from sglang.srt.layers.moe.token_dispatcher.deepep import (
+    DeepEPConfig,
+    DeepEPDispatcher,
+    DeepEPLLOutput,
+    DeepEPNormalOutput,
+)
+
+__all__ = [
+    "BaseDispatcher",
+    "BaseDispatcherConfig",
+    "DispatchOutput",
+    "DispatchOutputFormat",
+    "DeepEPConfig",
+    "DeepEPDispatcher",
+    "DeepEPNormalOutput",
+    "DeepEPLLOutput",
+]
diff --git a/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py b/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py
index 7167fe759b42..19661652f4eb 100644
--- a/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py
+++ b/python/sglang/srt/layers/moe/token_dispatcher/base_dispatcher.py
@@ -2,11 +2,22 @@
 
 from abc import ABC, abstractmethod
 from enum import Enum, auto
-from typing import TYPE_CHECKING, NamedTuple, Protocol, runtime_checkable
+from typing import Protocol, runtime_checkable
 
 import torch
 
 
+class MoEA2ABackend(Enum):
+    none = "none"
+    deepep = "deepep"
+
+    def is_none(self):
+        return self == MoEA2ABackend.none
+
+    def is_deepep(self):
+        return self == MoEA2ABackend.deepep
+
+
 class DispatchOutputFormat(Enum):
     standard = auto()
     deepep_normal = auto()
diff --git a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py b/python/sglang/srt/layers/moe/token_dispatcher/deepep.py
similarity index 97%
rename from python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
rename to python/sglang/srt/layers/moe/token_dispatcher/deepep.py
index c8cdfaa26481..c711d4427570 100644
--- a/python/sglang/srt/layers/moe/ep_moe/token_dispatcher.py
+++ b/python/sglang/srt/layers/moe/token_dispatcher/deepep.py
@@ -1,5 +1,3 @@
-# TODO(ch-wan): this file will be moved to sglang/srt/layers/moe/token_dispatcher/deepep.py
-
 from __future__ import annotations
 
 import logging
@@ -22,15 +20,10 @@
     DispatchOutput,
     DispatchOutputFormat,
 )
+from sglang.srt.layers.moe.utils import DeepEPMode
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.managers.schedule_batch import global_server_args_dict
-from sglang.srt.utils import (
-    DeepEPMode,
-    get_bool_env_var,
-    get_int_env_var,
-    is_hip,
-    load_json_config,
-)
+from sglang.srt.utils import get_bool_env_var, get_int_env_var, is_hip, load_json_config
 
 try:
     from deep_ep import Buffer, Config
@@ -150,9 +143,9 @@ def get_deepep_buffer(
                 num_rdma_bytes,
             )
 
-        if deepep_mode == DeepEPMode.normal:
+        if deepep_mode == DeepEPMode.NORMAL:
             num_qps_per_rank = DeepEPConfig.get_instance().num_sms // 2
-        elif deepep_mode in [DeepEPMode.low_latency, DeepEPMode.auto]:
+        elif deepep_mode in [DeepEPMode.LOW_LATENCY, DeepEPMode.AUTO]:
             num_qps_per_rank = num_experts // group.size()
         else:
             raise NotImplementedError
@@ -161,7 +154,7 @@ def get_deepep_buffer(
             device="cuda"
         ).multi_processor_count
         if (
-            (deepep_mode != DeepEPMode.low_latency)
+            (deepep_mode != DeepEPMode.LOW_LATENCY)
             and not global_server_args_dict["enable_two_batch_overlap"]
             and (DeepEPConfig.get_instance().num_sms < total_num_sms // 2)
         ):
@@ -611,7 +604,7 @@ def __init__(
         num_local_experts: int = None,
         hidden_size: int = None,
         params_dtype: torch.dtype = None,
-        deepep_mode: DeepEPMode = DeepEPMode.auto,
+        deepep_mode: DeepEPMode = DeepEPMode.AUTO,
         async_finish: bool = False,
         return_recv_hook: bool = False,
     ):
@@ -697,9 +690,9 @@ def _get_impl(self, forward_batch: ForwardBatch) -> _DeepEPDispatcherImplBase:
         resolved_deepep_mode = self.deepep_mode.resolve(
             forward_batch.is_extend_in_batch
         )
-        if resolved_deepep_mode == DeepEPMode.normal:
+        if resolved_deepep_mode == DeepEPMode.NORMAL:
             return self._normal_dispatcher
-        elif resolved_deepep_mode == DeepEPMode.low_latency:
+        elif resolved_deepep_mode == DeepEPMode.LOW_LATENCY:
             return self._low_latency_dispatcher
         else:
             raise ValueError(f"Invalid deepep_mode: {self.deepep_mode}")
diff --git a/python/sglang/srt/layers/moe/utils.py b/python/sglang/srt/layers/moe/utils.py
new file mode 100644
index 000000000000..06b174995646
--- /dev/null
+++ b/python/sglang/srt/layers/moe/utils.py
@@ -0,0 +1,43 @@
+from enum import Enum
+
+
+class MoeA2ABackend(Enum):
+
+    STANDARD = ("standard", "none")
+    DEEPEP = "deepep"
+
+    @classmethod
+    def _missing_(cls, value):
+        if value is None:
+            return cls.STANDARD
+        for member in cls:
+            if value in member.value:
+                return member
+        raise ValueError(f"No {cls.__name__} member for value {value}")
+
+    def is_deepep(self):
+        return self == MoeA2ABackend.DEEPEP
+
+    def is_standard(self):
+        return self == MoeA2ABackend.STANDARD
+
+
+class DeepEPMode(Enum):
+    NORMAL = "normal"
+    LOW_LATENCY = "low_latency"
+    AUTO = "auto"
+
+    def enable_normal(self):
+        return self in [DeepEPMode.NORMAL, DeepEPMode.AUTO]
+
+    def enable_low_latency(self):
+        return self in [DeepEPMode.LOW_LATENCY, DeepEPMode.AUTO]
+
+    def resolve(self, is_extend_in_batch: bool):
+        if self != DeepEPMode.AUTO:
+            return self
+
+        if is_extend_in_batch:
+            return DeepEPMode.NORMAL
+        else:
+            return DeepEPMode.LOW_LATENCY
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index e698bf85b768..4b8d07b9674e 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -51,6 +51,7 @@
     ScheduleBatchDisaggregationDecodeMixin,
 )
 from sglang.srt.distributed.parallel_state import get_tensor_model_parallel_rank
+from sglang.srt.layers.moe.utils import DeepEPMode, MoeA2ABackend
 from sglang.srt.mem_cache.allocator import (
     BaseTokenToKVPoolAllocator,
     SWATokenToKVPoolAllocator,
@@ -85,9 +86,8 @@
     "enable_dp_attention",
     "enable_two_batch_overlap",
     "enable_dp_lm_head",
-    "enable_deepep_moe",
+    "moe_a2a_backend",
     "deepep_mode",
-    "enable_ep_moe",
     "enable_flashinfer_cutlass_moe",
     "enable_flashinfer_trtllm_moe",
     "enable_flashinfer_allreduce_fusion",
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index c5998cdeca98..57f12dbe0490 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -64,6 +64,7 @@
 )
 from sglang.srt.layers.dp_attention import compute_dp_attention_world_info
 from sglang.srt.layers.logits_processor import LogitsProcessorOutput
+from sglang.srt.layers.moe.utils import DeepEPMode, MoeA2ABackend
 from sglang.srt.managers.io_struct import (
     AbortReq,
     CloseSessionReqInput,
@@ -137,7 +138,6 @@
 from sglang.srt.torch_memory_saver_adapter import TorchMemorySaverAdapter
 from sglang.srt.two_batch_overlap import TboDPAttentionPreparer
 from sglang.srt.utils import (
-    DeepEPMode,
     DynamicGradMode,
     broadcast_pyobj,
     configure_gc_logger,
@@ -1762,8 +1762,10 @@ def prepare_mlp_sync_batch(self, local_batch: ScheduleBatch):
             spec_algorithm=self.spec_algorithm,
             speculative_num_draft_tokens=self.server_args.speculative_num_draft_tokens,
             enable_two_batch_overlap=self.server_args.enable_two_batch_overlap,
-            enable_deepep_moe=self.server_args.enable_deepep_moe,
-            deepep_mode=DeepEPMode[self.server_args.deepep_mode],
+            enable_deepep_moe=MoeA2ABackend(
+                self.server_args.moe_a2a_backend
+            ).is_deepep(),
+            deepep_mode=DeepEPMode(self.server_args.deepep_mode),
             require_mlp_tp_gather=require_mlp_tp_gather(self.server_args),
             disable_overlap_schedule=self.server_args.disable_overlap_schedule,
         )
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 8f278e5231fe..92eeb68601f1 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -38,6 +38,7 @@
 import triton
 import triton.language as tl
 
+from sglang.srt.distributed.parallel_state import get_moe_expert_parallel_world_size
 from sglang.srt.layers.dp_attention import (
     DPPaddingMode,
     get_attention_dp_rank,
@@ -839,7 +840,7 @@ def can_run_tbo(self):
 
 
 def enable_num_token_non_padded(server_args):
-    return server_args.enable_ep_moe or server_args.enable_deepep_moe
+    return get_moe_expert_parallel_world_size() > 1
 
 
 class PPProxyTensors:
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index d04b3c47dc71..0ce13abc2571 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -60,6 +60,7 @@
     initialize_dp_attention,
 )
 from sglang.srt.layers.logits_processor import LogitsProcessorOutput
+from sglang.srt.layers.moe.utils import DeepEPMode, MoeA2ABackend
 from sglang.srt.layers.quantization import (
     deep_gemm_wrapper,
     monkey_patch_isinstance_for_vllm_base_layer,
@@ -217,6 +218,10 @@ def __init__(
                 "use_mla_backend": self.use_mla_backend,
                 "speculative_algorithm": self.spec_algorithm,
             }
+            | {
+                "moe_a2a_backend": MoeA2ABackend(server_args.moe_a2a_backend),
+                "deepep_mode": DeepEPMode(server_args.deepep_mode),
+            }
         )
 
         # CPU offload
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index fcd9c43677c6..aaafdb0853fd 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -29,6 +29,7 @@
 from transformers import PretrainedConfig
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_world_size,
     get_tensor_model_parallel_world_size,
     parallel_state,
     tensor_model_parallel_all_reduce,
@@ -61,7 +62,6 @@
     get_moe_impl_class,
     should_use_flashinfer_trtllm_moe,
 )
-from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
 from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
@@ -96,7 +96,6 @@
 )
 from sglang.srt.utils import (
     BumpAllocator,
-    DeepEPMode,
     LazyValue,
     add_prefix,
     bind_or_assign,
@@ -333,15 +332,14 @@ def __init__(
             routed_scaling_factor=self.routed_scaling_factor,
             prefix=add_prefix("experts", prefix),
             **(
-                dict(deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]])
-                if global_server_args_dict["enable_deepep_moe"]
+                dict(deepep_mode=global_server_args_dict["deepep_mode"])
+                if global_server_args_dict["moe_a2a_backend"].is_deepep()
                 else {}
             ),
             # Additional args for FusedMoE
             **(
                 dict(
                     enable_flashinfer_cutlass_moe=True,
-                    enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
                 if global_server_args_dict["enable_flashinfer_cutlass_moe"]
                 else {}
@@ -374,7 +372,7 @@ def __init__(
                 prefix=add_prefix("shared_experts", prefix),
                 **(
                     dict(tp_rank=0, tp_size=1)
-                    if global_server_args_dict["enable_deepep_moe"]
+                    if global_server_args_dict["moe_a2a_backend"].is_deepep()
                     else {}
                 ),
             )
@@ -404,9 +402,9 @@ def __init__(
 
         self.top_k = config.num_experts_per_tok
 
-        if global_server_args_dict["enable_deepep_moe"]:
+        if global_server_args_dict["moe_a2a_backend"].is_deepep():
             # TODO: we will support tp < ep in the future
-            self.ep_size = get_tensor_model_parallel_world_size()
+            self.ep_size = get_moe_expert_parallel_world_size()
             self.num_experts = (
                 config.n_routed_experts
                 + global_server_args_dict["ep_num_redundant_experts"]
@@ -428,12 +426,12 @@ def __init__(
                 num_local_experts=config.n_routed_experts // self.tp_size,
                 hidden_size=config.hidden_size,
                 params_dtype=config.torch_dtype,
-                deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]],
+                deepep_mode=global_server_args_dict["deepep_mode"],
                 async_finish=True,
                 return_recv_hook=True,
             )
 
-        self._enable_deepep_moe = global_server_args_dict["enable_deepep_moe"]
+        self._enable_deepep_moe = global_server_args_dict["moe_a2a_backend"].is_deepep()
 
     def get_moe_weights(self):
         return [
@@ -2104,11 +2102,8 @@ def determine_num_fused_shared_experts(
             or self.config.n_shared_experts != 1
         ):
             disable_reason = "Only Deepseek V3/R1 on NV-platform with capability >= 80 can use shared experts fusion optimization."
-        elif (
-            global_server_args_dict["enable_deepep_moe"]
-            or global_server_args_dict["enable_ep_moe"]
-        ):
-            disable_reason = "Deepseek V3/R1 can not use shared experts fusion optimization when in deepep_moe or ep_moe mode."
+        elif get_moe_expert_parallel_world_size() > 1:
+            disable_reason = "Deepseek V3/R1 can not use shared experts fusion optimization under expert parallelism."
 
         if disable_reason is not None:
             global_server_args_dict["disable_shared_experts_fusion"] = True
diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 645ecf344ca3..ab9a83c73bdd 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -23,6 +23,7 @@
 from transformers import PretrainedConfig
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_world_size,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
     parallel_state,
@@ -50,7 +51,6 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.ep_moe.layer import (
-    DeepEPMoE,
     get_moe_impl_class,
     should_use_flashinfer_trtllm_moe,
 )
@@ -83,7 +83,6 @@
 )
 from sglang.srt.utils import (
     BumpAllocator,
-    DeepEPMode,
     LazyValue,
     add_prefix,
     bind_or_assign,
@@ -443,15 +442,14 @@ def __init__(
             routed_scaling_factor=self.routed_scaling_factor,
             prefix=add_prefix("experts", prefix),
             **(
-                dict(deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]])
-                if global_server_args_dict["enable_deepep_moe"]
+                dict(deepep_mode=global_server_args_dict["deepep_mode"])
+                if global_server_args_dict["moe_a2a_backend"].is_deepep()
                 else {}
             ),
             # Additional args for FusedMoE
             **(
                 dict(
                     enable_flashinfer_cutlass_moe=True,
-                    enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
                 if global_server_args_dict["enable_flashinfer_cutlass_moe"]
                 else {}
@@ -484,7 +482,7 @@ def __init__(
                 prefix=add_prefix("shared_experts", prefix),
                 **(
                     dict(tp_rank=0, tp_size=1)
-                    if global_server_args_dict["enable_deepep_moe"]
+                    if global_server_args_dict["moe_a2a_backend"].is_deepep()
                     else {}
                 ),
             )
@@ -502,9 +500,9 @@ def __init__(
 
         self.top_k = config.num_experts_per_tok
 
-        if global_server_args_dict["enable_deepep_moe"]:
+        if global_server_args_dict["moe_a2a_backend"].is_deepep():
             # TODO: we will support tp < ep in the future
-            self.ep_size = get_tensor_model_parallel_world_size()
+            self.ep_size = get_moe_expert_parallel_world_size()
             self.num_experts = (
                 config.n_routed_experts
                 + global_server_args_dict["ep_num_redundant_experts"]
@@ -526,12 +524,12 @@ def __init__(
                 num_local_experts=config.n_routed_experts // self.tp_size,
                 hidden_size=config.hidden_size,
                 params_dtype=config.torch_dtype,
-                deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]],
+                deepep_mode=global_server_args_dict["deepep_mode"],
                 async_finish=True,
                 return_recv_hook=True,
             )
 
-        self._enable_deepep_moe = global_server_args_dict["enable_deepep_moe"]
+        self._enable_deepep_moe = global_server_args_dict["moe_a2a_backend"].is_deepep()
 
 
 class Glm4MoeDecoderLayer(DeepseekV2DecoderLayer):
@@ -737,11 +735,8 @@ def determine_num_fused_shared_experts(
             or self.config.n_shared_experts != 1
         ):
             disable_reason = "Only GLM-4.5 on NV-platform with capability >= 80 can use shared experts fusion optimization."
-        elif (
-            global_server_args_dict["enable_deepep_moe"]
-            or global_server_args_dict["enable_ep_moe"]
-        ):
-            disable_reason = "Deepseek and GLM-4.5 can not use shared experts fusion optimization when in deepep_moe or ep_moe mode."
+        elif get_moe_expert_parallel_world_size() > 1:
+            disable_reason = "Deepseek and GLM-4.5 can not use shared experts fusion optimization under expert parallelism."
 
         if disable_reason is not None:
             global_server_args_dict["disable_shared_experts_fusion"] = True
diff --git a/python/sglang/srt/models/grok.py b/python/sglang/srt/models/grok.py
index aa458bb652e2..36c5a40dc46e 100644
--- a/python/sglang/srt/models/grok.py
+++ b/python/sglang/srt/models/grok.py
@@ -29,6 +29,7 @@
 from transformers import PretrainedConfig
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_world_size,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_gather,
@@ -117,7 +118,7 @@ def __init__(
         )
 
         kwargs = {}
-        if global_server_args_dict["enable_ep_moe"]:
+        if get_moe_expert_parallel_world_size() > 1:
             MoEImpl = EPMoE
         else:
             MoEImpl = FusedMoE
@@ -616,8 +617,7 @@ def load_weights(
 
         # Params for weights, fp8 weight scales, fp8 activation scales
         # (param_name, weight_name, expert_id, shard_id)
-        MoEImpl = EPMoE if global_server_args_dict["enable_ep_moe"] else FusedMoE
-        expert_params_mapping = MoEImpl.make_expert_params_mapping(
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
             ckpt_gate_proj_name="w1",
             ckpt_down_proj_name="w2",
             ckpt_up_proj_name="w3",
diff --git a/python/sglang/srt/models/mixtral.py b/python/sglang/srt/models/mixtral.py
index 365825d20622..5b8609bdc692 100644
--- a/python/sglang/srt/models/mixtral.py
+++ b/python/sglang/srt/models/mixtral.py
@@ -24,6 +24,7 @@
 from transformers import MixtralConfig
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_world_size,
     get_pp_group,
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
@@ -94,7 +95,7 @@ def __init__(
             renormalize=True,
         )
 
-        MoEImpl = EPMoE if global_server_args_dict["enable_ep_moe"] else FusedMoE
+        MoEImpl = EPMoE if get_moe_expert_parallel_world_size() > 1 else FusedMoE
         self.experts = MoEImpl(
             num_experts=num_experts,
             top_k=top_k,
@@ -398,8 +399,7 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
 
         # Params for weights, fp8 weight scales, fp8 activation scales
         # (param_name, weight_name, expert_id, shard_id)
-        MoEImpl = EPMoE if global_server_args_dict["enable_ep_moe"] else FusedMoE
-        expert_params_mapping = MoEImpl.make_expert_params_mapping(
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
             ckpt_gate_proj_name="w1",
             ckpt_down_proj_name="w2",
             ckpt_up_proj_name="w3",
diff --git a/python/sglang/srt/models/qwen2_moe.py b/python/sglang/srt/models/qwen2_moe.py
index 716e6c0963a2..1463b6afacfe 100644
--- a/python/sglang/srt/models/qwen2_moe.py
+++ b/python/sglang/srt/models/qwen2_moe.py
@@ -148,7 +148,6 @@ def __init__(
             **(
                 dict(
                     enable_flashinfer_cutlass_moe=True,
-                    enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
                 if global_server_args_dict["enable_flashinfer_cutlass_moe"]
                 else {}
@@ -616,9 +615,7 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
             ("gate_up_proj", "up_proj", 1),
         ]
 
-        MoEImpl = EPMoE if global_server_args_dict["enable_ep_moe"] else FusedMoE
-
-        expert_params_mapping = MoEImpl.make_expert_params_mapping(
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
             ckpt_gate_proj_name="gate_proj",
             ckpt_down_proj_name="down_proj",
             ckpt_up_proj_name="up_proj",
diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index a1faa894d517..c531dd0b4818 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -24,6 +24,7 @@
 from torch import nn
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_world_size,
     get_pp_group,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
@@ -51,7 +52,6 @@
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
-from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
 from sglang.srt.layers.moe.topk import TopK
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
@@ -72,7 +72,7 @@
 from sglang.srt.models.qwen2_moe import Qwen2MoeMLP as Qwen3MoeMLP
 from sglang.srt.models.qwen2_moe import Qwen2MoeModel
 from sglang.srt.two_batch_overlap import MaybeTboDeepEPDispatcher
-from sglang.srt.utils import DeepEPMode, add_prefix, is_cuda, is_non_idle_and_non_empty
+from sglang.srt.utils import add_prefix, is_cuda, is_non_idle_and_non_empty
 
 Qwen3MoeConfig = None
 
@@ -113,15 +113,14 @@ def __init__(
             quant_config=quant_config,
             prefix=add_prefix("experts", prefix),
             **(
-                dict(deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]])
-                if global_server_args_dict["enable_deepep_moe"]
+                dict(deepep_mode=global_server_args_dict["deepep_mode"])
+                if global_server_args_dict["moe_a2a_backend"].is_deepep()
                 else {}
             ),
             # Additional args for FusedMoE
             **(
                 dict(
                     enable_flashinfer_cutlass_moe=True,
-                    enable_ep_moe=global_server_args_dict["enable_ep_moe"],
                 )
                 if global_server_args_dict["enable_flashinfer_cutlass_moe"]
                 else {}
@@ -136,9 +135,9 @@ def __init__(
             prefix=add_prefix("gate", prefix),
         )
 
-        if global_server_args_dict["enable_deepep_moe"]:
+        if global_server_args_dict["moe_a2a_backend"].is_deepep():
             # TODO: we will support tp < ep in the future
-            self.ep_size = get_tensor_model_parallel_world_size()
+            self.ep_size = get_moe_expert_parallel_world_size()
             self.num_experts = (
                 config.num_experts + global_server_args_dict["ep_num_redundant_experts"]
             )
@@ -148,7 +147,7 @@ def forward(
         self, hidden_states: torch.Tensor, forward_batch: Optional[ForwardBatch] = None
     ) -> torch.Tensor:
 
-        if not global_server_args_dict["enable_deepep_moe"]:
+        if not global_server_args_dict["moe_a2a_backend"].is_deepep():
             return self.forward_normal(hidden_states)
         else:
             return self.forward_deepep(hidden_states, forward_batch)
diff --git a/python/sglang/srt/models/step3_vl.py b/python/sglang/srt/models/step3_vl.py
index c43d5bec87c6..bab8712a6466 100644
--- a/python/sglang/srt/models/step3_vl.py
+++ b/python/sglang/srt/models/step3_vl.py
@@ -146,7 +146,7 @@ def __init__(
             prefix=add_prefix("gate", prefix),
         )
 
-        if global_server_args_dict["enable_deepep_moe"]:
+        if global_server_args_dict["moe_a2a_backend"].is_deepep():
             raise NotImplementedError("DeepEP MoE is not supported yet in Step3 model.")
 
     def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
diff --git a/python/sglang/srt/operations_strategy.py b/python/sglang/srt/operations_strategy.py
index 6000b5e8f1ee..cbed560e327c 100644
--- a/python/sglang/srt/operations_strategy.py
+++ b/python/sglang/srt/operations_strategy.py
@@ -4,7 +4,7 @@
 import torch
 
 from sglang.srt import operations
-from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPConfig
+from sglang.srt.layers.moe.token_dispatcher import DeepEPConfig
 from sglang.srt.model_executor.forward_batch_info import ForwardMode
 from sglang.srt.operations import Operation
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 0b442dedeebc..b8b025a7975e 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -172,12 +172,11 @@ class ServerArgs:
 
     # Expert parallelism
     ep_size: int = 1
-    enable_ep_moe: bool = False
-    enable_deepep_moe: bool = False
+    moe_a2a_backend: Optional[Literal["deepep"]] = None
     enable_flashinfer_cutlass_moe: bool = False
     enable_flashinfer_trtllm_moe: bool = False
     enable_flashinfer_allreduce_fusion: bool = False
-    deepep_mode: Optional[Literal["auto", "normal", "low_latency"]] = "auto"
+    deepep_mode: Literal["auto", "normal", "low_latency"] = "auto"
     ep_num_redundant_experts: int = 0
     ep_dispatch_algorithm: Optional[Literal["static", "dynamic", "fake"]] = None
     init_expert_location: str = "trivial"
@@ -272,7 +271,27 @@ class ServerArgs:
     enable_pdmux: bool = False
     sm_group_num: int = 3
 
+    # Deprecated arguments
+    enable_ep_moe: bool = False
+    enable_deepep_moe: bool = False
+
     def __post_init__(self):
+
+        # Check deprecated arguments
+        def print_deprecated_warning(message: str):
+            logger.warning(f"\033[33m{message}\033[0m")
+
+        if self.enable_ep_moe:
+            self.ep_size = self.tp_size
+            print_deprecated_warning(
+                "NOTE: --enable-ep-moe is deprecated. Please set `--ep-size` to the same value as `--tp-size` instead."
+            )
+        if self.enable_deepep_moe:
+            self.moe_a2a_backend = "deepep"
+            print_deprecated_warning(
+                "NOTE: --enable-deepep-moe is deprecated. Please set `--moe-a2a-backend` to 'deepep' instead."
+            )
+
         # Set missing default values
         if self.tokenizer_path is None:
             self.tokenizer_path = self.model_path
@@ -455,14 +474,13 @@ def __post_init__(self):
                 self.quantization == "modelopt_fp4"
             ), "modelopt_fp4 quantization is required for Flashinfer MOE"
             os.environ["TRTLLM_ENABLE_PDL"] = "1"
-            if self.enable_ep_moe:
-                self.ep_size = self.tp_size
-                logger.warning(
-                    f"Flashinfer cutlass MoE and EP MoE are enabled. The expert parallel size is adjusted to be the same as the tensor parallel size[{self.tp_size}]."
-                )
+            assert self.ep_size in [
+                1,
+                self.tp_size,
+            ], "The expert parallel size must be 1 or the same as the tensor parallel size"
 
         # DeepEP MoE
-        if self.enable_deepep_moe:
+        if self.moe_a2a_backend == "deepep":
             if self.deepep_mode == "normal":
                 logger.warning("Cuda graph is disabled because deepep_mode=`normal`")
                 self.disable_cuda_graph = True
@@ -486,7 +504,7 @@ def __post_init__(self):
             )
 
         if self.enable_eplb:
-            assert self.enable_ep_moe or self.enable_deepep_moe
+            assert self.ep_size > 1 or self.moe_a2a_backend is not None
 
         if self.enable_expert_distribution_metrics and (
             self.expert_distribution_recorder_mode is None
@@ -1354,30 +1372,27 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="The expert parallelism size.",
         )
         parser.add_argument(
-            "--enable-ep-moe",
-            action="store_true",
-            help="Enabling expert parallelism for moe. The ep size is equal to the tp size.",
+            "--moe-a2a-backend",
+            type=str,
+            choices=["deepep"],
+            default=ServerArgs.moe_a2a_backend,
+            help="Choose the backend for MoE A2A.",
         )
         parser.add_argument(
             "--enable-flashinfer-cutlass-moe",
             action="store_true",
-            help="Enable FlashInfer CUTLASS MoE backend for modelopt_fp4 quant on Blackwell. Supports MoE-EP with --enable-ep-moe",
+            help="Enable FlashInfer CUTLASS MoE backend for modelopt_fp4 quant on Blackwell. Supports MoE-EP",
         )
         parser.add_argument(
             "--enable-flashinfer-trtllm-moe",
             action="store_true",
-            help="Enable FlashInfer TRTLLM MoE backend on Blackwell. Supports BlockScale FP8 MoE-EP with --enable-ep-moe",
+            help="Enable FlashInfer TRTLLM MoE backend on Blackwell. Supports BlockScale FP8 MoE-EP",
         )
         parser.add_argument(
             "--enable-flashinfer-allreduce-fusion",
             action="store_true",
             help="Enable FlashInfer allreduce fusion for Add_RMSNorm.",
         )
-        parser.add_argument(
-            "--enable-deepep-moe",
-            action="store_true",
-            help="Enabling DeepEP MoE implementation for EP MoE.",
-        )
         parser.add_argument(
             "--deepep-mode",
             type=str,
@@ -1839,6 +1854,18 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="Disable mmap while loading weight using safetensors.",
         )
 
+        # Deprecated arguments
+        parser.add_argument(
+            "--enable-ep-moe",
+            action="store_true",
+            help="(Deprecated) Enabling expert parallelism for moe. The ep size is equal to the tp size.",
+        )
+        parser.add_argument(
+            "--enable-deepep-moe",
+            action="store_true",
+            help="(Deprecated) Enabling DeepEP MoE implementation for EP MoE.",
+        )
+
     @classmethod
     def from_cli_args(cls, args: argparse.Namespace):
         args.tp_size = args.tensor_parallel_size
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index d65d8d598ab1..2babeefc136b 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -13,17 +13,18 @@
     CommunicateSummableTensorPairFn,
     ScatterMode,
 )
-from sglang.srt.layers.moe.ep_moe.token_dispatcher import DeepEPDispatcher
+from sglang.srt.layers.moe.token_dispatcher import DeepEPDispatcher
+from sglang.srt.layers.moe.utils import DeepEPMode
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.managers.schedule_batch import ScheduleBatch, global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
 from sglang.srt.operations import execute_operations, execute_overlapped_operations
 from sglang.srt.operations_strategy import OperationsStrategy
 from sglang.srt.speculative.eagle_utils import EagleDraftInput, EagleVerifyInput
-from sglang.srt.utils import BumpAllocator, DeepEPMode, get_bool_env_var
+from sglang.srt.utils import BumpAllocator, get_bool_env_var
 
 if TYPE_CHECKING:
-    from sglang.srt.layers.moe.ep_moe.token_dispatcher import DispatchOutput
+    from sglang.srt.layers.moe.token_dispatcher import DispatchOutput
 
 _tbo_debug = get_bool_env_var("SGLANG_TBO_DEBUG")
 
@@ -310,7 +311,7 @@ def prepare_all_gather(
                     and not local_batch.forward_mode.is_target_verify()
                 )
                 and enable_deepep_moe
-                and (resolved_deepep_mode == DeepEPMode.low_latency)
+                and (resolved_deepep_mode == DeepEPMode.LOW_LATENCY)
             )
         else:
             self.local_tbo_split_seq_index = 0
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 33112052bf5f..cc1ed84313a2 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2205,27 +2205,6 @@ def flatten_nested_list(nested_list):
         return [nested_list]
 
 
-class DeepEPMode(Enum):
-    normal = "normal"
-    low_latency = "low_latency"
-    auto = "auto"
-
-    def enable_normal(self):
-        return self in [DeepEPMode.normal, DeepEPMode.auto]
-
-    def enable_low_latency(self):
-        return self in [DeepEPMode.low_latency, DeepEPMode.auto]
-
-    def resolve(self, is_extend_in_batch: bool):
-        if self != DeepEPMode.auto:
-            return self
-
-        if is_extend_in_batch:
-            return DeepEPMode.normal
-        else:
-            return DeepEPMode.low_latency
-
-
 def is_non_idle_and_non_empty(forward_mode, hidden_states):
     return (
         (forward_mode is not None)
@@ -2414,7 +2393,7 @@ def require_mlp_tp_gather(server_args):
             return True
         elif not server_args.enable_dp_lm_head:
             return True
-        elif not server_args.enable_deepep_moe:
+        elif server_args.moe_a2a_backend is None:
             return True
         else:
             return (
@@ -2430,7 +2409,7 @@ def require_attn_tp_gather(server_args):
     Check if the input of attention is scattered.
     """
     assert server_args.moe_dense_tp_size in [1, None]
-    if server_args.enable_deepep_moe or server_args.moe_dense_tp_size == 1:
+    if server_args.moe_a2a_backend is not None or server_args.moe_dense_tp_size == 1:
         if server_args.enable_dp_attention:
             return server_args.dp_size < server_args.tp_size
         else:
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index 60c010e31e7f..129b4ebb9508 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -499,7 +499,6 @@ def __init__(
         chunked_prefill_size: Optional[int] = None,
         dp_size: int = 1,
         tokenizer_path: Optional[str] = None,
-        enable_ep_moe: bool = False,
         mem_fraction_static: float = 0.65,
         trust_remote_code: bool = False,
         speculative_draft_model_path: Optional[str] = None,
@@ -550,7 +549,6 @@ def __init__(
             enable_dp_attention=enable_dp_attention,
             dp_size=dp_size,
             tokenizer_path=tokenizer_path,
-            enable_ep_moe=enable_ep_moe,
             disable_overlap_schedule=disable_overlap_schedule,
             cuda_graph_max_bs=cuda_graph_max_bs,
             disable_custom_all_reduce=disable_custom_all_reduce,
diff --git a/test/srt/test_deepep_large.py b/test/srt/test_deepep_large.py
index 9492f093a829..94fff566c878 100644
--- a/test/srt/test_deepep_large.py
+++ b/test/srt/test_deepep_large.py
@@ -33,7 +33,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--enable-two-batch-overlap",
                 "--ep-num-redundant-experts",
                 "32",
@@ -88,7 +89,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--enable-two-batch-overlap",
                 "--ep-num-redundant-experts",
                 "32",
diff --git a/test/srt/test_deepep_small.py b/test/srt/test_deepep_small.py
index 0c5931a8d77a..b2dfe9fc968a 100644
--- a/test/srt/test_deepep_small.py
+++ b/test/srt/test_deepep_small.py
@@ -31,7 +31,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "4",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
                 "--max-running-requests",
@@ -77,7 +78,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "2",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
                 "--max-running-requests",
@@ -118,7 +120,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "4",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
                 "--max-running-requests",
@@ -166,7 +169,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -212,7 +216,8 @@ def setUpClass(cls):
                 "4",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--enable-two-batch-overlap",
                 "--cuda-graph-max-bs",
                 "128",
@@ -259,7 +264,8 @@ def setUpClass(cls):
                 "--dp",
                 "2",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -326,7 +332,8 @@ def setUpClass(cls):
                 "--dp-size",
                 "4",
                 "--enable-two-batch-overlap",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--trust-remote-code",
                 "--speculative-algorithm",
                 "EAGLE",
diff --git a/test/srt/test_eplb.py b/test/srt/test_eplb.py
index c7eacc9499a0..c2acc07bbf12 100755
--- a/test/srt/test_eplb.py
+++ b/test/srt/test_eplb.py
@@ -34,7 +34,8 @@ def setUpClass(cls):
                 "--dp",
                 "2",
                 "--enable-dp-attention",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--deepep-mode",
                 "normal",
                 "--disable-cuda-graph",
@@ -96,8 +97,7 @@ def test_save_expert_distribution_and_init_expert_location(self):
                 trust_remote_code=True,
                 ep_num_redundant_experts=4,
                 enable_dp_attention=True,
-                enable_deepep_moe=True,
-                deepep_mode="normal",
+                moe_a2a_backend="deepep",
                 disable_cuda_graph=True,
                 expert_distribution_recorder_mode="stat",
                 tp_size=2,
diff --git a/test/srt/test_hybrid_dp_ep_tp_mtp.py b/test/srt/test_hybrid_dp_ep_tp_mtp.py
index 15fa98f727fc..e583eebbfff8 100644
--- a/test/srt/test_hybrid_dp_ep_tp_mtp.py
+++ b/test/srt/test_hybrid_dp_ep_tp_mtp.py
@@ -407,9 +407,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "8",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -449,9 +448,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "4",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -491,9 +489,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "8",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -532,9 +529,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -576,9 +572,8 @@ def setUpClass(cls):
                 "4",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -620,9 +615,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -663,9 +657,8 @@ def setUpClass(cls):
                 "--dp",
                 "4",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -706,9 +699,8 @@ def setUpClass(cls):
                 "--dp",
                 "8",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -751,9 +743,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -796,9 +787,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
@@ -835,7 +825,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "8",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -873,7 +864,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "4",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -911,7 +903,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "8",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -948,7 +941,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -988,7 +982,8 @@ def setUpClass(cls):
                 "4",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -1028,7 +1023,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -1067,7 +1063,8 @@ def setUpClass(cls):
                 "--dp",
                 "4",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -1106,7 +1103,8 @@ def setUpClass(cls):
                 "--dp",
                 "8",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -1147,7 +1145,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -1188,7 +1187,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
             ],
         )
 
@@ -1701,9 +1701,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "8",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -1755,9 +1754,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "4",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -1809,9 +1807,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "8",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -1862,9 +1859,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -1918,9 +1914,8 @@ def setUpClass(cls):
                 "4",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -1974,9 +1969,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -2029,9 +2023,8 @@ def setUpClass(cls):
                 "--dp",
                 "4",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -2084,9 +2077,8 @@ def setUpClass(cls):
                 "--dp",
                 "8",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -2141,9 +2133,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -2198,9 +2189,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-deepep-moe",
-                "--deepep-mode",
-                "auto",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "32",
                 "--max-running-requests",
@@ -2249,7 +2239,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "8",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2297,7 +2288,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "4",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2345,7 +2337,8 @@ def setUpClass(cls):
                 "--enable-dp-attention",
                 "--dp",
                 "8",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2392,7 +2385,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2442,7 +2436,8 @@ def setUpClass(cls):
                 "4",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2492,7 +2487,8 @@ def setUpClass(cls):
                 "8",
                 "--moe-dense-tp-size",
                 "1",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2541,7 +2537,8 @@ def setUpClass(cls):
                 "--dp",
                 "4",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2590,7 +2587,8 @@ def setUpClass(cls):
                 "--dp",
                 "8",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2641,7 +2639,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
@@ -2692,7 +2691,8 @@ def setUpClass(cls):
                 "--moe-dense-tp-size",
                 "1",
                 "--enable-dp-lm-head",
-                "--enable-ep-moe",
+                "--ep",
+                "8",
                 "--speculative-algo",
                 "EAGLE",
                 "--speculative-draft",
diff --git a/test/srt/test_moe_deepep.py b/test/srt/test_moe_deepep.py
index 6504d9f8faad..aa9d7a1f8c43 100644
--- a/test/srt/test_moe_deepep.py
+++ b/test/srt/test_moe_deepep.py
@@ -27,7 +27,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "2",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--disable-cuda-graph",
             ],
         )
@@ -65,7 +66,8 @@ def setUpClass(cls):
                 "--dp",
                 "2",
                 "--enable-dp-attention",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--deepep-mode",
                 "normal",
                 "--disable-cuda-graph",
diff --git a/test/srt/test_moe_deepep_eval_accuracy_large.py b/test/srt/test_moe_deepep_eval_accuracy_large.py
index 6181356282ed..66797ffa108f 100644
--- a/test/srt/test_moe_deepep_eval_accuracy_large.py
+++ b/test/srt/test_moe_deepep_eval_accuracy_large.py
@@ -31,7 +31,8 @@ def setUpClass(cls):
                 "--trust-remote-code",
                 "--tp",
                 "8",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--cuda-graph-max-bs",
                 "128",
             ],
diff --git a/test/srt/test_moe_ep.py b/test/srt/test_moe_ep.py
index c99ec7dd0184..7456c9329884 100644
--- a/test/srt/test_moe_ep.py
+++ b/test/srt/test_moe_ep.py
@@ -27,7 +27,6 @@ def setUpClass(cls):
                 "2",
                 "--ep-size",
                 "2",
-                "--enable-ep-moe",
             ],
         )
 
@@ -75,7 +74,6 @@ def setUpClass(cls):
                 "2",
                 "--ep-size",
                 "2",
-                "--enable-ep-moe",
                 "--quantization",
                 "fp8",
             ],
diff --git a/test/srt/test_two_batch_overlap.py b/test/srt/test_two_batch_overlap.py
index 108177e93a2b..257d43ca8522 100644
--- a/test/srt/test_two_batch_overlap.py
+++ b/test/srt/test_two_batch_overlap.py
@@ -33,7 +33,8 @@ def setUpClass(cls):
                 "--dp",
                 "2",
                 "--enable-dp-attention",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--deepep-mode",
                 "normal",
                 "--disable-cuda-graph",  # DeepEP normal does not support CUDA Graph
@@ -122,7 +123,8 @@ def setUpClass(cls):
                 "--dp",
                 "2",
                 "--enable-dp-attention",
-                "--enable-deepep-moe",
+                "--moe-a2a-backend",
+                "deepep",
                 "--deepep-mode",
                 "normal",
                 "--disable-cuda-graph",  # DeepEP normal does not support CUDA Graph

From 46e9d1c7c19e4734b32b70a1bcafef70464f6f49 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Fri, 1 Aug 2025 02:32:10 -0700
Subject: [PATCH 280/396] Increase tolerance to address CI failures (#8643)

---
 test/srt/models/test_generation_models.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/test/srt/models/test_generation_models.py b/test/srt/models/test_generation_models.py
index daa99001d7b7..f8acf4b189ea 100644
--- a/test/srt/models/test_generation_models.py
+++ b/test/srt/models/test_generation_models.py
@@ -42,7 +42,7 @@ class ModelCase:
     model_path: str
     tp_size: int = 1
     prefill_tolerance: float = 5e-2
-    decode_tolerance: float = 5e-2
+    decode_tolerance: float = 6e-2  # Increased to fix numerical error in issue #8614.
     rouge_l_tolerance: float = 1
     skip_long_prompt: bool = False
     trust_remote_code: bool = False

From 6bdd27861b90fa3ea2484146c57eae3646139a52 Mon Sep 17 00:00:00 2001
From: Peter Pan <peter.pan@daocloud.io>
Date: Fri, 1 Aug 2025 22:01:24 +0800
Subject: [PATCH 281/396] [Kimi K2] dsv3_router_gemm supports NUM_EXPERTS ==
 384 (#8013)

---
 .../benchmark/bench_dsv3_router_gemm.py       | 48 ++++++++++----
 .../csrc/gemm/dsv3_router_gemm_bf16_out.cu    | 50 ++++++++++++++
 .../csrc/gemm/dsv3_router_gemm_entry.cu       | 66 ++++++++++++++-----
 .../csrc/gemm/dsv3_router_gemm_float_out.cu   | 50 ++++++++++++++
 sgl-kernel/tests/test_dsv3_router_gemm.py     |  4 +-
 5 files changed, 188 insertions(+), 30 deletions(-)

diff --git a/sgl-kernel/benchmark/bench_dsv3_router_gemm.py b/sgl-kernel/benchmark/bench_dsv3_router_gemm.py
index 4502746f9b39..dee090e21bdc 100644
--- a/sgl-kernel/benchmark/bench_dsv3_router_gemm.py
+++ b/sgl-kernel/benchmark/bench_dsv3_router_gemm.py
@@ -13,9 +13,14 @@
         x_vals=[i + 1 for i in range(16)],
         x_log=False,
         line_arg="impl",
-        line_vals=["torch", "sgl-kernel"],
-        line_names=["torch", "dsv3_router_gemm"],
-        styles=[("blue", "-"), ("orange", "-")],
+        line_vals=["torch-256", "sgl-kernel-256", "torch-384", "sgl-kernel-384"],
+        line_names=[
+            "torch-256",
+            "dsv3_router_gemm-256",
+            "torch-384",
+            "dsv3_router_gemm-384",
+        ],
+        styles=[("blue", "-"), ("orange", "-"), ("green", "-"), ("red", "-")],
         ylabel="TFLOPs",
         plot_name="input-bf16-output-bf16 dsv3 router gemm throughput",
         args={},
@@ -23,19 +28,26 @@
 )
 def benchmark_bf16_output(num_tokens, impl):
     # M: num_tokens, K: hidden_dim, N: num_experts
-    M, K, N = num_tokens, 7168, 256
+    M, K = num_tokens, 7168
+
+    if impl == "torch-256" or impl == "sgl-kernel-256":
+        N = 256
+    elif impl == "torch-384" or impl == "sgl-kernel-384":
+        N = 384
+    else:
+        raise ValueError(f"Unknown impl: {impl}")
 
     mat_a = torch.randn((M, K), dtype=torch.bfloat16, device="cuda").contiguous()
     mat_b = torch.randn((N, K), dtype=torch.bfloat16, device="cuda").contiguous()
 
     quantiles = [0.5, 0.2, 0.8]
 
-    if impl == "torch":
+    if impl == "torch-256" or impl == "torch-384":
 
         def runner():
             F.linear(mat_a, mat_b)
 
-    elif impl == "sgl-kernel":
+    elif impl == "sgl-kernel-256" or impl == "sgl-kernel-384":
 
         def runner():
             dsv3_router_gemm(mat_a, mat_b, out_dtype=torch.bfloat16)
@@ -55,9 +67,14 @@ def tflops(t_ms):
         x_vals=[i + 1 for i in range(16)],
         x_log=False,
         line_arg="impl",
-        line_vals=["torch", "sgl-kernel"],
-        line_names=["torch", "dsv3_router_gemm"],
-        styles=[("blue", "-"), ("orange", "-")],
+        line_vals=["torch-256", "sgl-kernel-256", "torch-384", "sgl-kernel-384"],
+        line_names=[
+            "torch-256",
+            "dsv3_router_gemm-256",
+            "torch-384",
+            "dsv3_router_gemm-384",
+        ],
+        styles=[("blue", "-"), ("orange", "-"), ("green", "-"), ("red", "-")],
         ylabel="TFLOPs",
         plot_name="input-bf16-output-fp32 dsv3 router gemm throughput",
         args={},
@@ -65,19 +82,26 @@ def tflops(t_ms):
 )
 def benchmark_float_output(num_tokens, impl):
     # M: num_tokens, K: hidden_dim, N: num_experts
-    M, K, N = num_tokens, 7168, 256
+    M, K = num_tokens, 7168
+
+    if impl == "torch-256" or impl == "sgl-kernel-256":
+        N = 256
+    elif impl == "torch-384" or impl == "sgl-kernel-384":
+        N = 384
+    else:
+        raise ValueError(f"Unknown impl: {impl}")
 
     mat_a = torch.randn((M, K), dtype=torch.bfloat16, device="cuda").contiguous()
     mat_b = torch.randn((N, K), dtype=torch.bfloat16, device="cuda").contiguous()
 
     quantiles = [0.5, 0.2, 0.8]
 
-    if impl == "torch":
+    if impl == "torch-256" or impl == "torch-384":
 
         def runner():
             F.linear(mat_a, mat_b).to(torch.float32)
 
-    elif impl == "sgl-kernel":
+    elif impl == "sgl-kernel-256" or impl == "sgl-kernel-384":
 
         def runner():
             dsv3_router_gemm(mat_a, mat_b, out_dtype=torch.float32)
diff --git a/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu b/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu
index ef011dfb0b54..e613bd75ca38 100644
--- a/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu
+++ b/sgl-kernel/csrc/gemm/dsv3_router_gemm_bf16_out.cu
@@ -185,6 +185,7 @@ void invokeRouterGemmBf16Output(__nv_bfloat16* output, T const* mat_a, T const*
       mat_b);
 }
 
+// Template instantiations for DEFAULT_NUM_EXPERTS experts
 template void invokeRouterGemmBf16Output<__nv_bfloat16, 1, 256, 7168>(
     __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
@@ -232,3 +233,52 @@ template void invokeRouterGemmBf16Output<__nv_bfloat16, 15, 256, 7168>(
 
 template void invokeRouterGemmBf16Output<__nv_bfloat16, 16, 256, 7168>(
     __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+// Template instantiations for KIMI_K2_NUM_EXPERTS experts
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 1, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 2, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 3, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 4, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 5, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 6, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 7, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 8, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 9, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 10, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 11, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 12, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 13, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 14, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 15, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmBf16Output<__nv_bfloat16, 16, 384, 7168>(
+    __nv_bfloat16*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
diff --git a/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu b/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu
index c316a8193ea4..4f09e6cf470e 100644
--- a/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu
+++ b/sgl-kernel/csrc/gemm/dsv3_router_gemm_entry.cu
@@ -25,6 +25,10 @@
 #include "cuda_runtime.h"
 #include "utils.h"
 
+static constexpr int DEFAULT_NUM_EXPERTS = 256;
+static constexpr int KIMI_K2_NUM_EXPERTS = 384;
+static constexpr int DEFAULT_HIDDEN_DIM = 7168;
+
 template <typename T, int kNumTokens, int kNumExperts, int kHiddenDim>
 void invokeRouterGemmFloatOutput(float* output, T const* mat_a, T const* mat_b, cudaStream_t stream);
 
@@ -91,12 +95,24 @@ void dsv3_router_gemm(
   TORCH_CHECK(output.dim() == 2 && mat_a.dim() == 2 && mat_b.dim() == 2);
 
   const int num_tokens = mat_a.size(0);
-  constexpr int num_experts = 256;
-  constexpr int hidden_dim = 7168;
+  const int num_experts = mat_b.size(0);
+  const int hidden_dim = mat_a.size(1);
 
   TORCH_CHECK(mat_a.size(1) == mat_b.size(1), "mat_a and mat_b must have the same hidden_dim");
-  TORCH_CHECK(mat_a.size(1) == hidden_dim, "currently hidden_dim only supports 7168");
-  TORCH_CHECK(mat_b.size(0) == num_experts, "currently num_experts only supports 256");
+  TORCH_CHECK(
+      hidden_dim == DEFAULT_HIDDEN_DIM,
+      "Expected hidden_dim=",
+      DEFAULT_HIDDEN_DIM,
+      ", but got hidden_dim=",
+      hidden_dim);
+  TORCH_CHECK(
+      num_experts == DEFAULT_NUM_EXPERTS || num_experts == KIMI_K2_NUM_EXPERTS,
+      "Expected num_experts=",
+      DEFAULT_NUM_EXPERTS,
+      " or num_experts=",
+      KIMI_K2_NUM_EXPERTS,
+      ", but got num_experts=",
+      num_experts);
   TORCH_CHECK(
       num_tokens >= 1 && num_tokens <= 16, "currently num_tokens must be less than or equal to 16 for router_gemm");
   TORCH_CHECK(mat_a.dtype() == torch::kBFloat16, "mat_a must be bf16");
@@ -110,18 +126,36 @@ void dsv3_router_gemm(
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
 
   if (output.dtype() == torch::kFloat32) {
-    LoopUnroller<1, 16, num_experts, hidden_dim>::unroll_float_output(
-        num_tokens,
-        reinterpret_cast<float*>(output.mutable_data_ptr()),
-        reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
-        reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
-        stream);
+    if (num_experts == DEFAULT_NUM_EXPERTS) {
+      LoopUnroller<1, 16, DEFAULT_NUM_EXPERTS, DEFAULT_HIDDEN_DIM>::unroll_float_output(
+          num_tokens,
+          reinterpret_cast<float*>(output.mutable_data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
+          stream);
+    } else if (num_experts == KIMI_K2_NUM_EXPERTS) {
+      LoopUnroller<1, 16, KIMI_K2_NUM_EXPERTS, DEFAULT_HIDDEN_DIM>::unroll_float_output(
+          num_tokens,
+          reinterpret_cast<float*>(output.mutable_data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
+          stream);
+    }
   } else if (output.dtype() == torch::kBFloat16) {
-    LoopUnroller<1, 16, num_experts, hidden_dim>::unroll_bf16_output(
-        num_tokens,
-        reinterpret_cast<__nv_bfloat16*>(output.mutable_data_ptr()),
-        reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
-        reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
-        stream);
+    if (num_experts == DEFAULT_NUM_EXPERTS) {
+      LoopUnroller<1, 16, DEFAULT_NUM_EXPERTS, DEFAULT_HIDDEN_DIM>::unroll_bf16_output(
+          num_tokens,
+          reinterpret_cast<__nv_bfloat16*>(output.mutable_data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
+          stream);
+    } else if (num_experts == KIMI_K2_NUM_EXPERTS) {
+      LoopUnroller<1, 16, KIMI_K2_NUM_EXPERTS, DEFAULT_HIDDEN_DIM>::unroll_bf16_output(
+          num_tokens,
+          reinterpret_cast<__nv_bfloat16*>(output.mutable_data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_a.data_ptr()),
+          reinterpret_cast<__nv_bfloat16 const*>(mat_b.data_ptr()),
+          stream);
+    }
   }
 }
diff --git a/sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu b/sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu
index e7577c55bc44..88a364e2c90c 100644
--- a/sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu
+++ b/sgl-kernel/csrc/gemm/dsv3_router_gemm_float_out.cu
@@ -184,6 +184,7 @@ void invokeRouterGemmFloatOutput(float* output, T const* mat_a, T const* mat_b,
       mat_b);
 }
 
+// Template instantiations for DEFAULT_NUM_EXPERTS experts
 template void invokeRouterGemmFloatOutput<__nv_bfloat16, 1, 256, 7168>(
     float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
 
@@ -231,3 +232,52 @@ template void invokeRouterGemmFloatOutput<__nv_bfloat16, 15, 256, 7168>(
 
 template void invokeRouterGemmFloatOutput<__nv_bfloat16, 16, 256, 7168>(
     float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+// Template instantiations for KIMI_K2_NUM_EXPERTS experts
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 1, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 2, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 3, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 4, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 5, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 6, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 7, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 8, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 9, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 10, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 11, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 12, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 13, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 14, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 15, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
+
+template void invokeRouterGemmFloatOutput<__nv_bfloat16, 16, 384, 7168>(
+    float*, __nv_bfloat16 const*, __nv_bfloat16 const*, cudaStream_t);
diff --git a/sgl-kernel/tests/test_dsv3_router_gemm.py b/sgl-kernel/tests/test_dsv3_router_gemm.py
index 169c996719d5..575769d6d6fa 100644
--- a/sgl-kernel/tests/test_dsv3_router_gemm.py
+++ b/sgl-kernel/tests/test_dsv3_router_gemm.py
@@ -5,8 +5,8 @@
 
 
 @pytest.mark.parametrize("num_tokens", [i + 1 for i in range(16)])
-def test_dsv3_router_gemm(num_tokens):
-    num_experts = 256
+@pytest.mark.parametrize("num_experts", [256, 384])
+def test_dsv3_router_gemm(num_tokens, num_experts):
     hidden_dim = 7168
 
     mat_a = torch.randn(

From 533cb5b274246bd5eac2b9e4bb333e69147d2c90 Mon Sep 17 00:00:00 2001
From: Hongbo Xu <1320612015@qq.com>
Date: Fri, 1 Aug 2025 22:59:27 +0800
Subject: [PATCH 282/396] [DOC]Update sgl-kernel README (#8665)

---
 sgl-kernel/README.md | 51 ++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 51 insertions(+)

diff --git a/sgl-kernel/README.md b/sgl-kernel/README.md
index a57ab98646c9..c71b9233575b 100644
--- a/sgl-kernel/README.md
+++ b/sgl-kernel/README.md
@@ -58,6 +58,57 @@ And if you build the sgl-kernel with cmake, you need to add `CMAKE_BUILD_PARALLE
 CMAKE_BUILD_PARALLEL_LEVEL=$(nproc) python -m uv build --wheel -Cbuild-dir=build --color=always .
 ```
 
+### FlashAttention on Hopper
+⚠️ **Note**: To ensure that FlashAttention compiles correctly on Hopper GPU Architecture(sm90), it is strongly [recommended](https://github.com/Dao-AILab/flash-attention/issues/1453) to use:
+- nvcc version: 12.6
+- ptxas version: 12.8
+
+**1. Check Current Versions**
+
+Before proceeding, verify your current CUDA tool versions:
+```bash
+nvcc --version
+ptxas --version
+```
+**2. Update ptxas to 12.8 (if needed)**
+
+1. Save the following script to a file (e.g., `update_ptxas.sh`).
+```bash
+#!/usr/bin/env bash
+# Source: https://github.com/Dao-AILab/flash-attention/blob/7ff1b621112ba8b538e2fc6a316f2a6b6f22e518/hopper/setup.py#L404
+set -ex
+
+if [ -z "$1" ]; then
+    echo "Usage: $0 <CUDA_VERSION>"
+    exit 1
+fi
+
+CUDA_VERSION=$1
+
+if awk "BEGIN {exit !("$CUDA_VERSION" >= 12.6 && "$CUDA_VERSION" < 12.8)}"; then
+    NVCC_ARCHIVE_VERSION="12.8.93"
+    NVCC_ARCHIVE_NAME="cuda_nvcc-linux-x86_64-${NVCC_ARCHIVE_VERSION}-archive"
+    NVCC_ARCHIVE_TAR="${NVCC_ARCHIVE_NAME}.tar.xz"
+    NVCC_ARCHIVE_URL="https://developer.download.nvidia.com/compute/cuda/redist/cuda_nvcc/linux-x86_64/${NVCC_ARCHIVE_TAR}"
+
+    wget "$NVCC_ARCHIVE_URL"
+    tar -xf "$NVCC_ARCHIVE_TAR"
+
+    mkdir -p /usr/local/cuda/bin
+    cp "${NVCC_ARCHIVE_NAME}/bin/ptxas" /usr/local/cuda/bin/
+
+    # Clean up temporary files
+    rm -f "${NVCC_ARCHIVE_TAR}"
+    rm -rf "${NVCC_ARCHIVE_NAME}"
+fi
+```
+2. Run the script with your CUDA version as the argument, using `sudo`:
+```bash
+sudo bash update_ptxas.sh 12.6
+# Check the version
+ptxas --version
+```
+
 # Developer Guide
 
 ## Development Environment Setup

From db7343c99201d58b7e3026c95050b245a1af640a Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Fri, 1 Aug 2025 09:27:18 -0700
Subject: [PATCH 283/396] fix per token cuda kernel hidden dim cannot divide by
 16 (#8543)

---
 .../benchmark/bench_per_token_quant_fp8.py    | 127 +++++++++++++++---
 sgl-kernel/csrc/gemm/per_token_quant_fp8.cu   |  85 ++++++++----
 sgl-kernel/tests/test_per_token_quant_fp8.py  |   2 +-
 3 files changed, 167 insertions(+), 47 deletions(-)

diff --git a/sgl-kernel/benchmark/bench_per_token_quant_fp8.py b/sgl-kernel/benchmark/bench_per_token_quant_fp8.py
index ef50957e27e3..a72a1a3d07e5 100644
--- a/sgl-kernel/benchmark/bench_per_token_quant_fp8.py
+++ b/sgl-kernel/benchmark/bench_per_token_quant_fp8.py
@@ -12,6 +12,39 @@
 _is_hip = is_hip()
 fp8_type_ = torch.float8_e4m3fnuz if _is_hip else torch.float8_e4m3fn
 
+# Get correct FP8 E4M3 maximum value
+if _is_hip:
+    FP8_E4M3_MAX = 224.0  # ROCM uses 224.0
+else:
+    # For CUDA, get the actual max value from the type
+    FP8_E4M3_MAX = float(torch.finfo(fp8_type_).max)
+
+
+def torch_per_token_quant_fp8(
+    input: torch.Tensor,
+) -> Tuple[torch.Tensor, torch.Tensor]:
+    """Pure PyTorch reference implementation for per-token FP8 quantization."""
+    device = input.device
+    dtype = input.dtype
+
+    # Find max absolute value per token (row) - exactly like CUDA kernel
+    max_vals = torch.abs(input).max(dim=1)[0]  # [num_tokens]
+
+    # Calculate scale per token - exactly like CUDA kernel: scale = max_value / FP8_E4M3_MAX
+    scales = max_vals / FP8_E4M3_MAX  # [num_tokens]
+
+    # No special zero handling - directly compute 1.0 / scale like CUDA kernel
+    scale_inv = 1.0 / scales  # [num_tokens]
+
+    # Quantize: input * scale_inv, then clamp to FP8 range
+    quantized_float = input * scale_inv.unsqueeze(1)  # Broadcast scale_inv
+    quantized_float = torch.clamp(quantized_float, -FP8_E4M3_MAX, FP8_E4M3_MAX)
+
+    # Convert to FP8 - use more explicit conversion
+    quantized_fp8 = quantized_float.to(fp8_type_)
+
+    return quantized_fp8, scales
+
 
 def vllm_per_token_quant_fp8(
     input: torch.Tensor,
@@ -29,53 +62,100 @@ def sglang_per_token_quant_fp8(
     return output, scale
 
 
-def calculate_diff(batch_size: int, seq_len: int):
-    """Calculate difference between VLLM and SGLang implementations."""
+def calculate_diff(batch_size: int, seq_len: int, hidden_dim: int):
+    """Compare Torch reference, VLLM, and SGLang implementations."""
     device = torch.device("cuda")
-    x = torch.rand((batch_size, seq_len), dtype=torch.float16, device=device)
+    x = torch.rand(
+        (batch_size * seq_len, hidden_dim), dtype=torch.float16, device=device
+    )
 
+    # Get all three implementations
+    torch_out, torch_scale = torch_per_token_quant_fp8(x)
     vllm_out, vllm_scale = vllm_per_token_quant_fp8(x)
     sglang_out, sglang_scale = sglang_per_token_quant_fp8(x)
 
-    scale_diff = torch.abs(vllm_scale - sglang_scale).mean().item()
-    output_diff = torch.abs(vllm_out.float() - sglang_out.float()).mean().item()
+    print(f"\n=== Comparison for hidden_dim={hidden_dim} ===")
 
-    if torch.allclose(
-        vllm_out.to(torch.float32), sglang_out.to(torch.float32), rtol=1e-3, atol=1e-5
-    ) and torch.allclose(vllm_scale, sglang_scale, rtol=1e-3, atol=1e-5):
-        print("✅ All implementations match")
-    else:
-        print("❌ Implementations differ")
+    # Compare scales
+    torch_vllm_scale_diff = torch.abs(torch_scale - vllm_scale).mean().item()
+    torch_sglang_scale_diff = torch.abs(torch_scale - sglang_scale).mean().item()
+    vllm_sglang_scale_diff = torch.abs(vllm_scale - sglang_scale).mean().item()
+
+    print(f"Scale differences:")
+    print(f"  Torch vs VLLM:   {torch_vllm_scale_diff:.8f}")
+    print(f"  Torch vs SGLang: {torch_sglang_scale_diff:.8f}")
+    print(f"  VLLM vs SGLang:  {vllm_sglang_scale_diff:.8f}")
+
+    # Compare outputs
+    torch_vllm_out_diff = torch.abs(torch_out.float() - vllm_out.float()).mean().item()
+    torch_sglang_out_diff = (
+        torch.abs(torch_out.float() - sglang_out.float()).mean().item()
+    )
+    vllm_sglang_out_diff = (
+        torch.abs(vllm_out.float() - sglang_out.float()).mean().item()
+    )
+
+    print(f"Output differences:")
+    print(f"  Torch vs VLLM:   {torch_vllm_out_diff:.8f}")
+    print(f"  Torch vs SGLang: {torch_sglang_out_diff:.8f}")
+    print(f"  VLLM vs SGLang:  {vllm_sglang_out_diff:.8f}")
+
+    # Check tolerances
+    rtol, atol = 1e-3, 1e-5
+
+    torch_vllm_match = torch.allclose(
+        torch_out.float(), vllm_out.float(), rtol=rtol, atol=atol
+    ) and torch.allclose(torch_scale, vllm_scale, rtol=rtol, atol=atol)
+    torch_sglang_match = torch.allclose(
+        torch_out.float(), sglang_out.float(), rtol=rtol, atol=atol
+    ) and torch.allclose(torch_scale, sglang_scale, rtol=rtol, atol=atol)
+
+    if hidden_dim == 1368:
+        rtol = 1e-2
+        # we found vllm sglang has diff when hidden dim is not dividable by 16
+        # and we believe SGLang is closer to Torch implementation
+
+    vllm_sglang_match = torch.allclose(
+        vllm_out.float(), sglang_out.float(), rtol=rtol, atol=atol
+    ) and torch.allclose(vllm_scale, sglang_scale, rtol=rtol, atol=atol)
+
+    print(f"Matches (rtol={rtol}, atol={atol}):")
+    print(f"  Torch vs VLLM:   {'✅' if torch_vllm_match else '❌'}")
+    print(f"  Torch vs SGLang: {'✅' if torch_sglang_match else '❌'}")
+    print(f"  VLLM vs SGLang:  {'✅' if vllm_sglang_match else '❌'}")
 
 
 batch_size_range = [16, 32, 64, 128]
 seq_len_range = [64, 128, 256, 512, 1024, 2048, 4096]
+hidden_dim_range = [1368, 2048, 4096]
 
-configs = list(itertools.product(batch_size_range, seq_len_range))
+configs = list(itertools.product(batch_size_range, seq_len_range, hidden_dim_range))
 
 
 @triton.testing.perf_report(
     triton.testing.Benchmark(
-        x_names=["batch_size", "seq_len"],
+        x_names=["batch_size", "seq_len", "hidden_dim"],
         x_vals=configs,
         line_arg="provider",
-        line_vals=["vllm", "sglang"],
-        line_names=["VLLM", "SGL Kernel"],
-        styles=[("blue", "-"), ("green", "-")],
+        line_vals=["torch", "vllm", "sglang"],
+        line_names=["Torch Reference", "VLLM", "SGL Kernel"],
+        styles=[("red", "-"), ("blue", "-"), ("green", "-")],
         ylabel="us",
         plot_name="per-token-dynamic-quant-fp8-performance",
         args={},
     )
 )
-def benchmark_quantization(batch_size, seq_len, provider):
+def benchmark_quantization(batch_size, seq_len, hidden_dim, provider):
     dtype = torch.float16
     device = torch.device("cuda")
 
-    x = torch.randn(batch_size * seq_len, 4096, device=device, dtype=dtype)
+    x = torch.randn(batch_size * seq_len, hidden_dim, device=device, dtype=dtype)
 
     quantiles = [0.5, 0.2, 0.8]
 
-    if provider == "vllm":
+    if provider == "torch":
+        fn = lambda: torch_per_token_quant_fp8(x.clone())
+    elif provider == "vllm":
         fn = lambda: vllm_per_token_quant_fp8(x.clone())
     elif provider == "sglang":
         fn = lambda: sglang_per_token_quant_fp8(x.clone())
@@ -86,5 +166,12 @@ def benchmark_quantization(batch_size, seq_len, provider):
 
 
 if __name__ == "__main__":
-    calculate_diff(batch_size=4, seq_len=4096)
+    # Test various hidden dimensions for correctness
+    test_dims = [1368, 2048, 4096]
+
+    for dim in test_dims:
+        calculate_diff(batch_size=4, seq_len=4096, hidden_dim=dim)
+
+    print("\n" + "=" * 60)
+    print("Starting performance benchmark...")
     benchmark_quantization.run(print_data=True)
diff --git a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
index 7b58f838f09f..a3c60ad5bd7a 100644
--- a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
+++ b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
@@ -75,14 +75,21 @@ __global__ void per_token_quant_fp8_kernel(
           c10::Float8_e4m3fnuz::from_bits());
 #endif
     }
-    *(uint4*)(token_output + i * kVecSize) = *(uint4*)output_arr;
+    if constexpr (kVecSize == 16) {
+      *(uint4*)(token_output + i * kVecSize) = *(uint4*)output_arr;
+    } else {
+      // Use element-wise copy for vector size 8 to ensure correctness
+      for (int k = 0; k < kVecSize; ++k) {
+        token_output[i * kVecSize + k] = output_arr[k];
+      }
+    }
   }
 }
 
 // ---------------------------------------------------------------------------
 // 2.  Baseline kernel (1 token / CTA, CUB block reduce)
 // ---------------------------------------------------------------------------
-template <typename T, typename DST_DTYPE>
+template <typename T, typename DST_DTYPE, int kVecSize = 16>
 __global__ void per_token_quant_fp8_small_batch_kernel(
     const T* __restrict__ input,
     DST_DTYPE* __restrict__ output_q,
@@ -100,19 +107,17 @@ __global__ void per_token_quant_fp8_small_batch_kernel(
 
   float max_value = 0.0f;
 
-  // We want to store 128 bits of data at a time. 16 = 128 / 8 bits
-  // Load is already vectorized, so 16 elements work for T.
-  const uint32_t VEC_SIZE = 16;
-  using vec_t = flashinfer::vec_t<T, VEC_SIZE>;
-  const int32_t num_vec_elems = hidden_dim / VEC_SIZE;
+  // Use template parameter for vector size
+  using vec_t = flashinfer::vec_t<T, kVecSize>;
+  const int32_t num_vec_elems = hidden_dim / kVecSize;
 
   // Find max using vectorized loads
   for (int32_t i = tid; i < num_vec_elems; i += block_dim) {
     vec_t input_vec;
-    input_vec.cast_load(token_input + i * VEC_SIZE);
+    input_vec.cast_load(token_input + i * kVecSize);
 
 #pragma unroll
-    for (uint32_t j = 0; j < VEC_SIZE; ++j) {
+    for (uint32_t j = 0; j < kVecSize; ++j) {
       float val = static_cast<float>(input_vec[j]);
       max_value = fmaxf(max_value, fabsf(val));
     }
@@ -132,11 +137,11 @@ __global__ void per_token_quant_fp8_small_batch_kernel(
   // Quantize using vectorized loads
   for (int32_t i = tid; i < num_vec_elems; i += block_dim) {
     vec_t input_vec;
-    input_vec.cast_load(token_input + i * VEC_SIZE);
+    input_vec.cast_load(token_input + i * kVecSize);
 
-    DST_DTYPE output_arr[VEC_SIZE];
+    DST_DTYPE output_arr[kVecSize];
 #pragma unroll
-    for (uint32_t j = 0; j < VEC_SIZE; ++j) {
+    for (uint32_t j = 0; j < kVecSize; ++j) {
       float val = fmaxf(fminf(static_cast<float>(input_vec[j]) * scale_inv, FP8_E4M3_MAX), -FP8_E4M3_MAX);
 #ifndef USE_ROCM
       output_arr[j] = static_cast<DST_DTYPE>(val);
@@ -147,7 +152,14 @@ __global__ void per_token_quant_fp8_small_batch_kernel(
 #endif
     }
 
-    *(uint4*)(token_output + i * VEC_SIZE) = *(uint4*)output_arr;
+    if constexpr (kVecSize == 16) {
+      *(uint4*)(token_output + i * kVecSize) = *(uint4*)output_arr;
+    } else {
+      // Use element-wise copy for vector size 8 to ensure correctness
+      for (int k = 0; k < kVecSize; ++k) {
+        token_output[i * kVecSize + k] = output_arr[k];
+      }
+    }
   }
 }
 
@@ -158,13 +170,14 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
   const auto input_sizes = input.sizes();
   const int64_t num_tokens = input_sizes[0];
   const int64_t hidden_dim = input_sizes[1];
-  TORCH_CHECK(hidden_dim % 16 == 0, "Hidden dimension must be divisible by 16, but got ", hidden_dim);
+  TORCH_CHECK(hidden_dim % 8 == 0, "Hidden dimension must be divisible by 8, but got ", hidden_dim);
 
   cudaStream_t stream = at::cuda::getCurrentCUDAStream();
   // Hard-code sm_count
   int sm_count = 132;
   constexpr int TOKENS_PER_CTA = 8;
   const bool use_warp_kernel = (num_tokens >= sm_count * 2 * TOKENS_PER_CTA);
+  const bool use_vec16 = (hidden_dim % 16 == 0);
 
   DISPATCH_PYTORCH_DTYPE_TO_CTYPE_FLOAT_FP16(input.scalar_type(), scalar_t, [&] {
     if (use_warp_kernel) {
@@ -172,23 +185,43 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
       constexpr int THREADS = TOKENS_PER_CTA * kWarpSize;  // 256
       dim3 grid((num_tokens + TOKENS_PER_CTA - 1) / TOKENS_PER_CTA);
       dim3 block(THREADS);
-      per_token_quant_fp8_kernel<scalar_t, __nv_fp8_e4m3, TOKENS_PER_CTA, 16><<<grid, block, 0, stream>>>(
-          static_cast<const scalar_t*>(input.data_ptr()),
-          static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
-          static_cast<float*>(output_s.data_ptr()),
-          hidden_dim,
-          num_tokens);
+
+      if (use_vec16) {
+        per_token_quant_fp8_kernel<scalar_t, __nv_fp8_e4m3, TOKENS_PER_CTA, 16><<<grid, block, 0, stream>>>(
+            static_cast<const scalar_t*>(input.data_ptr()),
+            static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
+            static_cast<float*>(output_s.data_ptr()),
+            hidden_dim,
+            num_tokens);
+      } else {
+        per_token_quant_fp8_kernel<scalar_t, __nv_fp8_e4m3, TOKENS_PER_CTA, 8><<<grid, block, 0, stream>>>(
+            static_cast<const scalar_t*>(input.data_ptr()),
+            static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
+            static_cast<float*>(output_s.data_ptr()),
+            hidden_dim,
+            num_tokens);
+      }
     } else {
       // -------- baseline -----------------------------------------------------
       constexpr int THREADS = 256;
       dim3 grid(num_tokens);
       dim3 block(THREADS);
-      per_token_quant_fp8_small_batch_kernel<scalar_t, __nv_fp8_e4m3><<<grid, block, 0, stream>>>(
-          static_cast<const scalar_t*>(input.data_ptr()),
-          static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
-          static_cast<float*>(output_s.data_ptr()),
-          hidden_dim,
-          num_tokens);
+
+      if (use_vec16) {
+        per_token_quant_fp8_small_batch_kernel<scalar_t, __nv_fp8_e4m3, 16><<<grid, block, 0, stream>>>(
+            static_cast<const scalar_t*>(input.data_ptr()),
+            static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
+            static_cast<float*>(output_s.data_ptr()),
+            hidden_dim,
+            num_tokens);
+      } else {
+        per_token_quant_fp8_small_batch_kernel<scalar_t, __nv_fp8_e4m3, 8><<<grid, block, 0, stream>>>(
+            static_cast<const scalar_t*>(input.data_ptr()),
+            static_cast<__nv_fp8_e4m3*>(output_q.data_ptr()),
+            static_cast<float*>(output_s.data_ptr()),
+            hidden_dim,
+            num_tokens);
+      }
     }
     return true;
   });
diff --git a/sgl-kernel/tests/test_per_token_quant_fp8.py b/sgl-kernel/tests/test_per_token_quant_fp8.py
index 80efd06e7b9d..40ec9d897b80 100644
--- a/sgl-kernel/tests/test_per_token_quant_fp8.py
+++ b/sgl-kernel/tests/test_per_token_quant_fp8.py
@@ -36,7 +36,7 @@ def sglang_per_token_quant_fp8(
 
 @pytest.mark.parametrize(
     "num_tokens,hidden_dim",
-    list(itertools.product([128, 256, 512], [512, 2048, 4096])),
+    list(itertools.product([128, 256, 512], [512, 1368, 2048, 4096])),
 )
 def test_per_token_quant_compare_implementations(
     num_tokens: int,

From b17c5b0118861b2d5ddef68ef47967e3f5227f11 Mon Sep 17 00:00:00 2001
From: Zac <ZacWang@users.noreply.github.com>
Date: Sat, 2 Aug 2025 01:00:47 +0800
Subject: [PATCH 284/396] fix arg typo for --disaggregation-transfer-backend
 (#8664)

---
 docs/backend/pd_disaggregation.md | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/docs/backend/pd_disaggregation.md b/docs/backend/pd_disaggregation.md
index 9282e2f3ba1a..b7a384c4c92c 100644
--- a/docs/backend/pd_disaggregation.md
+++ b/docs/backend/pd_disaggregation.md
@@ -103,13 +103,13 @@ $ python -m sglang.srt.disaggregation.mini_lb --prefill http://127.0.0.1:30000 -
 
 ```bash
 # prefill 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
 # prefill 1
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-transfer-backend nixl --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8
 # decode 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 0 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
 # decode 1
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-transfer-backend nixl --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 2 --node-rank 1 --tp-size 16 --dp-size 8 --enable-dp-attention --moe-a2a-backend deepep --mem-fraction-static 0.8 --max-running-requests 128
 ```
 
 ## ASCEND
@@ -140,7 +140,7 @@ $ python -m sglang.srt.disaggregation.mini_lb --prefill http://127.0.0.1:30000 -
 
 ```bash
 # prefill 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend ascend --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 1 --node-rank 0 --tp-size 16
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-transfer-backend ascend --disaggregation-mode prefill --host ${local_ip} --port 30000 --trust-remote-code --dist-init-addr ${prefill_master_ip}:5000 --nnodes 1 --node-rank 0 --tp-size 16
 # decode 0
-$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 ---disaggregation-transfer-backend ascend --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 1 --node-rank 0 --tp-size 16
+$ python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3-0324 --disaggregation-transfer-backend ascend --disaggregation-mode decode --host ${local_ip} --port 30001 --trust-remote-code --dist-init-addr ${decode_master_ip}:5000 --nnodes 1 --node-rank 0 --tp-size 16
 ```

From 2d401bd99d6f01385a359e02f4fe8182e47dbbe5 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=9D=E5=8D=9C=E8=8F=9C?=
 <ccw1996@users.noreply.github.com>
Date: Sat, 2 Aug 2025 02:16:29 +0800
Subject: [PATCH 285/396] [fix] fix pd disagg error of vlms (#8094)

---
 python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py b/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py
index 3edc6b4f631f..872d8a741326 100644
--- a/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py
+++ b/python/sglang/srt/disaggregation/decode_schedule_batch_mixin.py
@@ -88,6 +88,7 @@ def prepare_for_prebuilt_extend(self: ScheduleBatch):
         self.extend_lens = [r.extend_input_len for r in reqs]
         self.extend_logprob_start_lens = [r.extend_logprob_start_len for r in reqs]
         self.extend_input_logprob_token_ids = extend_input_logprob_token_ids
+        self.multimodal_inputs = [r.multimodal_inputs for r in reqs]
 
         # Build sampling info
         self.sampling_info = SamplingBatchInfo.from_schedule_batch(

From 2ae95d17e80710d5ed1189398f36905ad43f5baa Mon Sep 17 00:00:00 2001
From: Minglei Zhu <mingleizhu1122@gmail.com>
Date: Fri, 1 Aug 2025 12:02:35 -0700
Subject: [PATCH 286/396] Disable tp for shared experts under expert
 parallelism for GLM4.5 model (#8647) (#8647)

Co-authored-by: Stefan He <hebiaobuaa@gmail.com>
Co-authored-by: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
---
 python/sglang/srt/models/glm4_moe.py | 78 ++++++++++++++++++++++++++--
 1 file changed, 73 insertions(+), 5 deletions(-)

diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index ab9a83c73bdd..badbb56ca861 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -387,6 +387,7 @@ def __init__(
     ):
         nn.Module.__init__(self)
         self.tp_size = get_tensor_model_parallel_world_size()
+        self.ep_size = get_moe_expert_parallel_world_size()
         self.routed_scaling_factor = config.routed_scaling_factor
         self.n_shared_experts = config.n_shared_experts
         self.num_fused_shared_experts = (
@@ -480,11 +481,7 @@ def __init__(
                 quant_config=quant_config,
                 reduce_results=False,
                 prefix=add_prefix("shared_experts", prefix),
-                **(
-                    dict(tp_rank=0, tp_size=1)
-                    if global_server_args_dict["moe_a2a_backend"].is_deepep()
-                    else {}
-                ),
+                **(dict(tp_rank=0, tp_size=1) if self.ep_size > 1 else {}),
             )
             is_packed_weight = hasattr(
                 self.shared_experts.gate_up_proj.quant_method, "quant_config"
@@ -531,6 +528,77 @@ def __init__(
 
         self._enable_deepep_moe = global_server_args_dict["moe_a2a_backend"].is_deepep()
 
+    def forward_normal_dual_stream(
+        self, hidden_states: torch.Tensor, can_fuse_mlp_allreduce: bool = False
+    ) -> torch.Tensor:
+
+        current_stream = torch.cuda.current_stream()
+        self.alt_stream.wait_stream(current_stream)
+        shared_output = self._forward_shared_experts(hidden_states)
+
+        with torch.cuda.stream(self.alt_stream):
+            # router_logits: (num_tokens, n_experts)
+            router_logits = self.gate(hidden_states)
+            kwargs = {"hidden_states": hidden_states}
+            if self.topk is not None:
+                kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+            else:
+                kwargs["router_logits"] = router_logits
+            final_hidden_states = self.experts(**kwargs)
+            if not _is_cuda:
+                final_hidden_states *= self.routed_scaling_factor
+        current_stream.wait_stream(self.alt_stream)
+
+        if self.ep_size > 1:
+            if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+                final_hidden_states = tensor_model_parallel_all_reduce(
+                    final_hidden_states
+                )
+            final_hidden_states += shared_output
+        else:
+            final_hidden_states += shared_output
+            if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+                final_hidden_states = tensor_model_parallel_all_reduce(
+                    final_hidden_states
+                )
+        return final_hidden_states
+
+    def forward_normal(
+        self, hidden_states: torch.Tensor, can_fuse_mlp_allreduce: bool = False
+    ) -> torch.Tensor:
+        if hasattr(self, "shared_experts") and use_intel_amx_backend(
+            self.shared_experts.gate_up_proj
+        ):
+            return self.forward_cpu(hidden_states, can_fuse_mlp_allreduce)
+
+        shared_output = self._forward_shared_experts(hidden_states)
+        # router_logits: (num_tokens, n_experts)
+        router_logits = self.gate(hidden_states)
+        kwargs = {"hidden_states": hidden_states}
+        if self.topk is not None:
+            kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+        else:
+            kwargs["router_logits"] = router_logits
+        final_hidden_states = self.experts(**kwargs)
+        if not _is_cuda and not _use_aiter:
+            # fused in biased_grouped_topk so we can skip here
+            final_hidden_states *= self.routed_scaling_factor
+        if self.ep_size > 1:
+            if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+                final_hidden_states = tensor_model_parallel_all_reduce(
+                    final_hidden_states
+                )
+            if shared_output is not None:
+                final_hidden_states += shared_output
+        else:
+            if shared_output is not None:
+                final_hidden_states += shared_output
+            if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+                final_hidden_states = tensor_model_parallel_all_reduce(
+                    final_hidden_states
+                )
+        return final_hidden_states
+
 
 class Glm4MoeDecoderLayer(DeepseekV2DecoderLayer):
     def __init__(

From 6a7528e6232f3ff39442de74d56f50c85e03716f Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Fri, 1 Aug 2025 14:28:04 -0700
Subject: [PATCH 287/396] [bugfix] Fix page size for
 create_flashmla_kv_indices_triton() for cutlass mla (#8685)

---
 .../srt/layers/attention/cutlass_mla_backend.py      |  6 +++---
 .../srt/layers/attention/trtllm_mla_backend.py       | 12 ++++++------
 2 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/python/sglang/srt/layers/attention/cutlass_mla_backend.py b/python/sglang/srt/layers/attention/cutlass_mla_backend.py
index fcfd648d0412..eb0cae26263d 100644
--- a/python/sglang/srt/layers/attention/cutlass_mla_backend.py
+++ b/python/sglang/srt/layers/attention/cutlass_mla_backend.py
@@ -102,7 +102,7 @@ def init_forward_metadata(self, forward_batch: ForwardBatch):
                     block_kv_indices,
                     self.req_to_token.stride(0),
                     max_seqlen_pad,
-                    PAGE_SIZE,
+                    PAGED_SIZE=PAGE_SIZE,
                 )
                 workspace_size = cutlass_mla_get_workspace_size(
                     max_seqlen_pad * PAGE_SIZE, bs, num_kv_splits=1
@@ -165,7 +165,7 @@ def init_forward_metadata_capture_cuda_graph(
                     self.cuda_graph_kv_indices,
                     self.req_to_token.stride(0),
                     self.cuda_graph_kv_indices.stride(0),
-                    PAGE_SIZE,
+                    PAGED_SIZE=PAGE_SIZE,
                 )
                 self.forward_metadata = CutlassMLADecodeMetadata(
                     self.cuda_graph_mla_workspace,
@@ -206,7 +206,7 @@ def init_forward_metadata_replay_cuda_graph(
                 self.cuda_graph_kv_indices,
                 self.req_to_token.stride(0),
                 self.cuda_graph_kv_indices.stride(0),
-                PAGE_SIZE,
+                PAGED_SIZE=PAGE_SIZE,
             )
         else:
             super().init_forward_metadata_replay_cuda_graph(
diff --git a/python/sglang/srt/layers/attention/trtllm_mla_backend.py b/python/sglang/srt/layers/attention/trtllm_mla_backend.py
index d3320144248c..f255f9ce2fe0 100755
--- a/python/sglang/srt/layers/attention/trtllm_mla_backend.py
+++ b/python/sglang/srt/layers/attention/trtllm_mla_backend.py
@@ -147,8 +147,8 @@ def _create_block_kv_indices(
             block_kv_indices,
             self.req_to_token.stride(0),
             max_blocks,
-            TRITON_PAD_NUM_PAGE_PER_BLOCK,
-            self.page_size,
+            NUM_PAGE_PER_BLOCK=TRITON_PAD_NUM_PAGE_PER_BLOCK,
+            PAGED_SIZE=self.page_size,
         )
 
         return block_kv_indices
@@ -204,8 +204,8 @@ def init_forward_metadata_capture_cuda_graph(
             block_kv_indices,
             self.req_to_token.stride(0),
             max_seqlen_pad,
-            TRITON_PAD_NUM_PAGE_PER_BLOCK,
-            self.page_size,
+            NUM_PAGE_PER_BLOCK=TRITON_PAD_NUM_PAGE_PER_BLOCK,
+            PAGED_SIZE=self.page_size,
         )
 
         metadata = TRTLLMMLADecodeMetadata(self.cuda_graph_workspace, block_kv_indices)
@@ -248,8 +248,8 @@ def init_forward_metadata_replay_cuda_graph(
             metadata.block_kv_indices,
             self.req_to_token.stride(0),
             metadata.block_kv_indices.shape[1],
-            TRITON_PAD_NUM_PAGE_PER_BLOCK,
-            self.page_size,
+            NUM_PAGE_PER_BLOCK=TRITON_PAD_NUM_PAGE_PER_BLOCK,
+            PAGED_SIZE=self.page_size,
         )
 
     def get_cuda_graph_seq_len_fill_value(self) -> int:

From ab9b893e61c47c5c25ee59934e3881b99401e35b Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Fri, 1 Aug 2025 14:41:01 -0700
Subject: [PATCH 288/396] [bug] limit bootstrap room to to [0, 2^63 - 1]
 (#8684)

---
 sgl-router/src/routers/pd_types.rs | 75 ++++++++++++++++++++++++++----
 1 file changed, 65 insertions(+), 10 deletions(-)

diff --git a/sgl-router/src/routers/pd_types.rs b/sgl-router/src/routers/pd_types.rs
index 993f2bf3d622..ce13977d68a6 100644
--- a/sgl-router/src/routers/pd_types.rs
+++ b/sgl-router/src/routers/pd_types.rs
@@ -102,10 +102,8 @@ pub trait Bootstrap: Send + Sync {
                 BootstrapRoom::Batch(
                     (0..batch_size)
                         .map(|_| {
-                            // Combine multiple sources of randomness for better distribution
-                            let r1 = rand::random::<u64>();
-                            let r2 = rand::random::<u64>();
-                            r1.wrapping_add(r2.rotate_left(32))
+                            // Generate a value in the range [0, 2^63 - 1] to match Python's random.randint(0, 2**63 - 1)
+                            rand::random::<u64>() & (i64::MAX as u64)
                         })
                         .collect(),
                 ),
@@ -114,12 +112,10 @@ pub trait Bootstrap: Send + Sync {
             self.set_bootstrap_info(
                 BootstrapHost::Single(hostname),
                 BootstrapPort::Single(bootstrap_port),
-                BootstrapRoom::Single({
-                    // Use high-quality random number for single requests too
-                    let r1 = rand::random::<u64>();
-                    let r2 = rand::random::<u64>();
-                    r1.wrapping_add(r2.rotate_left(32))
-                }),
+                BootstrapRoom::Single(
+                    // Generate a value in the range [0, 2^63 - 1] to match Python's random.randint(0, 2**63 - 1)
+                    rand::random::<u64>() & (i64::MAX as u64),
+                ),
             );
         }
         Ok(())
@@ -279,6 +275,7 @@ impl Bootstrap for CompletionRequest {
 #[cfg(test)]
 mod bootstrap_tests {
     use super::*;
+    use crate::core::BasicWorker;
     use crate::openai_api_types::StringOrArray;
 
     #[test]
@@ -465,4 +462,62 @@ mod bootstrap_tests {
         assert_eq!(rooms[0].as_u64().unwrap(), 12345);
         assert_eq!(rooms[1].as_u64().unwrap(), 67890);
     }
+
+    #[test]
+    fn test_bootstrap_room_range() {
+        // Test that bootstrap_room values are within the expected range [0, 2^63 - 1]
+        let worker = BasicWorker::new(
+            "http://test:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(8080),
+            },
+        );
+
+        // Test single request
+        let mut single_req = GenerateReqInput {
+            text: Some(InputText::Single("test".to_string())),
+            input_ids: None,
+            stream: false,
+            bootstrap_host: None,
+            bootstrap_port: None,
+            bootstrap_room: None,
+            other: Value::Object(serde_json::Map::new()),
+        };
+
+        for _ in 0..200000 {
+            single_req.add_bootstrap_info(&worker).unwrap();
+            if let Some(BootstrapRoom::Single(room)) = single_req.bootstrap_room {
+                // Verify the room value is within signed 64-bit range
+                assert!(room <= i64::MAX as u64, "Room {} exceeds i64::MAX", room);
+            } else {
+                panic!("Expected single bootstrap room");
+            }
+        }
+
+        // Test batch request
+        let mut batch_req = GenerateReqInput {
+            text: Some(InputText::Batch(vec![
+                "test1".to_string(),
+                "test2".to_string(),
+            ])),
+            input_ids: None,
+            stream: false,
+            bootstrap_host: None,
+            bootstrap_port: None,
+            bootstrap_room: None,
+            other: Value::Object(serde_json::Map::new()),
+        };
+
+        for _ in 0..200000 {
+            batch_req.add_bootstrap_info(&worker).unwrap();
+            if let Some(BootstrapRoom::Batch(rooms)) = &batch_req.bootstrap_room {
+                for room in rooms {
+                    // Verify each room value is within signed 64-bit range
+                    assert!(*room <= i64::MAX as u64, "Room {} exceeds i64::MAX", room);
+                }
+            } else {
+                panic!("Expected batch bootstrap rooms");
+            }
+        }
+    }
 }

From 07e46ecaad3ae93159005e7137cc3847700c726f Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Fri, 1 Aug 2025 15:09:44 -0700
Subject: [PATCH 289/396] Update CODEOWNERS (#8686)

---
 .github/CODEOWNERS | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index d267116b0dd5..19114af52047 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -5,8 +5,8 @@
 /python/sglang/srt/constrained @hnyls2002
 /python/sglang/srt/disaggregation @ByronHsu @hnyls2002
 /python/sglang/srt/disaggregation/mooncake @ShangmingCai
-/python/sglang/srt/distributed @yizhang2077
-/python/sglang/srt/entrypoints @ispobock @CatherineSue @slin1237
+/python/sglang/srt/distributed @yizhang2077 @merrymercy
+/python/sglang/srt/entrypoints @ispobock @CatherineSue @slin1237 @merrymercy
 /python/sglang/srt/eplb @fzyzcjy
 /python/sglang/srt/function_call @CatherineSue
 /python/sglang/srt/layers @merrymercy @Ying1123 @zhyncs @ispobock @HaiShaw @ch-wan @BBuf @kushanam

From e252192679053bccc34ac7f291b2ba73533550f9 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Sat, 2 Aug 2025 06:37:59 +0800
Subject: [PATCH 290/396] Fix deepgemm masked grouped gemm jit compile (#8679)

---
 .../srt/layers/quantization/deep_gemm_wrapper/compile_utils.py  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/deep_gemm_wrapper/compile_utils.py b/python/sglang/srt/layers/quantization/deep_gemm_wrapper/compile_utils.py
index 8949e33342da..c3043f389173 100644
--- a/python/sglang/srt/layers/quantization/deep_gemm_wrapper/compile_utils.py
+++ b/python/sglang/srt/layers/quantization/deep_gemm_wrapper/compile_utils.py
@@ -148,7 +148,7 @@ def _compile_grouped_gemm_nt_f8f8bf16_masked_one(
         "NUM_MATH_THREADS_PER_GROUP": num_math_threads_per_group,
         "N": n,
         "K": k,
-        "NUM_GROUPS": 1,
+        "NUM_GROUPS": num_groups,
         "BLOCK_M": block_m,
         "BLOCK_N": block_n,
         "BLOCK_K": block_k,

From 1fe691a429bedc5139715d1d7b2ac650361d7fc4 Mon Sep 17 00:00:00 2001
From: YanbingJiang <yanbing.jiang@intel.com>
Date: Sat, 2 Aug 2025 06:57:19 +0800
Subject: [PATCH 291/396] Fix FP8 block quantization when N or K is not
 multiples of 128 (#8648)

---
 sgl-kernel/csrc/cpu/moe.cpp | 20 ++++++++++----------
 test/srt/cpu/test_moe.py    | 14 ++++++++++----
 test/srt/cpu/utils.py       | 23 +++++++++++++++++++----
 3 files changed, 39 insertions(+), 18 deletions(-)

diff --git a/sgl-kernel/csrc/cpu/moe.cpp b/sgl-kernel/csrc/cpu/moe.cpp
index f755f8f08ead..88d84c83022b 100644
--- a/sgl-kernel/csrc/cpu/moe.cpp
+++ b/sgl-kernel/csrc/cpu/moe.cpp
@@ -955,16 +955,16 @@ static inline void check_moe_scales(
   }
 }
 
-#define CHECK_MOE_SCALES_FP8(DIM0, DIM1)               \
-  auto w1s = w1_scale.value();                         \
-  auto w2s = w2_scale.value();                         \
-  auto block_size_val = block_size.value();            \
-  int64_t block_size_N = block_size_val[0];            \
-  int64_t block_size_K = block_size_val[1];            \
-  TORCH_CHECK(w1s.size(DIM0) == 2 * N / block_size_N); \
-  TORCH_CHECK(w1s.size(DIM1) == K / block_size_K);     \
-  TORCH_CHECK(w2s.size(DIM0) == K / block_size_N);     \
-  TORCH_CHECK(w2s.size(DIM1) == N / block_size_K)
+#define CHECK_MOE_SCALES_FP8(DIM0, DIM1)                      \
+  auto w1s = w1_scale.value();                                \
+  auto w2s = w2_scale.value();                                \
+  auto block_size_val = block_size.value();                   \
+  int64_t block_size_N = block_size_val[0];                   \
+  int64_t block_size_K = block_size_val[1];                   \
+  TORCH_CHECK(w1s.size(DIM0) == div_up(2 * N, block_size_N)); \
+  TORCH_CHECK(w1s.size(DIM1) == div_up(K, block_size_K));     \
+  TORCH_CHECK(w2s.size(DIM0) == div_up(K, block_size_N));     \
+  TORCH_CHECK(w2s.size(DIM1) == div_up(N, block_size_K))
 
 // hidden_states: [M, K]
 // w1: [E, 2N, K]
diff --git a/test/srt/cpu/test_moe.py b/test/srt/cpu/test_moe.py
index 442a5857cf84..96eb28020502 100644
--- a/test/srt/cpu/test_moe.py
+++ b/test/srt/cpu/test_moe.py
@@ -75,8 +75,8 @@ class TestFusedExperts(CustomTestCase):
     topk_int8 = [3]
 
     M_fp8 = [2, 121]
-    N_fp8 = [512]
-    K_fp8 = [256]
+    N_fp8 = [352, 512]
+    K_fp8 = [256, 320]
     E_fp8 = [8]
     topk_fp8 = [4]
 
@@ -201,8 +201,14 @@ def _fp8_moe(self, M, N, K, E, topk):
         w2_fp32 = torch.randn(E, K, N)
         w2 = (w2_fp32 * fp8_max).clamp(min=fp8_min, max=fp8_max).to(torch.float8_e4m3fn)
 
-        w1s = torch.randn(E, 2 * N // BLOCK_N, K // BLOCK_K) * factor_for_scale
-        w2s = torch.randn(E, K // BLOCK_N, N // BLOCK_K) * factor_for_scale
+        w1s = (
+            torch.randn(E, math.ceil(2 * N / BLOCK_N), math.ceil(K / BLOCK_K))
+            * factor_for_scale
+        )
+        w2s = (
+            torch.randn(E, math.ceil(K / BLOCK_N), math.ceil(N / BLOCK_K))
+            * factor_for_scale
+        )
 
         w1_scaled = scaled_weight(w1, w1s)
         w2_scaled = scaled_weight(w2, w2s)
diff --git a/test/srt/cpu/utils.py b/test/srt/cpu/utils.py
index 3a4e44aa1cb5..b16b81bbf0fe 100644
--- a/test/srt/cpu/utils.py
+++ b/test/srt/cpu/utils.py
@@ -136,18 +136,33 @@ def torch_w8a8_per_column_moe(a, w1_q, w2_q, w1_s, w2_s, b, routed_scaling_facto
 
 def scaled_weight(weight, scales):
     E, N, K = weight.shape
+    pad_N = (BLOCK_N - (N % BLOCK_N)) % BLOCK_N
+    pad_K = (BLOCK_K - (K % BLOCK_K)) % BLOCK_K
+
+    if pad_N > 0 or pad_K > 0:
+        weight = torch.nn.functional.pad(weight, (0, pad_K, 0, pad_N))
+
     weight_block = (
-        weight.view(E, N // BLOCK_N, BLOCK_N, K // BLOCK_K, BLOCK_K)
+        weight.view(E, math.ceil(N / BLOCK_N), BLOCK_N, math.ceil(K / BLOCK_K), BLOCK_K)
         .permute(0, 1, 3, 2, 4)
         .float()
         .contiguous()
     )
-    return (
-        (weight_block * scales.view(E, N // BLOCK_N, K // BLOCK_K, 1, 1))
+
+    weight_scaled = (
+        (
+            weight_block
+            * scales.view(E, math.ceil(N / BLOCK_N), math.ceil(K / BLOCK_K), 1, 1)
+        )
         .permute(0, 1, 3, 2, 4)
         .contiguous()
-        .view(E, N, K)
     )
+    if pad_N > 0 or pad_K > 0:
+        weight_scaled = weight_scaled.view(E, N + pad_N, K + pad_K)
+        weight_scaled = weight_scaled[..., :N, :K].contiguous()
+    else:
+        weight_scaled = weight_scaled.view(E, N, K)
+    return weight_scaled
 
 
 def torch_naive_fused_moe(a, w1, w2, score, topk, renormalize):

From d1c4d51c0837ac32a37ad1871f86f911a7fc4759 Mon Sep 17 00:00:00 2001
From: hzh0425 <hzh0425@apache.org>
Date: Sat, 2 Aug 2025 06:58:17 +0800
Subject: [PATCH 292/396] bugfix(hicache): Fix 'MooncakeStore' not defined
 error. (#8668)

---
 python/sglang/srt/managers/cache_controller.py | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index 91f6ef37d9bf..3087e8162d7b 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -236,6 +236,7 @@ def __init__(
         self.enable_storage = False
         # todo: move backend initialization to storage backend module
         if storage_backend is not None:
+            self.storage_backend_type = storage_backend
             from sglang.srt.mem_cache.hicache_storage import HiCacheFile, get_hash_str
 
             if storage_backend == "file":
@@ -573,6 +574,9 @@ def mooncake_page_transfer(self, operation):
         self.storage_backend.batch_get(key_strs, buffer_ptrs, buffer_sizes)
         operation.increment(len(operation.hash_value) * self.page_size)
 
+    def is_mooncake_backend(self):
+        return self.storage_backend_type == "mooncake"
+
     def prefetch_io_aux_func(self):
         """
         Auxiliary function conducting IO operations for prefetching.
@@ -580,7 +584,7 @@ def prefetch_io_aux_func(self):
         while not self.stop_event.is_set():
             try:
                 operation = self.prefetch_buffer.get(block=True, timeout=1)
-                if isinstance(self.storage_backend, MooncakeStore):
+                if self.is_mooncake_backend():
                     self.mooncake_page_transfer(operation)
                 else:
                     self.generic_page_transfer(operation)
@@ -615,14 +619,14 @@ def prefetch_thread_func(self):
                     )
 
                     # todo, more unified interface
-                    if not isinstance(self.storage_backend, MooncakeStore):
+                    if not self.is_mooncake_backend():
                         if not self.storage_backend.exists(last_hash):
                             break
                     hash_value.append(last_hash)
                     storage_hit_count += self.page_size
                     remaining_tokens -= self.page_size
 
-                if isinstance(self.storage_backend, MooncakeStore):
+                if self.is_mooncake_backend():
                     # deferring to batch exists for mooncake store
                     exist_result = self.storage_backend.exists(hash_value)
                     storage_hit_count = (
@@ -744,7 +748,7 @@ def backup_thread_func(self):
                     remaining_tokens -= self.page_size
                 operation.hash_value = hash_value
 
-                if isinstance(self.storage_backend, MooncakeStore):
+                if self.is_mooncake_backend():
                     self.mooncake_page_backup(operation)
                 else:
                     self.generic_page_backup(operation)

From 5deab1283a7edfa985db4ea470308945334e8e85 Mon Sep 17 00:00:00 2001
From: Swipe4057 <106391009+Swipe4057@users.noreply.github.com>
Date: Sat, 2 Aug 2025 01:59:15 +0300
Subject: [PATCH 293/396] upgrade xgrammar 0.1.22 (#8522)

---
 python/pyproject.toml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 11f6f80b85f2..e2284e8dd77d 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -49,7 +49,7 @@ runtime_common = [
     "timm==1.0.16",
     "uvicorn",
     "uvloop",
-    "xgrammar==0.1.21",
+    "xgrammar==0.1.22",
 ]
 
 srt = [

From b89d37cb11d0bfef42b34ab86af841d4c1e0a59d Mon Sep 17 00:00:00 2001
From: Baron Liu <66629224+lbh2001@users.noreply.github.com>
Date: Sat, 2 Aug 2025 07:02:53 +0800
Subject: [PATCH 294/396] [bugfix] Add 'disaggregation_mode' parameter to
 warmup function when compile deep_gemm manually (#8618)

---
 python/sglang/compile_deep_gemm.py | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/python/sglang/compile_deep_gemm.py b/python/sglang/compile_deep_gemm.py
index 1a17fad89997..e59036f7bc34 100644
--- a/python/sglang/compile_deep_gemm.py
+++ b/python/sglang/compile_deep_gemm.py
@@ -17,6 +17,7 @@
 
 import requests
 
+from sglang.srt.disaggregation.utils import FAKE_BOOTSTRAP_HOST
 from sglang.srt.entrypoints.http_server import launch_server
 from sglang.srt.managers.io_struct import GenerateReqInput
 from sglang.srt.managers.tokenizer_manager import TokenizerManager
@@ -52,7 +53,9 @@ def from_cli_args(cls, args: argparse.Namespace):
 
 
 @warmup("compile-deep-gemm")
-async def warm_up_compile(tokenizer_manager: TokenizerManager):
+async def warm_up_compile(
+    disaggregation_mode: str, tokenizer_manager: TokenizerManager
+):
     print("\nGenerate warm up request for compiling DeepGEMM...\n")
     generate_req_input = GenerateReqInput(
         input_ids=[0, 1, 2, 3],
@@ -62,6 +65,10 @@ async def warm_up_compile(tokenizer_manager: TokenizerManager):
             "ignore_eos": True,
         },
     )
+    if disaggregation_mode != "null":
+        generate_req_input.bootstrap_room = 0
+        generate_req_input.bootstrap_host = FAKE_BOOTSTRAP_HOST
+
     await tokenizer_manager.generate_request(generate_req_input, None).__anext__()
 
 

From 82e6c3a65ab3701c3ef498bc51fbe447e8c6cbe5 Mon Sep 17 00:00:00 2001
From: Nicolas Castet <26874160+nvcastet@users.noreply.github.com>
Date: Fri, 1 Aug 2025 18:30:55 -0500
Subject: [PATCH 295/396] Add support for NCCL symmetric memory for TP
 allreduces (#8238)

---
 docs/backend/server_arguments.md              |   1 +
 .../device_communicators/pynccl.py            |   7 +
 .../device_communicators/pynccl_allocator.py  | 133 ++++++++++++++++++
 .../device_communicators/pynccl_wrapper.py    |  45 +++++-
 .../sglang/srt/distributed/parallel_state.py  |  11 ++
 python/sglang/srt/entrypoints/engine.py       |   5 +-
 python/sglang/srt/layers/linear.py            |   8 +-
 .../srt/layers/moe/fused_moe_triton/layer.py  |  43 +++---
 .../srt/layers/vocab_parallel_embedding.py    |   8 +-
 python/sglang/srt/managers/schedule_batch.py  |   1 +
 .../srt/model_executor/cuda_graph_runner.py   |  13 +-
 python/sglang/srt/models/deepseek_v2.py       |  15 +-
 python/sglang/srt/server_args.py              |   6 +
 13 files changed, 266 insertions(+), 30 deletions(-)
 create mode 100644 python/sglang/srt/distributed/device_communicators/pynccl_allocator.py

diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index ac56aebf632c..0474581238df 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -251,6 +251,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--disable-cuda-graph-padding` | Disable cuda graph when padding is needed. Still uses cuda graph when padding is not needed. | False |
 | `--enable-profile-cuda-graph` | Enable profiling of cuda graph capture. | False |
 | `--enable-nccl-nvls` | Enable NCCL NVLS for prefill heavy requests when available. | False |
+| `--enable-symm-mem` | Enable NCCL symmetric memory for fast collectives. | False |
 | `--enable-tokenizer-batch-encode` | Enable batch tokenization for improved performance when processing multiple text inputs. Do not use with image inputs, pre-tokenized input_ids, or input_embeds. | False |
 | `--disable-outlines-disk-cache` | Disable disk cache of outlines to avoid possible crashes related to file system or high concurrency. | False |
 | `--disable-custom-all-reduce` | Disable the custom all-reduce kernel and fall back to NCCL. | False |
diff --git a/python/sglang/srt/distributed/device_communicators/pynccl.py b/python/sglang/srt/distributed/device_communicators/pynccl.py
index 6459f70fd681..81dd8178031a 100644
--- a/python/sglang/srt/distributed/device_communicators/pynccl.py
+++ b/python/sglang/srt/distributed/device_communicators/pynccl.py
@@ -75,6 +75,7 @@ def __init__(
         self.available = True
         self.disabled = False
 
+        self.nccl_version = self.nccl.ncclGetRawVersion()
         if self.rank == 0:
             logger.info("sglang is using nccl==%s", self.nccl.ncclGetVersion())
 
@@ -259,6 +260,12 @@ def broadcast(self, tensor: torch.Tensor, src: int, stream=None):
             cudaStream_t(stream.cuda_stream),
         )
 
+    def register_comm_window_raw(self, ptr: int, size: int):
+        return self.nccl.ncclCommWindowRegister(self.comm, buffer_type(ptr), size, 1)
+
+    def deregister_comm_window(self, window):
+        return self.nccl.ncclCommWindowDeregister(self.comm, window)
+
     @contextmanager
     def change_state(
         self, enable: Optional[bool] = None, stream: Optional[torch.cuda.Stream] = None
diff --git a/python/sglang/srt/distributed/device_communicators/pynccl_allocator.py b/python/sglang/srt/distributed/device_communicators/pynccl_allocator.py
new file mode 100644
index 000000000000..d7274cf2ccba
--- /dev/null
+++ b/python/sglang/srt/distributed/device_communicators/pynccl_allocator.py
@@ -0,0 +1,133 @@
+import tempfile
+
+import torch
+from packaging import version
+from torch.cuda.memory import CUDAPluggableAllocator
+
+from sglang.srt.distributed.parallel_state import GroupCoordinator
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+
+nccl_allocator_source = """
+#include <nccl.h>
+extern "C" {
+
+void* nccl_alloc_plug(size_t size, int device, void* stream) {
+  void* ptr;
+  ncclResult_t err = ncclMemAlloc(&ptr, size);
+  return ptr;
+
+}
+
+void nccl_free_plug(void* ptr, size_t size, int device, void* stream) {
+  ncclResult_t err = ncclMemFree(ptr);
+}
+
+}
+"""
+
+_allocator = None
+_mem_pool = None
+_registered_base_addrs = set()
+_graph_pool_id = None
+
+
+def is_symmetric_memory_enabled():
+    return global_server_args_dict["enable_symm_mem"]
+
+
+def set_graph_pool_id(graph_pool_id):
+    global _graph_pool_id
+    _graph_pool_id = graph_pool_id
+
+
+def get_nccl_mem_pool():
+    global _allocator, _mem_pool
+    if _mem_pool is None:
+        out_dir = tempfile.gettempdir()
+        nccl_allocator_libname = "nccl_allocator"
+        torch.utils.cpp_extension.load_inline(
+            name=nccl_allocator_libname,
+            cpp_sources=nccl_allocator_source,
+            with_cuda=True,
+            extra_ldflags=["-lnccl"],
+            verbose=True,
+            is_python_module=False,
+            build_directory=out_dir,
+        )
+        _allocator = CUDAPluggableAllocator(
+            f"{out_dir}/{nccl_allocator_libname}.so",
+            "nccl_alloc_plug",
+            "nccl_free_plug",
+        ).allocator()
+        _mem_pool = torch.cuda.MemPool(_allocator)
+    return _mem_pool
+
+
+class use_symmetric_memory:
+    def __init__(self, group_coordinator: GroupCoordinator):
+        if not is_symmetric_memory_enabled():
+            self.group_coordinator = None
+            self._mem_pool_ctx = None
+            self.is_graph_capture = None
+            self.device = None
+            self.pre_2_8_0 = None
+        else:
+            self.group_coordinator = group_coordinator
+            self._mem_pool_ctx = torch.cuda.use_mem_pool(get_nccl_mem_pool())
+            self.is_graph_capture = torch.cuda.is_current_stream_capturing()
+            self.device = torch.cuda.current_device()
+            self.pre_2_8_0 = version.parse(torch.__version__) < version.parse("2.8.0")
+
+    def __enter__(self):
+        if not is_symmetric_memory_enabled():
+            return self
+        assert (
+            self.group_coordinator.pynccl_comm is not None
+        ), f"Symmetric memory requires pynccl to be enabled in group '{self.group_coordinator.group_name}'"
+        assert (
+            self.group_coordinator.pynccl_comm.nccl_version >= 22703
+        ), "NCCL version 2.27.3 or higher is required for NCCL symmetric memory"
+        if self.is_graph_capture:
+            assert (
+                _graph_pool_id is not None
+            ), "graph_pool_id is not set under graph capture"
+            # Pause graph memory pool to use symmetric memory with cuda graph
+            if self.pre_2_8_0:
+                torch._C._cuda_endAllocateCurrentStreamToPool(
+                    self.device, _graph_pool_id
+                )
+            else:
+                torch._C._cuda_endAllocateToPool(self.device, _graph_pool_id)
+        self._mem_pool_ctx.__enter__()
+        return self
+
+    def tag(self, tensor: torch.Tensor):
+        if not is_symmetric_memory_enabled():
+            return
+        tensor.symmetric_memory = True
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if not is_symmetric_memory_enabled():
+            return
+        global _registered_base_addrs
+        self._mem_pool_ctx.__exit__(exc_type, exc_val, exc_tb)
+        for segment in get_nccl_mem_pool().snapshot():
+            if segment["address"] not in _registered_base_addrs:
+                if segment["stream"] == 0 and self.pre_2_8_0:
+                    # PyTorch version < 2.8.0 has a multi-thread MemPool bug
+                    # See https://github.com/pytorch/pytorch/issues/152861
+                    # Fixed at https://github.com/pytorch/pytorch/commit/f01e628e3b31852983ab30b25bf251f557ba9c0b
+                    # WAR is to skip allocations on the default stream since the forward_pass thread always runs on a custom stream
+                    continue
+                self.group_coordinator.pynccl_comm.register_comm_window_raw(
+                    segment["address"], segment["total_size"]
+                )
+                _registered_base_addrs.add(segment["address"])
+
+        if self.is_graph_capture:
+            if self.pre_2_8_0:
+                torch._C._cuda_beginAllocateToPool(self.device, _graph_pool_id)
+            else:
+                torch._C._cuda_beginAllocateCurrentThreadToPool(
+                    self.device, _graph_pool_id
+                )
diff --git a/python/sglang/srt/distributed/device_communicators/pynccl_wrapper.py b/python/sglang/srt/distributed/device_communicators/pynccl_wrapper.py
index afb47733476a..cad39624e426 100644
--- a/python/sglang/srt/distributed/device_communicators/pynccl_wrapper.py
+++ b/python/sglang/srt/distributed/device_communicators/pynccl_wrapper.py
@@ -67,6 +67,7 @@ def find_nccl_library() -> str:
 
 ncclResult_t = ctypes.c_int
 ncclComm_t = ctypes.c_void_p
+ncclWindow_t = ctypes.c_void_p
 
 
 class ncclUniqueId(ctypes.Structure):
@@ -279,6 +280,23 @@ class NCCLLibrary:
         Function("ncclCommDestroy", ncclResult_t, [ncclComm_t]),
     ]
 
+    exported_functions_symm_mem = [
+        # ncclResult_t ncclCommWindowRegister(ncclComm_t comm, void* buff, size_t size, ncclWindow_t* win, int winFlags);
+        Function(
+            "ncclCommWindowRegister",
+            ncclResult_t,
+            [
+                ncclComm_t,
+                buffer_type,
+                ctypes.c_size_t,
+                ctypes.POINTER(ncclWindow_t),
+                ctypes.c_int,
+            ],
+        ),
+        # ncclResult_t ncclCommWindowDeregister(ncclComm_t comm, ncclWindow_t win);
+        Function("ncclCommWindowDeregister", ncclResult_t, [ncclComm_t, ncclWindow_t]),
+    ]
+
     # class attribute to store the mapping from the path to the library
     # to avoid loading the same library multiple times
     path_to_library_cache: Dict[str, Any] = {}
@@ -312,7 +330,10 @@ def __init__(self, so_file: Optional[str] = None):
 
         if so_file not in NCCLLibrary.path_to_dict_mapping:
             _funcs: Dict[str, Any] = {}
-            for func in NCCLLibrary.exported_functions:
+            exported_functions = NCCLLibrary.exported_functions
+            if hasattr(self.lib, "ncclCommWindowRegister"):
+                exported_functions.extend(NCCLLibrary.exported_functions_symm_mem)
+            for func in exported_functions:
                 f = getattr(self.lib, func.name)
                 f.restype = func.restype
                 f.argtypes = func.argtypes
@@ -328,10 +349,14 @@ def NCCL_CHECK(self, result: ncclResult_t) -> None:
             error_str = self.ncclGetErrorString(result)
             raise RuntimeError(f"NCCL error: {error_str}")
 
-    def ncclGetVersion(self) -> str:
+    def ncclGetRawVersion(self) -> int:
         version = ctypes.c_int()
         self.NCCL_CHECK(self._funcs["ncclGetVersion"](ctypes.byref(version)))
-        version_str = str(version.value)
+        # something like 21903
+        return version.value
+
+    def ncclGetVersion(self) -> str:
+        version_str = str(self.ncclGetRawVersion())
         # something like 21903 --> "2.19.3"
         major = version_str[0].lstrip("0")
         minor = version_str[1:3].lstrip("0")
@@ -460,6 +485,20 @@ def ncclBroadcast(
     def ncclCommDestroy(self, comm: ncclComm_t) -> None:
         self.NCCL_CHECK(self._funcs["ncclCommDestroy"](comm))
 
+    def ncclCommWindowRegister(
+        self, comm: ncclComm_t, buff: buffer_type, size: int, win_flags: int
+    ) -> ncclWindow_t:
+        window = ncclWindow_t()
+        self.NCCL_CHECK(
+            self._funcs["ncclCommWindowRegister"](
+                comm, buff, size, ctypes.byref(window), win_flags
+            )
+        )
+        return window
+
+    def ncclCommWindowDeregister(self, comm: ncclComm_t, window: ncclWindow_t) -> None:
+        self.NCCL_CHECK(self._funcs["ncclCommWindowDeregister"](comm, window))
+
 
 __all__ = [
     "NCCLLibrary",
diff --git a/python/sglang/srt/distributed/parallel_state.py b/python/sglang/srt/distributed/parallel_state.py
index 279393f95d99..4e81f80dc782 100644
--- a/python/sglang/srt/distributed/parallel_state.py
+++ b/python/sglang/srt/distributed/parallel_state.py
@@ -497,6 +497,17 @@ def all_reduce(self, input_: torch.Tensor) -> torch.Tensor:
         if self.npu_communicator is not None and not self.npu_communicator.disabled:
             return self.npu_communicator.all_reduce(input_)
 
+        if (
+            self.pynccl_comm is not None
+            and hasattr(input_, "symmetric_memory")
+            and input_.symmetric_memory
+        ):
+            with self.pynccl_comm.change_state(
+                enable=True, stream=torch.cuda.current_stream()
+            ):
+                self.pynccl_comm.all_reduce(input_)
+                return input_
+
         outplace_all_reduce_method = None
         if (
             self.qr_comm is not None
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index cfe3e0a5bfff..0e764081ad40 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -623,8 +623,9 @@ async def async_score(
 def _set_envs_and_config(server_args: ServerArgs):
     # Set global environments
     os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
-    os.environ["NCCL_CUMEM_ENABLE"] = "0"
-    os.environ["NCCL_NVLS_ENABLE"] = str(int(server_args.enable_nccl_nvls))
+    os.environ["NCCL_CUMEM_ENABLE"] = str(int(server_args.enable_symm_mem))
+    if not server_args.enable_symm_mem:
+        os.environ["NCCL_NVLS_ENABLE"] = str(int(server_args.enable_nccl_nvls))
     os.environ["TORCH_NCCL_AVOID_RECORD_STREAMS"] = "1"
     os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
     os.environ["CUDA_MODULE_LOADING"] = "AUTO"
diff --git a/python/sglang/srt/layers/linear.py b/python/sglang/srt/layers/linear.py
index 9d8ab8632752..9e765ebf9d07 100644
--- a/python/sglang/srt/layers/linear.py
+++ b/python/sglang/srt/layers/linear.py
@@ -13,10 +13,14 @@
     divide,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
+    parallel_state,
     split_tensor_along_last_dim,
     tensor_model_parallel_all_gather,
     tensor_model_parallel_all_reduce,
 )
+from sglang.srt.distributed.device_communicators.pynccl_allocator import (
+    use_symmetric_memory,
+)
 from sglang.srt.layers.parameter import (
     BasevLLMParameter,
     BlockQuantScaleParameter,
@@ -1292,7 +1296,9 @@ def forward(self, input_, can_fuse_mlp_allreduce=False):
         # Only fuse bias add into GEMM for rank 0 (this ensures that
         # bias will not get added more than once in TP>1 case)
         bias_ = None if (self.tp_rank > 0 or self.skip_bias_add) else self.bias
-        output_parallel = self.quant_method.apply(self, input_parallel, bias=bias_)
+        with use_symmetric_memory(parallel_state.get_tp_group()) as sm:
+            output_parallel = self.quant_method.apply(self, input_parallel, bias=bias_)
+            sm.tag(output_parallel)
         if self.reduce_results and self.tp_size > 1 and not can_fuse_mlp_allreduce:
             output = tensor_model_parallel_all_reduce(output_parallel)
         else:
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index ba590dbef387..3960e22a6ae3 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -14,8 +14,12 @@
     get_moe_expert_parallel_world_size,
     get_moe_tensor_parallel_rank,
     get_moe_tensor_parallel_world_size,
+    get_tp_group,
     tensor_model_parallel_all_reduce,
 )
+from sglang.srt.distributed.device_communicators.pynccl_allocator import (
+    use_symmetric_memory,
+)
 from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
 from sglang.srt.layers.moe.topk import StandardTopKOutput
 from sglang.srt.layers.quantization.base_config import (
@@ -626,24 +630,27 @@ def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
             )
 
         # Matrix multiply.
-        final_hidden_states = self.quant_method.apply(
-            layer=self,
-            x=hidden_states,
-            topk_output=topk_output,
-            activation=self.activation,
-            apply_router_weight_on_input=self.apply_router_weight_on_input,
-            routed_scaling_factor=self.routed_scaling_factor,
-            **(
-                dict(
-                    tp_rank=self.moe_tp_rank,
-                    tp_size=self.moe_tp_size,
-                    ep_rank=self.moe_ep_rank,
-                    ep_size=self.moe_ep_size,
-                )
-                if self.quant_method.__class__.__name__ == "ModelOptNvFp4FusedMoEMethod"
-                else {}
-            ),
-        )
+        with use_symmetric_memory(get_tp_group()) as sm:
+            final_hidden_states = self.quant_method.apply(
+                layer=self,
+                x=hidden_states,
+                topk_output=topk_output,
+                activation=self.activation,
+                apply_router_weight_on_input=self.apply_router_weight_on_input,
+                routed_scaling_factor=self.routed_scaling_factor,
+                **(
+                    dict(
+                        tp_rank=self.moe_tp_rank,
+                        tp_size=self.moe_tp_size,
+                        ep_rank=self.moe_ep_rank,
+                        ep_size=self.moe_ep_size,
+                    )
+                    if self.quant_method.__class__.__name__
+                    == "ModelOptNvFp4FusedMoEMethod"
+                    else {}
+                ),
+            )
+            sm.tag(final_hidden_states)
 
         if self.reduce_results and (self.moe_tp_size > 1 or self.moe_ep_size > 1):
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
diff --git a/python/sglang/srt/layers/vocab_parallel_embedding.py b/python/sglang/srt/layers/vocab_parallel_embedding.py
index d925506f5ecc..ab1ced99a96a 100644
--- a/python/sglang/srt/layers/vocab_parallel_embedding.py
+++ b/python/sglang/srt/layers/vocab_parallel_embedding.py
@@ -11,8 +11,12 @@
     divide,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
+    parallel_state,
     tensor_model_parallel_all_reduce,
 )
+from sglang.srt.distributed.device_communicators.pynccl_allocator import (
+    use_symmetric_memory,
+)
 from sglang.srt.layers.amx_utils import PackWeightMethod
 from sglang.srt.layers.dp_attention import get_attention_tp_rank, get_attention_tp_size
 from sglang.srt.layers.parameter import BasevLLMParameter
@@ -464,7 +468,9 @@ def forward(self, input_):
         else:
             masked_input = input_
         # Get the embeddings.
-        output_parallel = self.quant_method.embedding(self, masked_input.long())
+        with use_symmetric_memory(parallel_state.get_tp_group()) as sm:
+            output_parallel = self.quant_method.embedding(self, masked_input.long())
+            sm.tag(output_parallel)
         # Mask the output embedding.
         if self.tp_size > 1:
             output_parallel.masked_fill_(input_mask.unsqueeze(-1), 0)
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 4b8d07b9674e..3bfb31b6b0f9 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -108,6 +108,7 @@
     "weight_loader_disable_mmap",
     "enable_triton_kernel_moe",
     "enable_multimodal",
+    "enable_symm_mem",
 ]
 
 # Put some global args for easy access
diff --git a/python/sglang/srt/model_executor/cuda_graph_runner.py b/python/sglang/srt/model_executor/cuda_graph_runner.py
index fb703255b0ac..e5a8cc872efc 100644
--- a/python/sglang/srt/model_executor/cuda_graph_runner.py
+++ b/python/sglang/srt/model_executor/cuda_graph_runner.py
@@ -29,6 +29,9 @@
 
 from sglang.srt.custom_op import CustomOp
 from sglang.srt.distributed import get_tensor_model_parallel_rank
+from sglang.srt.distributed.device_communicators.pynccl_allocator import (
+    set_graph_pool_id,
+)
 from sglang.srt.distributed.parallel_state import GroupCoordinator, graph_capture
 from sglang.srt.layers.dp_attention import DPPaddingMode, get_attention_tp_size
 from sglang.srt.layers.logits_processor import LogitsProcessorOutput
@@ -643,11 +646,15 @@ def run_once():
 
             run_once()
 
-        global global_graph_memory_pool
-        with torch.cuda.graph(graph, pool=global_graph_memory_pool, stream=stream):
+        if get_global_graph_memory_pool() is None:
+            set_global_graph_memory_pool(torch.cuda.graph_pool_handle())
+        # Set graph pool id globally to be able to use symmetric memory
+        set_graph_pool_id(get_global_graph_memory_pool())
+        with torch.cuda.graph(
+            graph, pool=get_global_graph_memory_pool(), stream=stream
+        ):
             out = run_once()
 
-        global_graph_memory_pool = graph.pool()
         return graph, out
 
     def recapture_if_needed(self, forward_batch: ForwardBatch):
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index aaafdb0853fd..b5b13d9ac6ae 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -34,6 +34,9 @@
     parallel_state,
     tensor_model_parallel_all_reduce,
 )
+from sglang.srt.distributed.device_communicators.pynccl_allocator import (
+    use_symmetric_memory,
+)
 from sglang.srt.eplb.expert_distribution import get_global_expert_distribution_recorder
 from sglang.srt.eplb.expert_location import ModelConfigForExpertLocation
 from sglang.srt.eplb.expert_location_dispatch import ExpertLocationDispatchInfo
@@ -481,7 +484,11 @@ def forward_normal_dual_stream(
             if not _is_cuda:
                 final_hidden_states *= self.routed_scaling_factor
         current_stream.wait_stream(self.alt_stream)
-        final_hidden_states += shared_output
+        with use_symmetric_memory(parallel_state.get_tp_group()) as sm:
+            final_hidden_states_out = torch.empty_like(final_hidden_states)
+        torch.add(final_hidden_states, shared_output, out=final_hidden_states_out)
+        final_hidden_states = final_hidden_states_out
+        sm.tag(final_hidden_states)
         if self.tp_size > 1 and not can_fuse_mlp_allreduce:
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
         return final_hidden_states
@@ -507,7 +514,11 @@ def forward_normal(
             # fused in biased_grouped_topk so we can skip here
             final_hidden_states *= self.routed_scaling_factor
         if shared_output is not None:
-            final_hidden_states = final_hidden_states + shared_output
+            with use_symmetric_memory(parallel_state.get_tp_group()) as sm:
+                final_hidden_states_out = torch.empty_like(final_hidden_states)
+            torch.add(final_hidden_states, shared_output, out=final_hidden_states_out)
+            final_hidden_states = final_hidden_states_out
+            sm.tag(final_hidden_states)
         if self.tp_size > 1 and not can_fuse_mlp_allreduce:
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
         return final_hidden_states
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index b8b025a7975e..037505dd78b7 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -218,6 +218,7 @@ class ServerArgs:
     enable_profile_cuda_graph: bool = False
     enable_cudagraph_gc: bool = False
     enable_nccl_nvls: bool = False
+    enable_symm_mem: bool = False
     enable_tokenizer_batch_encode: bool = False
     disable_outlines_disk_cache: bool = False
     disable_custom_all_reduce: bool = False
@@ -1599,6 +1600,11 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Enable NCCL NVLS for prefill heavy requests when available.",
         )
+        parser.add_argument(
+            "--enable-symm-mem",
+            action="store_true",
+            help="Enable NCCL symmetric memory for fast collectives.",
+        )
         parser.add_argument(
             "--enable-tokenizer-batch-encode",
             action="store_true",

From f642524fd992ea5116c68830fef2b9afb2981b31 Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Fri, 1 Aug 2025 18:14:24 -0700
Subject: [PATCH 296/396] [1/2] sgl-kernel: Fuse routed scaling factor into
 select_experts (#8364)

---
 sgl-kernel/csrc/common_extension.cc     |  2 +-
 sgl-kernel/csrc/moe/moe_fused_gate.cu   | 27 ++++++++++++++++++-------
 sgl-kernel/include/sgl_kernel_ops.h     |  3 ++-
 sgl-kernel/python/sgl_kernel/moe.py     | 11 ++++++++--
 sgl-kernel/tests/test_moe_fused_gate.py |  7 ++++++-
 5 files changed, 38 insertions(+), 12 deletions(-)

diff --git a/sgl-kernel/csrc/common_extension.cc b/sgl-kernel/csrc/common_extension.cc
index 2959399007dd..989ae14eb9e3 100644
--- a/sgl-kernel/csrc/common_extension.cc
+++ b/sgl-kernel/csrc/common_extension.cc
@@ -174,7 +174,7 @@ TORCH_LIBRARY_FRAGMENT(sgl_kernel, m) {
 
   m.def(
       "moe_fused_gate(Tensor input, Tensor bias, int num_expert_group, int topk_group, int topk, int "
-      "num_fused_shared_experts, float routed_scaling_factor) -> "
+      "num_fused_shared_experts, float routed_scaling_factor, bool apply_routed_scaling_factor_on_output) -> "
       "(Tensor[])");
   m.impl("moe_fused_gate", torch::kCUDA, &moe_fused_gate);
   m.def(
diff --git a/sgl-kernel/csrc/moe/moe_fused_gate.cu b/sgl-kernel/csrc/moe/moe_fused_gate.cu
index 24bf2d36b074..782a884fb1d8 100644
--- a/sgl-kernel/csrc/moe/moe_fused_gate.cu
+++ b/sgl-kernel/csrc/moe/moe_fused_gate.cu
@@ -59,6 +59,7 @@ __device__ void moe_fused_gate_impl(
     int64_t topk,
     int64_t num_fused_shared_experts,
     double routed_scaling_factor,
+    bool apply_routed_scaling_factor_on_output,
     Params params) {
   int tidx = threadIdx.x;
   int64_t thread_row =
@@ -248,6 +249,9 @@ __device__ void moe_fused_gate_impl(
     for (int ii = 0; ii < topk; ++ii) {
       int64_t const idx = topk * thread_row + ii;
       output_ptr[idx] = output_ptr[idx] / output_sum;
+      if (apply_routed_scaling_factor_on_output) {
+        output_ptr[idx] *= routed_scaling_factor;
+      }
     }
   }
 }
@@ -282,7 +286,8 @@ __global__ void moe_fused_gate_kernel(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor) {
+    double routed_scaling_factor,
+    bool apply_routed_scaling_factor_on_output) {
   KernelParams<VPT, NUM_EXPERTS, THREADS_PER_ROW, ROWS_PER_WARP, ROWS_PER_CTA, WARPS_PER_CTA> params;
   moe_fused_gate_impl<T>(
       input,
@@ -294,6 +299,7 @@ __global__ void moe_fused_gate_kernel(
       topk,
       num_fused_shared_experts,
       routed_scaling_factor,
+      apply_routed_scaling_factor_on_output,
       params);
 }
 
@@ -314,7 +320,8 @@ __global__ void moe_fused_gate_kernel(
             topk_group,                                                                                  \
             topk,                                                                                        \
             num_fused_shared_experts,                                                                    \
-            routed_scaling_factor);                                                                      \
+            routed_scaling_factor,                                                                       \
+            apply_routed_scaling_factor_on_output);                                                      \
     dispatched = true;                                                                                   \
   } while (0)
 
@@ -342,7 +349,8 @@ __global__ void moe_fused_gate_kernel_dynamic(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor) {
+    double routed_scaling_factor,
+    bool apply_routed_scaling_factor_on_output) {
   KernelParamsDynamic params;
   params.NUM_EXPERTS = num_experts;             // e.g, for deepseek v3, this is 256
   params.VPT = num_experts / num_expert_group;  // e.g., for deepseek v3, this is 256 / 8 = 32
@@ -361,6 +369,7 @@ __global__ void moe_fused_gate_kernel_dynamic(
       topk,
       num_fused_shared_experts,
       routed_scaling_factor,
+      apply_routed_scaling_factor_on_output,
       params);
 }
 
@@ -374,7 +383,8 @@ std::vector<at::Tensor> moe_fused_gate(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor) {
+    double routed_scaling_factor,
+    bool apply_routed_scaling_factor_on_output) {
   int64_t num_rows = input.size(0);
   int32_t num_experts = input.size(1);
   auto options = torch::TensorOptions().dtype(torch::kFloat32).device(torch::kCUDA);
@@ -473,7 +483,8 @@ std::vector<at::Tensor> moe_fused_gate(
           topk_group,
           topk,
           num_fused_shared_experts,
-          routed_scaling_factor);
+          routed_scaling_factor,
+          apply_routed_scaling_factor_on_output);
     } else if (input.scalar_type() == at::kHalf) {
       moe_fused_gate_kernel_dynamic<float16_t><<<num_blocks, block_dim, 0, stream>>>(
           input.data_ptr(),
@@ -486,7 +497,8 @@ std::vector<at::Tensor> moe_fused_gate(
           topk_group,
           topk,
           num_fused_shared_experts,
-          routed_scaling_factor);
+          routed_scaling_factor,
+          apply_routed_scaling_factor_on_output);
     } else if (input.scalar_type() == at::kFloat) {
       moe_fused_gate_kernel_dynamic<float32_t><<<num_blocks, block_dim, 0, stream>>>(
           input.data_ptr(),
@@ -499,7 +511,8 @@ std::vector<at::Tensor> moe_fused_gate(
           topk_group,
           topk,
           num_fused_shared_experts,
-          routed_scaling_factor);
+          routed_scaling_factor,
+          apply_routed_scaling_factor_on_output);
     } else {
       TORCH_CHECK(false, "Unsupported data type for moe_fused_gate");
     }
diff --git a/sgl-kernel/include/sgl_kernel_ops.h b/sgl-kernel/include/sgl_kernel_ops.h
index fa6de7362c74..88720dfea2dd 100644
--- a/sgl-kernel/include/sgl_kernel_ops.h
+++ b/sgl-kernel/include/sgl_kernel_ops.h
@@ -243,7 +243,8 @@ std::vector<at::Tensor> moe_fused_gate(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor);
+    double routed_scaling_factor,
+    bool apply_routed_scaling_factor_on_output);
 
 void fp8_blockwise_scaled_grouped_mm(
     torch::Tensor& output,
diff --git a/sgl-kernel/python/sgl_kernel/moe.py b/sgl-kernel/python/sgl_kernel/moe.py
index c16a2b6feb78..9008e7a79ebb 100755
--- a/sgl-kernel/python/sgl_kernel/moe.py
+++ b/sgl-kernel/python/sgl_kernel/moe.py
@@ -44,6 +44,7 @@ def moe_fused_gate(
     topk,
     num_fused_shared_experts=0,
     routed_scaling_factor=0,
+    apply_routed_scaling_factor_on_output=False,
 ):
     # This fused kernel function is used to select topk expert in a hierarchical 2-layer fashion
     # it split group of expert into num_expert_group, and use top2 expert weight sum in each group
@@ -51,8 +52,13 @@ def moe_fused_gate(
     # the #experts is decided by the input tensor shape and we currently only support power of 2 #experts
     # and #experts should be divisible by num_expert_group. #expert/num_expert_group <= 32 is limited for now.
     # for non-supported case, we suggest to use the biased_grouped_topk func in sglang.srt.layers.moe.topk
-    # num_fused_shared_experts: if > 0, the last several experts will be replaced with shared experts
-    # routed_scaling_factor: if > 0, the shared experts will be scaled by this factor
+    # num_fused_shared_experts: if > 0, the last several experts will be
+    #   replaced with shared experts. the shared experts will be divided by the
+    #   routed_scaling_factor - this is intended to cancel out later when routed+shared
+    #   output is scaled so that shared experts are not scaled.
+    # routed_scaling_factor: if > 0, the experts will be scaled by this factor
+    # apply_routed_scaling_factor_on_output: if true, output will be
+    #   scaled by the routed_scaling_factor
     return torch.ops.sgl_kernel.moe_fused_gate.default(
         input_tensor,
         bias,
@@ -61,6 +67,7 @@ def moe_fused_gate(
         topk,
         num_fused_shared_experts,
         routed_scaling_factor,
+        apply_routed_scaling_factor_on_output,
     )
 
 
diff --git a/sgl-kernel/tests/test_moe_fused_gate.py b/sgl-kernel/tests/test_moe_fused_gate.py
index 70c4ea209a1a..274f387a95ca 100644
--- a/sgl-kernel/tests/test_moe_fused_gate.py
+++ b/sgl-kernel/tests/test_moe_fused_gate.py
@@ -19,7 +19,10 @@
     ],
 )
 @pytest.mark.parametrize("num_fused_shared_experts", [0, 1, 2])
-def test_moe_fused_gate_combined(seq_length, params, num_fused_shared_experts):
+@pytest.mark.parametrize("apply_routed_scaling_factor_on_output", [True, False])
+def test_moe_fused_gate_combined(
+    seq_length, params, num_fused_shared_experts, apply_routed_scaling_factor_on_output
+):
     num_experts, num_expert_group, topk_group, topk = params
     dtype = torch.float32
 
@@ -37,6 +40,7 @@ def test_moe_fused_gate_combined(seq_length, params, num_fused_shared_experts):
         topk=topk,
         num_fused_shared_experts=num_fused_shared_experts,
         routed_scaling_factor=2.5,
+        apply_routed_scaling_factor_on_output=apply_routed_scaling_factor_on_output,
     )
     ref_output, ref_indices = biased_grouped_topk(
         scores,
@@ -48,6 +52,7 @@ def test_moe_fused_gate_combined(seq_length, params, num_fused_shared_experts):
         topk_group=topk_group,
         num_fused_shared_experts=num_fused_shared_experts,
         routed_scaling_factor=2.5,
+        apply_routed_scaling_factor_on_output=apply_routed_scaling_factor_on_output,
     )
 
     # When num_fused_shared_experts > 0, ignore the comparison of the last topk dimension

From b27b11919cfa8f23b64b28ed896902a8c0cd4415 Mon Sep 17 00:00:00 2001
From: ishandhanani <82981111+ishandhanani@users.noreply.github.com>
Date: Fri, 1 Aug 2025 18:58:00 -0700
Subject: [PATCH 297/396] chore(gb200): update dockerfile to handle fp4
 disaggregation (#8694)

---
 docker/Dockerfile.gb200 | 15 +++++++++++----
 1 file changed, 11 insertions(+), 4 deletions(-)

diff --git a/docker/Dockerfile.gb200 b/docker/Dockerfile.gb200
index 37c8b927a441..0d818692dd4f 100644
--- a/docker/Dockerfile.gb200
+++ b/docker/Dockerfile.gb200
@@ -53,12 +53,10 @@ RUN mkdir -p /tmp/gdrcopy && cd /tmp \
 RUN ln -sf /usr/lib/$(uname -m)-linux-gnu/libmlx5.so.1 /usr/lib/$(uname -m)-linux-gnu/libmlx5.so
 
 # Clone and install SGLang
-# NOTE: flashinfer v0.2.9rc1 is not installing for aarch64
 WORKDIR /sgl-workspace
 RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5lib six \
- && git clone https://github.com/sgl-project/sglang.git \
+ && git clone --depth 1 https://github.com/sgl-project/sglang.git \
  && cd sglang \
- && git checkout a167fd0bcb9ef4b0f4331a109e40c8cdc770b026 \
  && case "$CUDA_VERSION" in \
       12.6.1) CUINDEX=126 ;; \
       12.8.1) CUINDEX=128 ;; \
@@ -93,7 +91,7 @@ RUN wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.3.9/sour
 # Python tools
 RUN python3 -m pip install --no-cache-dir \
     datamodel_code_generator \
-    mooncake_transfer_engine==0.3.5 \
+    mooncake-transfer-engine==0.3.5 \
     pre-commit \
     pytest \
     black \
@@ -103,6 +101,15 @@ RUN python3 -m pip install --no-cache-dir \
     wheel \
     scikit-build-core
 
+# These will be automatically installed by future versions of flashinfer after 0.2.9rc2
+RUN python3 -m pip install --no-cache-dir \
+    nvidia-cudnn-cu12 \
+    nvidia-cudnn-frontend
+
+# Allows for FP4 disaggregation
+RUN python3 -m pip install --no-cache-dir \
+    nixl
+
 # Install development tools and utilities
 RUN apt-get update && apt-get install -y \
     gdb \

From 89caf7a3c6cde7a6d01f9fa1dd362885092a0a87 Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Fri, 1 Aug 2025 19:00:24 -0700
Subject: [PATCH 298/396] [bugfix] Apply routed scaling factor to
 cutlass_fused_experts_fp8 (#8688)

---
 python/sglang/srt/layers/quantization/fp8.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 0578ee60cb66..1b082405144e 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -1039,7 +1039,7 @@ def apply(
             from sglang.srt.layers.moe.cutlass_moe import cutlass_fused_experts_fp8
 
             topk_weights, topk_ids, _ = topk_output
-            return cutlass_fused_experts_fp8(
+            output = cutlass_fused_experts_fp8(
                 x,
                 layer.w13_weight.transpose(1, 2),
                 layer.w2_weight.transpose(1, 2),
@@ -1062,6 +1062,10 @@ def apply(
                 self.problem_sizes2,
                 use_fp8_blockscale=True,
             )
+            # TODO: Fuse into select_experts
+            if routed_scaling_factor is not None:
+                output *= routed_scaling_factor
+            return output
         # Expert fusion with FP8 quantization
         return fused_experts(
             x,

From 4bec99ecd07663f2049d860912531a9a85ccc4e1 Mon Sep 17 00:00:00 2001
From: Yusong Gao <yusong.gao@gmail.com>
Date: Sat, 2 Aug 2025 14:43:45 +0800
Subject: [PATCH 299/396] Fix: resolve prefill of retracted request
 out-of-memory issue when ignore_eos is enabled (#7434)

---
 python/sglang/srt/managers/schedule_policy.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/managers/schedule_policy.py b/python/sglang/srt/managers/schedule_policy.py
index c07df2150201..eb14b9835daf 100644
--- a/python/sglang/srt/managers/schedule_policy.py
+++ b/python/sglang/srt/managers/schedule_policy.py
@@ -455,7 +455,9 @@ def add_req_state(r, insert_sort=False):
         if not self.is_hybrid:
             # Skip this logic for swa. The SWA has different memory management, and
             # this mechanism is underestimating the memory usage.
-            cur_rem_tokens = self.cur_rem_tokens - len(req.origin_input_ids)
+            cur_rem_tokens = self.cur_rem_tokens - self.ceil_paged_tokens(
+                req.extend_input_len
+            )
             tokens_freed = 0
             for i, (tokens_left, tokens_occupied) in enumerate(self.req_states):
                 # tokens_left gives a reservative calculation as the last token is not stored

From ea93079b3038dd156e6168cee1f3bf2defb37f51 Mon Sep 17 00:00:00 2001
From: Wenchen Lo <charles761013@gmail.com>
Date: Sat, 2 Aug 2025 00:39:40 -0700
Subject: [PATCH 300/396] model: adapt mllama4 to VisionAttention (#8512)

Co-authored-by: root <mickjagger19@icloud.com>
---
 python/sglang/srt/hf_transformers_utils.py    |  35 +-
 python/sglang/srt/layers/attention/vision.py  |  37 +-
 .../sglang/srt/managers/tokenizer_manager.py  |  31 +-
 python/sglang/srt/models/llama4.py            |  13 +-
 python/sglang/srt/models/mllama4.py           | 447 +++++++++++++++++-
 .../multimodal/processors/base_processor.py   |   7 +-
 6 files changed, 518 insertions(+), 52 deletions(-)

diff --git a/python/sglang/srt/hf_transformers_utils.py b/python/sglang/srt/hf_transformers_utils.py
index bf16addc5829..e4c87d573bba 100644
--- a/python/sglang/srt/hf_transformers_utils.py
+++ b/python/sglang/srt/hf_transformers_utils.py
@@ -14,7 +14,6 @@
 """Utilities for Huggingface Transformers."""
 
 import contextlib
-import logging
 import os
 import warnings
 from pathlib import Path
@@ -45,7 +44,7 @@
 )
 from sglang.srt.configs.internvl import InternVLChatConfig
 from sglang.srt.connector import create_remote_connector
-from sglang.srt.utils import is_remote_url, lru_cache_frozenset
+from sglang.srt.utils import is_remote_url, logger, lru_cache_frozenset
 
 _CONFIG_REGISTRY: Dict[str, Type[PretrainedConfig]] = {
     ChatGLMConfig.model_type: ChatGLMConfig,
@@ -317,15 +316,31 @@ def get_processor(
 
     if config.model_type not in {"llava", "clip"}:
         kwargs["use_fast"] = use_fast
+    try:
+        processor = AutoProcessor.from_pretrained(
+            tokenizer_name,
+            *args,
+            trust_remote_code=trust_remote_code,
+            revision=revision,
+            **kwargs,
+        )
 
-    processor = AutoProcessor.from_pretrained(
-        tokenizer_name,
-        *args,
-        trust_remote_code=trust_remote_code,
-        revision=revision,
-        **kwargs,
-    )
-
+    except ValueError as e:
+        error_message = str(e)
+        if "does not have a slow version" in error_message:
+            logger.info(
+                f"Processor {tokenizer_name} does not have a slow version. Automatically use fast version"
+            )
+            kwargs["use_fast"] = True
+            processor = AutoProcessor.from_pretrained(
+                tokenizer_name,
+                *args,
+                trust_remote_code=trust_remote_code,
+                revision=revision,
+                **kwargs,
+            )
+        else:
+            raise e
     tokenizer = get_tokenizer_from_processor(processor)
 
     attach_additional_stop_token_ids(tokenizer)
diff --git a/python/sglang/srt/layers/attention/vision.py b/python/sglang/srt/layers/attention/vision.py
index c7bbd3ea681d..ed7a36cdb629 100644
--- a/python/sglang/srt/layers/attention/vision.py
+++ b/python/sglang/srt/layers/attention/vision.py
@@ -4,7 +4,7 @@
 import functools
 import math
 from functools import lru_cache, partial
-from typing import Any, Optional, Tuple, Union
+from typing import Any, Callable, Optional, Tuple, Union
 
 import torch
 import torch.nn as nn
@@ -308,6 +308,7 @@ def forward(
         cu_seqlens = cu_seqlens.to(dtype=torch.int32).to(q.device)
         seq_lens = cu_seqlens[1:] - cu_seqlens[:-1]
         max_seqlen = seq_lens.max().item()
+
         output = flash_attn_varlen_func(
             q,
             k,
@@ -358,6 +359,9 @@ def __init__(
         qkv_bias: bool = True,
         qk_normalization: bool = False,
         layer_norm_eps: float = 1e-06,
+        customized_position_embedding_applier: Callable[
+            [torch.Tensor, torch.Tensor, Any, Any], Tuple[torch.Tensor, torch.Tensor]
+        ] = None,
         **kwargs,
     ):
         super().__init__()
@@ -392,6 +396,7 @@ def __init__(
                 self.dummy_dim, eps=layer_norm_eps, var_hidden_size=embed_dim
             )
 
+        # priority: server_args > passed qkv_backend > sdpa
         if global_server_args_dict["mm_attention_backend"] is None:
             if qkv_backend is None:
                 qkv_backend = "sdpa"
@@ -401,6 +406,9 @@ def __init__(
 
         print_info_once(f"Using {qkv_backend} as multimodal attention backend.")
 
+        self.customized_position_embedding_applier = (
+            customized_position_embedding_applier
+        )
         self.qkv_backend = QKV_BACKEND_IMPL[qkv_backend](
             head_dim=self.head_size,
             num_heads=self.num_attention_heads_per_partition,
@@ -473,13 +481,13 @@ def forward(
         if x.dim() == 2:
             x = x.unsqueeze(0)
         assert x.dim() == 3, x.shape
-        bsz, s, _ = x.shape
+        x_shape = x.shape
+        bsz, s, _ = x_shape
         head = self.num_attention_heads_per_partition
         kv_head = self.num_attention_kv_heads_per_partition
         if self.use_qkv_parallel:
             # [b, s, embed_dim] --> [b, s, embed_dim]
             qkv, _ = self.qkv_proj(x)
-
             q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
 
             # [b, s, embed_dim] --> [b * s, head, head_size]
@@ -508,16 +516,25 @@ def forward(
             ]
 
         if position_embeddings is not None:
-            cos, sin = position_embeddings
             original_shape = q.shape
-            # [total_tokens, head, head_size]
-            q = q.view(-1, head, self.head_size)
-            k = k.view(-1, head, self.head_size)
 
-            q, k = apply_rotary_pos_emb(q, k, cos, sin)
+            if self.customized_position_embedding_applier is not None:
+                q, k = self.customized_position_embedding_applier(
+                    q, k, position_embeddings, x_shape
+                )
+                q = q.view(original_shape)
+                k = k.view(original_shape)
+            else:
+                cos, sin = position_embeddings
+
+                # [total_tokens, head, head_size]
+                q = q.view(-1, head, self.head_size)
+                k = k.view(-1, head, self.head_size)
+
+                q, k = apply_rotary_pos_emb(q, k, cos, sin)
 
-            q = q.view(original_shape)
-            k = k.view(original_shape)
+                q = q.view(original_shape)
+                k = k.view(original_shape)
 
         if q.dim() == 4:
             # [b, s, head, head_size] --> [b * s, head, head_size]
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 46fd967e5f35..76a31e334df7 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -70,7 +70,6 @@
     BatchMultimodalOut,
     BatchStrOut,
     BatchTokenIDOut,
-    BlockReqType,
     CloseSessionReqInput,
     ConfigureLoggingReq,
     EmbeddingReqInput,
@@ -202,13 +201,29 @@ def __init__(
 
         if self.model_config.is_multimodal:
             import_processors()
-            _processor = get_processor(
-                server_args.tokenizer_path,
-                tokenizer_mode=server_args.tokenizer_mode,
-                trust_remote_code=server_args.trust_remote_code,
-                revision=server_args.revision,
-                use_fast=not server_args.disable_fast_image_processor,
-            )
+            try:
+                _processor = get_processor(
+                    server_args.tokenizer_path,
+                    tokenizer_mode=server_args.tokenizer_mode,
+                    trust_remote_code=server_args.trust_remote_code,
+                    revision=server_args.revision,
+                    use_fast=not server_args.disable_fast_image_processor,
+                )
+            except ValueError as e:
+                error_message = str(e)
+                if "does not have a slow version" in error_message:
+                    logger.info(
+                        f"Processor {server_args.tokenizer_path} does not have a slow version. Automatically use fast version"
+                    )
+                    _processor = get_processor(
+                        server_args.tokenizer_path,
+                        tokenizer_mode=server_args.tokenizer_mode,
+                        trust_remote_code=server_args.trust_remote_code,
+                        revision=server_args.revision,
+                        use_fast=True,
+                    )
+                else:
+                    raise e
             transport_mode = _determine_tensor_transport_mode(self.server_args)
 
             # We want to parallelize the image pre-processing so we create an executor for it
diff --git a/python/sglang/srt/models/llama4.py b/python/sglang/srt/models/llama4.py
index 265a9391d8cf..16cdd9e801e7 100644
--- a/python/sglang/srt/models/llama4.py
+++ b/python/sglang/srt/models/llama4.py
@@ -241,13 +241,22 @@ def __init__(
             if self.use_qk_norm
             else None
         )
+
+        qkv_quant_config = quant_config
+        o_quant_config = quant_config
+        if quant_config and hasattr(quant_config, "ignore") and quant_config.ignore:
+            if add_prefix("q_proj", prefix) in quant_config.ignore:
+                qkv_quant_config = None
+            if add_prefix("o_proj", prefix) in quant_config.ignore:
+                o_quant_config = None
+
         self.qkv_proj = QKVParallelLinear(
             hidden_size=hidden_size,
             head_size=self.head_dim,
             total_num_heads=self.total_num_heads,
             total_num_kv_heads=self.total_num_kv_heads,
             bias=bias,
-            quant_config=quant_config,
+            quant_config=qkv_quant_config,
             prefix=add_prefix("qkv_proj", prefix),
             tp_rank=attn_tp_rank,
             tp_size=attn_tp_size,
@@ -257,7 +266,7 @@ def __init__(
             input_size=self.total_num_heads * self.head_dim,
             output_size=hidden_size,
             bias=bias_o_proj,
-            quant_config=quant_config,
+            quant_config=o_quant_config,
             prefix=add_prefix("o_proj", prefix),
             tp_rank=attn_tp_rank,
             tp_size=attn_tp_size,
diff --git a/python/sglang/srt/models/mllama4.py b/python/sglang/srt/models/mllama4.py
index 4a2d5f7ded4b..b57d637f0521 100644
--- a/python/sglang/srt/models/mllama4.py
+++ b/python/sglang/srt/models/mllama4.py
@@ -1,17 +1,24 @@
 import json as json_lib
 import logging
+import math
 import os
 from collections.abc import Iterable
 from typing import List, Optional, Set, Tuple
 
 import torch
 from torch import nn
-from transformers import Llama4Config
+from transformers import Llama4Config, Llama4VisionConfig
 from transformers.models.llama4.modeling_llama4 import (
     Llama4MultiModalProjector,
-    Llama4VisionModel,
+    vision_apply_rotary_emb,
 )
 
+from sglang.srt.layers.attention.vision import VisionAttention
+from sglang.srt.layers.linear import (
+    ColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
 from sglang.srt.layers.quantization import QuantizationConfig
@@ -26,10 +33,10 @@
     global_server_args_dict,
 )
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch
-from sglang.srt.model_loader.weight_utils import default_weight_loader
-from sglang.srt.utils import add_prefix, is_cpu
+from sglang.srt.utils import is_cpu
 
 _is_cpu = is_cpu()
+
 from sglang.srt.model_loader.weight_utils import (
     default_weight_loader,
     maybe_remap_kv_scale_name,
@@ -39,6 +46,376 @@
 logger = logging.getLogger(__name__)
 
 
+class Llama4VisionMLP(nn.Module):
+
+    def __init__(
+        self,
+        input_size: int,
+        intermediate_size: int,
+        output_size: int,
+        bias: bool,
+        output_activation: bool,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        cls_fc1 = ReplicatedLinear if use_data_parallel else ColumnParallelLinear
+        self.fc1 = cls_fc1(
+            input_size=input_size,
+            output_size=intermediate_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
+        )
+        cls_fc2 = ReplicatedLinear if use_data_parallel else RowParallelLinear
+        self.fc2 = cls_fc2(
+            input_size=intermediate_size,
+            output_size=output_size,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
+        )
+        self.activation_fn = nn.GELU()
+        self.output_activation = output_activation
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        if self.output_activation:
+            return self.activation_fn(hidden_states)
+        return hidden_states
+
+
+def pixel_shuffle(input_tensor, shuffle_ratio):
+    # input_tensor: [batch_size, num_patches, channels]
+    batch_size, num_patches, channels = input_tensor.shape
+    patch_size = int(math.sqrt(num_patches))
+
+    input_tensor = input_tensor.view(batch_size, patch_size, patch_size, -1)
+    batch_size, height, width, channels = input_tensor.size()
+
+    reshaped_tensor = input_tensor.view(
+        batch_size, height, int(width * shuffle_ratio), int(channels / shuffle_ratio)
+    )
+    reshaped_tensor = reshaped_tensor.permute(0, 2, 1, 3).contiguous()
+
+    reshaped_tensor = reshaped_tensor.view(
+        batch_size,
+        int(height * shuffle_ratio),
+        int(width * shuffle_ratio),
+        int(channels / (shuffle_ratio**2)),
+    )
+    reshaped_tensor = reshaped_tensor.permute(0, 2, 1, 3).contiguous()
+
+    output_tensor = reshaped_tensor.view(batch_size, -1, reshaped_tensor.shape[-1])
+    return output_tensor
+
+
+class Llama4VisionPixelShuffleMLP(nn.Module):
+
+    def __init__(
+        self,
+        config,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.pixel_shuffle_ratio = config.pixel_shuffle_ratio
+        self.mlp = Llama4VisionMLP(
+            input_size=config.intermediate_size,
+            intermediate_size=config.projector_input_dim,
+            output_size=config.projector_output_dim,
+            bias=config.multi_modal_projector_bias,
+            output_activation=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+    def forward(self, encoded_patches: torch.Tensor) -> torch.Tensor:
+        encoded_patches = pixel_shuffle(encoded_patches, self.pixel_shuffle_ratio)
+        return self.mlp(encoded_patches)
+
+
+def apply_position_embedding(q, k, freqs_ci, shape):
+    # [batch_size_times_num_tiles, num_channels]
+    input_shape = shape[:2]
+    # [batch_size_times_num_tiles, num_channels, num_heads, head_dim]
+    hidden_shape = (*input_shape, *q.shape[-2:])
+    q = q.view(hidden_shape)
+    k = k.view(hidden_shape)
+    q, k = vision_apply_rotary_emb(q, k, freqs_ci)
+    return q, k
+
+
+class Llama4VisionEncoderLayer(nn.Module):
+
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: Optional[QuantizationConfig],
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.num_attention_heads = config.num_attention_heads
+        self.intermediate_size = config.intermediate_size
+
+        self.self_attn = VisionAttention(
+            self.hidden_size,
+            self.num_attention_heads,
+            self.hidden_size,
+            use_qkv_parallel=True,
+            # vision_model is explicitly ignored in Maverick-17B-128E-Instruct-FP8
+            quant_config=None,
+            dropout=0.0,
+            qkv_backend="sdpa",
+            softmax_in_single_precision=False,
+            flatten_batch=False,
+            prefix=add_prefix("self_attn", prefix),
+            qkv_bias=True,
+            customized_position_embedding_applier=apply_position_embedding,
+        )
+        self.mlp = Llama4VisionMLP(
+            input_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            output_size=config.hidden_size,
+            bias=True,
+            output_activation=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+            use_data_parallel=use_data_parallel,
+        )
+
+        self.input_layernorm = nn.LayerNorm(config.hidden_size)
+        self.post_attention_layernorm = nn.LayerNorm(config.hidden_size)
+
+    def forward(
+        self,
+        hidden_state: torch.Tensor,
+        freqs_ci: torch.Tensor,
+    ):
+        # Self Attention
+        residual = hidden_state
+        hidden_state = self.input_layernorm(hidden_state)
+        hidden_state = self.self_attn(hidden_state, position_embeddings=freqs_ci)
+        hidden_state = residual + hidden_state
+
+        # Feed forward
+        residual = hidden_state
+        hidden_state = self.post_attention_layernorm(hidden_state)
+        hidden_state = self.mlp(hidden_state)
+        hidden_state = residual + hidden_state
+
+        outputs = hidden_state
+        return outputs
+
+
+class Llama4VisionEncoder(nn.Module):
+
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: Optional[QuantizationConfig],
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        self.config = config
+        self.layers = nn.ModuleList(
+            [
+                Llama4VisionEncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    use_data_parallel=use_data_parallel,
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        freqs_ci: torch.Tensor,  # TODO: move this to an attribute instead of keeping it around
+    ) -> torch.Tensor:
+        r"""
+        Args:
+            hidden_states (`torch.FloatTensor` of shape
+                    `(batch_size, sequence_length, hidden_size)`):
+                Optionally, instead of passing `input_ids` you can choose to
+                directly pass an embedded representation. This is useful if you
+                want more control over how to convert `input_ids` indices into
+                associated vectors than the model's internal embedding
+                lookup matrix.
+        """
+
+        for encoder_layer in self.layers:
+            layer_outputs = encoder_layer(hidden_states, freqs_ci=freqs_ci)
+            hidden_states = layer_outputs
+
+        return hidden_states
+
+
+class Llama4UnfoldConvolution(nn.Module):
+
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        use_data_parallel: bool = False,
+    ):
+        super().__init__()
+        kernel_size = config.patch_size
+        if isinstance(kernel_size, int):
+            kernel_size = (kernel_size, kernel_size)
+        self.unfold = torch.nn.Unfold(kernel_size=kernel_size, stride=config.patch_size)
+        params = {
+            "input_size": config.num_channels * kernel_size[0] * kernel_size[1],
+            "output_size": config.hidden_size,
+            "bias": False,
+            "quant_config": quant_config,
+            "prefix": f"{prefix}.linear",
+        }
+        if use_data_parallel:
+            cls = ReplicatedLinear
+        else:
+            cls = ColumnParallelLinear
+            params["gather_output"] = True
+        self.linear = cls(**params)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.unfold(hidden_states)
+        hidden_states = hidden_states.permute(0, 2, 1)
+        hidden_states, _ = self.linear(hidden_states)
+        return hidden_states
+
+
+class Llama4VisionRotaryEmbedding(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        idx = config.image_size // config.patch_size
+        img_idx = torch.arange(idx**2, dtype=torch.int32).reshape(idx**2, 1)
+        img_idx = torch.cat([img_idx, img_idx[:1]], dim=0)
+        img_idx[-1, -1] = -2  # ID_CLS_TOKEN
+        frequencies_x = img_idx % idx  # get the coordinates of the 2d matrix along x
+        frequencies_y = img_idx // idx  # get the coordinates of the 2d matrix along y
+        freq_dim = config.hidden_size // config.num_attention_heads // 2
+        rope_freq = 1.0 / (
+            config.rope_theta
+            ** (torch.arange(0, freq_dim, 2)[: (freq_dim // 2)].float() / freq_dim)
+        )
+        freqs_x = (
+            (frequencies_x + 1)[..., None] * rope_freq[None, None, :]
+        ).repeat_interleave(2, dim=-1)
+        freqs_y = (
+            (frequencies_y + 1)[..., None] * rope_freq[None, None, :]
+        ).repeat_interleave(2, dim=-1)
+        freqs = torch.cat([freqs_x, freqs_y], dim=-1).float().contiguous()[..., ::2]
+        freqs = freqs.masked_fill(img_idx.reshape(-1, 1, 1) < 0, 0)
+        freq_cis = torch.view_as_complex(
+            torch.stack([torch.cos(freqs), torch.sin(freqs)], dim=-1)
+        )
+        self.freqs_ci = freq_cis  # idx**2, idx**2, idx * 2
+
+    def forward(self, hidden_states):
+        return self.freqs_ci.to(hidden_states.device)
+
+
+class Llama4VisionModel(nn.Module):
+
+    def __init__(
+        self,
+        config: Llama4VisionConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+        self.hidden_size = config.hidden_size
+        self.num_channels = config.num_channels
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2 + 1
+        self.scale = config.hidden_size**-0.5
+
+        self.patch_embedding = Llama4UnfoldConvolution(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.patch_embedding",
+        )
+
+        self.class_embedding = nn.Parameter(self.scale * torch.randn(self.hidden_size))
+        self.positional_embedding_vlm = nn.Parameter(
+            self.scale * torch.randn(self.num_patches, self.hidden_size)
+        )
+
+        self.rotary_embedding = Llama4VisionRotaryEmbedding(config)
+
+        # layer norms
+        self.layernorm_pre = nn.LayerNorm(self.hidden_size, eps=1e-5)
+        self.layernorm_post = nn.LayerNorm(self.hidden_size, eps=1e-5)
+
+        # encoders
+        self.model = Llama4VisionEncoder(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.model",
+        )
+        self.vision_adapter = Llama4VisionPixelShuffleMLP(
+            config,
+            quant_config,
+            prefix=f"{prefix}.vision_adapter",
+        )
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+    ) -> torch.Tensor:
+        # Patch embedding
+        hidden_state = self.patch_embedding(pixel_values)
+        num_tiles, num_patches, hidden_dim = hidden_state.shape
+
+        # Add cls token
+        class_embedding = self.class_embedding.expand(
+            hidden_state.shape[0], 1, hidden_state.shape[-1]
+        )
+        hidden_state = torch.cat([hidden_state, class_embedding], dim=1)
+        num_patches += 1
+
+        # Position embeddings
+        hidden_state = hidden_state.reshape(
+            num_tiles,
+            1,
+            num_patches,
+            hidden_dim,
+        )
+        positional_embedding = self.positional_embedding_vlm.to(
+            dtype=hidden_state.dtype, device=hidden_state.device
+        )
+        hidden_state = hidden_state + positional_embedding
+        hidden_state = self.layernorm_pre(hidden_state)
+        hidden_state = hidden_state.view(num_tiles, -1, hidden_dim)
+        freqs_ci = self.rotary_embedding(pixel_values)
+        # Apply encoder
+        hidden_state = self.model(hidden_state, freqs_ci=freqs_ci)
+        hidden_state = self.layernorm_post(hidden_state)
+
+        # Remove CLS token output
+        hidden_state = hidden_state[:, :-1, :]
+
+        # now, we use Llama4VisionPixelShuffle + mlp to project embeddings
+        hidden_state = self.vision_adapter(hidden_state)
+
+        return hidden_state
+
+
 class Llama4ForConditionalGeneration(nn.Module):
     packed_modules_mapping = {
         "qkv_proj": ["q_proj", "k_proj", "v_proj"],
@@ -60,7 +437,8 @@ def __init__(
         if not self.has_vision_weights:
             logger.warning(
                 "No vision weights found in checkpoint. Model will run in text-only mode. "
-                "Multimodal capabilities (image processing) will be unavailable."
+                "Multimodal capabilities (vision understanding) will be unavailable. "
+                "Please not that this warning might be inaccurate if the weights haven't been fully downloaded"
             )
 
         self.has_vision = (
@@ -68,7 +446,12 @@ def __init__(
         )
 
         if self.has_vision:
-            self.vision_model = Llama4VisionModel(config.vision_config)
+            self.vision_model = Llama4VisionModel(
+                config.vision_config,
+                quant_config=quant_config,
+                prefix=add_prefix("vision_model", prefix),
+            )
+
             self.multi_modal_projector = Llama4MultiModalProjector(config)
         else:
             self.vision_model = None
@@ -112,7 +495,6 @@ def _has_vision_weights(self, config) -> bool:
                 filename="model.safetensors.index.json",
                 cache_dir=None,
             )
-
             if index_file_path and os.path.exists(index_file_path):
                 return self._check_vision_weights_in_index(index_file_path)
 
@@ -120,7 +502,7 @@ def _has_vision_weights(self, config) -> bool:
             # If we can't access the cache, fall back to config-based detection
             pass
 
-        # Fallback， assume text-only
+        # Fallback, assume text-only
         return False
 
     def _check_vision_weights_in_index(self, index_file: str) -> bool:
@@ -131,7 +513,6 @@ def _check_vision_weights_in_index(self, index_file: str) -> bool:
 
             vision_patterns = ["vision_model", "vision_tower", "multi_modal_projector"]
             weight_names = index_data.get("weight_map", {}).keys()
-
             return any(
                 pattern in weight_name
                 for weight_name in weight_names
@@ -150,17 +531,17 @@ def get_image_feature(
         # For text-only models, return None or raise an error
         if not self.has_vision or self.vision_model is None:
             raise ValueError("Vision model not available for text-only checkpoint")
-
         pixel_values = (
             torch.concat([item.feature for item in items])
             .to(next(self.vision_model.parameters()).device)
             .type(next(self.vision_model.parameters()).dtype)
         )
+        image_features = self.vision_model(pixel_values)
 
-        image_outputs = self.vision_model(pixel_values, output_hidden_states=False)
-        image_features = image_outputs.last_hidden_state
         vision_flat = image_features.view(-1, image_features.size(-1))
+
         projected_vision_flat = self.multi_modal_projector(vision_flat)
+
         return projected_vision_flat
 
     def forward(
@@ -246,31 +627,47 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]) -> Set[str]:
             num_experts=num_experts,
         )
 
+        loaded_params = set()
+
         for name, loaded_weight in weights:
             if self._should_skip_weight(name):
                 continue
 
             name = self._transform_weight_name(name)
 
-            if "vision" not in name:
+            if "vision" in name:
+                name = name.replace(".self_attn.o_proj", ".self_attn.proj")
+            else:
                 name, loaded_weight = self.permute_qk_weight_for_rotary(
                     name, loaded_weight
                 )
 
             if self._handle_scale_remapping(name, params_dict):
+                loaded_params.add(name)
                 continue
 
             if self._handle_stacked_params(
-                name, loaded_weight, stacked_params_mapping, params_dict
+                name, loaded_weight, stacked_params_mapping, params_dict, loaded_params
             ):
                 continue
 
             if self._handle_expert_weights(
-                name, loaded_weight, expert_params_mapping, params_dict, num_experts
+                name,
+                loaded_weight,
+                expert_params_mapping,
+                params_dict,
+                num_experts,
+                loaded_params,
             ):
                 continue
 
+            loaded_params.add(name)
             self._handle_default_weight(name, loaded_weight, params_dict)
+        unloaded_params = params_dict.keys() - loaded_params
+        if unloaded_params:
+            logger.warning(
+                f"Some weights are not initialized from checkpoints {unloaded_params}"
+            )
 
     def _should_skip_weight(self, name: str) -> bool:
         """Check if we should skip loading this weight."""
@@ -301,11 +698,13 @@ def _handle_stacked_params(
         loaded_weight: torch.Tensor,
         stacked_params_mapping: list,
         params_dict: dict,
+        loaded_params: set,
     ) -> bool:
         """Handle stacked parameter loading. Returns True if handled."""
         for param_name, weight_name, shard_id in stacked_params_mapping:
-            if weight_name in name and "vision" not in name:
+            if weight_name in name:
                 transformed_name = name.replace(weight_name, param_name)
+                loaded_params.add(transformed_name)
                 param = params_dict[transformed_name]
                 param.weight_loader(param, loaded_weight, shard_id)
                 return True
@@ -318,6 +717,7 @@ def _handle_expert_weights(
         expert_params_mapping: list,
         params_dict: dict,
         num_experts: int,
+        loaded_params: set,
     ) -> bool:
         """Handle expert weight loading for MoE (Mixture of Experts) layers.
 
@@ -336,16 +736,16 @@ def _handle_expert_weights(
 
         if "experts.gate_up_proj" not in name and "experts.down_proj" not in name:
             return self._handle_other_expert_params(
-                name, loaded_weight, expert_params_mapping, params_dict
+                name, loaded_weight, expert_params_mapping, params_dict, loaded_params
             )
 
         if "scale" in name:
             return self._handle_expert_scale_params(
-                name, loaded_weight, params_dict, num_experts
+                name, loaded_weight, params_dict, num_experts, loaded_params
             )
         else:
             return self._handle_expert_weight_params(
-                name, loaded_weight, params_dict, num_experts
+                name, loaded_weight, params_dict, num_experts, loaded_params
             )
 
     def _handle_other_expert_params(
@@ -354,6 +754,7 @@ def _handle_other_expert_params(
         loaded_weight: torch.Tensor,
         expert_params_mapping: list,
         params_dict: dict,
+        loaded_params: set,
     ) -> bool:
         """Handle expert parameters that are not gate_up_proj or down_proj weights.
 
@@ -362,6 +763,7 @@ def _handle_other_expert_params(
             loaded_weight: The weight tensor to be loaded
             expert_params_mapping: List of tuples mapping checkpoint names to model parameters
             params_dict: Dictionary of model parameters
+            loaded_params: Set of loaded parameter names
 
         Returns:
             bool: True if parameter was found and handled, False otherwise
@@ -373,6 +775,7 @@ def _handle_other_expert_params(
                 param.weight_loader(
                     param, loaded_weight, name, shard_id=shard_id, expert_id=expert_id
                 )
+                loaded_params.add(transformed_name)
                 return True
         return False
 
@@ -411,6 +814,7 @@ def _handle_expert_scale_params(
         loaded_weight: torch.Tensor,
         params_dict: dict,
         num_experts: int,
+        loaded_params: set,
     ) -> bool:
         """Handle quantization scale parameters for expert weights.
 
@@ -419,6 +823,7 @@ def _handle_expert_scale_params(
             loaded_weight: Scale tensor to be loaded
             params_dict: Dictionary of model parameters
             num_experts: Total number of experts for broadcast operations
+            loaded_params: Set of loaded parameter names
 
         Returns:
             bool: True (always handles scale parameters)
@@ -447,6 +852,7 @@ def _handle_expert_scale_params(
             # Load the same scale for all experts
             for expert_id in range(num_experts):
                 param.data[expert_id] = loaded_weight
+        loaded_params.add(transformed_name)
 
         return True
 
@@ -456,6 +862,7 @@ def _handle_expert_weight_params(
         loaded_weight: torch.Tensor,
         params_dict: dict,
         num_experts: int,
+        loaded_params: set,
     ) -> bool:
         """Handle actual weight tensors for expert layers (gate_up_proj and down_proj).
 
@@ -464,6 +871,7 @@ def _handle_expert_weight_params(
             loaded_weight: Weight tensor(s) to be loaded
             params_dict: Dictionary of model parameters
             num_experts: Total number of experts for tensor distribution
+            loaded_params: Set of loaded parameter names
 
         Returns:
             bool: True (always handles weight parameters)
@@ -486,6 +894,7 @@ def _handle_expert_weight_params(
 
             param = params_dict[param_name]
             weight_loader = param.weight_loader
+            loaded_params.add(param_name)
 
             # Handle the case where loaded_weight might be a single tensor for all experts
             if weight_chunk.dim() == 2:
diff --git a/python/sglang/srt/multimodal/processors/base_processor.py b/python/sglang/srt/multimodal/processors/base_processor.py
index 06e5c0da0a5c..760d3c26f82c 100644
--- a/python/sglang/srt/multimodal/processors/base_processor.py
+++ b/python/sglang/srt/multimodal/processors/base_processor.py
@@ -12,7 +12,6 @@
 from PIL import Image
 from transformers import BaseImageProcessorFast
 
-from sglang.srt.managers.mm_utils import TransportProxyTensor
 from sglang.srt.managers.schedule_batch import Modality, MultimodalDataItem
 from sglang.srt.utils import load_audio, load_image, load_video, logger
 
@@ -218,8 +217,10 @@ def process_mm_data(
                 kwargs["audio"] = audios
 
         processor = self._processor
-        if hasattr(processor, "image_processor") and isinstance(
-            processor.image_processor, BaseImageProcessorFast
+        if (
+            hasattr(processor, "image_processor")
+            and isinstance(processor.image_processor, BaseImageProcessorFast)
+            and not self.server_args.disable_fast_image_processor
         ):
             kwargs["device"] = "cuda"
         result = processor.__call__(

From 4ca43b061c24b8ba85d1f85bed140f1bf10c0dc2 Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Sat, 2 Aug 2025 00:41:05 -0700
Subject: [PATCH 301/396] Add tensor.detach() back to update weight util
 (#8691)

---
 python/sglang/srt/weight_sync/utils.py |   2 +-
 test/srt/test_utils_update_weights.py  | 126 ++++++++++++-------------
 2 files changed, 63 insertions(+), 65 deletions(-)

diff --git a/python/sglang/srt/weight_sync/utils.py b/python/sglang/srt/weight_sync/utils.py
index edb7f6ea05a9..8f3c8adb7888 100644
--- a/python/sglang/srt/weight_sync/utils.py
+++ b/python/sglang/srt/weight_sync/utils.py
@@ -45,7 +45,7 @@ async def update_weights(
         (
             name,
             MultiprocessingSerializer.serialize(
-                _preprocess_tensor_for_update_weights(tensor)
+                _preprocess_tensor_for_update_weights(tensor.detach())
             ),
         )
         for name, tensor in params_batch
diff --git a/test/srt/test_utils_update_weights.py b/test/srt/test_utils_update_weights.py
index afbef6d385a5..03262f10a385 100644
--- a/test/srt/test_utils_update_weights.py
+++ b/test/srt/test_utils_update_weights.py
@@ -1,10 +1,9 @@
 import asyncio
 import os
+import unittest
 
-import pytest
 import torch
 import torch.distributed as dist
-from loguru import logger
 from torch.distributed.device_mesh import init_device_mesh
 from transformers import AutoModelForCausalLM
 
@@ -39,11 +38,29 @@ def setup_single_process_distributed():
         os.environ["LOCAL_RANK"] = "0"
 
 
-class TestUtilsUpdateWeights:
+class TestUtilsUpdateWeights(unittest.TestCase):
     """Test class for utils.update_weights function"""
 
-    @pytest.fixture(scope="class")
-    def setup_distributed(self):
+    @classmethod
+    def setUpClass(cls):
+        """Setup distributed environment and test fixtures for the entire test class"""
+        cls.setup_distributed()
+        cls.setup_test_engine()
+        cls.setup_test_model()
+        cls.setup_device_mesh()
+
+    @classmethod
+    def tearDownClass(cls):
+        """Cleanup after all tests"""
+        if hasattr(cls, "engine") and cls.engine:
+            cls.engine.shutdown()
+
+        # Cleanup distributed
+        if dist.is_initialized():
+            dist.destroy_process_group()
+
+    @classmethod
+    def setup_distributed(cls):
         """Setup distributed environment for testing"""
         setup_single_process_distributed()
 
@@ -53,13 +70,15 @@ def setup_distributed(self):
                     backend="nccl" if torch.cuda.is_available() else "gloo"
                 )
             except Exception as e:
-                pytest.skip(f"Could not initialize distributed backend: {e}")
+                raise unittest.SkipTest(
+                    f"Could not initialize distributed backend: {e}"
+                )
 
-        rank = dist.get_rank()
-        world_size = dist.get_world_size()
+        cls.rank = dist.get_rank()
+        cls.world_size = dist.get_world_size()
 
         if torch.cuda.is_available():
-            torch.cuda.set_device(rank % torch.cuda.device_count())
+            torch.cuda.set_device(cls.rank % torch.cuda.device_count())
 
         # Set up environment variables
         os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
@@ -68,38 +87,26 @@ def setup_distributed(self):
         os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
         os.environ["CUDA_MODULE_LOADING"] = "AUTO"
 
-        yield rank, world_size
-
-        # Cleanup
-        if dist.is_initialized():
-            dist.destroy_process_group()
-
-    @pytest.fixture(scope="class")
-    def test_engine(self, setup_distributed):
+    @classmethod
+    def setup_test_engine(cls):
         """Setup test engine"""
-        rank, world_size = setup_distributed
-
-        if rank == 0:
-            os.environ["SGLANG_BLOCK_NONZERO_RANK_CHILDREN"] = "0"
-            engine = AsyncEngine(
+        if cls.rank == 0:
+            cls.engine = AsyncEngine(
                 model_path=DEFAULT_SMALL_MODEL_NAME_FOR_TEST,
                 dtype="bfloat16",
                 mem_fraction_static=0.3,
                 enable_memory_saver=True,
-                tp_size=world_size,
-                disable_cuda_graph=True,
+                tp_size=cls.world_size,
+                disable_cuda_graph=False,
             )
-            yield engine
-            engine.shutdown()
-
         else:
-            yield None
+            cls.engine = None
 
-    @pytest.fixture(scope="class")
-    def test_model(self):
+    @classmethod
+    def setup_test_model(cls):
         """Load test model"""
         try:
-            model = AutoModelForCausalLM.from_pretrained(
+            cls.model = AutoModelForCausalLM.from_pretrained(
                 DEFAULT_SMALL_MODEL_NAME_FOR_TEST,
                 device_map="cpu",
                 trust_remote_code=True,
@@ -108,25 +115,20 @@ def test_model(self):
                     torch.float16 if torch.cuda.is_available() else torch.float32
                 ),
             )
-            return model
         except Exception as e:
-            pytest.skip(f"Could not load test model: {e}")
+            raise unittest.SkipTest(f"Could not load test model: {e}")
 
-    @pytest.fixture(scope="class")
-    def device_mesh(self, setup_distributed):
+    @classmethod
+    def setup_device_mesh(cls):
         """Create device mesh for testing"""
-        rank, world_size = setup_distributed
-
         if not torch.cuda.is_available():
-            pytest.skip("CUDA not available for device mesh")
+            raise unittest.SkipTest("CUDA not available for device mesh")
 
-        device_mesh_key = "tp"
-        mesh = init_device_mesh(
-            "cuda", (world_size,), mesh_dim_names=(device_mesh_key,)
+        cls.device_mesh_key = "tp"
+        cls.mesh = init_device_mesh(
+            "cuda", (cls.world_size,), mesh_dim_names=(cls.device_mesh_key,)
         )
 
-        return device_mesh_key, mesh
-
     def create_test_params_batch(self, model, num_params=64):
         """Create a batch of test parameters from the model"""
         param_names = []
@@ -143,31 +145,27 @@ def create_test_params_batch(self, model, num_params=64):
 
         return list(zip(param_names, test_tensors))
 
-    @pytest.mark.asyncio
-    async def test_utils_update_weights(
-        self, setup_distributed, test_engine, test_model, device_mesh
-    ):
+    def test_utils_update_weights(self):
         """Test basic functionality of utils.update_weights"""
-        rank, world_size = setup_distributed
-        device_mesh_key, mesh = device_mesh
 
-        # Create test parameters batch
-        params_batch = self.create_test_params_batch(test_model, num_params=2)
+        async def async_test():
+            # Create test parameters batch
+            params_batch = self.create_test_params_batch(self.model, num_params=2)
+
+            # Test the utils.update_weights function
+            result = await update_weights(
+                engine=self.engine,
+                params_batch=params_batch,
+                device_mesh_key=self.device_mesh_key,
+                device_mesh=self.mesh,
+                load_format=None,
+            )
 
-        print(
-            f"Rank {rank} testing utils.update_weights with {len(params_batch)} parameters"
-        )
-        # Test the utils.update_weights function
-        result = await update_weights(
-            engine=test_engine,
-            params_batch=params_batch,
-            device_mesh_key=device_mesh_key,
-            device_mesh=mesh,
-            load_format=None,
-        )
+            self.assertIn("Success", result)
 
-        assert "Success" in result
+        # Run the async test
+        asyncio.run(async_test())
 
 
 if __name__ == "__main__":
-    pytest.main([__file__])
+    unittest.main()

From ac6962ccd6b2bfe62cb115ed08bab0552338dbf6 Mon Sep 17 00:00:00 2001
From: PGFLMG <1106310035@qq.com>
Date: Sat, 2 Aug 2025 17:03:07 +0800
Subject: [PATCH 302/396] [Doc] Polish sgl-kernel readme for cu126 build error
 (#8704)

---
 sgl-kernel/README.md | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/sgl-kernel/README.md b/sgl-kernel/README.md
index c71b9233575b..72491433a838 100644
--- a/sgl-kernel/README.md
+++ b/sgl-kernel/README.md
@@ -58,7 +58,15 @@ And if you build the sgl-kernel with cmake, you need to add `CMAKE_BUILD_PARALLE
 CMAKE_BUILD_PARALLEL_LEVEL=$(nproc) python -m uv build --wheel -Cbuild-dir=build --color=always .
 ```
 
-### FlashAttention on Hopper
+### ⚠️ Compilation Issue with `sgl-kernel` and CUDA 12.6
+
+When compiling `sgl-kernel` with FlashAttention on a Hopper GPU using CUDA 12.6, you may encounter a segmentation fault:
+
+```bash
+kernel/build/_deps/repo-flash-attention-src/hopper/instantiations/flash_fwd_hdimall_bf16_paged_softcap_sm90.cu -o CMakeFiles/flash_ops.dir/_deps/repo-flash-attention-src/hopper/instantiations/flash_fwd_hdimall_bf16_paged_softcap_sm90.cu.o
+Segmentation fault (core dumped)
+```
+
 ⚠️ **Note**: To ensure that FlashAttention compiles correctly on Hopper GPU Architecture(sm90), it is strongly [recommended](https://github.com/Dao-AILab/flash-attention/issues/1453) to use:
 - nvcc version: 12.6
 - ptxas version: 12.8

From f9f0138f80a32ecba8a4da619cb51dce2bb3381c Mon Sep 17 00:00:00 2001
From: Liangsheng Yin <hnyls2002@gmail.com>
Date: Sat, 2 Aug 2025 20:14:30 +0800
Subject: [PATCH 303/396] Revert "[1/2] sgl-kernel: Fuse routed scaling factor
 into select_experts" (#8706)

---
 sgl-kernel/csrc/common_extension.cc     |  2 +-
 sgl-kernel/csrc/moe/moe_fused_gate.cu   | 27 +++++++------------------
 sgl-kernel/include/sgl_kernel_ops.h     |  3 +--
 sgl-kernel/python/sgl_kernel/moe.py     | 11 ++--------
 sgl-kernel/tests/test_moe_fused_gate.py |  7 +------
 5 files changed, 12 insertions(+), 38 deletions(-)

diff --git a/sgl-kernel/csrc/common_extension.cc b/sgl-kernel/csrc/common_extension.cc
index 989ae14eb9e3..2959399007dd 100644
--- a/sgl-kernel/csrc/common_extension.cc
+++ b/sgl-kernel/csrc/common_extension.cc
@@ -174,7 +174,7 @@ TORCH_LIBRARY_FRAGMENT(sgl_kernel, m) {
 
   m.def(
       "moe_fused_gate(Tensor input, Tensor bias, int num_expert_group, int topk_group, int topk, int "
-      "num_fused_shared_experts, float routed_scaling_factor, bool apply_routed_scaling_factor_on_output) -> "
+      "num_fused_shared_experts, float routed_scaling_factor) -> "
       "(Tensor[])");
   m.impl("moe_fused_gate", torch::kCUDA, &moe_fused_gate);
   m.def(
diff --git a/sgl-kernel/csrc/moe/moe_fused_gate.cu b/sgl-kernel/csrc/moe/moe_fused_gate.cu
index 782a884fb1d8..24bf2d36b074 100644
--- a/sgl-kernel/csrc/moe/moe_fused_gate.cu
+++ b/sgl-kernel/csrc/moe/moe_fused_gate.cu
@@ -59,7 +59,6 @@ __device__ void moe_fused_gate_impl(
     int64_t topk,
     int64_t num_fused_shared_experts,
     double routed_scaling_factor,
-    bool apply_routed_scaling_factor_on_output,
     Params params) {
   int tidx = threadIdx.x;
   int64_t thread_row =
@@ -249,9 +248,6 @@ __device__ void moe_fused_gate_impl(
     for (int ii = 0; ii < topk; ++ii) {
       int64_t const idx = topk * thread_row + ii;
       output_ptr[idx] = output_ptr[idx] / output_sum;
-      if (apply_routed_scaling_factor_on_output) {
-        output_ptr[idx] *= routed_scaling_factor;
-      }
     }
   }
 }
@@ -286,8 +282,7 @@ __global__ void moe_fused_gate_kernel(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor,
-    bool apply_routed_scaling_factor_on_output) {
+    double routed_scaling_factor) {
   KernelParams<VPT, NUM_EXPERTS, THREADS_PER_ROW, ROWS_PER_WARP, ROWS_PER_CTA, WARPS_PER_CTA> params;
   moe_fused_gate_impl<T>(
       input,
@@ -299,7 +294,6 @@ __global__ void moe_fused_gate_kernel(
       topk,
       num_fused_shared_experts,
       routed_scaling_factor,
-      apply_routed_scaling_factor_on_output,
       params);
 }
 
@@ -320,8 +314,7 @@ __global__ void moe_fused_gate_kernel(
             topk_group,                                                                                  \
             topk,                                                                                        \
             num_fused_shared_experts,                                                                    \
-            routed_scaling_factor,                                                                       \
-            apply_routed_scaling_factor_on_output);                                                      \
+            routed_scaling_factor);                                                                      \
     dispatched = true;                                                                                   \
   } while (0)
 
@@ -349,8 +342,7 @@ __global__ void moe_fused_gate_kernel_dynamic(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor,
-    bool apply_routed_scaling_factor_on_output) {
+    double routed_scaling_factor) {
   KernelParamsDynamic params;
   params.NUM_EXPERTS = num_experts;             // e.g, for deepseek v3, this is 256
   params.VPT = num_experts / num_expert_group;  // e.g., for deepseek v3, this is 256 / 8 = 32
@@ -369,7 +361,6 @@ __global__ void moe_fused_gate_kernel_dynamic(
       topk,
       num_fused_shared_experts,
       routed_scaling_factor,
-      apply_routed_scaling_factor_on_output,
       params);
 }
 
@@ -383,8 +374,7 @@ std::vector<at::Tensor> moe_fused_gate(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor,
-    bool apply_routed_scaling_factor_on_output) {
+    double routed_scaling_factor) {
   int64_t num_rows = input.size(0);
   int32_t num_experts = input.size(1);
   auto options = torch::TensorOptions().dtype(torch::kFloat32).device(torch::kCUDA);
@@ -483,8 +473,7 @@ std::vector<at::Tensor> moe_fused_gate(
           topk_group,
           topk,
           num_fused_shared_experts,
-          routed_scaling_factor,
-          apply_routed_scaling_factor_on_output);
+          routed_scaling_factor);
     } else if (input.scalar_type() == at::kHalf) {
       moe_fused_gate_kernel_dynamic<float16_t><<<num_blocks, block_dim, 0, stream>>>(
           input.data_ptr(),
@@ -497,8 +486,7 @@ std::vector<at::Tensor> moe_fused_gate(
           topk_group,
           topk,
           num_fused_shared_experts,
-          routed_scaling_factor,
-          apply_routed_scaling_factor_on_output);
+          routed_scaling_factor);
     } else if (input.scalar_type() == at::kFloat) {
       moe_fused_gate_kernel_dynamic<float32_t><<<num_blocks, block_dim, 0, stream>>>(
           input.data_ptr(),
@@ -511,8 +499,7 @@ std::vector<at::Tensor> moe_fused_gate(
           topk_group,
           topk,
           num_fused_shared_experts,
-          routed_scaling_factor,
-          apply_routed_scaling_factor_on_output);
+          routed_scaling_factor);
     } else {
       TORCH_CHECK(false, "Unsupported data type for moe_fused_gate");
     }
diff --git a/sgl-kernel/include/sgl_kernel_ops.h b/sgl-kernel/include/sgl_kernel_ops.h
index 88720dfea2dd..fa6de7362c74 100644
--- a/sgl-kernel/include/sgl_kernel_ops.h
+++ b/sgl-kernel/include/sgl_kernel_ops.h
@@ -243,8 +243,7 @@ std::vector<at::Tensor> moe_fused_gate(
     int64_t topk_group,
     int64_t topk,
     int64_t num_fused_shared_experts,
-    double routed_scaling_factor,
-    bool apply_routed_scaling_factor_on_output);
+    double routed_scaling_factor);
 
 void fp8_blockwise_scaled_grouped_mm(
     torch::Tensor& output,
diff --git a/sgl-kernel/python/sgl_kernel/moe.py b/sgl-kernel/python/sgl_kernel/moe.py
index 9008e7a79ebb..c16a2b6feb78 100755
--- a/sgl-kernel/python/sgl_kernel/moe.py
+++ b/sgl-kernel/python/sgl_kernel/moe.py
@@ -44,7 +44,6 @@ def moe_fused_gate(
     topk,
     num_fused_shared_experts=0,
     routed_scaling_factor=0,
-    apply_routed_scaling_factor_on_output=False,
 ):
     # This fused kernel function is used to select topk expert in a hierarchical 2-layer fashion
     # it split group of expert into num_expert_group, and use top2 expert weight sum in each group
@@ -52,13 +51,8 @@ def moe_fused_gate(
     # the #experts is decided by the input tensor shape and we currently only support power of 2 #experts
     # and #experts should be divisible by num_expert_group. #expert/num_expert_group <= 32 is limited for now.
     # for non-supported case, we suggest to use the biased_grouped_topk func in sglang.srt.layers.moe.topk
-    # num_fused_shared_experts: if > 0, the last several experts will be
-    #   replaced with shared experts. the shared experts will be divided by the
-    #   routed_scaling_factor - this is intended to cancel out later when routed+shared
-    #   output is scaled so that shared experts are not scaled.
-    # routed_scaling_factor: if > 0, the experts will be scaled by this factor
-    # apply_routed_scaling_factor_on_output: if true, output will be
-    #   scaled by the routed_scaling_factor
+    # num_fused_shared_experts: if > 0, the last several experts will be replaced with shared experts
+    # routed_scaling_factor: if > 0, the shared experts will be scaled by this factor
     return torch.ops.sgl_kernel.moe_fused_gate.default(
         input_tensor,
         bias,
@@ -67,7 +61,6 @@ def moe_fused_gate(
         topk,
         num_fused_shared_experts,
         routed_scaling_factor,
-        apply_routed_scaling_factor_on_output,
     )
 
 
diff --git a/sgl-kernel/tests/test_moe_fused_gate.py b/sgl-kernel/tests/test_moe_fused_gate.py
index 274f387a95ca..70c4ea209a1a 100644
--- a/sgl-kernel/tests/test_moe_fused_gate.py
+++ b/sgl-kernel/tests/test_moe_fused_gate.py
@@ -19,10 +19,7 @@
     ],
 )
 @pytest.mark.parametrize("num_fused_shared_experts", [0, 1, 2])
-@pytest.mark.parametrize("apply_routed_scaling_factor_on_output", [True, False])
-def test_moe_fused_gate_combined(
-    seq_length, params, num_fused_shared_experts, apply_routed_scaling_factor_on_output
-):
+def test_moe_fused_gate_combined(seq_length, params, num_fused_shared_experts):
     num_experts, num_expert_group, topk_group, topk = params
     dtype = torch.float32
 
@@ -40,7 +37,6 @@ def test_moe_fused_gate_combined(
         topk=topk,
         num_fused_shared_experts=num_fused_shared_experts,
         routed_scaling_factor=2.5,
-        apply_routed_scaling_factor_on_output=apply_routed_scaling_factor_on_output,
     )
     ref_output, ref_indices = biased_grouped_topk(
         scores,
@@ -52,7 +48,6 @@ def test_moe_fused_gate_combined(
         topk_group=topk_group,
         num_fused_shared_experts=num_fused_shared_experts,
         routed_scaling_factor=2.5,
-        apply_routed_scaling_factor_on_output=apply_routed_scaling_factor_on_output,
     )
 
     # When num_fused_shared_experts > 0, ignore the comparison of the last topk dimension

From 6d4fd8826e99e62c7720b3c51ee3492bada4e5be Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sat, 2 Aug 2025 13:46:31 -0700
Subject: [PATCH 304/396] [router] minor code clean up and and refactoring
 (#8711)

---
 sgl-router/src/routers/pd_router.rs | 86 +++++++++++++----------------
 1 file changed, 39 insertions(+), 47 deletions(-)

diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index 77d9141c05d3..d9cbf9bacb1b 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -35,7 +35,7 @@ pub struct PDRouter {
     pub interval_secs: u64,
     pub worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
     pub load_monitor_handle: Option<Arc<tokio::task::JoinHandle<()>>>,
-    pub http_client: reqwest::Client,
+    pub http_client: Client,
     _prefill_health_checker: Option<HealthChecker>,
     _decode_health_checker: Option<HealthChecker>,
 }
@@ -206,51 +206,17 @@ impl PDRouter {
         }
 
         // Initialize cache-aware components if needed for prefill policy
-        let prefill_tree = if prefill_policy.name() == "cache_aware" {
-            // Initialize the policy's internal tree with prefill workers
-            if let Some(cache_policy) = prefill_policy
-                .as_any()
-                .downcast_ref::<crate::policies::CacheAwarePolicy>()
-            {
-                cache_policy.init_workers(&prefill_workers);
-            }
-
-            let tree = Arc::new(Mutex::new(Tree::new()));
-            // Initialize tree with prefill workers
-            for worker in &prefill_workers {
-                tree.lock().unwrap().insert("", worker.url());
-            }
-            Some(tree)
-        } else {
-            None
-        };
+        let prefill_tree = Self::initialize_radix_tree(&prefill_policy, &prefill_workers)?;
 
         // Initialize cache-aware components if needed for decode policy
-        let decode_tree = if decode_policy.name() == "cache_aware" {
-            // Initialize the policy's internal tree with decode workers
-            if let Some(cache_policy) = decode_policy
-                .as_any()
-                .downcast_ref::<crate::policies::CacheAwarePolicy>()
-            {
-                cache_policy.init_workers(&decode_workers);
-            }
-
-            let tree = Arc::new(Mutex::new(Tree::new()));
-            // Initialize tree with decode workers
-            for worker in &decode_workers {
-                tree.lock().unwrap().insert("", worker.url());
-            }
-            Some(tree)
-        } else {
-            None
-        };
+        let decode_tree = Self::initialize_radix_tree(&decode_policy, &decode_workers)?;
 
         // Set up background load monitoring for power-of-two selection
         let (tx, rx) = tokio::sync::watch::channel(HashMap::new());
         let worker_loads = Arc::new(rx);
 
         // Create a shared HTTP client for all operations
-        let http_client = reqwest::Client::builder()
+        let http_client = Client::builder()
             .timeout(Duration::from_secs(timeout_secs))
             .build()
             .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
@@ -304,6 +270,35 @@ impl PDRouter {
         })
     }
 
+    // Helper function to initialize radix tree for cache-aware policies
+    fn initialize_radix_tree(
+        policy: &Arc<dyn LoadBalancingPolicy>,
+        workers: &[Box<dyn Worker>],
+    ) -> Result<Option<Arc<Mutex<Tree>>>, String> {
+        if let Some(cache_policy) = policy
+            .as_any()
+            .downcast_ref::<crate::policies::CacheAwarePolicy>()
+        {
+            // Initialize the policy's internal tree with workers
+            cache_policy.init_workers(workers);
+
+            let tree = Arc::new(Mutex::new(Tree::new()));
+
+            {
+                let tree_guard = tree
+                    .lock()
+                    .map_err(|e| format!("Failed to lock tree: {}", e))?;
+                for worker in workers {
+                    tree_guard.insert("", worker.url());
+                }
+            }
+
+            Ok(Some(tree))
+        } else {
+            Ok(None)
+        }
+    }
+
     // Route a typed generate request
     pub async fn route_generate(
         &self,
@@ -329,7 +324,7 @@ impl PDRouter {
         });
 
         // Select servers
-        let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
+        let (prefill, decode) = match self.select_pd_pair(request_text).await {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair error={}", e);
@@ -417,7 +412,7 @@ impl PDRouter {
             .and_then(|content| content.as_str());
 
         // Select servers
-        let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
+        let (prefill, decode) = match self.select_pd_pair(request_text).await {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair error={}", e);
@@ -498,7 +493,7 @@ impl PDRouter {
         };
 
         // Select servers
-        let (prefill, decode) = match self.select_pd_pair(client, request_text).await {
+        let (prefill, decode) = match self.select_pd_pair(request_text).await {
             Ok(pair) => pair,
             Err(e) => {
                 error!("Failed to select PD pair error={}", e);
@@ -833,7 +828,6 @@ impl PDRouter {
     // Select a pair of prefill and decode servers
     async fn select_pd_pair(
         &self,
-        _client: &Client,
         request_text: Option<&str>,
     ) -> Result<(Box<dyn Worker>, Box<dyn Worker>), String> {
         // Get read locks for both worker lists
@@ -998,7 +992,7 @@ impl PDRouter {
         // Note: This endpoint actually causes the model to generate tokens, so we only test one pair
 
         // Select a random worker pair using the policy
-        let (prefill, decode) = match self.select_pd_pair(client, None).await {
+        let (prefill, decode) = match self.select_pd_pair(None).await {
             Ok(pair) => pair,
             Err(e) => {
                 return (
@@ -1921,8 +1915,7 @@ mod tests {
         router.prefill_workers.write().unwrap().push(healthy_worker);
         router.decode_workers.write().unwrap().push(decode_worker);
 
-        let client = reqwest::Client::new();
-        let result = router.select_pd_pair(&client, None).await;
+        let result = router.select_pd_pair(None).await;
 
         assert!(result.is_ok());
         let (prefill, _decode) = result.unwrap();
@@ -1936,8 +1929,7 @@ mod tests {
     async fn test_empty_worker_lists() {
         let router = create_test_pd_router();
 
-        let client = reqwest::Client::new();
-        let result = router.select_pd_pair(&client, None).await;
+        let result = router.select_pd_pair(None).await;
 
         assert!(result.is_err());
         assert!(result.unwrap_err().contains("No prefill workers available"));

From 603f5ce0204f854c7d090c302fe2c86c75f23767 Mon Sep 17 00:00:00 2001
From: Liangsheng Yin <hnyls2002@gmail.com>
Date: Sun, 3 Aug 2025 06:23:11 +0800
Subject: [PATCH 305/396] [Bug] fix green context's incompatibility with `cuda
 < 12.4` (#8701)

---
 sgl-kernel/csrc/spatial/greenctx_stream.cu | 17 +++++++++++++++++
 sgl-kernel/python/sgl_kernel/spatial.py    |  5 +++++
 2 files changed, 22 insertions(+)

diff --git a/sgl-kernel/csrc/spatial/greenctx_stream.cu b/sgl-kernel/csrc/spatial/greenctx_stream.cu
index 9d7a44a1aab3..cf3e7da657c9 100644
--- a/sgl-kernel/csrc/spatial/greenctx_stream.cu
+++ b/sgl-kernel/csrc/spatial/greenctx_stream.cu
@@ -7,6 +7,8 @@
 #include "cuda_utils.h"
 #include "greenctx_stream.h"
 
+#if CUDA_VERSION >= 12040
+
 static std::vector<int64_t> create_greenctx_stream_fallback(CUgreenCtx gctx[2]) {
   CUstream streamA, streamB;
   CUcontext ctx;
@@ -94,3 +96,18 @@ std::vector<int64_t> create_greenctx_stream_by_value(int64_t smA, int64_t smB, i
 
   return vec;
 }
+
+#else
+
+std::vector<int64_t> create_greenctx_stream_by_value(int64_t smA, int64_t smB, int64_t device) {
+  TORCH_CHECK(
+      false,
+      "Green Contexts feature requires CUDA Toolkit 12.4 or newer. Current CUDA version: " +
+          std::to_string(CUDA_VERSION));
+
+  // This is a stub function that should never be reached
+  // Return empty vector to satisfy return type requirement
+  return {};
+}
+
+#endif
diff --git a/sgl-kernel/python/sgl_kernel/spatial.py b/sgl-kernel/python/sgl_kernel/spatial.py
index 8fe2a3dd7853..25490d25314a 100644
--- a/sgl-kernel/python/sgl_kernel/spatial.py
+++ b/sgl-kernel/python/sgl_kernel/spatial.py
@@ -14,6 +14,11 @@ def create_greenctx_stream_by_value(
     Returns:
         tuple[ExternalStream, ExternalStream]: The two streams.
     """
+    if torch.version.cuda < "12.4":
+        raise RuntimeError(
+            "Green Contexts feature requires CUDA Toolkit 12.4 or newer."
+        )
+
     if device_id is None:
         device_id = torch.cuda.current_device()
 

From 0a56b721d5531d674bd332b4d051a75857033e6c Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sat, 2 Aug 2025 16:21:56 -0700
Subject: [PATCH 306/396] chore: bump sgl-kernel v0.2.9 (#8713)

---
 docker/Dockerfile                       | 2 +-
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 5 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index b758ce21381f..d473d13cacf2 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -63,7 +63,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.8/sgl_kernel-0.2.8+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.9/sgl_kernel-0.2.9+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
 # Build and install NVSHMEM + DeepEP
diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index 49ce2a1f61e0..05a5a973402e 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.8"
+version = "0.2.9"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index 8bfa109b15b8..573e61bd530d 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.8"
+version = "0.2.9"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 391b83e92aa1..1bc89651f91c 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.8"
+version = "0.2.9"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index c49a95c35721..75cf7831c499 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.2.8"
+__version__ = "0.2.9"

From 403566bcca66cd892804d0b379fb37cb213e5074 Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sun, 3 Aug 2025 08:08:40 +0800
Subject: [PATCH 307/396] Remove assertions about per group quant fp8 (#8717)

---
 python/sglang/srt/layers/quantization/fp8_kernel.py | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/python/sglang/srt/layers/quantization/fp8_kernel.py b/python/sglang/srt/layers/quantization/fp8_kernel.py
index acde08f8203c..16d1a4d7fd44 100644
--- a/python/sglang/srt/layers/quantization/fp8_kernel.py
+++ b/python/sglang/srt/layers/quantization/fp8_kernel.py
@@ -354,10 +354,6 @@ def sglang_per_token_group_quant_fp8(
     ), "the last dimension of `x` cannot be divisible by `group_size`"
     assert x.is_contiguous(), "`x` is not contiguous"
 
-    if scale_ue8m0:
-        # TODO: handle this case by fixing the (token=4, dim=256, group_size=128) UT case
-        assert x.shape[-1] % (group_size * 4) == 0
-
     x_q = torch.empty_like(x, device=x.device, dtype=fp8_dtype)
     x_s = create_per_token_group_quant_fp8_output_scale(
         x_shape=x.shape,

From e314b084c5dda45283a0017186e91762caff1c62 Mon Sep 17 00:00:00 2001
From: Lianmin Zheng <lianminzheng@gmail.com>
Date: Sat, 2 Aug 2025 18:43:14 -0700
Subject: [PATCH 308/396] [FIX] Fix the nightly CI by disabling swa mem pool
 for gemma2 (#8693)

---
 python/sglang/srt/server_args.py | 6 ++++++
 python/sglang/test/test_utils.py | 6 +++---
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 037505dd78b7..3b52f5801ae8 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1928,6 +1928,12 @@ def check_server_args(self):
         if "Llama4" in model_arch:
             assert self.attention_backend == "fa3", "fa3 is required for Llama4 model"
 
+        if "Gemma2ForCausalLM" in model_arch:
+            # FIXME: https://github.com/sgl-project/sglang/pull/7367 is not compatible with gemma2 model.
+            # It failed at this test: https://github.com/sgl-project/sglang/actions/runs/16255155597/job/45890331952#step:4:736
+            logger.warning("Disable hybrid SWA memory for Gemma2ForCausalLM.")
+            self.disable_hybrid_swa_memory = True
+
         # Check LoRA
         self.check_lora_server_args()
 
diff --git a/python/sglang/test/test_utils.py b/python/sglang/test/test_utils.py
index c155a4d6d728..9002bd0e5ff0 100644
--- a/python/sglang/test/test_utils.py
+++ b/python/sglang/test/test_utils.py
@@ -27,9 +27,6 @@
 
 from sglang.bench_serving import run_benchmark
 from sglang.global_config import global_config
-from sglang.lang.backend.openai import OpenAI
-from sglang.lang.backend.runtime_endpoint import RuntimeEndpoint
-from sglang.lang.interpreter import ProgramState
 from sglang.srt.utils import (
     get_bool_env_var,
     get_device,
@@ -358,6 +355,9 @@ def add_common_sglang_args_and_parse(parser: argparse.ArgumentParser):
 
 
 def select_sglang_backend(args: argparse.Namespace):
+    from sglang.lang.backend.openai import OpenAI
+    from sglang.lang.backend.runtime_endpoint import RuntimeEndpoint
+
     if args.backend.startswith("srt"):
         if args.backend == "srt-no-parallel":
             global_config.enable_parallel_encoding = False

From 8ada1ab6c791c82cf6b476a24818221121b3d799 Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sun, 3 Aug 2025 09:49:47 +0800
Subject: [PATCH 309/396] Fix triton moe error caused by TopK refactor (#8705)

---
 .../fused_moe_triton/triton_kernels_moe.py    | 31 -------------------
 1 file changed, 31 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
index d0f90f2d8fe0..eed33c5e83ef 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
@@ -146,34 +146,3 @@ def triton_kernel_fused_experts(
     )
 
     return intermediate_cache3
-
-
-def triton_kernel_moe_forward_fake(
-    hidden_states: torch.Tensor,
-    w1: torch.Tensor,
-    w2: torch.Tensor,
-    gating_output: torch.Tensor,
-    topk: int,
-    renormalize: bool,
-    inplace: bool = False,
-    activation: str = "silu",
-    apply_router_weight_on_input: bool = False,
-    use_fp8_w8a8: bool = False,
-    per_channel_quant: bool = False,
-    global_num_experts: int = -1,
-    expert_map: Optional[torch.Tensor] = None,
-    w1_scale: Optional[torch.Tensor] = None,
-    w2_scale: Optional[torch.Tensor] = None,
-    a1_scale: Optional[torch.Tensor] = None,
-    a2_scale: Optional[torch.Tensor] = None,
-    block_shape: Optional[list[int]] = None,
-) -> torch.Tensor:
-    return torch.empty_like(hidden_states)
-
-
-direct_register_custom_op(
-    op_name="forward_cuda_triton",
-    op_func=triton_kernel_moe_forward,
-    mutates_args=[],
-    fake_impl=triton_kernel_moe_forward_fake,
-)

From 828a4fe94458bd8626fc807c40e1e08e7ffd53be Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Sat, 2 Aug 2025 19:16:47 -0700
Subject: [PATCH 310/396] [router] Implement HTTP Dependency Injection Pattern
 for Router System (#8714)

---
 sgl-router/src/routers/factory.rs        | 38 +++++-----
 sgl-router/src/routers/mod.rs            | 25 +++----
 sgl-router/src/routers/pd_router.rs      | 86 +++++++++------------
 sgl-router/src/routers/router.rs         | 95 +++++++++++-------------
 sgl-router/src/server.rs                 | 70 +++++++++--------
 sgl-router/src/service_discovery.rs      |  4 +-
 sgl-router/tests/api_endpoints_test.rs   | 11 ++-
 sgl-router/tests/common/mod.rs           | 13 ++++
 sgl-router/tests/common/test_app.rs      | 16 ++--
 sgl-router/tests/request_formats_test.rs | 10 ++-
 sgl-router/tests/streaming_tests.rs      | 10 ++-
 sgl-router/tests/test_pd_routing.rs      |  5 +-
 12 files changed, 197 insertions(+), 186 deletions(-)

diff --git a/sgl-router/src/routers/factory.rs b/sgl-router/src/routers/factory.rs
index b979743672cf..8dc40527a177 100644
--- a/sgl-router/src/routers/factory.rs
+++ b/sgl-router/src/routers/factory.rs
@@ -1,18 +1,20 @@
 //! Factory for creating router instances
 
 use super::{pd_router::PDRouter, router::Router, RouterTrait};
-use crate::config::{PolicyConfig, RouterConfig, RoutingMode};
+use crate::config::{PolicyConfig, RoutingMode};
 use crate::policies::PolicyFactory;
+use crate::server::AppContext;
+use std::sync::Arc;
 
 /// Factory for creating router instances based on configuration
 pub struct RouterFactory;
 
 impl RouterFactory {
-    /// Create a router instance from configuration
-    pub fn create_router(config: &RouterConfig) -> Result<Box<dyn RouterTrait>, String> {
-        match &config.mode {
+    /// Create a router instance from application context
+    pub fn create_router(ctx: &Arc<AppContext>) -> Result<Box<dyn RouterTrait>, String> {
+        match &ctx.router_config.mode {
             RoutingMode::Regular { worker_urls } => {
-                Self::create_regular_router(worker_urls, &config.policy, config)
+                Self::create_regular_router(worker_urls, &ctx.router_config.policy, ctx)
             }
             RoutingMode::PrefillDecode {
                 prefill_urls,
@@ -24,8 +26,8 @@ impl RouterFactory {
                 decode_urls,
                 prefill_policy.as_ref(),
                 decode_policy.as_ref(),
-                &config.policy,
-                config,
+                &ctx.router_config.policy,
+                ctx,
             ),
         }
     }
@@ -34,19 +36,20 @@ impl RouterFactory {
     fn create_regular_router(
         worker_urls: &[String],
         policy_config: &PolicyConfig,
-        router_config: &RouterConfig,
+        ctx: &Arc<AppContext>,
     ) -> Result<Box<dyn RouterTrait>, String> {
         // Create policy
         let policy = PolicyFactory::create_from_config(policy_config);
 
-        // Create regular router with injected policy
+        // Create regular router with injected policy and client
         let router = Router::new(
             worker_urls.to_vec(),
             policy,
-            router_config.worker_startup_timeout_secs,
-            router_config.worker_startup_check_interval_secs,
-            router_config.dp_aware,
-            router_config.api_key.clone(),
+            ctx.client.clone(),
+            ctx.router_config.worker_startup_timeout_secs,
+            ctx.router_config.worker_startup_check_interval_secs,
+            ctx.router_config.dp_aware,
+            ctx.router_config.api_key.clone(),
         )?;
 
         Ok(Box::new(router))
@@ -59,7 +62,7 @@ impl RouterFactory {
         prefill_policy_config: Option<&PolicyConfig>,
         decode_policy_config: Option<&PolicyConfig>,
         main_policy_config: &PolicyConfig,
-        router_config: &RouterConfig,
+        ctx: &Arc<AppContext>,
     ) -> Result<Box<dyn RouterTrait>, String> {
         // Create policies - use specific policies if provided, otherwise fall back to main policy
         let prefill_policy =
@@ -67,14 +70,15 @@ impl RouterFactory {
         let decode_policy =
             PolicyFactory::create_from_config(decode_policy_config.unwrap_or(main_policy_config));
 
-        // Create PD router with separate policies
+        // Create PD router with separate policies and client
         let router = PDRouter::new(
             prefill_urls.to_vec(),
             decode_urls.to_vec(),
             prefill_policy,
             decode_policy,
-            router_config.worker_startup_timeout_secs,
-            router_config.worker_startup_check_interval_secs,
+            ctx.client.clone(),
+            ctx.router_config.worker_startup_timeout_secs,
+            ctx.router_config.worker_startup_check_interval_secs,
         )?;
 
         Ok(Box::new(router))
diff --git a/sgl-router/src/routers/mod.rs b/sgl-router/src/routers/mod.rs
index 21250d5f1dad..75f12c63b342 100644
--- a/sgl-router/src/routers/mod.rs
+++ b/sgl-router/src/routers/mod.rs
@@ -7,7 +7,6 @@ use axum::{
     http::{HeaderMap, StatusCode},
     response::{IntoResponse, Response},
 };
-use reqwest::Client;
 use std::fmt::Debug;
 
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
@@ -46,32 +45,27 @@ pub trait RouterTrait: Send + Sync + Debug + WorkerManagement {
     fn as_any(&self) -> &dyn std::any::Any;
 
     /// Route a health check request
-    async fn health(&self, client: &Client, req: Request<Body>) -> Response;
+    async fn health(&self, req: Request<Body>) -> Response;
 
     /// Route a health generate request
-    async fn health_generate(&self, client: &Client, req: Request<Body>) -> Response;
+    async fn health_generate(&self, req: Request<Body>) -> Response;
 
     /// Get server information
-    async fn get_server_info(&self, client: &Client, req: Request<Body>) -> Response;
+    async fn get_server_info(&self, req: Request<Body>) -> Response;
 
     /// Get available models
-    async fn get_models(&self, client: &Client, req: Request<Body>) -> Response;
+    async fn get_models(&self, req: Request<Body>) -> Response;
 
     /// Get model information
-    async fn get_model_info(&self, client: &Client, req: Request<Body>) -> Response;
+    async fn get_model_info(&self, req: Request<Body>) -> Response;
 
     /// Route a generate request
-    async fn route_generate(
-        &self,
-        client: &Client,
-        headers: Option<&HeaderMap>,
-        body: &GenerateRequest,
-    ) -> Response;
+    async fn route_generate(&self, headers: Option<&HeaderMap>, body: &GenerateRequest)
+        -> Response;
 
     /// Route a chat completion request
     async fn route_chat(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &ChatCompletionRequest,
     ) -> Response;
@@ -79,16 +73,15 @@ pub trait RouterTrait: Send + Sync + Debug + WorkerManagement {
     /// Route a completion request
     async fn route_completion(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &CompletionRequest,
     ) -> Response;
 
     /// Flush cache on all workers
-    async fn flush_cache(&self, client: &Client) -> Response;
+    async fn flush_cache(&self) -> Response;
 
     /// Get worker loads (for monitoring)
-    async fn get_worker_loads(&self, client: &Client) -> Response;
+    async fn get_worker_loads(&self) -> Response;
 
     /// Get router type name
     fn router_type(&self) -> &'static str;
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index d9cbf9bacb1b..b799237a916c 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -35,7 +35,7 @@ pub struct PDRouter {
     pub interval_secs: u64,
     pub worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
     pub load_monitor_handle: Option<Arc<tokio::task::JoinHandle<()>>>,
-    pub http_client: Client,
+    pub client: Client,
     _prefill_health_checker: Option<HealthChecker>,
     _decode_health_checker: Option<HealthChecker>,
 }
@@ -177,6 +177,7 @@ impl PDRouter {
         decode_urls: Vec<String>,
         prefill_policy: Arc<dyn LoadBalancingPolicy>,
         decode_policy: Arc<dyn LoadBalancingPolicy>,
+        client: Client,
         timeout_secs: u64,
         interval_secs: u64,
     ) -> Result<Self, String> {
@@ -215,17 +216,11 @@ impl PDRouter {
         let (tx, rx) = tokio::sync::watch::channel(HashMap::new());
         let worker_loads = Arc::new(rx);
 
-        // Create a shared HTTP client for all operations
-        let http_client = Client::builder()
-            .timeout(Duration::from_secs(timeout_secs))
-            .build()
-            .map_err(|e| format!("Failed to create HTTP client: {}", e))?;
-
         let load_monitor_handle =
             if prefill_policy.name() == "power_of_two" || decode_policy.name() == "power_of_two" {
                 let monitor_urls = all_urls.clone();
                 let monitor_interval = interval_secs;
-                let monitor_client = http_client.clone();
+                let monitor_client = client.clone();
                 let prefill_policy_clone = Arc::clone(&prefill_policy);
                 let decode_policy_clone = Arc::clone(&decode_policy);
 
@@ -264,7 +259,7 @@ impl PDRouter {
             interval_secs,
             worker_loads,
             load_monitor_handle,
-            http_client,
+            client,
             _prefill_health_checker: Some(prefill_health_checker),
             _decode_health_checker: Some(decode_health_checker),
         })
@@ -302,7 +297,6 @@ impl PDRouter {
     // Route a typed generate request
     pub async fn route_generate(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         mut typed_req: GenerateReqInput,
         route: &str,
@@ -371,7 +365,6 @@ impl PDRouter {
 
         // Execute dual dispatch
         self.execute_dual_dispatch(
-            client,
             headers,
             json_with_bootstrap,
             route,
@@ -387,7 +380,6 @@ impl PDRouter {
     // Route a typed chat request
     pub async fn route_chat(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         mut typed_req: ChatReqInput,
         route: &str,
@@ -459,7 +451,6 @@ impl PDRouter {
 
         // Execute dual dispatch
         self.execute_dual_dispatch(
-            client,
             headers,
             json_with_bootstrap,
             route,
@@ -475,7 +466,6 @@ impl PDRouter {
     // Route a completion request while preserving OpenAI format
     pub async fn route_completion(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         mut typed_req: CompletionRequest,
         route: &str,
@@ -540,7 +530,6 @@ impl PDRouter {
 
         // Execute dual dispatch
         self.execute_dual_dispatch(
-            client,
             headers,
             json_with_bootstrap,
             route,
@@ -554,10 +543,8 @@ impl PDRouter {
     }
 
     // Execute the dual dispatch to prefill and decode servers
-    #[allow(clippy::too_many_arguments)]
     async fn execute_dual_dispatch(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         json_request: Value,
         route: &str,
@@ -571,11 +558,13 @@ impl PDRouter {
         let _guard = WorkerLoadGuard::new_multi(vec![prefill, decode]);
 
         // Build requests using .json() method
-        let mut prefill_request = client
+        let mut prefill_request = self
+            .client
             .post(api_path(prefill.url(), route))
             .json(&json_request);
 
-        let mut decode_request = client
+        let mut decode_request = self
+            .client
             .post(api_path(decode.url(), route))
             .json(&json_request);
 
@@ -987,7 +976,7 @@ async fn get_worker_load(client: &reqwest::Client, worker_url: &str) -> Option<i
 
 // PD-specific endpoints
 impl PDRouter {
-    pub async fn health_generate(&self, client: &reqwest::Client) -> Response {
+    pub async fn health_generate(&self) -> Response {
         // Test model generation capability by selecting a random pair and testing them
         // Note: This endpoint actually causes the model to generate tokens, so we only test one pair
 
@@ -1005,11 +994,11 @@ impl PDRouter {
 
         // Test prefill server's health_generate
         let prefill_url = format!("{}/health_generate", prefill.url());
-        let prefill_result = client.get(&prefill_url).send().await;
+        let prefill_result = self.client.get(&prefill_url).send().await;
 
         // Test decode server's health_generate
         let decode_url = format!("{}/health_generate", decode.url());
-        let decode_result = client.get(&decode_url).send().await;
+        let decode_result = self.client.get(&decode_url).send().await;
 
         // Check results
         let mut errors = Vec::new();
@@ -1068,7 +1057,7 @@ impl PDRouter {
         }
     }
 
-    pub async fn get_server_info(&self, client: &reqwest::Client) -> Response {
+    pub async fn get_server_info(&self) -> Response {
         // Get info from the first decode server to match sglang's server info format
         let first_decode_url = if let Ok(workers) = self.decode_workers.read() {
             workers.first().map(|w| w.url().to_string())
@@ -1081,7 +1070,8 @@ impl PDRouter {
         };
 
         if let Some(worker_url) = first_decode_url {
-            match client
+            match self
+                .client
                 .get(format!("{}/get_server_info", worker_url))
                 .send()
                 .await
@@ -1130,7 +1120,7 @@ impl PDRouter {
         }
     }
 
-    pub async fn get_models(&self, client: &reqwest::Client, req: Request<Body>) -> Response {
+    pub async fn get_models(&self, req: Request<Body>) -> Response {
         // Extract headers first to avoid Send issues
         let headers = crate::routers::router::copy_request_headers(&req);
 
@@ -1147,7 +1137,7 @@ impl PDRouter {
 
         if let Some(worker_url) = first_worker_url {
             // Send request directly without going through Router
-            let mut request_builder = client.get(format!("{}/v1/models", worker_url));
+            let mut request_builder = self.client.get(format!("{}/v1/models", worker_url));
             for (name, value) in headers {
                 if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
                 {
@@ -1224,7 +1214,7 @@ impl PDRouter {
         .into_response()
     }
 
-    pub async fn get_model_info(&self, client: &reqwest::Client, req: Request<Body>) -> Response {
+    pub async fn get_model_info(&self, req: Request<Body>) -> Response {
         // Extract headers first to avoid Send issues
         let headers = crate::routers::router::copy_request_headers(&req);
 
@@ -1241,7 +1231,7 @@ impl PDRouter {
         };
 
         if let Some(worker_url) = first_worker_url {
-            let mut request_builder = client.get(format!("{}/get_model_info", worker_url));
+            let mut request_builder = self.client.get(format!("{}/get_model_info", worker_url));
             for (name, value) in headers {
                 if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
                 {
@@ -1384,7 +1374,7 @@ impl RouterTrait for PDRouter {
         self
     }
 
-    async fn health(&self, _client: &Client, _req: Request<Body>) -> Response {
+    async fn health(&self, _req: Request<Body>) -> Response {
         // This is a server readiness check - checking if we have healthy workers
         // Workers handle their own health checks in the background
         let mut all_healthy = true;
@@ -1417,68 +1407,65 @@ impl RouterTrait for PDRouter {
         }
     }
 
-    async fn health_generate(&self, client: &Client, _req: Request<Body>) -> Response {
+    async fn health_generate(&self, _req: Request<Body>) -> Response {
         // Use the existing PDRouter health_generate method
-        PDRouter::health_generate(self, client).await
+        PDRouter::health_generate(self).await
     }
 
-    async fn get_server_info(&self, client: &Client, _req: Request<Body>) -> Response {
+    async fn get_server_info(&self, _req: Request<Body>) -> Response {
         // Use the existing PDRouter get_server_info method
-        PDRouter::get_server_info(self, client).await
+        PDRouter::get_server_info(self).await
     }
 
-    async fn get_models(&self, client: &Client, req: Request<Body>) -> Response {
+    async fn get_models(&self, req: Request<Body>) -> Response {
         // Use the existing PDRouter get_models method
-        PDRouter::get_models(self, client, req).await
+        PDRouter::get_models(self, req).await
     }
 
-    async fn get_model_info(&self, client: &Client, req: Request<Body>) -> Response {
+    async fn get_model_info(&self, req: Request<Body>) -> Response {
         // Use the existing PDRouter get_model_info method
-        PDRouter::get_model_info(self, client, req).await
+        PDRouter::get_model_info(self, req).await
     }
 
     async fn route_generate(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &GenerateRequest,
     ) -> Response {
         // Convert OpenAI format to PD format
         let pd_req = body.clone().to_pd_request();
 
-        PDRouter::route_generate(self, client, headers, pd_req, "/generate").await
+        PDRouter::route_generate(self, headers, pd_req, "/generate").await
     }
 
     async fn route_chat(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &ChatCompletionRequest,
     ) -> Response {
         // Convert OpenAI format to PD format
         let pd_req = body.clone().to_pd_request();
 
-        PDRouter::route_chat(self, client, headers, pd_req, "/v1/chat/completions").await
+        PDRouter::route_chat(self, headers, pd_req, "/v1/chat/completions").await
     }
 
     async fn route_completion(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &CompletionRequest,
     ) -> Response {
         // Use the new method that preserves OpenAI format
-        PDRouter::route_completion(self, client, headers, body.clone(), "/v1/completions").await
+        PDRouter::route_completion(self, headers, body.clone(), "/v1/completions").await
     }
 
-    async fn flush_cache(&self, client: &Client) -> Response {
+    async fn flush_cache(&self) -> Response {
         // Use the existing PDRouter flush_cache method
-        PDRouter::flush_cache(self, client).await
+        PDRouter::flush_cache(self, &self.client).await
     }
 
-    async fn get_worker_loads(&self, client: &Client) -> Response {
+    async fn get_worker_loads(&self) -> Response {
         // Use the existing PDRouter get_loads method
-        PDRouter::get_loads(self, client).await
+        PDRouter::get_loads(self, &self.client).await
     }
 
     fn router_type(&self) -> &'static str {
@@ -1570,7 +1557,7 @@ mod tests {
             interval_secs: 1,
             worker_loads: Arc::new(tokio::sync::watch::channel(HashMap::new()).1),
             load_monitor_handle: None,
-            http_client: reqwest::Client::new(),
+            client: Client::new(),
             _prefill_health_checker: None,
             _decode_health_checker: None,
         }
@@ -1959,11 +1946,10 @@ mod tests {
         router.decode_workers.write().unwrap().push(decode_worker);
 
         // Test health endpoint
-        let client = reqwest::Client::new();
         let http_req = axum::http::Request::builder()
             .body(axum::body::Body::empty())
             .unwrap();
-        let response = router.health(&client, http_req).await;
+        let response = router.health(http_req).await;
 
         assert_eq!(response.status(), 200);
 
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index 41277c17e00f..1a6ddeea4685 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -34,6 +34,7 @@ pub fn copy_request_headers(req: &Request<Body>) -> Vec<(String, String)> {
 pub struct Router {
     workers: Arc<RwLock<Vec<Box<dyn Worker>>>>,
     policy: Arc<dyn LoadBalancingPolicy>,
+    client: Client,
     timeout_secs: u64,
     interval_secs: u64,
     dp_aware: bool,
@@ -44,10 +45,11 @@ pub struct Router {
 }
 
 impl Router {
-    /// Create a new router with injected policy
+    /// Create a new router with injected policy and client
     pub fn new(
         worker_urls: Vec<String>,
         policy: Arc<dyn LoadBalancingPolicy>,
+        client: Client,
         timeout_secs: u64,
         interval_secs: u64,
         dp_aware: bool,
@@ -94,9 +96,17 @@ impl Router {
             let monitor_urls = worker_urls.clone();
             let monitor_interval = interval_secs;
             let policy_clone = Arc::clone(&policy);
+            let client_clone = client.clone();
 
             Some(Arc::new(tokio::spawn(async move {
-                Self::monitor_worker_loads(monitor_urls, tx, monitor_interval, policy_clone).await;
+                Self::monitor_worker_loads(
+                    monitor_urls,
+                    tx,
+                    monitor_interval,
+                    policy_clone,
+                    client_clone,
+                )
+                .await;
             })))
         } else {
             None
@@ -105,6 +115,7 @@ impl Router {
         Ok(Router {
             workers,
             policy,
+            client,
             timeout_secs,
             interval_secs,
             dp_aware,
@@ -245,7 +256,7 @@ impl Router {
         }
     }
 
-    pub async fn send_health_check(&self, client: &Client, worker_url: &str) -> Response {
+    pub async fn send_health_check(&self, worker_url: &str) -> Response {
         let health_url = if self.dp_aware {
             // Need to extract the URL from "http://host:port@dp_rank"
             match Self::extract_dp_rank(worker_url) {
@@ -263,7 +274,7 @@ impl Router {
             worker_url
         };
 
-        let request_builder = client.get(format!("{}/health", health_url));
+        let request_builder = self.client.get(format!("{}/health", health_url));
 
         let response = match request_builder.send().await {
             Ok(res) => {
@@ -305,17 +316,12 @@ impl Router {
     }
 
     // Helper method to proxy GET requests to the first available worker
-    async fn proxy_get_request(
-        &self,
-        client: &Client,
-        req: Request<Body>,
-        endpoint: &str,
-    ) -> Response {
+    async fn proxy_get_request(&self, req: Request<Body>, endpoint: &str) -> Response {
         let headers = copy_request_headers(&req);
 
         match self.select_first_worker() {
             Ok(worker_url) => {
-                let mut request_builder = client.get(format!("{}/{}", worker_url, endpoint));
+                let mut request_builder = self.client.get(format!("{}/{}", worker_url, endpoint));
                 for (name, value) in headers {
                     if name.to_lowercase() != "content-type"
                         && name.to_lowercase() != "content-length"
@@ -353,7 +359,6 @@ impl Router {
         T: crate::openai_api_types::GenerationRequest + serde::Serialize + Clone,
     >(
         &self,
-        client: &reqwest::Client,
         headers: Option<&HeaderMap>,
         typed_req: &T,
         route: &str,
@@ -397,7 +402,6 @@ impl Router {
                 // Send typed request directly
                 let response = self
                     .send_typed_request(
-                        client,
                         headers,
                         typed_req,
                         route,
@@ -413,7 +417,7 @@ impl Router {
                     return response;
                 } else {
                     // if the worker is healthy, it means the request is bad, so return the error response
-                    let health_response = self.send_health_check(client, &worker_url).await;
+                    let health_response = self.send_health_check(&worker_url).await;
                     if health_response.status().is_success() {
                         RouterMetrics::record_request_error(route, "request_failed");
                         return response;
@@ -483,7 +487,6 @@ impl Router {
     // Send typed request directly without conversion
     async fn send_typed_request<T: serde::Serialize>(
         &self,
-        client: &reqwest::Client,
         headers: Option<&HeaderMap>,
         typed_req: &T,
         route: &str,
@@ -536,11 +539,11 @@ impl Router {
                     .into_response();
             }
 
-            client
+            self.client
                 .post(format!("{}{}", worker_url_prefix, route))
                 .json(&json_val)
         } else {
-            client
+            self.client
                 .post(format!("{}{}", worker_url, route))
                 .json(typed_req) // Use json() directly with typed request
         };
@@ -866,7 +869,7 @@ impl Router {
         }
     }
 
-    async fn get_worker_load(&self, client: &reqwest::Client, worker_url: &str) -> Option<isize> {
+    async fn get_worker_load(&self, worker_url: &str) -> Option<isize> {
         let worker_url = if self.dp_aware {
             // Need to extract the URL from "http://host:port@dp_rank"
             let (worker_url_prefix, _dp_rank) = match Self::extract_dp_rank(worker_url) {
@@ -881,7 +884,12 @@ impl Router {
             worker_url
         };
 
-        match client.get(&format!("{}/get_load", worker_url)).send().await {
+        match self
+            .client
+            .get(&format!("{}/get_load", worker_url))
+            .send()
+            .await
+        {
             Ok(res) if res.status().is_success() => match res.bytes().await {
                 Ok(bytes) => match serde_json::from_slice::<serde_json::Value>(&bytes) {
                     Ok(data) => data
@@ -919,18 +927,8 @@ impl Router {
         tx: tokio::sync::watch::Sender<HashMap<String, isize>>,
         interval_secs: u64,
         policy: Arc<dyn LoadBalancingPolicy>,
+        client: Client,
     ) {
-        let client = match reqwest::Client::builder()
-            .timeout(Duration::from_secs(5))
-            .build()
-        {
-            Ok(c) => c,
-            Err(e) => {
-                error!("Failed to create HTTP client for load monitoring: {}", e);
-                return;
-            }
-        };
-
         let mut interval = tokio::time::interval(Duration::from_secs(interval_secs));
 
         loop {
@@ -1028,7 +1026,7 @@ impl RouterTrait for Router {
         self
     }
 
-    async fn health(&self, _client: &Client, _req: Request<Body>) -> Response {
+    async fn health(&self, _req: Request<Body>) -> Response {
         let workers = self.workers.read().unwrap();
         let unhealthy_servers: Vec<_> = workers
             .iter()
@@ -1047,53 +1045,49 @@ impl RouterTrait for Router {
         }
     }
 
-    async fn health_generate(&self, client: &Client, req: Request<Body>) -> Response {
-        self.proxy_get_request(client, req, "health_generate").await
+    async fn health_generate(&self, req: Request<Body>) -> Response {
+        self.proxy_get_request(req, "health_generate").await
     }
 
-    async fn get_server_info(&self, client: &Client, req: Request<Body>) -> Response {
-        self.proxy_get_request(client, req, "get_server_info").await
+    async fn get_server_info(&self, req: Request<Body>) -> Response {
+        self.proxy_get_request(req, "get_server_info").await
     }
 
-    async fn get_models(&self, client: &Client, req: Request<Body>) -> Response {
-        self.proxy_get_request(client, req, "v1/models").await
+    async fn get_models(&self, req: Request<Body>) -> Response {
+        self.proxy_get_request(req, "v1/models").await
     }
 
-    async fn get_model_info(&self, client: &Client, req: Request<Body>) -> Response {
-        self.proxy_get_request(client, req, "get_model_info").await
+    async fn get_model_info(&self, req: Request<Body>) -> Response {
+        self.proxy_get_request(req, "get_model_info").await
     }
 
     async fn route_generate(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &GenerateRequest,
     ) -> Response {
-        self.route_typed_request(client, headers, body, "/generate")
-            .await
+        self.route_typed_request(headers, body, "/generate").await
     }
 
     async fn route_chat(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &ChatCompletionRequest,
     ) -> Response {
-        self.route_typed_request(client, headers, body, "/v1/chat/completions")
+        self.route_typed_request(headers, body, "/v1/chat/completions")
             .await
     }
 
     async fn route_completion(
         &self,
-        client: &Client,
         headers: Option<&HeaderMap>,
         body: &CompletionRequest,
     ) -> Response {
-        self.route_typed_request(client, headers, body, "/v1/completions")
+        self.route_typed_request(headers, body, "/v1/completions")
             .await
     }
 
-    async fn flush_cache(&self, client: &Client) -> Response {
+    async fn flush_cache(&self) -> Response {
         // Get all worker URLs
         let worker_urls = self.get_worker_urls();
 
@@ -1117,7 +1111,7 @@ impl RouterTrait for Router {
             } else {
                 worker_url
             };
-            let request_builder = client.post(format!("{}/flush_cache", worker_url));
+            let request_builder = self.client.post(format!("{}/flush_cache", worker_url));
             tasks.push(request_builder.send());
         }
 
@@ -1142,13 +1136,13 @@ impl RouterTrait for Router {
         }
     }
 
-    async fn get_worker_loads(&self, client: &Client) -> Response {
+    async fn get_worker_loads(&self) -> Response {
         let urls = self.get_worker_urls();
         let mut loads = Vec::new();
 
         // Get loads from all workers
         for url in &urls {
-            let load = self.get_worker_load(client, url).await.unwrap_or(-1);
+            let load = self.get_worker_load(url).await.unwrap_or(-1);
             loads.push(serde_json::json!({
                 "worker": url,
                 "load": load
@@ -1215,6 +1209,7 @@ mod tests {
             interval_secs: 1,
             dp_aware: false,
             api_key: None,
+            client: Client::new(),
             _worker_loads: Arc::new(rx),
             _load_monitor_handle: None,
             _health_checker: None,
diff --git a/sgl-router/src/server.rs b/sgl-router/src/server.rs
index 0463f1f2a6e7..b6027e70bbe8 100644
--- a/sgl-router/src/server.rs
+++ b/sgl-router/src/server.rs
@@ -22,29 +22,34 @@ use tokio::spawn;
 use tracing::{error, info, warn, Level};
 
 #[derive(Clone)]
-pub struct AppState {
-    pub router: Arc<dyn RouterTrait>,
+pub struct AppContext {
     pub client: Client,
-    pub _concurrency_limiter: Arc<tokio::sync::Semaphore>,
+    pub router_config: RouterConfig,
+    pub concurrency_limiter: Arc<tokio::sync::Semaphore>,
+    // Future dependencies can be added here
 }
 
-impl AppState {
+impl AppContext {
     pub fn new(
         router_config: RouterConfig,
         client: Client,
         max_concurrent_requests: usize,
-    ) -> Result<Self, String> {
-        let router = RouterFactory::create_router(&router_config)?;
-        let router = Arc::from(router);
+    ) -> Self {
         let concurrency_limiter = Arc::new(tokio::sync::Semaphore::new(max_concurrent_requests));
-        Ok(Self {
-            router,
+        Self {
             client,
-            _concurrency_limiter: concurrency_limiter,
-        })
+            router_config,
+            concurrency_limiter,
+        }
     }
 }
 
+#[derive(Clone)]
+pub struct AppState {
+    pub router: Arc<dyn RouterTrait>,
+    pub context: Arc<AppContext>,
+}
+
 // Fallback handler for unmatched routes
 async fn sink_handler() -> Response {
     StatusCode::NOT_FOUND.into_response()
@@ -60,23 +65,23 @@ async fn readiness(State(state): State<Arc<AppState>>) -> Response {
 }
 
 async fn health(State(state): State<Arc<AppState>>, req: Request) -> Response {
-    state.router.health(&state.client, req).await
+    state.router.health(req).await
 }
 
 async fn health_generate(State(state): State<Arc<AppState>>, req: Request) -> Response {
-    state.router.health_generate(&state.client, req).await
+    state.router.health_generate(req).await
 }
 
 async fn get_server_info(State(state): State<Arc<AppState>>, req: Request) -> Response {
-    state.router.get_server_info(&state.client, req).await
+    state.router.get_server_info(req).await
 }
 
 async fn v1_models(State(state): State<Arc<AppState>>, req: Request) -> Response {
-    state.router.get_models(&state.client, req).await
+    state.router.get_models(req).await
 }
 
 async fn get_model_info(State(state): State<Arc<AppState>>, req: Request) -> Response {
-    state.router.get_model_info(&state.client, req).await
+    state.router.get_model_info(req).await
 }
 
 // Generation endpoints
@@ -86,10 +91,7 @@ async fn generate(
     headers: http::HeaderMap,
     Json(body): Json<GenerateRequest>,
 ) -> Response {
-    state
-        .router
-        .route_generate(&state.client, Some(&headers), &body)
-        .await
+    state.router.route_generate(Some(&headers), &body).await
 }
 
 async fn v1_chat_completions(
@@ -97,10 +99,7 @@ async fn v1_chat_completions(
     headers: http::HeaderMap,
     Json(body): Json<ChatCompletionRequest>,
 ) -> Response {
-    state
-        .router
-        .route_chat(&state.client, Some(&headers), &body)
-        .await
+    state.router.route_chat(Some(&headers), &body).await
 }
 
 async fn v1_completions(
@@ -108,10 +107,7 @@ async fn v1_completions(
     headers: http::HeaderMap,
     Json(body): Json<CompletionRequest>,
 ) -> Response {
-    state
-        .router
-        .route_completion(&state.client, Some(&headers), &body)
-        .await
+    state.router.route_completion(Some(&headers), &body).await
 }
 
 // Worker management endpoints
@@ -159,11 +155,11 @@ async fn remove_worker(
 }
 
 async fn flush_cache(State(state): State<Arc<AppState>>, _req: Request) -> Response {
-    state.router.flush_cache(&state.client).await
+    state.router.flush_cache().await
 }
 
 async fn get_loads(State(state): State<Arc<AppState>>, _req: Request) -> Response {
-    state.router.get_worker_loads(&state.client).await
+    state.router.get_worker_loads().await
 }
 
 pub struct ServerConfig {
@@ -281,11 +277,21 @@ pub async fn startup(config: ServerConfig) -> Result<(), Box<dyn std::error::Err
         .build()
         .expect("Failed to create HTTP client");
 
-    let app_state = Arc::new(AppState::new(
+    // Create the application context with all dependencies
+    let app_context = Arc::new(AppContext::new(
         config.router_config.clone(),
         client.clone(),
         config.router_config.max_concurrent_requests,
-    )?);
+    ));
+
+    // Create router with the context
+    let router = RouterFactory::create_router(&app_context)?;
+
+    // Create app state with router and context
+    let app_state = Arc::new(AppState {
+        router: Arc::from(router),
+        context: app_context.clone(),
+    });
     let router_arc = Arc::clone(&app_state.router);
 
     // Start the service discovery if enabled
diff --git a/sgl-router/src/service_discovery.rs b/sgl-router/src/service_discovery.rs
index 717370d14025..482952bf767d 100644
--- a/sgl-router/src/service_discovery.rs
+++ b/sgl-router/src/service_discovery.rs
@@ -40,7 +40,6 @@ impl Default for ServiceDiscoveryConfig {
             check_interval: Duration::from_secs(60),
             port: 8000,      // Standard port for modern services
             namespace: None, // None means watch all namespaces
-            // PD mode defaults
             pd_mode: false,
             prefill_selector: HashMap::new(),
             decode_selector: HashMap::new(),
@@ -581,7 +580,8 @@ mod tests {
         use crate::routers::router::Router;
 
         let policy = PolicyFactory::create_from_config(&PolicyConfig::Random);
-        let router = Router::new(vec![], policy, 5, 1, false, None).unwrap();
+        let router =
+            Router::new(vec![], policy, reqwest::Client::new(), 5, 1, false, None).unwrap();
         Arc::new(router) as Arc<dyn RouterTrait>
     }
 
diff --git a/sgl-router/tests/api_endpoints_test.rs b/sgl-router/tests/api_endpoints_test.rs
index 2626174ce8dd..6beda2b7ae9e 100644
--- a/sgl-router/tests/api_endpoints_test.rs
+++ b/sgl-router/tests/api_endpoints_test.rs
@@ -83,12 +83,12 @@ impl TestContext {
             .build()
             .unwrap();
 
-        // Clone config for the closure
-        let config_clone = config.clone();
+        // Create app context
+        let app_context = common::create_test_context(config.clone());
 
         // Create router using sync factory in a blocking context
         let router =
-            tokio::task::spawn_blocking(move || RouterFactory::create_router(&config_clone))
+            tokio::task::spawn_blocking(move || RouterFactory::create_router(&app_context))
                 .await
                 .unwrap()
                 .unwrap();
@@ -1433,9 +1433,12 @@ mod pd_mode_tests {
             cors_allowed_origins: vec![],
         };
 
+        // Create app context
+        let app_context = common::create_test_context(config);
+
         // Create router - this might fail due to health check issues
         let router_result =
-            tokio::task::spawn_blocking(move || RouterFactory::create_router(&config))
+            tokio::task::spawn_blocking(move || RouterFactory::create_router(&app_context))
                 .await
                 .unwrap();
 
diff --git a/sgl-router/tests/common/mod.rs b/sgl-router/tests/common/mod.rs
index 436b57a6cdbf..4ca499e84699 100644
--- a/sgl-router/tests/common/mod.rs
+++ b/sgl-router/tests/common/mod.rs
@@ -1,2 +1,15 @@
 pub mod mock_worker;
 pub mod test_app;
+
+use sglang_router_rs::config::RouterConfig;
+use sglang_router_rs::server::AppContext;
+use std::sync::Arc;
+
+/// Helper function to create AppContext for tests
+pub fn create_test_context(config: RouterConfig) -> Arc<AppContext> {
+    Arc::new(AppContext::new(
+        config.clone(),
+        reqwest::Client::new(),
+        config.max_concurrent_requests,
+    ))
+}
diff --git a/sgl-router/tests/common/test_app.rs b/sgl-router/tests/common/test_app.rs
index d4a001ce3905..7c4cf76ebecf 100644
--- a/sgl-router/tests/common/test_app.rs
+++ b/sgl-router/tests/common/test_app.rs
@@ -3,7 +3,7 @@ use reqwest::Client;
 use sglang_router_rs::{
     config::RouterConfig,
     routers::RouterTrait,
-    server::{build_app, AppState},
+    server::{build_app, AppContext, AppState},
 };
 use std::sync::Arc;
 
@@ -13,13 +13,17 @@ pub fn create_test_app(
     client: Client,
     router_config: &RouterConfig,
 ) -> Router {
-    // Create AppState with the test router
+    // Create AppContext
+    let app_context = Arc::new(AppContext::new(
+        router_config.clone(),
+        client,
+        router_config.max_concurrent_requests,
+    ));
+
+    // Create AppState with the test router and context
     let app_state = Arc::new(AppState {
         router,
-        client,
-        _concurrency_limiter: Arc::new(tokio::sync::Semaphore::new(
-            router_config.max_concurrent_requests,
-        )),
+        context: app_context,
     });
 
     // Configure request ID headers (use defaults if not specified)
diff --git a/sgl-router/tests/request_formats_test.rs b/sgl-router/tests/request_formats_test.rs
index 320ad893edbb..a3cd12edb998 100644
--- a/sgl-router/tests/request_formats_test.rs
+++ b/sgl-router/tests/request_formats_test.rs
@@ -53,10 +53,12 @@ impl TestContext {
 
         config.mode = RoutingMode::Regular { worker_urls };
 
-        let router = tokio::task::spawn_blocking(move || RouterFactory::create_router(&config))
-            .await
-            .unwrap()
-            .unwrap();
+        let app_context = common::create_test_context(config);
+        let router =
+            tokio::task::spawn_blocking(move || RouterFactory::create_router(&app_context))
+                .await
+                .unwrap()
+                .unwrap();
         let router = Arc::from(router);
 
         if !workers.is_empty() {
diff --git a/sgl-router/tests/streaming_tests.rs b/sgl-router/tests/streaming_tests.rs
index b64aa9a4a527..2ef2e0929c7d 100644
--- a/sgl-router/tests/streaming_tests.rs
+++ b/sgl-router/tests/streaming_tests.rs
@@ -54,10 +54,12 @@ impl TestContext {
 
         config.mode = RoutingMode::Regular { worker_urls };
 
-        let router = tokio::task::spawn_blocking(move || RouterFactory::create_router(&config))
-            .await
-            .unwrap()
-            .unwrap();
+        let app_context = common::create_test_context(config);
+        let router =
+            tokio::task::spawn_blocking(move || RouterFactory::create_router(&app_context))
+                .await
+                .unwrap()
+                .unwrap();
         let router = Arc::from(router);
 
         if !workers.is_empty() {
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index aea6df4d35e7..d0877eeb83b3 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -181,7 +181,10 @@ mod test_pd_routing {
             };
 
             // Router creation will fail due to health checks, but config should be valid
-            let result = RouterFactory::create_router(&config);
+            let app_context =
+                sglang_router_rs::server::AppContext::new(config, reqwest::Client::new(), 64);
+            let app_context = std::sync::Arc::new(app_context);
+            let result = RouterFactory::create_router(&app_context);
             assert!(result.is_err());
             let error_msg = result.unwrap_err();
             // Error should be about health/timeout, not configuration

From e273aa6dcf7a8c9068fd2a8ae0f951f3d9accbdb Mon Sep 17 00:00:00 2001
From: DarkSharpness <76582120+DarkSharpness@users.noreply.github.com>
Date: Sat, 2 Aug 2025 19:50:14 -0700
Subject: [PATCH 311/396] [Feature] Radix Tree in C++ (#7369)

---
 python/sglang/srt/managers/scheduler.py       |  18 +-
 .../mem_cache/cpp_radix_tree/.clang-format    |   1 +
 .../srt/mem_cache/cpp_radix_tree/common.h     |  29 ++
 .../mem_cache/cpp_radix_tree/radix_tree.py    | 182 ++++++++++++
 .../srt/mem_cache/cpp_radix_tree/tree_v2.cpp  | 143 +++++++++
 .../srt/mem_cache/cpp_radix_tree/tree_v2.h    |  59 ++++
 .../cpp_radix_tree/tree_v2_binding.cpp        |  32 ++
 .../cpp_radix_tree/tree_v2_debug.cpp          | 194 ++++++++++++
 .../mem_cache/cpp_radix_tree/tree_v2_impl.h   | 276 ++++++++++++++++++
 .../mem_cache/cpp_radix_tree/tree_v2_node.h   | 257 ++++++++++++++++
 .../sglang/srt/mem_cache/radix_cache_cpp.py   | 229 +++++++++++++++
 test/srt/test_cpp_radix_cache.py              |  47 +++
 12 files changed, 1466 insertions(+), 1 deletion(-)
 create mode 120000 python/sglang/srt/mem_cache/cpp_radix_tree/.clang-format
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/common.h
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/radix_tree.py
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.cpp
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.h
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_binding.cpp
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_debug.cpp
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_impl.h
 create mode 100644 python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_node.h
 create mode 100644 python/sglang/srt/mem_cache/radix_cache_cpp.py
 create mode 100644 test/srt/test_cpp_radix_cache.py

diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 57f12dbe0490..d2298cf38123 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -569,7 +569,23 @@ def init_memory_pool_and_cache(self):
                 page_size=self.page_size,
             )
         else:
-            if self.enable_hierarchical_cache:
+            if os.environ.get("SGLANG_EXPERIMENTAL_CPP_RADIX_TREE") == "1":
+                # lazy import to avoid JIT overhead
+                from sglang.srt.mem_cache.radix_cache_cpp import RadixCacheCpp
+
+                self.tree_cache = RadixCacheCpp(
+                    disable=False,
+                    use_hicache=self.enable_hierarchical_cache,
+                    req_to_token_pool=self.req_to_token_pool,
+                    token_to_kv_pool=self.token_to_kv_pool_allocator,
+                    tp_cache_group=self.tp_cpu_group,
+                    page_size=self.page_size,
+                    hicache_ratio=server_args.hicache_ratio,
+                    hicache_size=server_args.hicache_size,
+                    hicache_write_policy=server_args.hicache_write_policy,
+                    enable_kv_cache_events=self.enable_kv_cache_events,
+                )
+            elif self.enable_hierarchical_cache:
                 self.tree_cache = HiRadixCache(
                     req_to_token_pool=self.req_to_token_pool,
                     token_to_kv_pool_allocator=self.token_to_kv_pool_allocator,
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/.clang-format b/python/sglang/srt/mem_cache/cpp_radix_tree/.clang-format
new file mode 120000
index 000000000000..5a7a8cea7bb0
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/.clang-format
@@ -0,0 +1 @@
+../../../../../sgl-kernel/.clang-format
\ No newline at end of file
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/common.h b/python/sglang/srt/mem_cache/cpp_radix_tree/common.h
new file mode 100644
index 000000000000..72c2c78be584
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/common.h
@@ -0,0 +1,29 @@
+#pragma once
+#include <cstddef>
+#include <cstdint>
+#include <source_location>
+#include <span>
+#include <stdexcept>
+#include <string>
+#include <vector>
+
+namespace radix_tree_v2 {
+
+using token_t = std::int32_t;
+using token_vec_t = std::vector<token_t>;
+using token_slice = std::span<const token_t>;
+using NodeHandle = std::size_t;
+using IOTicket = std::uint32_t;
+
+inline void _assert(
+    bool condition,
+    const char* message = "Assertion failed",
+    std::source_location loc = std::source_location::current()) {
+  if (!condition) [[unlikely]] {
+    std::string msg = message;
+    msg = msg + " at " + loc.file_name() + ":" + std::to_string(loc.line()) + " in " + loc.function_name();
+    throw std::runtime_error(msg);
+  }
+}
+
+}  // namespace radix_tree_v2
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/radix_tree.py b/python/sglang/srt/mem_cache/cpp_radix_tree/radix_tree.py
new file mode 100644
index 000000000000..592727aac45f
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/radix_tree.py
@@ -0,0 +1,182 @@
+from __future__ import annotations
+
+import os
+from typing import TYPE_CHECKING, List, Optional, Tuple
+
+import torch
+from torch.utils.cpp_extension import load
+
+_abs_path = os.path.dirname(os.path.abspath(__file__))
+radix_tree_cpp = load(
+    name="radix_tree_cpp",
+    sources=[
+        f"{_abs_path}/tree_v2_binding.cpp",
+        f"{_abs_path}/tree_v2_debug.cpp",
+        f"{_abs_path}/tree_v2.cpp",
+    ],
+    extra_cflags=["-O3", "-std=c++20"],
+)
+
+if TYPE_CHECKING:
+
+    class TreeNodeCpp:
+        """
+        A placeholder for the TreeNode class. Cannot be constructed elsewhere.
+        """
+
+    class IOHandle:
+        """
+        A placeholder for the IOHandle class. Cannot be constructed elsewhere.
+        """
+
+    class RadixTreeCpp:
+        def __init__(
+            self,
+            disabled: bool,
+            host_size: Optional[int],
+            page_size: int,
+            write_through_threshold: int,
+        ):
+            """
+            Initializes the RadixTreeCpp instance.
+            Args:
+                disabled (bool): If True, the radix tree is disabled.
+                host_size (Optional[int]): Size of the radix tree on the CPU. None means no CPU tree.
+                page_size (int): Size of the page for the radix tree.
+                write_through_threshold (int): Threshold for writing through from GPU to CPU.
+            """
+            self.tree = radix_tree_cpp.RadixTree(  # type: ignore
+                disabled, host_size, page_size, write_through_threshold
+            )
+
+        def match_prefix(
+            self, prefix: List[int]
+        ) -> Tuple[List[torch.Tensor], int, TreeNodeCpp, TreeNodeCpp]:
+            """
+            Matches a prefix in the radix tree.
+            Args:
+                prefix (List[int]): The prefix to match.
+            Returns:
+                Tuple[List[torch.Tensor], TreeNodeCpp, TreeNodeCpp]:
+                    0. A list of indices that is matched by the prefix on the GPU.
+                    1. Sum length of the indices matched on the CPU.
+                    2. The last node of the prefix matched on the GPU.
+                    3. The last node of the prefix matched on the CPU.
+            """
+            return self.tree.match_prefix(prefix)
+
+        def evict(self, num_tokens: int) -> List[torch.Tensor]:
+            """
+            Evicts a number of tokens from the radix tree.
+            Args:
+                num_tokens (int): The number of tokens to evict.
+            Returns:
+                List[torch.Tensor]: A list of indices that were evicted.
+            """
+            return self.tree.evict(num_tokens)
+
+        def lock_ref(self, handle: TreeNodeCpp, lock: bool) -> None:
+            """
+            Locks or unlocks a reference to a tree node.
+            After locking, the node will not be evicted from the radix tree.
+            Args:
+                handle (TreeNodeCpp): The tree node to lock or unlock.
+                lock (bool): If True, locks the node; if False, unlocks it.
+            """
+            return self.tree.lock_ref(handle, lock)
+
+        def writing_through(
+            self, key: List[int], indices: torch.Tensor
+        ) -> Tuple[List[Tuple[IOHandle, torch.Tensor, torch.Tensor]], int]:
+            """
+            Inserts a key-value pair into the radix tree and perform write-through check.
+            Args:
+                key (List[int]): The key to insert.
+                indices (torch.Tensor): The value associated with the key.
+            Returns:
+                Tuple[List[Tuple[IOHandle, torch.Tensor, torch.Tensor]], int]:
+                    0. A list of (IOHandle, device indices, host indices) tuples.
+                       These IOhandles require write-through to the CPU in python side.
+                    1. The number of indices that are matched on device.
+            """
+            return self.tree.writing_through(key, indices)
+
+        def loading_onboard(
+            self,
+            host_node: TreeNodeCpp,
+            new_device_indices: torch.Tensor,
+        ) -> Tuple[IOHandle, List[torch.Tensor]]:
+            """
+            Updates the device indices of tree nodes within a range on the tree.
+            Args:
+                host_node (TreeNodeCpp): The tree node on the host, must be descendant of device_node.
+                new_device_indices (torch.Tensor): The new device indices to set.
+                    The length of this tensor must be exactly host indices length.
+            Returns:
+                Tuple[IOHandle, List[torch.Tensor]]:
+                    0. An IOHandle that requires loading to the CPU in python side.
+                    1. A list of host indices corresponding to the new device indices.
+            """
+            return self.tree.loading_onboard(host_node, new_device_indices)
+
+        def commit_writing_through(self, handle: IOHandle, success: bool) -> None:
+            """
+            Commits the write-through process for a tree node.
+            Args:
+                handle (IOHandle): The IOHandle to commit.
+                success (bool): If True, commits the write-through; if False, just indicates failure.
+            """
+            return self.tree.commit_writing_through(handle, success)
+
+        def commit_loading_onboard(self, handle: IOHandle, success: bool) -> None:
+            """
+            Commits the load onboard process for tree nodes within a range on the tree.
+            Args:
+                handle (IOHandle): The IOHandle to commit.
+                success (bool): If True, commits the load-onboard; if False, just indicates failure.
+            """
+            return self.tree.commit_loading_onboard(handle, success)
+
+        def evictable_size(self) -> int:
+            """
+            Returns the size of the evictable part of the radix tree.
+            This is the size of the part that can be evicted from the GPU (ref_count = 0).
+            Returns:
+                int: The size of the evictable part.
+            """
+            return self.tree.evictable_size()
+
+        def protected_size(self) -> int:
+            """
+            Returns the size of the protected part of the radix tree.
+            This is the size of the part that cannot be evicted from the GPU (ref_count > 0).
+            Returns:
+                int: The size of the protected part.
+            """
+            return self.tree.protected_size()
+
+        def total_size(self) -> int:
+            """
+            Returns the total size of the radix tree (including CPU nodes).
+            Returns:
+                int: The total size of the radix tree.
+            """
+            return self.tree.total_size()
+
+        def reset(self) -> None:
+            """
+            Resets the radix tree, clearing all nodes and indices.
+            """
+            return self.tree.reset()
+
+        def debug_print(self) -> None:
+            """
+            Prints the internal state of the radix tree for debugging purposes.
+            """
+            return self.tree.debug_print()
+
+else:
+    # Real implementation of the classes for runtime
+    RadixTreeCpp = radix_tree_cpp.RadixTree
+    TreeNodeCpp = object
+    IOHandle = object
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.cpp b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.cpp
new file mode 100644
index 000000000000..2a5433221873
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.cpp
@@ -0,0 +1,143 @@
+#include "tree_v2.h"
+
+#include <ATen/core/TensorBody.h>
+#include <ATen/ops/empty.h>
+#include <ATen/ops/tensor.h>
+#include <ATen/ops/zeros.h>
+#include <c10/util/irange.h>
+
+#include <cstddef>
+#include <memory>
+#include <queue>
+#include <stdexcept>
+#include <utility>
+#include <vector>
+
+#include "common.h"
+#include "tree_v2_impl.h"
+#include "tree_v2_node.h"
+
+namespace radix_tree_v2 {
+
+static NodeHandle node2id(TreeNode* node) {
+  return node->node_id;
+}
+
+// compare function for the TreeNode pointers based on their time
+// we use LRU, so we want to evict the least recently used nodes
+// since std::priority_queue is a max-heap, we need to reverse the comparison
+static constexpr auto cmp = [](TreeNode* lhs, TreeNode* rhs) { return lhs->time() > rhs->time(); };
+
+RadixTree::RadixTree(bool disabled, std::optional<std::size_t> host_size, std::size_t page_size, std::size_t threshold)
+    : m_impl(std::make_unique<Impl>(disabled, host_size.has_value(), page_size, host_size.value_or(0), threshold)) {}
+
+RadixTree::~RadixTree() = default;
+
+std::tuple<std::vector<at::Tensor>, std::size_t, NodeHandle, NodeHandle>
+RadixTree::match_prefix(const token_vec_t& _key) {
+  if (m_impl->disabled) return {};
+
+  const auto key = token_slice{_key.data(), m_impl->align(_key.size())};
+  const auto [host_node, _] = m_impl->tree_walk(key);
+
+  // walk up to the first non-evicted node
+  std::size_t host_hit_length = 0;
+  const auto device_node = host_node;
+
+  // collect all the device indices
+  std::vector<at::Tensor> indices{};
+  walk_to_root(device_node, [&](TreeNode* n) { indices.push_back(n->device_indices()); });
+  std::reverse(indices.begin(), indices.end());
+
+  return {std::move(indices), host_hit_length, node2id(device_node), node2id(host_node)};
+}
+
+std::vector<at::Tensor> RadixTree::evict(std::size_t num_tokens) {
+  if (m_impl->disabled || num_tokens == 0) return {};
+  auto heap = std::priority_queue{cmp, m_impl->collect_leaves_device()};
+  std::vector<at::Tensor> evicted_values;
+  // evict nodes until we reach the desired number of tokens
+  std::size_t num_evict = 0;
+  while (num_evict < num_tokens && !heap.empty()) {
+    const auto node = heap.top();
+    heap.pop();
+    // when ref_count == 0, can't be writing through
+    _assert(node->on_gpu() && node->ref_count == 0);
+    if (!node->is_io_free()) continue;  // skip nodes that are undergoing IO (i.e. indices protected)
+    evicted_values.push_back(node->device_indices());
+    num_evict += node->length();
+    const auto parent = node->parent();
+    m_impl->remove_device_node(node);
+    if (parent->is_leaf_device() && parent->ref_count == 0)
+      heap.push(parent);  // push parent to the heap if it is now a free leaf
+  }
+
+  return evicted_values;
+}
+
+std::tuple<std::vector<std::tuple<IOTicket, at::Tensor, at::Tensor>>, std::size_t>
+RadixTree::writing_through(const token_vec_t& _key, at::Tensor value) {
+  if (m_impl->disabled) return {};
+  _assert(_key.size() == std::size_t(value.size(0)), "Key and value must have the same size");
+
+  // just align the key to the page size, clip the unaligned tail
+  const auto key = token_slice{_key.data(), m_impl->align(_key.size())};
+
+  // walk the tree to find the right place to insert
+  const auto [host_node, host_prefix_length] = m_impl->tree_walk(key);
+
+  // insert and create a new node if the remaining part of the key is not empty
+  if (host_prefix_length != key.size()) {
+    m_impl->create_device_node(
+        host_node,
+        {key.begin() + host_prefix_length, key.end()},
+        value.slice(/*dim=*/0, host_prefix_length, key.size()));
+  }
+
+  // add the hit count for the device node
+  walk_to_root(host_node, [&](TreeNode* n) { n->hit_count++; });
+
+  std::vector<std::tuple<IOTicket, at::Tensor, at::Tensor>> result;
+
+  // don't write through if hicache is disabled (no host memory), fast path
+  if (!m_impl->use_hicache) return {std::move(result), host_prefix_length};
+  throw std::runtime_error("Not implemented yet");
+}
+
+std::tuple<IOTicket, std::vector<at::Tensor>> RadixTree::loading_onboard(NodeHandle, at::Tensor) {
+  if (m_impl->disabled) return {};
+  throw std::runtime_error("Not implemented yet");
+}
+
+void RadixTree::commit_writing_through(IOTicket, bool) {
+  if (m_impl->disabled) return;
+  throw std::runtime_error("Not implemented yet");
+}
+
+void RadixTree::commit_loading_onboard(IOTicket, bool) {
+  if (m_impl->disabled) return;
+  throw std::runtime_error("Not implemented yet");
+}
+
+void RadixTree::reset() {
+  m_impl->reset();
+}
+
+void RadixTree::lock_ref(NodeHandle node_id, bool increment) {
+  if (m_impl->disabled) return;
+  m_impl->lock_ref(node_id, increment);
+}
+
+std::size_t RadixTree::evictable_size() const {
+  return m_impl->evictable_size();
+}
+
+std::size_t RadixTree::protected_size() const {
+  return m_impl->protected_size();
+}
+
+std::size_t RadixTree::total_size() const {
+  return m_impl->total_size();
+}
+
+}  // namespace radix_tree_v2
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.h b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.h
new file mode 100644
index 000000000000..68da9b9e179d
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2.h
@@ -0,0 +1,59 @@
+#pragma once
+#include <ATen/core/TensorBody.h>
+#include <c10/core/Device.h>
+
+#include <cstddef>
+#include <memory>
+#include <optional>
+#include <tuple>
+#include <vector>
+
+#include "common.h"
+
+namespace radix_tree_v2 {
+
+struct RadixTree {
+ public:
+  RadixTree(bool disabled, std::optional<std::size_t> host_size, std::size_t page_size, std::size_t threshold);
+  ~RadixTree();
+
+  // Trees should not be copied or moved, as they manage their own memory and state.
+  RadixTree(const RadixTree&) = delete;
+  RadixTree(RadixTree&&) = delete;
+  RadixTree& operator=(const RadixTree&) = delete;
+  RadixTree& operator=(RadixTree&&) = delete;
+
+  /// @return (device indices that are matched, host indices length, device node, host node)
+  std::tuple<std::vector<at::Tensor>, std::size_t, NodeHandle, NodeHandle> match_prefix(const token_vec_t& key);
+  /// @return Device indices that need to be evicted (on python side).
+  std::vector<at::Tensor> evict(std::size_t num_tokens);
+  /// @brief (Un-)Lock a node.
+  void lock_ref(NodeHandle node_id, bool increment /* increment or decrement */);
+  /// @brief Update new key-value pair and try to perform write-through.
+  std::tuple<std::vector<std::tuple<IOTicket, at::Tensor, at::Tensor>>, std::size_t>
+  writing_through(const token_vec_t& key, at::Tensor value);
+  /// @brief Load to device from host within a range of nodes.
+  std::tuple<IOTicket, std::vector<at::Tensor>> loading_onboard(NodeHandle host_id, at::Tensor indices);
+  /// @brief Commit a transaction of write-through.
+  void commit_writing_through(IOTicket ticket, bool success);
+  /// @brief Commit a transaction of load onboard.
+  void commit_loading_onboard(IOTicket ticket, bool success);
+  /// @brief Clear and reset the tree.
+  void reset();
+
+  /// @return How many size are still evictable (on device + not locked).
+  std::size_t evictable_size() const;
+  /// @return How many size are protected (locked).
+  std::size_t protected_size() const;
+  /// @return How many size are used on device.
+  std::size_t total_size() const;
+
+  /// @brief Print debug information of the tree.
+  void debug_print() const;
+
+ private:
+  struct Impl;
+  std::unique_ptr<Impl> m_impl;
+};
+
+}  // namespace radix_tree_v2
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_binding.cpp b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_binding.cpp
new file mode 100644
index 000000000000..81069e4fe4d2
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_binding.cpp
@@ -0,0 +1,32 @@
+#include <pybind11/pybind11.h>
+#include <pybind11/stl.h>
+#include <torch/extension.h>
+
+#include <cstddef>
+#include <optional>
+
+#include "tree_v2.h"
+
+PYBIND11_MODULE(radix_tree_cpp, m) {
+  using namespace radix_tree_v2;
+  namespace py = pybind11;
+  py::class_<RadixTree>(m, "RadixTree")
+      .def(
+          py::init<bool, std::optional<std::size_t>, std::size_t, std::size_t>(),
+          py::arg("disabled"),
+          py::arg("host_size"),
+          py::arg("page_size"),
+          py::arg("write_through_threshold"))
+      .def("match_prefix", &RadixTree::match_prefix)
+      .def("evict", &RadixTree::evict)
+      .def("lock_ref", &RadixTree::lock_ref)
+      .def("evictable_size", &RadixTree::evictable_size)
+      .def("protected_size", &RadixTree::protected_size)
+      .def("total_size", &RadixTree::total_size)
+      .def("writing_through", &RadixTree::writing_through)
+      .def("loading_onboard", &RadixTree::loading_onboard)
+      .def("commit_writing_through", &RadixTree::commit_writing_through)
+      .def("commit_loading_onboard", &RadixTree::commit_loading_onboard)
+      .def("reset", &RadixTree::reset)
+      .def("debug_print", &RadixTree::debug_print);
+}
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_debug.cpp b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_debug.cpp
new file mode 100644
index 000000000000..89b6290b1f87
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_debug.cpp
@@ -0,0 +1,194 @@
+#include <c10/core/DeviceType.h>
+#include <c10/core/MemoryFormat.h>
+#include <c10/core/ScalarType.h>
+
+#include <cstddef>
+#include <cstdlib>
+#include <iostream>
+#include <stdexcept>
+#include <string>
+
+#include "tree_v2.h"
+#include "tree_v2_impl.h"
+
+namespace radix_tree_v2 {
+
+void RadixTree::debug_print() const {
+  m_impl->debug_print(std::clog);
+}
+
+static constexpr auto npos = std::size_t(-1);
+
+void RadixTree::Impl::debug_print(std::ostream& os) const {
+  static constexpr auto _check = [](bool condition, auto msg, std::size_t id = npos) {
+    if (!condition) {
+      std::string suffix = id == npos ? "" : " [id = " + std::to_string(id) + "]";
+      throw std::runtime_error(std::string("RadixTree::debug_print failed: ") + msg + suffix);
+    }
+  };
+
+  static constexpr auto _print_node = [](TreeNode* node, std::size_t depth, std::ostream& os) {
+    const auto length = node->length();
+    os << node->node_id << " [depth = " << depth << "] [len = " << length << "]";
+
+    // placement status
+    if (node->on_both()) {
+      os << " [cpu + gpu]";
+    } else if (node->on_gpu()) {
+      os << " [gpu]";
+    } else if (node->on_cpu()) {
+      os << " [cpu]";
+    } else {
+      _check(false, "Node is not on GPU or CPU", node->node_id);
+    }
+
+    // IO status
+    if (node->is_io_free()) {
+      os << " [io = free]";
+    } else if (node->is_io_device_to_host()) {
+      os << " [io = gpu -> cpu]";
+    } else if (node->is_io_host_to_device()) {
+      os << " [io = cpu -> gpu]";
+    } else {
+      _check(false, "Node is in unknown IO state", node->node_id);
+    }
+
+    os << " [rc = " << node->ref_count << "]";
+    os << " [hit = " << node->hit_count << "]";
+  };
+
+  static constexpr auto _print_indices = [](at::Tensor indices, std::ostream& os) {
+    if (!indices.defined()) {
+      os << "[[N/A]]";
+      return indices;
+    }
+    indices = indices.to(c10::kCPU, c10::kLong, false, false, c10::MemoryFormat::Contiguous);
+    const auto length = indices.numel();
+    os << "[";
+    auto* data_ptr = indices.data_ptr<int64_t>();
+    for (const auto i : c10::irange(indices.size(0))) {
+      os << data_ptr[i];
+      if (i != length - 1) os << ", ";
+    }
+    os << "]";
+    return indices;
+  };
+
+  os << "Evictable size: " << evictable_size() << std::endl;
+  os << "Protected size: " << protected_size() << std::endl;
+  os << "Total size: " << const_cast<Impl*>(this)->total_size() << std::endl;
+  std::vector<std::tuple<TreeNode*, TreeNode*, token_slice>> stack;
+  auto root = const_cast<TreeNode*>(&m_root);
+  os << root->node_id << " [root]" << std::endl;
+  for (const auto& [key, child] : *root) {
+    stack.push_back({child.get(), root, key});
+  }
+
+  std::unordered_map<TreeNode*, std::size_t> depth_map;
+  std::string indent_buffer;
+  depth_map[root] = 0;
+  std::vector<NodeHandle> visited_id;
+  std::size_t evictable_size_real = 0;
+  while (!stack.empty()) {
+    const auto [node, parent, key] = stack.back();
+    stack.pop_back();
+    visited_id.push_back(node->node_id);
+    const auto nid = node->node_id;
+    _check(node != nullptr, "Node is null", nid);
+    _check(node->on_gpu() || node->on_cpu(), "Node is not on GPU or CPU", nid);
+    _check(node->parent() == parent, "Parent is not correct", nid);
+    _check(key.size() == page_size && node->diff_key(key, 0) == page_size, "Key is not correct", nid);
+    _check(depth_map.count(node) == 0, "Node is visited twice", nid);
+    _check(m_node_map.count(nid) == 1, "Node is not in the map", nid);
+    _check(m_node_map.at(nid) == node, "Node in the map is not the same as the one in the stack", nid);
+    _check(!node->on_gpu() || parent->is_root() || parent->on_gpu(), "Node on GPU must have a GPU/root parent", nid);
+    if (!node->is_io_free()) {
+      _check(node->ref_count > 0, "Node is in IO state but not protected", nid);
+      _check(node->on_both(), "Node in IO state must be on both CPU and GPU", nid);
+    }
+
+    if (node->on_gpu() && node->ref_count == 0) {
+      evictable_size_real += node->length();
+    }
+
+    const auto depth = (depth_map[node] = depth_map[parent] + 1);
+    indent_buffer.resize(depth * 2, ' ');
+    os << indent_buffer;
+    _print_node(node, depth, os);
+    os << std::endl;
+    for (const auto& [key, child] : *node) {
+      stack.push_back({child.get(), node, key});
+    }
+  }
+
+  _check(evictable_size_real == evictable_size(), "Evictable size is wrong");
+  _check(m_node_map.count(root->node_id) == 1, "Root node is not in the map");
+  _check(m_node_map.at(root->node_id) == root, "Root node in the map is not correct");
+
+  std::sort(visited_id.begin(), visited_id.end());
+  if (visited_id.size() != m_node_map.size() - 1) {
+    // Some error in the tree, not all nodes are visited
+    std::string id_list;
+    id_list += "(visited: ";
+    id_list += std::to_string(root->node_id) + " ";
+    for (const auto& id : visited_id) {
+      id_list += std::to_string(id) + " ";
+    }
+    id_list += "), (in map: ";
+    for (const auto& [id, _] : m_node_map) {
+      id_list += std::to_string(id) + " ";
+    }
+    id_list += ")";
+    _check(false, "Not all nodes are visited " + id_list);
+  }
+
+  static const auto kSGLANG_RADIX_CPP_DEBUG_LIMIT = [] {
+    const char* env = std::getenv("SGLANG_RADIX_CPP_DEBUG_LIMIT");
+    const std::size_t default_limit = 16;
+    if (env != nullptr) {
+      try {
+        return static_cast<std::size_t>(std::stoull(env));
+      } catch (const std::exception& e) {
+        std::cerr << "Invalid SGLANG_RADIX_CPP_DEBUG_LIMIT value: " << env  //
+                  << ". Using default value =" << default_limit << std::endl;
+      }
+    }
+    return default_limit;
+  }();
+
+  for (const auto nid : visited_id) {
+    const auto node = m_node_map.at(nid);
+    // print key and indices
+    const auto& key = node->_unsafe_tokens();
+    if (key.size() > kSGLANG_RADIX_CPP_DEBUG_LIMIT) {
+      os << "Node " << nid << ": key is too long (" << key.size() << " tokens), skipping..." << std::endl;
+      continue;
+    }
+    os << "Node " << nid << ": key = [";
+    for (const auto& i : c10::irange(key.size())) {
+      os << key[i];
+      if (i != key.size() - 1) os << ", ";
+    }
+
+    _check(key.size() % page_size == 0, "Misaligned key", nid);
+
+    os << "] device_indices = ";
+    const auto device_indices = _print_indices(node->device_indices(), os);
+    if (device_indices.defined()) {
+      std::size_t length = device_indices.numel();
+      _check(device_indices.dim() == 1, "Device indices must be 1D tensor", nid);
+      _check(length == node->length(), "Wrong device indices size", nid);
+    }
+
+    os << " host_indices = ";
+    const auto host_indices = _print_indices(node->host_indices(), os);
+    if (host_indices.defined()) {
+      std::size_t length = host_indices.numel();
+      _check(host_indices.dim() == 1, "Host indices must be 1D tensor", nid);
+      _check(length == node->length(), "Wrong host indices size", nid);
+    }
+    os << std::endl;
+  }
+}
+
+}  // namespace radix_tree_v2
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_impl.h b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_impl.h
new file mode 100644
index 000000000000..cb9f9dde5020
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_impl.h
@@ -0,0 +1,276 @@
+#pragma once
+#include <c10/util/irange.h>
+
+#include <chrono>
+#include <cstddef>
+#include <iosfwd>
+#include <memory>
+#include <unordered_map>
+#include <utility>
+#include <vector>
+
+#include "common.h"
+#include "tree_v2.h"
+#include "tree_v2_node.h"
+
+namespace radix_tree_v2 {
+
+using node_iterator_t = typename TreeNode::iterator_t;
+
+struct RadixTree::Impl {
+ public:
+  Impl(bool disabled, bool use_hicache, std::size_t page_size, std::size_t host_size, std::size_t threshold)
+      : m_root(/*node_id_=*/0),
+        m_evictable_size(0),
+        m_protected_size(0),
+        m_cached_vec(),
+        m_node_map(),
+        m_node_counter(1),  // start from 1 to avoid confusion with root node
+        disabled(disabled),
+        use_hicache(use_hicache),
+        page_size(page_size),
+        threshold(threshold) {
+    _assert(page_size > 0, "Page size must be greater than zero");
+    _assert(use_hicache == (host_size > 0), "Hierarchical cache is enabled iff host size > 0");
+    m_root.ref_count = 1;                  // root node is always protected
+    m_cached_vec.reserve(page_size);       // to avoid repeated allocations
+    m_node_map[m_root.node_id] = &m_root;  // add root to the map
+  }
+
+  TreeNode* split_node(node_iterator_t iterator, std::size_t prefix_length) {
+    // from `parent -> old_node` to `parent-> new_node -> old_node`
+    // the prefix part of the old node is moved to the new node
+    auto old_node_ptr = std::move(iterator->second);
+    auto new_node_ptr = std::make_unique<TreeNode>(m_node_counter++);
+    auto* old_node = old_node_ptr.get();
+    auto* new_node = new_node_ptr.get();
+    auto* parent = old_node->parent();
+    // set up data structures
+    split_prefix(new_node, old_node, prefix_length);
+    // set up parent-child relationship
+    add_child(new_node, std::move(old_node_ptr));
+    add_child(parent, std::move(new_node_ptr), iterator);
+    m_node_map[new_node->node_id] = new_node;  // add to the map
+    return new_node;
+  }
+
+  // node: x -> [GPU]
+  TreeNode* create_device_node(TreeNode* parent, token_vec_t vec, at::Tensor indices) {
+    auto new_node_ptr = std::make_unique<TreeNode>(m_node_counter++);
+    auto new_node = new_node_ptr.get();
+    new_node_ptr->_unsafe_tokens() = std::move(vec);
+    new_node_ptr->_unsafe_device_indices() = std::move(indices);
+    m_evictable_size += new_node_ptr->length();
+    add_child(parent, std::move(new_node_ptr));
+    m_node_map[new_node->node_id] = new_node;  // add to the map
+    return new_node;
+  }
+
+  // node: [GPU] -> x
+  void remove_device_node(TreeNode* node) {
+    _assert(node->on_gpu_only() && node->ref_count == 0);
+    m_evictable_size -= node->length();
+    node->parent()->erase_child(get_key(node));
+    m_node_map.erase(node->node_id);  // remove from the map
+  }
+
+  /**
+   * @brief Walk the tree to find the node that matches the key.
+   * If the key partially matches a node, it will split that node.
+   * @return A pair containing the last node that matches the key and
+   * the total prefix length matched (on gpu and cpu) so far.
+   */
+  std::pair<TreeNode*, std::size_t> tree_walk(token_slice key) {
+    _assert(key.size() % page_size == 0, "Key should be page-aligned");
+
+    std::size_t total_prefix_length = 0;
+    TreeNode* node = &m_root;
+
+    const auto now = std::chrono::steady_clock::now();
+    while (key.size() > 0) {
+      const auto iterator = node->find_child(get_key(key));
+      if (iterator == node->end()) break;
+
+      // walk to the child node
+      node = iterator->second.get();
+
+      // at least `page_size` tokens are matched, and there may be more tokens to match
+      // the return value prefix_length is no less than `page_size`
+      const auto prefix_length = align(node->diff_key(key, page_size) + page_size);
+      total_prefix_length += prefix_length;
+
+      // split the node if the prefix is not the whole token vector
+      if (prefix_length < node->length()) {
+        return {split_node(iterator, prefix_length), total_prefix_length};
+      }
+
+      // we have matched the whole key, continue to the next node
+      node->access(now);
+      key = key.subspan(prefix_length);
+    }
+
+    return {node, total_prefix_length};
+  }
+
+  std::vector<TreeNode*> collect_leaves() const {
+    std::vector<TreeNode*> leaves;
+    std::vector<TreeNode*> stack = {};
+    for (const auto& [_, child] : m_root) {
+      stack.push_back(child.get());
+    }
+    while (!stack.empty()) {
+      const auto node = stack.back();
+      stack.pop_back();
+      if (node->is_leaf()) {
+        if (node->ref_count == 0) {
+          leaves.push_back(node);
+        }
+      } else {
+        for (const auto& [_, child] : *node) {
+          stack.push_back(child.get());
+        }
+      }
+    }
+    return leaves;
+  }
+
+  std::vector<TreeNode*> collect_leaves_device() const {
+    // for non-hicache, every leaf device node is a leaf node (since no backup on host)
+    if (!use_hicache) return collect_leaves();
+    std::vector<TreeNode*> leaves;
+    std::vector<TreeNode*> stack = {};
+    for (const auto& [_, child] : m_root) {
+      stack.push_back(child.get());
+    }
+    while (!stack.empty()) {
+      const auto node = stack.back();
+      stack.pop_back();
+      if (!node->on_gpu()) continue;  // skip nodes that are not on GPU
+      if (node->is_leaf_device()) {
+        if (node->ref_count == 0) {
+          leaves.push_back(node);
+        }
+      } else {
+        for (const auto& [_, child] : *node) {
+          stack.push_back(child.get());
+        }
+      }
+    }
+    return leaves;
+  }
+
+  void lock_ref(TreeNode* node, bool increment) {
+    if (node->is_root()) return;  // skip root node
+    _assert(node->on_gpu(), "Cannot lock reference on an evicted node");
+    if (increment)
+      walk_to_root(node, [this](TreeNode* n) {
+        if (n->ref_count == 0) {
+          m_evictable_size -= n->length();
+          m_protected_size += n->length();
+        }
+        n->ref_count++;
+      });
+    else
+      walk_to_root(node, [this](TreeNode* n) {
+        _assert(n->ref_count != 0, "Cannot decrement reference count = zero");
+        n->ref_count--;
+        if (n->ref_count == 0) {
+          m_protected_size -= n->length();
+          m_evictable_size += n->length();
+        }
+      });
+  }
+
+  void lock_ref(NodeHandle node_ptr, bool increment) {
+    return lock_ref(id2node(node_ptr), increment);
+  }
+
+  void lock(TreeNode* node) {
+    return lock_ref(node, /*increment=*/true);
+  }
+
+  void unlock(TreeNode* node) {
+    return lock_ref(node, /*increment=*/false);
+  }
+
+  std::size_t total_size() const {
+    std::size_t size = 0;
+    std::vector<const TreeNode*> stack = {&m_root};
+    while (!stack.empty()) {
+      auto* node = stack.back();
+      stack.pop_back();
+      size += node->length();
+      for (const auto& [_, child] : *node)
+        stack.push_back(child.get());
+    }
+    return size;
+  }
+
+  std::size_t evictable_size() const {
+    return m_evictable_size;
+  }
+
+  std::size_t protected_size() const {
+    return m_protected_size;
+  }
+
+  std::size_t align(std::size_t size) const {
+    return (size / page_size) * page_size;  // align to page size
+  }
+
+  TreeNode* id2node(NodeHandle node_id) const {
+    const auto iterator = m_node_map.find(node_id);
+    _assert(iterator != m_node_map.end(), "Node not found in the map");
+    return iterator->second;
+  }
+
+  void reset() {
+    _assert(m_root.ref_count == 1, "Root node must be protected during reset");
+    m_node_counter = 1;  // reset node counter
+    m_root.root_reset();
+    m_evictable_size = 0;
+    m_protected_size = 0;
+    m_node_map.clear();
+    m_node_map[m_root.node_id] = &m_root;  // re-add root to the map
+  }
+
+  void debug_print(std::ostream& os) const;
+
+ private:
+  // some auxiliary functions
+  token_vec_t& get_key(token_slice tokens) {
+    _assert(tokens.size() >= page_size, "Key should be at least page-sized");
+    tokens = tokens.subspan(0, page_size);
+    m_cached_vec.assign(tokens.begin(), tokens.end());
+    return m_cached_vec;
+  }
+
+  // justify for _unsafe call: we need to read the key part of the tokens
+  token_vec_t& get_key(TreeNode* node) {
+    return get_key(node->_unsafe_tokens());
+  }
+
+  void add_child(TreeNode* parent, std::unique_ptr<TreeNode>&& child) {
+    parent->add_child(get_key(child.get()), std::move(child));
+  }
+
+  void add_child(TreeNode* parent, std::unique_ptr<TreeNode>&& child, node_iterator_t it) {
+    parent->add_child(it, std::move(child));
+  }
+
+  TreeNode m_root;                                        // root node of the tree
+  std::size_t m_evictable_size;                           // number of evictable tokens on GPU (lock ref = 0)
+  std::size_t m_protected_size;                           // number of protected tokens on GPU (lock ref > 0)
+  token_vec_t m_cached_vec;                               // cached vector of tokens for the current operation
+  std::unordered_map<std::size_t, TreeNode*> m_node_map;  // map of node keys to nodes
+  std::size_t m_node_counter;                             // counter for node IDs
+
+ public:
+  // some public constant configurations (without m_ prefix)
+  const bool disabled;          // whether the cache is enabled, or just a temporary cache
+  const bool use_hicache;       // whether to use the HiCache for this tree
+  const std::size_t page_size;  // size of each page in the cache
+  const std::size_t threshold;  // threshold for write_through
+};
+
+}  // namespace radix_tree_v2
diff --git a/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_node.h b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_node.h
new file mode 100644
index 000000000000..4eac86ea4402
--- /dev/null
+++ b/python/sglang/srt/mem_cache/cpp_radix_tree/tree_v2_node.h
@@ -0,0 +1,257 @@
+#pragma once
+#include <ATen/core/TensorBody.h>
+
+#include <algorithm>
+#include <array>
+#include <chrono>
+#include <cstddef>
+#include <cstdint>
+#include <memory>
+#include <optional>
+#include <ranges>
+#include <unordered_map>
+
+#include "common.h"
+
+namespace radix_tree_v2 {
+
+struct std_vector_hash {
+  // see https://stackoverflow.com/questions/20511347/a-good-hash-function-for-a-vector
+  std::size_t operator()(const token_vec_t& vec) const {
+    std::size_t hash = 0;
+    for (const auto& token : vec) {
+      hash ^= token + 0x9e3779b9 + (hash << 6) + (hash >> 2);
+    }
+    return hash;
+  }
+};
+
+struct TreeNode {
+ public:
+  using childern_map_t = std::unordered_map<token_vec_t, std::unique_ptr<TreeNode>, std_vector_hash>;
+  using iterator_t = typename childern_map_t::iterator;
+  using const_iterator_t = typename childern_map_t::const_iterator;
+  using timestamp_t = std::chrono::steady_clock::time_point;
+
+  TreeNode(std::size_t node_id_)
+      : ref_count(0),
+        hit_count(0),
+        m_io_locked(std::nullopt),
+        m_io_status(IOStatus::None),
+        m_io_ticket(),
+        m_tokens(),
+        m_device_indices(),
+        m_host_indices(),
+        m_parent(),
+        m_children(),
+        m_last_access_time(std::chrono::steady_clock::now()),
+        node_id(node_id_) {}
+
+  void access(timestamp_t time = std::chrono::steady_clock::now()) {
+    m_last_access_time = time;
+  }
+
+  bool is_root() const {
+    return m_parent == nullptr;
+  }
+
+  timestamp_t time() const {
+    return m_last_access_time;
+  }
+
+  bool on_gpu() const {
+    return m_device_indices.defined();
+  }
+
+  bool on_cpu() const {
+    return m_host_indices.defined();
+  }
+
+  bool on_gpu_only() const {
+    return on_gpu() && !on_cpu();
+  }
+
+  bool on_cpu_only() const {
+    return !on_gpu() && on_cpu();
+  }
+
+  bool on_both() const {
+    return on_gpu() && on_cpu();
+  }
+
+  std::size_t length() const {
+    return m_tokens.size();
+  }
+
+  bool is_leaf() const {
+    return m_children.empty();
+  }
+
+  bool is_leaf_device() const {
+    for (const auto& [_, child] : m_children)
+      if (child->on_gpu()) return false;  // at least one child is on the device
+    return true;
+  }
+
+  void add_child(const token_vec_t& v, std::unique_ptr<TreeNode>&& child) {
+    child->m_parent = this;
+    m_children[v] = std::move(child);
+  }
+
+  void add_child(iterator_t it, std::unique_ptr<TreeNode>&& child) {
+    child->m_parent = this;
+    it->second = std::move(child);
+  }
+
+  void erase_child(const token_vec_t& v) {
+    _assert(m_children.erase(v) > 0, "Child node not found");
+  }
+
+  iterator_t find_child(const token_vec_t& v) {
+    return m_children.find(v);
+  }
+
+  iterator_t begin() {
+    return m_children.begin();
+  }
+
+  iterator_t end() {
+    return m_children.end();
+  }
+
+  const_iterator_t begin() const {
+    return m_children.begin();
+  }
+
+  const_iterator_t end() const {
+    return m_children.end();
+  }
+
+  TreeNode* parent() {
+    return m_parent;
+  }
+
+  // set up all data structures except for parent-child relationship
+  friend void split_prefix(TreeNode* new_node, TreeNode* old_node, std::size_t prefix_length) {
+    auto tokens = std::move(old_node->m_tokens);
+    _assert(0 < prefix_length && prefix_length < tokens.size(), "Invalid prefix size for split");
+
+    // set up tokens
+    old_node->m_tokens = token_vec_t(tokens.begin() + prefix_length, tokens.end());
+    new_node->m_tokens = std::move(tokens);
+    new_node->m_tokens.resize(prefix_length);
+
+    // set up values
+    const int64_t new_size = new_node->length();
+    const int64_t old_size = old_node->length();
+    if (old_node->m_device_indices.defined()) {
+      auto new_indices = old_node->m_device_indices.split_with_sizes({new_size, old_size});
+      new_node->m_device_indices = std::move(new_indices[0]);
+      old_node->m_device_indices = std::move(new_indices[1]);
+    }
+    if (old_node->m_host_indices.defined()) {
+      auto new_indices = old_node->m_host_indices.split_with_sizes({new_size, old_size});
+      new_node->m_host_indices = std::move(new_indices[0]);
+      old_node->m_host_indices = std::move(new_indices[1]);
+    }
+
+    // set up ref counts and hit counts
+    new_node->ref_count = old_node->ref_count;
+    new_node->hit_count = old_node->hit_count;
+
+    // If the old node (child) was locked for IO, the new node (parent) does not need
+    // to be locked, since it is naturally protected by the child node's lock.
+    if (old_node->m_io_locked.has_value()) {
+      new_node->m_io_locked = false;
+      new_node->m_io_status = old_node->m_io_status;
+      new_node->m_io_ticket = old_node->m_io_ticket;
+    }
+  }
+
+  /// @return The first index in `m_tokens` that differs from `key`.
+  std::size_t diff_key(token_slice key, std::size_t offset) const {
+    const auto a = token_slice{key}.subspan(offset);
+    const auto b = token_slice{m_tokens}.subspan(offset);
+    const auto [it_a, it_b] = std::ranges::mismatch(a, b);
+    return it_a - a.begin();  // return the index of the first differing token
+  }
+
+  at::Tensor device_indices() const {
+    return m_device_indices;
+  }
+  at::Tensor host_indices() const {
+    return m_host_indices;
+  }
+
+  // visiting tokens are always unsafe (use `diff_key` instead)
+  token_vec_t& _unsafe_tokens() {
+    return m_tokens;
+  }
+  at::Tensor& _unsafe_device_indices() {
+    return m_device_indices;
+  }
+  at::Tensor& _unsafe_host_indices() {
+    return m_host_indices;
+  }
+
+  bool is_io_free() const {
+    return m_io_status == IOStatus::None;
+  }
+
+  bool is_io_device_to_host() const {
+    return m_io_status == IOStatus::DeviceToHost;
+  }
+
+  bool is_io_host_to_device() const {
+    return m_io_status == IOStatus::HostToDevice;
+  }
+
+  void root_reset() {
+    _assert(is_root(), "Only root node can call root_reset");
+    _assert(
+        m_io_status == IOStatus::None && m_io_locked == std::nullopt,
+        "IO operation in progress, cannot reset root node");
+    _assert(this->m_tokens.empty(), "Root node tokens should be empty on reset");
+    _assert(
+        !this->m_device_indices.defined() && !this->m_host_indices.defined(),
+        "Root node indices should be always be empty and never assigned");
+    m_children.clear();
+    this->access();
+  }
+
+ public:
+  std::size_t ref_count;
+  std::size_t hit_count;
+
+ private:
+  enum class IOStatus : std::uint8_t {
+    None,
+    HostToDevice,
+    DeviceToHost,
+  };
+
+  std::optional<bool> m_io_locked;  // whether the node is locked in IO operation
+  IOStatus m_io_status;
+  IOTicket m_io_ticket;
+
+  token_vec_t m_tokens;
+  at::Tensor m_device_indices;  // indices of device value
+  at::Tensor m_host_indices;    // indices of host value
+  TreeNode* m_parent;
+  childern_map_t m_children;
+  timestamp_t m_last_access_time;
+
+ public:
+  const std::size_t node_id;  // unique ID for the node
+};
+
+template <typename F>
+inline TreeNode* walk_to_root(TreeNode* t, const F& f) {
+  while (!t->is_root()) {
+    f(t);
+    t = t->parent();
+  }
+  return t;  // return the root node
+}
+
+}  // namespace radix_tree_v2
diff --git a/python/sglang/srt/mem_cache/radix_cache_cpp.py b/python/sglang/srt/mem_cache/radix_cache_cpp.py
new file mode 100644
index 000000000000..5234f1a0fbfe
--- /dev/null
+++ b/python/sglang/srt/mem_cache/radix_cache_cpp.py
@@ -0,0 +1,229 @@
+from __future__ import annotations
+
+import logging
+from typing import TYPE_CHECKING, List, Set
+
+import torch
+
+from sglang.srt.mem_cache.allocator import BaseTokenToKVPoolAllocator
+from sglang.srt.mem_cache.base_prefix_cache import BasePrefixCache, MatchResult
+from sglang.srt.mem_cache.cpp_radix_tree.radix_tree import (
+    IOHandle,
+    RadixTreeCpp,
+    TreeNodeCpp,
+)
+from sglang.srt.mem_cache.memory_pool import ReqToTokenPool
+
+if TYPE_CHECKING:
+    from sglang.srt.managers.schedule_batch import Req
+
+
+logger = logging.getLogger(__name__)
+
+
+class RadixCacheCpp(BasePrefixCache):
+    def _merge_tensor(self, l: List[torch.Tensor]) -> torch.Tensor:
+        """
+        Merge a list of tensors into a single tensor.
+        Args:
+            l (List[torch.Tensor]): List of tensors to merge.
+        Returns:
+            torch.Tensor: Merged tensor.
+        """
+        if len(l) == 0:
+            return torch.empty(0, dtype=torch.int64, device=self.device)
+        elif len(l) == 1:
+            return l[0]
+        else:
+            return torch.cat(l)
+
+    def __init__(
+        self,
+        disable: bool,
+        use_hicache: bool,
+        req_to_token_pool: ReqToTokenPool,
+        token_to_kv_pool: BaseTokenToKVPoolAllocator,
+        tp_cache_group: torch.distributed.ProcessGroup,
+        page_size: int,
+        hicache_ratio: float,
+        hicache_size: int,
+        hicache_write_policy: str,
+        enable_kv_cache_events: bool = False,
+        hicache_oracle: bool = False,
+        enable_write_cancel: bool = False,
+    ):
+        self.disable = disable
+        self.enable_write_cancel = enable_write_cancel
+
+        assert (
+            enable_kv_cache_events is False
+        ), "HiRadixCache does not support kv cache events yet"
+        self.kv_cache = token_to_kv_pool.get_kvcache()
+
+        # record the nodes with ongoing write through
+        self.ongoing_write_through: Set[IOHandle] = set()
+        # record the node segments with ongoing load back
+        self.ongoing_load_back: Set[IOHandle] = set()
+        # todo: dynamically adjust the threshold
+        self.write_through_threshold = (
+            1 if hicache_write_policy == "write_through" else 2
+        )
+        self.device = token_to_kv_pool.device
+        self.token_to_kv_pool = token_to_kv_pool
+        self.req_to_token_pool = req_to_token_pool
+        self.page_size = page_size
+
+        self.tp_group = tp_cache_group
+
+        if not use_hicache:
+            self.tree = RadixTreeCpp(
+                disabled=self.disable,
+                page_size=page_size,
+                host_size=None,  # no host cache, this should be removed in the future
+                write_through_threshold=self.write_through_threshold,
+            )
+            self.cache_controller = None
+            return  # early return if hicache is not used
+
+        raise NotImplementedError("Host cache is not supported yet")
+
+    def reset(self):
+        if self.cache_controller is not None:
+            # need to clear the acks before resetting the cache controller
+            raise NotImplementedError("Host cache is not supported yet")
+        self.tree.reset()
+
+    def match_prefix(self, key: List[int], **kwargs) -> MatchResult:
+        device_indices_vec, host_indices_length, node_gpu, node_cpu = (
+            self.tree.match_prefix(key)
+        )
+        return MatchResult(
+            device_indices=self._merge_tensor(device_indices_vec),
+            last_device_node=node_gpu,
+            last_host_node=node_cpu,
+            host_hit_length=host_indices_length,
+        )
+
+    def _insert(self, key: List[int], value: torch.Tensor) -> int:
+        """
+        Insert a key-value pair into the radix tree.
+        Args:
+            key (List[int]): The key to insert, represented as a list of integers.
+            value (torch.Tensor): The value to associate with the key.
+        Returns:
+            int: Number of device indices that were already present in the tree before the insertion.
+        """
+        ongoing_write, length = self.tree.writing_through(key, value)
+        if self.cache_controller is None:
+            assert len(ongoing_write) == 0, "Implementation error"
+            return length
+
+        raise NotImplementedError("Host cache is not supported yet")
+
+    def dec_lock_ref(self, node: TreeNodeCpp):
+        """
+        Decrement the reference count of a node to root of the radix tree.
+        Args:
+            node (TreeNodeCpp): The handle of the node to decrement the reference count for.
+        """
+        self.tree.lock_ref(node, False)  # do not increment
+
+    def inc_lock_ref(self, node: TreeNodeCpp):
+        """
+        Increment the reference count of from a node to root of the radix tree.
+        Args:
+            node (TreeNodeCpp): The handle of the node to increment the reference count for.
+        """
+        self.tree.lock_ref(node, True)
+
+    def evict(self, num_tokens: int):
+        evicted_device_indices = self.tree.evict(num_tokens)
+        for indice in evicted_device_indices:
+            self.token_to_kv_pool.free(indice)
+
+    def evictable_size(self):
+        return self.tree.evictable_size()
+
+    def protected_size(self):
+        return self.tree.protected_size()
+
+    def total_size(self):
+        return self.tree.total_size()
+
+    def cache_finished_req(self, req: Req):
+        """Cache request when it finishes."""
+        assert req.req_pool_idx is not None
+        token_ids = (req.origin_input_ids + req.output_ids)[:-1]
+        overall_len = len(token_ids)  # prefill + decode
+        kv_indices = self.req_to_token_pool.req_to_token[req.req_pool_idx, :overall_len]
+
+        # NOTE: our C++ implementation don't need `token_ids` and `kv_indices` to be page-aligned
+        # it will automatically align them, but length of them should be equal
+        old_prefix_len = len(req.prefix_indices) // self.page_size * self.page_size
+        new_prefix_len = self._insert(token_ids, kv_indices)
+
+        # NOTE: kv_indices[:old_prefix_len] == req.prefix_indices
+        assert old_prefix_len <= new_prefix_len, "Wrong prefix indices"
+
+        # KVCache between old & new is newly generated, but already exists in the pool
+        # we need to free this newly generated kv indices
+        if old_prefix_len < new_prefix_len:
+            self.token_to_kv_pool.free(kv_indices[old_prefix_len:new_prefix_len])
+
+        # need to free the unaligned part, since it cannot be inserted into the radix tree
+        if self.page_size != 1 and (  # unaligned tail only exists when page_size > 1
+            (unaligned_len := overall_len % self.page_size) > 0
+        ):
+            # NOTE: sglang PagedAllocator support unaligned free (which will automatically align it)
+            self.token_to_kv_pool.free(kv_indices[overall_len - unaligned_len :])
+
+        # Remove req slot release the cache lock
+        self.dec_lock_ref(req.last_node)
+        self.req_to_token_pool.free(req.req_pool_idx)
+
+    def cache_unfinished_req(self, req: Req):
+        """Cache request when it is unfinished."""
+        assert req.req_pool_idx is not None
+        token_ids = req.fill_ids
+        prefill_len = len(token_ids)  # prefill only (maybe chunked)
+        kv_indices = self.req_to_token_pool.req_to_token[req.req_pool_idx, :prefill_len]
+
+        # NOTE: our C++ implementation don't need `token_ids` and `kv_indices` to be page-aligned
+        # it will automatically align them, but length of them should be equal
+        old_prefix_len = len(req.prefix_indices) // self.page_size * self.page_size
+        new_prefix_len = self._insert(token_ids, kv_indices)
+
+        # NOTE: kv_indices[:old_prefix_len] == req.prefix_indices
+        assert old_prefix_len <= new_prefix_len, "Wrong prefix indices"
+
+        # TODO(dark): optimize the `insert` and `match` (e.g. merge into 1 function)
+        # The prefix indices need to updated to reuse the kv indices in the pool
+        new_indices_vec, _, new_last_node, _ = self.tree.match_prefix(token_ids)
+        new_indices = self._merge_tensor(new_indices_vec)
+        assert new_prefix_len <= len(new_indices)
+
+        # KVCache between old & new is newly generated, but already exists in the pool
+        # we need to free this newly generated kv indices and reuse the indices in the pool
+        if old_prefix_len < new_prefix_len:
+            self.token_to_kv_pool.free(kv_indices[old_prefix_len:new_prefix_len])
+            reused_indices = new_indices[old_prefix_len:new_prefix_len]
+            self.req_to_token_pool.req_to_token[
+                req.req_pool_idx, old_prefix_len:new_prefix_len
+            ] = reused_indices
+
+        if req.last_node != new_last_node:
+            self.dec_lock_ref(req.last_node)
+            self.inc_lock_ref(new_last_node)
+
+        # NOTE: there might be unaligned tail, so we may need to append it
+        assert len(new_indices) <= prefill_len < len(new_indices) + self.page_size
+        if self.page_size != 1 and len(new_indices) < prefill_len:
+            req.prefix_indices = torch.cat(
+                [new_indices, kv_indices[len(new_indices) :]]
+            )
+        else:
+            req.prefix_indices = new_indices
+        req.last_node = new_last_node
+
+    def pretty_print(self):
+        return self.tree.debug_print()
diff --git a/test/srt/test_cpp_radix_cache.py b/test/srt/test_cpp_radix_cache.py
new file mode 100644
index 000000000000..cb2822b88153
--- /dev/null
+++ b/test/srt/test_cpp_radix_cache.py
@@ -0,0 +1,47 @@
+import os
+import unittest
+from types import SimpleNamespace
+
+from sglang.srt.utils import kill_process_tree
+from sglang.test.run_eval import run_eval
+from sglang.test.test_utils import (
+    DEFAULT_MODEL_NAME_FOR_TEST,
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    CustomTestCase,
+    popen_launch_server,
+)
+
+
+class TestCppRadixCache(CustomTestCase):
+    @classmethod
+    def setUpClass(cls):
+        os.environ["SGLANG_EXPERIMENTAL_CPP_RADIX_TREE"] = "1"
+        cls.model = DEFAULT_MODEL_NAME_FOR_TEST
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+        )
+
+    @classmethod
+    def tearDownClass(cls):
+        kill_process_tree(cls.process.pid)
+
+    def test_mmlu(self):
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mmlu",
+            num_examples=64,
+            num_threads=32,
+        )
+
+        metrics = run_eval(args)
+        print(metrics)
+        self.assertGreaterEqual(metrics["score"], 0.65)
+
+
+if __name__ == "__main__":
+    unittest.main()

From d9def43dcdfd961c4fb2d8eee72f30681268abe3 Mon Sep 17 00:00:00 2001
From: Qi Yuhang <45795032+HydraQYH@users.noreply.github.com>
Date: Sun, 3 Aug 2025 12:13:47 +0800
Subject: [PATCH 312/396] [Perf]Use Cooperative Schedule for H100 & H200 & H800
 in fp8_blockwise_scaled_grouped_mm (#8722)

---
 sgl-kernel/csrc/moe/fp8_blockwise_moe_kernel.cu | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/sgl-kernel/csrc/moe/fp8_blockwise_moe_kernel.cu b/sgl-kernel/csrc/moe/fp8_blockwise_moe_kernel.cu
index d252c29c2b5f..748dd2137b5b 100644
--- a/sgl-kernel/csrc/moe/fp8_blockwise_moe_kernel.cu
+++ b/sgl-kernel/csrc/moe/fp8_blockwise_moe_kernel.cu
@@ -485,7 +485,8 @@ void sm90_fp8_blockwise_group_mm_dispatch_shape(
   torch::TensorOptions options_int = torch::TensorOptions().dtype(torch::kInt64).device(a.device());
   torch::Tensor problem_sizes_transpose = torch::empty(num_experts * 3, options_int);
 
-  if (a.size(1) > 128) {
+  if (at::cuda::getCurrentDeviceProperties()->multiProcessorCount == 78 && a.size(1) > 128) {
+    // For H20 with K > 128, use Pingpong Schedule
     run_get_group_gemm_starts<MmaConfig0::LayoutSFA, MmaConfig0::LayoutSFB, MmaConfig0::ScaleConfig>(
         expert_offsets,
         a_ptrs,
@@ -517,7 +518,7 @@ void sm90_fp8_blockwise_group_mm_dispatch_shape(
         expert_offsets,
         workspace);
   } else {
-    // Small K
+    // For H20 with K <= 128, and H100 & H200 & H800, use Cooperative Schedule
     run_get_group_gemm_starts<MmaConfig1::LayoutSFA, MmaConfig1::LayoutSFB, MmaConfig1::ScaleConfig>(
         expert_offsets,
         a_ptrs,

From 9f47d686e52158bbd3872ec8a6d96fbc5de69134 Mon Sep 17 00:00:00 2001
From: Liangsheng Yin <hnyls2002@gmail.com>
Date: Sun, 3 Aug 2025 12:42:01 +0800
Subject: [PATCH 313/396] Fix fused MoE when `routed_scaling_factor is None`
 (#8709)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 88a74d458463..66fbb36eac27 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -280,7 +280,9 @@ def forward_deepgemm(
             m_max * self.start_expert_id,
             BLOCK_SIZE=512,
         )
-        return output * self.routed_scaling_factor
+        if self.routed_scaling_factor is not None:
+            output *= self.routed_scaling_factor
+        return output
 
 
 class DeepEPMoE(EPMoE):

From 0e612dbf120ed96d0da2a2c2b7a9d165af4deaf5 Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Sun, 3 Aug 2025 13:48:42 +0800
Subject: [PATCH 314/396] Tiny fix CI pytest error (#8524)

---
 python/pyproject.toml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index e2284e8dd77d..2edc607276a1 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -108,6 +108,7 @@ test = [
     "pandas",
     "peft",
     "sentence_transformers",
+    "pytest",
 ]
 all = ["sglang[srt]", "sglang[openai]", "sglang[anthropic]", "sglang[litellm]", "sglang[torch_memory_saver]", "sglang[decord]"]
 all_hip = ["sglang[srt_hip]", "sglang[openai]", "sglang[anthropic]", "sglang[litellm]", "sglang[decord]"]

From a437aa99870d805ac59de74b3962088b3a916bf2 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sat, 2 Aug 2025 22:59:25 -0700
Subject: [PATCH 315/396] [hotfix] fix mixtral with tensor-level
 compressed-tensor quantization (#8721)

---
 .../compressed_tensors/compressed_tensors_moe.py             | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 525a75069fe0..c6da7e149a22 100644
--- a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -23,6 +23,7 @@
 from sglang.srt.utils import is_cpu, is_cuda, is_hip, is_npu, set_weight_attrs
 
 if TYPE_CHECKING:
+    from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
     from sglang.srt.layers.moe.topk import TopKOutput
     from sglang.srt.layers.quantization.compressed_tensors.compressed_tensors import (
         CompressedTensorsConfig,
@@ -189,7 +190,7 @@ def create_weights(
             layer.w13_input_scale = None
             layer.w2_input_scale = None
 
-    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+    def process_weights_after_loading(self, layer: FusedMoE) -> None:
         # Fp8 moe kernels require a single activation scale.
         # We take the max of all the scales in case they differ.
         if self.static_input_scales:
@@ -246,7 +247,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
             assert layer.w13_weight_scale is not None
             shard_size = layer.intermediate_size_per_partition
             max_w13_scales = layer.w13_weight_scale.max(dim=1).values
-            for expert_id in range(layer.local_num_experts):
+            for expert_id in range(layer.num_local_experts):
                 start = 0
                 for shard_id in range(2):
                     dq_weight = per_tensor_dequantize(

From 8675bdf2461550a19192c334a46d55c58f314dbf Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sun, 3 Aug 2025 00:02:23 -0700
Subject: [PATCH 316/396] Support limiting max loaded loras in CPU. (#8650)

---
 docs/backend/lora.ipynb                       |   2 +
 docs/backend/server_arguments.md              |   1 +
 python/sglang/srt/lora/lora_registry.py       |   7 +
 python/sglang/srt/managers/io_struct.py       |   2 +-
 .../sglang/srt/managers/tokenizer_manager.py  | 126 ++++++++++--------
 python/sglang/srt/server_args.py              |  20 +++
 python/sglang/test/runners.py                 |   2 +
 test/srt/models/lora/test_lora_update.py      |  55 +++++++-
 8 files changed, 160 insertions(+), 55 deletions(-)

diff --git a/docs/backend/lora.ipynb b/docs/backend/lora.ipynb
index 8626d3e71a68..4967b9c75d28 100644
--- a/docs/backend/lora.ipynb
+++ b/docs/backend/lora.ipynb
@@ -33,6 +33,8 @@
     "\n",
     "* `max_loras_per_batch`: Maximum number of adaptors used by each batch. This argument can affect the amount of GPU memory reserved for multi-LoRA serving, so it should be set to a smaller value when memory is scarce. Defaults to be 8.\n",
     "\n",
+    "* `max_loaded_loras`: If specified, it limits the maximum number of LoRA adapters loaded in CPU memory at a time. The value must be greater than or equal to `max-loras-per-batch`.\n",
+    "\n",
     "* `lora_backend`: The backend of running GEMM kernels for Lora modules. It can be one of `triton` or `flashinfer`, and set to `triton` by default. For better performance and stability, we recommend using the Triton LoRA backend. In the future, faster backend built upon Cutlass or Cuda kernels will be added.\n",
     "\n",
     "* `max_lora_rank`: The maximum LoRA rank that should be supported. If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of larger LoRA rank after server startup.\n",
diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index 0474581238df..bff9dbcdcfa9 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -181,6 +181,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--lora-target-modules` | The union set of all target modules where LoRA should be applied (e.g., `q_proj`, `k_proj`, `gate_proj`). If not specified, it will be automatically inferred from the adapters provided in `--lora-paths`. This argument is needed when you expect to dynamically load adapters of different target modules after server startup. You can also set it to `all` to enable LoRA for all supported modules. However, enabling LoRA on additional modules introduces a minor performance overhead. If your application is performance-sensitive, we recommend only specifying the modules for which you plan to load adapters. | None |
 | `--lora-paths` | The list of LoRA adapters. You can provide a list of either path in str or renamed path in the format {name}={path}. | None |
 | `--max-loras-per-batch` | Maximum number of adapters for a running batch, include base-only request. | 8 |
+| `--max-loaded-loras` | If specified, it limits the maximum number of LoRA adapters loaded in CPU memory at a time. The value must be greater than or equal to `--max-loras-per-batch`. | None |
 | `--lora-backend` | Choose the kernel backend for multi-LoRA serving. | triton |
 
 ## Kernel backend
diff --git a/python/sglang/srt/lora/lora_registry.py b/python/sglang/srt/lora/lora_registry.py
index c063fefae48d..bb2fc56591e2 100644
--- a/python/sglang/srt/lora/lora_registry.py
+++ b/python/sglang/srt/lora/lora_registry.py
@@ -186,3 +186,10 @@ def _register_adapter(self, lora_ref: LoRARef):
         self._registry[lora_ref.lora_name] = lora_ref
         self._counters[lora_ref.lora_id] = ConcurrentCounter()
         return lora_ref
+
+    @property
+    def num_registered_loras(self) -> int:
+        """
+        Returns the total number of LoRA adapters currently registered.
+        """
+        return len(self._registry)
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index c8d325f9ee28..2b5f19c71fbd 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -1097,7 +1097,7 @@ def to_ref(self) -> LoRARef:
 class LoRAUpdateResult:
     success: bool
     error_message: Optional[str] = None
-    loaded_adapters: Dict[str, LoRARef] = field(default_factory=dict)
+    loaded_adapters: Optional[Dict[str, LoRARef]] = None
 
 
 LoadLoRAAdapterReqOutput = UnloadLoRAAdapterReqOutput = LoRAUpdateResult
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 76a31e334df7..89326bf063c7 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -1084,38 +1084,56 @@ async def load_lora_adapter(
         _: Optional[fastapi.Request] = None,
     ) -> LoadLoRAAdapterReqOutput:
         self.auto_create_handle_loop()
-        if not self.server_args.enable_lora:
-            raise ValueError(
-                "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
-            )
 
-        # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
-        # with dp_size > 1.
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for dynamic lora loading"
-        logger.info(
-            "Start load Lora adapter. Lora name=%s, path=%s",
-            obj.lora_name,
-            obj.lora_path,
-        )
+        try:
+            if not self.server_args.enable_lora:
+                raise ValueError(
+                    "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
+                )
 
-        async with self.lora_update_lock:
-            # Generate new uniquely identifiable LoRARef object.
-            new_adapter = LoRARef(
-                lora_name=obj.lora_name,
-                lora_path=obj.lora_path,
+            # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
+            # with dp_size > 1.
+            assert (
+                self.server_args.dp_size == 1
+            ), "dp_size must be 1 for dynamic lora loading"
+            logger.info(
+                "Start load Lora adapter. Lora name=%s, path=%s",
+                obj.lora_name,
+                obj.lora_path,
             )
 
-            # Trigger the actual loading operation at the backend processes.
-            obj.lora_id = new_adapter.lora_id
-            result = (await self.update_lora_adapter_communicator(obj))[0]
+            async with self.lora_update_lock:
+                if (
+                    self.server_args.max_loaded_loras is not None
+                    and self.lora_registry.num_registered_loras
+                    >= self.server_args.max_loaded_loras
+                ):
+                    raise ValueError(
+                        f"Cannot load LoRA adapter {obj.lora_name} at path {obj.lora_path}. "
+                        f"Maximum number of loaded LoRA adapters is {self.server_args.max_loaded_loras}. "
+                        "Please unload some LoRA adapters before loading new ones."
+                    )
 
-            # Register the LoRA adapter only after loading is successful.
-            if result.success:
-                await self.lora_registry.register(new_adapter)
+                # Generate new uniquely identifiable LoRARef object.
+                new_adapter = LoRARef(
+                    lora_name=obj.lora_name,
+                    lora_path=obj.lora_path,
+                )
 
-            return result
+                # Trigger the actual loading operation at the backend processes.
+                obj.lora_id = new_adapter.lora_id
+                result = (await self.update_lora_adapter_communicator(obj))[0]
+
+                # Register the LoRA adapter only after loading is successful.
+                if result.success:
+                    await self.lora_registry.register(new_adapter)
+
+                return result
+        except ValueError as e:
+            return LoadLoRAAdapterReqOutput(
+                success=False,
+                error_message=str(e),
+            )
 
     async def unload_lora_adapter(
         self,
@@ -1123,37 +1141,41 @@ async def unload_lora_adapter(
         _: Optional[fastapi.Request] = None,
     ) -> UnloadLoRAAdapterReqOutput:
         self.auto_create_handle_loop()
-        if not self.server_args.enable_lora:
-            raise ValueError(
-                "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
-            )
 
-        assert (
-            obj.lora_name is not None
-        ), "lora_name must be provided to unload LoRA adapter"
+        try:
+            if not self.server_args.enable_lora:
+                raise ValueError(
+                    "LoRA is not enabled. Please set `--enable-lora` to enable LoRA."
+                )
 
-        # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
-        # with dp_size > 1.
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for dynamic lora loading"
-        logger.info(
-            "Start unload Lora adapter. Lora name=%s",
-            obj.lora_name,
-        )
+            assert (
+                obj.lora_name is not None
+            ), "lora_name must be provided to unload LoRA adapter"
+
+            # TODO (lifuhuang): Remove this after we verify that dynamic lora loading works
+            # with dp_size > 1.
+            assert (
+                self.server_args.dp_size == 1
+            ), "dp_size must be 1 for dynamic lora loading"
+            logger.info(
+                "Start unload Lora adapter. Lora name=%s",
+                obj.lora_name,
+            )
 
-        async with self.lora_update_lock:
-            # Unregister the LoRA adapter from the registry to stop new requests for this adapter
-            # from being started.
-            lora_id = await self.lora_registry.unregister(obj.lora_name)
-            obj.lora_id = lora_id
+            async with self.lora_update_lock:
+                # Unregister the LoRA adapter from the registry to stop new requests for this adapter
+                # from being started.
+                lora_id = await self.lora_registry.unregister(obj.lora_name)
+                obj.lora_id = lora_id
 
-            # Initiate the actual unloading operation at the backend processes only after all
-            # ongoing requests using this LoRA adapter are finished.
-            await self.lora_registry.wait_for_unload(lora_id)
-            result = (await self.update_lora_adapter_communicator(obj))[0]
+                # Initiate the actual unloading operation at the backend processes only after all
+                # ongoing requests using this LoRA adapter are finished.
+                await self.lora_registry.wait_for_unload(lora_id)
+                result = (await self.update_lora_adapter_communicator(obj))[0]
 
-            return result
+                return result
+        except ValueError as e:
+            return UnloadLoRAAdapterReqOutput(success=False, rror_message=str(e))
 
     async def get_weights_by_name(
         self, obj: GetWeightsByNameReqInput, request: Optional[fastapi.Request] = None
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 3b52f5801ae8..7f3fd88b1c53 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -149,6 +149,7 @@ class ServerArgs:
     max_lora_rank: Optional[int] = None
     lora_target_modules: Optional[Union[set[str], List[str]]] = None
     lora_paths: Optional[Union[dict[str, str], dict[str, LoRARef], List[str]]] = None
+    max_loaded_loras: Optional[int] = None
     max_loras_per_batch: int = 8
     lora_backend: str = "triton"
 
@@ -1237,6 +1238,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=8,
             help="Maximum number of adapters for a running batch, include base-only request.",
         )
+        parser.add_argument(
+            "--max-loaded-loras",
+            type=int,
+            default=ServerArgs.max_loaded_loras,
+            help="If specified, it limits the maximum number of LoRA adapters loaded in CPU memory at a time. The value must be greater than or equal to `--max-loras-per-batch`.",
+        )
         parser.add_argument(
             "--lora-backend",
             type=str,
@@ -2008,6 +2015,19 @@ def check_lora_server_args(self):
                 self.max_lora_rank and self.lora_target_modules
             ), "When no initial --lora-paths is provided, you need to specify both --max-lora-rank and --lora-target-modules for LoRA initialization."
 
+            # Validate max_loaded_loras
+            if self.max_loaded_loras is not None:
+                assert self.max_loaded_loras >= self.max_loras_per_batch, (
+                    "max_loaded_loras should be greater than or equal to max_loras_per_batch. "
+                    f"max_loaded_loras={self.max_loaded_loras}, max_loras_per_batch={self.max_loras_per_batch}"
+                )
+                assert (
+                    not self.lora_paths or len(self.lora_paths) <= self.max_loaded_loras
+                ), (
+                    "The number of LoRA paths should not exceed max_loaded_loras. "
+                    f"max_loaded_loras={self.max_loaded_loras}, lora_paths={len(self.lora_paths)}"
+                )
+
     def validate_disagg_tp_size(self, prefill_tp: int, decode_tp: int):
         larger_tp = max(decode_tp, prefill_tp)
         smaller_tp = min(decode_tp, prefill_tp)
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index 129b4ebb9508..ee49584a0665 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -514,6 +514,7 @@ def __init__(
         max_lora_rank: Optional[int] = None,
         lora_target_modules: Optional[List[str]] = None,
         enable_lora: Optional[bool] = None,
+        max_loaded_loras: Optional[int] = None,
     ):
         self.model_type = model_type
         self.is_generation = model_type == "generation"
@@ -556,6 +557,7 @@ def __init__(
             max_lora_rank=max_lora_rank,
             lora_target_modules=lora_target_modules,
             enable_lora=enable_lora,
+            max_loaded_loras=max_loaded_loras,
             **spec_kwargs,
         )
 
diff --git a/test/srt/models/lora/test_lora_update.py b/test/srt/models/lora/test_lora_update.py
index 83392b9247be..ef5a4c845b92 100644
--- a/test/srt/models/lora/test_lora_update.py
+++ b/test/srt/models/lora/test_lora_update.py
@@ -70,6 +70,7 @@ class TestCase:
     max_lora_rank: Optional[int] = None
     lora_target_modules: Optional[List] = None
     max_new_tokens: int = 32
+    max_loaded_loras: Optional[int] = None
 
 
 def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
@@ -559,7 +560,43 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
         ],
     ),
 ]
-ALL_TESTS = BASIC_TESTS + TARGET_MODULE_TESTS + MAX_LORA_RANK_TESTS
+MAX_LOADED_LORAS_TESTS = [
+    TestCase(
+        description="Test max_loaded_loras limit",
+        base="meta-llama/Llama-3.1-8B-Instruct",
+        max_loras_per_batch=2,
+        max_loaded_loras=2,
+        all_adapters=[
+            "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+            "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+            "pbevan11/llama-3.1-8b-ocr-correction",
+        ],
+        initial_adapters=["philschmid/code-llama-3-1-8b-text-to-sql-lora"],
+        op_sequence=[
+            Operation(
+                type=OperationType.LOAD,
+                data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data="pbevan11/llama-3.1-8b-ocr-correction",
+                expected_error="Maximum number of loaded LoRA adapters",
+            ),
+            Operation(
+                type=OperationType.UNLOAD,
+                data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data="pbevan11/llama-3.1-8b-ocr-correction",
+            ),
+        ],
+    ),
+]
+
+ALL_TESTS = (
+    BASIC_TESTS + TARGET_MODULE_TESTS + MAX_LORA_RANK_TESTS + MAX_LOADED_LORAS_TESTS
+)
 
 
 class LoRAUpdateTestSessionMode(Enum):
@@ -579,6 +616,7 @@ def __init__(
         model_path: str,
         lora_paths: list[str],
         max_loras_per_batch: int,
+        max_loaded_loras: Optional[int] = None,
         max_lora_rank: Optional[int],
         enable_lora: Optional[bool] = None,
         lora_target_modules: Optional[List[str]] = None,
@@ -592,6 +630,7 @@ def __init__(
         self.max_lora_rank = max_lora_rank
         self.lora_target_modules = lora_target_modules
         self.max_loras_per_batch = max_loras_per_batch
+        self.max_loaded_loras = max_loaded_loras
         self.lora_backend = lora_backend
         self.disable_cuda_graph = disable_cuda_graph
         self.cuda_graph_max_bs = cuda_graph_max_bs
@@ -654,6 +693,7 @@ def __enter__(self):
             torch_dtype=torch.float16,
             mem_fraction_static=MEM_FRACTION_STATIC,
             max_loras_per_batch=self.max_loras_per_batch,
+            max_loaded_loras=self.max_loaded_loras,
             disable_cuda_graph=self.disable_cuda_graph,
             cuda_graph_max_bs=self.cuda_graph_max_bs,
             disable_radix_cache=True,
@@ -774,6 +814,8 @@ def __enter__(self):
             other_args.extend(["--max-lora-rank", str(self.max_lora_rank)])
         if self.lora_target_modules is not None:
             other_args.extend(["--lora-target-modules"] + self.lora_target_modules)
+        if self.max_loaded_loras is not None:
+            other_args.extend(["--max-loaded-loras", str(self.max_loaded_loras)])
 
         # launch external server
         self.handle = popen_launch_server(
@@ -898,8 +940,9 @@ def _run_operation_sequence(
         mode: LoRAUpdateTestSessionMode,
         base: str,
         initial_adapters: List[str],
-        max_loras_per_batch: int,
         op_sequence: List[Operation],
+        max_loras_per_batch: int,
+        max_loaded_loras: Optional[int] = None,
         enable_lora: Optional[bool] = None,
         max_lora_rank: Optional[int] = None,
         lora_target_modules: Optional[List[str]] = None,
@@ -917,6 +960,7 @@ def _run_operation_sequence(
             model_path=base,
             lora_paths=initial_adapters,
             max_loras_per_batch=max_loras_per_batch,
+            max_loaded_loras=max_loaded_loras,
             max_lora_rank=max_lora_rank,
             lora_target_modules=lora_target_modules,
             enable_lora=enable_lora,
@@ -972,6 +1016,7 @@ def _run_dynamic_adapter_updates(
                 enable_lora=test_case.enable_lora,
                 base=test_case.base,
                 max_loras_per_batch=test_case.max_loras_per_batch,
+                max_loaded_loras=test_case.max_loaded_loras,
                 op_sequence=test_case.op_sequence,
                 max_new_tokens=test_case.max_new_tokens,
                 max_lora_rank=test_case.max_lora_rank,
@@ -985,6 +1030,12 @@ def _run_dynamic_adapter_updates(
                 if x.type == OperationType.FORWARD and x.expected_error is None
             ]
 
+            if not forward_ops:
+                print(
+                    f"No forward operations found in test case {case_idx}. Skipping static pass."
+                )
+                continue
+
             print("=" * 100)
             print(f"\n--- Running static pass with {len(forward_ops)} operations ---")
             static_output = self._run_operation_sequence(

From 0305c5053feeb108e27368aa9d1e5bc4fb93e886 Mon Sep 17 00:00:00 2001
From: Wenxuan Tan <wtan45@wisc.edu>
Date: Sun, 3 Aug 2025 02:03:16 -0500
Subject: [PATCH 317/396] Reduce memory accumulation in long-running server
 (#8306)

Co-authored-by: Liangsheng Yin <hnyls2002@gmail.com>
---
 python/sglang/global_config.py          | 6 +++++-
 python/sglang/srt/managers/scheduler.py | 8 ++++++++
 2 files changed, 13 insertions(+), 1 deletion(-)

diff --git a/python/sglang/global_config.py b/python/sglang/global_config.py
index c331e64db61d..f006bd94c891 100644
--- a/python/sglang/global_config.py
+++ b/python/sglang/global_config.py
@@ -30,7 +30,11 @@ def __init__(self):
         self.default_new_token_ratio_decay_steps = float(
             os.environ.get("SGLANG_NEW_TOKEN_RATIO_DECAY_STEPS", 600)
         )
-
+        self.torch_empty_cache_interval = float(
+            os.environ.get(
+                "SGLANG_EMPTY_CACHE_INTERVAL", -1
+            )  # in seconds. Set if you observe high memory accumulation over a long serving period.
+        )
         # Runtime constants: others
         self.retract_decode_steps = 20
         self.flashinfer_workspace_size = os.environ.get(
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index d2298cf38123..2a0b139f6090 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -2362,11 +2362,19 @@ class IdleSleeper:
 
     def __init__(self, sockets):
         self.poller = zmq.Poller()
+        self.last_empty_time = time.time()
         for s in sockets:
             self.poller.register(s, zmq.POLLIN)
 
     def maybe_sleep(self):
         self.poller.poll(1000)
+        if (
+            global_config.torch_empty_cache_interval > 0
+            and time.time() - self.last_empty_time
+            > global_config.torch_empty_cache_interval
+        ):
+            self.last_empty_time = time.time()
+            torch.cuda.empty_cache()
 
 
 def is_health_check_generate_req(recv_req):

From b0add2da002ab5d4dd8556e0365b0edda3f720f6 Mon Sep 17 00:00:00 2001
From: Zhiqiang Xie <xiezhq@stanford.edu>
Date: Sun, 3 Aug 2025 00:05:04 -0700
Subject: [PATCH 318/396] HiCache storage, style change and bug fix (#8719)

---
 .../sglang/srt/mem_cache/hicache_storage.py   | 34 +++++++------------
 .../{ => storage}/mooncake_store/README.md    |  0
 .../mooncake_store/mooncake_store.py          |  0
 .../{ => storage}/mooncake_store/unit_test.py |  0
 .../mem_cache/{ => storage}/nixl/README.md    |  0
 .../{ => storage}/nixl/hicache_nixl.py        |  0
 .../{ => storage}/nixl/nixl_utils.py          |  0
 .../nixl/test_hicache_nixl_storage.py         |  0
 8 files changed, 13 insertions(+), 21 deletions(-)
 rename python/sglang/srt/mem_cache/{ => storage}/mooncake_store/README.md (100%)
 rename python/sglang/srt/mem_cache/{ => storage}/mooncake_store/mooncake_store.py (100%)
 rename python/sglang/srt/mem_cache/{ => storage}/mooncake_store/unit_test.py (100%)
 rename python/sglang/srt/mem_cache/{ => storage}/nixl/README.md (100%)
 rename python/sglang/srt/mem_cache/{ => storage}/nixl/hicache_nixl.py (100%)
 rename python/sglang/srt/mem_cache/{ => storage}/nixl/nixl_utils.py (100%)
 rename python/sglang/srt/mem_cache/{ => storage}/nixl/test_hicache_nixl_storage.py (100%)

diff --git a/python/sglang/srt/mem_cache/hicache_storage.py b/python/sglang/srt/mem_cache/hicache_storage.py
index de069c4b79db..8ebdecfda5f8 100644
--- a/python/sglang/srt/mem_cache/hicache_storage.py
+++ b/python/sglang/srt/mem_cache/hicache_storage.py
@@ -33,8 +33,7 @@ class HiCacheStorage(ABC):
     It abstracts the underlying storage mechanism, allowing different implementations to be used.
     """
 
-    # todo, translate tensor object access for different TP ranks
-    # potentially pass model and TP configs into storage backend
+    # todo, potentially pass model and TP configs into storage backend
     # todo, the page size of storage backend does not have to be the same as the same as host memory pool
 
     @abstractmethod
@@ -117,35 +116,28 @@ def _get_suffixed_key(self, key: str) -> str:
     def get(
         self,
         key: str,
-        target_location: Optional[Any] = None,
+        target_location: torch.Tensor,
         target_sizes: Optional[Any] = None,
     ) -> torch.Tensor | None:
         key = self._get_suffixed_key(key)
         tensor_path = os.path.join(self.file_path, f"{key}.bin")
         try:
-            if target_location is not None:
-                # Load directly into target_location's memory buffer
-                with open(tensor_path, "rb") as f:
-                    target_location.set_(
-                        torch.frombuffer(f.read(), dtype=target_location.dtype)
-                        .reshape(target_location.shape)
-                        .storage()
-                    )
-                return target_location
-            else:
-                loaded_tensor = torch.load(tensor_path)
-                if isinstance(loaded_tensor, torch.Tensor):
-                    return loaded_tensor
-                else:
-                    logger.error(f"Loaded data for key {key} is not a tensor.")
-                    return None
+            # Load directly into target_location's memory buffer
+            with open(tensor_path, "rb") as f:
+                target_location.set_(
+                    torch.frombuffer(f.read(), dtype=target_location.dtype)
+                    .reshape(target_location.shape)
+                    .untyped_storage()
+                )
+            return target_location
         except FileNotFoundError:
+            logger.warning(f"Failed to fetch {key} from HiCacheFile storage.")
             return None
 
     def batch_get(
         self,
         keys: List[str],
-        target_locations: Optional[Any] = None,
+        target_locations: List[torch.Tensor],
         target_sizes: Optional[Any] = None,
     ) -> List[torch.Tensor | None]:
         return [
@@ -168,7 +160,7 @@ def set(
             logger.debug(f"Key {key} already exists. Skipped.")
             return True
         try:
-            torch.save(value, tensor_path)
+            value.contiguous().view(dtype=torch.uint8).numpy().tofile(tensor_path)
             return True
         except Exception as e:
             logger.error(f"Failed to save tensor {key}: {e}")
diff --git a/python/sglang/srt/mem_cache/mooncake_store/README.md b/python/sglang/srt/mem_cache/storage/mooncake_store/README.md
similarity index 100%
rename from python/sglang/srt/mem_cache/mooncake_store/README.md
rename to python/sglang/srt/mem_cache/storage/mooncake_store/README.md
diff --git a/python/sglang/srt/mem_cache/mooncake_store/mooncake_store.py b/python/sglang/srt/mem_cache/storage/mooncake_store/mooncake_store.py
similarity index 100%
rename from python/sglang/srt/mem_cache/mooncake_store/mooncake_store.py
rename to python/sglang/srt/mem_cache/storage/mooncake_store/mooncake_store.py
diff --git a/python/sglang/srt/mem_cache/mooncake_store/unit_test.py b/python/sglang/srt/mem_cache/storage/mooncake_store/unit_test.py
similarity index 100%
rename from python/sglang/srt/mem_cache/mooncake_store/unit_test.py
rename to python/sglang/srt/mem_cache/storage/mooncake_store/unit_test.py
diff --git a/python/sglang/srt/mem_cache/nixl/README.md b/python/sglang/srt/mem_cache/storage/nixl/README.md
similarity index 100%
rename from python/sglang/srt/mem_cache/nixl/README.md
rename to python/sglang/srt/mem_cache/storage/nixl/README.md
diff --git a/python/sglang/srt/mem_cache/nixl/hicache_nixl.py b/python/sglang/srt/mem_cache/storage/nixl/hicache_nixl.py
similarity index 100%
rename from python/sglang/srt/mem_cache/nixl/hicache_nixl.py
rename to python/sglang/srt/mem_cache/storage/nixl/hicache_nixl.py
diff --git a/python/sglang/srt/mem_cache/nixl/nixl_utils.py b/python/sglang/srt/mem_cache/storage/nixl/nixl_utils.py
similarity index 100%
rename from python/sglang/srt/mem_cache/nixl/nixl_utils.py
rename to python/sglang/srt/mem_cache/storage/nixl/nixl_utils.py
diff --git a/python/sglang/srt/mem_cache/nixl/test_hicache_nixl_storage.py b/python/sglang/srt/mem_cache/storage/nixl/test_hicache_nixl_storage.py
similarity index 100%
rename from python/sglang/srt/mem_cache/nixl/test_hicache_nixl_storage.py
rename to python/sglang/srt/mem_cache/storage/nixl/test_hicache_nixl_storage.py

From f7b2853ff8b4d2728e4781b45b8c4d7394cd9be9 Mon Sep 17 00:00:00 2001
From: Guanhua Wang <59467949+WANG-GH@users.noreply.github.com>
Date: Sun, 3 Aug 2025 15:46:47 +0800
Subject: [PATCH 319/396] [feat] support minimum token load balance in dp
 attention (#7379)

---
 docs/backend/server_arguments.md              |   2 +-
 python/sglang/srt/entrypoints/engine.py       |   1 +
 .../srt/managers/data_parallel_controller.py  |  54 ++++++++-
 python/sglang/srt/managers/io_struct.py       |   5 +
 python/sglang/srt/managers/scheduler.py       | 113 +++++++++++++++++-
 python/sglang/srt/managers/utils.py           |  46 ++++++-
 python/sglang/srt/server_args.py              |   1 +
 test/srt/test_dp_attention.py                 |  55 +++++++++
 8 files changed, 271 insertions(+), 6 deletions(-)

diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index bff9dbcdcfa9..a79911bc978d 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -155,7 +155,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | Arguments | Description | Defaults |
 |-----------|-------------|----------|
 | `--dp-size` | The data parallelism size. | 1 |
-| `--load-balance-method` | The load balancing strategy for data parallelism. | round_robin |
+| `--load-balance-method` | The load balancing strategy for data parallelism. Options include: 'round_robin', 'minimum_tokens'. The Minimum Token algorithm can only be used when DP attention is applied. This algorithm performs load balancing based on the real-time token load of the DP workers. | round_robin |
 
 ## Multi-node distributed serving
 
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 0e764081ad40..c2885fa787c9 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -732,6 +732,7 @@ def _launch_subprocesses(
                         pp_rank,
                         None,
                         writer,
+                        None,
                     ),
                 )
 
diff --git a/python/sglang/srt/managers/data_parallel_controller.py b/python/sglang/srt/managers/data_parallel_controller.py
index 98173f7a6ffa..76b9e1a018a9 100644
--- a/python/sglang/srt/managers/data_parallel_controller.py
+++ b/python/sglang/srt/managers/data_parallel_controller.py
@@ -16,9 +16,13 @@
 import logging
 import multiprocessing as mp
 import signal
+import struct
+import sys
 import threading
 import time
 from enum import Enum, auto
+from multiprocessing import shared_memory
+from typing import Dict, List
 
 import psutil
 import setproctitle
@@ -32,6 +36,7 @@
 )
 from sglang.srt.managers.schedule_batch import Req
 from sglang.srt.managers.scheduler import run_scheduler_process
+from sglang.srt.managers.utils import DPBalanceMeta
 from sglang.srt.server_args import PortArgs, ServerArgs
 from sglang.srt.torch_memory_saver_adapter import TorchMemorySaverAdapter
 from sglang.srt.utils import bind_port, configure_logger, get_zmq_socket
@@ -45,6 +50,7 @@ class LoadBalanceMethod(Enum):
 
     ROUND_ROBIN = auto()
     SHORTEST_QUEUE = auto()
+    MINIMUM_TOKENS = auto()
 
     @classmethod
     def from_str(cls, method: str):
@@ -58,7 +64,16 @@ def from_str(cls, method: str):
 class DataParallelController:
     """A controller that dispatches requests to multiple data parallel workers."""
 
-    def __init__(self, server_args: ServerArgs, port_args: PortArgs) -> None:
+    def __init__(
+        self,
+        server_args: ServerArgs,
+        port_args: PortArgs,
+        dp_balance_meta: DPBalanceMeta,
+    ) -> None:
+        # for dp balance
+        self.global_balance_id = 0
+        self.balance_meta = dp_balance_meta
+
         # Parse args
         self.max_total_num_tokens = None
         self.server_args = server_args
@@ -79,6 +94,7 @@ def __init__(self, server_args: ServerArgs, port_args: PortArgs) -> None:
         dispatch_lookup = {
             LoadBalanceMethod.ROUND_ROBIN: self.round_robin_scheduler,
             LoadBalanceMethod.SHORTEST_QUEUE: self.shortest_queue_scheduler,
+            LoadBalanceMethod.MINIMUM_TOKENS: self.minimum_tokens_scheduler,
         }
         self.dispatching = dispatch_lookup[self.load_balance_method]
 
@@ -234,6 +250,7 @@ def launch_tensor_parallel_group(
                         pp_rank,
                         dp_rank,
                         writer,
+                        self.balance_meta,
                     ),
                 )
                 with memory_saver_adapter.configure_subprocess():
@@ -269,6 +286,33 @@ def round_robin_scheduler(self, req: Req):
     def shortest_queue_scheduler(self, input_requests):
         raise NotImplementedError()
 
+    def minimum_tokens_scheduler(self, req):
+        # This variable corresponds to the balance_id in TokenizedGenerateReqInput.
+        # We use it to to control the number of onfly tokens (requests dispatched to workers but not yet received).
+        def get_next_global_balance_id() -> int:
+            INT32_MAX = 2147483647
+            current_id = self.global_balance_id
+            self.global_balance_id = (self.global_balance_id + 1) % INT32_MAX
+            return current_id
+
+        req.dp_balance_id = get_next_global_balance_id()
+        with self.balance_meta.mutex:
+            # 1. local_tokens represents the tokens currently inferring on the worker,
+            #  while onfly refers to the requests dispatched by the dispatcher but not yet received by the scheduler.
+            onfly_info = self.balance_meta.get_shared_onfly()
+            local_tokens = self.balance_meta.get_shared_local_tokens()
+            total_tokens = [
+                local_token + sum(onfly_dict.values())
+                for local_token, onfly_dict in zip(local_tokens, onfly_info)
+            ]
+            target_worker = total_tokens.index(min(total_tokens))
+            onfly_info[target_worker][req.dp_balance_id] = len(req.input_ids)
+            # 2. write the new onfly info to the shm
+            self.balance_meta.set_shared_onfly_info(onfly_info)
+
+        # logger.info(f"dp workers {local_tokens=}, {onfly_info=}, {target_worker=}")
+        self.workers[target_worker].send_pyobj(req)
+
     def event_loop(self):
         while True:
             while True:
@@ -302,9 +346,12 @@ def run_data_parallel_controller_process(
     setproctitle.setproctitle("sglang::data_parallel_controller")
     configure_logger(server_args)
     parent_process = psutil.Process().parent()
+    balance_meta = DPBalanceMeta(server_args.dp_size)
 
     try:
-        controller = DataParallelController(server_args, port_args)
+        controller = DataParallelController(
+            server_args, port_args, dp_balance_meta=balance_meta
+        )
         pipe_writer.send(
             {
                 "status": "ready",
@@ -323,3 +370,6 @@ def run_data_parallel_controller_process(
         traceback = get_exception_traceback()
         logger.error(f"DataParallelController hit an exception: {traceback}")
         parent_process.send_signal(signal.SIGQUIT)
+    finally:
+        # we need to destruct mp.Manager() in balance_meta
+        balance_meta.destructor()
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 2b5f19c71fbd..7935b4228e43 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -523,6 +523,9 @@ class TokenizedGenerateReqInput:
     # For data parallel rank routing
     data_parallel_rank: Optional[int] = None
 
+    # For dp balance
+    dp_balance_id: int = -1
+
 
 @dataclass
 class EmbeddingReqInput:
@@ -648,6 +651,8 @@ class TokenizedEmbeddingReqInput:
     token_type_ids: List[int]
     # Dummy sampling params for compatibility
     sampling_params: SamplingParams
+    # For dp balance
+    dp_balance_id: int = -1
 
 
 @dataclass
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 2a0b139f6090..0249acd8deb6 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -126,7 +126,7 @@
 from sglang.srt.managers.session_controller import Session
 from sglang.srt.managers.tp_worker import TpModelWorker
 from sglang.srt.managers.tp_worker_overlap_thread import TpModelWorkerClient
-from sglang.srt.managers.utils import validate_input_length
+from sglang.srt.managers.utils import DPBalanceMeta, validate_input_length
 from sglang.srt.mem_cache.chunk_cache import ChunkCache, SWAChunkCache
 from sglang.srt.mem_cache.hiradix_cache import HiRadixCache
 from sglang.srt.mem_cache.radix_cache import RadixCache
@@ -203,6 +203,7 @@ def __init__(
         moe_ep_rank: int,
         pp_rank: int,
         dp_rank: Optional[int],
+        dp_balance_meta: Optional[DPBalanceMeta] = None,
     ):
         # Parse args
         self.server_args = server_args
@@ -522,6 +523,15 @@ def __init__(
             ]
         )
 
+        self.balance_meta = dp_balance_meta
+        if (
+            server_args.enable_dp_attention
+            and server_args.load_balance_method == "minimum_tokens"
+        ):
+            assert dp_balance_meta is not None
+
+        self.recv_dp_balance_id_this_term = []
+
     def init_tokenizer(self):
         server_args = self.server_args
 
@@ -1049,6 +1059,12 @@ def handle_generate_request(
         self,
         recv_req: TokenizedGenerateReqInput,
     ):
+        if (
+            self.server_args.enable_dp_attention
+            and self.server_args.load_balance_method == "minimum_tokens"
+        ):
+            self.recv_dp_balance_id_this_term.append(recv_req.dp_balance_id)
+
         # Create a new request
         if (
             recv_req.session_params is None
@@ -1459,6 +1475,11 @@ def get_next_batch_to_run(self) -> Optional[ScheduleBatch]:
 
         # Handle DP attention
         if need_dp_attn_preparation:
+            if (
+                self.server_args.load_balance_method == "minimum_tokens"
+                and self.forward_ct % 40 == 0
+            ):
+                self.handle_dp_balance_data(ret)
             ret = self.prepare_mlp_sync_batch(ret)
 
         return ret
@@ -1786,6 +1807,86 @@ def prepare_mlp_sync_batch(self, local_batch: ScheduleBatch):
             disable_overlap_schedule=self.server_args.disable_overlap_schedule,
         )
 
+    def handle_dp_balance_data(self, local_batch: ScheduleBatch):
+        def gather_dp_balance_info(holding_tokens_list) -> Union[None, List[List[int]]]:
+            """gather recv_dp_balance_id_this_term and holding tokens per worker for dp balance"""
+            recv_list = self.recv_dp_balance_id_this_term
+            assert len(recv_list) <= 511, (
+                "The number of requests received this round is too large. "
+                "Please increase gather_tensor_size and onfly_info_size."
+            )
+            # The maximum size of the tensor used for gathering data from all workers.
+            gather_tensor_size = 512
+
+            # recv_tensor: | holding_tokens | len(recv_dp_balance_id) | recv_dp_balance_ids
+            recv_tensor = torch.zeros(gather_tensor_size, dtype=torch.int32)
+            recv_tensor[0] = holding_tokens_list
+            recv_tensor[1] = len(
+                recv_list
+            )  # The first element is the length of the list.
+            recv_tensor[2 : len(recv_list) + 2] = torch.tensor(
+                recv_list, dtype=torch.int32
+            )
+
+            if self.tp_rank == 0:
+                gathered_list = [
+                    torch.zeros(gather_tensor_size, dtype=torch.int32)
+                    for _ in range(self.balance_meta.num_workers)
+                ]
+            else:
+                gathered_list = None
+
+            torch.distributed.gather(
+                recv_tensor, gathered_list, group=self.tp_cpu_group
+            )
+
+            gathered_id_list_per_worker = None
+            if self.tp_rank == 0:
+                gathered_id_list_per_worker = []
+                holding_tokens_list = []
+                for tensor in gathered_list:
+                    holding_tokens_list.append(tensor[0].item())
+                    list_length = tensor[1].item()
+                    gathered_id_list_per_worker.append(
+                        tensor[2 : list_length + 2].tolist()
+                    )
+
+            return gathered_id_list_per_worker, holding_tokens_list
+
+        def write_shared_dp_balance_info(new_recv_rid_lists, local_tokens):
+            meta = self.balance_meta
+
+            with meta.mutex:
+                onfly_list: List[Dict[int, int]] = meta.get_shared_onfly()
+                assert len(new_recv_rid_lists) == len(
+                    onfly_list
+                ), "num_worker not equal"
+                # 1.Check if the rid received by each worker this round is present in onfly.
+                #   If it is, remove the corresponding onfly item.
+                worker_id = 0
+                for new_recv_rids, on_fly_reqs in zip(new_recv_rid_lists, onfly_list):
+                    for new_recv_rid in new_recv_rids:
+                        assert (
+                            new_recv_rid in on_fly_reqs
+                        ), f"{new_recv_rid=} not in {worker_id=} {on_fly_reqs=}, data consistency is wrong"
+                        del on_fly_reqs[new_recv_rid]
+                    worker_id += 1
+                # 2. Atomically write local_tokens and onfly into shm under the mutex
+                meta.set_shared_onfly_info(onfly_list)
+                meta.set_shared_local_tokens(local_tokens)
+
+        holding_tokens = self.get_load()
+
+        new_recv_dp_balance_id_list, holding_token_list = gather_dp_balance_info(
+            holding_tokens
+        )
+
+        self.recv_dp_balance_id_this_term.clear()
+        if self.tp_rank == 0:  # only first worker write info
+            write_shared_dp_balance_info(
+                new_recv_dp_balance_id_list, holding_token_list
+            )
+
     @staticmethod
     def prepare_mlp_sync_batch_raw(
         local_batch: ScheduleBatch,
@@ -2394,6 +2495,7 @@ def run_scheduler_process(
     pp_rank: int,
     dp_rank: Optional[int],
     pipe_writer,
+    balance_meta: Optional[DPBalanceMeta] = None,
 ):
     # Generate the prefix
     prefix = ""
@@ -2427,7 +2529,14 @@ def run_scheduler_process(
     # Create a scheduler and run the event loop
     try:
         scheduler = Scheduler(
-            server_args, port_args, gpu_id, tp_rank, moe_ep_rank, pp_rank, dp_rank
+            server_args,
+            port_args,
+            gpu_id,
+            tp_rank,
+            moe_ep_rank,
+            pp_rank,
+            dp_rank,
+            dp_balance_meta=balance_meta,
         )
         pipe_writer.send(
             {
diff --git a/python/sglang/srt/managers/utils.py b/python/sglang/srt/managers/utils.py
index 2909e759739b..2ab32f242778 100644
--- a/python/sglang/srt/managers/utils.py
+++ b/python/sglang/srt/managers/utils.py
@@ -1,6 +1,7 @@
 import logging
+import multiprocessing as mp
 from http import HTTPStatus
-from typing import Optional
+from typing import Dict, List, Optional
 
 from sglang.srt.managers.schedule_batch import FINISH_ABORT, Req
 
@@ -38,3 +39,46 @@ def validate_input_length(
             return error_msg
 
     return None
+
+
+class DPBalanceMeta:
+    """
+    This class will be use in scheduler and dp controller
+    """
+
+    def __init__(self, num_workers: int):
+        self.num_workers = num_workers
+        self._manager = mp.Manager()
+        self.mutex = self._manager.Lock()
+
+        init_local_tokens = [0] * self.num_workers
+        init_onfly_info = [self._manager.dict() for _ in range(self.num_workers)]
+
+        self.shared_state = self._manager.Namespace()
+        self.shared_state.local_tokens = self._manager.list(init_local_tokens)
+        self.shared_state.onfly_info = self._manager.list(init_onfly_info)
+
+    def destructor(self):
+        # we must destructor this class manually
+        self._manager.shutdown()
+
+    def get_shared_onfly(self) -> List[Dict[int, int]]:
+        return [dict(d) for d in self.shared_state.onfly_info]
+
+    def set_shared_onfly_info(self, data: List[Dict[int, int]]):
+        self.shared_state.onfly_info = data
+
+    def get_shared_local_tokens(self) -> List[int]:
+        return list(self.shared_state.local_tokens)
+
+    def set_shared_local_tokens(self, data: List[int]):
+        self.shared_state.local_tokens = data
+
+    def __getstate__(self):
+        state = self.__dict__.copy()
+        del state["_manager"]
+        return state
+
+    def __setstate__(self, state):
+        self.__dict__.update(state)
+        self._manager = None
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 7f3fd88b1c53..4691b3c7cfc5 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1171,6 +1171,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
             choices=[
                 "round_robin",
                 "shortest_queue",
+                "minimum_tokens",
             ],
         )
 
diff --git a/test/srt/test_dp_attention.py b/test/srt/test_dp_attention.py
index af50dc7803c1..f997382f9404 100644
--- a/test/srt/test_dp_attention.py
+++ b/test/srt/test_dp_attention.py
@@ -137,5 +137,60 @@ def test_gsm8k(self):
         self.assertGreater(avg_spec_accept_length, 2.5)
 
 
+class TestDPAttentionMinimumTokenLoadBalance(CustomTestCase):
+    @classmethod
+    def setUpClass(cls):
+        cls.model = DEFAULT_MLA_MODEL_NAME_FOR_TEST
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.process = popen_launch_server(
+            cls.model,
+            cls.base_url,
+            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+            other_args=[
+                "--trust-remote-code",
+                "--tp",
+                "2",
+                "--enable-dp-attention",
+                "--dp",
+                "2",
+                "--enable-torch-compile",
+                "--torch-compile-max-bs",
+                "2",
+                "--load-balance-method",
+                "minimum_tokens",
+            ],
+        )
+
+    @classmethod
+    def tearDownClass(cls):
+        kill_process_tree(cls.process.pid)
+
+    def test_mmlu(self):
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mmlu",
+            num_examples=64,
+            num_threads=32,
+        )
+
+        metrics = run_eval(args)
+        print(f"{metrics=}")
+        self.assertGreater(metrics["score"], 0.5)
+
+    def test_mgsm_en(self):
+        args = SimpleNamespace(
+            base_url=self.base_url,
+            model=self.model,
+            eval_name="mgsm_en",
+            num_examples=None,
+            num_threads=1024,
+        )
+
+        metrics = run_eval(args)
+        print(f"{metrics=}")
+        self.assertGreater(metrics["score"], 0.8)
+
+
 if __name__ == "__main__":
     unittest.main()

From 32f2815451f6893424c587c644992cbb7558afa5 Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Sun, 3 Aug 2025 00:53:08 -0700
Subject: [PATCH 320/396] Do layernorm before allgather for DP attention
 (#8631)

---
 python/sglang/srt/layers/communicator.py | 16 +++++++++++++---
 1 file changed, 13 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/communicator.py b/python/sglang/srt/layers/communicator.py
index 6c61675cb8a0..2e20c01bd80c 100644
--- a/python/sglang/srt/layers/communicator.py
+++ b/python/sglang/srt/layers/communicator.py
@@ -404,14 +404,24 @@ def _gather_hidden_states_and_residual(
         if context.attn_dp_size != 1:
             if context.attn_tp_rank == 0:
                 hidden_states += residual
+
+            # Perform layernorm on smaller data before comm. Only valid when attn_tp_size is 1 (tp_size == dp_size)
+            use_layer_norm_before_gather = context.attn_tp_size == 1
+            if use_layer_norm_before_gather:
+                residual.copy_(hidden_states)
+                if hidden_states.shape[0] != 0:
+                    hidden_states = layernorm(hidden_states)
+
             hidden_states, local_hidden_states = (
                 forward_batch.gathered_buffer,
                 hidden_states,
             )
             dp_gather_partial(hidden_states, local_hidden_states, forward_batch)
-            dp_scatter(residual, hidden_states, forward_batch)
-            if hidden_states.shape[0] != 0:
-                hidden_states = layernorm(hidden_states)
+
+            if not use_layer_norm_before_gather:
+                dp_scatter(residual, hidden_states, forward_batch)
+                if hidden_states.shape[0] != 0:
+                    hidden_states = layernorm(hidden_states)
         else:
             # According to the discussion in https://github.com/flashinfer-ai/flashinfer/issues/1223#issuecomment-3047256465
             # We set the max token num to 128 for allreduce fusion with min-latency case(use_oneshot=True).

From 7ed8e51bc31e2c7bd402a7fdcd3d77c24bab2dcf Mon Sep 17 00:00:00 2001
From: Varun Vinayak Shenoy <shenoyvvarun@gmail.com>
Date: Sun, 3 Aug 2025 00:55:55 -0700
Subject: [PATCH 321/396] [fix] Fix divide by zero error for llama4. (#8683)

---
 python/sglang/srt/models/llama4.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/python/sglang/srt/models/llama4.py b/python/sglang/srt/models/llama4.py
index 16cdd9e801e7..38dc2562a5eb 100644
--- a/python/sglang/srt/models/llama4.py
+++ b/python/sglang/srt/models/llama4.py
@@ -415,6 +415,8 @@ def __init__(
         )
 
     def _is_moe_layer(self, layer_id: int) -> bool:
+        if self.config.interleave_moe_layer_step == 0:
+            return self.config.num_local_experts > 0
         return (layer_id + 1) % self.config.interleave_moe_layer_step == 0
 
     def forward(

From a31b7a7024563b9d1bd32aaf52c419f3d7d0b968 Mon Sep 17 00:00:00 2001
From: Jasper James <122418720+17Reset@users.noreply.github.com>
Date: Sun, 3 Aug 2025 15:57:35 +0800
Subject: [PATCH 322/396] feat: Add new moe triton for NVIDIA RTX 6000 Ada
 (#8547)

---
 ...TX_6000_Ada_Generation,dtype=fp8_w8a8.json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=128,N=352,device_name=NVIDIA_RTX_6000_Ada_Generation,dtype=fp8_w8a8.json

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=128,N=352,device_name=NVIDIA_RTX_6000_Ada_Generation,dtype=fp8_w8a8.json b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=128,N=352,device_name=NVIDIA_RTX_6000_Ada_Generation,dtype=fp8_w8a8.json
new file mode 100644
index 000000000000..f8fd97b5e416
--- /dev/null
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_3_1/E=128,N=352,device_name=NVIDIA_RTX_6000_Ada_Generation,dtype=fp8_w8a8.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}

From 6f9baf100298636174188d845ee6d6493b29ca0c Mon Sep 17 00:00:00 2001
From: ybyang <10629930+whybeyoung@users.noreply.github.com>
Date: Sun, 3 Aug 2025 16:59:06 +0800
Subject: [PATCH 323/396] [Improvements] Merge health check route (#8444)

Signed-off-by: ybyang <ybyang7@iflytek.com>
Co-authored-by: Lianmin Zheng <lianminzheng@gmail.com>
Co-authored-by: Kan Wu <wukanustc@gmail.com>
---
 python/sglang/srt/disaggregation/prefill.py   |  1 +
 python/sglang/srt/entrypoints/http_server.py  | 50 +++++++++++++------
 python/sglang/srt/managers/scheduler.py       |  3 ++
 .../sglang/srt/managers/tokenizer_manager.py  | 15 ++++++
 python/sglang/srt/utils.py                    |  2 +-
 5 files changed, 55 insertions(+), 16 deletions(-)

diff --git a/python/sglang/srt/disaggregation/prefill.py b/python/sglang/srt/disaggregation/prefill.py
index 462727ffff79..c15c1eff00c1 100644
--- a/python/sglang/srt/disaggregation/prefill.py
+++ b/python/sglang/srt/disaggregation/prefill.py
@@ -460,6 +460,7 @@ def process_batch_result_disagg_prefill(
 
         # We need to remove the sync in the following function for overlap schedule.
         self.set_next_batch_sampling_info_done(batch)
+        self.maybe_send_health_check_signal()
 
     def process_disagg_prefill_inflight_queue(
         self: Scheduler, rids_to_check: Optional[List[str]] = None
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index b58987bcb0d0..180d33820807 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -45,6 +45,7 @@
 
 from sglang.srt.disaggregation.utils import (
     FAKE_BOOTSTRAP_HOST,
+    DisaggregationMode,
     register_disaggregation_server,
 )
 from sglang.srt.entrypoints.engine import _launch_subprocesses
@@ -88,7 +89,7 @@
     VertexGenerateReqInput,
 )
 from sglang.srt.managers.template_manager import TemplateManager
-from sglang.srt.managers.tokenizer_manager import TokenizerManager
+from sglang.srt.managers.tokenizer_manager import ServerStatus, TokenizerManager
 from sglang.srt.metrics.func_timer import enable_func_timer
 from sglang.srt.reasoning_parser import ReasoningParser
 from sglang.srt.server_args import ServerArgs
@@ -230,23 +231,28 @@ async def validate_json_request(raw_request: Request):
 
 
 @app.get("/health")
-async def health() -> Response:
-    """Check the health of the http server."""
-    return Response(status_code=200)
-
-
 @app.get("/health_generate")
 async def health_generate(request: Request) -> Response:
-    """Check the health of the inference server by generating one token."""
+    """
+    Check the health of the inference server by sending a special request to generate one token.
+
+    If the server is running something, this request will be ignored, so it creates zero overhead.
+    If the server is not running anything, this request will be run, so we know whether the server is healthy.
+    """
+
     if _global_state.tokenizer_manager.gracefully_exit:
         logger.info("Health check request received during shutdown. Returning 503.")
         return Response(status_code=503)
 
+    if not _global_state.tokenizer_manager.server_status.is_healthy():
+        return Response(status_code=503)
+
     sampling_params = {"max_new_tokens": 1, "temperature": 0.0}
     rid = f"HEALTH_CHECK_{time.time()}"
 
     if _global_state.tokenizer_manager.is_image_gen:
-        raise NotImplementedError()
+        # Keep this branch for some internal use cases.
+        raise NotImplementedError("Image generation is not supported yet.")
     elif _global_state.tokenizer_manager.is_generation:
         gri = GenerateReqInput(
             rid=rid,
@@ -254,6 +260,12 @@ async def health_generate(request: Request) -> Response:
             sampling_params=sampling_params,
             log_metrics=False,
         )
+        if (
+            _global_state.tokenizer_manager.server_args.disaggregation_mode
+            != DisaggregationMode.NULL
+        ):
+            gri.bootstrap_host = FAKE_BOOTSTRAP_HOST
+            gri.bootstrap_room = 0
     else:
         gri = EmbeddingReqInput(
             rid=rid, input_ids=[0], sampling_params=sampling_params, log_metrics=False
@@ -263,9 +275,6 @@ async def gen():
         async for _ in _global_state.tokenizer_manager.generate_request(gri, request):
             break
 
-    # This request is a special request.
-    # If the server already has something running, this request will be ignored, so it creates zero overhead.
-    # If the server is not running, this request will be run, so we know whether the server is healthy.
     task = asyncio.create_task(gen())
 
     # As long as we receive any response from the detokenizer/scheduler, we consider the server is healthy.
@@ -1032,8 +1041,10 @@ def _execute_server_warmup(
                 timeout=600,
             )
             assert res.status_code == 200, f"{res}"
+            _global_state.tokenizer_manager.server_status = ServerStatus.Up
+
         else:
-            logger.info(f"Start of prefill warmup ...")
+            logger.info(f"Start of pd disaggregation warmup ...")
             json_data = {
                 "sampling_params": {
                     "temperature": 0.0,
@@ -1055,9 +1066,18 @@ def _execute_server_warmup(
                 headers=headers,
                 timeout=1800,  # because of deep gemm precache is very long if not precache.
             )
-            logger.info(
-                f"End of prefill warmup with status {res.status_code}, resp: {res.json()}"
-            )
+            if res.status_code == 200:
+                logger.info(
+                    f"End of prefill disaggregation mode warmup with status {res.status_code}, resp: {res.json()}"
+                )
+                _global_state.tokenizer_manager.server_status = ServerStatus.Up
+            else:
+                logger.info(
+                    "Prefill disaggregation mode warm Up Failed, status code: {}".format(
+                        res.status_code
+                    )
+                )
+                _global_state.tokenizer_manager.server_status = ServerStatus.UnHealthy
 
     except Exception:
         last_traceback = get_exception_traceback()
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 0249acd8deb6..5f9b7f20fa6a 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1781,6 +1781,9 @@ def process_batch_result(
         elif batch.forward_mode.is_dummy_first():
             self.set_next_batch_sampling_info_done(batch)
 
+        self.maybe_send_health_check_signal()
+
+    def maybe_send_health_check_signal(self):
         if self.return_health_check_ct:
             # Return some signal for the health check.
             # This is used to prevent the health check signal being blocked by long context prefill.
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 89326bf063c7..cbd1c73327d9 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -29,6 +29,7 @@
 from collections import deque
 from contextlib import nullcontext
 from datetime import datetime
+from enum import Enum
 from http import HTTPStatus
 from typing import (
     Any,
@@ -115,6 +116,7 @@
 )
 from sglang.srt.managers.mm_utils import TensorTransportMode
 from sglang.srt.managers.multimodal_processor import get_mm_processor, import_processors
+from sglang.srt.managers.scheduler import is_health_check_generate_req
 from sglang.srt.managers.scheduler_input_blocker import input_blocker_guard_region
 from sglang.srt.metrics.collector import TokenizerMetricsCollector
 from sglang.srt.sampling.sampling_params import SamplingParams
@@ -270,6 +272,7 @@ def __init__(
         self.health_check_failed = False
         self.gracefully_exit = False
         self.last_receive_tstamp = 0
+        self.server_status = ServerStatus.Starting
 
         # Dumping
         self.dump_requests_folder = ""  # By default do not dump
@@ -1804,6 +1807,8 @@ def background_task():
         asyncio.create_task(asyncio.to_thread(background_task))
 
     def _handle_abort_req(self, recv_obj):
+        if is_health_check_generate_req(recv_obj):
+            return
         state = self.rid_to_state[recv_obj.rid]
         state.finished = True
         if recv_obj.finished_reason:
@@ -1938,6 +1943,16 @@ async def score_request(
         return scores
 
 
+class ServerStatus(Enum):
+    Up = "Up"
+    Starting = "Starting"
+    UnHealthy = "UnHealthy"
+    Crashed = "Crashed"
+
+    def is_healthy(self) -> bool:
+        return self == ServerStatus.Up
+
+
 def _determine_tensor_transport_mode(server_args: ServerArgs) -> TensorTransportMode:
     is_cross_node = server_args.dist_init_addr
 
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index cc1ed84313a2..db841b3fd930 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -44,7 +44,6 @@
 import warnings
 from collections import OrderedDict, defaultdict
 from contextlib import contextmanager
-from enum import Enum
 from functools import lru_cache
 from importlib.metadata import PackageNotFoundError, version
 from importlib.util import find_spec
@@ -93,6 +92,7 @@
 show_time_cost = False
 time_infos = {}
 
+
 HIP_FP8_E4M3_FNUZ_MAX = 224.0
 
 

From 5ce5093b979d4235e22dbadc36480752833f3a1b Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sun, 3 Aug 2025 02:31:50 -0700
Subject: [PATCH 324/396] chore: bump sgl-kernel 0.3.0 with torch 2.8.0 (#8718)

---
 .github/workflows/pr-test-sgl-kernel.yml | 4 ++--
 sgl-kernel/build.sh                      | 4 ++--
 sgl-kernel/pyproject.toml                | 4 ++--
 sgl-kernel/pyproject_cpu.toml            | 2 +-
 sgl-kernel/pyproject_rocm.toml           | 4 ++--
 sgl-kernel/python/sgl_kernel/version.py  | 2 +-
 6 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/.github/workflows/pr-test-sgl-kernel.yml b/.github/workflows/pr-test-sgl-kernel.yml
index f5da9d3b747e..b81859ad4e2b 100644
--- a/.github/workflows/pr-test-sgl-kernel.yml
+++ b/.github/workflows/pr-test-sgl-kernel.yml
@@ -85,7 +85,7 @@ jobs:
       - name: Install
         run: |
           bash scripts/ci_install_dependency.sh
-          pip3 install torch==2.7.1 torchvision && pip3 install pytest
+          pip3 install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu126 && pip3 install pytest
           pip3 uninstall sgl-kernel -y || true
           pip3 install sgl-kernel/dist/*whl --force-reinstall --no-deps
           pip3 list | grep sgl-kernel
@@ -117,7 +117,7 @@ jobs:
       - name: Install
         run: |
           bash scripts/ci_install_dependency.sh
-          pip3 install torch==2.7.1 torchvision
+          pip3 install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu126
           pip3 uninstall sgl-kernel -y || true
           pip3 install sgl-kernel/dist/*whl --force-reinstall --no-deps
           pip3 list | grep sgl-kernel
diff --git a/sgl-kernel/build.sh b/sgl-kernel/build.sh
index a39e506bbd43..4e18c1743c0b 100755
--- a/sgl-kernel/build.sh
+++ b/sgl-kernel/build.sh
@@ -23,10 +23,10 @@ fi
 
 if [ ${CUDA_VERSION} = "12.8" ]; then
    DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
-   TORCH_INSTALL="pip install --no-cache-dir torch==2.7.1 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION//.}"
+   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu128"
 else
    DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
-   TORCH_INSTALL="pip install --no-cache-dir torch==2.7.1"
+   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu126"
 fi
 
 docker run --rm \
diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index 05a5a973402e..e5462a748b37 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -1,14 +1,14 @@
 [build-system]
 requires = [
   "scikit-build-core>=0.10",
-  "torch>=2.7.1",
+  "torch>=2.8.0",
   "wheel",
 ]
 build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.9"
+version = "0.3.0"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index 573e61bd530d..a6c9c8d8e6e7 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.9"
+version = "0.3.0"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 1bc89651f91c..30529ce77ddd 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -2,14 +2,14 @@
 requires = [
   "setuptools>=75.0",
   "scikit-build-core>=0.10",
-  "torch>=2.7.1",
+  "torch>=2.8.0",
   "wheel",
 ]
 build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.2.9"
+version = "0.3.0"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index 75cf7831c499..493f7415d73d 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.2.9"
+__version__ = "0.3.0"

From 7a9133014910fec69e3013b91d5d0d0a3f9b418e Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sun, 3 Aug 2025 03:06:31 -0700
Subject: [PATCH 325/396] Save cuda graph memory for fa3 (#8567)

---
 .../layers/attention/flashattention_backend.py | 18 +++++++-----------
 1 file changed, 7 insertions(+), 11 deletions(-)

diff --git a/python/sglang/srt/layers/attention/flashattention_backend.py b/python/sglang/srt/layers/attention/flashattention_backend.py
index 740b46b6be18..785cbf1d8580 100644
--- a/python/sglang/srt/layers/attention/flashattention_backend.py
+++ b/python/sglang/srt/layers/attention/flashattention_backend.py
@@ -1406,7 +1406,7 @@ def init_forward_metadata_capture_cuda_graph(
                     )
                     metadata.page_table = self.decode_cuda_graph_metadata[
                         "page_table_draft_decode"
-                    ][req_pool_indices, :]
+                    ][:bs, :]
                     self.decode_cuda_graph_metadata[bs] = metadata
                 else:
                     # When top k > 1, we need two specific draft decode metadata, and then merge states
@@ -1424,7 +1424,7 @@ def init_forward_metadata_capture_cuda_graph(
                     ][: bs + 1]
                     metadata.page_table = self.draft_decode_metadata_topk_normal[
                         "page_table"
-                    ][req_pool_indices, :]
+                    ][:bs, :]
 
                     # 2. The second half of metadata for draft tokens (per_batch_num_tokens = topk)
                     metadata_expand.cache_seqlens_int32 = (
@@ -1461,7 +1461,7 @@ def init_forward_metadata_capture_cuda_graph(
                 metadata.max_seq_len_k = seq_lens.max().item()
                 # Precompute page table
                 metadata.page_table = self.decode_cuda_graph_metadata["page_table"][
-                    req_pool_indices, :
+                    :bs, :
                 ]
                 # Precompute cumulative sequence lengths
                 metadata.cu_seqlens_q = torch.arange(
@@ -1498,9 +1498,7 @@ def init_forward_metadata_capture_cuda_graph(
                     : (bs + 1)
                 ]
 
-                metadata.page_table = self.target_verify_metadata["page_table"][
-                    req_pool_indices, :
-                ]
+                metadata.page_table = self.target_verify_metadata["page_table"][:bs, :]
 
                 self.target_verify_metadata[bs] = metadata
             else:
@@ -1519,7 +1517,7 @@ def init_forward_metadata_capture_cuda_graph(
                 ][: bs + 1]
                 metadata.page_table = self.target_verify_metadata_topk_normal[
                     "page_table"
-                ][req_pool_indices, :]
+                ][:bs, :]
 
                 # 2. The second half of metadata for draft tokens (per_batch_num_tokens = topk)
                 metadata_expand.cache_seqlens_int32 = (
@@ -1562,9 +1560,7 @@ def init_forward_metadata_capture_cuda_graph(
             metadata.cu_seqlens_k = self.draft_extend_metadata["cu_seqlens_k"][
                 : (bs + 1)
             ]
-            metadata.page_table = self.draft_extend_metadata["page_table"][
-                req_pool_indices, :
-            ]
+            metadata.page_table = self.draft_extend_metadata["page_table"][:bs, :]
 
             self.draft_extend_metadata[bs] = metadata
 
@@ -1578,7 +1574,7 @@ def init_forward_metadata_capture_cuda_graph(
             ][: (encoder_bs + 1)]
 
             metadata.encoder_page_table = self.encoder_metadata["encoder_page_table"][
-                req_pool_indices, :
+                :bs, :
             ]
 
         self.forward_metadata = metadata

From cb099d2095edea109ae95d243a22bc9151cf85c4 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sun, 3 Aug 2025 03:06:47 -0700
Subject: [PATCH 326/396] [CUDA Graph] save cuda graph memory by using
 next_token_logits_buffer (#8579)

---
 python/sglang/srt/layers/logits_processor.py   | 10 +++++++++-
 .../srt/model_executor/cuda_graph_runner.py    |  7 +++++++
 .../srt/model_executor/forward_batch_info.py   |  1 +
 .../eagle_draft_extend_cuda_graph_runner.py    | 18 ++++++++++++++++++
 python/sglang/srt/two_batch_overlap.py         |  1 +
 5 files changed, 36 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/logits_processor.py b/python/sglang/srt/layers/logits_processor.py
index 90f981c578aa..3384f5efa35c 100644
--- a/python/sglang/srt/layers/logits_processor.py
+++ b/python/sglang/srt/layers/logits_processor.py
@@ -83,6 +83,7 @@ class LogitsProcessorOutput:
 class LogitsMetadata:
     forward_mode: ForwardMode
     capture_hidden_mode: CaptureHiddenMode = CaptureHiddenMode.NULL
+    next_token_logits_buffer: Optional[torch.Tensor] = None
 
     extend_return_logprob: bool = False
     extend_return_top_logprob: bool = False
@@ -148,6 +149,7 @@ def from_forward_batch(cls, forward_batch: ForwardBatch):
         return cls(
             forward_mode=forward_batch.forward_mode,
             capture_hidden_mode=forward_batch.capture_hidden_mode,
+            next_token_logits_buffer=forward_batch.next_token_logits_buffer,
             extend_return_logprob=extend_return_logprob,
             extend_return_top_logprob=extend_return_top_logprob,
             extend_token_ids_logprob=extend_token_ids_logprob,
@@ -508,7 +510,13 @@ def _get_logits(
             )
             dp_scatter(logits, global_logits, logits_metadata)
 
-        logits = logits[:, : self.config.vocab_size].float()
+        if logits_metadata.next_token_logits_buffer is not None:
+            logits_buffer = logits_metadata.next_token_logits_buffer
+            assert logits_buffer.dtype == torch.float
+            logits_buffer.copy_(logits[:, : self.config.vocab_size])
+            logits = logits_buffer
+        else:
+            logits = logits[:, : self.config.vocab_size].float()
 
         if self.final_logit_softcapping:
             fused_softcap(logits, self.final_logit_softcapping)
diff --git a/python/sglang/srt/model_executor/cuda_graph_runner.py b/python/sglang/srt/model_executor/cuda_graph_runner.py
index e5a8cc872efc..39120f2cdfa8 100644
--- a/python/sglang/srt/model_executor/cuda_graph_runner.py
+++ b/python/sglang/srt/model_executor/cuda_graph_runner.py
@@ -375,6 +375,11 @@ def __init__(self, model_runner: ModelRunner):
                 dtype=torch.bool,
                 device="cuda",
             )
+            self.next_token_logits_buffer = torch.zeros(
+                (self.max_num_token, self.model_runner.model_config.vocab_size),
+                dtype=torch.float,
+                device="cuda",
+            )
 
         # Capture
         try:
@@ -520,6 +525,7 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
         else:
             encoder_lens = None
         mrope_positions = self.mrope_positions[:, :bs]
+        next_token_logits_buffer = self.next_token_logits_buffer[:num_tokens]
         self.num_token_non_padded[...] = num_tokens
 
         # pipeline parallelism
@@ -582,6 +588,7 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             input_ids=input_ids,
             req_pool_indices=req_pool_indices,
             seq_lens=seq_lens,
+            next_token_logits_buffer=next_token_logits_buffer,
             req_to_token_pool=self.model_runner.req_to_token_pool,
             token_to_kv_pool=self.model_runner.token_to_kv_pool,
             attn_backend=self.model_runner.attn_backend,
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 92eeb68601f1..5f8cc0ed4cae 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -189,6 +189,7 @@ class ForwardBatch:
     token_ids_logprobs: Optional[List[List[int]]] = None
 
     # For logits and logprobs post processing
+    next_token_logits_buffer: torch.Tensor = None
     temp_scaled_logprobs: bool = False
     temperature: torch.Tensor = None
     top_p_normalized_logprobs: bool = False
diff --git a/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py b/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
index f4ed31d7e995..08d823a0b241 100644
--- a/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
+++ b/python/sglang/srt/speculative/eagle_draft_extend_cuda_graph_runner.py
@@ -142,6 +142,22 @@ def __init__(self, eagle_worker: EAGLEWorker):
                 self.global_num_tokens_for_logprob_gpu = None
                 self.gathered_buffer = None
 
+            if hasattr(
+                self.model_runner.model_config.hf_config, "draft_vocab_size"
+            ):  # llama_eagle
+                vocab_size = self.model_runner.model_config.hf_config.draft_vocab_size
+            elif hasattr(
+                self.model_runner.model_config.hf_config, "hot_vocab_size"
+            ):  # llama_eagle3
+                vocab_size = self.model_runner.model_config.hf_config.hot_vocab_size
+            else:
+                vocab_size = self.model_runner.model_config.vocab_size
+
+            self.next_token_logits_buffer = torch.zeros(
+                (self.max_bs, vocab_size),
+                dtype=torch.float,
+            )
+
         # Capture
         try:
             with model_capture_mode():
@@ -189,6 +205,7 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
         out_cache_loc = self.out_cache_loc[:num_tokens]
         positions = self.positions[:num_tokens]
         hidden_states = self.hidden_states[:num_tokens]
+        next_token_logits_buffer = self.next_token_logits_buffer[:bs]
 
         if self.require_mlp_tp_gather:
             self.global_num_tokens_gpu.copy_(
@@ -238,6 +255,7 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             input_ids=input_ids,
             req_pool_indices=req_pool_indices,
             seq_lens=seq_lens,
+            next_token_logits_buffer=next_token_logits_buffer,
             req_to_token_pool=self.model_runner.req_to_token_pool,
             token_to_kv_pool=self.model_runner.token_to_kv_pool,
             out_cache_loc=out_cache_loc,
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index 2babeefc136b..eea5623dc9f8 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -564,6 +564,7 @@ def filter_batch(
                 mm_inputs=None,
                 top_logprobs_nums=None,
                 token_ids_logprobs=None,
+                next_token_logits_buffer=None,
             )
         )
 

From 0e0eef00ce465256d3839018371bd98b9a82df3e Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sun, 3 Aug 2025 03:06:57 -0700
Subject: [PATCH 327/396] [DP] fix the compatibility issue between DP attention
 and `--attention-backend triton` (#8723)

---
 .../sglang/srt/model_executor/forward_batch_info.py  | 12 ++++++++++--
 1 file changed, 10 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 5f8cc0ed4cae..4e73dd9ae435 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -646,12 +646,17 @@ def prepare_mlp_sync_batch(self, model_runner: ModelRunner):
             device=model_runner.device,
         )
 
-        bs = self.batch_size
         if len(global_num_tokens) > 1:
             num_tokens = global_num_tokens[get_attention_dp_rank()]
         else:
             num_tokens = global_num_tokens[0]
 
+        if self.forward_mode.is_decode():
+            setattr(self, "raw_bs", self.batch_size)
+            self.batch_size = num_tokens
+
+        bs = self.batch_size
+
         # padding
         self.input_ids = self._pad_tensor_to_size(self.input_ids, num_tokens)
         self.req_pool_indices = self._pad_tensor_to_size(self.req_pool_indices, bs)
@@ -659,6 +664,9 @@ def prepare_mlp_sync_batch(self, model_runner: ModelRunner):
         seq_len_fill_value = (
             model_runner.attn_backend.get_cuda_graph_seq_len_fill_value()
         )
+        self.seq_lens_sum = self.seq_lens_sum + seq_len_fill_value * (
+            bs - self.seq_lens.shape[0]
+        )
         self.seq_lens = self._pad_tensor_to_size(
             self.seq_lens, bs, value=seq_len_fill_value
         )
@@ -702,7 +710,7 @@ def prepare_mlp_sync_batch(self, model_runner: ModelRunner):
 
     def post_forward_mlp_sync_batch(self, logits_output: LogitsProcessorOutput):
 
-        bs = self.batch_size
+        bs = getattr(self, "raw_bs", self.batch_size)
 
         if self.spec_info is not None:
             if self.forward_mode.is_decode():  # draft

From 8cd344586e09669432d35c678b7cc208c0a6f47e Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Sun, 3 Aug 2025 03:43:29 -0700
Subject: [PATCH 328/396] chore: bump v0.4.10.post2 (#8727)

---
 benchmark/deepseek_v3/README.md        |  2 +-
 docs/references/setup_github_runner.md |  4 ++--
 docs/start/install.md                  | 12 ++++++------
 python/pyproject.toml                  |  2 +-
 python/sglang/version.py               |  2 +-
 5 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/benchmark/deepseek_v3/README.md b/benchmark/deepseek_v3/README.md
index a06224dd19b4..b8194aedf08a 100644
--- a/benchmark/deepseek_v3/README.md
+++ b/benchmark/deepseek_v3/README.md
@@ -33,7 +33,7 @@ Add [performance optimization options](#performance-optimization-options) as nee
 
 ```bash
 # Installation
-pip install "sglang[all]>=0.4.10.post1"
+pip install "sglang[all]>=0.4.10.post2"
 
 # Launch
 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
diff --git a/docs/references/setup_github_runner.md b/docs/references/setup_github_runner.md
index 16ddb27ca31d..40d9916c3146 100644
--- a/docs/references/setup_github_runner.md
+++ b/docs/references/setup_github_runner.md
@@ -11,9 +11,9 @@ docker pull nvidia/cuda:12.1.1-devel-ubuntu22.04
 # Nvidia
 docker run --shm-size 128g -it -v /tmp/huggingface:/hf_home --gpus all nvidia/cuda:12.1.1-devel-ubuntu22.04 /bin/bash
 # AMD
-docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10.post1-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10.post2-rocm630 /bin/bash
 # AMD just the last 2 GPUs
-docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10.post1-rocm630 /bin/bash
+docker run --rm --device=/dev/kfd --device=/dev/dri/renderD176 --device=/dev/dri/renderD184 --group-add video --shm-size 128g -it -v /tmp/huggingface:/hf_home lmsysorg/sglang:v0.4.10.post2-rocm630 /bin/bash
 ```
 
 ### Step 2: Configure the runner by `config.sh`
diff --git a/docs/start/install.md b/docs/start/install.md
index 10203a9e5d57..b92abffcf411 100644
--- a/docs/start/install.md
+++ b/docs/start/install.md
@@ -11,7 +11,7 @@ It is recommended to use uv to install the dependencies for faster installation:
 ```bash
 pip install --upgrade pip
 pip install uv
-uv pip install "sglang[all]>=0.4.10.post1"
+uv pip install "sglang[all]>=0.4.10.post2"
 ```
 
 **Quick Fixes to Common Problems**
@@ -27,7 +27,7 @@ uv pip install "sglang[all]>=0.4.10.post1"
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.10.post1 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.10.post2 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -42,7 +42,7 @@ Note: For AMD ROCm system with Instinct/MI GPUs, do following instead:
 
 ```bash
 # Use the last release branch
-git clone -b v0.4.10.post1 https://github.com/sgl-project/sglang.git
+git clone -b v0.4.10.post2 https://github.com/sgl-project/sglang.git
 cd sglang
 
 pip install --upgrade pip
@@ -74,7 +74,7 @@ docker run --gpus all \
 Note: For AMD ROCm system with Instinct/MI GPUs, it is recommended to use `docker/Dockerfile.rocm` to build images, example and usage as below:
 
 ```bash
-docker build --build-arg SGL_BRANCH=v0.4.10.post1 -t v0.4.10.post1-rocm630 -f Dockerfile.rocm .
+docker build --build-arg SGL_BRANCH=v0.4.10.post2 -t v0.4.10.post2-rocm630 -f Dockerfile.rocm .
 
 alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/dri --ipc=host \
     --shm-size 16G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
@@ -83,11 +83,11 @@ alias drun='docker run -it --rm --network=host --device=/dev/kfd --device=/dev/d
 drun -p 30000:30000 \
     -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HF_TOKEN=<secret>" \
-    v0.4.10.post1-rocm630 \
+    v0.4.10.post2-rocm630 \
     python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
 
 # Till flashinfer backend available, --attention-backend triton --sampling-backend pytorch are set by default
-drun v0.4.10.post1-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
+drun v0.4.10.post2-rocm630 python3 -m sglang.bench_one_batch --batch-size 32 --input 1024 --output 128 --model amd/Meta-Llama-3.1-8B-Instruct-FP8-KV --tp 8 --quantization fp8
 ```
 
 Note: Please refer to [the CPU installation guide using Docker](../references/cpu.md#install-using-docker)
diff --git a/python/pyproject.toml b/python/pyproject.toml
index 2edc607276a1..00f5616e5f48 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sglang"
-version = "0.4.10.post1"
+version = "0.4.10.post2"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.8"
diff --git a/python/sglang/version.py b/python/sglang/version.py
index f526d41e7226..76bff2cc2946 100644
--- a/python/sglang/version.py
+++ b/python/sglang/version.py
@@ -1 +1 @@
-__version__ = "0.4.10.post1"
+__version__ = "0.4.10.post2"

From 00da9065846b293b2b1395c0282fdf2c9f4e35a7 Mon Sep 17 00:00:00 2001
From: yhyang201 <47235274+yhyang201@users.noreply.github.com>
Date: Sun, 3 Aug 2025 19:35:26 +0800
Subject: [PATCH 329/396] feat: Support DP Attention for step3_vl (#8699)

---
 python/sglang/srt/layers/attention/vision.py   | 18 +++++++++++++-----
 python/sglang/srt/models/step3_vl.py           |  9 +++++++++
 .../srt/multimodal/processors/step3_vl.py      |  4 +++-
 3 files changed, 25 insertions(+), 6 deletions(-)

diff --git a/python/sglang/srt/layers/attention/vision.py b/python/sglang/srt/layers/attention/vision.py
index ed7a36cdb629..f5d140b04319 100644
--- a/python/sglang/srt/layers/attention/vision.py
+++ b/python/sglang/srt/layers/attention/vision.py
@@ -11,6 +11,7 @@
 import torch.nn.functional as F
 from einops import rearrange
 
+from sglang.srt.layers.dp_attention import get_attention_tp_rank, get_attention_tp_size
 from sglang.srt.utils import is_cuda, print_info_once
 
 _is_cuda = is_cuda()
@@ -365,19 +366,20 @@ def __init__(
         **kwargs,
     ):
         super().__init__()
-        world_size = parallel_state.get_tensor_model_parallel_world_size()
-        self.tp_size = world_size
-        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
+        attn_tp_rank = get_attention_tp_rank()
+        attn_tp_size = get_attention_tp_size()
+        self.tp_size = attn_tp_size
+        self.tp_rank = attn_tp_rank
         self.dropout = dropout
         self.head_size = embed_dim // num_heads
         self.hidden_size_per_attention_head = dist_utils.divide(
             projection_size, num_heads
         )
         self.num_attention_heads_per_partition = dist_utils.divide(
-            num_dummy_heads + num_heads, world_size
+            num_dummy_heads + num_heads, self.tp_size
         )
         self.num_attention_kv_heads_per_partition = dist_utils.divide(
-            num_dummy_heads + num_heads, world_size
+            num_dummy_heads + num_heads, self.tp_size
         )
 
         self.q_size = self.num_attention_heads_per_partition * self.head_size
@@ -427,6 +429,8 @@ def __init__(
                 total_num_kv_heads=num_dummy_heads + num_heads,
                 bias=qkv_bias,
                 quant_config=quant_config,
+                tp_rank=self.tp_rank,
+                tp_size=self.tp_size,
                 prefix=add_prefix("qkv_proj", prefix),
             )
         else:
@@ -435,6 +439,8 @@ def __init__(
                 output_size=3 * self.dummy_dim,
                 bias=qkv_bias,
                 quant_config=quant_config,
+                tp_rank=self.tp_rank,
+                tp_size=self.tp_size,
                 prefix=add_prefix("qkv_proj", prefix),
             )
         self.proj = RowParallelLinear(
@@ -442,6 +448,8 @@ def __init__(
             output_size=embed_dim,
             bias=proj_bias,
             quant_config=quant_config,
+            tp_rank=self.tp_rank,
+            tp_size=self.tp_size,
             prefix=add_prefix("proj", prefix),
         )
 
diff --git a/python/sglang/srt/models/step3_vl.py b/python/sglang/srt/models/step3_vl.py
index bab8712a6466..b0c2e0a81df1 100644
--- a/python/sglang/srt/models/step3_vl.py
+++ b/python/sglang/srt/models/step3_vl.py
@@ -531,11 +531,18 @@ def __init__(
         prefix: str = "",
     ) -> None:
         super().__init__()
+        # Since this is a dense model,
+        # the MLP component likewise adopts a DP-MLP approach modeled after DP Attention.
+        # This choice may not represent the optimal solution and remains open to further deliberation.
+        attn_tp_rank = get_attention_tp_rank()
+        attn_tp_size = get_attention_tp_size()
         self.fc1 = ColumnParallelLinear(
             dim,
             intermediate_size,
             bias=bias,
             quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
             prefix=add_prefix("gate_proj", prefix),
         )
         self.act = ACT2FN[hidden_act]  # quick_gelu
@@ -544,6 +551,8 @@ def __init__(
             dim,
             bias=bias,
             quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
             prefix=add_prefix("down_proj", prefix),
         )
 
diff --git a/python/sglang/srt/multimodal/processors/step3_vl.py b/python/sglang/srt/multimodal/processors/step3_vl.py
index 4ed09635b83b..ee537e68e7a6 100644
--- a/python/sglang/srt/multimodal/processors/step3_vl.py
+++ b/python/sglang/srt/multimodal/processors/step3_vl.py
@@ -8,7 +8,7 @@
 from PIL import Image
 from torchvision import transforms
 from torchvision.transforms import InterpolationMode
-from transformers import BatchFeature, TensorType
+from transformers import BatchFeature, ProcessorMixin, TensorType
 
 from sglang.srt.models.step3_vl import Step3VLForConditionalGeneration
 from sglang.srt.multimodal.processors.base_processor import (
@@ -276,6 +276,8 @@ def __init__(
         super().__init__()
 
         self.config = config
+        if isinstance(tokenizer, ProcessorMixin):
+            tokenizer = tokenizer.tokenizer
         self.tokenizer = tokenizer
 
         self.image_size = 728

From 3435a24e815760e5b5ccfec1571e971a57e4e959 Mon Sep 17 00:00:00 2001
From: Zilin Zhu <zhuzilinallen@gmail.com>
Date: Mon, 4 Aug 2025 01:20:39 +0800
Subject: [PATCH 330/396] [RL] fix update weight for FusedMoE with EP (#8676)

---
 .../srt/layers/moe/fused_moe_triton/layer.py       | 14 +++++++++++---
 1 file changed, 11 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 3960e22a6ae3..d0a9ed132562 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -124,15 +124,18 @@ def __init__(
         if self.moe_ep_size > 1:
             # TODO(ch-wan): support shared experts fusion
             # Create a tensor of size num_experts filled with -1
-            self.expert_map_cpu = torch.full((self.num_experts,), -1, dtype=torch.int32)
+            self.expert_map_cpu = torch.full(
+                (self.num_experts,), -1, dtype=torch.int32, device="cpu"
+            )
+            self.expert_map_cpu = torch.full(
+                (self.num_experts,), -1, dtype=torch.int32, device="cpu"
+            )
             # Create a expert map for the local experts
             self.expert_map_cpu[
                 self.moe_ep_rank
                 * self.num_local_experts : (self.moe_ep_rank + 1)
                 * self.num_local_experts
             ] = torch.arange(0, self.num_local_experts, dtype=torch.int32, device="cpu")
-            if not self.enable_flashinfer_cutlass_moe:
-                self.expert_map_gpu = self.expert_map_cpu.to(device="cuda")
 
         self.routed_scaling_factor = routed_scaling_factor
         assert intermediate_size % self.moe_tp_size == 0
@@ -624,6 +627,11 @@ def _weight_loader_impl(
     def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
         assert self.quant_method is not None
 
+        if self.moe_ep_size > 1 and not self.enable_flashinfer_cutlass_moe:
+            if self.expert_map_cpu is not None and self.expert_map_gpu is None:
+                # If we are in EP mode, we need to move the expert map to GPU.
+                self.expert_map_gpu = self.expert_map_cpu.to(device="cuda")
+
         if self.expert_map_gpu is not None:
             topk_output = topk_output._replace(
                 topk_ids=self.expert_map_gpu[topk_output.topk_ids]

From 760286e3d378780546b88c6d9e932bc178d39669 Mon Sep 17 00:00:00 2001
From: Yuxuan Zhang <2448370773@qq.com>
Date: Mon, 4 Aug 2025 01:43:40 +0800
Subject: [PATCH 331/396] use fp32 for e_score_correction_bias in GLM-4.5
 (#8729)

---
 python/sglang/srt/models/glm4_moe.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index badbb56ca861..76f954578ad3 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -343,7 +343,7 @@ def __init__(
             torch.empty((config.n_routed_experts, config.hidden_size))
         )
         self.e_score_correction_bias = nn.Parameter(
-            torch.empty((config.n_routed_experts))
+            torch.empty((config.n_routed_experts), dtype=torch.float32)
         )
         if _is_cpu and _is_cpu_amx_available:
             self.quant_method = PackWeightMethod(weight_names=["weight"])

From 0242bb9c7437d7b597d8145b5db61f888614e5f9 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Mon, 4 Aug 2025 01:45:15 +0800
Subject: [PATCH 332/396] Fix triton kernels topk with keyword arguments
 (#8732)

---
 python/sglang/srt/layers/moe/topk.py | 25 ++++++++++++++++++++++---
 1 file changed, 22 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index f2365d70ee9f..b372858f7be3 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -183,12 +183,15 @@ def forward_cuda(
         *,
         num_token_non_padded: Optional[torch.Tensor] = None,
         expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
+        sm_first: bool = False,  # only used for triton kernels topk
     ) -> TopKOutput:
         if self.use_triton_kernels:
-            routing_data, gather_idx, scatter_idx = routing(
-                router_logits, self.top_k, self.renormalize
+            return triton_kernels_topk(
+                router_logits=router_logits,
+                topk=self.top_k,
+                renormalize=self.renormalize,
+                sm_first=sm_first,
             )
-            return TritonKernelTopKOutput(routing_data, gather_idx, scatter_idx)
         else:
             torch_native = False
             return select_experts(
@@ -644,6 +647,22 @@ def biased_grouped_topk_cpu(
     )
 
 
+def triton_kernels_topk(
+    router_logits: torch.Tensor,
+    topk: int,
+    renormalize: bool = False,
+    sm_first: bool = False,
+) -> TritonKernelTopKOutput:
+    """Top-K routing for Triton kernels MoE."""
+    assert not renormalize, "Triton kernels topk doesn't support renormalize"
+    routing_data, gather_idx, scatter_idx = routing(
+        logits=router_logits,
+        n_expts_act=topk,
+        sm_first=sm_first,
+    )
+    return TritonKernelTopKOutput(routing_data, gather_idx, scatter_idx)
+
+
 if _is_cpu and _is_cpu_amx_available:
     biased_grouped_topk = biased_grouped_topk_cpu
     grouped_topk = grouped_topk_cpu

From e67276ecb30595b6564cc4a029131d166c0814e5 Mon Sep 17 00:00:00 2001
From: "tql.99" <33377527+TianQiLin666666@users.noreply.github.com>
Date: Mon, 4 Aug 2025 01:47:15 +0800
Subject: [PATCH 333/396] feat: support cutlass_moe_fp8 kernel for fusedmoe in
 sm90 (#8678)

---
 python/sglang/srt/layers/moe/cutlass_moe.py  | 26 +++++++++++++++-----
 python/sglang/srt/layers/quantization/fp8.py |  6 ++---
 python/sglang/srt/layers/utils.py            |  9 +++++++
 3 files changed, 32 insertions(+), 9 deletions(-)

diff --git a/python/sglang/srt/layers/moe/cutlass_moe.py b/python/sglang/srt/layers/moe/cutlass_moe.py
index 3774afac2d3d..6dadf0d0fe14 100755
--- a/python/sglang/srt/layers/moe/cutlass_moe.py
+++ b/python/sglang/srt/layers/moe/cutlass_moe.py
@@ -9,6 +9,7 @@
 import torch
 
 from sglang.srt.layers.moe.cutlass_moe_params import CutlassMoEParams
+from sglang.srt.layers.utils import is_sm100_supported
 from sglang.srt.utils import is_cuda
 
 _is_cuda = is_cuda()
@@ -123,6 +124,7 @@ def cutlass_fused_experts_fp8(
 
     if is_cuda:
         from sglang.srt.layers.quantization.fp8_kernel import (
+            per_token_group_quant_fp8_hopper_moe_mn_major,
             sglang_per_token_group_quant_fp8,
         )
 
@@ -133,9 +135,7 @@ def cutlass_fused_experts_fp8(
     n = w2_q.size(1)
 
     topk = topk_ids.size(1)
-
-    a_q, a1_scale = sglang_per_token_group_quant_fp8(a, 128)
-    device = a_q.device
+    device = a.device
 
     a_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
     c_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
@@ -152,8 +152,16 @@ def cutlass_fused_experts_fp8(
         k,
     )
 
-    rep_a_q = shuffle_rows(a_q, a_map, (m * topk, k))
-    rep_a1_scales = shuffle_rows(a1_scale, a_map, (m * topk, int(k / 128)))
+    if is_sm100_supported():
+        a_q, a1_scale = sglang_per_token_group_quant_fp8(a, 128)
+        rep_a_q = shuffle_rows(a_q, a_map, (m * topk, k))
+        rep_a1_scales = shuffle_rows(a1_scale, a_map, (m * topk, int(k / 128)))
+    else:
+        rep_a = shuffle_rows(a, a_map, (m * topk, k))
+        rep_a_q, rep_a1_scales = per_token_group_quant_fp8_hopper_moe_mn_major(
+            rep_a, expert_offsets, problem_sizes1, 128
+        )
+        w1_scale = w1_scale.contiguous()
 
     c1 = torch.empty((m * topk, n * 2), device=device, dtype=out_dtype)
     c2 = torch.empty((m * topk, k), device=device, dtype=out_dtype)
@@ -185,7 +193,13 @@ def cutlass_fused_experts_fp8(
     intermediate = torch.empty((m * topk, n), device=device, dtype=out_dtype)
     silu_and_mul(c1, intermediate)
 
-    intemediate_q, a2_scale = sglang_per_token_group_quant_fp8(intermediate, 128)
+    if is_sm100_supported():
+        intemediate_q, a2_scale = sglang_per_token_group_quant_fp8(intermediate, 128)
+    else:
+        intemediate_q, a2_scale = per_token_group_quant_fp8_hopper_moe_mn_major(
+            intermediate, expert_offsets, problem_sizes2, 128
+        )
+        w2_scale = w2_scale.contiguous()
 
     fp8_blockwise_scaled_grouped_mm(
         c2,
diff --git a/python/sglang/srt/layers/quantization/fp8.py b/python/sglang/srt/layers/quantization/fp8.py
index 1b082405144e..17e1b7868ddb 100644
--- a/python/sglang/srt/layers/quantization/fp8.py
+++ b/python/sglang/srt/layers/quantization/fp8.py
@@ -63,7 +63,7 @@ def dummy_func(*args, **kwargs):
     per_tensor_dequantize,
     requantize_with_max_scale,
 )
-from sglang.srt.layers.utils import is_sm100_supported
+from sglang.srt.layers.utils import is_sm90_supported, is_sm100_supported
 from sglang.srt.utils import (
     cpu_has_amx_support,
     get_bool_env_var,
@@ -619,7 +619,7 @@ def create_weights(
             if (
                 get_bool_env_var("SGLANG_CUTLASS_MOE")
                 and self.cutlass_fp8_supported
-                and is_sm100_supported()
+                and (is_sm100_supported() or is_sm90_supported())
             ):
                 self.ab_strides1 = torch.full(
                     (num_experts,),
@@ -1034,7 +1034,7 @@ def apply(
             get_bool_env_var("SGLANG_CUTLASS_MOE")
             and self.cutlass_fp8_supported
             and self.block_quant
-            and is_sm100_supported()
+            and (is_sm100_supported() or is_sm90_supported())
         ):
             from sglang.srt.layers.moe.cutlass_moe import cutlass_fused_experts_fp8
 
diff --git a/python/sglang/srt/layers/utils.py b/python/sglang/srt/layers/utils.py
index f61b86293ca2..ac0ddb65ce76 100644
--- a/python/sglang/srt/layers/utils.py
+++ b/python/sglang/srt/layers/utils.py
@@ -1,5 +1,6 @@
 import logging
 import re
+from functools import lru_cache
 
 import torch
 
@@ -35,7 +36,15 @@ def forward(self, *args, **kwargs):
         return (input,) if self.return_tuple else input
 
 
+@lru_cache(maxsize=1)
 def is_sm100_supported(device=None) -> bool:
     return (torch.cuda.get_device_capability(device)[0] == 10) and (
         torch.version.cuda >= "12.8"
     )
+
+
+@lru_cache(maxsize=1)
+def is_sm90_supported(device=None) -> bool:
+    return (torch.cuda.get_device_capability(device)[0] == 9) and (
+        torch.version.cuda >= "12.3"
+    )

From ed6f7597b3395b7bfc53e74f8879eac597b834c2 Mon Sep 17 00:00:00 2001
From: Yingchun Lai <laiyingchun@apache.org>
Date: Mon, 4 Aug 2025 03:29:42 +0800
Subject: [PATCH 334/396] Fix the missing 'lof' choice of --schedule-policy
 server args (#7114)

---
 python/sglang/srt/server_args.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 4691b3c7cfc5..6c63de97305d 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -868,7 +868,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
             "--schedule-policy",
             type=str,
             default=ServerArgs.schedule_policy,
-            choices=["lpm", "random", "fcfs", "dfs-weight"],
+            choices=["lpm", "random", "fcfs", "dfs-weight", "lof"],
             help="The scheduling policy of the requests.",
         )
         parser.add_argument(

From 76ba5bbe12aa2bc9ff661771e686e149484ea8ee Mon Sep 17 00:00:00 2001
From: huangtingwei <141888744+huangtingwei9988@users.noreply.github.com>
Date: Mon, 4 Aug 2025 04:47:29 +0800
Subject: [PATCH 335/396] fix args typo in memory_pool_host (#8662)

---
 python/sglang/srt/mem_cache/memory_pool_host.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
index fc0ba09bcbdd..02c64c8b3c8a 100644
--- a/python/sglang/srt/mem_cache/memory_pool_host.py
+++ b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -618,7 +618,7 @@ def backup_from_device_all_layer(
             elif self.layout == "page_first":
                 transfer_kv_all_layer_mla_lf_pf(
                     src_layers=device_pool.data_ptrs,
-                    dst_k=self.kv_buffer,
+                    dst=self.kv_buffer,
                     src_indices=device_indices,
                     dst_indices=host_indices,
                     item_size=self.token_stride_size,

From 7a27e798ca2d8f6bfccf75507360d702e03f810d Mon Sep 17 00:00:00 2001
From: Liangsheng Yin <hnyls2002@gmail.com>
Date: Mon, 4 Aug 2025 05:12:20 +0800
Subject: [PATCH 336/396] [CI] Do not trigger pd-disaggregation CI in draft PR
 (#8737)

---
 .github/workflows/pr-test-pd-router.yml | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/pr-test-pd-router.yml b/.github/workflows/pr-test-pd-router.yml
index d433dba074a4..0ee0831611b8 100644
--- a/.github/workflows/pr-test-pd-router.yml
+++ b/.github/workflows/pr-test-pd-router.yml
@@ -26,7 +26,9 @@ permissions:
 
 jobs:
   test-disaggregation:
-    if: github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request'
+    if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
+        github.event.pull_request.draft == false &&
+        needs.check-changes.outputs.src == 'true'
     runs-on: [h200]
     timeout-minutes: 45
 

From b102353f8f2d464de6d2796d62e87878513ccdf6 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Sun, 3 Aug 2025 17:03:04 -0700
Subject: [PATCH 337/396] [MoE] Enable `renormalize=False` in Triton kernels
 (#8735)

---
 python/sglang/srt/layers/moe/topk.py | 26 ++++----------------------
 1 file changed, 4 insertions(+), 22 deletions(-)

diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index b372858f7be3..c346e12f70fd 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -183,15 +183,13 @@ def forward_cuda(
         *,
         num_token_non_padded: Optional[torch.Tensor] = None,
         expert_location_dispatch_info: Optional[ExpertLocationDispatchInfo] = None,
-        sm_first: bool = False,  # only used for triton kernels topk
     ) -> TopKOutput:
         if self.use_triton_kernels:
-            return triton_kernels_topk(
-                router_logits=router_logits,
-                topk=self.top_k,
-                renormalize=self.renormalize,
-                sm_first=sm_first,
+            # renormalize=True is equivalent to sm_first=False
+            routing_data, gather_idx, scatter_idx = routing(
+                router_logits, self.top_k, sm_first=not self.renormalize
             )
+            return TritonKernelTopKOutput(routing_data, gather_idx, scatter_idx)
         else:
             torch_native = False
             return select_experts(
@@ -647,22 +645,6 @@ def biased_grouped_topk_cpu(
     )
 
 
-def triton_kernels_topk(
-    router_logits: torch.Tensor,
-    topk: int,
-    renormalize: bool = False,
-    sm_first: bool = False,
-) -> TritonKernelTopKOutput:
-    """Top-K routing for Triton kernels MoE."""
-    assert not renormalize, "Triton kernels topk doesn't support renormalize"
-    routing_data, gather_idx, scatter_idx = routing(
-        logits=router_logits,
-        n_expts_act=topk,
-        sm_first=sm_first,
-    )
-    return TritonKernelTopKOutput(routing_data, gather_idx, scatter_idx)
-
-
 if _is_cpu and _is_cpu_amx_available:
     biased_grouped_topk = biased_grouped_topk_cpu
     grouped_topk = grouped_topk_cpu

From f024795e57c3589a63df2457d3d64771989d4ed7 Mon Sep 17 00:00:00 2001
From: YyWangCS <104079332+YyWangCS@users.noreply.github.com>
Date: Mon, 4 Aug 2025 10:02:51 +0800
Subject: [PATCH 338/396] Replace torch.jit.script with torch.compile in
 get_masked_input_and_mask to fix benchmark underreporting (#8733)

---
 python/sglang/srt/layers/vocab_parallel_embedding.py | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/python/sglang/srt/layers/vocab_parallel_embedding.py b/python/sglang/srt/layers/vocab_parallel_embedding.py
index ab1ced99a96a..66abb75410bc 100644
--- a/python/sglang/srt/layers/vocab_parallel_embedding.py
+++ b/python/sglang/srt/layers/vocab_parallel_embedding.py
@@ -26,7 +26,12 @@
     method_has_implemented_embedding,
 )
 from sglang.srt.layers.quantization.unquant import UnquantizedEmbeddingMethod
-from sglang.srt.utils import cpu_has_amx_support, is_cpu, set_weight_attrs
+from sglang.srt.utils import (
+    cpu_has_amx_support,
+    get_compiler_backend,
+    is_cpu,
+    set_weight_attrs,
+)
 
 DEFAULT_VOCAB_PADDING_SIZE = 64
 
@@ -117,7 +122,7 @@ def __post_init__(self):
         assert self.num_added_elements <= self.num_added_elements_padded
 
 
-@torch.jit.script
+@torch.compile(dynamic=True, backend=get_compiler_backend())
 def get_masked_input_and_mask(
     input_: torch.Tensor,
     org_vocab_start_index: int,
@@ -126,7 +131,7 @@ def get_masked_input_and_mask(
     added_vocab_start_index: int,
     added_vocab_end_index: int,
 ) -> Tuple[torch.Tensor, torch.Tensor]:
-    # torch.jit.script will fuse all of the pointwise ops below
+    # torch.compile will fuse all of the pointwise ops below
     # into a single kernel, making it very fast
     org_vocab_mask = (input_ >= org_vocab_start_index) & (input_ < org_vocab_end_index)
     added_vocab_mask = (input_ >= added_vocab_start_index) & (

From 3b87a9e8ae87ee998b98954b0813348ce6f34a78 Mon Sep 17 00:00:00 2001
From: Yuan Luo <yuan.luo@hotmail.com>
Date: Mon, 4 Aug 2025 11:05:02 +0800
Subject: [PATCH 339/396] Fix bug of refactoring TopKOutput in w4afp8 (#8745)

Co-authored-by: luoyuan.luo <luoyuan.luo@antgroup.com>
---
 python/sglang/srt/layers/quantization/w4afp8.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/w4afp8.py b/python/sglang/srt/layers/quantization/w4afp8.py
index 8619c042b1c4..ba11a4b6e597 100644
--- a/python/sglang/srt/layers/quantization/w4afp8.py
+++ b/python/sglang/srt/layers/quantization/w4afp8.py
@@ -282,7 +282,7 @@ def apply(
         # TODO(ch-wan): move it out of this class
         from sglang.srt.layers.moe.cutlass_w4a8_moe import cutlass_w4a8_moe
 
-        topk_ids, topk_weights, _ = topk_output
+        topk_weights, topk_ids, _ = topk_output
         local_topk_ids = topk_ids
         if layer.expert_map is not None:
             "Translate info from expert_map to topk_ids"

From f2d68ded6da9d541f7870a7c125192a7956fbb60 Mon Sep 17 00:00:00 2001
From: Baizhou Zhang <sobereddiezhang@gmail.com>
Date: Sun, 3 Aug 2025 21:08:28 -0700
Subject: [PATCH 340/396] Rename lora_path to lora_id in batches (#8437)

---
 python/sglang/srt/lora/lora_manager.py               | 10 +++-------
 python/sglang/srt/managers/io_struct.py              |  6 ++++--
 python/sglang/srt/managers/schedule_batch.py         |  8 ++++----
 python/sglang/srt/managers/scheduler.py              |  8 ++++----
 python/sglang/srt/managers/tokenizer_manager.py      |  6 +++---
 .../sglang/srt/model_executor/cuda_graph_runner.py   | 12 ++++++------
 .../sglang/srt/model_executor/forward_batch_info.py  |  4 ++--
 python/sglang/srt/two_batch_overlap.py               |  2 +-
 8 files changed, 27 insertions(+), 29 deletions(-)

diff --git a/python/sglang/srt/lora/lora_manager.py b/python/sglang/srt/lora/lora_manager.py
index 719c52ef8d7c..c1d6439a0d19 100644
--- a/python/sglang/srt/lora/lora_manager.py
+++ b/python/sglang/srt/lora/lora_manager.py
@@ -191,11 +191,7 @@ def unload_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
 
     def prepare_lora_batch(self, forward_batch: ForwardBatch):
         # Load active loras into lora memory pool
-        # TODO (lifuhuang): The naming of `forward_batch.lora_paths` is confusing. It actually contains a set of unique
-        # LoRA IDs, not LoRA paths. While unfortunately we cannot change the name in API for backward compatibility, we
-        # should consider (1) renaming the incorrect usage within the system, and (2) deprecating the parameter name in
-        # the current API schema and introducing a better request schema in the future (e.g., use `model_name`).
-        cur_uids = set(forward_batch.lora_paths)
+        cur_uids = set(forward_batch.lora_ids)
         assert len(cur_uids) <= self.max_loras_per_batch
         self.memory_pool.prepare_lora_batch(cur_uids, self.loras, self.lora_modules)
 
@@ -211,10 +207,10 @@ def transfer_adapter_info(
             Transfer adapter metadata (weight indices, LoRA rank, scalings) from host
             to device (CUDA) asynchronously.
             """
-            weight_indices = [0] * len(forward_batch.lora_paths)
+            weight_indices = [0] * len(forward_batch.lora_ids)
             lora_ranks = [0] * self.max_loras_per_batch
             scalings = [0] * self.max_loras_per_batch
-            for i, uid in enumerate(forward_batch.lora_paths):
+            for i, uid in enumerate(forward_batch.lora_ids):
                 weight_indices[i] = self.memory_pool.get_buffer_id(uid)
                 if uid is not None:
                     lora = self.loras[uid]
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 7935b4228e43..db54d1305bf7 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -101,8 +101,10 @@ class GenerateReqInput:
 
     # The modalities of the image data [image, multi-images, video]
     modalities: Optional[List[str]] = None
-    # The path to the LoRA
+    # The path to the LoRA adaptors
     lora_path: Optional[Union[List[Optional[str]], Optional[str]]] = None
+    # The uid of LoRA adaptors, should be initialized by tokenizer manager
+    lora_id: Optional[Union[List[Optional[str]], Optional[str]]] = None
 
     # Session info for continual prompting
     session_params: Optional[Union[List[Dict], Dict]] = None
@@ -500,7 +502,7 @@ class TokenizedGenerateReqInput:
     stream: bool
 
     # LoRA related
-    lora_path: Optional[str] = None  # None means just use the base model
+    lora_id: Optional[str] = None  # None means just use the base model
     # The input embeds
     input_embeds: Optional[Union[List[List[List[float]]], List[List[float]]]] = None
 
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 3bfb31b6b0f9..03faea684557 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -423,7 +423,7 @@ def __init__(
         token_ids_logprob: List[int] = None,
         stream: bool = False,
         origin_input_ids_unpadded: Optional[Tuple[int]] = None,
-        lora_path: Optional[str] = None,
+        lora_id: Optional[str] = None,
         input_embeds: Optional[List[List[float]]] = None,
         token_type_ids: List[int] = None,
         session_id: Optional[str] = None,
@@ -467,7 +467,7 @@ def __init__(
         self.sampling_params = sampling_params
         self.custom_logit_processor = custom_logit_processor
         self.return_hidden_states = return_hidden_states
-        self.lora_path = lora_path
+        self.lora_id = lora_id
 
         # Memory pool info
         self.req_pool_idx: Optional[int] = None
@@ -1750,7 +1750,7 @@ def get_model_worker_batch(
             encoder_lens=self.encoder_lens,
             encoder_lens_cpu=self.encoder_lens_cpu,
             encoder_out_cache_loc=self.encoder_out_cache_loc,
-            lora_paths=[req.lora_path for req in self.reqs],
+            lora_ids=[req.lora_id for req in self.reqs],
             sampling_info=self.sampling_info,
             input_embeds=self.input_embeds,
             token_type_ids=self.token_type_ids,
@@ -1891,7 +1891,7 @@ class ModelWorkerBatch:
     encoder_out_cache_loc: Optional[torch.Tensor]
 
     # For LoRA
-    lora_paths: Optional[List[str]]
+    lora_ids: Optional[List[str]]
 
     # Sampling info
     sampling_info: SamplingBatchInfo
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 5f9b7f20fa6a..6f6dee027dfc 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1090,7 +1090,7 @@ def handle_generate_request(
                 top_logprobs_num=recv_req.top_logprobs_num,
                 token_ids_logprob=recv_req.token_ids_logprob,
                 stream=recv_req.stream,
-                lora_path=recv_req.lora_path,
+                lora_id=recv_req.lora_id,
                 input_embeds=recv_req.input_embeds,
                 custom_logit_processor=recv_req.custom_logit_processor,
                 return_hidden_states=recv_req.return_hidden_states,
@@ -1534,7 +1534,7 @@ def get_new_batch_prefill(self) -> Optional[ScheduleBatch]:
             self.chunked_req = adder.add_chunked_req(self.chunked_req)
 
         if self.enable_lora:
-            lora_set = set([req.lora_path for req in self.running_batch.reqs])
+            lora_set = set([req.lora_id for req in self.running_batch.reqs])
 
         # Get requests from the waiting queue to a new prefill batch
         for req in self.waiting_queue:
@@ -1542,8 +1542,8 @@ def get_new_batch_prefill(self) -> Optional[ScheduleBatch]:
                 self.enable_lora
                 and len(
                     lora_set
-                    | set([req.lora_path for req in adder.can_run_list])
-                    | set([req.lora_path])
+                    | set([req.lora_id for req in adder.can_run_list])
+                    | set([req.lora_id])
                 )
                 > self.max_loras_per_batch
             ):
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index cbd1c73327d9..63cbfd59e055 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -556,7 +556,7 @@ async def _tokenize_one_request(
         if self.server_args.enable_lora and obj.lora_path:
             # Start tracking ongoing requests for LoRA adapters and replace the user-friendly LoRA names in
             # `lora_path` with their corresponding unique LoRA IDs, as required for internal processing.
-            obj.lora_path = await self.lora_registry.acquire(obj.lora_path)
+            obj.lora_id = await self.lora_registry.acquire(obj.lora_path)
 
         self._validate_one_request(obj, input_ids)
         return self._create_tokenized_object(
@@ -665,7 +665,7 @@ def _create_tokenized_object(
                 bootstrap_host=obj.bootstrap_host,
                 bootstrap_port=obj.bootstrap_port,
                 bootstrap_room=obj.bootstrap_room,
-                lora_path=obj.lora_path,
+                lora_id=obj.lora_id,
                 input_embeds=input_embeds,
                 session_params=session_params,
                 custom_logit_processor=obj.custom_logit_processor,
@@ -773,7 +773,7 @@ async def _wait_one_response(
 
                 # Mark ongoing LoRA request as finished.
                 if self.server_args.enable_lora and obj.lora_path:
-                    await self.lora_registry.release(obj.lora_path)
+                    await self.lora_registry.release(obj.lora_id)
 
                 # Check if this was an abort/error created by scheduler
                 if isinstance(out["meta_info"].get("finish_reason"), dict):
diff --git a/python/sglang/srt/model_executor/cuda_graph_runner.py b/python/sglang/srt/model_executor/cuda_graph_runner.py
index 39120f2cdfa8..c4031557b926 100644
--- a/python/sglang/srt/model_executor/cuda_graph_runner.py
+++ b/python/sglang/srt/model_executor/cuda_graph_runner.py
@@ -576,11 +576,11 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             )
 
         if self.model_runner.server_args.enable_lora:
-            # It is safe to capture CUDA graph using empty LoRA path, as the LoRA kernels will always be launched whenever
-            # `--enable-lora` is set to True (and return immediately if the LoRA path is empty for perf optimization).
-            lora_paths = [None] * bs
+            # It is safe to capture CUDA graph using empty LoRA id, as the LoRA kernels will always be launched whenever
+            # `--enable-lora` is set to True (and return immediately if the LoRA id is empty for perf optimization).
+            lora_ids = [None] * bs
         else:
-            lora_paths = None
+            lora_ids = None
 
         forward_batch = ForwardBatch(
             forward_mode=self.capture_forward_mode,
@@ -607,11 +607,11 @@ def capture_one_batch_size(self, bs: int, forward: Callable):
             capture_hidden_mode=self.capture_hidden_mode,
             num_token_non_padded=self.num_token_non_padded,
             global_forward_mode=self.capture_forward_mode,
-            lora_paths=lora_paths,
+            lora_ids=lora_ids,
         )
         self.tbo_plugin.capture_one_batch_size(forward_batch, num_tokens=num_tokens)
 
-        if lora_paths is not None:
+        if lora_ids is not None:
             self.model_runner.lora_manager.prepare_lora_batch(forward_batch)
 
         # Attention backend
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 4e73dd9ae435..984239cc37f2 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -248,7 +248,7 @@ class ForwardBatch:
     encoder_out_cache_loc: Optional[torch.Tensor] = None
 
     # For LoRA
-    lora_paths: Optional[List[str]] = None
+    lora_ids: Optional[List[str]] = None
 
     # For input embeddings
     input_embeds: Optional[torch.Tensor] = None
@@ -327,7 +327,7 @@ def init_new(
             is_extend_in_batch=batch.is_extend_in_batch,
             can_run_dp_cuda_graph=batch.can_run_dp_cuda_graph,
             global_forward_mode=batch.global_forward_mode,
-            lora_paths=batch.lora_paths,
+            lora_ids=batch.lora_ids,
             sampling_info=batch.sampling_info,
             req_to_token_pool=model_runner.req_to_token_pool,
             token_to_kv_pool=model_runner.token_to_kv_pool,
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index eea5623dc9f8..34afd043fafb 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -468,7 +468,7 @@ def filter_batch(
             "extend_prefix_lens_cpu",
             "extend_seq_lens_cpu",
             "extend_logprob_start_lens_cpu",
-            "lora_paths",
+            "lora_ids",
         ]:
             old_value = getattr(batch, key)
             if old_value is None:

From f57d2dc162279bf976950f8b91cf86599f1dde09 Mon Sep 17 00:00:00 2001
From: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Date: Mon, 4 Aug 2025 12:55:57 +0800
Subject: [PATCH 341/396] [sgl-kernel] avoid per_token_quant_fp8.cu hardcode
 sm_count (#8738)

---
 sgl-kernel/csrc/gemm/per_token_quant_fp8.cu | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
index a3c60ad5bd7a..c71022fd1cb4 100644
--- a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
+++ b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
@@ -173,9 +173,8 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
   TORCH_CHECK(hidden_dim % 8 == 0, "Hidden dimension must be divisible by 8, but got ", hidden_dim);
 
   cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  // Hard-code sm_count
-  int sm_count = 132;
-  constexpr int TOKENS_PER_CTA = 8;
+  const int sm_count = at::cuda::getCurrentDeviceProperties()->multiProcessorCount;
+  const int TOKENS_PER_CTA = 8;
   const bool use_warp_kernel = (num_tokens >= sm_count * 2 * TOKENS_PER_CTA);
   const bool use_vec16 = (hidden_dim % 16 == 0);
 

From fee0ab0fba12e2a395dceea148959b9ab6fa0149 Mon Sep 17 00:00:00 2001
From: Even Zhou <even.y.zhou@outlook.com>
Date: Mon, 4 Aug 2025 13:16:38 +0800
Subject: [PATCH 342/396] [CI] Ascend NPU CI enhancement (#8294)

Co-authored-by: ronnie_zheng <zl19940307@163.com>
---
 .github/workflows/pr-test-npu.yml         |  70 ++++++++++++++-
 python/sglang/srt/layers/moe/topk.py      |  12 ++-
 scripts/npu_ci_install_dependency.sh      |  60 +++++++------
 test/srt/run_suite.py                     |  10 ++-
 test/srt/test_ascend_attention_backend.py |  62 --------------
 test/srt/test_ascend_mla_backend.py       |  96 ---------------------
 test/srt/test_ascend_mla_w8a8int8.py      | 100 ++++++++++++++++++++++
 test/srt/test_ascend_tp1_bf16.py          |  96 +++++++++++++++++++++
 test/srt/test_ascend_tp2_bf16.py          |  98 +++++++++++++++++++++
 9 files changed, 415 insertions(+), 189 deletions(-)
 delete mode 100644 test/srt/test_ascend_attention_backend.py
 delete mode 100644 test/srt/test_ascend_mla_backend.py
 create mode 100644 test/srt/test_ascend_mla_w8a8int8.py
 create mode 100644 test/srt/test_ascend_tp1_bf16.py
 create mode 100644 test/srt/test_ascend_tp2_bf16.py

diff --git a/.github/workflows/pr-test-npu.yml b/.github/workflows/pr-test-npu.yml
index faae297811bc..7cf45263c1c6 100644
--- a/.github/workflows/pr-test-npu.yml
+++ b/.github/workflows/pr-test-npu.yml
@@ -22,7 +22,7 @@ concurrency:
   cancel-in-progress: true
 
 jobs:
-  unit-test-basic:
+  per-commit-1-ascend-npu:
     if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
         github.event.pull_request.draft == false
     runs-on: linux-arm64-npu-1
@@ -44,13 +44,77 @@ jobs:
         timeout-minutes: 30
         env:
           SGLANG_USE_MODELSCOPE: true
+          SGLANG_IS_IN_CI: true
           HF_ENDPOINT: https://hf-mirror.com
+          TORCH_EXTENSIONS_DIR: /tmp/torch_extensions
         run: |
           cd test/srt
-          python3 run_suite.py --suite per-commit-npu
+          python3 run_suite.py --suite per-commit-1-ascend-npu
+
+  per-commit-2-ascend-npu:
+    if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
+        github.event.pull_request.draft == false
+    runs-on: linux-arm64-npu-2
+    container:
+      image: swr.cn-southwest-2.myhuaweicloud.com/base_image/ascend-ci/cann:8.2.rc1.alpha003-910b-ubuntu22.04-py3.11
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Install dependencies
+        run: |
+          bash scripts/npu_ci_install_dependency.sh
+          # copy required file from our daily cache
+          cp ~/.cache/modelscope/hub/datasets/otavia/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json /tmp
+          # copy download through proxy
+          curl -o /tmp/test.jsonl -L https://gh-proxy.test.osinfra.cn/https://raw.githubusercontent.com/openai/grade-school-math/master/grade_school_math/data/test.jsonl
+
+      - name: Run test
+        timeout-minutes: 30
+        env:
+          SGLANG_USE_MODELSCOPE: true
+          SGLANG_IS_IN_CI: true
+          HF_ENDPOINT: https://hf-mirror.com
+          TORCH_EXTENSIONS_DIR: /tmp/torch_extensions
+        run: |
+          cd test/srt
+          python3 run_suite.py --suite per-commit-2-ascend-npu
+
+  per-commit-4-ascend-npu:
+    if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
+        github.event.pull_request.draft == false
+    runs-on: linux-arm64-npu-4
+    container:
+      image: swr.cn-southwest-2.myhuaweicloud.com/base_image/ascend-ci/cann:8.2.rc1.alpha003-910b-ubuntu22.04-py3.11
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Install dependencies
+        run: |
+          bash scripts/npu_ci_install_dependency.sh
+          # copy required file from our daily cache
+          cp ~/.cache/modelscope/hub/datasets/otavia/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json /tmp
+          # copy download through proxy
+          curl -o /tmp/test.jsonl -L https://gh-proxy.test.osinfra.cn/https://raw.githubusercontent.com/openai/grade-school-math/master/grade_school_math/data/test.jsonl
+
+      - name: Run test
+        timeout-minutes: 30
+        env:
+          SGLANG_USE_MODELSCOPE: true
+          SGLANG_IS_IN_CI: true
+          HF_ENDPOINT: https://hf-mirror.com
+          TORCH_EXTENSIONS_DIR: /tmp/torch_extensions
+        run: |
+          cd test/srt
+          python3 run_suite.py --suite per-commit-4-ascend-npu --timeout-per-file 3600
+
   finish:
     if: always()
-    needs: [ unit-test-basic ]
+    needs:
+      - per-commit-1-ascend-npu
+      - per-commit-2-ascend-npu
+      - per-commit-4-ascend-npu
     runs-on: ubuntu-latest
     steps:
       - name: Check all dependent job statuses
diff --git a/python/sglang/srt/layers/moe/topk.py b/python/sglang/srt/layers/moe/topk.py
index c346e12f70fd..78bd6f08dbe3 100644
--- a/python/sglang/srt/layers/moe/topk.py
+++ b/python/sglang/srt/layers/moe/topk.py
@@ -398,8 +398,12 @@ def grouped_topk_gpu(
         .reshape(num_token, -1)
     )  # [n, e]
     tmp_scores = scores.masked_fill(~score_mask.bool(), 0.0)  # [n, e]
+    # TODO: NPU can't support directly evaluating a comparison for now
     topk_weights, topk_ids = torch.topk(
-        tmp_scores, k=topk, dim=-1, sorted=num_fused_shared_experts > 0
+        tmp_scores,
+        k=topk,
+        dim=-1,
+        sorted=(True if num_fused_shared_experts > 0 else False),
     )
     if num_fused_shared_experts:
         topk_ids[:, -1] = torch.randint(
@@ -489,8 +493,12 @@ def biased_grouped_topk_impl(
     tmp_scores = scores_for_choice.masked_fill(
         ~score_mask.bool(), float("-inf")
     )  # [n, e]
+    # TODO: NPU can't support directly evaluating a comparison for now
     _, topk_ids = torch.topk(
-        tmp_scores, k=topk, dim=-1, sorted=num_fused_shared_experts > 0
+        tmp_scores,
+        k=topk,
+        dim=-1,
+        sorted=(True if num_fused_shared_experts > 0 else False),
     )
     topk_weights = scores.gather(1, topk_ids)
 
diff --git a/scripts/npu_ci_install_dependency.sh b/scripts/npu_ci_install_dependency.sh
index 3fcb36492438..29a28eb01740 100755
--- a/scripts/npu_ci_install_dependency.sh
+++ b/scripts/npu_ci_install_dependency.sh
@@ -1,47 +1,59 @@
 #!/bin/bash
 set -euo pipefail
 
-# Install the required dependencies from cache
-sed -Ei 's@(ports|archive).ubuntu.com@cache-service.nginx-pypi-cache.svc.cluster.local:8081@g' /etc/apt/sources.list
-apt update -y
-apt install -y build-essential cmake python3-pip python3-dev wget net-tools zlib1g-dev lld clang software-properties-common curl
+CACHING_URL="cache-service.nginx-pypi-cache.svc.cluster.local"
+PIP_INSTALL="pip install --no-cache-dir"
 
-# Setup pip cache
-pip config set global.index-url http://cache-service.nginx-pypi-cache.svc.cluster.local/pypi/simple
-pip config set global.trusted-host cache-service.nginx-pypi-cache.svc.cluster.local
-python3 -m pip install --upgrade pip
-pip uninstall sgl-kernel -y || true
+
+# Update apt & pip sources
+sed -Ei "s@(ports|archive).ubuntu.com@${CACHING_URL}:8081@g" /etc/apt/sources.list
+pip config set global.index-url http://${CACHING_URL}/pypi/simple
+pip config set global.trusted-host ${CACHING_URL}
+
+
+# Install the required dependencies in CI.
+apt update -y && apt install -y \
+    build-essential \
+    cmake \
+    wget \
+    curl \
+    net-tools \
+    zlib1g-dev \
+    lld \
+    clang \
+    locales \
+    ccache \
+    ca-certificates
+update-ca-certificates
+python3 -m ${PIP_INSTALL} --upgrade pip
 
 
 ### Download MemFabricV2
 MF_WHL_NAME="mf_adapter-1.0.0-cp311-cp311-linux_aarch64.whl"
-MEMFABRIC_URL="https://sglang-ascend.obs.cn-east-3.myhuaweicloud.com:443/sglang/${MF_WHL_NAME}"
-wget "${MEMFABRIC_URL}" && pip install "./${MF_WHL_NAME}"
+MEMFABRIC_URL="https://sglang-ascend.obs.cn-east-3.myhuaweicloud.com/sglang/${MF_WHL_NAME}"
+wget "${MEMFABRIC_URL}" && ${PIP_INSTALL} "./${MF_WHL_NAME}"
 
 
 ### Install vLLM
 VLLM_TAG=v0.8.5
 git clone --depth 1 https://github.com/vllm-project/vllm.git --branch $VLLM_TAG
-(cd vllm && VLLM_TARGET_DEVICE="empty" pip install -v -e .)
+(cd vllm && VLLM_TARGET_DEVICE="empty" ${PIP_INSTALL} -v -e .)
 
 
 ### Install PyTorch and PTA
 PYTORCH_VERSION=2.6.0
 TORCHVISION_VERSION=0.21.0
-PTA_VERSION=2.6.0rc1
-pip install torch==$PYTORCH_VERSION torchvision==$TORCHVISION_VERSION --index-url https://download.pytorch.org/whl/cpu
-pip install torch_npu==$PTA_VERSION
+PTA_VERSION=2.6.0
+${PIP_INSTALL} torch==$PYTORCH_VERSION torchvision==$TORCHVISION_VERSION --index-url https://download.pytorch.org/whl/cpu
+${PIP_INSTALL} torch_npu==$PTA_VERSION
 
 
 ### Install Triton-Ascend
-TRITON_ASCEND_VERSION=3.2.0rc2
-pip install attrs==24.2.0 numpy==1.26.4 scipy==1.13.1 decorator==5.1.1 psutil==6.0.0 pytest==8.3.2 pytest-xdist==3.6.1 pyyaml pybind11
-pip install triton-ascend==$TRITON_ASCEND_VERSION
-
-
-pip install -e "python[srt_npu]"
+TRITON_ASCEND_NAME="triton_ascend-3.2.0.dev20250729-cp311-cp311-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl"
+TRITON_ASCEND_URL="https://sglang-ascend.obs.cn-east-3.myhuaweicloud.com/sglang/${TRITON_ASCEND_NAME}"
+${PIP_INSTALL} attrs==24.2.0 numpy==1.26.4 scipy==1.13.1 decorator==5.1.1 psutil==6.0.0 pytest==8.3.2 pytest-xdist==3.6.1 pyyaml pybind11
+wget "${TRITON_ASCEND_URL}" && ${PIP_INSTALL} "./${TRITON_ASCEND_NAME}"
 
 
-### Modify PyTorch TODO: to be removed later
-TORCH_LOCATION=$(python3 -c 'import torch; print(torch.__path__[0])')
-sed -i 's/from triton.runtime.autotuner import OutOfResources/from triton.runtime.errors import OutOfResources/' "${TORCH_LOCATION}/_inductor/runtime/triton_heuristics.py"
+### Install SGLang
+${PIP_INSTALL} -v -e "python[srt_npu]"
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 7b43d5175f52..93b8189664a9 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -154,8 +154,14 @@ class TestFile:
         TestFile("test_rope_rocm.py", 3),
         TestFile("test_awq_dequant.py", 2),
     ],
-    "per-commit-npu": [
-        TestFile("test_ascend_attention_backend.py", 400),
+    "per-commit-1-ascend-npu": [
+        TestFile("test_ascend_tp1_bf16.py", 400),
+    ],
+    "per-commit-2-ascend-npu": [
+        TestFile("test_ascend_tp2_bf16.py", 400),
+    ],
+    "per-commit-4-ascend-npu": [
+        TestFile("test_ascend_mla_w8a8int8.py", 400),
     ],
     "per-commit-2-gpu": [
         TestFile("models/lora/test_lora_tp.py", 116),
diff --git a/test/srt/test_ascend_attention_backend.py b/test/srt/test_ascend_attention_backend.py
deleted file mode 100644
index e406fee3c070..000000000000
--- a/test/srt/test_ascend_attention_backend.py
+++ /dev/null
@@ -1,62 +0,0 @@
-"""
-Usage:
-python3 -m unittest test_ascend_attention_backend.TestAscendAttnBackend.test_gsm8k
-"""
-
-import unittest
-from types import SimpleNamespace
-from urllib.parse import urlparse
-
-from sglang.srt.utils import kill_process_tree
-from sglang.test.few_shot_gsm8k import run_eval as run_eval_few_shot_gsm8k
-from sglang.test.run_eval import run_eval
-from sglang.test.test_utils import (
-    DEFAULT_MODEL_NAME_FOR_TEST,
-    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-    DEFAULT_URL_FOR_TEST,
-    CustomTestCase,
-    is_in_ci,
-    popen_launch_server,
-    run_bench_offline_throughput,
-)
-
-DEFAULT_MODEL_NAME_FOR_TEST = "Qwen/Qwen2.5-7B-Instruct"
-
-
-class TestAscendAttnBackend(CustomTestCase):
-    def test_gsm8k(self):
-        model = DEFAULT_MODEL_NAME_FOR_TEST
-        base_url = DEFAULT_URL_FOR_TEST
-        url = urlparse(base_url)
-        process = popen_launch_server(
-            model,
-            base_url,
-            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            other_args=[
-                "--attention-backend",
-                "ascend",
-                "--mem-fraction-static",
-                0.8,
-            ],
-        )
-
-        try:
-            args = SimpleNamespace(
-                num_shots=5,
-                data_path=None,
-                num_questions=1319,
-                max_new_tokens=512,
-                parallel=128,
-                host=f"http://{url.hostname}",
-                port=int(url.port),
-            )
-
-            metrics = run_eval_few_shot_gsm8k(args)
-            self.assertGreaterEqual(metrics["accuracy"], 0.62)
-            self.assertLessEqual(metrics["latency"], 150)
-        finally:
-            kill_process_tree(process.pid)
-
-
-if __name__ == "__main__":
-    unittest.main()
diff --git a/test/srt/test_ascend_mla_backend.py b/test/srt/test_ascend_mla_backend.py
deleted file mode 100644
index 0db2f3b3ebdf..000000000000
--- a/test/srt/test_ascend_mla_backend.py
+++ /dev/null
@@ -1,96 +0,0 @@
-"""
-Usage:
-python3 -m unittest test_ascend_mla_backend.TestAscendMLABackend.test_gsm8k
-"""
-
-import os
-import unittest
-from types import SimpleNamespace
-from urllib.parse import urlparse
-
-from sglang.srt.utils import kill_process_tree
-from sglang.test.few_shot_gsm8k import run_eval as run_eval_few_shot_gsm8k
-from sglang.test.run_eval import run_eval
-from sglang.test.test_utils import (
-    DEFAULT_MLA_MODEL_NAME_FOR_TEST,
-    DEFAULT_MODEL_NAME_FOR_TEST,
-    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-    DEFAULT_URL_FOR_TEST,
-    CustomTestCase,
-    is_in_ci,
-    popen_launch_server,
-    run_bench_offline_throughput,
-)
-
-if "ASCEND_RT_VISIBLE_DEVICES" not in os.environ:
-    os.environ["ASCEND_RT_VISIBLE_DEVICES"] = "0,1,2,3"
-DEFAULT_PORT_FOR_SRT_TEST_RUNNER = (
-    7000 + int(os.environ.get("ASCEND_RT_VISIBLE_DEVICES", "0")[0]) * 100
-)
-DEFAULT_URL_FOR_TEST = f"http://127.0.0.1:{DEFAULT_PORT_FOR_SRT_TEST_RUNNER + 1000}"
-DEFAULT_MODEL_NAME_FOR_TEST = "/models/DeepSeek-V2-Lite-Chat"
-if not os.path.exists(DEFAULT_MODEL_NAME_FOR_TEST):
-    DEFAULT_MODEL_NAME_FOR_TEST = DEFAULT_MLA_MODEL_NAME_FOR_TEST
-
-
-class TestAscendMLABackend(CustomTestCase):
-    def test_latency(self):
-        output_throughput = run_bench_offline_throughput(
-            DEFAULT_MODEL_NAME_FOR_TEST,
-            [
-                "--attention-backend",
-                "ascend",
-                "--mem-fraction-static",
-                0.7,
-                "--tp-size",
-                "4",
-                "--trust-remote-code",
-                "--disable-cuda-graph",
-            ],
-        )
-
-        print(f"{output_throughput=}")
-
-        if is_in_ci():
-            self.assertGreater(output_throughput, 18)
-
-    def test_gsm8k(self):
-        model = DEFAULT_MODEL_NAME_FOR_TEST
-        base_url = DEFAULT_URL_FOR_TEST
-        url = urlparse(base_url)
-        process = popen_launch_server(
-            model,
-            base_url,
-            timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
-            other_args=[
-                "--attention-backend",
-                "ascend",
-                "--mem-fraction-static",
-                0.7,
-                "--tp-size",
-                "4",
-                "--trust-remote-code",
-                "--disable-cuda-graph",
-            ],
-        )
-
-        try:
-            args = SimpleNamespace(
-                num_shots=5,
-                data_path=None,
-                num_questions=128,
-                max_new_tokens=512,
-                parallel=128,
-                host=f"http://{url.hostname}",
-                port=int(url.port),
-            )
-
-            metrics = run_eval_few_shot_gsm8k(args)
-            self.assertGreaterEqual(metrics["accuracy"], 0.62)
-            self.assertGreaterEqual(metrics["output_throughput"], 50)
-        finally:
-            kill_process_tree(process.pid)
-
-
-if __name__ == "__main__":
-    unittest.main()
diff --git a/test/srt/test_ascend_mla_w8a8int8.py b/test/srt/test_ascend_mla_w8a8int8.py
new file mode 100644
index 000000000000..cdbc520238cf
--- /dev/null
+++ b/test/srt/test_ascend_mla_w8a8int8.py
@@ -0,0 +1,100 @@
+import unittest
+from types import SimpleNamespace
+from urllib.parse import urlparse
+
+from sglang.srt.utils import kill_process_tree
+from sglang.test.few_shot_gsm8k import run_eval as run_eval_few_shot_gsm8k
+from sglang.test.test_utils import (
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    CustomTestCase,
+    is_in_ci,
+    popen_launch_server,
+    run_bench_offline_throughput,
+)
+
+TEST_MODEL_MATRIX = {
+    "/root/.cache/modelscope/hub/models/vllm-ascend/DeepSeek-V2-Lite-W8A8": {
+        "accuracy": 0.34,
+        "latency": 1000,
+        "output_throughput": 6,
+    },
+}
+
+
+class TestAscendMlaW8A8Int8(CustomTestCase):
+
+    @classmethod
+    def setUpClass(cls):
+        cls.models = TEST_MODEL_MATRIX.keys()
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.url = urlparse(DEFAULT_URL_FOR_TEST)
+        cls.common_args = [
+            "--trust-remote-code",
+            "--disable-cuda-graph",
+            "--mem-fraction-static",
+            0.8,
+            "--attention-backend",
+            "ascend",
+            "--quantization",
+            "w8a8_int8",
+            "--tp-size",
+            4,
+        ]
+
+    def test_a_gsm8k(self):
+        for model in self.models:
+            with self.subTest(model=model):
+                print(f"##=== Testing accuracy: {model} ===##")
+
+                process = popen_launch_server(
+                    model,
+                    self.base_url,
+                    timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+                    other_args=[
+                        *self.common_args,
+                    ],
+                )
+
+                try:
+                    args = SimpleNamespace(
+                        num_shots=5,
+                        data_path=None,
+                        num_questions=1319,
+                        max_new_tokens=512,
+                        parallel=128,
+                        host=f"http://{self.url.hostname}",
+                        port=int(self.url.port),
+                    )
+
+                    metrics = run_eval_few_shot_gsm8k(args)
+                    self.assertGreaterEqual(
+                        metrics["accuracy"],
+                        TEST_MODEL_MATRIX[model]["accuracy"],
+                    )
+                finally:
+                    kill_process_tree(process.pid)
+
+    def test_b_throughput(self):
+        for model in self.models:
+            with self.subTest(model=model):
+                print(f"##=== Testing throughput: {model} ===##")
+
+                output_throughput = run_bench_offline_throughput(
+                    model,
+                    [
+                        *self.common_args,
+                    ],
+                )
+
+                print(f"##=== {model} throughput: {output_throughput} ===##")
+
+                if is_in_ci():
+                    self.assertGreater(
+                        output_throughput,
+                        TEST_MODEL_MATRIX[model]["output_throughput"],
+                    )
+
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/test/srt/test_ascend_tp1_bf16.py b/test/srt/test_ascend_tp1_bf16.py
new file mode 100644
index 000000000000..90fde7a80d8a
--- /dev/null
+++ b/test/srt/test_ascend_tp1_bf16.py
@@ -0,0 +1,96 @@
+import unittest
+from types import SimpleNamespace
+from urllib.parse import urlparse
+
+from sglang.srt.utils import kill_process_tree
+from sglang.test.few_shot_gsm8k import run_eval as run_eval_few_shot_gsm8k
+from sglang.test.test_utils import (
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    CustomTestCase,
+    is_in_ci,
+    popen_launch_server,
+    run_bench_offline_throughput,
+)
+
+TEST_MODEL_MATRIX = {
+    "Qwen/Qwen2.5-7B-Instruct": {
+        "accuracy": 0.85,
+        "latency": 150,
+        "output_throughput": 30,
+    },
+}
+
+
+class TestAscendTp1Bf16(CustomTestCase):
+
+    @classmethod
+    def setUpClass(cls):
+        cls.models = TEST_MODEL_MATRIX.keys()
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.url = urlparse(DEFAULT_URL_FOR_TEST)
+        cls.common_args = [
+            "--trust-remote-code",
+            "--disable-cuda-graph",
+            "--mem-fraction-static",
+            0.8,
+            "--attention-backend",
+            "ascend",
+        ]
+
+    def test_a_gsm8k(self):
+        for model in self.models:
+            with self.subTest(model=model):
+                print(f"##=== Testing accuracy: {model} ===##")
+
+                process = popen_launch_server(
+                    model,
+                    self.base_url,
+                    timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+                    other_args=[
+                        *self.common_args,
+                    ],
+                )
+
+                try:
+                    args = SimpleNamespace(
+                        num_shots=5,
+                        data_path=None,
+                        num_questions=1319,
+                        max_new_tokens=512,
+                        parallel=128,
+                        host=f"http://{self.url.hostname}",
+                        port=int(self.url.port),
+                    )
+
+                    metrics = run_eval_few_shot_gsm8k(args)
+                    self.assertGreaterEqual(
+                        metrics["accuracy"],
+                        TEST_MODEL_MATRIX[model]["accuracy"],
+                    )
+                finally:
+                    kill_process_tree(process.pid)
+
+    def test_b_throughput(self):
+        for model in self.models:
+            with self.subTest(model=model):
+                print(f"##=== Testing throughput: {model} ===##")
+
+                output_throughput = run_bench_offline_throughput(
+                    model,
+                    [
+                        *self.common_args,
+                    ],
+                )
+
+                print(f"##=== {model} throughput: {output_throughput} ===##")
+
+                if is_in_ci():
+                    self.assertGreater(
+                        output_throughput,
+                        TEST_MODEL_MATRIX[model]["output_throughput"],
+                    )
+
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/test/srt/test_ascend_tp2_bf16.py b/test/srt/test_ascend_tp2_bf16.py
new file mode 100644
index 000000000000..d5e141c9f2ab
--- /dev/null
+++ b/test/srt/test_ascend_tp2_bf16.py
@@ -0,0 +1,98 @@
+import unittest
+from types import SimpleNamespace
+from urllib.parse import urlparse
+
+from sglang.srt.utils import kill_process_tree
+from sglang.test.few_shot_gsm8k import run_eval as run_eval_few_shot_gsm8k
+from sglang.test.test_utils import (
+    DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+    DEFAULT_URL_FOR_TEST,
+    CustomTestCase,
+    is_in_ci,
+    popen_launch_server,
+    run_bench_offline_throughput,
+)
+
+TEST_MODEL_MATRIX = {
+    "Qwen/Qwen2.5-7B-Instruct": {
+        "accuracy": 0.85,
+        "latency": 180,
+        "output_throughput": 20,
+    },
+}
+
+
+class TestAscendTp2Bf16(CustomTestCase):
+
+    @classmethod
+    def setUpClass(cls):
+        cls.models = TEST_MODEL_MATRIX.keys()
+        cls.base_url = DEFAULT_URL_FOR_TEST
+        cls.url = urlparse(DEFAULT_URL_FOR_TEST)
+        cls.common_args = [
+            "--trust-remote-code",
+            "--disable-cuda-graph",
+            "--mem-fraction-static",
+            0.8,
+            "--attention-backend",
+            "ascend",
+            "--tp-size",
+            2,
+        ]
+
+    def test_a_gsm8k(self):
+        for model in self.models:
+            with self.subTest(model=model):
+                print(f"##=== Testing accuracy: {model} ===##")
+
+                process = popen_launch_server(
+                    model,
+                    self.base_url,
+                    timeout=DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
+                    other_args=[
+                        *self.common_args,
+                    ],
+                )
+
+                try:
+                    args = SimpleNamespace(
+                        num_shots=5,
+                        data_path=None,
+                        num_questions=1319,
+                        max_new_tokens=512,
+                        parallel=128,
+                        host=f"http://{self.url.hostname}",
+                        port=int(self.url.port),
+                    )
+
+                    metrics = run_eval_few_shot_gsm8k(args)
+                    self.assertGreaterEqual(
+                        metrics["accuracy"],
+                        TEST_MODEL_MATRIX[model]["accuracy"],
+                    )
+                finally:
+                    kill_process_tree(process.pid)
+
+    def test_b_throughput(self):
+        for model in self.models:
+            with self.subTest(model=model):
+                print(f"##=== Testing throughput: {model} ===##")
+
+                output_throughput = run_bench_offline_throughput(
+                    model,
+                    [
+                        *self.common_args,
+                    ],
+                )
+
+                print(f"##=== {model} throughput: {output_throughput} ===##")
+
+                if is_in_ci():
+                    self.assertGreater(
+                        output_throughput,
+                        TEST_MODEL_MATRIX[model]["output_throughput"],
+                    )
+
+
+if __name__ == "__main__":
+    unittest.main()

From 36fc9260a276be963c098a1a0c2402b9a4008922 Mon Sep 17 00:00:00 2001
From: Baron Liu <66629224+lbh2001@users.noreply.github.com>
Date: Mon, 4 Aug 2025 13:19:15 +0800
Subject: [PATCH 343/396] [bugfix] fix import path in HiCacheController (#8749)

---
 python/sglang/srt/managers/cache_controller.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
index 3087e8162d7b..7e572dcbcb80 100644
--- a/python/sglang/srt/managers/cache_controller.py
+++ b/python/sglang/srt/managers/cache_controller.py
@@ -243,12 +243,12 @@ def __init__(
                 self.storage_backend = HiCacheFile()
                 self.get_hash_str = get_hash_str
             elif storage_backend == "nixl":
-                from sglang.srt.mem_cache.nixl.hicache_nixl import HiCacheNixl
+                from sglang.srt.mem_cache.storage.nixl.hicache_nixl import HiCacheNixl
 
                 self.storage_backend = HiCacheNixl()
                 self.get_hash_str = get_hash_str
             elif storage_backend == "mooncake":
-                from sglang.srt.mem_cache.mooncake_store.mooncake_store import (
+                from sglang.srt.mem_cache.storage.mooncake_store.mooncake_store import (
                     MooncakeStore,
                     get_hash_str_mooncake,
                 )

From 915140fd18c9ff4193e994e6d756ea762a52240a Mon Sep 17 00:00:00 2001
From: azhurkevich <101208641+azhurkevich@users.noreply.github.com>
Date: Mon, 4 Aug 2025 03:10:02 -0700
Subject: [PATCH 344/396] [NVIDIA] Add Low Latency NVFP4 decode kernels from
 Flashinfer (#8552)

Co-authored-by: Cheng Wan <cwan@x.ai>
---
 python/sglang/srt/layers/moe/ep_moe/layer.py  |  25 +-
 .../srt/layers/moe/fused_moe_triton/layer.py  | 189 +++++++++-
 python/sglang/srt/layers/moe/utils.py         |  16 +
 .../srt/layers/quantization/modelopt_quant.py | 323 ++++++++++++++----
 python/sglang/srt/managers/schedule_batch.py  |   2 +-
 python/sglang/srt/models/deepseek_v2.py       |  49 +--
 python/sglang/srt/models/glm4_moe.py          |   6 +-
 python/sglang/srt/server_args.py              |   7 +
 8 files changed, 502 insertions(+), 115 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index 66fbb36eac27..ac5371871241 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -14,13 +14,9 @@
     silu_and_mul_masked_post_quant_fwd,
     tma_align_input_scale,
 )
-from sglang.srt.layers.moe.fused_moe_triton.layer import (
-    FlashInferFusedMoE,
-    FusedMoE,
-    should_use_flashinfer_trtllm_moe,
-)
+from sglang.srt.layers.moe.fused_moe_triton.layer import FlashInferFusedMoE, FusedMoE
 from sglang.srt.layers.moe.topk import TopKOutput
-from sglang.srt.layers.moe.utils import DeepEPMode
+from sglang.srt.layers.moe.utils import DeepEPMode, should_use_flashinfer_trtllm_moe
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.fp8 import (
@@ -48,7 +44,6 @@
 _is_fp8_fnuz = is_fp8_fnuz()
 _use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
 
-
 if not (_is_npu or _is_hip):
     from sgl_kernel import silu_and_mul
 
@@ -741,6 +736,22 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
 def get_moe_impl_class():
     if global_server_args_dict["moe_a2a_backend"].is_deepep():
         return DeepEPMoE
+
+    # NEW: Direct FP4 detection (bypasses EP requirements)
+    # Check for FP4 quantization with TRTLLM flag, regardless of EP
+    if global_server_args_dict.get("enable_flashinfer_trtllm_moe", False):
+        try:
+            # Check the quantization argument directly
+            quantization = global_server_args_dict.get("quantization")
+            if quantization == "modelopt_fp4":
+                from sglang.srt.layers.moe.fused_moe_triton.layer import (
+                    FlashInferFP4MoE,
+                )
+
+                return FlashInferFP4MoE
+        except:
+            pass
+
     if global_server_args_dict["enable_flashinfer_cutlass_moe"]:
         return FusedMoE
     if get_moe_expert_parallel_world_size() > 1:
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index d0a9ed132562..c30535d7fa71 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -1,13 +1,14 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/a6221a144af772fd1a68fe7e627935dc53e81738/vllm/model_executor/layers/fused_moe/layer.py
 
-import importlib.util
+import datetime
+import glob
 import logging
+import os
+import sys
 from enum import Enum
-from functools import lru_cache
 from typing import List, Optional, Tuple
 
 import torch
-from packaging import version as pkg_version
 
 from sglang.srt.distributed import (
     get_moe_expert_parallel_rank,
@@ -22,6 +23,7 @@
 )
 from sglang.srt.eplb.expert_location import get_global_expert_location_metadata
 from sglang.srt.layers.moe.topk import StandardTopKOutput
+from sglang.srt.layers.moe.utils import should_use_flashinfer_trtllm_moe
 from sglang.srt.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
@@ -29,22 +31,58 @@
 from sglang.srt.layers.quantization.unquant import UnquantizedFusedMoEMethod
 from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_loader.weight_utils import narrow_padded_param_and_loaded_weight
-from sglang.srt.utils import cpu_has_amx_support, get_bool_env_var, is_cpu, is_hip
+from sglang.srt.utils import (
+    cpu_has_amx_support,
+    get_bool_env_var,
+    is_cpu,
+    is_flashinfer_available,
+    is_hip,
+    next_power_of_2,
+)
+
+if is_flashinfer_available():
+    from flashinfer import (
+        RoutingMethodType,
+        fp4_quantize,
+        reorder_rows_for_gated_act_gemm,
+        shuffle_matrix_a,
+        shuffle_matrix_sf_a,
+    )
 
 _is_hip = is_hip()
 _is_cpu_amx_available = cpu_has_amx_support()
 _is_cpu = is_cpu()
 
+
+# Try to import FP4 TRTLLM function if flashinfer is available
+trtllm_fp4_block_scale_moe = None
+if should_use_flashinfer_trtllm_moe():
+    try:
+        from flashinfer.fused_moe import trtllm_fp4_block_scale_moe
+    except ImportError:
+        trtllm_fp4_block_scale_moe = None
+
 logger = logging.getLogger(__name__)
 
 
-@lru_cache(maxsize=1)
-def should_use_flashinfer_trtllm_moe():
-    return global_server_args_dict["enable_flashinfer_trtllm_moe"] and (
-        not importlib.util.find_spec("flashinfer")
-        or pkg_version.parse(__import__("flashinfer").__version__)
-        >= pkg_version.parse("0.2.9rc1")
-    )
+def _is_fp4_quantization_enabled():
+    """Check if ModelOpt FP4 quantization is enabled."""
+    try:
+        # Use the same simple check that works for class selection
+        quantization = global_server_args_dict.get("quantization")
+        return quantization == "modelopt_fp4"
+    except:
+        return False
+
+
+def _get_tile_tokens_dim(num_tokens, top_k, num_experts):
+    # Guess tokens per expert assuming perfect expert distribution first.
+    num_tokens_per_expert = (num_tokens * top_k) // num_experts
+    # And pad the number to the next power of 2.
+    tile_tokens_dim = next_power_of_2(num_tokens_per_expert)
+    # Cap to 8-64 tokens per CTA tile as it's the range supported by the kernel.
+    tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
+    return tile_tokens_dim
 
 
 class FusedMoeWeightScaleSupported(Enum):
@@ -157,10 +195,6 @@ def __init__(
             )
         else:
             self.quant_method = quant_config.get_quant_method(self, prefix)
-            if self.quant_method.__class__.__name__ == "ModelOptNvFp4FusedMoEMethod":
-                self.quant_method.enable_flashinfer_cutlass_moe = (
-                    self.enable_flashinfer_cutlass_moe
-                )
         assert self.quant_method is not None
 
         self.quant_config = quant_config
@@ -747,7 +781,130 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
             routed_scaling_factor=self.routed_scaling_factor,
         )
 
-        if self.reduce_results and (self.tp_size > 1 or self.ep_size > 1):
+        if self.reduce_results and (self.moe_tp_size > 1 or self.moe_ep_size > 1):
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
 
         return final_hidden_states
+
+
+class FlashInferFP4MoE(FusedMoE):
+    """FP4 TRTLLM MoE implementation using FlashInfer."""
+
+    def __init__(self, *args, **kwargs):
+        # Extract DeepSeek-specific parameters
+        renormalize = kwargs.pop("renormalize", True)
+        num_fused_shared_experts = kwargs.pop("num_fused_shared_experts", 0)
+        use_grouped_topk = kwargs.pop("use_grouped_topk", False)
+        num_expert_group = kwargs.pop("num_expert_group", None)
+        topk_group = kwargs.pop("topk_group", None)
+        correction_bias = kwargs.pop("correction_bias", None)
+
+        # Extract additional TopK parameters that were previously extracted in forward
+        routed_scaling_factor = kwargs.pop("routed_scaling_factor", None)
+
+        super().__init__(*args, **kwargs)
+
+        # Store DeepSeek parameters
+        self.renormalize = renormalize
+        self.num_fused_shared_experts = num_fused_shared_experts
+        self.use_grouped_topk = use_grouped_topk
+        self.num_expert_group = num_expert_group
+        self.topk_group = topk_group
+        self.correction_bias = correction_bias
+        self.routed_scaling_factor = routed_scaling_factor
+
+    # ---------------------------------------------------------------------
+    # Helper: quantize hidden states to FP4 each forward pass
+    # ---------------------------------------------------------------------
+    def _quantize_hidden_states_fp4(self, hidden_states: torch.Tensor):
+        """
+        Quantize hidden states using global scale factor from quantization method.
+
+        Global scale factor is set by ModelOptNvFp4FusedMoEMethod during weight loading.
+        Only block scales are computed at runtime for efficiency.
+
+        Returns (packed_fp4_uint8, scale_float8_e4m3fn_runtime, global_scale_float32)
+        """
+
+        # flashinfer.fp4_quantize returns (packed_uint8, scale_fp8)
+        # Only the block scales are computed at runtime
+        hs_fp4_bytes, hs_sf_bytes = fp4_quantize(
+            hidden_states,
+            self.w13_input_scale_quant,
+            16,  # sf_vec_size
+            False,  # use_ue8m0
+            False,  # is_sf_swizzled_layout
+        )
+
+        hs_fp4 = hs_fp4_bytes.reshape(
+            hidden_states.shape[0], hidden_states.shape[1] // 2
+        )
+        hs_sf = hs_sf_bytes.view(torch.float8_e4m3fn).reshape(-1)
+
+        return hs_fp4, hs_sf
+
+    def forward(self, hidden_states: torch.Tensor, topk_output):
+        """Forward pass using FP4 TRTLLM kernel.
+
+        Args:
+            hidden_states: Input tensor
+            topk_output: Should be tuple of (TopK_config, router_logits) for TRTLLM mode
+        """
+
+        # TRTLLM mode expects (TopK_config, router_logits) tuple
+        if not isinstance(topk_output, tuple) or len(topk_output) != 2:
+            raise ValueError(
+                f"FlashInferFP4MoE expects (TopK_config, router_logits) tuple, got {type(topk_output)}"
+            )
+
+        _, router_logits = topk_output
+
+        hs_fp4, hs_scale_linear = self._quantize_hidden_states_fp4(hidden_states)
+
+        router_logits = router_logits.to(torch.float32)
+
+        result = trtllm_fp4_block_scale_moe(
+            routing_logits=router_logits,
+            routing_bias=self.correction_bias.to(hidden_states.dtype),
+            hidden_states=hs_fp4,
+            hidden_states_scale=hs_scale_linear.view(torch.float8_e4m3fn).flatten(),
+            gemm1_weights=self.gemm1_weights_fp4_shuffled.data,
+            gemm1_weights_scale=self.gemm1_scales_fp4_shuffled.data.view(
+                torch.float8_e4m3fn
+            ),
+            gemm2_weights=self.gemm2_weights_fp4_shuffled.data,
+            gemm2_weights_scale=self.gemm2_scales_fp4_shuffled.data.view(
+                torch.float8_e4m3fn
+            ),
+            output1_scale_scalar=self.g1_scale_c.data,
+            output1_scale_gate_scalar=self.g1_alphas.data,
+            output2_scale_scalar=self.g2_alphas.data,
+            num_experts=self.num_experts,
+            top_k=self.top_k,
+            n_group=self.num_expert_group,
+            topk_group=self.topk_group,
+            intermediate_size=self.intermediate_size_per_partition,
+            local_expert_offset=self.moe_ep_rank * self.num_local_experts,
+            local_num_experts=self.num_local_experts,
+            routed_scaling_factor=self.routed_scaling_factor,
+            tile_tokens_dim=_get_tile_tokens_dim(
+                hidden_states.shape[0], self.top_k, self.num_local_experts
+            ),
+            routing_method_type=RoutingMethodType.DeepSeekV3,
+            do_finalize=True,
+        )[0]
+
+        return result
+
+
+def get_fused_moe_impl_class():
+    """Factory function to get the appropriate FusedMoE implementation class."""
+    if should_use_flashinfer_trtllm_moe() and _is_fp4_quantization_enabled():
+        # Use FP4 variant when FP4 quantization is enabled
+        return FlashInferFP4MoE
+    elif should_use_flashinfer_trtllm_moe():
+        # Use regular FlashInfer variant for non-FP4 FlashInfer cases
+        return FlashInferFusedMoE
+    else:
+        # Default case
+        return FusedMoE
diff --git a/python/sglang/srt/layers/moe/utils.py b/python/sglang/srt/layers/moe/utils.py
index 06b174995646..f08b34e40469 100644
--- a/python/sglang/srt/layers/moe/utils.py
+++ b/python/sglang/srt/layers/moe/utils.py
@@ -1,4 +1,20 @@
+import importlib.util
 from enum import Enum
+from functools import lru_cache
+
+from packaging import version as pkg_version
+
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+
+
+@lru_cache(maxsize=1)
+def should_use_flashinfer_trtllm_moe():
+    result = global_server_args_dict["enable_flashinfer_trtllm_moe"] and (
+        not importlib.util.find_spec("flashinfer")
+        or pkg_version.parse(__import__("flashinfer").__version__)
+        >= pkg_version.parse("0.2.9rc1")
+    )
+    return result
 
 
 class MoeA2ABackend(Enum):
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index bf7ce8727c7e..7073f6be5301 100755
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -1,13 +1,15 @@
 # Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/modelopt.py
 from __future__ import annotations
 
+import importlib.util
 import logging
-from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union
 
 import torch
 from torch.nn.parameter import Parameter
 
 from sglang.srt.layers.moe.cutlass_moe_params import CutlassMoEParams, CutlassMoEType
+from sglang.srt.layers.moe.utils import should_use_flashinfer_trtllm_moe
 from sglang.srt.layers.parameter import ModelWeightParameter, PerTensorScaleParameter
 from sglang.srt.layers.quantization.base_config import (
     FusedMoEMethodBase,
@@ -29,6 +31,7 @@
     requantize_with_max_scale,
 )
 from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.utils import is_cuda, next_power_of_2
 
 if TYPE_CHECKING:
@@ -39,6 +42,11 @@
 
 try:
     from flashinfer import mm_fp4 as fp4_gemm
+    from flashinfer import (
+        reorder_rows_for_gated_act_gemm,
+        shuffle_matrix_a,
+        shuffle_matrix_sf_a,
+    )
 
     enable_flashinfer_fp4_gemm = True
 except ImportError:
@@ -47,6 +55,9 @@
     else:
         fp4_gemm = None
     enable_flashinfer_fp4_gemm = False
+    reorder_rows_for_gated_act_gemm = None
+    shuffle_matrix_a = None
+    shuffle_matrix_sf_a = None
 
 try:
     from flashinfer.fused_moe import cutlass_fused_moe as flashinfer_cutlass_fused_moe
@@ -527,6 +538,7 @@ def get_quant_method(
     ) -> Optional[QuantizeMethodBase]:
         from sglang.srt.layers.linear import LinearBase
         from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+        from sglang.srt.layers.moe.fused_moe_triton.layer import FlashInferFP4MoE
 
         if isinstance(layer, LinearBase):
             if is_layer_skipped(prefix, self.exclude_modules) or self.is_layer_excluded(
@@ -536,6 +548,9 @@ def get_quant_method(
             return ModelOptFp4LinearMethod(self)
         if self.kv_cache_quant_algo and isinstance(layer, RadixAttention):
             return ModelOptFp8KVCacheMethod(self)
+        elif isinstance(layer, FlashInferFP4MoE):
+            # FlashInferFP4MoE needs the same quantization method but with compatible attribute handling
+            return ModelOptNvFp4FusedMoEMethod(self)
         elif isinstance(layer, FusedMoE):
             return ModelOptNvFp4FusedMoEMethod(self)
         return None
@@ -726,7 +741,12 @@ def __init__(self, quant_config: ModelOptFp4Config):
                 " quantization. Please use Blackwell and"
                 " above."
             )
-        self.enable_flashinfer_cutlass_moe = False
+        self.enable_flashinfer_trtllm_moe = should_use_flashinfer_trtllm_moe()
+
+    @property
+    def enable_flashinfer_cutlass_moe(self) -> bool:
+        """Access the global enable_flashinfer_cutlass_moe setting."""
+        return global_server_args_dict.get("enable_flashinfer_cutlass_moe", False)
 
     def create_weights(
         self,
@@ -743,16 +763,20 @@ def create_weights(
                 " dynamic quantization is not supported."
             )
 
+        # TODO(ch-wan): check if this is needed
         layer.num_experts = num_experts
+        layer.num_local_experts = num_experts
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
         layer.params_dtype = params_dtype
         layer.quant_config = self.quant_config
+
         weight_dtype = torch.uint8
         weight_scale_dtype = torch.float8_e4m3fn
         weight_loader = extra_weight_attrs.get("weight_loader")
         # GEMM 1
         w13_weight = ModelWeightParameter(
             data=torch.empty(
-                num_experts,
+                layer.local_num_experts,
                 2 * intermediate_size_per_partition,
                 # 2 fp4 items are packed in the input dimension
                 hidden_size // 2,
@@ -767,7 +791,7 @@ def create_weights(
         # GEMM 2
         w2_weight = ModelWeightParameter(
             data=torch.empty(
-                num_experts,
+                layer.num_local_experts,
                 hidden_size,
                 # 2 fp4 items are packed in the input dimension
                 intermediate_size_per_partition // 2,
@@ -781,7 +805,7 @@ def create_weights(
 
         w13_weight_scale = ModelWeightParameter(
             data=torch.empty(
-                num_experts,
+                layer.num_local_experts,
                 2 * intermediate_size_per_partition,
                 # 2 fp4 items are packed in the input dimension
                 hidden_size // self.quant_config.group_size,
@@ -795,7 +819,7 @@ def create_weights(
 
         w2_weight_scale = ModelWeightParameter(
             data=torch.empty(
-                num_experts,
+                layer.num_local_experts,
                 hidden_size,
                 # 2 fp4 items are packed in the input dimension
                 intermediate_size_per_partition // self.quant_config.group_size,
@@ -814,13 +838,13 @@ def create_weights(
         )
 
         w13_weight_scale_2 = PerTensorScaleParameter(
-            data=torch.empty(num_experts, 2, dtype=torch.float32),
+            data=torch.empty(layer.num_local_experts, 2, dtype=torch.float32),
             weight_loader=weight_loader,
         )
         layer.register_parameter("w13_weight_scale_2", w13_weight_scale_2)
 
         w2_weight_scale_2 = PerTensorScaleParameter(
-            data=torch.empty(num_experts, dtype=torch.float32),
+            data=torch.empty(layer.num_local_experts, dtype=torch.float32),
             weight_loader=weight_loader,
         )
         layer.register_parameter("w2_weight_scale_2", w2_weight_scale_2)
@@ -830,18 +854,18 @@ def create_weights(
         )
 
         w13_input_scale = PerTensorScaleParameter(
-            data=torch.empty(num_experts, 2, dtype=torch.float32),
+            data=torch.empty(layer.num_local_experts, 2, dtype=torch.float32),
             weight_loader=weight_loader,
         )
         layer.register_parameter("w13_input_scale", w13_input_scale)
 
         w2_input_scale = PerTensorScaleParameter(
-            data=torch.empty(num_experts, dtype=torch.float32),
+            data=torch.empty(layer.num_local_experts, dtype=torch.float32),
             weight_loader=weight_loader,
         )
         layer.register_parameter("w2_input_scale", w2_input_scale)
 
-    def swizzle_blockscale(self, scale: torch.tensor):
+    def swizzle_blockscale(self, scale: torch.Tensor):
         assert scale.dtype == torch.float8_e4m3fn
         # Pad and blockwise interleave weight_scale
         scale_ndim = scale.ndim
@@ -866,9 +890,125 @@ def swizzle_blockscale(self, scale: torch.tensor):
             else swizzled_scale.reshape(B, M, K)
         )
 
+    def prepare_static_weights_for_kernel(
+        self,
+        # args_dequant,
+        # args,
+        gemm1_weights,
+        gemm2_weights,
+        gemm1_scales_linear_fp4_bytes,
+        gemm2_scales_linear_fp4_bytes,
+        hidden_size,
+        intermediate_size,
+        num_experts,
+    ):
+        from flashinfer import (
+            RoutingMethodType,
+            e2m1_and_ufp8sf_scale_to_float,
+            fp4_quantize,
+            next_positive_power_of_2,
+            reorder_rows_for_gated_act_gemm,
+            shuffle_matrix_a,
+            shuffle_matrix_sf_a,
+        )
+
+        """Prepare quantized weights for kernel (done offline with weights)."""
+        epilogue_tile_m = 128  # FIXME: this depends on the kernel internals
+
+        # Convert quantized weights to proper formats
+        gemm1_weights_fp4 = gemm1_weights.view(torch.float8_e4m3fn).reshape(
+            num_experts, 2 * intermediate_size, hidden_size // 2
+        )  # packed fp4
+        gemm1_scales_linear_fp4 = gemm1_scales_linear_fp4_bytes.view(
+            torch.float8_e4m3fn
+        ).reshape(
+            num_experts, 2 * intermediate_size, hidden_size // 16
+        )  # fp8 scaling factors
+
+        gemm2_weights_fp4 = gemm2_weights.view(torch.float8_e4m3fn).reshape(
+            num_experts, hidden_size, intermediate_size // 2
+        )  # packed fp4
+        gemm2_scales_linear_fp4 = gemm2_scales_linear_fp4_bytes.view(
+            torch.float8_e4m3fn
+        ).reshape(
+            num_experts, hidden_size, intermediate_size // 16
+        )  # fp8 scaling factors
+
+        # Reorder rows of W1 and scales for fused gated activation
+        gemm1_weights_fp4_interleaved = []
+        gemm1_scales_fp4_interleaved = []
+        for i in range(num_experts):
+            gemm1_weights_fp4_interleaved.append(
+                reorder_rows_for_gated_act_gemm(gemm1_weights_fp4[i].clone())
+            )
+            gemm1_scales_fp4_interleaved.append(
+                reorder_rows_for_gated_act_gemm(gemm1_scales_linear_fp4[i].clone())
+            )
+
+        # Stack weights and scales for all experts
+        gemm1_weights_fp4_interleaved = torch.stack(
+            gemm1_weights_fp4_interleaved
+        ).reshape(num_experts, 2 * intermediate_size, hidden_size // 2)
+        gemm1_scales_fp4_interleaved = torch.stack(
+            gemm1_scales_fp4_interleaved
+        ).reshape(num_experts, 2 * intermediate_size, hidden_size // 16)
+
+        # Shuffle weights and scaling factors for transposed mma output
+        gemm1_weights_fp4_shuffled = []
+        gemm1_scales_fp4_shuffled = []
+        gemm2_weights_fp4_shuffled = []
+        gemm2_scales_fp4_shuffled = []
+        for i in range(num_experts):
+            gemm1_weights_fp4_shuffled.append(
+                shuffle_matrix_a(
+                    gemm1_weights_fp4_interleaved[i].view(torch.uint8), epilogue_tile_m
+                )
+            )
+            gemm1_scales_fp4_shuffled.append(
+                shuffle_matrix_sf_a(
+                    gemm1_scales_fp4_interleaved[i].view(torch.uint8), epilogue_tile_m
+                )
+            )
+
+            gemm2_weights_fp4_shuffled.append(
+                shuffle_matrix_a(
+                    gemm2_weights_fp4[i].view(torch.uint8), epilogue_tile_m
+                )
+            )
+            gemm2_scales_fp4_shuffled.append(
+                shuffle_matrix_sf_a(
+                    gemm2_scales_linear_fp4[i].view(torch.uint8), epilogue_tile_m
+                )
+            )
+
+        # Stack weights for all experts
+        gemm1_weights_fp4_shuffled = torch.stack(gemm1_weights_fp4_shuffled)
+        gemm1_scales_fp4_shuffled = (
+            torch.stack(gemm1_scales_fp4_shuffled)
+            .view(torch.float8_e4m3fn)
+            .reshape(num_experts, 2 * intermediate_size, hidden_size // 16)
+        )
+
+        gemm2_weights_fp4_shuffled = torch.stack(gemm2_weights_fp4_shuffled)
+        gemm2_scales_fp4_shuffled = (
+            torch.stack(gemm2_scales_fp4_shuffled)
+            .view(torch.float8_e4m3fn)
+            .reshape(num_experts, hidden_size, intermediate_size // 16)
+        )
+        return (
+            gemm1_weights_fp4_shuffled,
+            gemm1_scales_fp4_shuffled,
+            gemm2_weights_fp4_shuffled,
+            gemm2_scales_fp4_shuffled,
+        )
+
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        """Process FP4 MoE weights after loading from serialized checkpoint.
 
-        # GEMM 1
+        Only supports pre-quantized checkpoints with FP8 weights and scales.
+        """
+
+        # GEMM 1 scale processing
         if not torch.allclose(
             layer.w13_weight_scale_2[:, 0], layer.w13_weight_scale_2[:, 1]
         ):
@@ -880,73 +1020,123 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         w13_weight_scale_2 = layer.w13_weight_scale_2[:, 0]
         layer.w13_weight_scale_2 = Parameter(w13_weight_scale_2, requires_grad=False)
 
-        if self.enable_flashinfer_cutlass_moe:
+        # Calculate input scales based on strategy
+        if self.enable_flashinfer_cutlass_moe or self.enable_flashinfer_trtllm_moe:
             w13_input_scale = layer.w13_input_scale.max().to(torch.float32)
+            w2_input_scale = layer.w2_input_scale.max().to(torch.float32)
         else:
             w13_input_scale = layer.w13_input_scale.max(dim=1).values.to(torch.float32)
+            w2_input_scale = layer.w2_input_scale
+
+        # Create shared parameters
         layer.g1_alphas = Parameter(
             (w13_input_scale * w13_weight_scale_2).to(torch.float32),
             requires_grad=False,
         )
-
-        assert (
-            layer.w13_weight_scale.shape[2] % 16 == 0
-        ), "Expected weight_scale.dim(1) to be divisible by 16"
-        assert (
-            layer.w13_weight_scale.dtype == torch.float8_e4m3fn
-        ), "Weight Blockscale must be represented as FP8-E4M3"
-        w13_blockscale_swizzled = self.swizzle_blockscale(layer.w13_weight_scale)
-
-        layer.w13_blockscale_swizzled = Parameter(
-            w13_blockscale_swizzled, requires_grad=False
+        layer.g2_alphas = Parameter(
+            (w2_input_scale * layer.w2_weight_scale_2).to(torch.float32),
+            requires_grad=False,
         )
-        del layer.w13_weight_scale
-
-        # This is for quantization, so we need to invert it.
         layer.w13_input_scale_quant = Parameter(
             (1 / w13_input_scale).to(torch.float32), requires_grad=False
         )
+        layer.w2_input_scale_quant = Parameter(
+            (1 / w2_input_scale).to(torch.float32), requires_grad=False
+        )
 
-        layer.w13_weight = Parameter(layer.w13_weight.data, requires_grad=False)
+        # Validate weight scales
+        for name, weight_scale in [
+            ("w13", layer.w13_weight_scale),
+            ("w2", layer.w2_weight_scale),
+        ]:
+            assert (
+                weight_scale.shape[2] % 16 == 0
+            ), f"Expected {name}_weight_scale.dim(2) to be divisible by 16"
+            assert (
+                weight_scale.dtype == torch.float8_e4m3fn
+            ), f"{name} Weight Blockscale must be represented as FP8-E4M3"
+
+        # Weight processing based on strategy
+        if (
+            self.enable_flashinfer_trtllm_moe
+            and reorder_rows_for_gated_act_gemm is not None
+            and shuffle_matrix_sf_a is not None
+        ):
+            # FlashInfer TRTLLM processing - handles both w13 and w2
+            (
+                gemm1_weights_fp4_shuffled,
+                gemm1_scales_fp4_shuffled,
+                gemm2_weights_fp4_shuffled,
+                gemm2_scales_fp4_shuffled,
+            ) = self.prepare_static_weights_for_kernel(
+                layer.w13_weight,
+                layer.w2_weight,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                layer.w2_weight.size(-2),  # hidden_size
+                layer.w13_weight.size(-2) // 2,  # intermediate_size
+                layer.w13_weight.size(0),  # num_experts
+            )
 
-        # GEMM 2
-        if self.enable_flashinfer_cutlass_moe:
-            w2_input_scale = layer.w2_input_scale.max().to(torch.float32)
-        else:
-            w2_input_scale = layer.w2_input_scale
+            # Set flashinfer parameters
+            layer.gemm1_weights_fp4_shuffled = Parameter(
+                gemm1_weights_fp4_shuffled, requires_grad=False
+            )
+            layer.gemm2_weights_fp4_shuffled = Parameter(
+                gemm2_weights_fp4_shuffled, requires_grad=False
+            )
+            layer.gemm1_scales_fp4_shuffled = Parameter(
+                gemm1_scales_fp4_shuffled, requires_grad=False
+            )
+            layer.gemm2_scales_fp4_shuffled = Parameter(
+                gemm2_scales_fp4_shuffled, requires_grad=False
+            )
 
-        layer.g2_alphas = Parameter(
-            (w2_input_scale * layer.w2_weight_scale_2).to(torch.float32),
-            requires_grad=False,
-        )
+            # Additional parameter needed for TRT-LLM
+            layer.g1_scale_c = Parameter(
+                (layer.w2_input_scale_quant * layer.g1_alphas).to(torch.float32),
+                requires_grad=False,
+            )
 
-        # This is for quantization, so we need to invert it.
-        layer.w2_input_scale_quant = Parameter(
-            (1 / w2_input_scale).to(torch.float32), requires_grad=False
-        )
+            # Clean up weights that won't be used by TRT-LLM
+            del (
+                layer.w2_weight,
+                layer.w2_weight_scale,
+                layer.w13_weight,
+                layer.w13_weight_scale,
+            )
 
-        assert (
-            layer.w2_weight_scale.shape[2] % 16 == 0
-        ), "Expected weight_scale.dim(1) to be divisible by 16"
-        assert (
-            layer.w2_weight_scale.dtype == torch.float8_e4m3fn
-        ), "Weight Blockscale must be represented as FP8-E4M3"
-        w2_blockscale_swizzled = self.swizzle_blockscale(layer.w2_weight_scale)
+            print("Applied flashinfer weight processing for both w13 and w2")
 
-        layer.w2_blockscale_swizzled = Parameter(
-            w2_blockscale_swizzled, requires_grad=False
-        )
-        del layer.w2_weight_scale
-        layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
+        else:
+            # CUTLASS processing - handle w13 and w2 separately
+
+            # Process w13 weights
+            w13_blockscale_swizzled = self.swizzle_blockscale(layer.w13_weight_scale)
+            layer.w13_blockscale_swizzled = Parameter(
+                w13_blockscale_swizzled, requires_grad=False
+            )
+            layer.w13_weight = Parameter(layer.w13_weight.data, requires_grad=False)
+
+            # Process w2 weights
+            w2_blockscale_swizzled = self.swizzle_blockscale(layer.w2_weight_scale)
+            layer.w2_blockscale_swizzled = Parameter(
+                w2_blockscale_swizzled, requires_grad=False
+            )
+            layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
+
+            # Both flashinfer cutlass and regular cutlass use same processing for w2
+            print("Applied weight processing for both w13 and w2")
 
-        device = layer.w13_weight.device
-        layer.cutlass_moe_params = CutlassMoEParams(
-            CutlassMoEType.BlockscaledFP4,
-            device,
-            num_experts=layer.num_experts,  # global num experts
-            intermediate_size_per_partition=layer.w2_weight.shape[2] * 2,  # n
-            hidden_size=layer.w13_weight.shape[2] * 2,
-        )  # k
+            # Set up CUTLASS MoE parameters
+            device = layer.w13_weight.device
+            layer.cutlass_moe_params = CutlassMoEParams(
+                CutlassMoEType.BlockscaledFP4,
+                device,
+                num_experts=layer.num_experts,  # global num experts
+                intermediate_size_per_partition=layer.w2_weight.shape[2] * 2,  # n
+                hidden_size=layer.w13_weight.shape[2] * 2,
+            )  # k
 
     @property
     def load_up_proj_weight_first(self) -> bool:
@@ -971,13 +1161,20 @@ def apply(
     ) -> torch.Tensor:
         assert activation == "silu", "Only SiLU activation is supported."
 
+        # Check if this is a FlashInferFP4MoE layer that should handle its own forward
+        if hasattr(layer, "gemm1_weights_fp4_shuffled"):
+            # This layer was processed with flashinfer TRTLLM - delegate to its own forward
+            return layer.forward(x, topk_output)
+
         if self.enable_flashinfer_cutlass_moe:
             assert (
                 not apply_router_weight_on_input
             ), "apply_router_weight_on_input is not supported for Flashinfer"
             # TRTLLM Cutlass moe takes in activations in BF16/Half/nvfp4 precision
             # and fp4 quantized weights loaded from the checkpoint
-            topk_weights, topk_ids, _ = topk_output
+
+            topk_weights, topk_ids = topk_output.topk_weights, topk_output.topk_ids
+
             output = flashinfer_cutlass_fused_moe(
                 x,
                 topk_ids.to(torch.int),
@@ -1005,7 +1202,7 @@ def apply(
 
         from sglang.srt.layers.moe.cutlass_moe import cutlass_moe_fp4
 
-        topk_weights, topk_ids, _ = topk_output
+        topk_weights, topk_ids = topk_output.topk_weights, topk_output.topk_ids
         output = cutlass_moe_fp4(
             a=x,
             a1_gscale=layer.w13_input_scale_quant,
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 03faea684557..759bb6afa235 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -51,7 +51,6 @@
     ScheduleBatchDisaggregationDecodeMixin,
 )
 from sglang.srt.distributed.parallel_state import get_tensor_model_parallel_rank
-from sglang.srt.layers.moe.utils import DeepEPMode, MoeA2ABackend
 from sglang.srt.mem_cache.allocator import (
     BaseTokenToKVPoolAllocator,
     SWATokenToKVPoolAllocator,
@@ -109,6 +108,7 @@
     "enable_triton_kernel_moe",
     "enable_multimodal",
     "enable_symm_mem",
+    "quantization",
 ]
 
 # Put some global args for easy access
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index b5b13d9ac6ae..009f926bff71 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -60,12 +60,9 @@
     RowParallelLinear,
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
-from sglang.srt.layers.moe.ep_moe.layer import (
-    DeepEPMoE,
-    get_moe_impl_class,
-    should_use_flashinfer_trtllm_moe,
-)
+from sglang.srt.layers.moe.ep_moe.layer import DeepEPMoE, get_moe_impl_class
 from sglang.srt.layers.moe.topk import TopK
+from sglang.srt.layers.moe.utils import should_use_flashinfer_trtllm_moe
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.fp8_kernel import (
@@ -307,19 +304,15 @@ def __init__(
             config=config, prefix=add_prefix("gate", prefix), is_nextn=is_nextn
         )
 
-        self.topk = (
-            TopK(
-                top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
-                renormalize=config.norm_topk_prob,
-                use_grouped_topk=True,
-                num_expert_group=config.n_group,
-                num_fused_shared_experts=self.num_fused_shared_experts,
-                topk_group=config.topk_group,
-                correction_bias=self.gate.e_score_correction_bias,
-                routed_scaling_factor=self.routed_scaling_factor,
-            )
-            if not should_use_flashinfer_trtllm_moe()
-            else None
+        self.topk = TopK(
+            top_k=config.num_experts_per_tok + self.num_fused_shared_experts,
+            renormalize=config.norm_topk_prob,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            num_fused_shared_experts=self.num_fused_shared_experts,
+            topk_group=config.topk_group,
+            correction_bias=self.gate.e_score_correction_bias,
+            routed_scaling_factor=self.routed_scaling_factor,
         )
 
         self.experts = get_moe_impl_class()(
@@ -476,10 +469,14 @@ def forward_normal_dual_stream(
             # router_logits: (num_tokens, n_experts)
             router_logits = self.gate(hidden_states)
             kwargs = {"hidden_states": hidden_states}
-            if self.topk is not None:
-                kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+
+            # FlashInferFP4MoE (TRTLLM path) expects (TopK, router_logits) tuple
+            # Regular FusedMoE (CUTLASS path) expects StandardTopKOutput
+            if should_use_flashinfer_trtllm_moe():
+                kwargs["topk_output"] = (self.topk, router_logits)
             else:
-                kwargs["router_logits"] = router_logits
+                kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+
             final_hidden_states = self.experts(**kwargs)
             if not _is_cuda:
                 final_hidden_states *= self.routed_scaling_factor
@@ -505,10 +502,14 @@ def forward_normal(
         # router_logits: (num_tokens, n_experts)
         router_logits = self.gate(hidden_states)
         kwargs = {"hidden_states": hidden_states}
-        if self.topk is not None:
-            kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+
+        # FlashInferFP4MoE (TRTLLM path) expects (TopK, router_logits) tuple
+        # Regular FusedMoE (CUTLASS path) expects StandardTopKOutput
+        if should_use_flashinfer_trtllm_moe():
+            kwargs["topk_output"] = (self.topk, router_logits)
         else:
-            kwargs["router_logits"] = router_logits
+            kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+
         final_hidden_states = self.experts(**kwargs)
         if not _is_cuda and not _use_aiter:
             # fused in biased_grouped_topk so we can skip here
diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 76f954578ad3..568f632f29d3 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -50,11 +50,9 @@
     RowParallelLinear,
 )
 from sglang.srt.layers.logits_processor import LogitsProcessor
-from sglang.srt.layers.moe.ep_moe.layer import (
-    get_moe_impl_class,
-    should_use_flashinfer_trtllm_moe,
-)
+from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
 from sglang.srt.layers.moe.topk import TopK
+from sglang.srt.layers.moe.utils import should_use_flashinfer_trtllm_moe
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.quantization.fp8_kernel import (
     is_fp8_fnuz,
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 6c63de97305d..fb3f80f87e5d 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -481,6 +481,13 @@ def print_deprecated_warning(message: str):
                 self.tp_size,
             ], "The expert parallel size must be 1 or the same as the tensor parallel size"
 
+        if self.enable_flashinfer_trtllm_moe:
+            if not self.disable_shared_experts_fusion:
+                self.disable_shared_experts_fusion = True
+                logger.warning(
+                    "FlashInfer TRTLLM MoE is enabled. --disable-shared-experts-fusion is automatically set."
+                )
+
         # DeepEP MoE
         if self.moe_a2a_backend == "deepep":
             if self.deepep_mode == "normal":

From 2fa0462c39c2da886d0a8fe9efba114541fb0038 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Mon, 4 Aug 2025 06:42:20 -0700
Subject: [PATCH 345/396] [router] introduce dp worker abstraction (#8639)

---
 sgl-router/src/core/mod.rs    |   4 +-
 sgl-router/src/core/worker.rs | 574 +++++++++++++++++++++++++++++++++-
 2 files changed, 567 insertions(+), 11 deletions(-)

diff --git a/sgl-router/src/core/mod.rs b/sgl-router/src/core/mod.rs
index aefbc2000c0b..e344190b23a6 100644
--- a/sgl-router/src/core/mod.rs
+++ b/sgl-router/src/core/mod.rs
@@ -11,6 +11,6 @@ pub mod worker;
 // Re-export commonly used types at the module level
 pub use error::{WorkerError, WorkerResult};
 pub use worker::{
-    start_health_checker, BasicWorker, HealthChecker, Worker, WorkerCollection, WorkerFactory,
-    WorkerLoadGuard, WorkerType,
+    start_health_checker, BasicWorker, DPAwareWorker, HealthChecker, Worker, WorkerCollection,
+    WorkerFactory, WorkerLoadGuard, WorkerType,
 };
diff --git a/sgl-router/src/core/worker.rs b/sgl-router/src/core/worker.rs
index 58db15991f63..12cf3b751a20 100644
--- a/sgl-router/src/core/worker.rs
+++ b/sgl-router/src/core/worker.rs
@@ -1,16 +1,18 @@
 use super::{WorkerError, WorkerResult};
 use async_trait::async_trait;
+use futures;
 use once_cell::sync::Lazy;
+use serde_json;
 use std::fmt;
 use std::sync::atomic::{AtomicBool, AtomicUsize, Ordering};
 use std::sync::Arc;
 
-// Shared HTTP client for health checks
-static HEALTH_CHECK_CLIENT: Lazy<reqwest::Client> = Lazy::new(|| {
+// Shared HTTP client for worker operations (health checks, server info, etc.)
+static WORKER_CLIENT: Lazy<reqwest::Client> = Lazy::new(|| {
     reqwest::Client::builder()
         .timeout(std::time::Duration::from_secs(30)) // Default timeout, overridden per request
         .build()
-        .expect("Failed to create health check HTTP client")
+        .expect("Failed to create worker HTTP client")
 });
 
 /// Core worker abstraction that represents a backend service
@@ -64,6 +66,43 @@ pub trait Worker: Send + Sync + fmt::Debug {
 
     /// Clone the worker (for trait objects)
     fn clone_worker(&self) -> Box<dyn Worker>;
+
+    // === DP-aware methods ===
+
+    /// Check if this worker is DP-aware
+    fn is_dp_aware(&self) -> bool {
+        false
+    }
+
+    /// Get the base URL without any DP rank suffix
+    fn base_url(&self) -> &str {
+        self.url()
+    }
+
+    /// Get DP rank if this is a DP-aware worker
+    fn dp_rank(&self) -> Option<usize> {
+        None
+    }
+
+    /// Get DP size if this worker is part of a DP group
+    fn dp_size(&self) -> Option<usize> {
+        None
+    }
+
+    /// Transform a request for DP-aware routing
+    async fn prepare_request(&self, req: serde_json::Value) -> WorkerResult<serde_json::Value> {
+        Ok(req)
+    }
+
+    /// Get the actual endpoint URL for requests
+    fn endpoint_url(&self, route: &str) -> String {
+        format!("{}{}", self.base_url(), route)
+    }
+
+    /// Check if this worker can handle a specific request
+    fn can_handle(&self, _req: &serde_json::Value) -> bool {
+        true
+    }
 }
 
 /// Worker type classification
@@ -212,12 +251,7 @@ impl Worker for BasicWorker {
         let timeout = Duration::from_secs(self.metadata.health_config.timeout_secs);
 
         // Use the shared client with a custom timeout for this request
-        match HEALTH_CHECK_CLIENT
-            .get(&health_url)
-            .timeout(timeout)
-            .send()
-            .await
-        {
+        match WORKER_CLIENT.get(&health_url).timeout(timeout).send().await {
             Ok(response) => {
                 if response.status().is_success() {
                     self.set_healthy(true);
@@ -273,6 +307,160 @@ impl Worker for BasicWorker {
     }
 }
 
+/// A DP-aware worker that handles data-parallel routing
+#[derive(Debug, Clone)]
+pub struct DPAwareWorker {
+    /// The underlying basic worker
+    base_worker: BasicWorker,
+    /// DP rank for this worker
+    dp_rank: usize,
+    /// Total DP size
+    dp_size: usize,
+    /// Base URL without DP suffix
+    base_url: String,
+}
+
+impl DPAwareWorker {
+    /// Create a new DP-aware worker of any type
+    pub fn new(base_url: String, dp_rank: usize, dp_size: usize, worker_type: WorkerType) -> Self {
+        // Create URL with DP rank suffix for identification
+        let worker_url = format!("{}@{}", base_url, dp_rank);
+        let base_worker = BasicWorker::new(worker_url, worker_type);
+
+        Self {
+            base_worker,
+            dp_rank,
+            dp_size,
+            base_url,
+        }
+    }
+}
+
+#[async_trait]
+impl Worker for DPAwareWorker {
+    fn url(&self) -> &str {
+        self.base_worker.url()
+    }
+
+    fn worker_type(&self) -> WorkerType {
+        self.base_worker.worker_type()
+    }
+
+    fn is_healthy(&self) -> bool {
+        self.base_worker.is_healthy()
+    }
+
+    fn set_healthy(&self, healthy: bool) {
+        self.base_worker.set_healthy(healthy);
+    }
+
+    async fn check_health_async(&self) -> WorkerResult<()> {
+        // Use base URL for health checks
+        let health_url = format!("{}/health", self.base_url);
+        let timeout =
+            std::time::Duration::from_secs(self.base_worker.metadata.health_config.timeout_secs);
+
+        let health_result = async {
+            let response = WORKER_CLIENT
+                .get(&health_url)
+                .timeout(timeout)
+                .send()
+                .await
+                .map_err(|e| format!("Health check request failed: {}", e))?;
+
+            if response.status().is_success() {
+                Ok(())
+            } else {
+                Err(format!(
+                    "Health check returned status: {}",
+                    response.status()
+                ))
+            }
+        }
+        .await;
+
+        match health_result {
+            Ok(()) => {
+                self.set_healthy(true);
+                Ok(())
+            }
+            Err(reason) => {
+                self.set_healthy(false);
+                Err(WorkerError::HealthCheckFailed {
+                    url: self.base_url.clone(),
+                    reason,
+                })
+            }
+        }
+    }
+
+    fn load(&self) -> usize {
+        self.base_worker.load()
+    }
+
+    fn increment_load(&self) {
+        self.base_worker.increment_load();
+    }
+
+    fn decrement_load(&self) {
+        self.base_worker.decrement_load();
+    }
+
+    fn processed_requests(&self) -> usize {
+        self.base_worker.processed_requests()
+    }
+
+    fn increment_processed(&self) {
+        self.base_worker.increment_processed();
+    }
+
+    fn metadata(&self) -> &WorkerMetadata {
+        self.base_worker.metadata()
+    }
+
+    fn clone_worker(&self) -> Box<dyn Worker> {
+        Box::new(self.clone())
+    }
+
+    // DP-aware specific implementations
+
+    fn is_dp_aware(&self) -> bool {
+        true
+    }
+
+    fn base_url(&self) -> &str {
+        &self.base_url
+    }
+
+    fn dp_rank(&self) -> Option<usize> {
+        Some(self.dp_rank)
+    }
+
+    fn dp_size(&self) -> Option<usize> {
+        Some(self.dp_size)
+    }
+
+    async fn prepare_request(&self, mut req: serde_json::Value) -> WorkerResult<serde_json::Value> {
+        // Inject data_parallel_rank into the request
+        if let Some(map) = req.as_object_mut() {
+            map.insert(
+                "data_parallel_rank".to_string(),
+                serde_json::json!(self.dp_rank),
+            );
+            Ok(req)
+        } else {
+            Err(WorkerError::InvalidConfiguration {
+                message: "Request must be a JSON object for DP-aware routing".to_string(),
+            })
+        }
+    }
+
+    fn endpoint_url(&self, route: &str) -> String {
+        // Use base URL for actual requests
+        format!("{}{}", self.base_url, route)
+    }
+}
+
 /// Worker factory for creating workers of different types
 pub struct WorkerFactory;
 
@@ -318,6 +506,133 @@ impl WorkerFactory {
 
         (regular_workers, prefill_workers, decode_workers)
     }
+
+    /// Create a DP-aware worker of specified type
+    pub fn create_dp_aware(
+        base_url: String,
+        dp_rank: usize,
+        dp_size: usize,
+        worker_type: WorkerType,
+    ) -> Box<dyn Worker> {
+        Box::new(DPAwareWorker::new(base_url, dp_rank, dp_size, worker_type))
+    }
+
+    /// Get DP size from a worker
+    async fn get_worker_dp_size(url: &str, api_key: &Option<String>) -> WorkerResult<usize> {
+        let mut req_builder = WORKER_CLIENT.get(&format!("{}/get_server_info", url));
+
+        if let Some(key) = api_key {
+            req_builder = req_builder.bearer_auth(key);
+        }
+
+        let response = req_builder
+            .send()
+            .await
+            .map_err(|e| WorkerError::NetworkError {
+                url: url.to_string(),
+                error: e.to_string(),
+            })?;
+
+        if !response.status().is_success() {
+            return Err(WorkerError::NetworkError {
+                url: url.to_string(),
+                error: format!("Server returned: {}", response.status()),
+            });
+        }
+
+        let info: serde_json::Value =
+            response
+                .json()
+                .await
+                .map_err(|e| WorkerError::NetworkError {
+                    url: url.to_string(),
+                    error: format!("Failed to parse JSON: {}", e),
+                })?;
+
+        let dp_size = info
+            .get("dp_size")
+            .and_then(|v| v.as_u64())
+            .ok_or_else(|| WorkerError::InvalidConfiguration {
+                message: "dp_size not found in server info".to_string(),
+            })?;
+
+        if dp_size > usize::MAX as u64 {
+            return Err(WorkerError::InvalidConfiguration {
+                message: format!("dp_size is too large: {}", dp_size),
+            });
+        }
+
+        Ok(dp_size as usize)
+    }
+
+    /// Private helper to create DP-aware workers of any type
+    async fn create_dp_aware_workers_of_type(
+        url: &str,
+        api_key: &Option<String>,
+        worker_type: WorkerType,
+    ) -> WorkerResult<Vec<Box<dyn Worker>>> {
+        let dp_size = Self::get_worker_dp_size(url, api_key).await?;
+
+        let workers = (0..dp_size)
+            .map(|rank| Self::create_dp_aware(url.to_string(), rank, dp_size, worker_type.clone()))
+            .collect();
+
+        Ok(workers)
+    }
+
+    /// Create DP-aware regular workers from a single URL
+    pub async fn create_dp_aware_regular_workers(
+        url: &str,
+        api_key: &Option<String>,
+    ) -> WorkerResult<Vec<Box<dyn Worker>>> {
+        Self::create_dp_aware_workers_of_type(url, api_key, WorkerType::Regular).await
+    }
+
+    /// Create DP-aware prefill workers from a single URL
+    pub async fn create_dp_aware_prefill_workers(
+        url: &str,
+        bootstrap_port: Option<u16>,
+        api_key: &Option<String>,
+    ) -> WorkerResult<Vec<Box<dyn Worker>>> {
+        Self::create_dp_aware_workers_of_type(url, api_key, WorkerType::Prefill { bootstrap_port })
+            .await
+    }
+
+    /// Create DP-aware decode workers from a single URL
+    pub async fn create_dp_aware_decode_workers(
+        url: &str,
+        api_key: &Option<String>,
+    ) -> WorkerResult<Vec<Box<dyn Worker>>> {
+        Self::create_dp_aware_workers_of_type(url, api_key, WorkerType::Decode).await
+    }
+
+    /// Create workers based on configuration (for regular router)
+    pub async fn create_workers(
+        urls: Vec<String>,
+        dp_aware: bool,
+        api_key: &Option<String>,
+    ) -> WorkerResult<Vec<Box<dyn Worker>>> {
+        if dp_aware {
+            // Create futures for all worker creations
+            let worker_futs = urls
+                .iter()
+                .map(|url| Self::create_dp_aware_regular_workers(url, api_key));
+
+            // Execute all futures concurrently and flatten results
+            let all_workers = futures::future::try_join_all(worker_futs)
+                .await?
+                .into_iter()
+                .flatten()
+                .collect();
+
+            Ok(all_workers)
+        } else {
+            Ok(urls
+                .into_iter()
+                .map(|url| Self::create_regular(url))
+                .collect())
+        }
+    }
 }
 
 /// Helper trait for collections of workers
@@ -1086,4 +1401,245 @@ mod tests {
         // Should be well over 1M ops/sec
         assert!(ops_per_sec > 1_000_000.0);
     }
+
+    // ===== Tests for DPAwareWorker =====
+
+    #[test]
+    fn test_dp_aware_worker_creation() {
+        let dp_worker =
+            DPAwareWorker::new("http://worker1:8080".to_string(), 2, 4, WorkerType::Regular);
+
+        assert_eq!(dp_worker.url(), "http://worker1:8080@2");
+        assert_eq!(dp_worker.base_url(), "http://worker1:8080");
+        assert!(dp_worker.is_dp_aware());
+        assert_eq!(dp_worker.dp_rank(), Some(2));
+        assert_eq!(dp_worker.dp_size(), Some(4));
+        assert_eq!(dp_worker.worker_type(), WorkerType::Regular);
+    }
+
+    #[test]
+    fn test_dp_aware_worker_creation_prefill() {
+        let dp_worker = DPAwareWorker::new(
+            "http://worker1:8080".to_string(),
+            1,
+            2,
+            WorkerType::Prefill {
+                bootstrap_port: Some(9090),
+            },
+        );
+
+        assert_eq!(dp_worker.url(), "http://worker1:8080@1");
+        assert!(dp_worker.is_dp_aware());
+        assert_eq!(
+            dp_worker.worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(9090)
+            }
+        );
+    }
+
+    #[test]
+    fn test_dp_aware_worker_creation_decode() {
+        let dp_worker =
+            DPAwareWorker::new("http://worker1:8080".to_string(), 0, 4, WorkerType::Decode);
+
+        assert_eq!(dp_worker.url(), "http://worker1:8080@0");
+        assert!(dp_worker.is_dp_aware());
+        assert_eq!(dp_worker.worker_type(), WorkerType::Decode);
+    }
+
+    #[tokio::test]
+    async fn test_dp_aware_prepare_request() {
+        let dp_worker =
+            DPAwareWorker::new("http://worker1:8080".to_string(), 3, 8, WorkerType::Regular);
+
+        let original_req = serde_json::json!({
+            "prompt": "Hello",
+            "max_tokens": 100
+        });
+
+        let prepared_req = dp_worker.prepare_request(original_req).await.unwrap();
+
+        assert_eq!(prepared_req["prompt"], "Hello");
+        assert_eq!(prepared_req["max_tokens"], 100);
+        assert_eq!(prepared_req["data_parallel_rank"], 3);
+    }
+
+    #[tokio::test]
+    async fn test_dp_aware_prepare_request_invalid() {
+        let dp_worker =
+            DPAwareWorker::new("http://worker1:8080".to_string(), 0, 4, WorkerType::Regular);
+
+        // Non-object JSON should fail
+        let invalid_req = serde_json::json!("not an object");
+        let result = dp_worker.prepare_request(invalid_req).await;
+
+        assert!(result.is_err());
+        match result.unwrap_err() {
+            WorkerError::InvalidConfiguration { message } => {
+                assert!(message.contains("JSON object"));
+            }
+            _ => panic!("Expected InvalidConfiguration error"),
+        }
+    }
+
+    #[test]
+    fn test_dp_aware_endpoint_url() {
+        let dp_worker =
+            DPAwareWorker::new("http://worker1:8080".to_string(), 1, 4, WorkerType::Regular);
+
+        assert_eq!(
+            dp_worker.endpoint_url("/generate"),
+            "http://worker1:8080/generate"
+        );
+        assert_eq!(
+            dp_worker.endpoint_url("/health"),
+            "http://worker1:8080/health"
+        );
+    }
+
+    #[test]
+    fn test_dp_aware_worker_delegated_methods() {
+        let dp_worker =
+            DPAwareWorker::new("http://worker1:8080".to_string(), 0, 2, WorkerType::Regular);
+
+        // Test health status
+        assert!(dp_worker.is_healthy());
+        dp_worker.set_healthy(false);
+        assert!(!dp_worker.is_healthy());
+
+        // Test load tracking
+        assert_eq!(dp_worker.load(), 0);
+        dp_worker.increment_load();
+        assert_eq!(dp_worker.load(), 1);
+        dp_worker.decrement_load();
+        assert_eq!(dp_worker.load(), 0);
+
+        // Test processed tracking
+        assert_eq!(dp_worker.processed_requests(), 0);
+        dp_worker.increment_processed();
+        assert_eq!(dp_worker.processed_requests(), 1);
+    }
+
+    // ===== Tests for WorkerFactory async methods =====
+
+    #[tokio::test]
+    async fn test_factory_create_dp_aware() {
+        let worker = WorkerFactory::create_dp_aware(
+            "http://worker1:8080".to_string(),
+            1,
+            4,
+            WorkerType::Regular,
+        );
+
+        assert_eq!(worker.url(), "http://worker1:8080@1");
+        assert!(worker.is_dp_aware());
+        assert_eq!(worker.dp_rank(), Some(1));
+        assert_eq!(worker.dp_size(), Some(4));
+        assert_eq!(worker.worker_type(), WorkerType::Regular);
+    }
+
+    #[tokio::test]
+    async fn test_factory_create_dp_aware_prefill() {
+        let worker = WorkerFactory::create_dp_aware(
+            "http://worker1:8080".to_string(),
+            0,
+            2,
+            WorkerType::Prefill {
+                bootstrap_port: Some(8090),
+            },
+        );
+
+        assert_eq!(worker.url(), "http://worker1:8080@0");
+        assert!(worker.is_dp_aware());
+        assert_eq!(
+            worker.worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(8090)
+            }
+        );
+    }
+
+    #[tokio::test]
+    async fn test_factory_create_workers_regular() {
+        let urls = vec!["http://w1:8080".to_string(), "http://w2:8080".to_string()];
+
+        let workers = WorkerFactory::create_workers(urls, false, &None)
+            .await
+            .unwrap();
+
+        assert_eq!(workers.len(), 2);
+        assert!(!workers[0].is_dp_aware());
+        assert!(!workers[1].is_dp_aware());
+        assert_eq!(workers[0].url(), "http://w1:8080");
+        assert_eq!(workers[1].url(), "http://w2:8080");
+    }
+
+    // ===== Integration tests =====
+
+    #[tokio::test]
+    async fn test_mixed_worker_types() {
+        // Create a mix of worker types
+        let regular = WorkerFactory::create_regular("http://regular:8080".to_string());
+        let prefill = WorkerFactory::create_prefill("http://prefill:8080".to_string(), Some(9090));
+        let decode = WorkerFactory::create_decode("http://decode:8080".to_string());
+        let dp_aware_regular =
+            WorkerFactory::create_dp_aware("http://dp:8080".to_string(), 0, 2, WorkerType::Regular);
+        let dp_aware_prefill = WorkerFactory::create_dp_aware(
+            "http://dp-prefill:8080".to_string(),
+            1,
+            2,
+            WorkerType::Prefill {
+                bootstrap_port: None,
+            },
+        );
+        let dp_aware_decode = WorkerFactory::create_dp_aware(
+            "http://dp-decode:8080".to_string(),
+            0,
+            4,
+            WorkerType::Decode,
+        );
+
+        let workers: Vec<Box<dyn Worker>> = vec![
+            regular,
+            prefill,
+            decode,
+            dp_aware_regular,
+            dp_aware_prefill,
+            dp_aware_decode,
+        ];
+
+        // Test that they all implement Worker trait properly
+        for worker in &workers {
+            assert!(worker.is_healthy());
+            assert_eq!(worker.load(), 0);
+            assert_eq!(worker.processed_requests(), 0);
+        }
+
+        // Test specific behaviors
+        assert!(!workers[0].is_dp_aware()); // regular
+        assert!(!workers[1].is_dp_aware()); // prefill
+        assert!(!workers[2].is_dp_aware()); // decode
+        assert!(workers[3].is_dp_aware()); // dp_aware_regular
+        assert!(workers[4].is_dp_aware()); // dp_aware_prefill
+        assert!(workers[5].is_dp_aware()); // dp_aware_decode
+
+        // Test worker types
+        assert_eq!(workers[0].worker_type(), WorkerType::Regular);
+        assert_eq!(
+            workers[1].worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(9090)
+            }
+        );
+        assert_eq!(workers[2].worker_type(), WorkerType::Decode);
+        assert_eq!(workers[3].worker_type(), WorkerType::Regular);
+        assert_eq!(
+            workers[4].worker_type(),
+            WorkerType::Prefill {
+                bootstrap_port: None
+            }
+        );
+        assert_eq!(workers[5].worker_type(), WorkerType::Decode);
+    }
 }

From 9bd4872a343e55df62f00da0cff6d46a9ed9cd3f Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Mon, 4 Aug 2025 11:08:08 -0700
Subject: [PATCH 346/396] [bugfix] Fix typo in modelopt quant: 'FusedMoE'
 object has no attribute 'local_num_experts' (#8768)

---
 python/sglang/srt/layers/quantization/modelopt_quant.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 7073f6be5301..fca0ee38b9c0 100755
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -776,7 +776,7 @@ def create_weights(
         # GEMM 1
         w13_weight = ModelWeightParameter(
             data=torch.empty(
-                layer.local_num_experts,
+                layer.num_local_experts,
                 2 * intermediate_size_per_partition,
                 # 2 fp4 items are packed in the input dimension
                 hidden_size // 2,

From fc8c8e504156ac8bca3caa4987024b2313cddd87 Mon Sep 17 00:00:00 2001
From: Qiaolin Yu <liin1211@outlook.com>
Date: Mon, 4 Aug 2025 12:12:14 -0700
Subject: [PATCH 347/396] Integrate triton_kernels in sgl-kernel (#8762)

---
 sgl-kernel/CMakeLists.txt | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/sgl-kernel/CMakeLists.txt b/sgl-kernel/CMakeLists.txt
index b359c76c1cfb..72225e55b88a 100644
--- a/sgl-kernel/CMakeLists.txt
+++ b/sgl-kernel/CMakeLists.txt
@@ -66,6 +66,16 @@ FetchContent_Declare(
     GIT_SHALLOW    OFF
 )
 FetchContent_Populate(repo-deepgemm)
+
+# Triton
+FetchContent_Declare(
+    repo-triton
+    GIT_REPOSITORY "https://github.com/triton-lang/triton"
+    GIT_TAG        8f9f695ea8fde23a0c7c88e4ab256634ca27789f
+    GIT_SHALLOW    OFF
+)
+FetchContent_Populate(repo-triton)
+
 # flashinfer
 FetchContent_Declare(
     repo-flashinfer
@@ -413,3 +423,9 @@ install(DIRECTORY "${repo-cutlass_SOURCE_DIR}/include/cute/"
 
 install(DIRECTORY "${repo-cutlass_SOURCE_DIR}/include/cutlass/"
         DESTINATION "deep_gemm/include/cutlass")
+
+# triton_kernels
+install(DIRECTORY "${repo-triton_SOURCE_DIR}/python/triton_kernels/triton_kernels/"
+        DESTINATION "triton_kernels"
+        PATTERN ".git*" EXCLUDE
+        PATTERN "__pycache__" EXCLUDE)

From 02bc1c7d80799fc04385dc6bcab3dd4c2d7a5f4d Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 4 Aug 2025 13:18:54 -0700
Subject: [PATCH 348/396] chore: bump sgl-kernel v0.3.1 (#8771)

---
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index e5462a748b37..36b335f94956 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.3.0"
+version = "0.3.1"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index a6c9c8d8e6e7..64e53434cc15 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.3.0"
+version = "0.3.1"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 30529ce77ddd..0a8cea33d72d 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.3.0"
+version = "0.3.1"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index 493f7415d73d..260c070a890d 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.3.0"
+__version__ = "0.3.1"

From 6d0646da1145c711da94af9ff9dc27a16d4afa65 Mon Sep 17 00:00:00 2001
From: Kaixi Hou <kaixih@nvidia.com>
Date: Mon, 4 Aug 2025 16:30:13 -0700
Subject: [PATCH 349/396] [NVIDIA] Fix breakage of using trtllm-gen fp8 moe
 (#8773)

---
 python/sglang/srt/layers/moe/ep_moe/layer.py  | 66 ++-----------------
 .../srt/layers/moe/fused_moe_triton/layer.py  | 15 ++++-
 2 files changed, 18 insertions(+), 63 deletions(-)

diff --git a/python/sglang/srt/layers/moe/ep_moe/layer.py b/python/sglang/srt/layers/moe/ep_moe/layer.py
index ac5371871241..862561804606 100644
--- a/python/sglang/srt/layers/moe/ep_moe/layer.py
+++ b/python/sglang/srt/layers/moe/ep_moe/layer.py
@@ -673,66 +673,6 @@ def forward_deepgemm_masked(
         return down_output
 
 
-class FlashInferEPMoE(EPMoE):
-    def __init__(self, *args, **kwargs):
-        renormalize = kwargs.pop("renormalize", True)
-        num_fused_shared_experts = kwargs.pop("num_fused_shared_experts", 0)
-        use_grouped_topk = kwargs.pop("use_grouped_topk", False)
-        num_expert_group = kwargs.pop("num_expert_group", None)
-        topk_group = kwargs.pop("topk_group", None)
-        correction_bias = kwargs.pop("correction_bias", None)
-        super().__init__(*args, **kwargs)
-        self.renormalize = renormalize
-        self.num_fused_shared_experts = num_fused_shared_experts
-        self.use_grouped_topk = use_grouped_topk
-        if self.use_grouped_topk:
-            assert num_expert_group is not None and topk_group is not None
-        self.num_expert_group = num_expert_group
-        self.topk_group = topk_group
-        self.correction_bias = correction_bias
-        self.use_flashinfer_trtllm_moe = should_use_flashinfer_trtllm_moe()
-
-    def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
-        assert self.use_flashinfer_trtllm_moe
-        assert (
-            self.activation == "silu"
-        ), "Only silu is supported for flashinfer blockscale fp8 moe"
-        assert (
-            self.renormalize
-        ), "Renormalize is required for flashinfer blockscale fp8 moe"
-        assert (
-            self.num_fused_shared_experts == 0
-        ), "Fused shared experts are not supported for flashinfer blockscale fp8 moe"
-        a_q, a_sf = sglang_per_token_group_quant_fp8(hidden_states, self.block_shape[1])
-        # NOTE: scales of hidden states have to be transposed!
-        a_sf_t = a_sf.t().contiguous()
-        from flashinfer.fused_moe import trtllm_fp8_block_scale_moe
-
-        return trtllm_fp8_block_scale_moe(
-            routing_logits=router_logits.to(torch.float32),
-            routing_bias=self.correction_bias.to(hidden_states.dtype),
-            hidden_states=a_q,
-            hidden_states_scale=a_sf_t,
-            gemm1_weights=self.w13_weight,
-            gemm1_weights_scale=self.w13_weight_scale_inv,
-            gemm2_weights=self.w2_weight,
-            gemm2_weights_scale=self.w2_weight_scale_inv,
-            num_experts=self.num_experts,
-            top_k=self.top_k,
-            n_group=self.num_expert_group,
-            topk_group=self.topk_group,
-            intermediate_size=self.w2_weight.shape[2],
-            local_expert_offset=self.start_expert_id,
-            local_num_experts=self.num_local_experts,
-            routed_scaling_factor=self.routed_scaling_factor,
-            tile_tokens_dim=get_tile_tokens_dim(
-                hidden_states.shape[0], self.top_k, self.num_experts
-            ),
-            routing_method_type=2,  # DeepSeek-styled routing method
-            use_shuffled_weight=False,
-        )
-
-
 def get_moe_impl_class():
     if global_server_args_dict["moe_a2a_backend"].is_deepep():
         return DeepEPMoE
@@ -752,8 +692,10 @@ def get_moe_impl_class():
         except:
             pass
 
+    if should_use_flashinfer_trtllm_moe():
+        return FlashInferFusedMoE
     if global_server_args_dict["enable_flashinfer_cutlass_moe"]:
         return FusedMoE
     if get_moe_expert_parallel_world_size() > 1:
-        return FlashInferEPMoE if should_use_flashinfer_trtllm_moe() else EPMoE
-    return FlashInferFusedMoE if should_use_flashinfer_trtllm_moe() else FusedMoE
+        return EPMoE
+    return FusedMoE
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index c30535d7fa71..74558fd9b3ec 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -763,8 +763,13 @@ def __init__(self, *args, **kwargs):
         self.num_expert_group = num_expert_group
         self.topk_group = topk_group
         self.correction_bias = correction_bias
+        self.use_flashinfer_trtllm_moe = should_use_flashinfer_trtllm_moe()
 
-    def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
+    def forward(self, hidden_states: torch.Tensor, topk_output: tuple):
+        assert self.use_flashinfer_trtllm_moe
+        assert (
+            self.activation == "silu"
+        ), "Only silu is supported for flashinfer blockscale fp8 moe"
         assert self.quant_method is not None
         assert (
             self.renormalize
@@ -772,6 +777,14 @@ def forward(self, hidden_states: torch.Tensor, router_logits: torch.Tensor):
         assert (
             self.num_fused_shared_experts == 0
         ), "Fused shared experts are not supported for flashinfer blockscale fp8 moe"
+
+        # TRTLLM mode expects (TopK_config, router_logits) tuple
+        if not isinstance(topk_output, tuple) or len(topk_output) != 2:
+            raise ValueError(
+                f"FlashInferFusedMoE expects (TopK_config, router_logits) tuple, got {type(topk_output)}"
+            )
+        _, router_logits = topk_output
+
         # Matrix multiply.
         final_hidden_states = self.quant_method.apply_with_router_logits(
             layer=self,

From 7cb20754faca1779860723c3fbd9c1a19acacac8 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Mon, 4 Aug 2025 17:11:46 -0700
Subject: [PATCH 350/396] [Fix] Fix several issues preventing gemma3n LoRA
 support. (#8776)

---
 python/sglang/srt/lora/lora_manager.py |  7 +++++
 python/sglang/srt/models/gemma3n_mm.py | 39 ++++++++++++++++++++++++++
 python/sglang/srt/server_args.py       | 10 +++++--
 3 files changed, 54 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/lora/lora_manager.py b/python/sglang/srt/lora/lora_manager.py
index c1d6439a0d19..e4fe1d0d1955 100644
--- a/python/sglang/srt/lora/lora_manager.py
+++ b/python/sglang/srt/lora/lora_manager.py
@@ -386,6 +386,13 @@ def init_lora_shapes(
         else:
             self.target_modules = set()
             for config in self.configs.values():
+                if not isinstance(config.target_modules, list):
+                    raise ValueError(
+                        f"SGLang currently only supports inferring LoRA target modules when a list of "
+                        "suffixes is provided in `target_modules` field of PEFT config. Please explicitly "
+                        "specify `--lora-target-modules` during server startup. You can specify `all` to "
+                        "enable all support modules types. "
+                    )
                 self.target_modules.update(config.target_modules)
 
         if max_lora_rank is not None:
diff --git a/python/sglang/srt/models/gemma3n_mm.py b/python/sglang/srt/models/gemma3n_mm.py
index 5139a9c2ded5..b4bf2ba750cf 100644
--- a/python/sglang/srt/models/gemma3n_mm.py
+++ b/python/sglang/srt/models/gemma3n_mm.py
@@ -492,5 +492,44 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
             loaded_params.add(name)
         return loaded_params
 
+    lora_pattern = re.compile(
+        r"^language_model\.layers\.(\d+)\.(?:self_attn|mlp)\.(?:qkv_proj|o_proj|down_proj|gate_up_proj)"
+    )
+
+    def should_apply_lora(self, module_name: str) -> bool:
+        return bool(self.lora_pattern.match(module_name))
+
+    def get_hidden_dim(self, module_name):
+        # return input_dim, output_dim
+        if module_name in ["q_proj", "qkv_proj"]:
+            return (
+                self.config.hidden_size,
+                self.config.head_dim * self.config.num_attention_heads,
+            )
+        elif module_name in ["o_proj"]:
+            return (
+                self.config.head_dim * self.config.num_attention_heads,
+                self.config.hidden_size,
+            )
+        elif module_name in ["kv_proj"]:
+            return (
+                self.config.hidden_size,
+                self.config.head_dim * self.config.num_key_value_heads,
+            )
+        elif module_name == "gate_up_proj":
+            assert len(set(self.config.intermediate_size)) == 1, (
+                "Currently SGLang requires uniform intermediate size for all layers. "
+                "Please file an issue if you need support for non-uniform intermediate sizes."
+            )
+            return self.config.hidden_size, self.config.intermediate_size[0]
+        elif module_name == "down_proj":
+            assert len(set(self.config.intermediate_size)) == 1, (
+                "Currently SGLang requires uniform intermediate size for all layers. "
+                "Please file an issue if you need support for non-uniform intermediate sizes."
+            )
+            return self.config.intermediate_size[0], self.config.hidden_size
+        else:
+            raise NotImplementedError()
+
 
 EntryClass = Gemma3nForConditionalGeneration
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index fb3f80f87e5d..aacaaf1cda66 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -1943,10 +1943,16 @@ def check_server_args(self):
         if "Llama4" in model_arch:
             assert self.attention_backend == "fa3", "fa3 is required for Llama4 model"
 
-        if "Gemma2ForCausalLM" in model_arch:
+        if model_arch in [
+            "Gemma2ForCausalLM",
+            "Gemma3nForCausalLM",
+            "Gemma3nForConditionalGeneration",
+        ]:
             # FIXME: https://github.com/sgl-project/sglang/pull/7367 is not compatible with gemma2 model.
             # It failed at this test: https://github.com/sgl-project/sglang/actions/runs/16255155597/job/45890331952#step:4:736
-            logger.warning("Disable hybrid SWA memory for Gemma2ForCausalLM.")
+            logger.warning(
+                f"Disable hybrid SWA memory for {model_arch} as it is not yet supported."
+            )
             self.disable_hybrid_swa_memory = True
 
         # Check LoRA

From d4bf5a8524820d3a232f7fc8e349d5e7d0d2880d Mon Sep 17 00:00:00 2001
From: kk <43161300+kkHuang-amd@users.noreply.github.com>
Date: Tue, 5 Aug 2025 09:14:52 +0800
Subject: [PATCH 351/396] Support OCP MXFP4 quantization on AMD GPUs (#8255)

Co-authored-by: wunhuang <wunhuang@amd.com>
Co-authored-by: Hubert Lu <Hubert.Lu@amd.com>
---
 python/sglang/srt/configs/model_config.py     |   2 +
 .../srt/layers/quantization/__init__.py       |  14 +-
 python/sglang/srt/layers/quantization/fp4.py  | 822 ++++++++++++++++++
 .../srt/layers/quantization/quark/__init__.py |   0
 .../quantization/quark/schemes/__init__.py    |   6 +
 .../quark/schemes/quark_scheme.py             |  55 ++
 .../quark/schemes/quark_w4a4_mxfp4.py         | 118 +++
 .../srt/layers/quantization/quark/utils.py    | 107 +++
 .../sglang/srt/model_loader/weight_utils.py   |  10 +
 python/sglang/srt/models/deepseek_v2.py       |  14 +
 python/sglang/srt/server_args.py              |   1 +
 python/sglang/srt/utils.py                    |  11 +
 12 files changed, 1159 insertions(+), 1 deletion(-)
 create mode 100644 python/sglang/srt/layers/quantization/fp4.py
 create mode 100644 python/sglang/srt/layers/quantization/quark/__init__.py
 create mode 100644 python/sglang/srt/layers/quantization/quark/schemes/__init__.py
 create mode 100644 python/sglang/srt/layers/quantization/quark/schemes/quark_scheme.py
 create mode 100644 python/sglang/srt/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
 create mode 100644 python/sglang/srt/layers/quantization/quark/utils.py

diff --git a/python/sglang/srt/configs/model_config.py b/python/sglang/srt/configs/model_config.py
index f3643d1549e2..3091ed4fead7 100644
--- a/python/sglang/srt/configs/model_config.py
+++ b/python/sglang/srt/configs/model_config.py
@@ -401,6 +401,8 @@ def _verify_quantization(self) -> None:
             "fbgemm_fp8",
             "w8a8_fp8",
             "petit_nvfp4",
+            "quark",
+            "mxfp4",
         ]
         optimized_quantization_methods = [
             "fp8",
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index 496cbc8f5392..455e8ac8f86c 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -47,6 +47,12 @@ def override_quantization_method(self, *args, **kwargs):
 from sglang.srt.layers.quantization.compressed_tensors.compressed_tensors import (
     CompressedTensorsConfig,
 )
+from sglang.srt.utils import mxfp_supported
+
+is_mxfp_supported = mxfp_supported()
+if is_mxfp_supported:
+    from sglang.srt.layers.quantization.fp4 import MxFp4Config
+
 from sglang.srt.layers.quantization.fp8 import Fp8Config
 from sglang.srt.layers.quantization.gptq import (
     GPTQConfig,
@@ -84,7 +90,13 @@ def override_quantization_method(self, *args, **kwargs):
     "w4afp8": W4AFp8Config,
     "petit_nvfp4": PetitNvFp4Config,
 }
-
+if is_mxfp_supported:
+    BASE_QUANTIZATION_METHODS.update(
+        {
+            "quark": MxFp4Config,
+            "mxfp4": MxFp4Config,
+        }
+    )
 # VLLM-dependent quantization methods
 VLLM_QUANTIZATION_METHODS = {
     "aqlm": AQLMConfig,
diff --git a/python/sglang/srt/layers/quantization/fp4.py b/python/sglang/srt/layers/quantization/fp4.py
new file mode 100644
index 000000000000..ad40ed142627
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/fp4.py
@@ -0,0 +1,822 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from __future__ import annotations
+
+import fnmatch
+import logging
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union, cast
+
+import aiter
+import torch
+import torch.nn.functional as F
+from aiter import ActivationType, QuantType, dtypes
+from aiter.fused_moe import fused_moe
+from aiter.fused_moe_bf16_asm import asm_moe, ck_moe_2stages
+from aiter.ops.gemm_op_a4w4 import gemm_a4w4
+from aiter.ops.quant import get_torch_quant
+from aiter.ops.shuffle import shuffle_weight
+from aiter.ops.triton.gemm_afp4wfp4 import gemm_afp4wfp4
+from aiter.ops.triton.quant import dynamic_mxfp4_quant
+from aiter.utility.fp4_utils import e8m0_shuffle
+from torch.nn import Module
+
+from sglang.srt.layers.linear import LinearBase, UnquantizedLinearMethod
+from sglang.srt.layers.parameter import ModelWeightParameter
+from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    LinearMethodBase,
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from sglang.srt.layers.quantization.kv_cache import BaseKVCacheMethod
+from sglang.srt.layers.quantization.quark.schemes import QuarkScheme, QuarkW4A4MXFP4
+from sglang.srt.layers.quantization.quark.utils import deep_compare, should_ignore_layer
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.utils import (
+    get_bool_env_var,
+    get_device_capability,
+    log_info_on_rank0,
+    mxfp_supported,
+    set_weight_attrs,
+)
+
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
+logger = logging.getLogger(__name__)
+
+use_dynamic_mxfp4_linear = get_bool_env_var("SGLANG_USE_DYNAMIC_MXFP4_linear")
+
+OCP_MX_BLOCK_SIZE = 32
+
+
+class MxFp4Config(QuantizationConfig):
+
+    def __init__(
+        self,
+        is_checkpoint_fp4_serialized: bool = False,
+        quant_config: dict[str, Any] = None,
+        kv_cache_group: Optional[list[str]] = None,
+        kv_cache_config: Optional[dict[str, Any]] = None,
+        pack_method: str = "reorder",
+        ignored_layers: Optional[List[str]] = None,
+    ):
+        super().__init__()
+        if kv_cache_group is None:
+            kv_cache_group = []
+
+        self.is_checkpoint_fp4_serialized = is_checkpoint_fp4_serialized
+        self.quant_config = quant_config
+        self.kv_cache_group = kv_cache_group
+        self.kv_cache_config = kv_cache_config
+        self.pack_method = pack_method
+
+        self.packed_modules_mapping = (
+            self.quant_config["packed_modules_mapping"]
+            if is_checkpoint_fp4_serialized
+            else None
+        )
+
+        self.ignored_layers = ignored_layers or []
+
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.float16, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def get_name(self) -> str:
+        return "fp4"
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+
+        # Check if the layer is skipped for quantization.
+        if len(self.ignored_layers) > 0 and should_ignore_layer(
+            prefix,
+            ignore=self.ignored_layers,
+            fused_mapping=self.packed_modules_mapping,
+        ):
+            return UnquantizedLinearMethod()
+
+        if isinstance(layer, LinearBase):
+            if self.is_checkpoint_fp4_serialized:
+                scheme = self.get_scheme(layer=layer, layer_name=prefix)
+                layer.scheme = scheme
+                return MxFp4LinearMethod(self)
+
+            elif use_dynamic_mxfp4_linear:
+                return MxFp4LinearMethod(self)
+            else:
+                return UnquantizedLinearMethod()
+
+        if isinstance(layer, RadixAttention):
+            return MxFp4KVCacheMethod(self)
+
+        if isinstance(layer, FusedMoE):
+            return MxFp4MoEMethod.get_moe_method(self, module=layer, layer_name=prefix)
+
+        return None
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "MxFp4Config":
+        if not mxfp_supported():
+            platform = torch.cuda.get_device_properties(0).gcnArchName
+            raise ValueError(
+                f"Current platform {platform} not support mxfp4 computation"
+            )
+        quant_method = cls.get_from_keys(config, ["quant_method"])
+        is_checkpoint_fp4_serialized = (
+            True if quant_method else False
+        )  # "quark" in quant_method
+
+        kv_cache_group = []
+        pack_method = None
+
+        if is_checkpoint_fp4_serialized:
+            export_config = config.get("export")
+            if export_config is None:
+                raise ValueError(
+                    "The export key should be included in "
+                    "the configurations of Quark quantized model"
+                )
+
+            kv_cache_group = cast(list[str], export_config.get("kv_cache_group"))
+            pack_method = cast(str, export_config.get("pack_method"))
+
+        # In the export model of quark, the quantization configuration
+        # of kv_cache is stored in layer_quant_config. First, it is
+        # judged whether kv_cache_group exists, and then it is judged
+        # whether layer_quant_config has a quantization configuration
+        # that matches kv_cache.
+        if len(kv_cache_group) == 0:
+            kv_cache_config = None
+        else:
+            kv_cache_set = set(kv_cache_group)
+            layer_quant_config = cast(dict[str, Any], config.get("layer_quant_config"))
+            layer_quant_names = list(layer_quant_config.keys())
+            layer_quant_set = set(layer_quant_names)
+
+            if not kv_cache_set.issubset(layer_quant_set):
+                raise ValueError(
+                    "The Quark quantized model has the "
+                    "kv_cache_group parameter setting, "
+                    "but no kv_cache quantization settings "
+                    "were found in the quantization "
+                    "configuration."
+                )
+
+            q_configs = [
+                cast(dict[str, Any], layer_quant_config.get(name))
+                for name in kv_cache_group
+            ]
+            if not all(deep_compare(q_config, q_configs[0]) for q_config in q_configs):
+                raise ValueError(
+                    "The quantization method used for kv_cache should "
+                    "be the same, but the quantization method for the "
+                    "kv_cache layer in the config is different."
+                )
+            kv_cache_config = q_configs[0].get("output_tensors")
+            if kv_cache_config is None:
+                raise ValueError("The kv_cache quantization configuration is empty.")
+
+            # Since we have already set kv_cache quantization configurations,
+            # we will remove the quantization configuration for the
+            # output_tensors corresponding to the kv_cache layer.
+            for q_config in q_configs:
+                q_config["output_tensors"] = None
+
+            # In case q_proj output is also quantized, remove the configuration
+            # to keep qkv consistency.
+            q_proj_q_config = cast(dict[str, Any], layer_quant_config.get("*q_proj"))
+            if q_proj_q_config is not None:
+                q_proj_q_config["output_tensors"] = None
+
+        ignored_layers = cls.get_from_keys_or(config, ["exclude"], None)
+
+        return cls(
+            is_checkpoint_fp4_serialized=is_checkpoint_fp4_serialized,
+            quant_config=config,
+            kv_cache_group=kv_cache_group,
+            kv_cache_config=kv_cache_config,
+            pack_method=pack_method,
+            ignored_layers=ignored_layers,
+        )
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    def _check_scheme_supported(self, min_capability: int, error: bool = True) -> bool:
+        capability_tuple = get_device_capability()
+
+        if capability_tuple is not None:
+            assert 0 <= capability_tuple[1] < 10
+            capability = capability_tuple[0] * 10 + capability_tuple[1]
+
+            supported = capability >= min_capability
+            if error and not supported:
+                raise RuntimeError(
+                    "Quantization scheme is not supported for ",
+                    f"the current GPU. Min capability: {min_capability}. ",
+                    f"Current capability: {capability}.",
+                )
+            return supported
+        else:
+            return False
+
+    def _is_mx_fp4(
+        self,
+        weight_quant: Optional[dict[str, Any]],
+        input_quant: Optional[dict[str, Any]],
+    ) -> bool:
+        # Confirm weights and input quantized.
+        if weight_quant is None or input_quant is None:
+            logger.debug(
+                "Quark model is not in MX-FP4 format: "
+                "weight_quant or input_quant not set"
+            )
+            return False
+
+        # Input and weight dtype needs to be fp4.
+        if weight_quant.get("dtype") != "fp4" or input_quant.get("dtype") != "fp4":
+            logger.debug("Quark model is not in MX-FP4 format: dtype not fp4")
+            return False
+
+        # Input and weight qscheme needs to be per group.
+        if (
+            weight_quant.get("qscheme") != "per_group"
+            or input_quant.get("qscheme") != "per_group"
+        ):
+            logger.debug("Quark model is not in MX-FP4 format: not per_group")
+            return False
+
+        # Input and weight group size needs to be 32.
+        if weight_quant.get("group_size") != 32 or input_quant.get("group_size") != 32:
+            logger.debug("Quark model is not in MX-FP4 format: not group_size=32")
+            return False
+
+        # Weights need to use static quantization.
+        if weight_quant.get("is_dynamic") is True:
+            logger.debug("Quark model is not in MX-FP4 format: not weight static")
+            return False
+
+        # Activations need to use dynamic quantization.
+        if input_quant.get("is_dynamic") is False:
+            logger.debug("Quark model is not in MX-FP4 format: not activation dynamic")
+            return False
+
+        # Activations and weight scales need to be in e8m0 format.
+        if (
+            weight_quant.get("scale_format") != "e8m0"
+            or input_quant.get("scale_format") != "e8m0"
+        ):
+            logger.debug("Quark model is not in MX-FP4 format: not scale_format e8m0")
+            return False
+
+        return True
+
+    def _find_matched_config(
+        self, layer_name: str, module: torch.nn.Module
+    ) -> dict[str, Any]:
+
+        proj_name = layer_name.split(".")[-1]
+        if proj_name in self.packed_modules_mapping:
+            shard_proj_names = self.packed_modules_mapping[proj_name]
+
+            # Convert fused_name --> [shard_names]
+            shard_names = [
+                layer_name.replace(proj_name, shard_proj_name)
+                for shard_proj_name in shard_proj_names
+            ]
+            shard_configs = [
+                self._find_matched_config(shard_name, module)
+                for shard_name in shard_names
+            ]
+            if not all(
+                deep_compare(q_config, shard_configs[0]) for q_config in shard_configs
+            ):
+                raise ValueError(
+                    f"Found a different quantization configuration for "
+                    f"{shard_proj_names=} in {layer_name=}. vLLM "
+                    "requires all to use the same scheme."
+                )
+            return shard_configs[0]
+        else:
+            layer_quant_config = cast(
+                dict[str, Any], self.quant_config.get("layer_quant_config")
+            )
+            for name_pattern in layer_quant_config:
+                if fnmatch.fnmatch(layer_name, name_pattern):
+                    return layer_quant_config[name_pattern]
+
+            layer_type = cast(str, type(module))
+            layer_type_quant_config = cast(
+                dict[str, Any], self.quant_config.get("layer_type_quant_config")
+            )
+            if layer_type in layer_type_quant_config:
+                return layer_type_quant_config[layer_type]
+
+            global_quant_config = cast(
+                dict[str, Any], self.quant_config.get("global_quant_config")
+            )
+            return global_quant_config
+
+    def _get_scheme_from_config(self, config: dict[str, Any]) -> "QuarkScheme":
+        if config.get("output_tensors") or config.get("bias"):
+            raise NotImplementedError(
+                "Currently, Quark models with output_tensors "
+                "and bias quantized are not supported"
+            )
+        weight_config = cast(dict[str, Any], config.get("weight"))
+        input_config = cast(dict[str, Any], config.get("input_tensors"))
+
+        if self._is_mx_fp4(weight_config, input_config):
+            return QuarkW4A4MXFP4(weight_config, input_config)
+
+        raise NotImplementedError(
+            "No quark compatible scheme was found. "
+            f"{weight_config=}, "
+            f"{input_config=}"
+        )
+
+    def get_scheme(self, layer: torch.nn.Module, layer_name: str) -> "QuarkScheme":
+
+        layer_quant_config = self._find_matched_config(layer_name, layer)
+
+        # Find the quant_scheme
+        scheme = self._get_scheme_from_config(layer_quant_config)
+
+        # Raise error if device does not support the scheme
+        # (e.g. fp8 needs ada lovelace)
+        self._check_scheme_supported(scheme.get_min_capability())
+
+        return scheme
+
+    def get_scaled_act_names(self) -> List[str]:
+        return []
+
+
+class MxFp4LinearMethod(LinearMethodBase):
+
+    def __init__(self, quantization_config: MxFp4Config):
+        self.quantization_config = quantization_config
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        return
+        # if self.quantization_config.is_checkpoint_fp4_serialized:
+        #    layer.scheme.process_weights_after_loading(layer)
+        # else:
+        #    #w, w_scales = dynamic_mxfp4_quant(layer.weight.data)
+        #    ##log_info_on_rank0(logger, f"w.shape: {w.shape}")
+
+        #    #wshuffle = w#shuffle_weight(w, layout=(16, 16))
+        #    #w_scales_shuffle = w_scales#e8m0_shuffle(w_scales).view(dtypes.fp8_e8m0)
+
+        #    quant_func = aiter.get_triton_quant(aiter.QuantType.per_1x32)
+
+        #    w, w_scales_shuffle = quant_func(layer.weight.data, shuffle=True)
+
+        #    wshuffle = shuffle_weight(w, layout=(16, 16))
+
+        #    layer.weight = torch.nn.Parameter(wshuffle,
+        #                                      requires_grad=False)
+        #    layer.weight_scale = torch.nn.Parameter(w_scales_shuffle,
+        #                                            requires_grad=False)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        """
+        Use the CompressedTensorsScheme associated with each layer to create
+        the necessary parameters for the layer. See LinearMethodBase for param
+        details
+        """
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        if self.quantization_config.is_checkpoint_fp4_serialized:
+            layer.scheme.create_weights(
+                layer=layer,
+                input_size=input_size,
+                input_size_per_partition=input_size_per_partition,
+                output_partition_sizes=output_partition_sizes,
+                output_size=output_size,
+                params_dtype=params_dtype,
+                weight_loader=weight_loader,
+            )
+        else:
+            output_size_per_partition = sum(output_partition_sizes)
+            layer.logical_widths = output_partition_sizes
+            layer.input_size_per_partition = input_size_per_partition
+            layer.output_size_per_partition = output_size_per_partition
+            layer.orig_dtype = params_dtype
+
+            weight_dtype = params_dtype
+
+            weight = ModelWeightParameter(
+                data=torch.empty(
+                    output_size_per_partition,
+                    input_size_per_partition,
+                    dtype=weight_dtype,
+                ),
+                input_dim=1,
+                output_dim=0,
+                weight_loader=weight_loader,
+            )
+
+            layer.register_parameter("weight", weight)
+            layer.register_parameter("weight_scale", None)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ):
+        """
+        Use the output of create_weights and the CompressedTensorsScheme
+        associated with the layer to apply the forward pass with the
+        layer input.  See LinearMethodBase for param details
+
+        """
+        if self.quantization_config.is_checkpoint_fp4_serialized:
+            scheme = layer.scheme
+            if scheme is None:
+                raise ValueError("A scheme must be defined for each layer")
+            return scheme.apply_weights(layer, x, bias=bias)
+        else:
+            out_dtype = x.dtype
+
+            # ck or asm implement
+            # M = x.shape[0]
+            # N = layer.weight.shape[0]
+
+            # quant_func = aiter.get_triton_quant(aiter.QuantType.per_1x32)
+
+            # x, x_scales_shuffle = quant_func(x, shuffle=True)
+
+            # y = torch.zeros((M + 255) // 256 * 256, N, device=x.device, dtype=out_dtype)
+
+            # out = gemm_a4w4(x, layer.weight.data, x_scales_shuffle, layer.weight_scale.data, y, bias=bias)
+
+            # return out[:M]
+
+            # triton implement
+            x_q, x_s = dynamic_mxfp4_quant(x)
+            y = torch.empty(
+                x_q.shape[0], layer.weight.shape[0], device=x_q.device, dtype=out_dtype
+            )
+
+            out = gemm_afp4wfp4(
+                x_q, layer.weight, x_s, layer.weight_scale, out_dtype, y
+            )
+
+            return out
+
+
+class MxFp4MoEMethod:
+    def __new__(cls, *args, **kwargs):
+        if not hasattr(cls, "_initialized"):
+            original_init = cls.__init__
+            new_cls = type(
+                cls.__name__,
+                (FusedMoEMethodBase,),
+                {
+                    "__init__": original_init,
+                    **{k: v for k, v in cls.__dict__.items() if k != "__dict__"},
+                },
+            )
+            obj = super(new_cls, new_cls).__new__(new_cls)
+            obj.__init__(*args, **kwargs)
+            return obj
+        return super().__new__(cls)
+
+    @staticmethod
+    def get_moe_method(
+        quant_config: "MxFp4Config",  # type: ignore # noqa E501 # noqa F821
+        module: torch.nn.Module,
+        layer_name: str,
+    ) -> "MxFp4MoEMethod":
+
+        if quant_config.is_checkpoint_fp4_serialized:
+            layer_quant_config = quant_config._find_matched_config(layer_name, module)
+
+            if layer_quant_config.get("output_tensors") or layer_quant_config.get(
+                "bias"
+            ):
+                raise NotImplementedError(
+                    "Currently, Quark models with "
+                    "output_tensors and bias "
+                    "quantized are not supported"
+                )
+            weight_config = layer_quant_config.get("weight")
+            input_config = layer_quant_config.get("input_tensors")
+
+            if quant_config._is_mx_fp4(weight_config, input_config):
+                return W4A4MXFp4MoEStaticMethod(weight_config, input_config)
+            else:
+                raise RuntimeError("Unsupported FusedMoe scheme")
+        else:
+            return W4A4MXFp4MoEDynamicMethod(quant_config)
+
+
+class W4A4MXFp4MoEDynamicMethod(MxFp4MoEMethod):
+    def __init__(self, quant_config):
+        self.quant_config = quant_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
+
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # Allocate 2 scales for w1 and w3 respectively.
+        # They will be combined to a single scale after weight loading.
+        w13_weight_scale = torch.nn.Parameter(
+            torch.ones(num_experts, 2, dtype=torch.float32), requires_grad=False
+        )
+        w2_weight_scale = torch.nn.Parameter(
+            torch.ones(num_experts, dtype=torch.float32), requires_grad=False
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+        # Add the quantization method used (per tensor/grouped/channel)
+        # to ensure the weight scales are loaded in properly
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value}
+        )
+
+        layer.w13_input_scale = None
+        layer.w2_input_scale = None
+
+    def mxfp4_quantize(self, w):
+        w_shape = w.shape
+        w_need_reshape = True if w.dim() != 2 else False
+
+        if w_need_reshape:
+            w_last_dim_size = w_shape[-1]
+            w = w.view(-1, w_last_dim_size)
+
+        # log_info_on_rank0(logger, f"[Pre-quant] w.shape: {w.shape}")
+        w, mx_scales = dynamic_mxfp4_quant(w)
+        # log_info_on_rank0(logger, f"[Post-quant] w.shape: {w.shape} mx_scales.shape: {mx_scales.shape}")
+
+        if w_need_reshape:
+            w_new_shape = w_shape[:-1] + (w.shape[-1],)
+            w = w.view(w_new_shape)
+
+        # log_info_on_rank0(logger, f"[re-shape] w.shape: {w.shape} mx_scales.shape: {mx_scales.shape}")
+
+        mx_scales = e8m0_shuffle(mx_scales)
+
+        return w, mx_scales
+
+    def process_weights_after_loading(self, layer: Module) -> None:
+        w13, w13_mx_scales = self.mxfp4_quantize(layer.w13_weight.data)
+        w2, w2_mx_scales = self.mxfp4_quantize(layer.w2_weight.data)
+
+        layer.w13_weight = torch.nn.Parameter(w13, requires_grad=False)
+        layer.w13_weight_scale = torch.nn.Parameter(w13_mx_scales, requires_grad=False)
+
+        layer.w2_weight = torch.nn.Parameter(w2, requires_grad=False)
+        layer.w2_weight_scale = torch.nn.Parameter(w2_mx_scales, requires_grad=False)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        topk_output: TopKOutput,
+        *,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+        topk_weights, topk_ids, _ = topk_output
+
+        return fused_moe(
+            x,
+            layer.w13_weight,
+            layer.w2_weight,
+            topk_weights,
+            topk_ids,
+            quant_type=QuantType.per_1x32,
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            activation=(
+                ActivationType.Silu if activation == "silu" else ActivationType.Gelu
+            ),
+            doweight_stage1=False,
+        )
+
+
+class W4A4MXFp4MoEStaticMethod(MxFp4MoEMethod):
+
+    def __init__(self, weight_config: dict[str, Any], input_config: dict[str, Any]):
+        self.weight_quant = weight_config
+        self.input_quant = input_config
+
+        weight_qscheme = self.weight_quant.get("qscheme")
+        input_qscheme = self.input_quant.get("qscheme")
+        if not (weight_qscheme == "per_group" and input_qscheme == "per_group"):
+            raise ValueError(
+                "For MX(FP4) Fused MoE layers, only per-group scales "
+                "for weights and activations are supported. Found "
+                f"{weight_qscheme=}, {input_qscheme=}"
+            )  # noqa E501
+
+        self.static_input_scales = not self.input_quant.get("is_dynamic")
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoeWeightScaleSupported
+
+        # Add the quantization method used (per tensor/grouped/channel)
+        # to ensure the weight scales are loaded in properly
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value}
+        )
+
+        params_dtype = torch.uint8
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size // 2,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition // 2,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        w13_weight_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                hidden_size // OCP_MX_BLOCK_SIZE,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        w2_weight_scale = torch.nn.Parameter(
+            torch.ones(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition // OCP_MX_BLOCK_SIZE,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        float_dtype = torch.get_default_dtype()
+
+        # Pre-shuffle weight scales
+        s0, s1, _ = layer.w13_weight_scale.shape
+        w13_weight_scale = layer.w13_weight_scale.view(s0 * s1, -1)
+        w13_weight_scale = e8m0_shuffle(w13_weight_scale)
+        layer.w13_weight_scale.data = w13_weight_scale.view(s0, s1, -1)
+
+        s0, s1, _ = layer.w2_weight_scale.shape
+        w2_weight_scale = layer.w2_weight_scale.view(s0 * s1, -1)
+        w2_weight_scale = e8m0_shuffle(w2_weight_scale)
+        layer.w2_weight_scale.data = w2_weight_scale.view(s0, s1, -1)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        topk_output: TopKOutput,
+        *,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+    ) -> torch.Tensor:
+        topk_weights, topk_ids, _ = topk_output
+
+        return fused_moe(
+            x,
+            layer.w13_weight,
+            layer.w2_weight,
+            topk_weights,
+            topk_ids,
+            quant_type=QuantType.per_1x32,
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            activation=(
+                ActivationType.Silu if activation == "silu" else ActivationType.Gelu
+            ),
+            doweight_stage1=False,
+        )
+
+
+class MxFp4KVCacheMethod(BaseKVCacheMethod):
+    """
+    Supports loading kv-cache scaling factors from quark checkpoints.
+    """
+
+    def __init__(self, quant_config: MxFp4Config):
+        self.validate_kv_cache_config(quant_config.kv_cache_config)
+        super().__init__(quant_config)
+
+    @staticmethod
+    def validate_kv_cache_config(kv_cache_config: Optional[dict[str, Any]]):
+        """
+        Validator for the kv cache configuration. Useful for controlling the
+        kv cache quantization schemes, that are being supported in vLLM
+        :param kv_cache_config: the quark kv cache scheme
+        """
+        if kv_cache_config is None:
+            return
+
+        dtype = kv_cache_config.get("dtype")
+        if dtype != "fp8_e4m3":
+            raise NotImplementedError(
+                "Currently supported kv cache quantization is "
+                f"dtype=fp8_e4m3, however received {dtype}"
+            )
+
+        qscheme = kv_cache_config.get("qscheme")
+        if qscheme != "per_tensor":
+            raise NotImplementedError(
+                "Only support per-tensor scaling factor "
+                "for quark KV cache. "
+                f"Expected qscheme: per_tensor, found qscheme: {qscheme}"
+            )
diff --git a/python/sglang/srt/layers/quantization/quark/__init__.py b/python/sglang/srt/layers/quantization/quark/__init__.py
new file mode 100644
index 000000000000..e69de29bb2d1
diff --git a/python/sglang/srt/layers/quantization/quark/schemes/__init__.py b/python/sglang/srt/layers/quantization/quark/schemes/__init__.py
new file mode 100644
index 000000000000..91b08c51218e
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/quark/schemes/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from .quark_scheme import QuarkScheme
+from .quark_w4a4_mxfp4 import QuarkW4A4MXFP4
+
+__all__ = ["QuarkScheme", "QuarkW4A4MXFP4"]
diff --git a/python/sglang/srt/layers/quantization/quark/schemes/quark_scheme.py b/python/sglang/srt/layers/quantization/quark/schemes/quark_scheme.py
new file mode 100644
index 000000000000..aab5c9c1eba3
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/quark/schemes/quark_scheme.py
@@ -0,0 +1,55 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from abc import ABC, abstractmethod
+from typing import Optional
+
+import torch
+
+__all__ = ["QuarkScheme"]
+
+
+class QuarkScheme(ABC):
+    """
+    Abstract class used to describe the weight creation and forward pass
+    of different quantization schemes supported by Quark.
+    """
+
+    @classmethod
+    @abstractmethod
+    def get_min_capability(cls) -> int:
+        """
+        Get minimum device capability.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def create_weights(self, *args, **kwargs):
+        """
+        Weight creation for the particular scheme. Inputs to this function
+
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: Optional[torch.Tensor]
+    ):
+        """
+        Run the forward pass for the particular scheme. This is where
+        scheme-specific dequant/quant steps/kernels should be applied.
+
+        :param layer: torch.nn.Module with the registered weights and
+            other parameters relevant to the particular scheme.
+        :param x: input to the layer
+        :param bias: bias parameter
+
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def process_weights_after_loading(self, layer: torch.nn.Module):
+        """
+        Called after weight loading is complete for any cleanup that
+        needs to occur.
+        """
+        raise NotImplementedError
diff --git a/python/sglang/srt/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py b/python/sglang/srt/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
new file mode 100644
index 000000000000..e5fc22797d4c
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
@@ -0,0 +1,118 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from typing import Any, Callable, Optional
+
+import aiter
+import torch
+import torch.nn.functional as F
+from aiter.ops.gemm_op_a4w4 import gemm_a4w4
+from aiter.ops.shuffle import shuffle_weight
+from aiter.ops.triton.gemm_afp4wfp4 import gemm_afp4wfp4
+from aiter.ops.triton.quant import dynamic_mxfp4_quant
+from aiter.utility import dtypes
+from aiter.utility.fp4_utils import e8m0_shuffle
+
+from sglang.srt.layers.parameter import GroupQuantScaleParameter, PackedvLLMParameter
+from sglang.srt.layers.quantization.quark.schemes import QuarkScheme
+from sglang.srt.utils import get_bool_env_var
+
+__all__ = ["QuarkW4A4MXFP4"]
+
+OCP_MX_BLOCK_SIZE = 32
+
+
+class QuarkW4A4MXFP4(QuarkScheme):
+
+    def __init__(
+        self, weight_quant_spec: dict[str, Any], input_quant_spec: dict[str, Any]
+    ):
+        self.out_dtype = torch.get_default_dtype()
+        self.qscheme = "per_group"
+        self.weight_quant_spec = weight_quant_spec
+        self.input_quant_spec = input_quant_spec
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        return
+
+        # for aiter implement
+        # wshuffle = shuffle_weight(layer.weight.data, layout=(16, 16))
+        # w_scales_shuffle = e8m0_shuffle(layer.weight_scale.data).view(dtypes.fp8_e8m0)
+
+        # layer.weight = torch.nn.Parameter(wshuffle,
+        #                                  requires_grad=False)
+        # layer.weight_scale = torch.nn.Parameter(w_scales_shuffle,
+        #                                        requires_grad=False)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+
+        # WEIGHT
+        weight = PackedvLLMParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            packed_dim=1,
+            packed_factor=2,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        weight_scale = GroupQuantScaleParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // OCP_MX_BLOCK_SIZE,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+
+        out_dtype = x.dtype
+        # M = x.shape[0]
+        # N = layer.weight.shape[0]
+
+        # quant_func = aiter.get_triton_quant(aiter.QuantType.per_1x32)
+        # x, x_scales_shuffle = quant_func(x, shuffle=True)
+
+        # y = torch.zeros((M + 255) // 256 * 256, N, device=x.device, dtype=self.out_dtype)
+
+        # out = gemm_a4w4(x, layer.weight.data, x_scales_shuffle, layer.weight_scale.data, y, bias=bias)
+
+        # return out[:M]
+
+        # triton implement
+        x_q, x_s = dynamic_mxfp4_quant(x)
+        y = torch.empty(
+            x_q.shape[0], layer.weight.shape[0], device=x_q.device, dtype=out_dtype
+        )
+
+        out = gemm_afp4wfp4(x_q, layer.weight, x_s, layer.weight_scale, out_dtype, y)
+
+        return out
diff --git a/python/sglang/srt/layers/quantization/quark/utils.py b/python/sglang/srt/layers/quantization/quark/utils.py
new file mode 100644
index 000000000000..5ea91b5d8906
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/quark/utils.py
@@ -0,0 +1,107 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import re
+from collections.abc import Iterable, Mapping
+from types import MappingProxyType
+from typing import Any, Optional
+
+
+def deep_compare(dict1: Any, dict2: Any) -> bool:
+    if type(dict1) is not type(dict2):
+        return False
+    if isinstance(dict1, dict):
+        if dict1.keys() != dict2.keys():
+            return False
+        return all(deep_compare(dict1[k], dict2[k]) for k in dict1)
+    elif isinstance(dict1, list):
+        return set(dict1) == set(dict2)
+    else:
+        return dict1 == dict2
+
+
+def should_ignore_layer(
+    layer_name: Optional[str],
+    ignore: Iterable[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+) -> bool:
+    if layer_name is None:
+        return False
+
+    # layer_name = model.layers.0.self_attn.qkv_proj
+    # proj_name = qkv_proj
+    proj_name = layer_name.split(".")[-1]
+
+    # Fused layers like gate_up_proj or qkv_proj will not be fused
+    # in the safetensors checkpoint. So, we convert the name
+    # from the fused version to unfused + check to make sure that
+    # each shard of the fused layer has the same scheme.
+    if proj_name in fused_mapping:
+        shard_proj_names = fused_mapping[proj_name]
+
+        # Convert fused_name --> [shard_names]
+        shard_names = [
+            layer_name.replace(proj_name, shard_proj_name)
+            for shard_proj_name in shard_proj_names
+        ]
+
+        # Layer should be ignored if shards are ignored.
+        should_ignore_layer = None
+        for shard_name in shard_names:
+            should_ignore_shard = check_equal_or_regex_match(
+                layer_name=shard_name, targets=ignore
+            )
+
+            # If shard_idx=0, set layer ignore to match shard.
+            if should_ignore_layer is None:
+                should_ignore_layer = should_ignore_shard
+
+            # If shard_idx=1+ confirm scheme matches prior shards.
+            elif should_ignore_shard != should_ignore_layer:
+                raise ValueError(
+                    f"Found a different quantization schemes for "
+                    f"{shard_proj_names} in {layer_name}. vLLM "
+                    "requires all to use the same scheme."
+                )
+
+    # Unfused layers like down_proj and o_proj will match
+    # the safetensors checkpoint already.
+    else:
+        should_ignore_layer = check_equal_or_regex_match(
+            layer_name=layer_name, targets=ignore
+        )
+
+    assert should_ignore_layer is not None
+
+    return should_ignore_layer
+
+
+def check_equal_or_regex_match(layer_name: str, targets: Iterable[str]) -> bool:
+    """
+    Checks whether a layer_name is exactly equal or a regex match for
+    if target starts with 're:' to any target in list.
+    """
+    for target in targets:
+        if _is_equal_or_regex_match(layer_name, target):
+            return True
+    return False
+
+
+def _is_equal_or_regex_match(
+    value: str, target: str, check_contains: bool = False
+) -> bool:
+    """
+    Checks whether a value is exactly equal or a regex match for target
+    if target starts with 're:'. If check_contains is set to True,
+    additionally checks if the target string is contained within the value.
+    """
+
+    if target.startswith("re:"):
+        pattern = target[3:]
+        if re.match(pattern, value):
+            return True
+    elif check_contains:
+        if target.lower() in value.lower():
+            return True
+    elif target == value:
+        return True
+    return False
diff --git a/python/sglang/srt/model_loader/weight_utils.py b/python/sglang/srt/model_loader/weight_utils.py
index 33f11b8af016..a326e3f10aa0 100644
--- a/python/sglang/srt/model_loader/weight_utils.py
+++ b/python/sglang/srt/model_loader/weight_utils.py
@@ -843,6 +843,16 @@ def maybe_remap_kv_scale_name(name: str, params_dict: dict) -> Optional[str]:
                 return None
             return remapped_name
 
+    quark_scale_names = {
+        ".q_proj.output_scale": ".attn.q_scale",
+        ".k_proj.output_scale": ".attn.k_scale",
+        ".v_proj.output_scale": ".attn.v_scale",
+        "self_attn.prob_output_scale": ".attn.prob_scale",
+    }
+    for quark_scale_name, sglang_scale_name in quark_scale_names.items():
+        if name.endswith(quark_scale_name):
+            return name.replace(quark_scale_name, sglang_scale_name)
+
     # If there were no matches, return the untouched param name
     return name
 
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 009f926bff71..913764b45f82 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -2061,6 +2061,8 @@ def forward(
 
 
 class DeepseekV2ForCausalLM(nn.Module):
+    # for quark model load
+    packed_modules_mapping = {}
 
     def __init__(
         self,
@@ -2069,6 +2071,18 @@ def __init__(
         prefix: str = "",
     ) -> None:
         super().__init__()
+
+        # for quark model load
+        # Fuse q_a_proj and kv_a_proj_with_mqa along output dimension when q_lora_rank is not None
+        self.fuse_qkv_a_proj = (
+            hasattr(config, "q_lora_rank") and config.q_lora_rank is not None
+        )
+        if self.fuse_qkv_a_proj:
+            self.packed_modules_mapping["fused_qkv_a_proj_with_mqa"] = [
+                "q_a_proj",
+                "kv_a_proj_with_mqa",
+            ]
+
         self.config = config
         self.tp_size = get_tensor_model_parallel_world_size()
         self.quant_config = quant_config
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index aacaaf1cda66..60d8efb9eb33 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -813,6 +813,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "moe_wna16",
                 "qoq",
                 "w4afp8",
+                "mxfp4",
             ],
             help="The quantization method.",
         )
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index db841b3fd930..055c0b115daf 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2832,6 +2832,17 @@ def placeholder(*args, **kwargs):
     return final_module, None
 
 
+def mxfp_supported():
+    """
+    Returns whether the current platform supports MX types.
+    """
+    if torch.version.hip:
+        gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
+        return any(gfx in gcn_arch for gfx in ["gfx95"])
+    else:
+        return False
+
+
 # LoRA-related constants and utilities
 SUPPORTED_LORA_TARGET_MODULES = [
     "q_proj",

From 08f8f4901650c7da9a68c9eb19bbac81f296ff9c Mon Sep 17 00:00:00 2001
From: Chunyuan WU <chunyuan.wu@intel.com>
Date: Tue, 5 Aug 2025 09:28:31 +0800
Subject: [PATCH 352/396] [CPU][sgl-kernel] biased_grouped_topk: fix
 correction_bias dtype to float32 (#8212)

Co-authored-by: jianan-gu <jianan.gu@intel.com>
Co-authored-by: YanbingJiang <yanbing.jiang@intel.com>
---
 sgl-kernel/csrc/cpu/common.h | 39 ++++++++++++++++++++++++++
 sgl-kernel/csrc/cpu/topk.cpp | 53 +++++++++++++++++++-----------------
 sgl-kernel/csrc/cpu/vec.h    | 19 +++++++++++++
 test/srt/cpu/test_topk.py    | 11 ++++++--
 4 files changed, 94 insertions(+), 28 deletions(-)

diff --git a/sgl-kernel/csrc/cpu/common.h b/sgl-kernel/csrc/cpu/common.h
index 6f09a092227d..1bf45ee4bc85 100644
--- a/sgl-kernel/csrc/cpu/common.h
+++ b/sgl-kernel/csrc/cpu/common.h
@@ -47,6 +47,45 @@ namespace {
     }                                                            \
   }()
 
+// dispatch with mixed dtypes (TYPE1, TYPE2):
+//   TYPE1: the primary dtype (input, output, weight);
+//   TYPE2: the secondary dtype (bias, etc.).
+#define CPU_DISPATCH_REDUCED_FLOATING_TYPES_EXT(TYPE1, TYPE2, ...) \
+  [&] {                                                            \
+    if (TYPE2 == at::kFloat) {                                     \
+      switch (TYPE1) {                                             \
+        case at::ScalarType::BFloat16: {                           \
+          using scalar_t = at::BFloat16;                           \
+          using param_t = float;                                   \
+          return __VA_ARGS__();                                    \
+        }                                                          \
+        case at::ScalarType::Half: {                               \
+          using scalar_t = at::Half;                               \
+          using param_t = float;                                   \
+          return __VA_ARGS__();                                    \
+        }                                                          \
+        default:                                                   \
+          TORCH_CHECK(false, "Unsupported floating data type.\n"); \
+      }                                                            \
+    } else {                                                       \
+      TORCH_CHECK(TYPE1 == TYPE2);                                 \
+      switch (TYPE1) {                                             \
+        case at::ScalarType::BFloat16: {                           \
+          using scalar_t = at::BFloat16;                           \
+          using param_t = at::BFloat16;                            \
+          return __VA_ARGS__();                                    \
+        }                                                          \
+        case at::ScalarType::Half: {                               \
+          using scalar_t = at::Half;                               \
+          using param_t = at::Half;                                \
+          return __VA_ARGS__();                                    \
+        }                                                          \
+        default:                                                   \
+          TORCH_CHECK(false, "Unsupported floating data type.\n"); \
+      }                                                            \
+    }                                                              \
+  }()
+
 #define UNUSED(x) (void)(x)
 
 #define CHECK_CPU(x) TORCH_CHECK(x.device().type() == at::kCPU, #x " must be a CPU tensor")
diff --git a/sgl-kernel/csrc/cpu/topk.cpp b/sgl-kernel/csrc/cpu/topk.cpp
index cdfa4c271b5b..abc5a34fad1c 100644
--- a/sgl-kernel/csrc/cpu/topk.cpp
+++ b/sgl-kernel/csrc/cpu/topk.cpp
@@ -252,29 +252,33 @@ void topk_softmax_kernel_impl(
   });
 }
 
-template <typename scalar_t, int SIZE>
+template <typename scalar_t, typename param_t, int SIZE>
 inline void
-apply_bias(float* __restrict__ scores2, const float* __restrict__ scores, const scalar_t* __restrict__ bias) {
-  using bVec = at::vec::Vectorized<scalar_t>;
+apply_bias(float* __restrict__ scores2, const float* __restrict__ scores, const param_t* __restrict__ bias) {
   using fVec = at::vec::Vectorized<float>;
-  for (int d = 0; d < SIZE; d += bVec::size()) {
-    bVec bias_vec = bVec::loadu(bias + d);
-    fVec bias0, bias1;
-    std::tie(bias0, bias1) = at::vec::convert_to_float(bias_vec);
-
-    fVec x0 = fVec::loadu(scores + d) + bias0;
-    fVec x1 = fVec::loadu(scores + d + fVec::size()) + bias1;
+  using bVec = at::vec::Vectorized<scalar_t>;
+  auto vec_size = bVec::size();
+  int d = 0;
+  for (; d <= SIZE - vec_size; d += vec_size) {
+    fVec bias0, bias1, x0, x1;
+    std::tie(bias0, bias1) = load_float_vec2(bias + d);
+    std::tie(x0, x1) = load_float_vec2(scores + d);
+    x0 = x0 + bias0;
+    x1 = x1 + bias1;
     x0.store(scores2 + d);
     x1.store(scores2 + d + fVec::size());
   }
+  for (; d < SIZE; d++) {
+    scores2[d] = scores[d] + (float)bias[d];
+  }
 }
 
-template <typename scalar_t, int NUM_EXPERTS, int TOPK>
+template <typename scalar_t, typename param_t, int NUM_EXPERTS, int TOPK>
 void biased_grouped_topk_kernel_impl(
     float* __restrict__ topk_weights,
     int32_t* __restrict__ topk_ids,
     const scalar_t* __restrict__ gating_output,
-    const scalar_t* __restrict__ bias,
+    const param_t* __restrict__ bias,
     int64_t num_tokens,
     int64_t num_groups,
     int64_t topk_group,
@@ -295,7 +299,8 @@ void biased_grouped_topk_kernel_impl(
     for (int64_t i = begin; i < end; ++i) {
       // do sigmoid to get scores
       sigmoid<scalar_t, NUM_EXPERTS>(scores, gating_output + i * NUM_EXPERTS);
-      apply_bias<scalar_t, NUM_EXPERTS>(scores2, scores, bias);
+
+      apply_bias<scalar_t, param_t, NUM_EXPERTS>(scores2, scores, bias);
 
       for (int64_t g = 0; g < num_groups; ++g) {
         // find the max
@@ -406,15 +411,15 @@ void biased_grouped_topk_kernel_impl(
       topk,                               \
       renormalize);
 
-#define LAUNCH_BIASED_GROUPED_TOPK_KERNEL(NE, NTOPK)    \
-  biased_grouped_topk_kernel_impl<scalar_t, NE, NTOPK>( \
-      topk_weights.data_ptr<float>(),                   \
-      topk_ids.data_ptr<int32_t>(),                     \
-      gating_output.data_ptr<scalar_t>(),               \
-      correction_bias.data_ptr<scalar_t>(),             \
-      num_tokens,                                       \
-      num_expert_group,                                 \
-      topk_group,                                       \
+#define LAUNCH_BIASED_GROUPED_TOPK_KERNEL(NE, NTOPK)             \
+  biased_grouped_topk_kernel_impl<scalar_t, param_t, NE, NTOPK>( \
+      topk_weights.data_ptr<float>(),                            \
+      topk_ids.data_ptr<int32_t>(),                              \
+      gating_output.data_ptr<scalar_t>(),                        \
+      correction_bias.data_ptr<param_t>(),                       \
+      num_tokens,                                                \
+      num_expert_group,                                          \
+      topk_group,                                                \
       renormalize);
 
 }  // anonymous namespace
@@ -635,7 +640,6 @@ std::tuple<at::Tensor, at::Tensor> biased_grouped_topk_cpu(
 
   const auto st = hidden_states.scalar_type();
   CHECK_EQ(gating_output.scalar_type(), st);
-  CHECK_EQ(correction_bias.scalar_type(), st);
 
   int64_t num_tokens = hidden_states.size(0);
   int64_t num_experts = gating_output.size(1);
@@ -644,8 +648,7 @@ std::tuple<at::Tensor, at::Tensor> biased_grouped_topk_cpu(
   at::Tensor topk_weights = at::empty({num_tokens, topk}, hidden_states.options().dtype(at::kFloat));
   at::Tensor topk_ids = at::empty({num_tokens, topk}, hidden_states.options().dtype(at::kInt));
 
-  AT_DISPATCH_REDUCED_FLOATING_TYPES(st, "biased_grouped_topk_kernel", [&] {
-    // NOW only support DSv3 configs
+  CPU_DISPATCH_REDUCED_FLOATING_TYPES_EXT(st, correction_bias.scalar_type(), "biased_grouped_topk_kernel", [&] {
     TORCH_CHECK(topk == 8, "Unexpected topk: ", topk);
     switch (num_experts) {
       case 256:
diff --git a/sgl-kernel/csrc/cpu/vec.h b/sgl-kernel/csrc/cpu/vec.h
index 9f8eaad18dd3..d28124c1d59c 100644
--- a/sgl-kernel/csrc/cpu/vec.h
+++ b/sgl-kernel/csrc/cpu/vec.h
@@ -16,6 +16,25 @@ inline Vectorized<scalar_t> convert_from_float_ext(const Vectorized<float>& a, c
   return at::vec::convert_from_float<scalar_t>(a, b);
 }
 
+// allow f16, bf16
+template <typename scalar_t, typename std::enable_if_t<is_reduced_floating_point_v<scalar_t>, int> = 1>
+inline std::tuple<Vectorized<float>, Vectorized<float>> load_float_vec2(const scalar_t* __restrict__ data) {
+  using bVec = at::vec::Vectorized<scalar_t>;
+  using fVec = at::vec::Vectorized<float>;
+  bVec x_vec = bVec::loadu(data);
+  fVec x0, x1;
+  std::tie(x0, x1) = at::vec::convert_to_float(x_vec);
+  return std::make_tuple(x0, x1);
+}
+
+// allow  f32
+inline std::tuple<Vectorized<float>, Vectorized<float>> load_float_vec2(const float* __restrict__ data) {
+  using fVec = at::vec::Vectorized<float>;
+  fVec x0 = fVec::loadu(data);
+  fVec x1 = fVec::loadu(data + fVec::size());
+  return std::make_tuple(x0, x1);
+}
+
 #if defined(CPU_CAPABILITY_AVX512)
 
 // `at::vec::convert_from_float<>` from PyTorch doesn't have avx512-bf16 intrinsics
diff --git a/test/srt/cpu/test_topk.py b/test/srt/cpu/test_topk.py
index 0e0aeef2c015..4b4ce21aefe9 100644
--- a/test/srt/cpu/test_topk.py
+++ b/test/srt/cpu/test_topk.py
@@ -66,13 +66,15 @@ def test_grouped_topk(self):
 
 # DeepSeek V2/V3/R1 uses biased_grouped_top
 class TestBiasedGroupedTopK(CustomTestCase):
-    def _run_single_test(self, M, E, G, topk, topk_group, renormalize, dtype):
+    def _run_single_test(
+        self, M, E, G, topk, topk_group, renormalize, dtype, bias_dtype
+    ):
         torch.manual_seed(1234)
 
         # expand gating_output by M, otherwise bfloat16 fall into same value aftering truncating
         hidden_states = torch.randn(M, 100, dtype=dtype)
         gating_output = torch.randn(M, E, dtype=dtype) * 2 * M
-        correction_bias = torch.randn(E, dtype=dtype)
+        correction_bias = torch.randn(E, dtype=bias_dtype)
 
         ref_topk_weights, ref_topk_ids = native_biased_grouped_topk(
             hidden_states.float(),
@@ -106,7 +108,10 @@ def _run_single_test(self, M, E, G, topk, topk_group, renormalize, dtype):
 
     def test_biased_grouped_topk(self):
         for renormalize in [True, False]:
-            self._run_single_test(122, 256, 8, 8, 2, renormalize, torch.bfloat16)
+            for bias_dtype in [torch.float32, torch.bfloat16]:
+                self._run_single_test(
+                    122, 256, 8, 8, 2, renormalize, torch.bfloat16, bias_dtype
+                )
 
 
 class TestTopK(CustomTestCase):

From d98a4913eae3a38a879bdcdc8d9a3fe6c28b85c5 Mon Sep 17 00:00:00 2001
From: Shangming Cai <caishangming@linux.alibaba.com>
Date: Tue, 5 Aug 2025 11:18:11 +0800
Subject: [PATCH 353/396] [PD] Refactor parallel sizes and add pp support for
 mooncake (#8571)

Signed-off-by: Shangming Cai <caishangming@linux.alibaba.com>
---
 python/sglang/srt/disaggregation/base/conn.py |   7 +-
 python/sglang/srt/disaggregation/decode.py    |   7 +-
 .../srt/disaggregation/mooncake/conn.py       | 378 +++++++++++-------
 python/sglang/srt/disaggregation/prefill.py   |   2 +
 4 files changed, 256 insertions(+), 138 deletions(-)

diff --git a/python/sglang/srt/disaggregation/base/conn.py b/python/sglang/srt/disaggregation/base/conn.py
index bcb5dc7b98a0..d37575dcf0aa 100644
--- a/python/sglang/srt/disaggregation/base/conn.py
+++ b/python/sglang/srt/disaggregation/base/conn.py
@@ -25,10 +25,13 @@ class KVArgs:
     gpu_id: int
     # for different tp
     decode_tp_size: int
-    # for pp prefill
-    prefill_pp_size: int
     kv_head_num: int
     page_size: int
+    # for pp prefill
+    prefill_pp_size: int
+    pp_rank: int
+    # for system dp
+    system_dp_rank: int
 
 
 class KVPoll:
diff --git a/python/sglang/srt/disaggregation/decode.py b/python/sglang/srt/disaggregation/decode.py
index febb827fab5c..09d0b131036f 100644
--- a/python/sglang/srt/disaggregation/decode.py
+++ b/python/sglang/srt/disaggregation/decode.py
@@ -44,6 +44,7 @@
     poll_and_all_reduce,
     prepare_abort,
 )
+from sglang.srt.layers.dp_attention import get_attention_tp_size
 from sglang.srt.managers.schedule_batch import FINISH_ABORT, ScheduleBatch
 from sglang.srt.mem_cache.allocator import BaseTokenToKVPoolAllocator
 from sglang.srt.mem_cache.base_prefix_cache import BasePrefixCache
@@ -184,9 +185,13 @@ def _init_kv_manager(self) -> BaseKVManager:
         kv_args_class = get_kv_class(self.transfer_backend, KVClassType.KVARGS)
         kv_args = kv_args_class()
 
-        attn_tp_size = self.tp_size // self.dp_size
+        attn_tp_size = get_attention_tp_size()
         kv_args.engine_rank = self.tp_rank % (attn_tp_size)
+
         kv_args.decode_tp_size = attn_tp_size
+        # Note(shangming): pp is not supported on the decode side yet, so its rank is fixed to 0
+        kv_args.pp_rank = 0
+        kv_args.system_dp_rank = self.scheduler.dp_rank
         kv_args.prefill_pp_size = self.prefill_pp_size
         kv_data_ptrs, kv_data_lens, kv_item_lens = (
             self.token_to_kv_pool.get_contiguous_buf_infos()
diff --git a/python/sglang/srt/disaggregation/mooncake/conn.py b/python/sglang/srt/disaggregation/mooncake/conn.py
index d366b279156f..25188c6a8a2b 100644
--- a/python/sglang/srt/disaggregation/mooncake/conn.py
+++ b/python/sglang/srt/disaggregation/mooncake/conn.py
@@ -34,6 +34,12 @@
 )
 from sglang.srt.disaggregation.mooncake.transfer_engine import MooncakeTransferEngine
 from sglang.srt.disaggregation.utils import DisaggregationMode
+from sglang.srt.layers.dp_attention import (
+    get_attention_dp_rank,
+    get_attention_dp_size,
+    get_attention_tp_rank,
+    get_attention_tp_size,
+)
 from sglang.srt.server_args import ServerArgs
 from sglang.srt.utils import (
     format_tcp_address,
@@ -113,7 +119,7 @@ class KVArgsRegisterInfo:
     dst_kv_ptrs: list[int]
     dst_aux_ptrs: list[int]
     dst_tp_rank: int
-    dst_tp_size: int
+    dst_attn_tp_size: int
     dst_kv_item_len: int
 
     @classmethod
@@ -126,7 +132,7 @@ def from_zmq(cls, msg: List[bytes]):
             dst_kv_ptrs=list(struct.unpack(f"{len(msg[4])//8}Q", msg[4])),
             dst_aux_ptrs=list(struct.unpack(f"{len(msg[5])//8}Q", msg[5])),
             dst_tp_rank=int(msg[6].decode("ascii")),
-            dst_tp_size=int(msg[7].decode("ascii")),
+            dst_attn_tp_size=int(msg[7].decode("ascii")),
             dst_kv_item_len=int(msg[8].decode("ascii")),
         )
 
@@ -147,13 +153,18 @@ def __init__(
         # for p/d multi node infer
         self.bootstrap_port = server_args.disaggregation_bootstrap_port
         self.dist_init_addr = server_args.dist_init_addr
-        self.tp_size = server_args.tp_size
-        self.dp_size = server_args.dp_size
-        self.enable_dp_attention = server_args.enable_dp_attention
-        if not server_args.enable_dp_attention and server_args.dp_size != 1:
-            raise ValueError(
-                "If dp_attention is not enabled, dp size must be 1 in disaggregation mode."
-            )
+        self.attn_tp_size = get_attention_tp_size()
+        self.attn_tp_rank = get_attention_tp_rank()
+        self.attn_dp_size = get_attention_dp_size()
+        self.attn_dp_rank = get_attention_dp_rank()
+        self.system_dp_size = (
+            1 if server_args.enable_dp_attention else server_args.dp_size
+        )
+        self.system_dp_rank = (
+            self.kv_args.system_dp_rank if self.kv_args.system_dp_rank else 0
+        )
+        self.pp_size = server_args.pp_size
+        self.pp_rank = self.kv_args.pp_rank
         self.request_status: Dict[int, KVPoll] = {}
         self.rank_port = None
         self.server_socket = zmq.Context().socket(zmq.PULL)
@@ -221,8 +232,9 @@ def __init__(
             )
             self.start_decode_thread()
             self.connection_pool: Dict[str, Dict[str, Union[str, int]]] = {}
-            self.prefill_tp_size_table: Dict[str, int] = {}
+            self.prefill_attn_tp_size_table: Dict[str, int] = {}
             self.prefill_dp_size_table: Dict[str, int] = {}
+            self.prefill_pp_size_table: Dict[str, int] = {}
             # If a timeout happens on the decode side, it means decode instances
             # fail to receive the KV Cache transfer done signal after bootstrapping.
             # These timeout requests should be aborted to release the tree cache.
@@ -296,15 +308,53 @@ def send_kvcache(
             prefill_kv_indices, dst_kv_indices
         )
 
-        num_layers = len(self.kv_args.kv_data_ptrs)
-        layers_params = [
-            (
-                self.kv_args.kv_data_ptrs[layer_id],
-                dst_kv_ptrs[layer_id],
-                self.kv_args.kv_item_lens[layer_id],
-            )
-            for layer_id in range(num_layers)
-        ]
+        layers_params = None
+
+        # pp is not supported on the decode side yet
+        if self.is_mla_backend:
+            src_kv_ptrs = self.kv_args.kv_data_ptrs
+            layers_per_pp_stage = len(src_kv_ptrs)
+            start_layer = self.pp_rank * layers_per_pp_stage
+            end_layer = start_layer + layers_per_pp_stage
+            dst_kv_ptrs = dst_kv_ptrs[start_layer:end_layer]
+            kv_item_len = self.kv_args.kv_item_lens[0]
+            layers_params = [
+                (
+                    src_kv_ptrs[layer_id],
+                    dst_kv_ptrs[layer_id],
+                    kv_item_len,
+                )
+                for layer_id in range(layers_per_pp_stage)
+            ]
+        else:
+            num_kv_layers = len(self.kv_args.kv_data_ptrs) // 2
+            src_k_ptrs = self.kv_args.kv_data_ptrs[:num_kv_layers]
+            src_v_ptrs = self.kv_args.kv_data_ptrs[num_kv_layers:]
+            layers_per_pp_stage = len(src_k_ptrs)
+            start_layer = self.pp_rank * layers_per_pp_stage
+            end_layer = start_layer + layers_per_pp_stage
+            dst_k_ptrs = dst_kv_ptrs[start_layer:end_layer]
+            dst_v_ptrs = dst_kv_ptrs[
+                num_kv_layers + start_layer : num_kv_layers + end_layer
+            ]
+            kv_item_len = self.kv_args.kv_item_lens[0]
+
+            layers_params = [
+                (
+                    src_k_ptrs[layer_id],
+                    dst_k_ptrs[layer_id],
+                    kv_item_len,
+                )
+                for layer_id in range(layers_per_pp_stage)
+            ] + [
+                (
+                    src_v_ptrs[layer_id],
+                    dst_v_ptrs[layer_id],
+                    kv_item_len,
+                )
+                for layer_id in range(layers_per_pp_stage)
+            ]
+        assert layers_params is not None
 
         # Worker function for processing a single layer
         def process_layer(src_ptr: int, dst_ptr: int, item_len: int) -> int:
@@ -343,7 +393,7 @@ def send_kvcache_slice(
         dst_kv_ptrs: list[int],
         dst_kv_indices: npt.NDArray[np.int64],
         dst_tp_rank: int,
-        dst_tp_size: int,
+        dst_attn_tp_size: int,
         dst_kv_item_len: int,
         executor: concurrent.futures.ThreadPoolExecutor,
     ):
@@ -356,23 +406,22 @@ def send_kvcache_slice(
         This may introduce performance overhead (increased TTFT) for long sequences.
         """
         # Extract configuration
-        local_tp_size = self.tp_size // self.dp_size
-        local_tp_rank_in_group = self.kv_args.engine_rank % local_tp_size
+        local_tp_rank_in_group = self.kv_args.engine_rank % self.attn_tp_size
         src_kv_item_len = self.kv_args.kv_item_lens[0]
-        dst_tp_rank_in_group = dst_tp_rank % dst_tp_size
+        dst_tp_rank_in_group = dst_tp_rank % dst_attn_tp_size
         num_kv_heads = self.kv_args.kv_head_num
         num_layers = len(self.kv_args.kv_data_ptrs)
         page_size = self.kv_args.page_size
 
         # Calculate head distribution
         src_heads_per_rank = num_kv_heads
-        dst_heads_per_rank = num_kv_heads * local_tp_size // dst_tp_size
+        dst_heads_per_rank = num_kv_heads * self.attn_tp_size // dst_attn_tp_size
         bytes_per_head_slice_to_send = (
             dst_kv_item_len // page_size // dst_heads_per_rank
         )
 
         # Determine slicing parameters based on TP configuration
-        if local_tp_size > dst_tp_size:
+        if self.attn_tp_size > dst_attn_tp_size:
             # Send KVCache from multiple prefill instances to 1 decode instance
             src_head_start_offset = 0
             num_heads_to_send = src_heads_per_rank
@@ -383,35 +432,55 @@ def send_kvcache_slice(
             num_heads_to_send = dst_heads_per_rank
             dst_head_start_offset = 0
 
-        layers_params = []
-        for layer_id in range(num_layers):
-            # Calculate precise byte offset and length for the sub-slice within the token
-            src_head_slice_offset = src_head_start_offset * bytes_per_head_slice_to_send
-            dst_head_slice_offset = dst_head_start_offset * bytes_per_head_slice_to_send
-            heads_bytes_per_token_to_send = (
-                num_heads_to_send * bytes_per_head_slice_to_send
+        # pp is not supported on the decode side yet
+        num_kv_layers = len(self.kv_args.kv_data_ptrs) // 2
+        src_k_ptrs = self.kv_args.kv_data_ptrs[:num_kv_layers]
+        src_v_ptrs = self.kv_args.kv_data_ptrs[num_kv_layers:]
+        layers_per_pp_stage = len(src_k_ptrs)
+        start_layer = self.pp_rank * layers_per_pp_stage
+        end_layer = start_layer + layers_per_pp_stage
+        dst_k_ptrs = dst_kv_ptrs[start_layer:end_layer]
+        dst_v_ptrs = dst_kv_ptrs[
+            num_kv_layers + start_layer : num_kv_layers + end_layer
+        ]
+
+        # Calculate precise byte offset and length for the sub-slice within the token
+        src_head_slice_offset = src_head_start_offset * bytes_per_head_slice_to_send
+        dst_head_slice_offset = dst_head_start_offset * bytes_per_head_slice_to_send
+        heads_bytes_per_token_to_send = num_heads_to_send * bytes_per_head_slice_to_send
+
+        # Sanity check: The data sub-slice to be sent should fit into the dst buffer.
+        # This means heads_bytes_per_token_to_send <= (dst_kv_item_len // page_size)
+        if heads_bytes_per_token_to_send > (dst_kv_item_len // page_size):
+            logger.error(
+                f"[{mooncake_session_id}] slice size ({heads_bytes_per_token_to_send}) exceeds "
+                f"target token slot size ({dst_kv_item_len // page_size})"
             )
+            return -1
 
-            # Sanity check: The data sub-slice to be sent should fit into the dst buffer.
-            # This means heads_bytes_per_token_to_send <= (dst_kv_item_len // page_size)
-            if heads_bytes_per_token_to_send > (dst_kv_item_len // page_size):
-                logger.error(
-                    f"[{mooncake_session_id}] Layer {layer_id}: "
-                    f"slice size ({heads_bytes_per_token_to_send}) exceeds "
-                    f"target token slot size ({dst_kv_item_len // page_size})"
-                )
-                return -1
-            layers_params.append(
-                (
-                    self.kv_args.kv_data_ptrs[layer_id],
-                    dst_kv_ptrs[layer_id],
-                    src_kv_item_len,
-                    dst_kv_item_len,
-                    src_head_slice_offset,
-                    dst_head_slice_offset,
-                    heads_bytes_per_token_to_send,
-                )
+        layers_params = [
+            (
+                src_k_ptrs[layer_id],
+                dst_k_ptrs[layer_id],
+                src_kv_item_len,
+                dst_kv_item_len,
+                src_head_slice_offset,
+                dst_head_slice_offset,
+                heads_bytes_per_token_to_send,
             )
+            for layer_id in range(layers_per_pp_stage)
+        ] + [
+            (
+                src_v_ptrs[layer_id],
+                dst_v_ptrs[layer_id],
+                src_kv_item_len,
+                dst_kv_item_len,
+                src_head_slice_offset,
+                dst_head_slice_offset,
+                heads_bytes_per_token_to_send,
+            )
+            for layer_id in range(layers_per_pp_stage)
+        ]
 
         def process_layer_tp_aware(layer_params):
             (
@@ -562,9 +631,9 @@ def transfer_worker(
                         target_rank_registration_info: KVArgsRegisterInfo = (
                             self.decode_kv_args_table[req.mooncake_session_id]
                         )
-                        local_tp_size = self.tp_size // self.dp_size
                         if self.is_mla_backend or (
-                            local_tp_size == target_rank_registration_info.dst_tp_size
+                            self.attn_tp_size
+                            == target_rank_registration_info.dst_attn_tp_size
                         ):
                             ret = self.send_kvcache(
                                 req.mooncake_session_id,
@@ -580,7 +649,7 @@ def transfer_worker(
                                 target_rank_registration_info.dst_kv_ptrs,
                                 chunked_dst_kv_indice,
                                 target_rank_registration_info.dst_tp_rank,
-                                target_rank_registration_info.dst_tp_size,
+                                target_rank_registration_info.dst_attn_tp_size,
                                 target_rank_registration_info.dst_kv_item_len,
                                 executor,
                             )
@@ -863,11 +932,16 @@ def _register_to_bootstrap(self):
         url = f"http://{bootstrap_server_url}/route"
         payload = {
             "role": "Prefill",
-            "tp_size": self.tp_size,
-            "dp_size": self.dp_size,
+            "attn_tp_size": self.attn_tp_size,
+            "attn_tp_rank": self.attn_tp_rank,
+            "attn_dp_size": self.attn_dp_size,
+            "attn_dp_rank": self.attn_dp_rank,
+            "pp_size": self.pp_size,
+            "pp_rank": self.pp_rank,
+            "system_dp_size": self.system_dp_size,
+            "system_dp_rank": self.system_dp_rank,
             "rank_ip": self.local_ip,
             "rank_port": self.rank_port,
-            "engine_rank": self.kv_args.engine_rank,
         }
 
         try:
@@ -890,10 +964,12 @@ def _handle_node_failure(self, failed_bootstrap_addr):
             ]
             for k in keys_to_remove:
                 del self.connection_pool[k]
-            if failed_bootstrap_addr in self.prefill_tp_size_table:
-                del self.prefill_tp_size_table[failed_bootstrap_addr]
+            if failed_bootstrap_addr in self.prefill_attn_tp_size_table:
+                del self.prefill_attn_tp_size_table[failed_bootstrap_addr]
             if failed_bootstrap_addr in self.prefill_dp_size_table:
                 del self.prefill_dp_size_table[failed_bootstrap_addr]
+            if failed_bootstrap_addr in self.prefill_pp_size_table:
+                del self.prefill_pp_size_table[failed_bootstrap_addr]
 
             possible_affected_rooms = self.addr_to_rooms_tracker.get(
                 failed_bootstrap_addr, []
@@ -915,7 +991,7 @@ def _handle_node_failure(self, failed_bootstrap_addr):
                 self.update_status(room, KVPoll.Failed)
                 affected_rooms.append(room)
         logger.error(
-            f"Losing connection with prefill instance (bootstrap_addr: {failed_bootstrap_addr}), affected {len(affected_rooms)} requests"
+            f"Losing connection with prefill instance (bootstrap_addr: {failed_bootstrap_addr}), {len(affected_rooms)} requests affected"
         )
 
 
@@ -1042,10 +1118,16 @@ def __init__(
         self.data_parallel_rank = data_parallel_rank
 
         if self.bootstrap_addr not in self.kv_mgr.prefill_dp_size_table:
-            self.prefill_tp_size, self.prefill_dp_size = (
-                self._get_prefill_parallel_info_from_server()
-            )
-            if self.prefill_tp_size is None or self.prefill_dp_size is None:
+            (
+                self.prefill_attn_tp_size,
+                self.prefill_dp_size,
+                self.prefill_pp_size,
+            ) = self._get_prefill_parallel_info_from_server()
+            if (
+                self.prefill_attn_tp_size is None
+                or self.prefill_dp_size is None
+                or self.prefill_pp_size is None
+            ):
                 self.kv_mgr.record_failure(
                     self.bootstrap_room,
                     f"Could not fetch prefill parallel info from bootstrap_addr: {self.bootstrap_addr}",
@@ -1054,43 +1136,47 @@ def __init__(
                 return
             else:
                 logger.debug(
-                    f"Fetch prefill parallel info from [{self.bootstrap_addr}]: DP size:{self.prefill_dp_size}, TP size:{self.prefill_tp_size}"
+                    f"Fetch prefill parallel info from [{self.bootstrap_addr}]: DP size:{self.prefill_dp_size}, TP size:{self.prefill_attn_tp_size} PP size:{self.prefill_pp_size}"
                 )
-                self.kv_mgr.prefill_tp_size_table[self.bootstrap_addr] = (
-                    self.prefill_tp_size
+                self.kv_mgr.prefill_attn_tp_size_table[self.bootstrap_addr] = (
+                    self.prefill_attn_tp_size
                 )
                 self.kv_mgr.prefill_dp_size_table[self.bootstrap_addr] = (
                     self.prefill_dp_size
                 )
+                self.kv_mgr.prefill_pp_size_table[self.bootstrap_addr] = (
+                    self.prefill_pp_size
+                )
         else:
-            self.prefill_tp_size = self.kv_mgr.prefill_tp_size_table[
+            self.prefill_attn_tp_size = self.kv_mgr.prefill_attn_tp_size_table[
                 self.bootstrap_addr
             ]
             self.prefill_dp_size = self.kv_mgr.prefill_dp_size_table[
                 self.bootstrap_addr
             ]
+            self.prefill_pp_size = self.kv_mgr.prefill_pp_size_table[
+                self.bootstrap_addr
+            ]
 
         # Currently, we don't allow prefill instance and decode instance to
         # have different TP sizes per DP rank, except for models using MLA.
-        local_tp_size_per_dp_rank = self.kv_mgr.tp_size // self.kv_mgr.dp_size
-        prefill_tp_size_per_dp_rank = self.prefill_tp_size // self.prefill_dp_size
-        if local_tp_size_per_dp_rank == prefill_tp_size_per_dp_rank:
+        if self.kv_mgr.attn_tp_size == self.prefill_attn_tp_size:
             self.target_tp_rank = (
-                self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank
+                self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size
             )
             self.required_dst_info_num = 1
             self.required_prefill_response_num = 1
             self.target_tp_ranks = [self.target_tp_rank]
-        elif local_tp_size_per_dp_rank > prefill_tp_size_per_dp_rank:
+        elif self.kv_mgr.attn_tp_size > self.prefill_attn_tp_size:
             if not self.kv_mgr.is_mla_backend:
                 logger.warning_once(
                     "Performance is NOT guaranteed when using different TP sizes for non-MLA models. "
                 )
             self.target_tp_rank = (
-                self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank
-            ) // (local_tp_size_per_dp_rank // prefill_tp_size_per_dp_rank)
+                self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size
+            ) // (self.kv_mgr.attn_tp_size // self.prefill_attn_tp_size)
             self.required_dst_info_num = (
-                local_tp_size_per_dp_rank // prefill_tp_size_per_dp_rank
+                self.kv_mgr.attn_tp_size // self.prefill_attn_tp_size
             )
             self.required_prefill_response_num = 1
             self.target_tp_ranks = [self.target_tp_rank]
@@ -1103,10 +1189,10 @@ def __init__(
             self.target_tp_ranks = [
                 rank
                 for rank in range(
-                    (self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank)
-                    * (prefill_tp_size_per_dp_rank // local_tp_size_per_dp_rank),
-                    (self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank + 1)
-                    * (prefill_tp_size_per_dp_rank // local_tp_size_per_dp_rank),
+                    (self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size)
+                    * (self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size),
+                    (self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size + 1)
+                    * (self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size),
                 )
             ]
 
@@ -1116,7 +1202,7 @@ def __init__(
             self.target_tp_rank = self.target_tp_ranks[0]
             self.required_dst_info_num = 1
             self.required_prefill_response_num = (
-                prefill_tp_size_per_dp_rank // local_tp_size_per_dp_rank
+                self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size
             )
 
         if self.data_parallel_rank is not None:
@@ -1136,31 +1222,31 @@ def __init__(
         if bootstrap_key not in self.kv_mgr.connection_pool:
             bootstrap_infos = []
             for target_tp_rank in self.target_tp_ranks:
-                bootstrap_info = self._get_bootstrap_info_from_server(
-                    target_tp_rank,
-                    self.target_dp_group,
-                )
-                if bootstrap_info is not None:
-                    if self.kv_mgr.is_mla_backend:
-                        # For MLA: target_tp_rank is the selected real rank, others are dummy ranks
-                        bootstrap_info["is_dummy"] = not bool(
-                            target_tp_rank == self.target_tp_rank
-                            or self.target_tp_rank is None
+                for target_pp_rank in range(self.prefill_pp_size):
+                    bootstrap_info = self._get_bootstrap_info_from_server(
+                        target_tp_rank, self.target_dp_group, target_pp_rank
+                    )
+                    if bootstrap_info is not None:
+                        if self.kv_mgr.is_mla_backend:
+                            # For MLA: target_tp_rank is the selected real rank, others are dummy ranks
+                            bootstrap_info["is_dummy"] = not bool(
+                                target_tp_rank == self.target_tp_rank
+                                or self.target_tp_rank is None
+                            )
+                        else:
+                            # For non-MLA: all target_tp_ranks are selected real ranks
+                            bootstrap_info["is_dummy"] = False
+                        logger.debug(
+                            f"Fetched bootstrap info: {bootstrap_info} for DP {self.target_dp_group} TP {target_tp_rank} PP {target_pp_rank}"
                         )
+                        bootstrap_infos.append(bootstrap_info)
                     else:
-                        # For non-MLA: all target_tp_ranks are selected real ranks
-                        bootstrap_info["is_dummy"] = False
-                    logger.debug(
-                        f"Fetched bootstrap info: {bootstrap_info} for DP {self.target_dp_group} TP {target_tp_rank}"
-                    )
-                    bootstrap_infos.append(bootstrap_info)
-                else:
-                    self.kv_mgr.record_failure(
-                        self.bootstrap_room,
-                        f"Could not fetch bootstrap info for engine rank: {self.kv_mgr.kv_args.engine_rank} and target_dp_group: {self.target_dp_group}",
-                    )
-                    self.kv_mgr.update_status(self.bootstrap_room, KVPoll.Failed)
-                    return
+                        self.kv_mgr.record_failure(
+                            self.bootstrap_room,
+                            f"Could not fetch bootstrap info for engine rank: {self.kv_mgr.kv_args.engine_rank} and target_dp_group: {self.target_dp_group} and target_pp_rank {target_pp_rank}",
+                        )
+                        self.kv_mgr.update_status(self.bootstrap_room, KVPoll.Failed)
+                        return
 
             self.bootstrap_infos = bootstrap_infos
             self.kv_mgr.connection_pool[bootstrap_key] = self.bootstrap_infos
@@ -1174,10 +1260,12 @@ def __init__(
         self.kv_mgr.addr_to_rooms_tracker[self.bootstrap_addr].add(self.bootstrap_room)
         self.kv_mgr.update_status(self.bootstrap_room, KVPoll.WaitingForInput)
 
-    def _get_bootstrap_info_from_server(self, engine_rank, target_dp_group):
+    def _get_bootstrap_info_from_server(
+        self, engine_rank, target_dp_group, target_pp_rank
+    ):
         """Fetch the bootstrap info from the bootstrap server."""
         try:
-            url = f"http://{self.bootstrap_addr}/route?engine_rank={engine_rank}&target_dp_group={target_dp_group}"
+            url = f"http://{self.bootstrap_addr}/route?engine_rank={engine_rank}&target_dp_group={target_dp_group}&target_pp_rank={target_pp_rank}"
             response = requests.get(url, timeout=5)
             if response.status_code == 200:
                 bootstrap_info = response.json()
@@ -1191,24 +1279,28 @@ def _get_bootstrap_info_from_server(self, engine_rank, target_dp_group):
             logger.error(f"Error fetching prefill info from bootstrap: {e}")
             return None
 
-    def _get_prefill_parallel_info_from_server(self) -> Tuple[int, int]:
+    def _get_prefill_parallel_info_from_server(
+        self,
+    ) -> Tuple[Optional[int], Optional[int], Optional[int]]:
         """Fetch the prefill parallel info from the bootstrap server."""
         try:
-            url = f"http://{self.bootstrap_addr}/route?engine_rank={-1}&target_dp_group={-1}"
+            url = f"http://{self.bootstrap_addr}/route?engine_rank={-1}&target_dp_group={-1}&target_pp_rank={-1}"
             response = requests.get(url)
             if response.status_code == 200:
                 prefill_parallel_info = response.json()
-                return int(prefill_parallel_info["prefill_tp_size"]), int(
-                    prefill_parallel_info["prefill_dp_size"]
+                return (
+                    int(prefill_parallel_info["prefill_attn_tp_size"]),
+                    int(prefill_parallel_info["prefill_dp_size"]),
+                    int(prefill_parallel_info["prefill_pp_size"]),
                 )
             else:
                 logger.error(
                     f"Failed to get prefill parallel info: {response.status_code}, {response.text}"
                 )
-                return None, None
+                return None, None, None
         except Exception as e:
             logger.error(f"Error fetching prefill parallel info from bootstrap: {e}")
-            return None, None
+            return None, None, None
 
     def _register_kv_args(self):
         for bootstrap_info in self.bootstrap_infos:
@@ -1218,11 +1310,11 @@ def _register_kv_args(self):
             packed_aux_data_ptrs = b"".join(
                 struct.pack("Q", ptr) for ptr in self.kv_mgr.kv_args.aux_data_ptrs
             )
+            # Note(shangming): No need to add pp rank here since pp is not supported on the decode side yet
             tp_rank = self.kv_mgr.kv_args.engine_rank
-            tp_size = self.kv_mgr.tp_size // self.kv_mgr.dp_size
             kv_item_len = self.kv_mgr.kv_args.kv_item_lens[0]
             dst_tp_rank = str(tp_rank).encode("ascii")
-            dst_tp_size = str(tp_size).encode("ascii")
+            dst_attn_tp_size = str(self.kv_mgr.attn_tp_size).encode("ascii")
             dst_kv_item_len = str(kv_item_len).encode("ascii")
 
             sock, lock = self._connect_to_bootstrap_server(bootstrap_info)
@@ -1236,7 +1328,7 @@ def _register_kv_args(self):
                         packed_kv_data_ptrs,
                         packed_aux_data_ptrs,
                         dst_tp_rank,
-                        dst_tp_size,
+                        dst_attn_tp_size,
                         dst_kv_item_len,
                     ]
                 )
@@ -1347,10 +1439,12 @@ def __init__(self, port: int):
         self.store = dict()
         self.lock = asyncio.Lock()
         self._setup_routes()
-        self.tp_size = None
+        self.pp_size = None
+        self.attn_tp_size = None
         self.dp_size = None
-        self.tp_size_per_dp_rank = None
-        self.prefill_port_table: Dict[int, Dict[int, Dict[str, Union[str, int]]]] = {}
+        self.prefill_port_table: Dict[
+            int, Dict[int, Dict[int, Dict[str, Union[str, int]]]]
+        ] = {}
 
         # Start bootstrap server
         self.thread = threading.Thread(target=self._run_server, daemon=True)
@@ -1380,37 +1474,45 @@ async def _handle_route(self, request: web.Request):
     async def _handle_route_put(self, request: web.Request):
         data = await request.json()
         role = data["role"]
-        tp_size = data["tp_size"]
-        dp_size = data["dp_size"]
+        attn_tp_size = data["attn_tp_size"]
+        attn_tp_rank = data["attn_tp_rank"]
+        attn_dp_size = data["attn_dp_size"]
+        attn_dp_rank = data["attn_dp_rank"]
+        pp_size = data["pp_size"]
+        pp_rank = data["pp_rank"]
+        system_dp_size = data["system_dp_size"]
+        system_dp_rank = data["system_dp_rank"]
         rank_ip = data["rank_ip"]
         rank_port = int(data["rank_port"])
-        engine_rank = int(data["engine_rank"])
 
-        if self.tp_size is None:
-            self.tp_size = tp_size
+        if self.attn_tp_size is None:
+            self.attn_tp_size = attn_tp_size
 
         if self.dp_size is None:
-            self.dp_size = dp_size
+            self.dp_size = attn_dp_size if system_dp_size == 1 else system_dp_size
 
-        tp_size_per_dp_rank = tp_size // dp_size
-        if self.tp_size_per_dp_rank is None:
-            self.tp_size_per_dp_rank = tp_size_per_dp_rank
+        if self.pp_size is None:
+            self.pp_size = pp_size
 
         if role == "Prefill":
-            dp_group = engine_rank // tp_size_per_dp_rank
-            tp_rank_in_dp_group = engine_rank % tp_size_per_dp_rank
+            if system_dp_size == 1:
+                dp_group = attn_dp_rank
+            else:
+                dp_group = system_dp_rank
 
             # Add lock to make sure thread-safe
             async with self.lock:
                 if dp_group not in self.prefill_port_table:
                     self.prefill_port_table[dp_group] = {}
+                if attn_tp_rank not in self.prefill_port_table[dp_group]:
+                    self.prefill_port_table[dp_group][attn_tp_rank] = {}
 
-            self.prefill_port_table[dp_group][tp_rank_in_dp_group] = {
+            self.prefill_port_table[dp_group][attn_tp_rank][pp_rank] = {
                 "rank_ip": rank_ip,
                 "rank_port": rank_port,
             }
             logger.debug(
-                f"Register prefill bootstrap: {engine_rank} with rank_ip: {rank_ip} and rank_port: {rank_port}"
+                f"Register prefill bootstrap: DP {dp_group} TP{attn_tp_rank} PP{pp_rank} with rank_ip: {rank_ip} and rank_port: {rank_port}"
             )
 
         return web.Response(text="OK", status=200)
@@ -1418,14 +1520,20 @@ async def _handle_route_put(self, request: web.Request):
     async def _handle_route_get(self, request: web.Request):
         engine_rank = request.query.get("engine_rank")
         target_dp_group = request.query.get("target_dp_group")
-        if not engine_rank or not target_dp_group:
+        target_pp_rank = request.query.get("target_pp_rank")
+        if not engine_rank or not target_dp_group or not target_pp_rank:
             return web.Response(text="Missing inputs for bootstrap server.", status=400)
 
         # Currently we use engine_rank == -1 and target_dp_group == -1 to sync dp size
-        if int(engine_rank) == -1 and int(target_dp_group) == -1:
+        if (
+            int(engine_rank) == -1
+            and int(target_dp_group) == -1
+            and int(target_pp_rank) == -1
+        ):
             prefill_parallel_info = {
-                "prefill_tp_size": self.tp_size,
+                "prefill_attn_tp_size": self.attn_tp_size,
                 "prefill_dp_size": self.dp_size,
+                "prefill_pp_size": self.pp_size,
             }
             return web.json_response(prefill_parallel_info, status=200)
 
@@ -1433,7 +1541,7 @@ async def _handle_route_get(self, request: web.Request):
         async with self.lock:
             bootstrap_info = self.prefill_port_table[int(target_dp_group)][
                 int(engine_rank)
-            ]
+            ][int(target_pp_rank)]
 
         if bootstrap_info is not None:
             return web.json_response(bootstrap_info, status=200)
diff --git a/python/sglang/srt/disaggregation/prefill.py b/python/sglang/srt/disaggregation/prefill.py
index c15c1eff00c1..72cf9d3f953e 100644
--- a/python/sglang/srt/disaggregation/prefill.py
+++ b/python/sglang/srt/disaggregation/prefill.py
@@ -103,6 +103,8 @@ def _init_kv_manager(self) -> BaseKVManager:
         kv_args_class = get_kv_class(self.transfer_backend, KVClassType.KVARGS)
         kv_args = kv_args_class()
         kv_args.engine_rank = self.tp_rank
+        kv_args.pp_rank = self.pp_rank
+        kv_args.system_dp_rank = self.scheduler.dp_rank
         kv_args.decode_tp_size = self.decode_tp_size // self.decode_dp_size
         kv_args.prefill_pp_size = self.pp_size
         kv_data_ptrs, kv_data_lens, kv_item_lens = (

From 354ac435558ef0f31a0a8805a95e806a61b76e58 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Mon, 4 Aug 2025 20:42:07 -0700
Subject: [PATCH 354/396] [pd-router] Add Configurable Retry Logic for reduce
 backend pressure (#8744)

---
 sgl-router/src/config/types.rs           |  35 +-
 sgl-router/src/lib.rs                    |   8 +-
 sgl-router/src/routers/factory.rs        |   2 +
 sgl-router/src/routers/pd_router.rs      | 689 ++++++++++++++---------
 sgl-router/src/routers/router.rs         |  31 +-
 sgl-router/src/service_discovery.rs      |  13 +-
 sgl-router/tests/api_endpoints_test.rs   |   6 +-
 sgl-router/tests/request_formats_test.rs |   3 +-
 sgl-router/tests/streaming_tests.rs      |   3 +-
 sgl-router/tests/test_pd_routing.rs      |   3 +-
 10 files changed, 501 insertions(+), 292 deletions(-)

diff --git a/sgl-router/src/config/types.rs b/sgl-router/src/config/types.rs
index fabbebc267da..a52e124ad91a 100644
--- a/sgl-router/src/config/types.rs
+++ b/sgl-router/src/config/types.rs
@@ -39,6 +39,8 @@ pub struct RouterConfig {
     pub max_concurrent_requests: usize,
     /// CORS allowed origins
     pub cors_allowed_origins: Vec<String>,
+    /// Retry configuration
+    pub retry: RetryConfig,
 }
 
 /// Routing mode configuration
@@ -182,6 +184,30 @@ impl Default for DiscoveryConfig {
     }
 }
 
+/// Retry configuration for request handling
+#[derive(Debug, Clone, Serialize, Deserialize)]
+pub struct RetryConfig {
+    /// Maximum number of retry attempts
+    pub max_retries: u32,
+    /// Initial backoff delay in milliseconds
+    pub initial_backoff_ms: u64,
+    /// Maximum backoff delay in milliseconds
+    pub max_backoff_ms: u64,
+    /// Backoff multiplier for exponential backoff
+    pub backoff_multiplier: f32,
+}
+
+impl Default for RetryConfig {
+    fn default() -> Self {
+        Self {
+            max_retries: 3,
+            initial_backoff_ms: 100,
+            max_backoff_ms: 10000,
+            backoff_multiplier: 2.0,
+        }
+    }
+}
+
 /// Metrics configuration
 #[derive(Debug, Clone, Serialize, Deserialize)]
 pub struct MetricsConfig {
@@ -210,7 +236,7 @@ impl Default for RouterConfig {
             host: "127.0.0.1".to_string(),
             port: 3001,
             max_payload_size: 268_435_456, // 256MB
-            request_timeout_secs: 600,
+            request_timeout_secs: 3600,    // 1 hour to match Python mini LB
             worker_startup_timeout_secs: 300,
             worker_startup_check_interval_secs: 10,
             dp_aware: false,
@@ -222,6 +248,7 @@ impl Default for RouterConfig {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         }
     }
 }
@@ -277,7 +304,7 @@ mod tests {
         assert_eq!(config.host, "127.0.0.1");
         assert_eq!(config.port, 3001);
         assert_eq!(config.max_payload_size, 268_435_456);
-        assert_eq!(config.request_timeout_secs, 600);
+        assert_eq!(config.request_timeout_secs, 3600);
         assert_eq!(config.worker_startup_timeout_secs, 300);
         assert_eq!(config.worker_startup_check_interval_secs, 10);
         assert!(config.discovery.is_none());
@@ -332,6 +359,7 @@ mod tests {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         let json = serde_json::to_string(&config).unwrap();
@@ -759,6 +787,7 @@ mod tests {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         assert!(config.mode.is_pd_mode());
@@ -810,6 +839,7 @@ mod tests {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         assert!(!config.mode.is_pd_mode());
@@ -857,6 +887,7 @@ mod tests {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         assert!(config.has_service_discovery());
diff --git a/sgl-router/src/lib.rs b/sgl-router/src/lib.rs
index a61ba7e45cb3..290fbda9abac 100644
--- a/sgl-router/src/lib.rs
+++ b/sgl-router/src/lib.rs
@@ -19,7 +19,7 @@ pub enum PolicyType {
     Random,
     RoundRobin,
     CacheAware,
-    PowerOfTwo, // Moved from PD-specific, now shared
+    PowerOfTwo,
 }
 
 #[pyclass]
@@ -45,7 +45,6 @@ struct Router {
     selector: HashMap<String, String>,
     service_discovery_port: u16,
     service_discovery_namespace: Option<String>,
-    // PD service discovery fields
     prefill_selector: HashMap<String, String>,
     decode_selector: HashMap<String, String>,
     bootstrap_port_annotation: String,
@@ -53,14 +52,11 @@ struct Router {
     prometheus_host: Option<String>,
     request_timeout_secs: u64,
     request_id_headers: Option<Vec<String>>,
-    // PD mode flag
     pd_disaggregation: bool,
-    // PD-specific fields (only used when pd_disaggregation is true)
     prefill_urls: Option<Vec<(String, Option<u16>)>>,
     decode_urls: Option<Vec<String>>,
     prefill_policy: Option<PolicyType>,
     decode_policy: Option<PolicyType>,
-    // Additional server config fields
     max_concurrent_requests: usize,
     cors_allowed_origins: Vec<String>,
 }
@@ -150,6 +146,7 @@ impl Router {
             request_id_headers: self.request_id_headers.clone(),
             max_concurrent_requests: self.max_concurrent_requests,
             cors_allowed_origins: self.cors_allowed_origins.clone(),
+            retry: config::RetryConfig::default(),
         })
     }
 }
@@ -289,7 +286,6 @@ impl Router {
                 check_interval: std::time::Duration::from_secs(60),
                 port: self.service_discovery_port,
                 namespace: self.service_discovery_namespace.clone(),
-                // PD mode configuration
                 pd_mode: self.pd_disaggregation,
                 prefill_selector: self.prefill_selector.clone(),
                 decode_selector: self.decode_selector.clone(),
diff --git a/sgl-router/src/routers/factory.rs b/sgl-router/src/routers/factory.rs
index 8dc40527a177..e67ce6650c2d 100644
--- a/sgl-router/src/routers/factory.rs
+++ b/sgl-router/src/routers/factory.rs
@@ -50,6 +50,7 @@ impl RouterFactory {
             ctx.router_config.worker_startup_check_interval_secs,
             ctx.router_config.dp_aware,
             ctx.router_config.api_key.clone(),
+            ctx.router_config.retry.clone(),
         )?;
 
         Ok(Box::new(router))
@@ -79,6 +80,7 @@ impl RouterFactory {
             ctx.client.clone(),
             ctx.router_config.worker_startup_timeout_secs,
             ctx.router_config.worker_startup_check_interval_secs,
+            ctx.router_config.retry.clone(),
         )?;
 
         Ok(Box::new(router))
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index b799237a916c..dccb68e8f0e1 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -3,6 +3,7 @@
 
 use super::pd_types::{api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRouterError};
 use super::request_adapter::ToPdRequest;
+use crate::config::types::RetryConfig;
 use crate::core::{HealthChecker, Worker, WorkerFactory, WorkerLoadGuard};
 use crate::metrics::RouterMetrics;
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
@@ -16,6 +17,8 @@ use axum::{
     Json,
 };
 use futures_util::StreamExt;
+use rand::Rng;
+use reqwest::Client;
 use serde_json::Value;
 use std::collections::HashMap;
 use std::sync::{Arc, Mutex, RwLock};
@@ -36,6 +39,7 @@ pub struct PDRouter {
     pub worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
     pub load_monitor_handle: Option<Arc<tokio::task::JoinHandle<()>>>,
     pub client: Client,
+    pub retry_config: RetryConfig,
     _prefill_health_checker: Option<HealthChecker>,
     _decode_health_checker: Option<HealthChecker>,
 }
@@ -180,6 +184,7 @@ impl PDRouter {
         client: Client,
         timeout_secs: u64,
         interval_secs: u64,
+        retry_config: RetryConfig,
     ) -> Result<Self, String> {
         // Convert URLs to Worker trait objects
         let prefill_workers: Vec<Box<dyn Worker>> = prefill_urls
@@ -260,6 +265,7 @@ impl PDRouter {
             worker_loads,
             load_monitor_handle,
             client,
+            retry_config,
             _prefill_health_checker: Some(prefill_health_checker),
             _decode_health_checker: Some(decode_health_checker),
         })
@@ -294,6 +300,38 @@ impl PDRouter {
         }
     }
 
+    // Helper to handle server selection errors
+    fn handle_server_selection_error(error: String) -> Response {
+        error!("Failed to select PD pair error={}", error);
+        RouterMetrics::record_pd_error("server_selection");
+        (
+            StatusCode::SERVICE_UNAVAILABLE,
+            format!("No available servers: {}", error),
+        )
+            .into_response()
+    }
+
+    // Helper to handle bootstrap injection errors
+    fn handle_bootstrap_error(error: impl std::fmt::Display) -> Response {
+        error!("Failed to add bootstrap info error={}", error);
+        RouterMetrics::record_pd_error("bootstrap_injection");
+        (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            format!("Bootstrap injection failed: {}", error),
+        )
+            .into_response()
+    }
+
+    // Helper to handle serialization errors
+    fn handle_serialization_error(error: impl std::fmt::Display) -> Response {
+        error!("Failed to serialize request error={}", error);
+        (
+            StatusCode::INTERNAL_SERVER_ERROR,
+            "Failed to serialize request",
+        )
+            .into_response()
+    }
+
     // Route a typed generate request
     pub async fn route_generate(
         &self,
@@ -320,15 +358,7 @@ impl PDRouter {
         // Select servers
         let (prefill, decode) = match self.select_pd_pair(request_text).await {
             Ok(pair) => pair,
-            Err(e) => {
-                error!("Failed to select PD pair error={}", e);
-                RouterMetrics::record_pd_error("server_selection");
-                return (
-                    StatusCode::SERVICE_UNAVAILABLE,
-                    format!("No available servers: {}", e),
-                )
-                    .into_response();
-            }
+            Err(e) => return Self::handle_server_selection_error(e),
         };
 
         // Log routing decision
@@ -341,26 +371,13 @@ impl PDRouter {
 
         // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!("Failed to add bootstrap info error={}", e);
-            RouterMetrics::record_pd_error("bootstrap_injection");
-            return (
-                StatusCode::INTERNAL_SERVER_ERROR,
-                format!("Bootstrap injection failed: {}", e),
-            )
-                .into_response();
+            return Self::handle_bootstrap_error(e);
         }
 
         // Convert to JSON after bootstrap injection
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
-            Err(e) => {
-                error!("Failed to serialize request error={}", e);
-                return (
-                    StatusCode::INTERNAL_SERVER_ERROR,
-                    "Failed to serialize request",
-                )
-                    .into_response();
-            }
+            Err(e) => return Self::handle_serialization_error(e),
         };
 
         // Execute dual dispatch
@@ -406,15 +423,7 @@ impl PDRouter {
         // Select servers
         let (prefill, decode) = match self.select_pd_pair(request_text).await {
             Ok(pair) => pair,
-            Err(e) => {
-                error!("Failed to select PD pair error={}", e);
-                RouterMetrics::record_pd_error("server_selection");
-                return (
-                    StatusCode::SERVICE_UNAVAILABLE,
-                    format!("No available servers: {}", e),
-                )
-                    .into_response();
-            }
+            Err(e) => return Self::handle_server_selection_error(e),
         };
 
         // Log routing decision
@@ -425,28 +434,14 @@ impl PDRouter {
             decode.url()
         );
 
-        // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!("Failed to add bootstrap info error={}", e);
-            RouterMetrics::record_pd_error("bootstrap_injection");
-            return (
-                StatusCode::INTERNAL_SERVER_ERROR,
-                format!("Bootstrap injection failed: {}", e),
-            )
-                .into_response();
+            return Self::handle_bootstrap_error(e);
         }
 
         // Convert to JSON after bootstrap injection
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
-            Err(e) => {
-                error!("Failed to serialize request error={}", e);
-                return (
-                    StatusCode::INTERNAL_SERVER_ERROR,
-                    "Failed to serialize request",
-                )
-                    .into_response();
-            }
+            Err(e) => return Self::handle_serialization_error(e),
         };
 
         // Execute dual dispatch
@@ -485,15 +480,7 @@ impl PDRouter {
         // Select servers
         let (prefill, decode) = match self.select_pd_pair(request_text).await {
             Ok(pair) => pair,
-            Err(e) => {
-                error!("Failed to select PD pair error={}", e);
-                RouterMetrics::record_pd_error("server_selection");
-                return (
-                    StatusCode::SERVICE_UNAVAILABLE,
-                    format!("No available servers: {}", e),
-                )
-                    .into_response();
-            }
+            Err(e) => return Self::handle_server_selection_error(e),
         };
 
         // Log routing decision
@@ -504,28 +491,14 @@ impl PDRouter {
             decode.url()
         );
 
-        // Add bootstrap info using the trait method
         if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            error!("Failed to add bootstrap info error={}", e);
-            RouterMetrics::record_pd_error("bootstrap_injection");
-            return (
-                StatusCode::INTERNAL_SERVER_ERROR,
-                format!("Bootstrap injection failed: {}", e),
-            )
-                .into_response();
+            return Self::handle_bootstrap_error(e);
         }
 
         // Convert to JSON after bootstrap injection
         let json_with_bootstrap = match serde_json::to_value(&typed_req) {
             Ok(json) => json,
-            Err(e) => {
-                error!("Failed to serialize request error={}", e);
-                return (
-                    StatusCode::INTERNAL_SERVER_ERROR,
-                    "Failed to serialize request",
-                )
-                    .into_response();
-            }
+            Err(e) => return Self::handle_serialization_error(e),
         };
 
         // Execute dual dispatch
@@ -542,7 +515,7 @@ impl PDRouter {
         .await
     }
 
-    // Execute the dual dispatch to prefill and decode servers
+    // Execute the dual dispatch to prefill and decode servers with retry logic
     async fn execute_dual_dispatch(
         &self,
         headers: Option<&HeaderMap>,
@@ -554,37 +527,127 @@ impl PDRouter {
         return_logprob: bool,
         start_time: Instant,
     ) -> Response {
-        // Update load tracking for both workers
-        let _guard = WorkerLoadGuard::new_multi(vec![prefill, decode]);
+        for attempt in 0..self.retry_config.max_retries {
+            if attempt > 0 {
+                // Calculate backoff with exponential growth and jitter
+                let base_backoff = self.retry_config.initial_backoff_ms as f64
+                    * self
+                        .retry_config
+                        .backoff_multiplier
+                        .powf((attempt - 1) as f32) as f64;
+                let backoff_ms = base_backoff.min(self.retry_config.max_backoff_ms as f64) as u64;
+
+                // Add jitter to prevent thundering herd
+                let jitter = {
+                    let mut rng = rand::thread_rng();
+                    rng.gen_range(0..backoff_ms / 2)
+                };
+                let total_backoff = Duration::from_millis(backoff_ms + jitter);
+
+                info!(
+                    "Retrying request (attempt {}/{}) after {:?} backoff",
+                    attempt + 1,
+                    self.retry_config.max_retries,
+                    total_backoff
+                );
 
-        // Build requests using .json() method
-        let mut prefill_request = self
-            .client
-            .post(api_path(prefill.url(), route))
-            .json(&json_request);
+                tokio::time::sleep(total_backoff).await;
+            }
 
-        let mut decode_request = self
-            .client
-            .post(api_path(decode.url(), route))
-            .json(&json_request);
+            debug!(
+                "Executing request attempt {}/{}",
+                attempt + 1,
+                self.retry_config.max_retries
+            );
+            let result = self
+                .execute_dual_dispatch_inner(
+                    headers,
+                    json_request.clone(),
+                    route,
+                    prefill,
+                    decode,
+                    is_stream,
+                    return_logprob,
+                    start_time,
+                )
+                .await;
 
-        // Copy headers from original request (excluding content-type and content-length which are set by .json())
-        if let Some(headers) = headers {
-            for (name, value) in headers.iter() {
-                let name_str = name.as_str();
-                if name_str != "content-type" && name_str != "content-length" {
-                    // Skip headers with non-ASCII values
-                    if value.to_str().is_ok() {
-                        prefill_request = prefill_request.header(name, value);
-                        decode_request = decode_request.header(name, value);
-                    }
-                }
+            // Check if we should retry based on the response status
+            let status = result.status();
+            debug!(
+                "Request attempt {} returned status: {}",
+                attempt + 1,
+                status
+            );
+
+            // Don't retry client errors (4xx) or successful responses
+            if status.is_client_error() || status.is_success() {
+                debug!(
+                    "Returning response with status {} (no retry needed)",
+                    status
+                );
+                return result;
+            }
+
+            // Check if this is the last attempt
+            if attempt == self.retry_config.max_retries - 1 {
+                warn!("Final attempt failed with status {}", status);
+                return result;
+            }
+
+            // Log retry decision for retryable errors
+            if status.is_server_error()
+                || status == StatusCode::BAD_GATEWAY
+                || status == StatusCode::GATEWAY_TIMEOUT
+            {
+                warn!(
+                    "Retryable error status: {} on attempt {}/{}. Will retry.",
+                    status,
+                    attempt + 1,
+                    self.retry_config.max_retries
+                );
+            } else {
+                // Don't retry other statuses
+                debug!("Status {} is not retryable, returning response", status);
+                return result;
             }
         }
 
+        // This should never be reached due to the loop logic, but just in case
+        unreachable!("Retry loop completed without returning")
+    }
+
+    // Inner implementation of dual dispatch (extracted for retry logic)
+    async fn execute_dual_dispatch_inner(
+        &self,
+        headers: Option<&HeaderMap>,
+        json_request: Value,
+        route: &str,
+        prefill: &dyn Worker,
+        decode: &dyn Worker,
+        is_stream: bool,
+        return_logprob: bool,
+        start_time: Instant,
+    ) -> Response {
+        // Update load tracking for both workers
+        let _guard = WorkerLoadGuard::new_multi(vec![prefill, decode]);
+
+        // Build requests with headers
+        let prefill_request =
+            self.build_request_with_headers(prefill.url(), route, &json_request, headers);
+
+        let decode_request =
+            self.build_request_with_headers(decode.url(), route, &json_request, headers);
+
         // Send both requests concurrently
+        debug!(
+            "Sending concurrent requests to prefill={} decode={}",
+            prefill.url(),
+            decode.url()
+        );
         let (prefill_result, decode_result) =
             tokio::join!(prefill_request.send(), decode_request.send());
+        debug!("Received responses from both servers");
 
         // Update metrics
         let duration = start_time.elapsed();
@@ -593,11 +656,22 @@ impl PDRouter {
         RouterMetrics::record_pd_prefill_request(prefill.url());
         RouterMetrics::record_pd_decode_request(decode.url());
 
+        // Process prefill response
+        let (_prefill_status, prefill_body) = match self
+            .process_prefill_response(prefill_result, prefill.url(), return_logprob)
+            .await
+        {
+            Ok(result) => result,
+            Err(error_response) => return error_response,
+        };
+
         // Process decode response
+        debug!("Processing decode response");
         match decode_result {
             Ok(res) => {
                 let status = StatusCode::from_u16(res.status().as_u16())
                     .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
+                debug!("Decode response status: {}", status);
 
                 if !status.is_success() {
                     RouterMetrics::record_pd_decode_error(decode.url());
@@ -618,128 +692,36 @@ impl PDRouter {
                     }
                 }
 
-                // Log prefill errors for debugging
-                if let Err(e) = &prefill_result {
-                    error!(
-                        "Prefill server failed (non-critical) prefill_url={} error={}",
-                        prefill.url(),
-                        e
-                    );
-                    RouterMetrics::record_pd_prefill_error(prefill.url());
-                }
-
                 if is_stream {
                     // Streaming response
-                    if return_logprob {
-                        // Get prefill logprobs for merging
-                        let prefill_logprobs =
-                            match prefill_result {
-                                Ok(prefill_res) => match prefill_res.bytes().await {
-                                    Ok(body) => serde_json::from_slice::<Value>(&body)
-                                        .ok()
-                                        .and_then(|json| {
-                                            json.pointer("/meta_info/input_token_logprobs").cloned()
-                                        }),
-                                    Err(_) => None,
-                                },
-                                Err(_) => None,
-                            };
-
-                        // Stream with logprob merging
-                        let stream = res.bytes_stream();
-                        let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
-
-                        tokio::spawn(async move {
-                            let mut stream = stream;
-                            while let Some(chunk_result) = stream.next().await {
-                                match chunk_result {
-                                    Ok(chunk) => {
-                                        // Try to merge logprobs
-                                        if let Ok(merged) = Self::merge_streaming_logprobs(
-                                            prefill_logprobs.clone(),
-                                            &chunk,
-                                        ) {
-                                            if tx.send(Ok(merged)).is_err() {
-                                                break;
-                                            }
-                                        } else {
-                                            if tx.send(Ok(chunk)).is_err() {
-                                                break;
-                                            }
-                                        }
-                                    }
-                                    Err(e) => {
-                                        let _ = tx.send(Err(format!("Stream error: {}", e)));
-                                        break;
-                                    }
-                                }
-                            }
-                        });
-
-                        let stream = UnboundedReceiverStream::new(rx);
-                        let body = Body::from_stream(stream);
-
-                        let mut response = Response::new(body);
-                        *response.status_mut() = status;
-                        response
-                            .headers_mut()
-                            .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
-                        response
+                    let prefill_logprobs = if return_logprob {
+                        prefill_body
+                            .as_ref()
+                            .and_then(|body| serde_json::from_slice::<Value>(body).ok())
+                            .and_then(|json| {
+                                json.pointer("/meta_info/input_token_logprobs").cloned()
+                            })
                     } else {
-                        // No logprob merging needed
-                        let stream = res.bytes_stream();
-                        let decode_url = decode.url().to_string();
-                        let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
-
-                        tokio::spawn(async move {
-                            let mut stream = stream;
-                            while let Some(chunk) = stream.next().await {
-                                match chunk {
-                                    Ok(bytes) => {
-                                        if tx.send(Ok(bytes)).is_err() {
-                                            break;
-                                        }
-                                    }
-                                    Err(e) => {
-                                        error!(
-                                            "Stream error from decode server {}: {}",
-                                            decode_url, e
-                                        );
-                                        RouterMetrics::record_pd_stream_error(&decode_url);
-                                        let _ = tx.send(Err(format!("Stream error: {}", e)));
-                                        break;
-                                    }
-                                }
-                            }
-                        });
+                        None
+                    };
 
-                        let stream = UnboundedReceiverStream::new(rx);
-                        let body = Body::from_stream(stream);
+                    let decode_url = if !return_logprob {
+                        Some(decode.url().to_string())
+                    } else {
+                        None
+                    };
 
-                        let mut response = Response::new(body);
-                        *response.status_mut() = status;
-                        response
-                            .headers_mut()
-                            .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
-                        response
-                    }
+                    Self::create_streaming_response(
+                        res.bytes_stream(),
+                        status,
+                        prefill_logprobs,
+                        return_logprob,
+                        decode_url,
+                    )
                 } else {
-                    // Non-streaming response
-                    match res.bytes().await {
-                        Ok(decode_body) => {
-                            if return_logprob {
-                                self.merge_logprobs(prefill_result, decode_body, status)
-                                    .await
-                            } else {
-                                (status, decode_body).into_response()
-                            }
-                        }
-                        Err(e) => {
-                            error!("Failed to read decode response: {}", e);
-                            (StatusCode::INTERNAL_SERVER_ERROR, "Failed to read response")
-                                .into_response()
-                        }
-                    }
+                    // Non-streaming response - use helper
+                    self.process_non_streaming_response(res, status, return_logprob, prefill_body)
+                        .await
                 }
             }
             Err(e) => {
@@ -758,62 +740,6 @@ impl PDRouter {
         }
     }
 
-    // Merge logprobs from prefill and decode responses
-    async fn merge_logprobs(
-        &self,
-        prefill_result: Result<reqwest::Response, reqwest::Error>,
-        decode_body: bytes::Bytes,
-        status: StatusCode,
-    ) -> Response {
-        match prefill_result {
-            Ok(prefill_res) => {
-                match prefill_res.bytes().await {
-                    Ok(prefill_body) => {
-                        match (
-                            serde_json::from_slice::<Value>(&prefill_body),
-                            serde_json::from_slice::<Value>(&decode_body),
-                        ) {
-                            (Ok(prefill_json), Ok(mut decode_json)) => {
-                                // Merge input_token_logprobs
-                                if let (Some(prefill_meta), Some(decode_meta)) = (
-                                    prefill_json.get("meta_info"),
-                                    decode_json.get_mut("meta_info"),
-                                ) {
-                                    if let (Some(prefill_logprobs), Some(decode_logprobs)) = (
-                                        prefill_meta.get("input_token_logprobs"),
-                                        decode_meta.get_mut("input_token_logprobs"),
-                                    ) {
-                                        if let (Some(p_arr), Some(d_arr)) = (
-                                            prefill_logprobs.as_array(),
-                                            decode_logprobs.as_array(),
-                                        ) {
-                                            let mut merged = p_arr.clone();
-                                            merged.extend(d_arr.clone());
-                                            decode_meta["input_token_logprobs"] =
-                                                Value::Array(merged);
-                                        }
-                                    }
-                                }
-                                let mut response = Json(decode_json).into_response();
-                                *response.status_mut() = status;
-                                response
-                            }
-                            _ => {
-                                warn!("Failed to parse responses for logprob merging");
-                                (status, decode_body).into_response()
-                            }
-                        }
-                    }
-                    Err(e) => {
-                        warn!("Failed to read prefill response: {}", e);
-                        (status, decode_body).into_response()
-                    }
-                }
-            }
-            Err(_) => (status, decode_body).into_response(),
-        }
-    }
-
     // Select a pair of prefill and decode servers
     async fn select_pd_pair(
         &self,
@@ -900,6 +826,229 @@ impl PDRouter {
         }
     }
 
+    // Helper to create a streaming response
+    fn create_streaming_response(
+        stream: impl futures_util::Stream<Item = Result<bytes::Bytes, reqwest::Error>> + Send + 'static,
+        status: StatusCode,
+        prefill_logprobs: Option<Value>,
+        return_logprob: bool,
+        decode_url: Option<String>,
+    ) -> Response {
+        let (tx, rx) = tokio::sync::mpsc::unbounded_channel();
+
+        tokio::spawn(async move {
+            futures_util::pin_mut!(stream);
+            while let Some(chunk_result) = stream.next().await {
+                match chunk_result {
+                    Ok(chunk) => {
+                        let result = if return_logprob && prefill_logprobs.is_some() {
+                            // Try to merge logprobs
+                            Self::merge_streaming_logprobs(prefill_logprobs.clone(), &chunk)
+                                .unwrap_or(chunk)
+                        } else {
+                            chunk
+                        };
+
+                        if tx.send(Ok(result)).is_err() {
+                            break;
+                        }
+                    }
+                    Err(e) => {
+                        if let Some(ref url) = decode_url {
+                            error!("Stream error from decode server {}: {}", url, e);
+                            RouterMetrics::record_pd_stream_error(url);
+                        }
+                        let _ = tx.send(Err(format!("Stream error: {}", e)));
+                        break;
+                    }
+                }
+            }
+        });
+
+        let stream = UnboundedReceiverStream::new(rx);
+        let body = Body::from_stream(stream);
+
+        let mut response = Response::new(body);
+        *response.status_mut() = status;
+        response
+            .headers_mut()
+            .insert(CONTENT_TYPE, HeaderValue::from_static("text/event-stream"));
+        response
+    }
+
+    // Helper to process non-streaming decode response with logprob merging
+    async fn process_non_streaming_response(
+        &self,
+        res: reqwest::Response,
+        status: StatusCode,
+        return_logprob: bool,
+        prefill_body: Option<bytes::Bytes>,
+    ) -> Response {
+        match res.bytes().await {
+            Ok(decode_body) => {
+                if return_logprob && prefill_body.is_some() {
+                    // Merge logprobs from prefill and decode
+                    let prefill_body = prefill_body.as_ref().unwrap();
+                    match (
+                        serde_json::from_slice::<Value>(prefill_body),
+                        serde_json::from_slice::<Value>(&decode_body),
+                    ) {
+                        (Ok(prefill_json), Ok(mut decode_json)) => {
+                            // Use helper to merge logprobs
+                            Self::merge_logprobs_in_json(&prefill_json, &mut decode_json);
+
+                            // Return merged response
+                            match serde_json::to_vec(&decode_json) {
+                                Ok(body) => (status, body).into_response(),
+                                Err(e) => {
+                                    error!("Failed to serialize merged response: {}", e);
+                                    (status, decode_body).into_response()
+                                }
+                            }
+                        }
+                        _ => {
+                            // If parsing fails, just return decode response
+                            warn!("Failed to parse responses for logprob merging");
+                            (status, decode_body).into_response()
+                        }
+                    }
+                } else {
+                    (status, decode_body).into_response()
+                }
+            }
+            Err(e) => {
+                error!("Failed to read decode response: {}", e);
+                (StatusCode::INTERNAL_SERVER_ERROR, "Failed to read response").into_response()
+            }
+        }
+    }
+
+    // Helper to process prefill response and extract body if needed for logprobs
+    async fn process_prefill_response(
+        &self,
+        prefill_result: Result<reqwest::Response, reqwest::Error>,
+        prefill_url: &str,
+        return_logprob: bool,
+    ) -> Result<(StatusCode, Option<bytes::Bytes>), Response> {
+        // Check prefill result first - it's critical for disaggregated mode
+        let prefill_response = match prefill_result {
+            Ok(response) => response,
+            Err(e) => {
+                RouterMetrics::record_pd_prefill_error(prefill_url);
+                error!(
+                    "Prefill server failed (CRITICAL) prefill_url={} error={}. Decode will timeout without prefill KV cache.",
+                    prefill_url,
+                    e
+                );
+
+                // Return error immediately - don't wait for decode to timeout
+                return Err((
+                    StatusCode::BAD_GATEWAY,
+                    format!(
+                        "Prefill server error: {}. This will cause decode timeout.",
+                        e
+                    ),
+                )
+                    .into_response());
+            }
+        };
+
+        let prefill_status = StatusCode::from_u16(prefill_response.status().as_u16())
+            .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
+
+        // Check if prefill succeeded
+        if !prefill_status.is_success() {
+            RouterMetrics::record_pd_prefill_error(prefill_url);
+
+            // Get error body from prefill
+            let error_msg = prefill_response
+                .text()
+                .await
+                .unwrap_or_else(|_| "Unknown prefill error".to_string());
+
+            error!(
+                "Prefill server returned error status prefill_url={} status={} body={}",
+                prefill_url, prefill_status, error_msg
+            );
+
+            return Err((
+                prefill_status,
+                format!("Prefill server error ({}): {}", prefill_status, error_msg),
+            )
+                .into_response());
+        }
+
+        // Read prefill body if needed for logprob merging
+        let prefill_body = if return_logprob {
+            match prefill_response.bytes().await {
+                Ok(body) => Some(body),
+                Err(e) => {
+                    warn!("Failed to read prefill response body for logprobs: {}", e);
+                    None
+                }
+            }
+        } else {
+            // For non-logprob requests, just consume the response without storing
+            debug!("Consuming prefill response body (non-logprob request)");
+            match prefill_response.bytes().await {
+                Ok(_) => debug!("Prefill response consumed successfully"),
+                Err(e) => warn!("Error consuming prefill response: {}", e),
+            }
+            None
+        };
+
+        Ok((prefill_status, prefill_body))
+    }
+
+    // Helper to build a request with headers copied from the original request
+    fn build_request_with_headers(
+        &self,
+        url: &str,
+        route: &str,
+        json_request: &Value,
+        headers: Option<&HeaderMap>,
+    ) -> reqwest::RequestBuilder {
+        let mut request = self.client.post(api_path(url, route)).json(json_request);
+
+        // Copy headers from original request (excluding content-type and content-length which are set by .json())
+        if let Some(headers) = headers {
+            for (name, value) in headers.iter() {
+                let name_str = name.as_str();
+                if name_str != "content-type" && name_str != "content-length" {
+                    // Skip headers with non-ASCII values
+                    if value.to_str().is_ok() {
+                        request = request.header(name, value);
+                    }
+                }
+            }
+        }
+
+        request
+    }
+
+    // Helper to merge logprobs from prefill and decode responses
+    fn merge_logprobs_in_json(prefill_json: &Value, decode_json: &mut Value) -> bool {
+        if let (Some(prefill_meta), Some(decode_meta)) = (
+            prefill_json.get("meta_info"),
+            decode_json.get_mut("meta_info"),
+        ) {
+            if let (Some(prefill_logprobs), Some(decode_logprobs)) = (
+                prefill_meta.get("input_token_logprobs"),
+                decode_meta.get_mut("input_token_logprobs"),
+            ) {
+                if let (Some(prefill_arr), Some(decode_arr)) =
+                    (prefill_logprobs.as_array(), decode_logprobs.as_array_mut())
+                {
+                    let mut merged = prefill_arr.clone();
+                    merged.extend(decode_arr.clone());
+                    decode_meta["input_token_logprobs"] = Value::Array(merged);
+                    return true;
+                }
+            }
+        }
+        false
+    }
+
     // Simple helper to merge logprobs in streaming responses
     fn merge_streaming_logprobs(
         prefill_logprobs: Option<Value>,
@@ -1316,7 +1465,6 @@ impl PDRouter {
 
 use crate::routers::{RouterTrait, WorkerManagement};
 use async_trait::async_trait;
-use reqwest::Client;
 
 #[async_trait]
 impl WorkerManagement for PDRouter {
@@ -1558,6 +1706,7 @@ mod tests {
             worker_loads: Arc::new(tokio::sync::watch::channel(HashMap::new()).1),
             load_monitor_handle: None,
             client: Client::new(),
+            retry_config: RetryConfig::default(),
             _prefill_health_checker: None,
             _decode_health_checker: None,
         }
diff --git a/sgl-router/src/routers/router.rs b/sgl-router/src/routers/router.rs
index 1a6ddeea4685..933728a4fe79 100644
--- a/sgl-router/src/routers/router.rs
+++ b/sgl-router/src/routers/router.rs
@@ -1,3 +1,4 @@
+use crate::config::types::RetryConfig;
 use crate::core::{HealthChecker, Worker, WorkerFactory};
 use crate::metrics::RouterMetrics;
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
@@ -11,6 +12,7 @@ use axum::{
     Json,
 };
 use futures_util::StreamExt;
+use reqwest::Client;
 use std::collections::HashMap;
 use std::sync::{Arc, RwLock};
 use std::thread;
@@ -39,6 +41,7 @@ pub struct Router {
     interval_secs: u64,
     dp_aware: bool,
     api_key: Option<String>,
+    retry_config: RetryConfig,
     _worker_loads: Arc<tokio::sync::watch::Receiver<HashMap<String, isize>>>,
     _load_monitor_handle: Option<Arc<tokio::task::JoinHandle<()>>>,
     _health_checker: Option<HealthChecker>,
@@ -54,6 +57,7 @@ impl Router {
         interval_secs: u64,
         dp_aware: bool,
         api_key: Option<String>,
+        retry_config: RetryConfig,
     ) -> Result<Self, String> {
         // Update active workers gauge
         RouterMetrics::set_active_workers(worker_urls.len());
@@ -120,6 +124,7 @@ impl Router {
             interval_secs,
             dp_aware,
             api_key,
+            retry_config,
             _worker_loads: worker_loads,
             _load_monitor_handle: load_monitor_handle,
             _health_checker: Some(health_checker),
@@ -141,6 +146,12 @@ impl Router {
         timeout_secs: u64,
         interval_secs: u64,
     ) -> Result<(), String> {
+        if worker_urls.is_empty() {
+            return Err(
+                "Timeout waiting for workers to become healthy: no workers provided".to_string(),
+            );
+        }
+
         let start_time = std::time::Instant::now();
         let sync_client = reqwest::blocking::Client::builder()
             .timeout(Duration::from_secs(timeout_secs))
@@ -365,11 +376,13 @@ impl Router {
     ) -> Response {
         // Handle retries like the original implementation
         let start = Instant::now();
-        const MAX_REQUEST_RETRIES: u32 = 3;
-        const MAX_TOTAL_RETRIES: u32 = 6;
+        // Use retry config for per-worker retries
+        let max_request_retries = self.retry_config.max_retries;
+        // Total retries across all workers (2x to allow trying multiple workers)
+        let max_total_retries = self.retry_config.max_retries * 2;
         let mut total_retries = 0;
 
-        while total_retries < MAX_TOTAL_RETRIES {
+        while total_retries < max_total_retries {
             // Extract routing text directly from typed request
             let text = typed_req.extract_text_for_routing();
             let is_stream = typed_req.is_stream();
@@ -379,7 +392,7 @@ impl Router {
             let mut request_retries = 0;
 
             // Try the same worker multiple times
-            while request_retries < MAX_REQUEST_RETRIES {
+            while request_retries < max_request_retries {
                 if total_retries >= 1 {
                     info!("Retrying request after {} failed attempts", total_retries);
                     RouterMetrics::record_retry(route);
@@ -429,13 +442,13 @@ impl Router {
                     route,
                     worker_url,
                     request_retries + 1,
-                    MAX_REQUEST_RETRIES
+                    max_request_retries
                 );
 
                 request_retries += 1;
                 total_retries += 1;
 
-                if request_retries == MAX_REQUEST_RETRIES {
+                if request_retries == max_request_retries {
                     warn!(
                         "Removing failed worker after typed request failures worker_url={}",
                         worker_url
@@ -1003,7 +1016,6 @@ impl Router {
 }
 
 use async_trait::async_trait;
-use reqwest::Client;
 
 #[async_trait]
 impl WorkerManagement for Router {
@@ -1210,6 +1222,7 @@ mod tests {
             dp_aware: false,
             api_key: None,
             client: Client::new(),
+            retry_config: RetryConfig::default(),
             _worker_loads: Arc::new(rx),
             _load_monitor_handle: None,
             _health_checker: None,
@@ -1237,8 +1250,10 @@ mod tests {
 
     #[test]
     fn test_wait_for_healthy_workers_empty_list() {
+        // Empty list will timeout as there are no workers to check
         let result = Router::wait_for_healthy_workers(&[], 1, 1);
-        assert!(result.is_ok());
+        assert!(result.is_err());
+        assert!(result.unwrap_err().contains("Timeout"));
     }
 
     #[test]
diff --git a/sgl-router/src/service_discovery.rs b/sgl-router/src/service_discovery.rs
index 482952bf767d..32c14d8681ba 100644
--- a/sgl-router/src/service_discovery.rs
+++ b/sgl-router/src/service_discovery.rs
@@ -580,8 +580,17 @@ mod tests {
         use crate::routers::router::Router;
 
         let policy = PolicyFactory::create_from_config(&PolicyConfig::Random);
-        let router =
-            Router::new(vec![], policy, reqwest::Client::new(), 5, 1, false, None).unwrap();
+        let router = Router::new(
+            vec![],
+            policy,
+            reqwest::Client::new(),
+            5,
+            1,
+            false,
+            None,
+            crate::config::types::RetryConfig::default(),
+        )
+        .unwrap();
         Arc::new(router) as Arc<dyn RouterTrait>
     }
 
diff --git a/sgl-router/tests/api_endpoints_test.rs b/sgl-router/tests/api_endpoints_test.rs
index 6beda2b7ae9e..a4115926aacf 100644
--- a/sgl-router/tests/api_endpoints_test.rs
+++ b/sgl-router/tests/api_endpoints_test.rs
@@ -8,7 +8,7 @@ use axum::{
 use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
 use reqwest::Client;
 use serde_json::json;
-use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::config::{PolicyConfig, RetryConfig, RouterConfig, RoutingMode};
 use sglang_router_rs::routers::{RouterFactory, RouterTrait};
 use std::sync::Arc;
 use tower::ServiceExt;
@@ -44,6 +44,7 @@ impl TestContext {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         Self::new_with_config(config, worker_configs).await
@@ -1085,6 +1086,7 @@ mod error_tests {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         let ctx = TestContext::new_with_config(
@@ -1431,6 +1433,7 @@ mod pd_mode_tests {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         // Create app context
@@ -1584,6 +1587,7 @@ mod request_id_tests {
             request_id_headers: Some(vec!["custom-id".to_string(), "trace-id".to_string()]),
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         let ctx = TestContext::new_with_config(
diff --git a/sgl-router/tests/request_formats_test.rs b/sgl-router/tests/request_formats_test.rs
index a3cd12edb998..4e9e1562d1b7 100644
--- a/sgl-router/tests/request_formats_test.rs
+++ b/sgl-router/tests/request_formats_test.rs
@@ -3,7 +3,7 @@ mod common;
 use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType};
 use reqwest::Client;
 use serde_json::json;
-use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::config::{PolicyConfig, RetryConfig, RouterConfig, RoutingMode};
 use sglang_router_rs::routers::{RouterFactory, RouterTrait};
 use std::sync::Arc;
 
@@ -35,6 +35,7 @@ impl TestContext {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         let mut workers = Vec::new();
diff --git a/sgl-router/tests/streaming_tests.rs b/sgl-router/tests/streaming_tests.rs
index 2ef2e0929c7d..dcf0ffc93cc3 100644
--- a/sgl-router/tests/streaming_tests.rs
+++ b/sgl-router/tests/streaming_tests.rs
@@ -4,7 +4,7 @@ use common::mock_worker::{HealthStatus, MockWorker, MockWorkerConfig, WorkerType
 use futures_util::StreamExt;
 use reqwest::Client;
 use serde_json::json;
-use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+use sglang_router_rs::config::{PolicyConfig, RetryConfig, RouterConfig, RoutingMode};
 use sglang_router_rs::routers::{RouterFactory, RouterTrait};
 use std::sync::Arc;
 
@@ -36,6 +36,7 @@ impl TestContext {
             request_id_headers: None,
             max_concurrent_requests: 64,
             cors_allowed_origins: vec![],
+            retry: RetryConfig::default(),
         };
 
         let mut workers = Vec::new();
diff --git a/sgl-router/tests/test_pd_routing.rs b/sgl-router/tests/test_pd_routing.rs
index d0877eeb83b3..20b37aaa8203 100644
--- a/sgl-router/tests/test_pd_routing.rs
+++ b/sgl-router/tests/test_pd_routing.rs
@@ -2,7 +2,7 @@
 mod test_pd_routing {
     use rand::Rng;
     use serde_json::json;
-    use sglang_router_rs::config::{PolicyConfig, RouterConfig, RoutingMode};
+    use sglang_router_rs::config::{PolicyConfig, RetryConfig, RouterConfig, RoutingMode};
     use sglang_router_rs::core::{WorkerFactory, WorkerType};
     use sglang_router_rs::routers::pd_types::get_hostname;
     use sglang_router_rs::routers::pd_types::PDSelectionPolicy;
@@ -178,6 +178,7 @@ mod test_pd_routing {
                 request_id_headers: None,
                 max_concurrent_requests: 64,
                 cors_allowed_origins: vec![],
+                retry: RetryConfig::default(),
             };
 
             // Router creation will fail due to health checks, but config should be valid

From 1ea94d3b926c06224ffa14a2d5da144e9b4d6d34 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 4 Aug 2025 21:59:18 -0700
Subject: [PATCH 355/396] chore: upgrade flashinfer v0.2.9 (#8780)

---
 python/pyproject.toml                   | 4 ++--
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 00f5616e5f48..ad4aef5aacd6 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -60,7 +60,7 @@ srt = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.9rc2",
+    "flashinfer_python==0.2.9",
 ]
 
 blackwell = [
@@ -71,7 +71,7 @@ blackwell = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.9rc2",
+    "flashinfer_python==0.2.9",
     "tiktoken",
 ]
 
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index c2885fa787c9..a8ef88b7642b 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -641,7 +641,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if server_args.attention_backend == "flashinfer":
         assert_pkg_version(
             "flashinfer_python",
-            "0.2.9rc2",
+            "0.2.9",
             "Please uninstall the old version and "
             "reinstall the latest version by following the instructions "
             "at https://docs.flashinfer.ai/installation.html.",

From b01eeb80f8406cba569af5deb40f394293f9950d Mon Sep 17 00:00:00 2001
From: Shu Wang <shuw@nvidia.com>
Date: Tue, 5 Aug 2025 00:01:14 -0500
Subject: [PATCH 356/396] [NVIDIA]Fix local_num_experts for EP (#8779)

---
 python/sglang/srt/layers/moe/fused_moe_triton/layer.py  | 3 ++-
 python/sglang/srt/layers/quantization/modelopt_quant.py | 3 ++-
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 74558fd9b3ec..c88aa4d2faa7 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -200,7 +200,8 @@ def __init__(
         self.quant_config = quant_config
         self.quant_method.create_weights(
             layer=self,
-            num_experts=self.num_local_experts,
+            num_experts=self.num_experts,
+            num_local_experts=self.num_local_experts,
             hidden_size=hidden_size,
             # FIXME: figure out which intermediate_size to use
             intermediate_size=self.intermediate_size_per_partition,
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index fca0ee38b9c0..64df434ae149 100755
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -752,6 +752,7 @@ def create_weights(
         self,
         layer: torch.nn.Module,
         num_experts: int,
+        num_local_experts: int,
         hidden_size: int,
         intermediate_size_per_partition: int,
         params_dtype: torch.dtype,
@@ -765,7 +766,7 @@ def create_weights(
 
         # TODO(ch-wan): check if this is needed
         layer.num_experts = num_experts
-        layer.num_local_experts = num_experts
+        layer.num_local_experts = num_local_experts
         layer.intermediate_size_per_partition = intermediate_size_per_partition
         layer.params_dtype = params_dtype
         layer.quant_config = self.quant_config

From 873f384a5192a56c47de2fee3c3ad1f48bafbb56 Mon Sep 17 00:00:00 2001
From: Yuhao Yao <37280700+yuhyao@users.noreply.github.com>
Date: Tue, 5 Aug 2025 14:01:38 +0800
Subject: [PATCH 357/396] [feat] Add detail in image_data (#8596)

---
 python/sglang/srt/conversation.py         | 14 +++++++++-----
 python/sglang/srt/jinja_template_utils.py |  9 ++++++++-
 python/sglang/srt/managers/io_struct.py   |  3 ++-
 python/sglang/srt/utils.py                | 15 +++++++++++++--
 test/srt/test_jinja_template_utils.py     |  2 +-
 5 files changed, 33 insertions(+), 10 deletions(-)

diff --git a/python/sglang/srt/conversation.py b/python/sglang/srt/conversation.py
index 1d1340a1d39a..84cb1db36b53 100644
--- a/python/sglang/srt/conversation.py
+++ b/python/sglang/srt/conversation.py
@@ -30,8 +30,10 @@
 from enum import IntEnum, auto
 from typing import Callable, Dict, List, Optional, Tuple, Union
 
+from typing_extensions import Literal
+
 from sglang.srt.entrypoints.openai.protocol import ChatCompletionRequest
-from sglang.srt.utils import read_system_prompt_from_file
+from sglang.srt.utils import ImageData, read_system_prompt_from_file
 
 
 class SeparatorStyle(IntEnum):
@@ -91,7 +93,7 @@ class Conversation:
     video_token: str = "<video>"
     audio_token: str = "<audio>"
 
-    image_data: Optional[List[str]] = None
+    image_data: Optional[List[ImageData]] = None
     video_data: Optional[List[str]] = None
     modalities: Optional[List[str]] = None
     stop_token_ids: Optional[int] = None
@@ -381,9 +383,9 @@ def append_message(self, role: str, message: str):
         """Append a new message."""
         self.messages.append([role, message])
 
-    def append_image(self, image: str):
+    def append_image(self, image: str, detail: Literal["auto", "low", "high"]):
         """Append a new image."""
-        self.image_data.append(image)
+        self.image_data.append(ImageData(url=image, detail=detail))
 
     def append_video(self, video: str):
         """Append a new video."""
@@ -627,7 +629,9 @@ def generate_chat_conv(
                             real_content = image_token + real_content
                         else:
                             real_content += image_token
-                        conv.append_image(content.image_url.url)
+                        conv.append_image(
+                            content.image_url.url, content.image_url.detail
+                        )
                     elif content.type == "video_url":
                         real_content += video_token
                         conv.append_video(content.video_url.url)
diff --git a/python/sglang/srt/jinja_template_utils.py b/python/sglang/srt/jinja_template_utils.py
index ac55699dcadf..e23aa92260bd 100644
--- a/python/sglang/srt/jinja_template_utils.py
+++ b/python/sglang/srt/jinja_template_utils.py
@@ -9,6 +9,8 @@
 import jinja2
 import transformers.utils.chat_template_utils as hf_chat_utils
 
+from sglang.srt.utils import ImageData
+
 logger = logging.getLogger(__name__)
 
 # ============================================================================
@@ -140,7 +142,12 @@ def process_content_for_template_format(
                 chunk_type = chunk.get("type")
 
                 if chunk_type == "image_url":
-                    image_data.append(chunk["image_url"]["url"])
+                    image_data.append(
+                        ImageData(
+                            url=chunk["image_url"]["url"],
+                            detail=chunk["image_url"].get("detail", "auto"),
+                        )
+                    )
                     if chunk.get("modalities"):
                         modalities.append(chunk.get("modalities"))
                     # Normalize to simple 'image' type for template compatibility
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index db54d1305bf7..c1c5f0735436 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -26,6 +26,7 @@
 from sglang.srt.managers.schedule_batch import BaseFinishReason
 from sglang.srt.multimodal.mm_utils import has_valid_data
 from sglang.srt.sampling.sampling_params import SamplingParams
+from sglang.srt.utils import ImageData
 
 # Handle serialization of Image for pydantic
 if TYPE_CHECKING:
@@ -45,7 +46,7 @@ class SessionParams:
 
 # Type definitions for multimodal input data
 # Individual data item types for each modality
-ImageDataInputItem = Union[Image, str, Dict]
+ImageDataInputItem = Union[Image, str, ImageData, Dict]
 AudioDataInputItem = Union[str, Dict]
 VideoDataInputItem = Union[str, Dict]
 # Union type for any multimodal data item
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 055c0b115daf..2772cd119f6c 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -44,6 +44,7 @@
 import warnings
 from collections import OrderedDict, defaultdict
 from contextlib import contextmanager
+from dataclasses import dataclass
 from functools import lru_cache
 from importlib.metadata import PackageNotFoundError, version
 from importlib.util import find_spec
@@ -84,6 +85,7 @@
 from torch.profiler import ProfilerActivity, profile, record_function
 from torch.utils._contextlib import _DecoratorContextManager
 from triton.runtime.cache import FileCacheManager
+from typing_extensions import Literal
 
 from sglang.srt.metrics.func_timer import enable_func_timer
 
@@ -736,9 +738,18 @@ def load_audio(
     return audio
 
 
+@dataclass
+class ImageData:
+    url: str
+    detail: Optional[Literal["auto", "low", "high"]] = "auto"
+
+
 def load_image(
-    image_file: Union[Image.Image, str, bytes],
+    image_file: Union[Image.Image, str, ImageData, bytes],
 ) -> tuple[Image.Image, tuple[int, int]]:
+    if isinstance(image_file, ImageData):
+        image_file = image_file.url
+
     image = image_size = None
     if isinstance(image_file, Image.Image):
         image = image_file
@@ -762,7 +773,7 @@ def load_image(
     elif isinstance(image_file, str):
         image = Image.open(BytesIO(pybase64.b64decode(image_file, validate=True)))
     else:
-        raise ValueError(f"Invalid image: {image}")
+        raise ValueError(f"Invalid image: {image_file}")
 
     return image, image_size
 
diff --git a/test/srt/test_jinja_template_utils.py b/test/srt/test_jinja_template_utils.py
index b0ff18def990..7764659d27bc 100644
--- a/test/srt/test_jinja_template_utils.py
+++ b/test/srt/test_jinja_template_utils.py
@@ -85,7 +85,7 @@ def test_process_content_openai_format(self):
 
         # Check that image_data was extracted
         self.assertEqual(len(image_data), 1)
-        self.assertEqual(image_data[0], "http://example.com/image.jpg")
+        self.assertEqual(image_data[0].url, "http://example.com/image.jpg")
 
         # Check that content was normalized
         expected_content = [

From 5e91fed1c593c01c9885c376909d7b2f2f2e9ccf Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Mon, 4 Aug 2025 23:30:43 -0700
Subject: [PATCH 358/396] Revert "[NVIDIA]Fix local_num_experts for EP (#8779)"
 (#8797)

---
 python/sglang/srt/layers/moe/fused_moe_triton/layer.py  | 3 +--
 python/sglang/srt/layers/quantization/modelopt_quant.py | 3 +--
 2 files changed, 2 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index c88aa4d2faa7..74558fd9b3ec 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -200,8 +200,7 @@ def __init__(
         self.quant_config = quant_config
         self.quant_method.create_weights(
             layer=self,
-            num_experts=self.num_experts,
-            num_local_experts=self.num_local_experts,
+            num_experts=self.num_local_experts,
             hidden_size=hidden_size,
             # FIXME: figure out which intermediate_size to use
             intermediate_size=self.intermediate_size_per_partition,
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index 64df434ae149..fca0ee38b9c0 100755
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -752,7 +752,6 @@ def create_weights(
         self,
         layer: torch.nn.Module,
         num_experts: int,
-        num_local_experts: int,
         hidden_size: int,
         intermediate_size_per_partition: int,
         params_dtype: torch.dtype,
@@ -766,7 +765,7 @@ def create_weights(
 
         # TODO(ch-wan): check if this is needed
         layer.num_experts = num_experts
-        layer.num_local_experts = num_local_experts
+        layer.num_local_experts = num_experts
         layer.intermediate_size_per_partition = intermediate_size_per_partition
         layer.params_dtype = params_dtype
         layer.quant_config = self.quant_config

From 194561f27a8422c2b844cafeec2b386bccbaf87c Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 02:33:47 -0700
Subject: [PATCH 359/396] feat: support sgl-kernel cu129 (#8800)

---
 .github/workflows/pr-test-sgl-kernel.yml |  4 +-
 .github/workflows/release-whl-kernel.yml | 83 +++++++++++++++++++++++-
 sgl-kernel/build.sh                      |  5 +-
 3 files changed, 87 insertions(+), 5 deletions(-)

diff --git a/.github/workflows/pr-test-sgl-kernel.yml b/.github/workflows/pr-test-sgl-kernel.yml
index b81859ad4e2b..59eabcb60089 100644
--- a/.github/workflows/pr-test-sgl-kernel.yml
+++ b/.github/workflows/pr-test-sgl-kernel.yml
@@ -39,7 +39,7 @@ jobs:
           - python-version: '3.9'
             cuda-version: '12.4'
           - python-version: '3.9'
-            cuda-version: '12.8'
+            cuda-version: '12.9'
     name: Build Wheel (CUDA ${{ matrix.cuda-version }})
     steps:
       - name: Cleanup
@@ -56,7 +56,7 @@ jobs:
           python-version: ${{ matrix.python-version }}
 
       - name: Build wheel for Python ${{ matrix.python-version }} and CUDA ${{ matrix.cuda-version }}
-        if: github.event_name != 'push' || (matrix.cuda-version != '11.8' && matrix.cuda-version != '12.8')
+        if: github.event_name != 'push' || (matrix.cuda-version != '11.8' && matrix.cuda-version != '12.9')
         run: |
           cd sgl-kernel
           chmod +x ./build.sh
diff --git a/.github/workflows/release-whl-kernel.yml b/.github/workflows/release-whl-kernel.yml
index d80afe5cf679..599f2563ab4d 100644
--- a/.github/workflows/release-whl-kernel.yml
+++ b/.github/workflows/release-whl-kernel.yml
@@ -46,10 +46,89 @@ jobs:
           pip install twine
           python3 -m twine upload dist/* -u __token__ -p ${{ secrets.PYPI_TOKEN }}
 
-  build-cu128:
+  build-cu129:
     if: github.repository == 'sgl-project/sglang'
     needs: build-cu124
     runs-on: sgl-kernel-release-node
+    strategy:
+      matrix:
+        python-version: ['3.9']
+        cuda-version: ['12.9']
+    steps:
+      - uses: actions/checkout@v4
+        with:
+          submodules: 'recursive'
+
+      - name: Set up Python ${{ matrix.python-version }}
+        uses: actions/setup-python@v5
+        with:
+          python-version: ${{ matrix.python-version }}
+
+      - name: Build wheels
+        run: |
+          cd sgl-kernel
+          chmod +x ./build.sh
+          ./build.sh "${{ matrix.python-version }}" "${{ matrix.cuda-version }}"
+
+      - name: Upload artifacts
+        uses: actions/upload-artifact@v4
+        with:
+          name: wheel-python${{ matrix.python-version }}-cuda${{ matrix.cuda-version }}
+          path: sgl-kernel/dist/*
+
+  release-cu129:
+    needs: build-cu129
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v4
+
+      - name: Download artifacts
+        uses: actions/download-artifact@v4
+        with:
+          path: sgl-kernel/dist/
+          merge-multiple: true
+          pattern: wheel-*
+
+      - name: Set tag name
+        id: set_tag_name
+        run: |
+          if [ -z "${{ inputs.tag_name }}" ]; then
+            TAG_NAME="v$(cat sgl-kernel/python/sgl_kernel/version.py | cut -d'"' -f2)"
+            echo "tag_name=$TAG_NAME" >> $GITHUB_OUTPUT
+          else
+            echo "tag_name=${{ inputs.tag_name }}" >> $GITHUB_OUTPUT
+          fi
+
+      - name: Release
+        uses: softprops/action-gh-release@v2
+        with:
+          tag_name: ${{ steps.set_tag_name.outputs.tag_name }}
+          repository: sgl-project/whl
+          token: ${{ secrets.WHL_TOKEN }}
+          files: |
+            sgl-kernel/dist/*
+
+      - name: Clone wheel index
+        run: git clone https://oauth2:${WHL_TOKEN}@github.com/sgl-project/whl.git sgl-whl
+        env:
+          WHL_TOKEN: ${{ secrets.WHL_TOKEN }}
+
+      - name: Update wheel index
+        run: python3 scripts/update_kernel_whl_index.py --cuda 129
+
+      - name: Push wheel index
+        run: |
+          cd sgl-whl
+          git config --local user.name "github-actions[bot]"
+          git config --local user.email "41898282+github-actions[bot]@users.noreply.github.com"
+          git add -A
+          git commit -m "update whl index"
+          git push
+
+  build-cu128:
+    if: github.repository == 'sgl-project/sglang'
+    needs: build-cu129
+    runs-on: sgl-kernel-release-node
     strategy:
       matrix:
         python-version: ['3.9']
@@ -76,7 +155,7 @@ jobs:
           name: wheel-python${{ matrix.python-version }}-cuda${{ matrix.cuda-version }}
           path: sgl-kernel/dist/*
 
-  release:
+  release-cu128:
     needs: build-cu128
     runs-on: ubuntu-latest
     steps:
diff --git a/sgl-kernel/build.sh b/sgl-kernel/build.sh
index 4e18c1743c0b..b8db578b64d6 100755
--- a/sgl-kernel/build.sh
+++ b/sgl-kernel/build.sh
@@ -21,7 +21,10 @@ else
    BUILDER_NAME="pytorch/manylinux2_28-builder"
 fi
 
-if [ ${CUDA_VERSION} = "12.8" ]; then
+if [ ${CUDA_VERSION} = "12.9" ]; then
+   DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
+   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu129"
+elif [ ${CUDA_VERSION} = "12.8" ]; then
    DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
    TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu128"
 else

From 75df31b60ef0d26f5d4c5e0d98e5cdbe1ad8c0dd Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 02:35:20 -0700
Subject: [PATCH 360/396] chore: bump sgl-kernel v0.3.2 (#8802)

---
 sgl-kernel/pyproject.toml               | 2 +-
 sgl-kernel/pyproject_cpu.toml           | 2 +-
 sgl-kernel/pyproject_rocm.toml          | 2 +-
 sgl-kernel/python/sgl_kernel/version.py | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/sgl-kernel/pyproject.toml b/sgl-kernel/pyproject.toml
index 36b335f94956..8c8313e36774 100644
--- a/sgl-kernel/pyproject.toml
+++ b/sgl-kernel/pyproject.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.3.1"
+version = "0.3.2"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_cpu.toml b/sgl-kernel/pyproject_cpu.toml
index 64e53434cc15..b1891236e1ba 100644
--- a/sgl-kernel/pyproject_cpu.toml
+++ b/sgl-kernel/pyproject_cpu.toml
@@ -8,7 +8,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "sgl-kernel"
-version = "0.3.1"
+version = "0.3.2"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/pyproject_rocm.toml b/sgl-kernel/pyproject_rocm.toml
index 0a8cea33d72d..810b8c3caec0 100644
--- a/sgl-kernel/pyproject_rocm.toml
+++ b/sgl-kernel/pyproject_rocm.toml
@@ -9,7 +9,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "sgl-kernel"
-version = "0.3.1"
+version = "0.3.2"
 description = "Kernel Library for SGLang"
 readme = "README.md"
 requires-python = ">=3.9"
diff --git a/sgl-kernel/python/sgl_kernel/version.py b/sgl-kernel/python/sgl_kernel/version.py
index 260c070a890d..f9aa3e110935 100644
--- a/sgl-kernel/python/sgl_kernel/version.py
+++ b/sgl-kernel/python/sgl_kernel/version.py
@@ -1 +1 @@
-__version__ = "0.3.1"
+__version__ = "0.3.2"

From 40e3b2beebef63234ed17c40015677aa252b93b5 Mon Sep 17 00:00:00 2001
From: eigen <52445717+yyihuang@users.noreply.github.com>
Date: Tue, 5 Aug 2025 06:28:39 -0400
Subject: [PATCH 361/396] feat: add trtllm-gen mha from direct call (#8782)

Co-authored-by: Baizhou Zhang <sobereddiezhang@gmail.com>
---
 .../layers/attention/trtllm_mha_backend.py    | 321 ++++++++++++++++++
 python/sglang/srt/managers/schedule_batch.py  |   1 +
 .../sglang/srt/model_executor/model_runner.py |  11 +
 python/sglang/srt/server_args.py              |  18 +
 4 files changed, 351 insertions(+)
 create mode 100644 python/sglang/srt/layers/attention/trtllm_mha_backend.py

diff --git a/python/sglang/srt/layers/attention/trtllm_mha_backend.py b/python/sglang/srt/layers/attention/trtllm_mha_backend.py
new file mode 100644
index 000000000000..2e7c67758691
--- /dev/null
+++ b/python/sglang/srt/layers/attention/trtllm_mha_backend.py
@@ -0,0 +1,321 @@
+from __future__ import annotations
+
+from python.sglang.srt.layers.radix_attention import RadixAttention
+
+"""
+Support attention backend for TRTLLM MLA kernels from flashinfer.
+"""
+
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Optional
+
+import torch
+
+from sglang.srt.layers.attention.flashinfer_backend import FlashInferAttnBackend
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
+from sglang.srt.utils import is_flashinfer_available
+
+if is_flashinfer_available():
+    import flashinfer
+
+if TYPE_CHECKING:
+    from sglang.srt.layers.radix_attention import RadixAttention
+    from sglang.srt.model_executor.model_runner import ModelRunner
+    from sglang.srt.speculative.spec_info import SpecInfo
+
+# Constants
+DEFAULT_WORKSPACE_SIZE_MB = 128  # Memory workspace size in MB
+
+
+@dataclass
+class TRTLLMMHAMetadata:
+    # Sequence lengths for the forward batch
+    cache_seqlens_int32: torch.Tensor = None
+    # Maximum sequence length for query
+    max_seq_len_q: int = 1
+    # Maximum sequence length for key
+    max_seq_len_k: int = 0
+    # Cumulative sequence lengths for `query
+    cu_seqlens_q: torch.Tensor = None
+    # Cumulative sequence lengths for key
+    cu_seqlens_k: torch.Tensor = None
+    # Page table, the index of KV Cache Tables/Blocks
+    page_table: torch.Tensor = None
+
+
+class TRTLLMHAAttnBackend(FlashInferAttnBackend):
+    """TRTLLM MHA attention kernel from flashinfer."""
+
+    def __init__(
+        self,
+        model_runner: ModelRunner,
+        skip_prefill: bool = False,
+        kv_indptr_buf: Optional[torch.Tensor] = None,
+        q_indptr_decode_buf: Optional[torch.Tensor] = None,
+    ):
+        super().__init__(model_runner, skip_prefill, kv_indptr_buf, q_indptr_decode_buf)
+
+        config = model_runner.model_config
+
+        # MHA-specific dimensions
+        self.max_context_len = model_runner.model_config.context_len
+        self.sliding_window_size = (
+            model_runner.sliding_window_size
+            if model_runner.sliding_window_size is not None
+            else -1  # -1 indicates full attention
+        )
+        self.hidden_size = config.hidden_size
+
+        # Runtime parameters
+        self.data_type = model_runner.kv_cache_dtype
+        self.q_data_type = model_runner.dtype
+        self.page_size = model_runner.page_size
+        self.req_to_token = model_runner.req_to_token_pool.req_to_token
+        self.device = model_runner.device
+
+        # Workspace allocation
+        self.workspace_size = DEFAULT_WORKSPACE_SIZE_MB * 1024 * 1024
+        self.workspace_buffer = torch.empty(
+            self.workspace_size, dtype=torch.int8, device=self.device
+        )
+
+        # CUDA graph state
+        self.decode_cuda_graph_metadata = {}
+
+        # Forward metadata
+        self.forward_metadata: Optional[TRTLLMMHAMetadata] = None
+
+    def init_cuda_graph_state(
+        self,
+        max_bs: int,
+        max_num_tokens: int,
+        kv_indices_buf: Optional[torch.Tensor] = None,
+    ):
+        """Initialize CUDA graph state for TRTLLM MHA."""
+        self.decode_cuda_graph_metadata = {
+            "cache_seqlens": torch.zeros(max_bs, dtype=torch.int32, device=self.device),
+            "page_table": torch.zeros(
+                max_bs,
+                (self.max_context_len + self.page_size - 1) // self.page_size,
+                dtype=torch.int32,
+                device=self.device,
+            ),
+            "strided_indices": torch.arange(
+                0, self.max_context_len, self.page_size, device=self.device
+            ),
+        }
+
+    def init_forward_metadata_capture_cuda_graph(
+        self,
+        bs: int,
+        num_tokens: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        encoder_lens: Optional[torch.Tensor],
+        forward_mode: ForwardMode,
+        spec_info: Optional[SpecInfo],
+    ):
+        """Initialize metadata for CUDA graph capture."""
+        metadata = TRTLLMMHAMetadata()
+
+        # Get sequence information
+        metadata.cache_seqlens_int32 = seq_lens.to(torch.int32)
+
+        # Precompute maximum sequence length
+        metadata.max_seq_len_k = seq_lens.max().item()
+
+        # Precompute page table
+        metadata.page_table = self.decode_cuda_graph_metadata["page_table"][:bs, :]
+        self.decode_cuda_graph_metadata[bs] = metadata
+        self.forward_metadata = metadata
+
+    def init_forward_metadata_replay_cuda_graph(
+        self,
+        bs: int,
+        req_pool_indices: torch.Tensor,
+        seq_lens: torch.Tensor,
+        seq_lens_sum: int,
+        encoder_lens: Optional[torch.Tensor],
+        forward_mode: ForwardMode,
+        spec_info: Optional[SpecInfo],
+        seq_lens_cpu: Optional[torch.Tensor],
+    ):
+        """Replay CUDA graph with new inputs."""
+        seq_lens = seq_lens[:bs]
+        seq_lens_cpu = seq_lens_cpu[:bs]
+        req_pool_indices = req_pool_indices[:bs]
+        device = seq_lens.device
+        metadata = None
+
+        # Normal Decode
+        metadata = self.decode_cuda_graph_metadata[bs]
+        max_len = seq_lens_cpu.max().item()
+        max_seq_pages = (max_len + self.page_size - 1) // self.page_size
+        metadata.max_seq_len_k = max_len
+
+        metadata.cache_seqlens_int32.copy_(seq_lens)
+        page_indices = self.req_to_token[
+            req_pool_indices[:, None],
+            self.decode_cuda_graph_metadata["strided_indices"][:max_seq_pages][None, :],
+        ]
+        metadata.page_table[:, :max_seq_pages].copy_(page_indices // self.page_size)
+        self.forward_metadata = metadata
+
+    def get_cuda_graph_seq_len_fill_value(self) -> int:
+        """Get the fill value for sequence lengths in CUDA graph."""
+        return 1
+
+    def init_forward_metadata(self, forward_batch: ForwardBatch):
+        """Initialize the metadata for a forward pass."""
+
+        metadata = TRTLLMMHAMetadata()
+        seqlens_in_batch = forward_batch.seq_lens
+        batch_size = forward_batch.batch_size
+        device = seqlens_in_batch.device
+
+        if forward_batch.forward_mode.is_decode_or_idle():
+            # Normal Decode
+            metadata.cache_seqlens_int32 = seqlens_in_batch.to(torch.int32)
+            metadata.max_seq_len_k = forward_batch.seq_lens_cpu.max().item()
+            metadata.page_table = forward_batch.req_to_token_pool.req_to_token[
+                forward_batch.req_pool_indices, : metadata.max_seq_len_k
+            ]
+        else:
+            metadata.cache_seqlens_int32 = seqlens_in_batch.to(torch.int32)
+            metadata.max_seq_len_k = forward_batch.seq_lens_cpu.max().item()
+            metadata.cu_seqlens_k = torch.nn.functional.pad(
+                torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0)
+            )
+            metadata.page_table = forward_batch.req_to_token_pool.req_to_token[
+                forward_batch.req_pool_indices, : metadata.max_seq_len_k
+            ]
+
+            if any(forward_batch.extend_prefix_lens_cpu):
+                extend_seq_lens = forward_batch.extend_seq_lens
+                metadata.max_seq_len_q = max(forward_batch.extend_seq_lens_cpu)
+                metadata.cu_seqlens_q = torch.nn.functional.pad(
+                    torch.cumsum(extend_seq_lens, dim=0, dtype=torch.int32), (1, 0)
+                )
+            else:
+                metadata.max_seq_len_q = metadata.max_seq_len_k
+                metadata.cu_seqlens_q = metadata.cu_seqlens_k
+
+        # Convert the page table to a strided format
+        if self.page_size > 1:
+            self.strided_indices = torch.arange(
+                0, metadata.page_table.shape[1], self.page_size, device=self.device
+            )
+            metadata.page_table = (
+                metadata.page_table[:, self.strided_indices] // self.page_size
+            )
+
+        self.forward_metadata = metadata
+
+    def forward_decode(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        layer: RadixAttention,
+        forward_batch: ForwardBatch,
+        save_kv_cache: bool = True,
+    ) -> torch.Tensor:
+        """Run forward for decode using TRTLLM MHA kernel."""
+        cache_loc = forward_batch.out_cache_loc
+        if save_kv_cache and k is not None:
+            forward_batch.token_to_kv_pool.set_kv_buffer(
+                layer, cache_loc, k, v, layer.k_scale, layer.v_scale
+            )
+
+        q = q.contiguous().view(-1, layer.tp_q_head_num, layer.head_dim)
+        k_cache, v_cache = forward_batch.token_to_kv_pool.get_kv_buffer(layer.layer_id)
+        # shape conversion:
+        # [bs, page_size, num_kv_heads, head_dim] -> [bs, num_kv_heads, page_size, head_dim]
+        k_cache = k_cache.view(
+            -1, self.page_size, layer.tp_k_head_num, layer.head_dim
+        ).permute(0, 2, 1, 3)
+        v_cache = v_cache.view(
+            -1, self.page_size, layer.tp_v_head_num, layer.head_dim
+        ).permute(0, 2, 1, 3)
+        kv_cache = (k_cache, v_cache)
+
+        # TODO: bmm1_scale and bmm2_scale might require modification
+        q_scale = 1.0
+        k_scale = (
+            layer.k_scale_float
+            if getattr(layer, "k_scale_float", None) is not None
+            else 1.0
+        )
+        bmm1_scale = q_scale * k_scale * layer.scaling
+        bmm2_scale = 1.0
+
+        # Call TRT-LLM kernel
+        # raw_out: like q, [bs, acc_q_len, num_q_heads, head_dim] but with output dtype
+        o = flashinfer.decode.trtllm_batch_decode_with_kv_cache(
+            query=q,
+            kv_cache=kv_cache,
+            workspace_buffer=self.workspace_buffer,
+            block_tables=self.forward_metadata.page_table,
+            seq_lens=self.forward_metadata.cache_seqlens_int32,
+            max_seq_len=self.forward_metadata.max_seq_len_k,
+            bmm1_scale=bmm1_scale,
+            bmm2_scale=bmm2_scale,
+            window_left=self.sliding_window_size,
+            # TODO: add attention_sink operation or nvfp4 scale factor if needed
+        )
+
+        return o.view(-1, layer.tp_q_head_num * layer.head_dim)
+
+    def forward_extend(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        layer: RadixAttention,
+        forward_batch: ForwardBatch,
+        save_kv_cache=True,
+    ):
+        cache_loc = forward_batch.out_cache_loc
+        if save_kv_cache and k is not None:
+            forward_batch.token_to_kv_pool.set_kv_buffer(
+                layer, cache_loc, k, v, layer.k_scale, layer.v_scale
+            )
+        q = q.contiguous().view(-1, layer.tp_q_head_num, layer.head_dim)
+        k_cache, v_cache = forward_batch.token_to_kv_pool.get_kv_buffer(layer.layer_id)
+        k_cache = k_cache.view(
+            -1, self.page_size, layer.tp_k_head_num, layer.head_dim
+        ).permute(0, 2, 1, 3)
+        v_cache = v_cache.view(
+            -1, self.page_size, layer.tp_v_head_num, layer.head_dim
+        ).permute(0, 2, 1, 3)
+        kv_cache = (k_cache, v_cache)
+
+        # TODO: bmm1_scale and bmm2_scale might require modification
+        # TODO: Change once quantization is supported
+        q_scale = 1.0
+        k_scale = (
+            layer.k_scale_float
+            if getattr(layer, "k_scale_float", None) is not None
+            else 1.0
+        )
+        bmm1_scale = q_scale * k_scale * layer.scaling
+        bmm2_scale = 1.0
+
+        o = flashinfer.prefill.trtllm_batch_context_with_kv_cache(
+            query=q,
+            kv_cache=kv_cache,
+            workspace_buffer=self.workspace_buffer,
+            block_tables=self.forward_metadata.page_table,
+            seq_lens=self.forward_metadata.cache_seqlens_int32,
+            max_q_len=self.forward_metadata.max_seq_len_q,
+            max_kv_len=self.forward_metadata.max_seq_len_k,
+            bmm1_scale=bmm1_scale,
+            bmm2_scale=bmm2_scale,
+            batch_size=forward_batch.batch_size,
+            cum_seq_lens_q=self.forward_metadata.cu_seqlens_q,
+            cum_seq_lens_kv=self.forward_metadata.cu_seqlens_k,
+            window_left=self.sliding_window_size,
+            # TODO: add attention_sink operation or nvfp4 scale factor if needed
+        )
+
+        return o.view(-1, layer.tp_q_head_num * layer.head_dim)
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 759bb6afa235..99ea56965941 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -1705,6 +1705,7 @@ def get_model_worker_batch(
             or attention_backend_str == "flashmla"
             or attention_backend_str == "cutlass_mla"
             or attention_backend_str == "ascend"
+            or attention_backend_str == "trtllm_mha"
             or global_server_args_dict["enable_two_batch_overlap"]
         ):
             seq_lens_cpu = (
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 0ce13abc2571..53c3d51f6eea 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -1449,6 +1449,17 @@ def _get_attention_backend_from_str(self, backend_str: str):
             from sglang.srt.layers.attention.trtllm_mla_backend import TRTLLMMLABackend
 
             return TRTLLMMLABackend(self)
+        elif self.server_args.attention_backend == "trtllm_mha":
+            if self.use_mla_backend:
+                raise ValueError(
+                    "trtllm_mha backend can only be used with non-MLA models."
+                )
+            from sglang.srt.layers.attention.trtllm_mha_backend import (
+                TRTLLMHAAttnBackend,
+            )
+
+            return TRTLLMHAAttnBackend(self)
+
         elif self.server_args.attention_backend == "intel_amx":
             from sglang.srt.layers.attention.intel_amx_backend import (
                 IntelAMXAttnBackend,
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 60d8efb9eb33..6c4a818ae225 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -441,6 +441,23 @@ def print_deprecated_warning(message: str):
                     "trtllm_mla backend does not support speculative decoding yet."
                 )
 
+        if self.attention_backend == "trtllm_mha":
+            if not is_sm100_supported():
+                raise ValueError(
+                    "TRTLLM MHA backend is only supported on Blackwell GPUs (SM100). Please use a different backend."
+                )
+
+            if self.page_size not in [16, 32, 64]:
+                logger.warning(
+                    f"TensorRT-LLM MHA only supports page_size of 16, 32 or 64, changing page_size from {self.page_size} to 64."
+                )
+                self.page_size = 64
+
+            if self.speculative_algorithm is not None:
+                raise ValueError(
+                    "trtllm_mla backend does not support speculative decoding yet."
+                )
+
         # Set page size
         if self.page_size is None:
             self.page_size = 1
@@ -1275,6 +1292,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
                 "ascend",
                 "triton",
                 "trtllm_mla",
+                "trtllm_mha",
             ],
             default=ServerArgs.attention_backend,
             help="Choose the kernels for attention layers.",

From a4b0d5c9e5cb2b36eacdc30bc9259a213cd17a16 Mon Sep 17 00:00:00 2001
From: Yuxuan Zhang <2448370773@qq.com>
Date: Tue, 5 Aug 2025 18:29:20 +0800
Subject: [PATCH 362/396] GLM-4.5 and GLM-4.5-Air both support (#8804)

---
 python/sglang/srt/models/glm4_moe.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 568f632f29d3..32cf01362c90 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -785,7 +785,7 @@ def __init__(
         )
 
     def determine_num_fused_shared_experts(
-        self, architecture: str = "DeepseekV3ForCausalLM"
+        self, architecture: str = "Glm4MoeForCausalLM"
     ):
         self.num_fused_shared_experts = 0
         if global_server_args_dict["disable_shared_experts_fusion"]:
@@ -797,7 +797,6 @@ def determine_num_fused_shared_experts(
             not _is_cuda
             or torch.cuda.get_device_capability("cuda") < (8, 0)
             or self.config.architectures[0] != architecture
-            or self.config.n_routed_experts != 128
             or self.config.n_shared_experts != 1
         ):
             disable_reason = "Only GLM-4.5 on NV-platform with capability >= 80 can use shared experts fusion optimization."

From 8e8545caf6e0bea633f8b147400bfdedd6df1f0b Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 09:38:30 -0700
Subject: [PATCH 363/396] fix: update cmake (#8817)

---
 sgl-kernel/CMakeLists.txt | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/sgl-kernel/CMakeLists.txt b/sgl-kernel/CMakeLists.txt
index 72225e55b88a..aeefd3371e62 100644
--- a/sgl-kernel/CMakeLists.txt
+++ b/sgl-kernel/CMakeLists.txt
@@ -54,6 +54,9 @@ FetchContent_Populate(repo-cutlass)
 if("${CUDA_VERSION}" VERSION_EQUAL "12.8")
   set(DeepGEMM_REPO "https://github.com/sgl-project/DeepGEMM")
   set(DeepGEMM_TAG "blackwell")
+elseif("${CUDA_VERSION}" VERSION_EQUAL "12.9")
+  set(DeepGEMM_REPO "https://github.com/sgl-project/DeepGEMM")
+  set(DeepGEMM_TAG "blackwell")
 else()
   set(DeepGEMM_REPO "https://github.com/deepseek-ai/DeepGEMM")
   set(DeepGEMM_TAG "391755ada0ffefa9a6a52b6f14dcaf22d1a463e0")

From 901ab758ecc47ea900632d1393084029413164fc Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 11:37:21 -0700
Subject: [PATCH 364/396] chore: upgrade transformers 4.55.0 (#8823)

Co-authored-by: hebiao064 <hebiaobuaa@gmail.com>
---
 python/pyproject.toml                    | 2 +-
 python/sglang/srt/models/transformers.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index ad4aef5aacd6..9ebc8a7534de 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -45,7 +45,7 @@ runtime_common = [
     "soundfile==0.13.1",
     "scipy",
     "torchao==0.9.0",
-    "transformers==4.54.1",
+    "transformers==4.55.0",
     "timm==1.0.16",
     "uvicorn",
     "uvloop",
diff --git a/python/sglang/srt/models/transformers.py b/python/sglang/srt/models/transformers.py
index 9ee2a14b2568..9135dc915d7e 100644
--- a/python/sglang/srt/models/transformers.py
+++ b/python/sglang/srt/models/transformers.py
@@ -219,7 +219,7 @@ def tensor_parallel(self, tp_size: int):
                 f"{type(self.model)} does not support tensor parallel yet!"
             )
 
-        tp_plan = self.model._tp_plan
+        tp_plan = getattr(self.model.config, "base_model_tp_plan", None) or {}
 
         def _tensor_parallel(module: nn.Module, prefix: str = ""):
             for child_name, child_module in module.named_children():

From 4f4e0e4162ac7af77ccac330dad23c1e7772b9f0 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 12:04:01 -0700
Subject: [PATCH 365/396] chore: upgrade flashinfer 0.2.10 (#8827)

---
 python/pyproject.toml                   | 4 ++--
 python/sglang/srt/entrypoints/engine.py | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 9ebc8a7534de..ebb9ee60510a 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -60,7 +60,7 @@ srt = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.9",
+    "flashinfer_python==0.2.10",
 ]
 
 blackwell = [
@@ -71,7 +71,7 @@ blackwell = [
     "torchvision==0.22.1",
     "cuda-python",
     "einops",
-    "flashinfer_python==0.2.9",
+    "flashinfer_python==0.2.10",
     "tiktoken",
 ]
 
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index a8ef88b7642b..22834c1e2263 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -641,7 +641,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if server_args.attention_backend == "flashinfer":
         assert_pkg_version(
             "flashinfer_python",
-            "0.2.9",
+            "0.2.10",
             "Please uninstall the old version and "
             "reinstall the latest version by following the instructions "
             "at https://docs.flashinfer.ai/installation.html.",

From 32d9e39a296d32817b4db41c7d695b02cc157a33 Mon Sep 17 00:00:00 2001
From: kk <43161300+kkHuang-amd@users.noreply.github.com>
Date: Wed, 6 Aug 2025 03:19:37 +0800
Subject: [PATCH 366/396] Fix potential memory fault issue and ncclSystemError
 in CI test (#8681)

Co-authored-by: wunhuang <wunhuang@amd.com>
---
 .github/workflows/pr-test-amd.yml                   |  2 +-
 python/sglang/srt/layers/attention/aiter_backend.py | 13 +++++--------
 scripts/amd_ci_start_container.sh                   |  1 +
 3 files changed, 7 insertions(+), 9 deletions(-)

diff --git a/.github/workflows/pr-test-amd.yml b/.github/workflows/pr-test-amd.yml
index 3ba24d9794cd..51ea12ea5959 100644
--- a/.github/workflows/pr-test-amd.yml
+++ b/.github/workflows/pr-test-amd.yml
@@ -291,7 +291,7 @@ jobs:
           bash scripts/amd_ci_exec.sh python3 run_suite.py --suite per-commit-8-gpu-amd --timeout-per-file 3600
 
       - name: Run CustomAllReduce test
-        timeout-minutes: 10
+        timeout-minutes: 20
         run: |
           bash scripts/amd_ci_exec.sh -e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python3 -m unittest test_custom_allreduce.TestCustomAllReduce
 
diff --git a/python/sglang/srt/layers/attention/aiter_backend.py b/python/sglang/srt/layers/attention/aiter_backend.py
index 7e6b9936e293..cea097cb0538 100644
--- a/python/sglang/srt/layers/attention/aiter_backend.py
+++ b/python/sglang/srt/layers/attention/aiter_backend.py
@@ -720,11 +720,6 @@ def __init__(self, model_runner: ModelRunner, attn_backend: AttentionBackend):
         self.req_to_token = model_runner.req_to_token_pool.req_to_token
         self.update = self.update_single_wrapper
 
-        # get the last index of the pool
-        self.pool_size = (
-            model_runner.token_to_kv_pool.size + model_runner.token_to_kv_pool.page_size
-        ) - 1
-
         self.kv_indices = None
         self.max_q_len = 0
         self.max_kv_len = 0
@@ -769,9 +764,8 @@ def update_single_wrapper(
             # but the 0 location will be made nan (noqa) in cuda graph capture mode
             # this will cause the output tensor value becomes nan
             # WA is to assure that last index of pool not changed
-            kv_indices = torch.full(
-                (paged_kernel_lens_sum + 128,),
-                self.pool_size,
+            kv_indices = torch.empty(
+                paged_kernel_lens_sum + 256,
                 dtype=torch.int32,
                 device=req_pool_indices.device,
             )
@@ -785,6 +779,9 @@ def update_single_wrapper(
                 self.req_to_token.shape[1],
             )
 
+            token_num = kv_indptr[-1]
+            kv_indices[token_num:] = kv_indices[0]
+
             self.max_kv_len = torch.max(paged_kernel_lens).item()
 
             extend_lens = seq_lens - prefix_lens
diff --git a/scripts/amd_ci_start_container.sh b/scripts/amd_ci_start_container.sh
index 239fd3770c26..9ce33549bf0b 100755
--- a/scripts/amd_ci_start_container.sh
+++ b/scripts/amd_ci_start_container.sh
@@ -124,6 +124,7 @@ echo "Starting container: ci_sglang"
 docker run -dt --user root --device=/dev/kfd $DEVICE_FLAG \
   -v "${GITHUB_WORKSPACE:-$PWD}:/sglang-checkout" \
   --ipc=host --group-add video \
+  --shm-size 32g \
   --cap-add=SYS_PTRACE \
   -e HF_TOKEN="${HF_TOKEN:-}" \
   --security-opt seccomp=unconfined \

From 4ef47839ae3f7b51cd6e266449ae2946890f7203 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 13:38:22 -0700
Subject: [PATCH 367/396] feat: use py312 (#8832)

---
 docker/Dockerfile | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index d473d13cacf2..a3b8556b1202 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -12,6 +12,15 @@ ENV DEBIAN_FRONTEND=noninteractive \
 ENV PATH="${PATH}:/usr/local/nvidia/bin" \
     LD_LIBRARY_PATH="${LD_LIBRARY_PATH}:/usr/local/nvidia/lib:/usr/local/nvidia/lib64"
 
+RUN apt update && apt install wget -y && apt install software-properties-common -y \
+ && add-apt-repository ppa:deadsnakes/ppa -y \
+ && apt install python3.12-full -y \
+ && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.10 1 \
+ && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.12 2 \
+ && update-alternatives --set python3 /usr/bin/python3.12 \
+ && wget https://bootstrap.pypa.io/get-pip.py \
+ && python3 get-pip.py
+
 # Set timezone and install all packages
 RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
  && echo 'tzdata tzdata/Zones/America select Los_Angeles' | debconf-set-selections \

From 556e4143f0ba8e480a73fc0e08f05d7ea83880cc Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 13:40:22 -0700
Subject: [PATCH 368/396] fix: remove unused import (#8809)

---
 python/sglang/srt/layers/attention/trtllm_mha_backend.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/python/sglang/srt/layers/attention/trtllm_mha_backend.py b/python/sglang/srt/layers/attention/trtllm_mha_backend.py
index 2e7c67758691..1d197c5da969 100644
--- a/python/sglang/srt/layers/attention/trtllm_mha_backend.py
+++ b/python/sglang/srt/layers/attention/trtllm_mha_backend.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
 
-from python.sglang.srt.layers.radix_attention import RadixAttention
-
 """
 Support attention backend for TRTLLM MLA kernels from flashinfer.
 """

From c1d2061f97ae2facb8edbc188da5b719aaac2f09 Mon Sep 17 00:00:00 2001
From: Ying Sheng <sqy1415@gmail.com>
Date: Tue, 5 Aug 2025 13:42:01 -0700
Subject: [PATCH 369/396] Add initial support for gpt-oss (#8824)

---
 .../srt/layers/attention/triton_backend.py    |  99 +-
 .../attention/triton_ops/decode_attention.py  |  17 +
 .../attention/triton_ops/extend_attention.py  |  44 +-
 python/sglang/srt/layers/linear.py            |   5 -
 .../srt/layers/moe/fused_moe_triton/layer.py  | 142 ++-
 .../fused_moe_triton/triton_kernels_moe.py    | 181 +++-
 .../srt/layers/quantization/fp8_utils.py      |  29 +
 .../srt/layers/quantization/mxfp4_tensor.py   | 133 +++
 .../sglang/srt/layers/quantization/unquant.py |  59 +-
 python/sglang/srt/managers/schedule_batch.py  |   6 +-
 python/sglang/srt/models/gpt_oss.py           | 923 ++++++++++++++++++
 python/sglang/srt/server_args.py              |   4 +
 12 files changed, 1595 insertions(+), 47 deletions(-)
 create mode 100644 python/sglang/srt/layers/quantization/mxfp4_tensor.py
 create mode 100644 python/sglang/srt/models/gpt_oss.py

diff --git a/python/sglang/srt/layers/attention/triton_backend.py b/python/sglang/srt/layers/attention/triton_backend.py
index c46c8cd4d1bc..469e4fde3d01 100644
--- a/python/sglang/srt/layers/attention/triton_backend.py
+++ b/python/sglang/srt/layers/attention/triton_backend.py
@@ -88,6 +88,7 @@ def __init__(
                 self.window_kv_indptr = torch.zeros_like(kv_indptr_buf)
 
         self.req_to_token = model_runner.req_to_token_pool.req_to_token
+        self.token_to_kv_pool_allocator = model_runner.token_to_kv_pool_allocator
 
         if not self.skip_prefill:
             self.qo_indptr = torch.zeros(
@@ -197,6 +198,7 @@ def init_forward_metadata(self, forward_batch: ForwardBatch):
                             forward_batch.req_pool_indices,
                             bs,
                             self.device,
+                            self.token_to_kv_pool_allocator,
                         )
                     )
                     window_num_kv_splits = torch.empty(
@@ -225,7 +227,6 @@ def init_forward_metadata(self, forward_batch: ForwardBatch):
             mask_indptr = None
             max_extend_len = None
         elif forward_batch.forward_mode.is_target_verify():
-            # TODO: Support sliding window in spec inference
             bs = len(forward_batch.req_pool_indices)
             qo_indptr = torch.arange(
                 0,
@@ -250,6 +251,20 @@ def init_forward_metadata(self, forward_batch: ForwardBatch):
                 self.req_to_token.stride(0),
             )
 
+            if self.sliding_window_size is not None and self.sliding_window_size > 0:
+                window_kv_indptr, window_kv_indices, window_kv_lens = (
+                    update_sliding_window_buffer(
+                        self.window_kv_indptr,
+                        self.req_to_token,
+                        self.sliding_window_size,
+                        forward_batch.seq_lens,
+                        forward_batch.req_pool_indices,
+                        bs,
+                        self.device,
+                        self.token_to_kv_pool_allocator,
+                    )
+                )
+
             custom_mask = spec_info.custom_mask
             seq_mask_len = self.num_draft_tokens * (
                 forward_batch.seq_lens + self.num_draft_tokens
@@ -308,6 +323,7 @@ def init_forward_metadata(self, forward_batch: ForwardBatch):
                     forward_batch.req_pool_indices,
                     bs,
                     self.device,
+                    self.token_to_kv_pool_allocator,
                 )
 
             qo_indptr = self.qo_indptr
@@ -423,14 +439,17 @@ def init_forward_metadata_capture_cuda_graph(
                 ):
                     window_kv_indices = self.cuda_graph_window_kv_indices
                     window_num_kv_splits = self.cuda_graph_window_num_kv_splits
-                    window_kv_indptr, _ = update_sliding_window_buffer_cuda_graph(
-                        self.window_kv_indptr,
-                        window_kv_indices,
-                        self.req_to_token,
-                        self.sliding_window_size,
-                        seq_lens[:bs],
-                        req_pool_indices,
-                        bs,
+                    window_kv_indptr, window_kv_indices, _ = (
+                        update_sliding_window_buffer_cuda_graph(
+                            self.window_kv_indptr,
+                            window_kv_indices,
+                            self.req_to_token,
+                            self.sliding_window_size,
+                            seq_lens[:bs],
+                            req_pool_indices,
+                            bs,
+                            self.token_to_kv_pool_allocator,
+                        )
                     )
             else:
                 kv_indptr, kv_indices = spec_info.kv_indptr, spec_info.kv_indices
@@ -464,6 +483,22 @@ def init_forward_metadata_capture_cuda_graph(
                 self.req_to_token.stride(0),
             )
 
+            if self.sliding_window_size is not None and self.sliding_window_size > 0:
+                window_kv_indices = self.cuda_graph_window_kv_indices
+                window_num_kv_splits = self.cuda_graph_window_num_kv_splits
+                window_kv_indptr, window_kv_indices, _ = (
+                    update_sliding_window_buffer_cuda_graph(
+                        self.window_kv_indptr,
+                        window_kv_indices,
+                        self.req_to_token,
+                        self.sliding_window_size,
+                        seq_lens,
+                        req_pool_indices,
+                        bs,
+                        self.token_to_kv_pool_allocator,
+                    )
+                )
+
             custom_mask = self.cuda_graph_custom_mask
             custom_mask[: spec_info.custom_mask.shape[0]] = spec_info.custom_mask
             seq_mask_len = self.num_draft_tokens * (seq_lens + self.num_draft_tokens)
@@ -557,7 +592,7 @@ def init_forward_metadata_replay_cuda_graph(
                 ):
                     window_num_kv_splits = self.cuda_graph_window_num_kv_splits
                     window_kv_indices = self.cuda_graph_window_kv_indices
-                    _, window_kv_lens = update_sliding_window_buffer_cuda_graph(
+                    _, _, window_kv_lens = update_sliding_window_buffer_cuda_graph(
                         self.window_kv_indptr,
                         window_kv_indices,
                         self.req_to_token,
@@ -565,6 +600,7 @@ def init_forward_metadata_replay_cuda_graph(
                         seq_lens[:bs],
                         req_pool_indices[:bs],
                         bs,
+                        self.token_to_kv_pool_allocator,
                     )
                     self.get_num_kv_splits(
                         window_num_kv_splits[:num_token], window_kv_lens[:bs]
@@ -599,6 +635,19 @@ def init_forward_metadata_replay_cuda_graph(
                 kv_indices,
                 self.req_to_token.stride(0),
             )
+            if self.sliding_window_size is not None and self.sliding_window_size > 0:
+                window_num_kv_splits = self.cuda_graph_window_num_kv_splits
+                window_kv_indices = self.cuda_graph_window_kv_indices
+                _, _, window_kv_lens = update_sliding_window_buffer_cuda_graph(
+                    self.window_kv_indptr,
+                    window_kv_indices,
+                    self.req_to_token,
+                    self.sliding_window_size,
+                    seq_lens,
+                    req_pool_indices,
+                    bs,
+                    self.token_to_kv_pool_allocator,
+                )
             custom_mask = self.cuda_graph_custom_mask
             custom_mask[: spec_info.custom_mask.shape[0]] = spec_info.custom_mask
             seq_mask_len = self.num_draft_tokens * (seq_lens + self.num_draft_tokens)
@@ -637,6 +686,7 @@ def forward_extend(
         layer: RadixAttention,
         forward_batch: ForwardBatch,
         save_kv_cache=True,
+        sk=None,
     ):
         # TODO: reuse the buffer across layers
         if layer.qk_head_dim != layer.v_head_dim:
@@ -680,7 +730,8 @@ def forward_extend(
             self.forward_metadata.max_extend_len,
             layer.scaling,
             layer.logit_cap,
-            sliding_window_size,
+            sliding_window_size=sliding_window_size,
+            sk=sk,
         )
         return o
 
@@ -692,6 +743,7 @@ def forward_decode(
         layer: RadixAttention,
         forward_batch: ForwardBatch,
         save_kv_cache=True,
+        sk=None,
     ):
         # During torch.compile, there is a bug in rotary_emb that causes the
         # output value to have a 3D tensor shape. This reshapes the output correctly.
@@ -728,6 +780,7 @@ def forward_decode(
             self.max_kv_splits,
             layer.scaling,
             layer.logit_cap,
+            sk=sk,
         )
         return o
 
@@ -932,10 +985,11 @@ def update_sliding_window_buffer(
     req_pool_indices,
     bs,
     device,
+    token_to_kv_pool_allocator=None,
 ):
     window_kv_lens = torch.minimum(
         seq_lens,
-        torch.tensor(sliding_window_size + 1),
+        torch.tensor(sliding_window_size),
     )
     window_kv_indptr[1 : bs + 1] = torch.cumsum(window_kv_lens, dim=0)
     window_kv_indptr = window_kv_indptr[: bs + 1]
@@ -952,6 +1006,14 @@ def update_sliding_window_buffer(
         window_kv_indices,
         req_to_token.stride(0),
     )
+    # full to swa index mapping
+    if hasattr(token_to_kv_pool_allocator, "translate_loc_from_full_to_swa"):
+        kv_last_index = window_kv_indptr[-1]
+        window_kv_indices[:kv_last_index] = (
+            token_to_kv_pool_allocator.translate_loc_from_full_to_swa(
+                window_kv_indices[:kv_last_index]
+            )
+        )
     return window_kv_indptr, window_kv_indices, window_kv_lens
 
 
@@ -963,10 +1025,11 @@ def update_sliding_window_buffer_cuda_graph(
     seq_lens,
     req_pool_indices,
     bs,
+    token_to_kv_pool_allocator=None,
 ):
     window_kv_lens = torch.minimum(
         seq_lens,
-        torch.tensor(sliding_window_size + 1),
+        torch.tensor(sliding_window_size),
     )
     window_kv_indptr[1 : bs + 1] = torch.cumsum(window_kv_lens, dim=0)
     window_kv_indptr = window_kv_indptr[: bs + 1]
@@ -980,4 +1043,12 @@ def update_sliding_window_buffer_cuda_graph(
         window_kv_indices,
         req_to_token.stride(0),
     )
-    return window_kv_indptr, window_kv_lens
+    # full to swa index mapping
+    if hasattr(token_to_kv_pool_allocator, "translate_loc_from_full_to_swa"):
+        kv_last_index = window_kv_indptr[-1]
+        window_kv_indices[:kv_last_index] = (
+            token_to_kv_pool_allocator.translate_loc_from_full_to_swa(
+                window_kv_indices[:kv_last_index]
+            )
+        )
+    return window_kv_indptr, window_kv_indices, window_kv_lens
diff --git a/python/sglang/srt/layers/attention/triton_ops/decode_attention.py b/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
index b334d851fd41..5e345586ee38 100644
--- a/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
+++ b/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
@@ -495,6 +495,7 @@ def _fwd_kernel_stage2(
     O,
     kv_indptr,
     num_kv_splits,
+    sk_ptr,
     stride_mid_ob,
     stride_mid_oh,
     stride_mid_os,
@@ -504,6 +505,7 @@ def _fwd_kernel_stage2(
     MIN_BLOCK_KV: tl.constexpr,
     BLOCK_DV: tl.constexpr,
     Lv: tl.constexpr,
+    HAS_SK: tl.constexpr,
 ):
     cur_batch = tl.program_id(0)
     cur_head = tl.program_id(1)
@@ -545,6 +547,10 @@ def _fwd_kernel_stage2(
             e_sum = e_sum * old_scale + exp_logic
             e_max = n_e_max
 
+    if HAS_SK:
+        cur_sk = tl.load(sk_ptr + cur_head)
+        e_sum += tl.exp(cur_sk - e_max)
+
     tl.store(
         O + cur_batch * stride_obs + cur_head * stride_oh + offs_d,
         acc / e_sum,
@@ -561,12 +567,14 @@ def _decode_softmax_reducev_fwd(
     kv_indptr,
     num_kv_splits,
     max_kv_splits,
+    sk=None,
 ):
     batch, head_num = q.shape[0], q.shape[1]
     Lv = v_buffer.shape[-1]
     BLOCK_DV = triton.next_power_of_2(Lv)
 
     MAX_KV_SPLITS = max_kv_splits
+    HAS_SK = sk is not None
 
     extra_kargs = {}
     if _is_hip:
@@ -581,6 +589,7 @@ def _decode_softmax_reducev_fwd(
         o,
         kv_indptr,
         num_kv_splits,
+        sk,
         logits.stride(0),
         logits.stride(1),
         logits.stride(2),
@@ -590,6 +599,7 @@ def _decode_softmax_reducev_fwd(
         MIN_BLOCK_KV=_MIN_BLOCK_KV,
         BLOCK_DV=BLOCK_DV,
         Lv=Lv,
+        HAS_SK=HAS_SK,
         num_warps=4,
         num_stages=2,
         **extra_kargs,
@@ -609,6 +619,7 @@ def decode_attention_fwd_normal(
     max_kv_splits,
     sm_scale,
     logit_cap=0.0,
+    sk=None,
 ):
     _decode_att_m_fwd(
         q,
@@ -632,6 +643,7 @@ def decode_attention_fwd_normal(
         kv_indptr,
         num_kv_splits,
         max_kv_splits,
+        sk,
     )
 
 
@@ -648,6 +660,7 @@ def decode_attention_fwd_grouped(
     max_kv_splits,
     sm_scale,
     logit_cap=0.0,
+    sk=None,
 ):
     _decode_grouped_att_m_fwd(
         q,
@@ -671,6 +684,7 @@ def decode_attention_fwd_grouped(
         kv_indptr,
         num_kv_splits,
         max_kv_splits,
+        sk,
     )
 
 
@@ -687,6 +701,7 @@ def decode_attention_fwd(
     max_kv_splits,
     sm_scale,
     logit_cap=0.0,
+    sk=None,
 ):
     assert max_kv_splits == attn_logits.shape[2]
     assert q.shape[0] <= kv_indptr.shape[0] - 1
@@ -709,6 +724,7 @@ def decode_attention_fwd(
             max_kv_splits,
             sm_scale,
             logit_cap=logit_cap,
+            sk=sk,
         )
     else:
         # GQA/MQA/MLA
@@ -725,4 +741,5 @@ def decode_attention_fwd(
             max_kv_splits,
             sm_scale,
             logit_cap=logit_cap,
+            sk=sk,
         )
diff --git a/python/sglang/srt/layers/attention/triton_ops/extend_attention.py b/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
index 67767df9b696..e1b707f3970c 100644
--- a/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
+++ b/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
@@ -51,6 +51,7 @@ def _fwd_kernel(
     kv_indices,
     mask_ptr,
     mask_indptr,
+    sk_ptr,
     sm_scale,
     kv_group_num,
     stride_qbs,
@@ -78,6 +79,7 @@ def _fwd_kernel(
     IS_CAUSAL: tl.constexpr,
     SKIP_PREFIX_CUSTOM_MASK: tl.constexpr,
     STORE_TRANSPOSE: tl.constexpr,
+    HAS_SK: tl.constexpr,
 ):
     cur_seq = tl.program_id(0)
     cur_head = tl.program_id(1)
@@ -178,13 +180,17 @@ def _fwd_kernel(
             final_mask &= custom_mask
         if SLIDING_WINDOW_SIZE > 0:
             # Add mask where q_id <= kv_id + sliding_window_size
-            window_mask = (cur_block_m * BLOCK_M + offs_m[:, None]) <= (
-                start_n + offs_n[None, :] + SLIDING_WINDOW_SIZE
-            )
+            # q_id = prefix_len + cur_m, kv_id = cur_n
+            window_mask = (
+                cur_seq_len_prefix + cur_block_m * BLOCK_M + offs_m[:, None]
+            ) <= (start_n + offs_n[None, :] + SLIDING_WINDOW_SIZE)
             final_mask &= window_mask
         qk = tl.where(final_mask, qk, float("-inf"))
 
-        n_e_max = tl.maximum(tl.max(qk, 1), e_max)
+        row_max = tl.max(qk, 1)
+        row_max_fixed = tl.where(row_max == float("-inf"), -1e20, row_max)
+        n_e_max = tl.maximum(row_max_fixed, e_max)
+
         re_scale = tl.exp(e_max - n_e_max)
         p = tl.exp(qk - n_e_max[:, None])
         deno = deno * re_scale + tl.sum(p, 1)
@@ -242,6 +248,7 @@ def _fwd_kernel(
         if logit_cap > 0:
             qk = logit_cap * tanh(qk / logit_cap)
 
+        final_mask = mask_m[:, None] & mask_n[None, :]
         if USE_CUSTOM_MASK:
             custom_mask = tl.load(
                 mask_ptr
@@ -254,18 +261,30 @@ def _fwd_kernel(
                 other=0,
             )
             custom_mask &= mask_m[:, None] & mask_n[None, :]
-            qk = tl.where(custom_mask, qk, float("-inf"))
+            final_mask &= custom_mask
         elif IS_CAUSAL:
             mask_causual = (cur_block_m * BLOCK_M + offs_m[:, None]) >= (
                 start_n + offs_n[None, :]
             )
             mask_causual &= mask_m[:, None] & mask_n[None, :]
-            qk = tl.where(mask_causual, qk, float("-inf"))
+            final_mask &= mask_causual
         else:
             mask_non_causal = mask_m[:, None] & mask_n[None, :]
-            qk = tl.where(mask_non_causal, qk, float("-inf"))
+            final_mask &= mask_non_causal
+
+        if SLIDING_WINDOW_SIZE > 0:
+            # Add mask where q_id <= kv_id + sliding_window_size
+            window_mask = (cur_block_m * BLOCK_M + offs_m[:, None]) <= (
+                start_n + offs_n[None, :] + SLIDING_WINDOW_SIZE
+            )
+            final_mask &= window_mask
+
+        qk = tl.where(final_mask, qk, float("-inf"))
+
+        row_max = tl.max(qk, 1)
+        row_max_fixed = tl.where(row_max == float("-inf"), -1e20, row_max)
+        n_e_max = tl.maximum(row_max_fixed, e_max)
 
-        n_e_max = tl.maximum(tl.max(qk, 1), e_max)
         re_scale = tl.exp(e_max - n_e_max)
         p = tl.exp(qk - n_e_max[:, None])
         deno = deno * re_scale + tl.sum(p, 1)
@@ -283,6 +302,10 @@ def _fwd_kernel(
 
         e_max = n_e_max
 
+    if HAS_SK:
+        cur_sk = tl.load(sk_ptr + cur_head)
+        deno += tl.exp(cur_sk - e_max)
+
     offs_o = (
         (cur_seq_extend_start_idx + cur_block_m * BLOCK_M + offs_m[:, None])
         * stride_obs
@@ -321,6 +344,7 @@ def extend_attention_fwd(
     logit_cap=0.0,
     skip_prefix_custom_mask=True,
     sliding_window_size=-1,
+    sk=None,
 ):
     """
     q_extend, k_extend, v_extend, o_extend: contiguous tensors
@@ -386,6 +410,8 @@ def extend_attention_fwd(
     # Skip custom mask for prefix part
     SKIP_PREFIX_CUSTOM_MASK = skip_prefix_custom_mask
 
+    HAS_SK = sk is not None
+
     grid = (batch_size, head_num, triton.cdiv(max_len_extend, BLOCK_M))
     num_stages = 1
 
@@ -405,6 +431,7 @@ def extend_attention_fwd(
         kv_indices,
         custom_mask,
         mask_indptr,
+        sk,
         sm_scale,
         kv_group_num,
         q_extend.stride(0),
@@ -431,6 +458,7 @@ def extend_attention_fwd(
         USE_CUSTOM_MASK=USE_CUSTOM_MASK,
         IS_CAUSAL=is_causal,
         SKIP_PREFIX_CUSTOM_MASK=SKIP_PREFIX_CUSTOM_MASK,
+        HAS_SK=HAS_SK,
         STORE_TRANSPOSE=_is_hip,
         num_warps=num_warps,
         num_stages=num_stages,
diff --git a/python/sglang/srt/layers/linear.py b/python/sglang/srt/layers/linear.py
index 9e765ebf9d07..78269974912c 100644
--- a/python/sglang/srt/layers/linear.py
+++ b/python/sglang/srt/layers/linear.py
@@ -1191,11 +1191,6 @@ def __init__(
                 else self.weight_loader
             ),
         )
-        if not reduce_results and (bias and not skip_bias_add):
-            raise ValueError(
-                "When not reduce the results, adding bias to the "
-                "results can lead to incorrect results"
-            )
 
         if bias:
             self.bias = Parameter(torch.empty(self.output_size, dtype=params_dtype))
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 74558fd9b3ec..56ffe371b5c5 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -134,6 +134,10 @@ def __init__(
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
         enable_flashinfer_cutlass_moe: Optional[bool] = False,
+        activation_alpha: Optional[float] = None,
+        swiglu_limit: Optional[float] = None,
+        use_weight_loader_fused: bool = False,
+        with_bias=False,
     ):
         super().__init__()
 
@@ -148,6 +152,10 @@ def __init__(
         self.expert_map_cpu = None
         self.expert_map_gpu = None
 
+        # For activation
+        self.activation_alpha = activation_alpha
+        self.swiglu_limit = swiglu_limit
+
         if enable_flashinfer_cutlass_moe and quant_config is None:
             logger.warning("Disable flashinfer MoE when quantization config is None.")
             enable_flashinfer_cutlass_moe = False
@@ -191,7 +199,7 @@ def __init__(
 
         if quant_config is None:
             self.quant_method: Optional[QuantizeMethodBase] = UnquantizedFusedMoEMethod(
-                self.use_triton_kernels
+                self.use_triton_kernels, with_bias=with_bias
             )
         else:
             self.quant_method = quant_config.get_quant_method(self, prefix)
@@ -206,7 +214,12 @@ def __init__(
             intermediate_size=self.intermediate_size_per_partition,
             intermediate_size_per_partition=self.intermediate_size_per_partition,
             params_dtype=params_dtype,
-            weight_loader=self.weight_loader,
+            weight_loader=(
+                self.weight_loader
+                if not use_weight_loader_fused
+                else self.weight_loader_fused
+            ),
+            with_bias=with_bias,
         )
 
     def _load_per_tensor_weight_scale(
@@ -234,6 +247,7 @@ def _load_model_weight_or_group_weight_scale(
         shard_id: str,
         loaded_weight: torch.Tensor,
         tp_rank: int,
+        is_bias: bool = False,
     ):
         # Load grouped weight scales for group quantization
         # or model weights
@@ -244,14 +258,16 @@ def _load_model_weight_or_group_weight_scale(
                 loaded_weight=loaded_weight,
                 expert_data=expert_data,
                 tp_rank=tp_rank,
+                is_bias=is_bias,
             )
-        elif shard_id in ("w1", "w3"):
+        elif shard_id in ("w1", "w3", "w13"):
             self._load_w13(
                 shard_id=shard_id,
                 shard_dim=shard_dim,
                 loaded_weight=loaded_weight,
                 expert_data=expert_data,
                 tp_rank=tp_rank,
+                is_bias=is_bias,
             )
 
     def _load_per_channel_weight_scale(
@@ -281,17 +297,30 @@ def _load_w13(
         shard_id: str,
         loaded_weight: torch.Tensor,
         tp_rank: int,
+        is_bias: bool = False,
     ):
 
         # Index the loaded weight for tp sharding.
         # gate_up_proj: "MergedColumnParallel", so tp sharding on output_dim
-        shard_size = expert_data.shape[shard_dim] // 2
+        assert shard_id in {"w1", "w3", "w13"}
+
+        if is_bias:
+            # if this weight is a bias, the last dimension must be the sharded dimension
+            shard_dim = -1
+
+        if shard_id in {"w1", "w3"}:
+            # non-fused version
+            shard_size = expert_data.shape[shard_dim] // 2
+        elif shard_id in {"w13"}:
+            # fused version
+            shard_size = expert_data.shape[shard_dim]
+        else:
+            raise NotImplementedError
 
         # Narrow parameter and load.
         # w1, gate_proj: Load into first logical weight of w13.
         # w3, up_proj: Load into second logical weight of w13.
         # trtllm cutlass kernel assumes differently
-        assert shard_id in ("w1", "w3")
         switch_w13 = getattr(self.quant_method, "load_up_proj_weight_first", False)
         if (switch_w13 and shard_id == "w1") or (not switch_w13 and shard_id == "w3"):
             start = shard_size
@@ -310,7 +339,8 @@ def _load_w13(
             )
         else:
             if not self.use_presharded_weights:
-                if self.use_triton_kernels:
+                if not is_bias and self.use_triton_kernels:
+                    # do not transpose for bias
                     loaded_weight = loaded_weight.transpose(-2, -1)
                 loaded_weight = loaded_weight.narrow(
                     shard_dim, shard_size * tp_rank, shard_size
@@ -326,6 +356,7 @@ def _load_w2(
         shard_id: str,
         loaded_weight: torch.Tensor,
         tp_rank: int,
+        is_bias: bool = False,
     ):
         """Load w2 weights for down projection.
 
@@ -356,7 +387,14 @@ def _load_w2(
         # Index the loaded weight for tp sharding.
         # down_proj: "RowParallel" so tp sharding on input_dim
         # Narrow parameter and load.
-        shard_size = expert_data.shape[shard_dim]
+        if is_bias:
+            # this expert_data is a bias, not weight,
+            # for w2_bias in TP, it does not need to be sharded
+            shard_size = expert_data.shape[-1]
+        else:
+            # this parameter is a weight matrix
+            # for w2 in TP, it shards the input_features, i.e., shard_dim=2
+            shard_size = expert_data.shape[shard_dim]
 
         if _is_cpu:
             expert_data, loaded_weight = narrow_padded_param_and_loaded_weight(
@@ -369,7 +407,7 @@ def _load_w2(
                 not self.use_presharded_weights,
             )
         else:
-            if not self.use_presharded_weights:
+            if not is_bias and not self.use_presharded_weights:
                 if self.use_triton_kernels:
                     loaded_weight = loaded_weight.transpose(-2, -1)
                 if shard_size * tp_rank + shard_size > loaded_weight.shape[shard_dim]:
@@ -658,6 +696,68 @@ def _weight_loader_impl(
             )
             return
 
+    def weight_loader_fused(
+        self,
+        param: torch.nn.Parameter,
+        loaded_weight: torch.Tensor,
+        weight_name: str,
+        shard_id: str,
+    ) -> None:
+        tp_rank = self.moe_tp_rank
+
+        # compressed-tensors checkpoints with packed weights are stored flipped
+        # TODO: check self.quant_method.quant_config.quant_format
+        # against known CompressionFormat enum values that have this quality
+        loaded_weight = (
+            loaded_weight.t().contiguous()
+            if (
+                self.quant_method.__class__.__name__
+                == "CompressedTensorsWNA16MoEMethod"
+            )
+            else loaded_weight
+        )
+
+        if shard_id not in ("w13", "w2"):
+            raise ValueError(f"shard_id must be ['w13','w2'] but " f"got {shard_id}.")
+
+        # Fetch the dim to shard the parameter/loaded weight
+        # based on the shard id. This will be whatever
+        # dimension intermediate_size is used.
+        SHARD_ID_TO_SHARDED_DIM = {"w13": 1, "w2": 2}
+        SHARD_ID_TO_SHARDED_DIM_TRANSPOSE = {"w13": 2, "w2": 1}
+
+        expert_data = param.data
+        is_bias = expert_data.dim() == 2
+
+        # is_transposed: if the dim to shard the weight
+        # should be flipped. Required by GPTQ, compressed-tensors
+        # should be whatever dimension intermediate_size is
+        is_transposed = getattr(param, "is_transposed", False)
+
+        if self.use_triton_kernels:
+            is_transposed = True
+        shard_dim = (
+            SHARD_ID_TO_SHARDED_DIM[shard_id]
+            if not is_transposed
+            else SHARD_ID_TO_SHARDED_DIM_TRANSPOSE[shard_id]
+        )
+
+        # Case model weights
+        if "weight" in weight_name:
+            self._load_model_weight_or_group_weight_scale(
+                shard_id=shard_id,
+                shard_dim=shard_dim,
+                loaded_weight=loaded_weight,
+                expert_data=expert_data,
+                tp_rank=tp_rank,
+                is_bias=is_bias,
+            )
+            return
+        else:
+            logging.warning(
+                f"Unsupported weight_name {weight_name} for FusedMoE weight_loader_fused. Nothing is loaded."
+            )
+
     def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
         assert self.quant_method is not None
 
@@ -673,6 +773,12 @@ def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
 
         # Matrix multiply.
         with use_symmetric_memory(get_tp_group()) as sm:
+            kwargs = {}
+            if self.activation_alpha is not None:
+                kwargs["activation_alpha"] = self.activation_alpha
+            if self.swiglu_limit is not None:
+                kwargs["swiglu_limit"] = self.swiglu_limit
+
             final_hidden_states = self.quant_method.apply(
                 layer=self,
                 x=hidden_states,
@@ -691,6 +797,7 @@ def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
                     == "ModelOptNvFp4FusedMoEMethod"
                     else {}
                 ),
+                **kwargs,
             )
             sm.tag(final_hidden_states)
 
@@ -728,6 +835,25 @@ def make_expert_params_mapping(
             ]
         ]
 
+    @classmethod
+    def make_expert_params_mapping_fused(
+        cls,
+        ckpt_gate_up_proj_name: str,
+        ckpt_down_proj_name: str,
+        ckpt_gate_up_proj_bias_name: str,
+        ckpt_down_proj_bias_name: str,
+    ):
+        return [
+            ("experts.w13_weight", f"experts.{ckpt_gate_up_proj_name}", "w13"),
+            (
+                "experts.w13_weight_bias",
+                f"experts.{ckpt_gate_up_proj_bias_name}",
+                "w13",
+            ),
+            ("experts.w2_weight", f"experts.{ckpt_down_proj_name}", "w2"),
+            ("experts.w2_weight_bias", f"experts.{ckpt_down_proj_bias_name}", "w2"),
+        ]
+
     @classmethod
     def make_expert_input_scale_params_mapping(
         cls,
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
index eed33c5e83ef..36466661d04a 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
@@ -6,15 +6,50 @@
 
 import torch
 from sgl_kernel import gelu_and_mul, silu_and_mul
-from triton_kernels.matmul_ogs import matmul_ogs
+from triton_kernels.matmul_ogs import (
+    FlexCtx,
+    FnSpecs,
+    FusedActivation,
+    PrecisionConfig,
+    matmul_ogs,
+)
+from triton_kernels.numerics import InFlexData
 from triton_kernels.routing import GatherIndx, RoutingData, ScatterIndx
-
-from sglang.srt.utils import direct_register_custom_op
+from triton_kernels.swiglu import swiglu_fn
 
 if TYPE_CHECKING:
     from sglang.srt.layers.moe.topk import TopKOutput
 
 
+def quantize(w, dtype, dev, **opt):
+    if dtype == "bf16":
+        return w.to(torch.bfloat16), InFlexData()
+    elif dtype == "fp8":
+        wq = w.to(torch.float8_e4m3fn).transpose(-1, -2).contiguous().transpose(-1, -2)
+        return (
+            wq,
+            InFlexData(dtype=wq.dtype, scale=w.abs().max().unsqueeze(0)),
+            MicroscalingCtx(),
+        )
+    else:
+        assert dtype == "mx4", f"{dtype=}"
+        swizzle_mx_scale = opt["swizzle_mx_scale"]
+        swizzle_axis = 2 if swizzle_mx_scale else None
+        w = w.to(torch.bfloat16)
+        w, mx_scales, weight_scale_shape = downcast_to_mxfp(
+            w, torch.uint8, axis=1, swizzle_axis=swizzle_axis
+        )
+        return (
+            w,
+            InFlexData(),
+            MicroscalingCtx(
+                weight_scale=mx_scales,
+                swizzle_mx=swizzle_mx_scale,
+                actual_weight_scale_shape=weight_scale_shape,
+            ),
+        )
+
+
 def triton_kernel_moe_forward(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
@@ -146,3 +181,143 @@ def triton_kernel_fused_experts(
     )
 
     return intermediate_cache3
+
+
+def triton_kernel_moe_with_bias_forward(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    b1: torch.Tensor,
+    w2: torch.Tensor,
+    b2: torch.Tensor,
+    topk_output: TopKOutput,
+    inplace: bool = False,
+    activation: str = "silu",
+    use_fp8_w8a8: bool = False,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: Optional[torch.Tensor] = None,
+    w1_scale: Optional[torch.Tensor] = None,
+    w2_scale: Optional[torch.Tensor] = None,
+    a1_scale: Optional[torch.Tensor] = None,
+    a2_scale: Optional[torch.Tensor] = None,
+    block_shape: Optional[list[int]] = None,
+    activation_alpha: Optional[float] = None,
+    swiglu_limit: Optional[int] = None,
+) -> torch.Tensor:
+    assert topk_output.format.is_triton_kernel()
+    routing_data, gather_idx, scatter_idx = topk_output
+
+    return triton_kernel_fused_experts_with_bias(
+        hidden_states,
+        w1,
+        b1,
+        w2,
+        b2,
+        routing_data,
+        gather_idx,
+        scatter_idx,
+        inplace=inplace,
+        activation=activation,
+        use_fp8_w8a8=use_fp8_w8a8,
+        per_channel_quant=per_channel_quant,
+        global_num_experts=global_num_experts,
+        expert_map=expert_map,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_scale=a1_scale,
+        a2_scale=a2_scale,
+        block_shape=block_shape,
+        activation_alpha=activation_alpha,
+        swiglu_limit=swiglu_limit,
+    )
+
+
+def triton_kernel_fused_experts_with_bias(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    b1: torch.Tensor,
+    w2: torch.Tensor,
+    b2: torch.Tensor,
+    routing_data: RoutingData,
+    gather_indx: GatherIndx,
+    scatter_indx: ScatterIndx,
+    inplace: bool = False,
+    activation: str = "silu",
+    use_fp8_w8a8: bool = False,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: Optional[torch.Tensor] = None,
+    w1_scale: Optional[torch.Tensor] = None,
+    w2_scale: Optional[torch.Tensor] = None,
+    a1_scale: Optional[torch.Tensor] = None,
+    a2_scale: Optional[torch.Tensor] = None,
+    block_shape: Optional[list[int]] = None,
+    activation_alpha: Optional[float] = None,
+    swiglu_limit: Optional[int] = None,
+) -> torch.Tensor:
+    # print(f"here in triton moe with bias", b1.shape, b1.dtype, b2.shape, b2.dtype)
+    assert use_fp8_w8a8 == False, "use_fp8_w8a8 is not supported"
+    assert per_channel_quant == False, "per_channel_quant is not supported"
+    assert expert_map == None, "expert_map is not supported"
+    assert w1_scale == None, "w1_scale is not supported"
+    assert w2_scale == None, "w2_scale is not supported"
+    assert a1_scale == None, "a1_scale is not supported"
+    assert a2_scale == None, "a2_scale is not supported"
+    assert block_shape == None, "block_shape is not supported"
+
+    # type check
+    assert hidden_states.dtype == torch.bfloat16, "hidden_states must be bfloat16"
+    assert w1.dtype == torch.bfloat16, "w1 must be bfloat16"
+    assert w2.dtype == torch.bfloat16, "w2 must be bfloat16"
+
+    # Shape check
+    assert hidden_states.ndim == 2, "hidden_states must be 2D"
+    assert (
+        hidden_states.shape[-1] == w1.shape[-2]
+    ), f"hidden_states shape[-1] {hidden_states.shape} must be equal to w1 shape[-2] {w1.shape}"
+    assert (
+        w2.shape[-1] == w1.shape[1]
+    ), f"w2 shape[-1] {w2.shape[-1]} must be equal to w1 shape[1] {w1.shape[1]}"
+
+    # feature check
+    assert inplace == False, "Inplace is not supported in new triton MoE kernel"
+
+    E, _, _ = w1.shape
+
+    if global_num_experts == -1:
+        global_num_experts = E
+
+    device = "cuda"
+    optg = dict()
+    w1, w1_flex = quantize(w1, "bf16", device, **optg)
+    w1_pcg = PrecisionConfig(flex_ctx=FlexCtx(rhs_data=w1_flex))
+
+    w2, w2_flex = quantize(w2, "bf16", device, **optg)
+    w2_pcg = PrecisionConfig(flex_ctx=FlexCtx(rhs_data=w2_flex))
+
+    act = FusedActivation(
+        FnSpecs("swiglu", swiglu_fn, ("alpha", "limit")),
+        (activation_alpha, swiglu_limit),
+        2,
+    )
+
+    intermediate_cache = matmul_ogs(
+        hidden_states,
+        w1,
+        b1,
+        routing_data,
+        gather_indx=gather_indx,
+        precision_config=w1_pcg,
+        gammas=None,
+        fused_activation=act,
+    )
+
+    return matmul_ogs(
+        intermediate_cache,
+        w2,
+        b2,
+        routing_data,
+        scatter_indx=scatter_indx,
+        precision_config=w2_pcg,
+        gammas=routing_data.gate_scal,
+    )
diff --git a/python/sglang/srt/layers/quantization/fp8_utils.py b/python/sglang/srt/layers/quantization/fp8_utils.py
index 3ab8634ac3d3..d7638ce183d0 100644
--- a/python/sglang/srt/layers/quantization/fp8_utils.py
+++ b/python/sglang/srt/layers/quantization/fp8_utils.py
@@ -4,6 +4,7 @@
 
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.layers.quantization.fp8_kernel import sglang_per_token_group_quant_fp8
+from sglang.srt.layers.quantization.mxfp4_tensor import MXFP4QuantizeUtil
 from sglang.srt.layers.utils import is_sm100_supported
 
 try:
@@ -26,6 +27,7 @@
 )
 from sglang.srt.utils import (
     align,
+    ceil_div,
     get_bool_env_var,
     get_cuda_version,
     get_device_capability,
@@ -307,6 +309,33 @@ def triton_w8a8_block_fp8_linear(
     return output.to(dtype=input_2d.dtype).view(*output_shape)
 
 
+def dequant_mxfp4(
+    w_block: torch.Tensor,
+    w_scale: torch.Tensor,
+    out_dtype,
+) -> torch.Tensor:
+    """
+    :param w_block: (batch, n, k, 16), uint8, pack two mxfp4 into one byte
+    :param w_scale: (batch, n, k), uint8
+    :return: (batch, n, k * 32), float32
+    """
+
+    assert w_block.dtype == torch.uint8
+    assert w_scale.dtype == torch.uint8
+
+    batch, n, k, pack_dim = w_block.shape
+    batch_, n_, k_ = w_scale.shape
+    assert pack_dim == 16
+    assert batch == batch_
+    assert n == n_
+    assert k == k_
+
+    out_raw = MXFP4QuantizeUtil.dequantize(
+        quantized_data=w_block, scale=w_scale, dtype=out_dtype, block_sizes=[32]
+    )
+    return out_raw.reshape(batch, n, k * 32)
+
+
 def input_to_float8(
     x: torch.Tensor, dtype: torch.dtype = fp8_dtype
 ) -> Tuple[torch.Tensor, torch.Tensor]:
diff --git a/python/sglang/srt/layers/quantization/mxfp4_tensor.py b/python/sglang/srt/layers/quantization/mxfp4_tensor.py
new file mode 100644
index 000000000000..e7b9a83467d8
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/mxfp4_tensor.py
@@ -0,0 +1,133 @@
+# SPDX-FileCopyrightText: Copyright (c) 2024 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import torch
+
+
+# https://github.com/NVIDIA/TensorRT-Model-Optimizer/blob/main/modelopt/torch/quantization/qtensor/mxfp4_tensor.py
+class MXFP4QuantizeUtil:
+    E2M1_max = 6.0
+
+    E2M1_values = [0, 0.5, 1, 1.5, 2, 3, 4, 6]
+    E2M1_bounds = torch.tensor([0.25, 0.75, 1.25, 1.75, 2.5, 3.5, 5])
+
+    @classmethod
+    def quantize(cls, input: torch.Tensor, block_size: int | None) -> tuple:
+        """Converting a tensor to a quantized format based on MXFP4 quantization. Only E4M3 is supported.
+        Args:
+            input (torch.Tensor): The input tensor to be quantized.
+            block_sizes (dict | None): The block sizes for quantization.
+        """
+
+        def cast_fp4(x):
+            sign = torch.sign(x)
+            sign_bit = (2 - sign) // 2
+            ord_ = torch.sum(
+                (x.abs().unsqueeze(-1) - cls.E2M1_bounds.to(x.device)) > 0, dim=-1
+            )
+            fp4_val = (sign_bit * 0b1000 + ord_).to(torch.uint8)
+            return fp4_val
+
+        def fuse_uint4_to_uint8(x):
+            # If the last dimension is odd, pad with zeros
+            # If this behavior is not desired, please modify the code accordingly
+            left_side = x[..., 0::2]  # Even indices (0, 2, 4...)
+            right_side = x[..., 1::2]  # Odd indices (1, 3, 5...)
+            new_data = (
+                right_side.clone() << 4
+            )  # Put odd indices (higher addresses) in high bits
+            new_data[
+                ..., : left_side.shape[-1]
+            ] += left_side  # Put even indices in low bits
+            return new_data
+
+        if block_size is None:
+            block_size = 32
+
+        original_shape = input.shape
+        original_dtype = input.dtype
+        input = input.view(-1, block_size)
+        # get scales
+        input_amax = input.abs().max(dim=-1, keepdim=True).values
+        descale = input_amax / cls.E2M1_max
+        min_value = torch.tensor(-127.0, device=descale.device)
+        e8m0_scale = torch.ceil(torch.maximum(torch.log2(descale), min_value))
+
+        input = (input / torch.exp2(e8m0_scale)).view(original_shape)
+        input_q = cast_fp4(input)
+        input_q = fuse_uint4_to_uint8(input_q)
+        e8m0_scale = (e8m0_scale + 127).to(torch.uint8)
+        return cls(original_shape, original_dtype, input_q), e8m0_scale
+
+    @classmethod
+    def dequantize(cls, quantized_data, dtype: torch.dtype, scale, block_sizes):
+        """Dequantze MXFP4 packed tensor to a target dtype."""
+
+        def unfuse_uint8_to_uint4(x):
+            """Unfuse uint8 values back to uint4 values.
+            This is the inverse operation of fuse_uint4_to_uint8.
+            """
+            # Extract the lower 4 bits (even indices)
+            left_side = x & 0x0F
+
+            # Extract the upper 4 bits (odd indices)
+            right_side = (x >> 4) & 0x0F
+
+            # Create a new tensor with alternating values
+            shape = list(x.shape)
+            shape[-1] = shape[-1] * 2
+            result = torch.zeros(shape, dtype=torch.uint8, device=x.device)
+
+            # Fill in the values - even indices get low bits, odd indices get high bits
+            result[..., 0::2] = left_side  # Even indices from low bits
+            result[..., 1::2] = right_side  # Odd indices from high bits
+
+            return result
+
+        e8m0_scale = scale
+        block_size = block_sizes[-1]
+
+        # Unfuse the uint8 values back to uint4
+        x_unfused = unfuse_uint8_to_uint4(quantized_data)
+        # Extract sign and magnitude
+        sign = 1 - 2 * ((x_unfused & 0b1000) >> 3).to(
+            torch.float32
+        )  # Extract sign bit and convert to +1/-1
+        magnitude = x_unfused & 0b0111  # Extract magnitude bits
+        magnitude = magnitude.to(torch.long)
+
+        # Create a tensor with the E2M1 values
+        values = torch.tensor(cls.E2M1_values, device=quantized_data.device)
+
+        # Use gather to index the values tensor properly
+        # We need to reshape magnitude to match the dimensions we want to gather along
+        original_shape = magnitude.shape
+        x_float = values[magnitude.reshape(-1)].reshape(original_shape)
+
+        # Apply sign and scale
+        x_float = sign.float() * x_float
+
+        # Reshape to apply block-wise scaling
+        x_float = x_float.reshape(-1, block_size)
+
+        # Apply the E8M0 scale
+        scale_factor = torch.exp2(e8m0_scale.float() - 127)
+        scale_factor = scale_factor.reshape(-1, 1)  # Reshape for proper broadcasting
+
+        # Apply scaling and reshape back to original shape
+        x_float = x_float * scale_factor
+
+        # Reshape back to the original shape
+        return x_float.reshape(original_shape).to(dtype)
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index 38b8896952b9..8fc4a5be164f 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -126,17 +126,23 @@ def apply(
 class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
     """MoE method without quantization."""
 
-    def __init__(self, use_triton_kernels: bool = False):
+    def __init__(self, use_triton_kernels: bool = False, with_bias: bool = False):
         super().__init__()
         self.use_triton_kernels = use_triton_kernels
+        self.with_bias = with_bias
 
         self.triton_kernel_moe_forward = None
+        self.triton_kernel_moe_with_bias_forward = None
         if torch.cuda.is_available() and has_triton_kernels:
             from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
                 triton_kernel_moe_forward as _tk_forward,
             )
+            from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
+                triton_kernel_moe_with_bias_forward as _tk_with_bias_forward,
+            )
 
             self.triton_kernel_moe_forward = _tk_forward
+            self.triton_kernel_moe_with_bias_forward = _tk_with_bias_forward
 
     def create_weights(
         self,
@@ -158,6 +164,14 @@ def create_weights(
         layer.register_parameter("w13_weight", w13_weight)
         set_weight_attrs(w13_weight, extra_weight_attrs)
 
+        if self.with_bias:
+            w13_weight_bias = torch.nn.Parameter(
+                torch.empty(num_experts, 2 * intermediate_size, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_weight_bias", w13_weight_bias)
+            set_weight_attrs(w13_weight_bias, extra_weight_attrs)
+
         # down_proj (row parallel)
         w2_weight_n, w2_weight_k = (
             hidden_size,
@@ -172,6 +186,14 @@ def create_weights(
         layer.register_parameter("w2_weight", w2_weight)
         set_weight_attrs(w2_weight, extra_weight_attrs)
 
+        if self.with_bias:
+            w2_weight_bias = torch.nn.Parameter(
+                torch.empty(num_experts, hidden_size, dtype=torch.float32),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_weight_bias", w2_weight_bias)
+            set_weight_attrs(w2_weight_bias, extra_weight_attrs)
+
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         if _use_aiter:
             layer.w13_weight = torch.nn.Parameter(
@@ -202,7 +224,14 @@ def apply(
         inplace: bool = True,
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
+        activation_alpha: Optional[float] = None,
+        swiglu_limit: Optional[float] = None,
     ) -> torch.Tensor:
+        kwargs = {}
+        if activation_alpha is not None:
+            kwargs["activation_alpha"] = activation_alpha
+        if swiglu_limit is not None:
+            kwargs["swiglu_limit"] = swiglu_limit
 
         return self.forward(
             x=x,
@@ -213,6 +242,7 @@ def apply(
             inplace=inplace,
             no_combine=no_combine,
             routed_scaling_factor=routed_scaling_factor,
+            **kwargs,
         )
 
     def forward_cuda(
@@ -226,15 +256,30 @@ def forward_cuda(
         inplace: bool = True,
         no_combine: bool = False,
         routed_scaling_factor: Optional[float] = None,
+        activation_alpha: Optional[float] = None,
+        swiglu_limit: Optional[float] = None,
     ) -> torch.Tensor:
 
         if self.use_triton_kernels:
-            return self.triton_kernel_moe_forward(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_output=topk_output,
-            )
+            if self.with_bias:
+                return self.triton_kernel_moe_with_bias_forward(
+                    hidden_states=x,
+                    w1=layer.w13_weight,
+                    w2=layer.w2_weight,
+                    b1=layer.w13_weight_bias,
+                    b2=layer.w2_weight_bias,
+                    topk_output=topk_output,
+                    activation=activation,
+                    activation_alpha=activation_alpha,
+                    swiglu_limit=swiglu_limit,
+                )
+            else:
+                return self.triton_kernel_moe_forward(
+                    hidden_states=x,
+                    w1=layer.w13_weight,
+                    w2=layer.w2_weight,
+                    topk_output=topk_output,
+                )
         else:
             if _use_aiter:
                 assert not no_combine, "unsupported"
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 99ea56965941..3452608b301d 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -917,8 +917,10 @@ def init_new(
 
         is_hybrid = False
         if isinstance(token_to_kv_pool_allocator, SWATokenToKVPoolAllocator):
-            assert isinstance(tree_cache, SWARadixCache) or isinstance(
-                tree_cache, SWAChunkCache
+            assert (
+                tree_cache is None
+                or isinstance(tree_cache, SWARadixCache)
+                or isinstance(tree_cache, SWAChunkCache)
             ), "SWARadixCache or SWAChunkCache is required for SWATokenToKVPoolAllocator"
             is_hybrid = True
 
diff --git a/python/sglang/srt/models/gpt_oss.py b/python/sglang/srt/models/gpt_oss.py
new file mode 100644
index 000000000000..cf40c652bed8
--- /dev/null
+++ b/python/sglang/srt/models/gpt_oss.py
@@ -0,0 +1,923 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+
+"""Inference-only GptOss model compatible with HuggingFace weights."""
+
+import logging
+from collections.abc import Iterable
+from functools import partial
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from sglang.srt.distributed import (
+    get_moe_tensor_parallel_rank,
+    get_pp_group,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from sglang.srt.eplb.expert_distribution import get_global_expert_distribution_recorder
+from sglang.srt.eplb.expert_location import ModelConfigForExpertLocation
+from sglang.srt.layers.communicator import LayerCommunicator, LayerScatterModes
+from sglang.srt.layers.dp_attention import (
+    get_attention_tp_rank,
+    get_attention_tp_size,
+    get_local_attention_dp_size,
+)
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.linear import (
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor
+from sglang.srt.layers.moe.ep_moe.layer import get_moe_impl_class
+from sglang.srt.layers.moe.topk import TopK
+from sglang.srt.layers.moe.utils import DeepEPMode
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.quantization.fp8_utils import dequant_mxfp4
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.utils import PPMissingLayer, get_layer_id
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.managers.schedule_batch import global_server_args_dict
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch, PPProxyTensors
+from sglang.srt.model_loader.weight_utils import default_weight_loader
+from sglang.srt.utils import add_prefix, make_layers
+
+
+class GptOssConfig(PretrainedConfig):
+    model_type = "gpt_oss"
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+
+
+logger = logging.getLogger(__name__)
+
+
+# Aligned with HF's implementation, using sliding window inclusive with the last token
+# SGLang assumes exclusive
+def get_attention_sliding_window_size(config):
+    return config.sliding_window - 1
+
+
+class GptOssSparseMoeBlock(nn.Module):
+    def __init__(
+        self,
+        layer_id: int,
+        config: GptOssConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.layer_id = layer_id
+        self.activation = config.hidden_act
+        self.activation_alpha = getattr(config, "hidden_act_alpha", 1.702)
+        self.swiglu_limit = config.swiglu_limit
+        if self.tp_size > config.num_local_experts:
+            raise ValueError(
+                f"Tensor parallel size {self.tp_size} is greater than "
+                f"the number of experts {config.num_local_experts}."
+            )
+
+        self.topk = TopK(
+            top_k=config.num_experts_per_tok,
+            renormalize=True,
+        )
+
+        experts_type = get_moe_impl_class()
+        extra_kwargs = {}
+        if experts_type.__name__ == "FusedMoE":
+            extra_kwargs = {
+                "enable_flashinfer_cutlass_moe": global_server_args_dict[
+                    "enable_flashinfer_cutlass_moe"
+                ],
+                "use_weight_loader_fused": True,  # for moe gate_up_proj and down_proj and their bias loading
+            }
+        self.experts = experts_type(
+            num_experts=config.num_local_experts
+            + global_server_args_dict["ep_num_redundant_experts"],
+            top_k=config.num_experts_per_tok,
+            layer_id=layer_id,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            activation=self.activation,
+            activation_alpha=self.activation_alpha,
+            swiglu_limit=self.swiglu_limit,
+            with_bias=True,
+            prefix=add_prefix("experts", prefix),
+            **(
+                dict(deepep_mode=DeepEPMode[global_server_args_dict["deepep_mode"]])
+                if global_server_args_dict["moe_a2a_backend"].is_deepep()
+                else {}
+            ),
+            **extra_kwargs,
+        )
+
+        self.router = ReplicatedLinear(
+            config.hidden_size,
+            config.num_local_experts,
+            bias=True,
+            quant_config=None,
+            prefix=add_prefix("gate", prefix),
+            params_dtype=config.torch_dtype,
+        )
+
+    def forward(
+        self, hidden_states: torch.Tensor, forward_batch: Optional[ForwardBatch] = None
+    ) -> torch.Tensor:
+        if not global_server_args_dict["moe_a2a_backend"].is_deepep():
+            return self.forward_normal(hidden_states)
+        else:
+            raise Exception("forward_deepep branch not implemented yet")
+
+    def get_moe_weights(self):
+        return [
+            x.data
+            for name, x in self.experts.named_parameters()
+            if name not in ["correction_bias"]
+        ]
+
+    def forward_normal(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        # router_logits: (num_tokens, n_experts)
+        router_logits, _ = self.router(hidden_states)
+
+        kwargs = {"hidden_states": hidden_states}
+        if self.topk is not None:
+            kwargs["topk_output"] = self.topk(hidden_states, router_logits)
+        else:
+            kwargs["router_logits"] = router_logits
+        final_hidden_states = self.experts(**kwargs)
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        ans = final_hidden_states.view(num_tokens, hidden_dim)
+        return ans
+
+
+class GptOssAttention(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        layer_id: int = 0,
+        rope_theta: float = 10000,
+        rope_scaling: Optional[Dict[str, Any]] = None,
+        max_position_embeddings: int = 8192,
+        head_dim: Optional[int] = None,
+        rms_norm_eps: float = 1e-06,
+        attention_bias: bool = False,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        sliding_window_size: int = -1,  # if -1, normal attention, else, window attention.
+        layer_type: str = "",
+        params_dtype: torch.dtype = torch.bfloat16,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.sliding_window_size = sliding_window_size
+
+        attn_tp_rank = get_attention_tp_rank()
+        attn_tp_size = get_attention_tp_size()
+
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % attn_tp_size == 0
+        self.num_heads = self.total_num_heads // attn_tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= attn_tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % attn_tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert attn_tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // attn_tp_size)
+        self.head_dim = head_dim or hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+        self.tp_rank = get_tensor_model_parallel_rank()
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=attention_bias,
+            params_dtype=params_dtype,
+            quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
+            prefix=add_prefix("qkv_proj", prefix),
+        )
+
+        self.sinks = nn.Parameter(
+            torch.empty(self.num_heads, dtype=params_dtype), requires_grad=False
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=attention_bias,
+            quant_config=quant_config,
+            tp_rank=attn_tp_rank,
+            tp_size=attn_tp_size,
+            reduce_results=False,
+            params_dtype=params_dtype,
+            prefix=add_prefix("o_proj", prefix),
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+
+        assert layer_type in {"sliding_attention", "full_attention"}
+        use_sliding_window = layer_type == "sliding_attention"
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            layer_id=layer_id,
+            prefix=add_prefix("attn", prefix),
+            sliding_window_size=(sliding_window_size if use_sliding_window else -1),
+        )
+        self.layer_id = layer_id
+
+    def forward_prepare(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ):
+        if hidden_states.shape[0] == 0:
+            return hidden_states, forward_batch, None
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        inner_state = q, k, v, forward_batch
+        return None, forward_batch, inner_state
+
+    def forward_core(self, intermediate_state):
+        hidden_states, forward_batch, inner_state = intermediate_state
+        if inner_state is None:
+            return hidden_states
+        attn_output = self.attn(*inner_state, sk=self.sinks)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        s = self.forward_prepare(
+            positions=positions,
+            hidden_states=hidden_states,
+            forward_batch=forward_batch,
+        )
+        return self.forward_core(s)
+
+
+class GptOssDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: GptOssConfig,
+        layer_id: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        sliding_window_size: int | None = None,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        head_dim = getattr(
+            config, "head_dim", config.hidden_size // config.num_attention_heads
+        )
+        rms_norm_eps = config.rms_norm_eps
+        attention_bias = config.attention_bias
+
+        if sliding_window_size is None:
+            self.sliding_window_size = get_attention_sliding_window_size(self.config)
+        else:
+            self.sliding_window_size = sliding_window_size
+
+        self.self_attn = GptOssAttention(
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            layer_id=layer_id,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            head_dim=head_dim,
+            rms_norm_eps=rms_norm_eps,
+            attention_bias=attention_bias,
+            quant_config=quant_config,
+            prefix=add_prefix("self_attn", prefix),
+            sliding_window_size=self.sliding_window_size,
+            layer_type=config.layer_types[layer_id],
+            params_dtype=config.torch_dtype,
+        )
+
+        self.layer_id = layer_id
+
+        self.attn_tp_size = get_attention_tp_size()
+        self.attn_tp_rank = get_attention_tp_rank()
+        self.local_dp_size = get_local_attention_dp_size()
+
+        # GptOss all layers are sparse and have no nextn now
+        self.is_layer_sparse = True
+        is_previous_layer_sparse = True
+
+        self.layer_scatter_modes = LayerScatterModes.init_new(
+            layer_id=layer_id,
+            num_layers=config.num_hidden_layers,
+            is_layer_sparse=self.is_layer_sparse,
+            is_previous_layer_sparse=is_previous_layer_sparse,
+        )
+
+        if self.is_layer_sparse:
+            self.mlp = GptOssSparseMoeBlock(
+                layer_id=self.layer_id,
+                config=config,
+                quant_config=quant_config,
+                prefix=add_prefix("mlp", prefix),
+            )
+        else:
+            raise NotImplementedError(
+                "Dense MLP is not implemented for GptOssDecoderLayer. "
+                "Please use GptOssSparseMoeBlock instead."
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+        self.layer_communicator = LayerCommunicator(
+            layer_scatter_modes=self.layer_scatter_modes,
+            input_layernorm=self.input_layernorm,
+            post_attention_layernorm=self.post_attention_layernorm,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        forward_batch: ForwardBatch,
+        residual: Optional[torch.Tensor],
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        hidden_states, residual = self.layer_communicator.prepare_attn(
+            hidden_states, residual, forward_batch
+        )
+
+        if hidden_states.shape[0] != 0:
+            hidden_states = self.self_attn(
+                positions=positions,
+                hidden_states=hidden_states,
+                forward_batch=forward_batch,
+            )
+
+        hidden_states, residual = self.layer_communicator.prepare_mlp(
+            hidden_states, residual, forward_batch
+        )
+
+        hidden_states = self.mlp(hidden_states, forward_batch)
+
+        hidden_states, residual = self.layer_communicator.postprocess_layer(
+            hidden_states, residual, forward_batch
+        )
+
+        return hidden_states, residual
+
+
+class GptOssModel(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+        decoder_layer_type: type[nn.Module] = GptOssDecoderLayer,
+    ) -> None:
+        super().__init__()
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.pp_group = get_pp_group()
+
+        if self.pp_group.is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                enable_tp=not global_server_args_dict["enable_dp_attention"],
+                prefix=add_prefix("embed_tokens", prefix),
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        # Use the provided decoder layer type or default to GptOssDecoderLayer
+        decoder_layer_type = decoder_layer_type or GptOssDecoderLayer
+        self.layers, self.start_layer, self.end_layer = make_layers(
+            config.num_hidden_layers,
+            lambda idx, prefix: decoder_layer_type(
+                layer_id=idx,
+                config=config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            pp_rank=self.pp_group.rank_in_group,
+            pp_size=self.pp_group.world_size,
+            prefix=add_prefix("layers", prefix),
+        )
+        if self.pp_group.is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer(return_tuple=True)
+
+        self.layers_to_capture = []
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+        pp_proxy_tensors: Optional[PPProxyTensors] = None,
+    ) -> Union[torch.Tensor, PPProxyTensors]:
+        if self.pp_group.is_first_rank:
+            if input_embeds is None:
+                hidden_states = self.embed_tokens(input_ids)
+            else:
+                hidden_states = input_embeds
+            residual = None
+        else:
+            assert pp_proxy_tensors is not None
+            hidden_states = pp_proxy_tensors["hidden_states"]
+            residual = pp_proxy_tensors["residual"]
+
+        aux_hidden_states = []
+        for i in range(self.start_layer, self.end_layer):
+            with get_global_expert_distribution_recorder().with_current_layer(i):
+                if i in self.layers_to_capture:
+                    aux_hidden_states.append(hidden_states + residual)
+                layer = self.layers[i]
+                hidden_states, residual = layer(
+                    positions, hidden_states, forward_batch, residual
+                )
+        if not self.pp_group.is_last_rank:
+            return PPProxyTensors(
+                {
+                    "hidden_states": hidden_states,
+                    "residual": residual,
+                }
+            )
+        else:
+            if hidden_states.shape[0] != 0:
+                if residual is None:
+                    hidden_states = self.norm(hidden_states)
+                else:
+                    hidden_states, _ = self.norm(hidden_states, residual)
+        if len(aux_hidden_states) == 0:
+            return hidden_states
+
+        return hidden_states, aux_hidden_states
+
+
+class GptOssForCausalLM(nn.Module):
+    fall_back_to_pt_during_load = False
+
+    def __init__(
+        self,
+        config: GptOssConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.pp_group = get_pp_group()
+        self.config = config
+        self.quant_config = quant_config
+        self.model = GptOssModel(
+            config, quant_config, prefix=add_prefix("model", prefix)
+        )
+        self.lm_head = ParallelLMHead(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=add_prefix("lm_head", prefix),
+            use_attn_tp_group=global_server_args_dict["enable_dp_lm_head"],
+        )
+        self.logits_processor = LogitsProcessor(config)
+        self.capture_aux_hidden_states = False
+
+    @torch.no_grad()
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: torch.Tensor = None,
+        pp_proxy_tensors: Optional[PPProxyTensors] = None,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            forward_batch,
+            input_embeds,
+            pp_proxy_tensors=pp_proxy_tensors,
+        )
+
+        aux_hidden_states = None
+        if self.capture_aux_hidden_states:
+            hidden_states, aux_hidden_states = hidden_states
+
+        if self.pp_group.is_last_rank:
+            return self.logits_processor(
+                input_ids,
+                hidden_states,
+                self.lm_head,
+                forward_batch,
+                aux_hidden_states,
+            )
+        else:
+            return hidden_states
+
+    @property
+    def start_layer(self):
+        return self.model.start_layer
+
+    @property
+    def end_layer(self):
+        return self.model.end_layer
+
+    def _get_default_weight_mapping(self):
+        """Generate default weight name mapping for GptOss safetensors."""
+        weight_mapping = {}
+
+        # Map router weights to gate
+        weight_mapping["embedding.weight"] = "model.embed_tokens.weight"
+        weight_mapping["unembedding.weight"] = "lm_head.weight"
+        weight_mapping["norm.scale"] = "model.norm.weight"
+        for layer_id in range(self.config.num_hidden_layers):
+            weight_mapping[f"block.{layer_id}.attn.q_proj.weight"] = (
+                f"model.layers.{layer_id}.self_attn.q_proj.weight"
+            )
+            weight_mapping[f"block.{layer_id}.attn.q_proj.bias"] = (
+                f"model.layers.{layer_id}.self_attn.q_proj.bias"
+            )
+
+            weight_mapping[f"block.{layer_id}.attn.k_proj.weight"] = (
+                f"model.layers.{layer_id}.self_attn.k_proj.weight"
+            )
+            weight_mapping[f"block.{layer_id}.attn.k_proj.bias"] = (
+                f"model.layers.{layer_id}.self_attn.k_proj.bias"
+            )
+
+            weight_mapping[f"block.{layer_id}.attn.v_proj.weight"] = (
+                f"model.layers.{layer_id}.self_attn.v_proj.weight"
+            )
+            weight_mapping[f"block.{layer_id}.attn.v_proj.bias"] = (
+                f"model.layers.{layer_id}.self_attn.v_proj.bias"
+            )
+
+            weight_mapping[f"block.{layer_id}.attn.out.weight"] = (
+                f"model.layers.{layer_id}.self_attn.o_proj.weight"
+            )
+            weight_mapping[f"block.{layer_id}.attn.out.bias"] = (
+                f"model.layers.{layer_id}.self_attn.o_proj.bias"
+            )
+            weight_mapping[f"block.{layer_id}.attn.sinks"] = (
+                f"model.layers.{layer_id}.self_attn.sinks"
+            )
+            weight_mapping[f"block.{layer_id}.attn.norm.scale"] = (
+                f"model.layers.{layer_id}.input_layernorm.weight"
+            )
+
+            weight_mapping[f"block.{layer_id}.mlp.gate.weight"] = (
+                f"model.layers.{layer_id}.mlp.router.weight"
+            )
+            weight_mapping[f"block.{layer_id}.mlp.gate.bias"] = (
+                f"model.layers.{layer_id}.mlp.router.bias"
+            )
+            weight_mapping[f"block.{layer_id}.mlp.norm.scale"] = (
+                f"model.layers.{layer_id}.post_attention_layernorm.weight"
+            )
+            weight_mapping[f"block.{layer_id}.mlp.experts.gate_up_proj"] = (
+                f"model.layers.{layer_id}.mlp.experts.gate_up_proj"
+            )
+            weight_mapping[f"block.{layer_id}.mlp.gate_up_proj_bias"] = (
+                f"model.layers.{layer_id}.mlp.experts.gate_up_proj_bias"
+            )
+            weight_mapping[f"block.{layer_id}.mlp.down_proj"] = (
+                f"model.layers.{layer_id}.mlp.experts.mlp2_weight"
+            )
+            weight_mapping[f"block.{layer_id}.mlp.down_proj_bias"] = (
+                f"model.layers.{layer_id}.mlp.experts.mlp2_bias"
+            )
+
+        return weight_mapping
+
+    def load_weights(
+        self,
+        weights: Iterable[Tuple[str, torch.Tensor]],
+        is_nextn: bool = False,
+        weight_name_mapping: dict = None,
+    ):
+        tp_rank = get_tensor_model_parallel_rank()
+        if is_nextn:
+            logging.warning(
+                "Loading weights for nextn is currently not supported in GptOssForCausalLM. "
+            )
+            return
+        weights = _canonicalize_weights(self.config, weights)
+        weights = sorted(weights, key=lambda x: x[0])  # Sort by name for consistency
+
+        new_weights = []
+        for name, p in weights:
+            if "qkv.weight" in name:
+                q_proj, k_proj, v_proj = p.split(
+                    [
+                        self.config.num_attention_heads * self.config.head_dim,
+                        self.config.num_key_value_heads * self.config.head_dim,
+                        self.config.num_key_value_heads * self.config.head_dim,
+                    ],
+                    dim=0,
+                )
+                new_weights.append(
+                    (f"{name.replace('qkv.weight', 'q_proj.weight')}", q_proj)
+                )
+                new_weights.append(
+                    (f"{name.replace('qkv.weight', 'k_proj.weight')}", k_proj)
+                )
+                new_weights.append(
+                    (f"{name.replace('qkv.weight', 'v_proj.weight')}", v_proj)
+                )
+            elif "qkv.bias" in name:
+                q_bias, k_bias, v_bias = p.split(
+                    [
+                        self.config.num_attention_heads * self.config.head_dim,
+                        self.config.num_key_value_heads * self.config.head_dim,
+                        self.config.num_key_value_heads * self.config.head_dim,
+                    ],
+                    dim=0,
+                )
+                new_weights.append(
+                    (f"{name.replace('qkv.bias', 'q_proj.bias')}", q_bias)
+                )
+                new_weights.append(
+                    (f"{name.replace('qkv.bias', 'k_proj.bias')}", k_bias)
+                )
+                new_weights.append(
+                    (f"{name.replace('qkv.bias', 'v_proj.bias')}", v_bias)
+                )
+            else:
+                new_weights.append((name, p))
+        weights = new_weights
+
+        # Use provided weight name mapping if available, otherwise use default
+        if weight_name_mapping is None:
+            weight_name_mapping = self._get_default_weight_mapping()
+        else:
+            # Merge with default mapping
+            default_mapping = self._get_default_weight_mapping()
+            default_mapping.update(weight_name_mapping)
+            weight_name_mapping = default_mapping
+
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+
+        expert_params_mapping = get_moe_impl_class().make_expert_params_mapping_fused(
+            ckpt_gate_up_proj_name="gate_up_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_gate_up_proj_bias_name="gate_up_proj_bias",
+            ckpt_down_proj_bias_name="down_proj_bias",
+        )
+
+        params_dict = dict(self.named_parameters())
+        params_checker = {k: False for k, v in params_dict.items()}
+        for name, loaded_weight in weights:
+            loaded_weight = _WeightCreator.maybe_materialize(loaded_weight)
+
+            # Apply weight name mapping if provided
+            if weight_name_mapping and name in weight_name_mapping:
+                name = weight_name_mapping[name]
+
+            layer_id = get_layer_id(name)
+            if (
+                layer_id is not None
+                and hasattr(self.model, "start_layer")
+                and (
+                    layer_id < self.model.start_layer
+                    or layer_id >= self.model.end_layer
+                )
+            ):
+                continue
+
+            if "rotary_emb.inv_freq" in name:
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                if "mlp.experts" in name:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                params_checker[name] = True
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if name not in params_dict:
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    if "bias" not in name:
+                        loaded_weight = loaded_weight.transpose(-2, -1)
+                    if "w2_weight_bias" in name and get_moe_tensor_parallel_rank() != 0:
+                        loaded_weight = loaded_weight.zero_()
+
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                    )
+                    params_checker[name] = True
+                    break
+                else:
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+                    if name not in params_dict:
+                        continue
+                    if name in params_dict.keys():
+                        param = params_dict[name]
+                        if "sinks" in name:
+                            start = tp_rank * param.numel()
+                            param.data.copy_(
+                                loaded_weight[start : start + param.numel()]
+                            )
+                        else:
+                            weight_loader = getattr(
+                                param, "weight_loader", default_weight_loader
+                            )
+                            weight_loader(param, loaded_weight)
+                        params_checker[name] = True
+                    else:
+                        logger.warning(f"Parameter {name} not found in params_dict")
+
+        not_loaded_params = [k for k, v in params_checker.items() if not v]
+        if tp_rank == 0:
+            if len(not_loaded_params) > 0:
+                raise Exception(f"Not all parameters loaded: {not_loaded_params}")
+            else:
+                logging.info("All parameters loaded successfully.")
+
+        self.routed_experts_weights_of_layer = {
+            layer_id: self.model.layers[layer_id].mlp.get_moe_weights()
+            for layer_id in range(self.start_layer, self.end_layer)
+            if isinstance(self.model.layers[layer_id].mlp, GptOssSparseMoeBlock)
+        }
+
+    def get_embed_and_head(self):
+        return self.model.embed_tokens.weight, self.lm_head.weight
+
+    def set_embed_and_head(self, embed, head):
+        del self.model.embed_tokens.weight
+        del self.lm_head.weight
+        self.model.embed_tokens.weight = embed
+        self.lm_head.weight = head
+        torch.cuda.empty_cache()
+        torch.cuda.synchronize()
+
+    def set_eagle3_layers_to_capture(self, layer_ids: Optional[List[int]] = None):
+        if not self.pp_group.is_last_rank:
+            return
+
+        if layer_ids is None:
+            self.capture_aux_hidden_states = True
+            num_layers = self.config.num_hidden_layers
+            self.model.layers_to_capture = [2, num_layers // 2, num_layers - 3]
+        else:
+            self.capture_aux_hidden_states = True
+            # we plus 1 here because in sglang, for the ith layer, it takes the output
+            # of the (i-1)th layer as aux hidden state
+            self.model.layers_to_capture = [val + 1 for val in layer_ids]
+
+    @classmethod
+    def get_model_config_for_expert_location(cls, config):
+        return ModelConfigForExpertLocation(
+            num_layers=config.num_hidden_layers,
+            num_logical_experts=config.num_local_experts,
+            num_groups=None,
+        )
+
+    def get_attention_sliding_window_size(self):
+        return get_attention_sliding_window_size(self.config)
+
+
+def _canonicalize_weights(config, weights_in: Iterable[Tuple[str, torch.Tensor]]):
+    weights_out_dict = dict(weights_in)
+
+    for layer_id in range(config.num_hidden_layers):
+        for name_chunk in ["mlp1_weight", "mlp2_weight"]:
+            name_prefix = f"block.{layer_id}.mlp.{name_chunk}"
+            w_blocks = weights_out_dict.pop(f"{name_prefix}.blocks", None)
+            w_scales = weights_out_dict.pop(f"{name_prefix}.scales", None)
+            if w_blocks is not None:
+                weights_out_dict[name_prefix] = _WeightCreator(
+                    partial(
+                        _dequant_mlp_weight,
+                        debug_name=name_prefix,
+                        w_blocks=w_blocks,
+                        w_scales=w_scales,
+                    )
+                )
+
+    return list(weights_out_dict.items())
+
+
+def _dequant_mlp_weight(debug_name, w_blocks, w_scales):
+    if get_tensor_model_parallel_rank() == 0:
+        logger.info(f"Dequantize {debug_name} start")
+
+    original_device = w_blocks.device
+
+    w_blocks = w_blocks.cuda()
+    w_scales = w_scales.cuda()
+
+    w_bf16 = dequant_mxfp4(w_block=w_blocks, w_scale=w_scales, out_dtype=torch.bfloat16)
+    w_bf16 = w_bf16.transpose(-2, -1).contiguous()
+
+    if get_tensor_model_parallel_rank() == 0:
+        logger.info(
+            f"Dequantize {debug_name} end {w_blocks.shape=} {w_scales.shape=} {w_bf16.shape=}"
+        )
+
+    return w_bf16.to(original_device)
+
+
+class _WeightCreator:
+    def __init__(self, fn):
+        self._fn = fn
+
+    @staticmethod
+    def maybe_materialize(obj):
+        if isinstance(obj, _WeightCreator):
+            output = obj._fn()
+            obj._fn = None
+            return output
+
+        return obj
+
+
+EntryClass = GptOssForCausalLM
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 6c4a818ae225..0d64571c1acb 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -457,6 +457,10 @@ def print_deprecated_warning(message: str):
                 raise ValueError(
                     "trtllm_mla backend does not support speculative decoding yet."
                 )
+        model_arch = self.get_hf_config().architectures[0]
+        if model_arch in ["GptOssForCausalLM"]:
+            self.attention_backend = "triton"
+            self.enable_triton_kernel_moe = True
 
         # Set page size
         if self.page_size is None:

From 3ae8e3ea8f32ae42bbae512d4bda2f64eb6b770f Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Tue, 5 Aug 2025 17:32:01 -0700
Subject: [PATCH 370/396] chore: upgrade torch 2.8.0 (#8836)

---
 .github/workflows/vllm-dependency-test.yml |  2 +-
 python/pyproject.toml                      | 16 ++++++++--------
 python/sglang/srt/entrypoints/engine.py    |  2 +-
 scripts/ci_install_dependency.sh           |  2 +-
 4 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/.github/workflows/vllm-dependency-test.yml b/.github/workflows/vllm-dependency-test.yml
index c8c0b7374be1..e7c43b4c3327 100644
--- a/.github/workflows/vllm-dependency-test.yml
+++ b/.github/workflows/vllm-dependency-test.yml
@@ -29,9 +29,9 @@ jobs:
 
       - name: Install dependencies
         run: |
-          bash scripts/ci_install_dependency.sh
           pip install "vllm==0.10.0"
           pip install "bitsandbytes>=0.44.0"
+          bash scripts/ci_install_dependency.sh
 
       - name: Run VLLM dependency tests
         timeout-minutes: 60
diff --git a/python/pyproject.toml b/python/pyproject.toml
index ebb9ee60510a..3e63ed50cb6e 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -7,7 +7,7 @@ name = "sglang"
 version = "0.4.10.post2"
 description = "SGLang is yet another fast serving framework for large language models and vision language models."
 readme = "README.md"
-requires-python = ">=3.8"
+requires-python = ">=3.9"
 license = { file = "LICENSE" }
 classifiers = [
     "Programming Language :: Python :: 3",
@@ -54,10 +54,10 @@ runtime_common = [
 
 srt = [
     "sglang[runtime_common]",
-    "sgl-kernel==0.2.8",
-    "torch==2.7.1",
-    "torchaudio==2.7.1",
-    "torchvision==0.22.1",
+    "sgl-kernel==0.3.2",
+    "torch==2.8.0",
+    "torchaudio==2.8.0",
+    "torchvision",
     "cuda-python",
     "einops",
     "flashinfer_python==0.2.10",
@@ -66,9 +66,9 @@ srt = [
 blackwell = [
     "sglang[runtime_common]",
     "sgl-kernel",
-    "torch==2.7.1",
-    "torchaudio==2.7.1",
-    "torchvision==0.22.1",
+    "torch==2.8.0",
+    "torchaudio==2.8.0",
+    "torchvision",
     "cuda-python",
     "einops",
     "flashinfer_python==0.2.10",
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 22834c1e2263..73f0f76d04de 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -649,7 +649,7 @@ def _set_envs_and_config(server_args: ServerArgs):
     if _is_cuda:
         assert_pkg_version(
             "sgl-kernel",
-            "0.2.8",
+            "0.3.2",
             "Please reinstall the latest version with `pip install sgl-kernel --force-reinstall`",
         )
 
diff --git a/scripts/ci_install_dependency.sh b/scripts/ci_install_dependency.sh
index 7654a23adf46..73721da65532 100755
--- a/scripts/ci_install_dependency.sh
+++ b/scripts/ci_install_dependency.sh
@@ -17,7 +17,7 @@ rm -rf /usr/local/lib/python3.10/dist-packages/flashinfer*
 rm -rf /usr/local/lib/python3.10/dist-packages/sgl_kernel*
 
 # Install the main package
-pip install -e "python[dev]"
+pip install -e "python[dev]" --extra-index-url https://download.pytorch.org/whl/test/cu126
 
 # Show current packages
 pip list

From 5d62b56f7e9b79e1fb5d00d50512da7e2d71d481 Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Tue, 5 Aug 2025 18:30:19 -0700
Subject: [PATCH 371/396] [router] complete router oai spec (#8828)

---
 sgl-router/benches/request_processing.rs  | 169 ++++---
 sgl-router/src/openai_api_types.rs        | 203 +++++++-
 sgl-router/src/routers/pd_types.rs        | 106 ++---
 sgl-router/src/routers/request_adapter.rs | 554 +++++++++++++++-------
 sgl-router/tests/benchmark_integration.rs | 189 +++++---
 5 files changed, 856 insertions(+), 365 deletions(-)

diff --git a/sgl-router/benches/request_processing.rs b/sgl-router/benches/request_processing.rs
index db5cdc901154..a997b8dfd121 100644
--- a/sgl-router/benches/request_processing.rs
+++ b/sgl-router/benches/request_processing.rs
@@ -8,12 +8,116 @@ use sglang_router_rs::openai_api_types::{
 };
 use sglang_router_rs::routers::request_adapter::{RouteableRequest, ToPdRequest};
 
+/// Create a default GenerateRequest for benchmarks with minimal fields set
+fn default_generate_request() -> GenerateRequest {
+    GenerateRequest {
+        text: None,
+        prompt: None,
+        input_ids: None,
+        stream: false,
+        parameters: None,
+        sampling_params: None,
+        return_logprob: false,
+        // SGLang Extensions
+        lora_path: None,
+        session_params: None,
+        return_hidden_states: false,
+        rid: None,
+    }
+}
+
+/// Create a default ChatCompletionRequest for benchmarks with minimal fields set
+fn default_chat_completion_request() -> ChatCompletionRequest {
+    ChatCompletionRequest {
+        model: String::new(),
+        messages: vec![],
+        max_tokens: None,
+        max_completion_tokens: None,
+        temperature: None,
+        top_p: None,
+        n: None,
+        stream: false,
+        stream_options: None,
+        stop: None,
+        presence_penalty: None,
+        frequency_penalty: None,
+        logit_bias: None,
+        logprobs: false,
+        top_logprobs: None,
+        user: None,
+        response_format: None,
+        seed: None,
+        tools: None,
+        tool_choice: None,
+        parallel_tool_calls: None,
+        function_call: None,
+        functions: None,
+        // SGLang Extensions
+        top_k: None,
+        min_p: None,
+        min_tokens: None,
+        repetition_penalty: None,
+        regex: None,
+        ebnf: None,
+        stop_token_ids: None,
+        no_stop_trim: false,
+        ignore_eos: false,
+        continue_final_message: false,
+        skip_special_tokens: true,
+        // SGLang Extensions
+        lora_path: None,
+        session_params: None,
+        separate_reasoning: true,
+        stream_reasoning: true,
+        return_hidden_states: false,
+    }
+}
+
+/// Create a default CompletionRequest for benchmarks with minimal fields set
+fn default_completion_request() -> CompletionRequest {
+    CompletionRequest {
+        model: String::new(),
+        prompt: StringOrArray::String(String::new()),
+        suffix: None,
+        max_tokens: None,
+        temperature: None,
+        top_p: None,
+        n: None,
+        stream: false,
+        stream_options: None,
+        logprobs: None,
+        echo: false,
+        stop: None,
+        presence_penalty: None,
+        frequency_penalty: None,
+        best_of: None,
+        logit_bias: None,
+        user: None,
+        seed: None,
+        // SGLang Extensions
+        top_k: None,
+        min_p: None,
+        min_tokens: None,
+        repetition_penalty: None,
+        regex: None,
+        ebnf: None,
+        json_schema: None,
+        stop_token_ids: None,
+        no_stop_trim: false,
+        ignore_eos: false,
+        skip_special_tokens: true,
+        // SGLang Extensions
+        lora_path: None,
+        session_params: None,
+        return_hidden_states: false,
+        other: serde_json::Map::new(),
+    }
+}
+
 // Sample request data for benchmarks
 fn create_sample_generate_request() -> GenerateRequest {
     GenerateRequest {
         text: Some("Write a story about artificial intelligence".to_string()),
-        input_ids: None,
-        prompt: None,
         parameters: Some(GenerateParameters {
             max_new_tokens: Some(100),
             temperature: Some(0.8),
@@ -31,8 +135,7 @@ fn create_sample_generate_request() -> GenerateRequest {
             repetition_penalty: Some(1.0),
             ..Default::default()
         }),
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     }
 }
 
@@ -58,22 +161,10 @@ fn create_sample_chat_completion_request() -> ChatCompletionRequest {
         temperature: Some(0.7),
         top_p: Some(1.0),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        stop: None,
         presence_penalty: Some(0.0),
         frequency_penalty: Some(0.0),
-        logit_bias: None,
-        logprobs: false,
-        top_logprobs: None,
-        user: None,
-        response_format: None,
-        seed: None,
-        tools: None,
-        tool_choice: None,
         parallel_tool_calls: Some(true),
-        function_call: None,
-        functions: None,
+        ..default_chat_completion_request()
     }
 }
 
@@ -81,23 +172,14 @@ fn create_sample_completion_request() -> CompletionRequest {
     CompletionRequest {
         model: "text-davinci-003".to_string(),
         prompt: StringOrArray::String("Complete this sentence: The future of AI is".to_string()),
-        suffix: None,
         max_tokens: Some(50),
         temperature: Some(0.8),
         top_p: Some(1.0),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        logprobs: None,
-        echo: false,
-        stop: None,
         presence_penalty: Some(0.0),
         frequency_penalty: Some(0.0),
         best_of: Some(1),
-        logit_bias: None,
-        user: None,
-        seed: None,
-        other: serde_json::Map::new(),
+        ..default_completion_request()
     }
 }
 
@@ -121,6 +203,7 @@ fn create_large_chat_completion_request() -> ChatCompletionRequest {
             name: None,
             tool_calls: None,
             function_call: None,
+            reasoning_content: None,
         });
     }
 
@@ -132,22 +215,13 @@ fn create_large_chat_completion_request() -> ChatCompletionRequest {
         temperature: Some(0.7),
         top_p: Some(0.95),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        stop: None,
         presence_penalty: Some(0.1),
         frequency_penalty: Some(0.1),
-        logit_bias: None,
-        logprobs: false,
         top_logprobs: Some(5),
         user: Some("benchmark_user".to_string()),
-        response_format: None,
         seed: Some(42),
-        tools: None,
-        tool_choice: None,
         parallel_tool_calls: Some(true),
-        function_call: None,
-        functions: None,
+        ..default_chat_completion_request()
     }
 }
 
@@ -331,32 +405,17 @@ fn bench_throughput_by_size(c: &mut Criterion) {
     // Create requests of different sizes
     let small_generate = GenerateRequest {
         text: Some("Hi".to_string()),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     let medium_generate = GenerateRequest {
         text: Some("Write a medium length story about AI".repeat(10)),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     let large_generate = GenerateRequest {
         text: Some("Write a very long and detailed story about artificial intelligence and its impact on society".repeat(100)),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     for (name, req) in [
diff --git a/sgl-router/src/openai_api_types.rs b/sgl-router/src/openai_api_types.rs
index d57e617675c9..4a0fb0ee0101 100644
--- a/sgl-router/src/openai_api_types.rs
+++ b/sgl-router/src/openai_api_types.rs
@@ -6,6 +6,21 @@ use serde::{Deserialize, Serialize};
 use serde_json::Value;
 use std::collections::HashMap;
 
+/// Helper function for serde default value
+fn default_true() -> bool {
+    true
+}
+
+// ============= SGLang-Specific Types =============
+
+/// LoRA adapter path - can be single path or batch of paths
+#[derive(Debug, Clone, Deserialize, Serialize)]
+#[serde(untagged)]
+pub enum LoRAPath {
+    Single(Option<String>),
+    Batch(Vec<Option<String>>),
+}
+
 /// Common trait for all generation requests
 pub trait GenerationRequest: Send + Sync {
     /// Check if the request is for streaming
@@ -92,6 +107,64 @@ pub struct CompletionRequest {
     #[serde(skip_serializing_if = "Option::is_none")]
     pub seed: Option<i64>,
 
+    // ============= SGLang Extensions =============
+    /// Top-k sampling parameter (-1 to disable)
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub top_k: Option<i32>,
+
+    /// Min-p nucleus sampling parameter
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub min_p: Option<f32>,
+
+    /// Minimum number of tokens to generate
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub min_tokens: Option<u32>,
+
+    /// Repetition penalty for reducing repetitive text
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub repetition_penalty: Option<f32>,
+
+    /// Regex constraint for output generation
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub regex: Option<String>,
+
+    /// EBNF grammar constraint for structured output
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub ebnf: Option<String>,
+
+    /// JSON schema constraint for structured output
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub json_schema: Option<String>,
+
+    /// Specific token IDs to use as stop conditions
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub stop_token_ids: Option<Vec<i32>>,
+
+    /// Skip trimming stop tokens from output
+    #[serde(default)]
+    pub no_stop_trim: bool,
+
+    /// Ignore end-of-sequence tokens during generation
+    #[serde(default)]
+    pub ignore_eos: bool,
+
+    /// Skip special tokens during detokenization
+    #[serde(default = "default_true")]
+    pub skip_special_tokens: bool,
+
+    // ============= SGLang Extensions =============
+    /// Path to LoRA adapter(s) for model customization
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub lora_path: Option<LoRAPath>,
+
+    /// Session parameters for continual prompting
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub session_params: Option<HashMap<String, serde_json::Value>>,
+
+    /// Return model hidden states
+    #[serde(default)]
+    pub return_hidden_states: bool,
+
     /// Additional fields including bootstrap info for PD routing
     #[serde(flatten)]
     pub other: serde_json::Map<String, serde_json::Value>,
@@ -166,7 +239,7 @@ pub struct ChatCompletionRequest {
 
     /// Modify the likelihood of specified tokens appearing in the completion
     #[serde(skip_serializing_if = "Option::is_none")]
-    pub logit_bias: Option<HashMap<String, i32>>,
+    pub logit_bias: Option<HashMap<String, f32>>,
 
     /// A unique identifier representing your end-user
     #[serde(skip_serializing_if = "Option::is_none")]
@@ -207,6 +280,72 @@ pub struct ChatCompletionRequest {
     /// Deprecated: use tool_choice instead
     #[serde(skip_serializing_if = "Option::is_none")]
     pub function_call: Option<FunctionCall>,
+
+    // ============= SGLang Extensions =============
+    /// Top-k sampling parameter (-1 to disable)
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub top_k: Option<i32>,
+
+    /// Min-p nucleus sampling parameter
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub min_p: Option<f32>,
+
+    /// Minimum number of tokens to generate
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub min_tokens: Option<u32>,
+
+    /// Repetition penalty for reducing repetitive text
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub repetition_penalty: Option<f32>,
+
+    /// Regex constraint for output generation
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub regex: Option<String>,
+
+    /// EBNF grammar constraint for structured output
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub ebnf: Option<String>,
+
+    /// Specific token IDs to use as stop conditions
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub stop_token_ids: Option<Vec<i32>>,
+
+    /// Skip trimming stop tokens from output
+    #[serde(default)]
+    pub no_stop_trim: bool,
+
+    /// Ignore end-of-sequence tokens during generation
+    #[serde(default)]
+    pub ignore_eos: bool,
+
+    /// Continue generating from final assistant message
+    #[serde(default)]
+    pub continue_final_message: bool,
+
+    /// Skip special tokens during detokenization
+    #[serde(default = "default_true")]
+    pub skip_special_tokens: bool,
+
+    // ============= SGLang Extensions =============
+    /// Path to LoRA adapter(s) for model customization
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub lora_path: Option<LoRAPath>,
+
+    /// Session parameters for continual prompting
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub session_params: Option<HashMap<String, serde_json::Value>>,
+
+    /// Separate reasoning content from final answer (O1-style models)
+    #[serde(default = "default_true")]
+    pub separate_reasoning: bool,
+
+    /// Stream reasoning tokens during generation
+    #[serde(default = "default_true")]
+    pub stream_reasoning: bool,
+
+    /// Return model hidden states
+    #[serde(default)]
+    pub return_hidden_states: bool,
 }
 
 #[derive(Debug, Clone, Deserialize, Serialize)]
@@ -234,6 +373,9 @@ pub enum ChatMessage {
         tool_calls: Option<Vec<ToolCall>>,
         #[serde(skip_serializing_if = "Option::is_none")]
         function_call: Option<FunctionCallResponse>,
+        /// Reasoning content for O1-style models (SGLang extension)
+        #[serde(skip_serializing_if = "Option::is_none")]
+        reasoning_content: Option<String>,
     },
     Tool {
         role: String, // "tool"
@@ -378,7 +520,20 @@ impl GenerationRequest for ChatCompletionRequest {
                         Some(texts.join(" "))
                     }
                 },
-                ChatMessage::Assistant { content, .. } => content.clone(),
+                ChatMessage::Assistant {
+                    content,
+                    reasoning_content,
+                    ..
+                } => {
+                    // Combine content and reasoning content for routing decisions
+                    let main_content = content.clone().unwrap_or_default();
+                    let reasoning = reasoning_content.clone().unwrap_or_default();
+                    if main_content.is_empty() && reasoning.is_empty() {
+                        None
+                    } else {
+                        Some(format!("{} {}", main_content, reasoning).trim().to_string())
+                    }
+                }
                 ChatMessage::Tool { content, .. } => Some(content.clone()),
                 ChatMessage::Function { content, .. } => Some(content.clone()),
             })
@@ -418,6 +573,23 @@ pub struct GenerateRequest {
     /// Whether to return logprobs
     #[serde(default)]
     pub return_logprob: bool,
+
+    // ============= SGLang Extensions =============
+    /// Path to LoRA adapter(s) for model customization
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub lora_path: Option<LoRAPath>,
+
+    /// Session parameters for continual prompting
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub session_params: Option<HashMap<String, serde_json::Value>>,
+
+    /// Return model hidden states
+    #[serde(default)]
+    pub return_hidden_states: bool,
+
+    /// Request ID for tracking
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub rid: Option<String>,
 }
 
 #[derive(Debug, Clone, Deserialize, Serialize)]
@@ -485,6 +657,18 @@ pub struct SamplingParams {
     pub skip_special_tokens: Option<bool>,
     #[serde(skip_serializing_if = "Option::is_none")]
     pub json_schema: Option<String>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub regex: Option<String>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub ebnf: Option<String>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub min_p: Option<f32>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub min_tokens: Option<u32>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub stop_token_ids: Option<Vec<i32>>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub no_stop_trim: Option<bool>,
 }
 
 impl GenerationRequest for GenerateRequest {
@@ -561,6 +745,12 @@ pub struct CompletionChoice {
     #[serde(skip_serializing_if = "Option::is_none")]
     pub logprobs: Option<LogProbs>,
     pub finish_reason: Option<String>, // "stop", "length", "content_filter", etc.
+    /// Information about which stop condition was matched
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub matched_stop: Option<serde_json::Value>, // Can be string or integer
+    /// Hidden states from the model (SGLang extension)
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub hidden_states: Option<Vec<f32>>,
 }
 
 #[derive(Debug, Clone, Deserialize, Serialize)]
@@ -591,6 +781,12 @@ pub struct ChatChoice {
     #[serde(skip_serializing_if = "Option::is_none")]
     pub logprobs: Option<ChatLogProbs>,
     pub finish_reason: Option<String>, // "stop", "length", "tool_calls", "content_filter", "function_call"
+    /// Information about which stop condition was matched
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub matched_stop: Option<serde_json::Value>, // Can be string or integer
+    /// Hidden states from the model (SGLang extension)
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub hidden_states: Option<Vec<f32>>,
 }
 
 #[derive(Debug, Clone, Deserialize, Serialize)]
@@ -681,6 +877,9 @@ pub struct ChatMessageDelta {
     pub tool_calls: Option<Vec<ToolCallDelta>>,
     #[serde(skip_serializing_if = "Option::is_none")]
     pub function_call: Option<FunctionCallDelta>,
+    /// Reasoning content delta for O1-style models (SGLang extension)
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub reasoning_content: Option<String>,
 }
 
 #[derive(Debug, Clone, Deserialize, Serialize)]
diff --git a/sgl-router/src/routers/pd_types.rs b/sgl-router/src/routers/pd_types.rs
index ce13977d68a6..34dabdd26d61 100644
--- a/sgl-router/src/routers/pd_types.rs
+++ b/sgl-router/src/routers/pd_types.rs
@@ -278,11 +278,11 @@ mod bootstrap_tests {
     use crate::core::BasicWorker;
     use crate::openai_api_types::StringOrArray;
 
-    #[test]
-    fn test_completion_batch_size_with_array_prompt() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
+    /// Create a default CompletionRequest for testing with minimal fields set
+    fn default_completion_request() -> CompletionRequest {
+        CompletionRequest {
+            model: String::new(),
+            prompt: StringOrArray::String(String::new()),
             n: None,
             other: serde_json::Map::new(),
             suffix: None,
@@ -300,6 +300,31 @@ mod bootstrap_tests {
             logit_bias: None,
             user: None,
             seed: None,
+            // SGLang Extensions
+            top_k: None,
+            min_p: None,
+            min_tokens: None,
+            repetition_penalty: None,
+            regex: None,
+            ebnf: None,
+            json_schema: None,
+            stop_token_ids: None,
+            no_stop_trim: false,
+            ignore_eos: false,
+            skip_special_tokens: true,
+            // SGLang Extensions
+            lora_path: None,
+            session_params: None,
+            return_hidden_states: false,
+        }
+    }
+
+    #[test]
+    fn test_completion_batch_size_with_array_prompt() {
+        let req = CompletionRequest {
+            model: "test".to_string(),
+            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
+            ..default_completion_request()
         };
 
         // Should return batch size for array prompt
@@ -311,23 +336,7 @@ mod bootstrap_tests {
         let req = CompletionRequest {
             model: "test".to_string(),
             prompt: StringOrArray::String("single prompt".to_string()),
-            n: None,
-            other: serde_json::Map::new(),
-            suffix: None,
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
+            ..default_completion_request()
         };
 
         // Should return None for single prompt
@@ -340,22 +349,7 @@ mod bootstrap_tests {
             model: "test".to_string(),
             prompt: StringOrArray::String("single prompt".to_string()),
             n: Some(3),
-            other: serde_json::Map::new(),
-            suffix: None,
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
+            ..default_completion_request()
         };
 
         // Should return None for single string prompt, even with n > 1
@@ -368,23 +362,7 @@ mod bootstrap_tests {
         let mut req = CompletionRequest {
             model: "test".to_string(),
             prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
-            n: None,
-            other: serde_json::Map::new(),
-            suffix: None,
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
+            ..default_completion_request()
         };
 
         // Set bootstrap info - should always use single values
@@ -418,23 +396,7 @@ mod bootstrap_tests {
         let mut req = CompletionRequest {
             model: "test".to_string(),
             prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
-            n: None,
-            other: serde_json::Map::new(),
-            suffix: None,
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
+            ..default_completion_request()
         };
 
         // Set bootstrap info with arrays
diff --git a/sgl-router/src/routers/request_adapter.rs b/sgl-router/src/routers/request_adapter.rs
index f29bcecc9ea6..8092447933a4 100644
--- a/sgl-router/src/routers/request_adapter.rs
+++ b/sgl-router/src/routers/request_adapter.rs
@@ -176,6 +176,33 @@ impl ToPdRequest for CompletionRequest {
             self.stream => "stream"
         );
 
+        // Add SGLang extension fields
+        insert_if_some!(other,
+            // SGLang Extensions - Priority 1
+            self.top_k => "top_k",
+            self.min_p => "min_p",
+            self.min_tokens => "min_tokens",
+            self.repetition_penalty => "repetition_penalty",
+            self.regex => "regex",
+            self.ebnf => "ebnf",
+            self.stop_token_ids => "stop_token_ids",
+            // SGLang Extensions - Priority 2
+            self.lora_path => "lora_path",
+            self.session_params => "session_params"
+        );
+
+        // SGLang boolean extensions (CompletionRequest has these as bool, not Option<bool>)
+        other.insert("no_stop_trim".to_string(), self.no_stop_trim.into());
+        other.insert("ignore_eos".to_string(), self.ignore_eos.into());
+        other.insert(
+            "skip_special_tokens".to_string(),
+            self.skip_special_tokens.into(),
+        );
+        other.insert(
+            "return_hidden_states".to_string(),
+            self.return_hidden_states.into(),
+        );
+
         GenerateReqInput {
             text,
             input_ids: None,
@@ -226,14 +253,46 @@ impl ToPdRequest for ChatCompletionRequest {
             self.tool_choice => "tool_choice",
             self.parallel_tool_calls => "parallel_tool_calls",
             self.functions => "functions",
-            self.function_call => "function_call"
+            self.function_call => "function_call",
+            // SGLang Extensions - Priority 1
+            self.top_k => "top_k",
+            self.min_p => "min_p",
+            self.min_tokens => "min_tokens",
+            self.repetition_penalty => "repetition_penalty",
+            self.regex => "regex",
+            self.ebnf => "ebnf",
+            self.stop_token_ids => "stop_token_ids",
+            // SGLang Extensions - Priority 2
+            self.lora_path => "lora_path",
+            self.session_params => "session_params"
         );
 
-        // Handle boolean logprobs flag
+        // Handle boolean flags
         if self.logprobs {
             other.insert("logprobs".to_string(), true.into());
         }
 
+        // SGLang boolean extensions (ChatCompletionRequest has these as bool, not Option<bool>)
+        other.insert("no_stop_trim".to_string(), self.no_stop_trim.into());
+        other.insert("ignore_eos".to_string(), self.ignore_eos.into());
+        other.insert(
+            "continue_final_message".to_string(),
+            self.continue_final_message.into(),
+        );
+        other.insert(
+            "skip_special_tokens".to_string(),
+            self.skip_special_tokens.into(),
+        );
+        other.insert(
+            "separate_reasoning".to_string(),
+            self.separate_reasoning.into(),
+        );
+        other.insert("stream_reasoning".to_string(), self.stream_reasoning.into());
+        other.insert(
+            "return_hidden_states".to_string(),
+            self.return_hidden_states.into(),
+        );
+
         ChatReqInput {
             stream: self.stream,
             bootstrap_host: None,
@@ -271,18 +330,136 @@ mod tests {
     use serde_json::json;
     use std::collections::HashMap;
 
-    // ============= GenerateRequest to_pd_request Tests =============
-
-    #[test]
-    fn test_generate_to_pd_request_with_text_only() {
-        let req = GenerateRequest {
-            text: Some("Hello world".to_string()),
+    // ============= Test Helper Functions =============
+    //
+    // These helper functions create default request instances with all required SGLang extension fields
+    // properly initialized. Use the struct spread operator `..default_*_request()` to override only
+    // the fields you need for specific tests, avoiding repetitive boilerplate code.
+    //
+    // Example usage:
+    //   let req = GenerateRequest {
+    //       text: Some("Custom text".to_string()),
+    //       stream: true,
+    //       ..default_generate_request()
+    //   };
+
+    /// Create a default GenerateRequest with minimal fields set
+    fn default_generate_request() -> GenerateRequest {
+        GenerateRequest {
+            text: None,
             prompt: None,
             input_ids: None,
             stream: false,
             parameters: None,
             sampling_params: None,
             return_logprob: false,
+            // SGLang Extensions
+            lora_path: None,
+            session_params: None,
+            return_hidden_states: false,
+            rid: None,
+        }
+    }
+
+    /// Create a default CompletionRequest with minimal fields set
+    fn default_completion_request() -> CompletionRequest {
+        CompletionRequest {
+            model: "test-model".to_string(),
+            prompt: StringOrArray::String("test prompt".to_string()),
+            max_tokens: None,
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            logprobs: None,
+            echo: false,
+            stop: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            best_of: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            suffix: None,
+            // SGLang Extensions
+            top_k: None,
+            min_p: None,
+            min_tokens: None,
+            repetition_penalty: None,
+            regex: None,
+            ebnf: None,
+            json_schema: None,
+            stop_token_ids: None,
+            no_stop_trim: false,
+            ignore_eos: false,
+            skip_special_tokens: true,
+            // SGLang Extensions
+            lora_path: None,
+            session_params: None,
+            return_hidden_states: false,
+            other: serde_json::Map::new(),
+        }
+    }
+
+    /// Create a default ChatCompletionRequest with minimal fields set
+    fn default_chat_completion_request() -> ChatCompletionRequest {
+        ChatCompletionRequest {
+            model: "test-model".to_string(),
+            messages: vec![ChatMessage::User {
+                role: "user".to_string(),
+                content: UserMessageContent::Text("test message".to_string()),
+                name: None,
+            }],
+            temperature: None,
+            top_p: None,
+            n: None,
+            stream: false,
+            stream_options: None,
+            stop: None,
+            max_tokens: None,
+            max_completion_tokens: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            logit_bias: None,
+            logprobs: false,
+            top_logprobs: None,
+            user: None,
+            seed: None,
+            response_format: None,
+            tools: None,
+            tool_choice: None,
+            parallel_tool_calls: None,
+            functions: None,
+            function_call: None,
+            // SGLang Extensions
+            top_k: None,
+            min_p: None,
+            min_tokens: None,
+            repetition_penalty: None,
+            regex: None,
+            ebnf: None,
+            stop_token_ids: None,
+            no_stop_trim: false,
+            ignore_eos: false,
+            continue_final_message: false,
+            skip_special_tokens: true,
+            // SGLang Extensions
+            lora_path: None,
+            session_params: None,
+            separate_reasoning: true,
+            stream_reasoning: true,
+            return_hidden_states: false,
+        }
+    }
+
+    // ============= GenerateRequest to_pd_request Tests =============
+
+    #[test]
+    fn test_generate_to_pd_request_with_text_only() {
+        let req = GenerateRequest {
+            text: Some("Hello world".to_string()),
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -308,13 +485,10 @@ mod tests {
     #[test]
     fn test_generate_to_pd_request_with_prompt_string() {
         let req = GenerateRequest {
-            text: None,
             prompt: Some(StringOrArray::String("Test prompt".to_string())),
-            input_ids: None,
             stream: true,
-            parameters: None,
-            sampling_params: None,
             return_logprob: true,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -342,6 +516,7 @@ mod tests {
             parameters: None,
             sampling_params: None,
             return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -360,13 +535,8 @@ mod tests {
     #[test]
     fn test_generate_to_pd_request_with_single_input_ids() {
         let req = GenerateRequest {
-            text: None,
-            prompt: None,
             input_ids: Some(InputIds::Single(vec![100, 200, 300, 400])),
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -381,17 +551,12 @@ mod tests {
     #[test]
     fn test_generate_to_pd_request_with_batch_input_ids() {
         let req = GenerateRequest {
-            text: None,
-            prompt: None,
             input_ids: Some(InputIds::Batch(vec![
                 vec![1, 2, 3],
                 vec![4, 5, 6, 7],
                 vec![8, 9],
             ])),
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -413,10 +578,7 @@ mod tests {
             text: Some("SGLang text".to_string()),
             prompt: Some(StringOrArray::String("OpenAI prompt".to_string())),
             input_ids: Some(InputIds::Single(vec![1, 2, 3])),
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -429,13 +591,9 @@ mod tests {
     #[test]
     fn test_generate_to_pd_request_priority_prompt_over_input_ids() {
         let req = GenerateRequest {
-            text: None,
             prompt: Some(StringOrArray::String("OpenAI prompt".to_string())),
             input_ids: Some(InputIds::Single(vec![1, 2, 3])),
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -459,12 +617,8 @@ mod tests {
 
         let req = GenerateRequest {
             text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
             parameters: Some(params),
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -497,12 +651,8 @@ mod tests {
 
         let req = GenerateRequest {
             text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: None,
             sampling_params: Some(sampling),
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -546,6 +696,7 @@ mod tests {
             parameters: Some(params),
             sampling_params: Some(sampling),
             return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -568,6 +719,7 @@ mod tests {
             parameters: Some(params),
             sampling_params: None,
             return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -603,6 +755,7 @@ mod tests {
             parameters: Some(params),
             sampling_params: Some(sampling),
             return_logprob: true,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -632,23 +785,7 @@ mod tests {
         let req = CompletionRequest {
             model: "gpt-3.5-turbo".to_string(),
             prompt: StringOrArray::String("Complete this sentence".to_string()),
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            suffix: None,
-            other: serde_json::Map::new(),
+            ..default_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -672,23 +809,7 @@ mod tests {
                 "First prompt".to_string(),
                 "Second prompt".to_string(),
             ]),
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            suffix: None,
-            other: serde_json::Map::new(),
+            ..default_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -727,7 +848,7 @@ mod tests {
             user: Some("user123".to_string()),
             seed: Some(42),
             suffix: Some("...".to_string()),
-            other: serde_json::Map::new(),
+            ..default_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -771,7 +892,7 @@ mod tests {
             user: None,
             seed: None,
             suffix: None,
-            other: serde_json::Map::new(),
+            ..default_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -803,7 +924,7 @@ mod tests {
             user: None,
             seed: None,
             suffix: None,
-            other: serde_json::Map::new(),
+            ..default_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -834,27 +955,7 @@ mod tests {
         let req = ChatCompletionRequest {
             messages,
             model: "gpt-4".to_string(),
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            stop: None,
-            max_tokens: None,
-            max_completion_tokens: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            logit_bias: None,
-            logprobs: false,
-            top_logprobs: None,
-            user: None,
-            seed: None,
-            response_format: None,
-            tools: None,
-            tool_choice: None,
-            parallel_tool_calls: None,
-            functions: None,
-            function_call: None,
+            ..default_chat_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -883,7 +984,7 @@ mod tests {
         }];
 
         let mut logit_bias = HashMap::new();
-        logit_bias.insert("50256".to_string(), -100);
+        logit_bias.insert("50256".to_string(), -100.0f32);
 
         let tool = Tool {
             tool_type: "function".to_string(),
@@ -920,6 +1021,7 @@ mod tests {
             parallel_tool_calls: Some(false),
             functions: None,
             function_call: None,
+            ..default_chat_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -968,27 +1070,7 @@ mod tests {
         let req = ChatCompletionRequest {
             messages,
             model: "gpt-4-vision".to_string(),
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            stop: None,
-            max_tokens: None,
-            max_completion_tokens: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            logit_bias: None,
-            logprobs: false,
-            top_logprobs: None,
-            user: None,
-            seed: None,
-            response_format: None,
-            tools: None,
-            tool_choice: None,
-            parallel_tool_calls: None,
-            functions: None,
-            function_call: None,
+            ..default_chat_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1037,6 +1119,7 @@ mod tests {
             parallel_tool_calls: None,
             functions: None,
             function_call: None,
+            ..default_chat_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1054,32 +1137,13 @@ mod tests {
             name: None,
             tool_calls: None,
             function_call: None,
+            reasoning_content: None,
         }];
 
         let req = ChatCompletionRequest {
             messages,
             model: "gpt-3.5-turbo".to_string(),
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            stop: None,
-            max_tokens: None,
-            max_completion_tokens: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            logit_bias: None,
-            logprobs: false,
-            top_logprobs: None,
-            user: None,
-            seed: None,
-            response_format: None,
-            tools: None,
-            tool_choice: None,
-            parallel_tool_calls: None,
-            functions: None,
-            function_call: None,
+            ..default_chat_completion_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1101,12 +1165,7 @@ mod tests {
     fn test_routeable_request_to_json() {
         let req = GenerateRequest {
             text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let json = req.to_json().unwrap();
@@ -1166,6 +1225,7 @@ mod tests {
             parameters: Some(params),
             sampling_params: None,
             return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1187,6 +1247,7 @@ mod tests {
             parameters: None,
             sampling_params: None,
             return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1206,12 +1267,7 @@ mod tests {
 
         let req = GenerateRequest {
             text: Some(unicode_text.clone()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1250,6 +1306,7 @@ mod tests {
             parameters: Some(params),
             sampling_params: None,
             return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1265,12 +1322,7 @@ mod tests {
     fn test_bootstrap_fields_none() {
         let req = GenerateRequest {
             text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
+            ..default_generate_request()
         };
 
         let pd_req = req.to_pd_request();
@@ -1279,4 +1331,182 @@ mod tests {
         assert_eq!(pd_req.bootstrap_port, None);
         assert_eq!(pd_req.bootstrap_room, None);
     }
+
+    // ============= SGLang Extension Field Pass-Through Tests =============
+
+    #[test]
+    fn test_chat_completion_sglang_extensions_passed_through() {
+        let messages = vec![ChatMessage::User {
+            role: "user".to_string(),
+            content: UserMessageContent::Text("Test".to_string()),
+            name: None,
+        }];
+
+        let mut session_params = std::collections::HashMap::new();
+        session_params.insert(
+            "key".to_string(),
+            serde_json::Value::String("value".to_string()),
+        );
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "test-model".to_string(),
+            // SGLang Extensions - Priority 1
+            top_k: Some(40),
+            min_p: Some(0.05),
+            min_tokens: Some(10),
+            repetition_penalty: Some(1.1),
+            regex: Some("test_regex".to_string()),
+            ebnf: Some("test_ebnf".to_string()),
+            stop_token_ids: Some(vec![1, 2, 3]),
+            // SGLang Extensions - Priority 2
+            lora_path: Some(LoRAPath::Single(Some("test_lora.bin".to_string()))),
+            session_params: Some(session_params.clone()),
+            // Boolean extensions (ChatCompletionRequest has these as bool, not Option<bool>)
+            no_stop_trim: true,
+            ignore_eos: false,
+            continue_final_message: true,
+            skip_special_tokens: false,
+            separate_reasoning: true,
+            stream_reasoning: false,
+            return_hidden_states: true,
+            ..default_chat_completion_request()
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Verify SGLang extensions are passed through
+        assert_eq!(other.get("top_k"), Some(&json!(40)));
+        assert!((other.get("min_p").unwrap().as_f64().unwrap() - 0.05).abs() < 0.0001);
+        assert_eq!(other.get("min_tokens"), Some(&json!(10)));
+        assert!((other.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.1).abs() < 0.0001);
+        assert_eq!(other.get("regex"), Some(&json!("test_regex")));
+        assert_eq!(other.get("ebnf"), Some(&json!("test_ebnf")));
+        assert_eq!(other.get("stop_token_ids"), Some(&json!(vec![1, 2, 3])));
+        assert_eq!(other.get("lora_path"), Some(&json!("test_lora.bin")));
+        assert_eq!(
+            other.get("session_params"),
+            Some(&serde_json::to_value(&session_params).unwrap())
+        );
+
+        // Verify boolean extensions
+        assert_eq!(other.get("no_stop_trim"), Some(&json!(true)));
+        assert_eq!(other.get("ignore_eos"), Some(&json!(false)));
+        assert_eq!(other.get("continue_final_message"), Some(&json!(true)));
+        assert_eq!(other.get("skip_special_tokens"), Some(&json!(false)));
+        assert_eq!(other.get("separate_reasoning"), Some(&json!(true)));
+        assert_eq!(other.get("stream_reasoning"), Some(&json!(false)));
+        assert_eq!(other.get("return_hidden_states"), Some(&json!(true)));
+    }
+
+    #[test]
+    fn test_completion_request_sglang_extensions_passed_through() {
+        let mut session_params = std::collections::HashMap::new();
+        session_params.insert(
+            "key".to_string(),
+            serde_json::Value::String("value".to_string()),
+        );
+
+        let req = CompletionRequest {
+            prompt: StringOrArray::String("Test prompt".to_string()),
+            model: "test-model".to_string(),
+            // SGLang Extensions - Priority 1
+            top_k: Some(40),
+            min_p: Some(0.05),
+            min_tokens: Some(10),
+            repetition_penalty: Some(1.1),
+            regex: Some("test_regex".to_string()),
+            ebnf: Some("test_ebnf".to_string()),
+            stop_token_ids: Some(vec![1, 2, 3]),
+            // SGLang Extensions - Priority 2
+            lora_path: Some(LoRAPath::Single(Some("test_lora.bin".to_string()))),
+            session_params: Some(session_params.clone()),
+            // Boolean extensions (CompletionRequest only has these 4 boolean fields)
+            no_stop_trim: true,
+            ignore_eos: false,
+            skip_special_tokens: false,
+            return_hidden_states: true,
+            ..default_completion_request()
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Verify SGLang extensions are passed through
+        assert_eq!(other.get("top_k"), Some(&json!(40)));
+        assert!((other.get("min_p").unwrap().as_f64().unwrap() - 0.05).abs() < 0.0001);
+        assert_eq!(other.get("min_tokens"), Some(&json!(10)));
+        assert!((other.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.1).abs() < 0.0001);
+        assert_eq!(other.get("regex"), Some(&json!("test_regex")));
+        assert_eq!(other.get("ebnf"), Some(&json!("test_ebnf")));
+        assert_eq!(other.get("stop_token_ids"), Some(&json!(vec![1, 2, 3])));
+        assert_eq!(other.get("lora_path"), Some(&json!("test_lora.bin")));
+        assert_eq!(
+            other.get("session_params"),
+            Some(&serde_json::to_value(&session_params).unwrap())
+        );
+
+        // Verify boolean extensions (only the ones CompletionRequest has)
+        assert_eq!(other.get("no_stop_trim"), Some(&json!(true)));
+        assert_eq!(other.get("ignore_eos"), Some(&json!(false)));
+        assert_eq!(other.get("skip_special_tokens"), Some(&json!(false)));
+        assert_eq!(other.get("return_hidden_states"), Some(&json!(true)));
+    }
+
+    #[test]
+    fn test_sglang_extensions_none_values_not_passed_through() {
+        let messages = vec![ChatMessage::User {
+            role: "user".to_string(),
+            content: UserMessageContent::Text("Test".to_string()),
+            name: None,
+        }];
+
+        let req = ChatCompletionRequest {
+            messages,
+            model: "test-model".to_string(),
+            // All SGLang extensions as None/default - Optional fields won't appear, bools will use defaults
+            top_k: None,
+            min_p: None,
+            min_tokens: None,
+            repetition_penalty: None,
+            regex: None,
+            ebnf: None,
+            stop_token_ids: None,
+            lora_path: None,
+            session_params: None,
+            // Boolean fields use defaults (false for most, true for some with default_true)
+            no_stop_trim: false,
+            ignore_eos: false,
+            continue_final_message: false,
+            skip_special_tokens: true, // This has default_true
+            separate_reasoning: true,  // This has default_true
+            stream_reasoning: true,    // This has default_true
+            return_hidden_states: false,
+            ..default_chat_completion_request()
+        };
+
+        let pd_req = req.to_pd_request();
+        let other = pd_req.other.as_object().unwrap();
+
+        // Verify None values are not included
+        assert!(!other.contains_key("top_k"));
+        assert!(!other.contains_key("min_p"));
+        assert!(!other.contains_key("min_tokens"));
+        assert!(!other.contains_key("repetition_penalty"));
+        assert!(!other.contains_key("regex"));
+        assert!(!other.contains_key("ebnf"));
+        assert!(!other.contains_key("stop_token_ids"));
+        assert!(!other.contains_key("lora_path"));
+        assert!(!other.contains_key("session_params"));
+
+        // Boolean fields are always present with their values (can't be None)
+        assert_eq!(other.get("no_stop_trim"), Some(&json!(false)));
+        assert_eq!(other.get("ignore_eos"), Some(&json!(false)));
+        assert_eq!(other.get("continue_final_message"), Some(&json!(false)));
+        assert_eq!(other.get("skip_special_tokens"), Some(&json!(true))); // default_true
+        assert_eq!(other.get("separate_reasoning"), Some(&json!(true))); // default_true
+        assert_eq!(other.get("stream_reasoning"), Some(&json!(true))); // default_true
+        assert_eq!(other.get("return_hidden_states"), Some(&json!(false)));
+    }
 }
diff --git a/sgl-router/tests/benchmark_integration.rs b/sgl-router/tests/benchmark_integration.rs
index b7876e22398b..75c55986f6e6 100644
--- a/sgl-router/tests/benchmark_integration.rs
+++ b/sgl-router/tests/benchmark_integration.rs
@@ -8,14 +8,118 @@ use sglang_router_rs::openai_api_types::{
 };
 use sglang_router_rs::routers::request_adapter::{RouteableRequest, ToPdRequest};
 
+/// Create a default GenerateRequest for benchmarks with minimal fields set
+fn default_generate_request() -> GenerateRequest {
+    GenerateRequest {
+        text: None,
+        prompt: None,
+        input_ids: None,
+        stream: false,
+        parameters: None,
+        sampling_params: None,
+        return_logprob: false,
+        // SGLang Extensions
+        lora_path: None,
+        session_params: None,
+        return_hidden_states: false,
+        rid: None,
+    }
+}
+
+/// Create a default ChatCompletionRequest for benchmarks with minimal fields set
+fn default_chat_completion_request() -> ChatCompletionRequest {
+    ChatCompletionRequest {
+        model: String::new(),
+        messages: vec![],
+        max_tokens: None,
+        max_completion_tokens: None,
+        temperature: None,
+        top_p: None,
+        n: None,
+        stream: false,
+        stream_options: None,
+        stop: None,
+        presence_penalty: None,
+        frequency_penalty: None,
+        logit_bias: None,
+        logprobs: false,
+        top_logprobs: None,
+        user: None,
+        response_format: None,
+        seed: None,
+        tools: None,
+        tool_choice: None,
+        parallel_tool_calls: None,
+        function_call: None,
+        functions: None,
+        // SGLang Extensions
+        top_k: None,
+        min_p: None,
+        min_tokens: None,
+        repetition_penalty: None,
+        regex: None,
+        ebnf: None,
+        stop_token_ids: None,
+        no_stop_trim: false,
+        ignore_eos: false,
+        continue_final_message: false,
+        skip_special_tokens: true,
+        // SGLang Extensions
+        lora_path: None,
+        session_params: None,
+        separate_reasoning: true,
+        stream_reasoning: true,
+        return_hidden_states: false,
+    }
+}
+
+/// Create a default CompletionRequest for benchmarks with minimal fields set
+fn default_completion_request() -> CompletionRequest {
+    CompletionRequest {
+        model: String::new(),
+        prompt: StringOrArray::String(String::new()),
+        suffix: None,
+        max_tokens: None,
+        temperature: None,
+        top_p: None,
+        n: None,
+        stream: false,
+        stream_options: None,
+        logprobs: None,
+        echo: false,
+        stop: None,
+        presence_penalty: None,
+        frequency_penalty: None,
+        best_of: None,
+        logit_bias: None,
+        user: None,
+        seed: None,
+        // SGLang Extensions
+        top_k: None,
+        min_p: None,
+        min_tokens: None,
+        repetition_penalty: None,
+        regex: None,
+        ebnf: None,
+        json_schema: None,
+        stop_token_ids: None,
+        no_stop_trim: false,
+        ignore_eos: false,
+        skip_special_tokens: true,
+        // SGLang Extensions
+        lora_path: None,
+        session_params: None,
+        return_hidden_states: false,
+        other: serde_json::Map::new(),
+    }
+}
+
 #[test]
 fn test_benchmark_request_creation() {
     // Ensure all benchmark request types can be created without panicking
 
     let generate_req = GenerateRequest {
         text: Some("Test prompt".to_string()),
-        input_ids: None,
-        prompt: None,
         parameters: Some(GenerateParameters {
             max_new_tokens: Some(100),
             temperature: Some(0.8),
@@ -33,8 +137,7 @@ fn test_benchmark_request_creation() {
             repetition_penalty: Some(1.0),
             ..Default::default()
         }),
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     let chat_req = ChatCompletionRequest {
@@ -49,44 +152,23 @@ fn test_benchmark_request_creation() {
         temperature: Some(0.7),
         top_p: Some(1.0),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        stop: None,
         presence_penalty: Some(0.0),
         frequency_penalty: Some(0.0),
-        logit_bias: None,
-        logprobs: false,
-        top_logprobs: None,
-        user: None,
-        response_format: None,
-        seed: None,
-        tools: None,
-        tool_choice: None,
         parallel_tool_calls: Some(true),
-        function_call: None,
-        functions: None,
+        ..default_chat_completion_request()
     };
 
     let completion_req = CompletionRequest {
         model: "test-model".to_string(),
         prompt: StringOrArray::String("Test prompt".to_string()),
-        suffix: None,
         max_tokens: Some(50),
         temperature: Some(0.8),
         top_p: Some(1.0),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        logprobs: None,
-        echo: false,
-        stop: None,
         presence_penalty: Some(0.0),
         frequency_penalty: Some(0.0),
         best_of: Some(1),
-        logit_bias: None,
-        user: None,
-        seed: None,
-        other: serde_json::Map::new(),
+        ..default_completion_request()
     };
 
     // Test serialization works
@@ -101,12 +183,7 @@ fn test_benchmark_serialization_roundtrip() {
 
     let generate_req = GenerateRequest {
         text: Some("Test prompt".to_string()),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     // Serialize and deserialize
@@ -125,12 +202,7 @@ fn test_benchmark_request_adaptation() {
 
     let generate_req = GenerateRequest {
         text: Some("Test prompt".to_string()),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     let chat_req = ChatCompletionRequest {
@@ -145,44 +217,23 @@ fn test_benchmark_request_adaptation() {
         temperature: Some(0.7),
         top_p: Some(1.0),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        stop: None,
         presence_penalty: Some(0.0),
         frequency_penalty: Some(0.0),
-        logit_bias: None,
-        logprobs: false,
-        top_logprobs: None,
-        user: None,
-        response_format: None,
-        seed: None,
-        tools: None,
-        tool_choice: None,
         parallel_tool_calls: Some(true),
-        function_call: None,
-        functions: None,
+        ..default_chat_completion_request()
     };
 
     let completion_req = CompletionRequest {
         model: "test-model".to_string(),
         prompt: StringOrArray::String("Test prompt".to_string()),
-        suffix: None,
         max_tokens: Some(50),
         temperature: Some(0.8),
         top_p: Some(1.0),
         n: Some(1),
-        stream: false,
-        stream_options: None,
-        logprobs: None,
-        echo: false,
-        stop: None,
         presence_penalty: Some(0.0),
         frequency_penalty: Some(0.0),
         best_of: Some(1),
-        logit_bias: None,
-        user: None,
-        seed: None,
-        other: serde_json::Map::new(),
+        ..default_completion_request()
     };
 
     // Test PD adaptation (should not panic)
@@ -197,12 +248,7 @@ fn test_benchmark_regular_routing() {
 
     let generate_req = GenerateRequest {
         text: Some("Test prompt".to_string()),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     // Test regular routing methods (should not panic)
@@ -217,12 +263,7 @@ fn test_benchmark_performance_baseline() {
 
     let generate_req = GenerateRequest {
         text: Some("Short test prompt".to_string()),
-        input_ids: None,
-        prompt: None,
-        parameters: None,
-        sampling_params: None,
-        stream: false,
-        return_logprob: false,
+        ..default_generate_request()
     };
 
     // Serialization should be fast (< 1ms for simple requests)

From 8128e08d3652cef9821aac50a1f2ce99bb282c40 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 6 Aug 2025 09:53:45 +0800
Subject: [PATCH 372/396] Turn off hybrid cache by default (#8839)

---
 python/sglang/srt/server_args.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 0d64571c1acb..10e8278a63f5 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -461,6 +461,7 @@ def print_deprecated_warning(message: str):
         if model_arch in ["GptOssForCausalLM"]:
             self.attention_backend = "triton"
             self.enable_triton_kernel_moe = True
+            self.disable_hybrid_swa_memory = True
 
         # Set page size
         if self.page_size is None:

From d26ca84f39ab322773defc126973549f83b8954f Mon Sep 17 00:00:00 2001
From: Praneth Paruchuri <34855725+ppraneth@users.noreply.github.com>
Date: Wed, 6 Aug 2025 09:10:34 +0530
Subject: [PATCH 373/396] Support bailing moe (#8680)

---
 docs/supported_models/generative_models.md |   1 +
 python/sglang/srt/models/bailing_moe.py    | 425 +++++++++++++++++++++
 test/srt/models/test_generation_models.py  |   1 +
 3 files changed, 427 insertions(+)
 create mode 100644 python/sglang/srt/models/bailing_moe.py

diff --git a/docs/supported_models/generative_models.md b/docs/supported_models/generative_models.md
index 375e24cd453b..4f65c872ae2f 100644
--- a/docs/supported_models/generative_models.md
+++ b/docs/supported_models/generative_models.md
@@ -47,5 +47,6 @@ in the GitHub search bar.
 | **MiMo** (7B series)               | `XiaomiMiMo/MiMo-7B-RL`                         | Xiaomi's reasoning-optimized model series, leverages Multiple-Token Prediction for faster inference. |
 | **Arcee AFM-4.5B**               | `arcee-ai/AFM-4.5B-Base`                         | Arcee's foundational model series for real world reliability and edge deployments. |
 | **Persimmon** (8B)               | `adept/persimmon-8b-chat`                         | Adept’s open 8B model with a 16K context window and fast inference; trained for broad usability and licensed under Apache 2.0. |
+| **Ling** (16.8B–290B) | `inclusionAI/Ling-lite`, `inclusionAI/Ling-plus` | InclusionAI’s open MoE models. Ling-Lite has 16.8B total / 2.75B active parameters, and Ling-Plus has 290B total / 28.8B active parameters. They are designed for high performance on NLP and complex reasoning tasks. |
 | **Granite 3.0, 3.1** (IBM)               | `ibm-granite/granite-3.1-8b-instruct`                          | IBM's open dense foundation models optimized for reasoning, code, and business AI use cases. Integrated with Red Hat and watsonx systems. |
 | **Granite 3.0 MoE** (IBM)               | `ibm-granite/granite-3.0-3b-a800m-instruct`                          | IBM’s Mixture-of-Experts models offering strong performance with cost-efficiency. MoE expert routing designed for enterprise deployment at scale. |
diff --git a/python/sglang/srt/models/bailing_moe.py b/python/sglang/srt/models/bailing_moe.py
new file mode 100644
index 000000000000..73e5a9a16366
--- /dev/null
+++ b/python/sglang/srt/models/bailing_moe.py
@@ -0,0 +1,425 @@
+# Copyright 2023-2024 SGLang Team
+# Adapted from https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/models/bailing_moe.py
+
+from collections.abc import Iterable
+from typing import Optional, Tuple
+
+import torch
+import torch.nn.functional as F
+from torch import nn
+from transformers.configuration_utils import PretrainedConfig
+
+from sglang.srt.distributed import (
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.layernorm import RMSNorm
+from sglang.srt.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from sglang.srt.layers.logits_processor import LogitsProcessor
+from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+from sglang.srt.layers.moe.topk import TopK
+from sglang.srt.layers.quantization.base_config import QuantizationConfig
+from sglang.srt.layers.radix_attention import RadixAttention
+from sglang.srt.layers.rotary_embedding import get_rope
+from sglang.srt.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from sglang.srt.model_executor.forward_batch_info import ForwardBatch
+from sglang.srt.model_loader.weight_utils import default_weight_loader
+from sglang.srt.utils import add_prefix, make_layers
+
+
+class BailingAttention(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        layer_id: int = 0,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.total_num_heads = config.num_attention_heads
+        self.total_num_kv_heads = config.num_key_value_heads
+
+        assert self.total_num_heads % tp_size == 0
+        assert self.total_num_kv_heads % tp_size == 0
+
+        self.num_heads = self.total_num_heads // tp_size
+        self.head_dim = config.head_dim or (self.hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+
+        self.num_kv_heads = self.total_num_kv_heads // tp_size
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scale = self.head_dim**-0.5
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=(config.use_bias or config.use_qkv_bias),
+            quant_config=quant_config,
+            prefix=add_prefix("query_key_value", prefix),
+        )
+
+        self.dense = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=add_prefix("dense", prefix),
+        )
+
+        self.attn = RadixAttention(
+            self.num_heads,
+            self.head_dim,
+            self.scale,
+            num_kv_heads=self.num_kv_heads,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=add_prefix("attn", prefix),
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=config.max_position_embeddings,
+            base=config.rope_theta,
+            is_neox_style=True,
+            rope_scaling=config.rope_scaling,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+        forward_batch: ForwardBatch,
+    ) -> torch.Tensor:
+        qkv, _ = self.query_key_value(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        q, k = self.rotary_emb(position_ids, q, k)
+        context_layer = self.attn(q, k, v, forward_batch)
+        attn_output, _ = self.dense(context_layer)
+        return attn_output
+
+
+class BailingMLP(nn.Module):
+    def __init__(
+        self,
+        intermediate_size: int,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        reduce_results: Optional[bool] = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            config.hidden_size,
+            [intermediate_size] * 2,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            prefix=add_prefix("gate_up_proj", prefix),
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            config.hidden_size,
+            bias=config.use_bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=add_prefix("down_proj", prefix),
+        )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        x, _ = self.gate_up_proj(x)
+        x = self.act_fn(x)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class BailingMoE(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        layer_id: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.num_experts = config.num_experts
+        self.top_k = config.num_experts_per_tok
+        self.hidden_size = config.hidden_size
+        self.num_shared_experts = config.num_shared_experts
+        self.norm_expert_prob = config.norm_topk_prob
+        self.moe_intermediate_size = config.moe_intermediate_size
+
+        self.gate = ReplicatedLinear(
+            self.hidden_size, self.num_experts, bias=False, quant_config=None
+        )
+
+        self.topk = TopK(top_k=self.top_k, renormalize=self.norm_expert_prob)
+
+        self.experts = FusedMoE(
+            num_experts=self.num_experts,
+            top_k=self.top_k,
+            layer_id=layer_id,
+            hidden_size=self.hidden_size,
+            intermediate_size=self.moe_intermediate_size,
+            reduce_results=False,
+            quant_config=quant_config,
+            prefix=add_prefix("experts", prefix),
+        )
+
+        if self.num_shared_experts > 0:
+            shared_intermediate_size = (
+                self.moe_intermediate_size * self.num_shared_experts
+            )
+            self.shared_experts = BailingMLP(
+                intermediate_size=shared_intermediate_size,
+                config=config,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=add_prefix("shared_experts", prefix),
+            )
+        else:
+            self.shared_experts = None
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        orig_shape = hidden_states.shape
+        hidden_states_flat = hidden_states.view(-1, self.hidden_size)
+
+        shared_output = None
+        if self.shared_experts is not None:
+            shared_output = self.shared_experts(hidden_states_flat)
+
+        router_logits, _ = self.gate(hidden_states_flat)
+        topk_output = self.topk(hidden_states_flat, router_logits)
+        final_hidden_states = self.experts(hidden_states_flat, topk_output)
+
+        if shared_output is not None:
+            final_hidden_states = final_hidden_states + shared_output
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+
+        return final_hidden_states.view(orig_shape)
+
+
+class BailingMoeBlock(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        layer_id: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.attention = BailingAttention(
+            config, layer_id, quant_config, prefix=add_prefix("attention", prefix)
+        )
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.mlp = BailingMoE(
+            config=config,
+            layer_id=layer_id,
+            quant_config=quant_config,
+            prefix=add_prefix("mlp", prefix),
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_ids: torch.Tensor,
+        residual: Optional[torch.Tensor],
+        forward_batch: ForwardBatch,
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        # Pre-normalization and residual connection for the attention block
+        if residual is None:
+            residual = hidden_states
+            normed_hidden_states = self.input_layernorm(hidden_states)
+        else:
+            normed_hidden_states, residual = self.input_layernorm(
+                hidden_states, residual
+            )
+
+        attn_output = self.attention(
+            hidden_states=normed_hidden_states,
+            position_ids=position_ids,
+            forward_batch=forward_batch,
+        )
+
+        # Pre-normalization and residual connection for the MLP block
+        normed_hidden_states, residual = self.post_attention_layernorm(
+            attn_output, residual
+        )
+        mlp_output = self.mlp(normed_hidden_states)
+
+        return mlp_output, residual
+
+
+class BailingMoeModel(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.embed_dim = config.hidden_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            prefix=add_prefix("embed_tokens", prefix),
+        )
+        self.embedding_dropout = torch.nn.Dropout(config.embedding_dropout)
+
+        self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda idx, prefix: BailingMoeBlock(
+                config=config,
+                layer_id=idx,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=add_prefix("layers", prefix),
+        )
+
+        self.norm = RMSNorm(self.embed_dim, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        forward_batch: ForwardBatch,
+        input_embeds: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        if input_embeds is None:
+            hidden_states = self.embed_tokens(input_ids)
+        else:
+            hidden_states = input_embeds
+
+        residual = None
+        for layer in self.layers:
+            hidden_states, residual = layer(
+                hidden_states,
+                position_ids,
+                residual,
+                forward_batch,
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class BailingMoeForCausalLM(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.model = BailingMoeModel(config=config, quant_config=quant_config)
+        self.lm_head = ParallelLMHead(
+            num_embeddings=config.vocab_size,
+            embedding_dim=config.hidden_size,
+            quant_config=quant_config,
+        )
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+
+        self.logits_processor = LogitsProcessor(config)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        forward_batch: ForwardBatch,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        hidden_states = self.model(input_ids, positions, forward_batch, inputs_embeds)
+        return self.logits_processor(
+            input_ids, hidden_states, self.lm_head, forward_batch
+        )
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+
+        stacked_params_mapping = [
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        for name, loaded_weight in weights:
+
+            if (
+                hasattr(self.config, "norm_head")
+                and self.config.norm_head
+                and "lm_head.weight" in name
+            ):
+                loaded_weight = F.normalize(loaded_weight, dim=0, p=2, eps=1e-7)
+
+            if "model.word_embeddings.weight" == name:
+                name = "model.embed_tokens.weight"
+
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name in name and "mlp.experts" not in name:
+                    full_param_name = name.replace(weight_name, param_name)
+                    param = params_dict[full_param_name]
+                    param.weight_loader(param, loaded_weight, shard_id)
+                    break
+            else:
+                for p_name, w_name, e_id, s_id in expert_params_mapping:
+                    if w_name in name and "mlp.experts" in name:
+                        full_param_name = name.replace(w_name, p_name)
+                        param = params_dict[full_param_name]
+                        param.weight_loader(
+                            param,
+                            loaded_weight,
+                            full_param_name,
+                            shard_id=s_id,
+                            expert_id=e_id,
+                        )
+                        break
+                else:
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+
+
+EntryClass = BailingMoeForCausalLM
diff --git a/test/srt/models/test_generation_models.py b/test/srt/models/test_generation_models.py
index f8acf4b189ea..eb6763c67724 100644
--- a/test/srt/models/test_generation_models.py
+++ b/test/srt/models/test_generation_models.py
@@ -67,6 +67,7 @@ class ModelCase:
     ModelCase("openai-community/gpt2"),
     ModelCase("microsoft/phi-1_5", trust_remote_code=True),
     ModelCase("adept/persimmon-8b-chat"),
+    ModelCase("inclusionAI/Ling-lite", trust_remote_code=True),
     ModelCase("microsoft/Phi-3-small-8k-instruct", trust_remote_code=True),
     ModelCase("allenai/OLMo-2-1124-7B-Instruct", skip_long_prompt=True),
     ModelCase("ibm-granite/granite-3.0-2b-instruct", skip_long_prompt=True),

From ca47e24f5d8e5a2750771f29d22ce23ee266f6ff Mon Sep 17 00:00:00 2001
From: HouseWest <33022099+House-West@users.noreply.github.com>
Date: Wed, 6 Aug 2025 12:11:01 +0800
Subject: [PATCH 374/396] [Feature] improve TBO: two chunk overlap (#8144)

---
 docs/backend/server_arguments.md              |   1 +
 python/sglang/srt/managers/schedule_batch.py  |   1 +
 .../srt/model_executor/forward_batch_info.py  |  35 ++--
 python/sglang/srt/server_args.py              |   7 +
 python/sglang/srt/two_batch_overlap.py        | 159 +++++++++++++++++-
 test/srt/test_two_batch_overlap.py            |  44 +++--
 6 files changed, 218 insertions(+), 29 deletions(-)

diff --git a/docs/backend/server_arguments.md b/docs/backend/server_arguments.md
index a79911bc978d..008953bc2184 100644
--- a/docs/backend/server_arguments.md
+++ b/docs/backend/server_arguments.md
@@ -262,6 +262,7 @@ Please consult the documentation below and [server_args.py](https://github.com/s
 | `--enable-dp-attention` | Enabling data parallelism for attention and tensor parallelism for FFN. The dp size should be equal to the tp size. Currently DeepSeek-V2 and Qwen 2/3 MoE models are supported. | False |
 | `--enable-dp-lm-head` | Enable vocabulary parallel across the attention TP group to avoid all-gather across DP groups, optimizing performance under DP attention. | False |
 | `--enable-two-batch-overlap` | Enabling two micro batches to overlap. | False |
+| `--tbo-token-distribution-threshold` | The threshold of token distribution between two batches in micro-batch-overlap, determines whether to two-batch-overlap or two-chunk-overlap. Set to 0 denote disable two-chunk-overlap. | 0.48 |
 | `--enable-torch-compile` | Optimize the model with torch.compile. Experimental feature. | False |
 | `--torch-compile-max-bs` | Set the maximum batch size when using torch compile. | 32 |
 | `--torchao-config` | Optimize the model with torchao. Experimental feature. Current choices are: int8dq, int8wo, int4wo-<group_size>, fp8wo, fp8dq-per_tensor, fp8dq-per_row. |  |
diff --git a/python/sglang/srt/managers/schedule_batch.py b/python/sglang/srt/managers/schedule_batch.py
index 3452608b301d..689ef94b3744 100644
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -84,6 +84,7 @@
     "disable_radix_cache",
     "enable_dp_attention",
     "enable_two_batch_overlap",
+    "tbo_token_distribution_threshold",
     "enable_dp_lm_head",
     "moe_a2a_backend",
     "deepep_mode",
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 984239cc37f2..6d09f1fdbff0 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -420,16 +420,12 @@ def init_new(
                 batch.extend_prefix_lens, dtype=torch.int32
             ).to(device, non_blocking=True)
             ret.extend_num_tokens = batch.extend_num_tokens
-            if support_triton(model_runner.server_args.attention_backend):
-                positions, ret.extend_start_loc = compute_position_triton(
-                    ret.extend_prefix_lens,
-                    ret.extend_seq_lens,
-                    ret.extend_num_tokens,
-                )
-            else:
-                positions, ret.extend_start_loc = compute_position_torch(
-                    ret.extend_prefix_lens, ret.extend_seq_lens
-                )
+            positions, ret.extend_start_loc = compute_position(
+                model_runner.server_args.attention_backend,
+                ret.extend_prefix_lens,
+                ret.extend_seq_lens,
+                ret.extend_num_tokens,
+            )
             if ret.positions is None:
                 ret.positions = positions
             ret.extend_prefix_lens_cpu = batch.extend_prefix_lens
@@ -882,6 +878,25 @@ def __repr__(self) -> str:
         return f"PPProxyTensors(tensors={self.tensors})"
 
 
+def compute_position(
+    attn_backend: str,
+    extend_prefix_lens: torch.Tensor,
+    extend_seq_lens: torch.Tensor,
+    extend_seq_lens_sum: int,
+):
+    if support_triton(attn_backend):
+        positions, extend_start_loc = compute_position_triton(
+            extend_prefix_lens,
+            extend_seq_lens,
+            extend_seq_lens_sum,
+        )
+    else:
+        positions, extend_start_loc = compute_position_torch(
+            extend_prefix_lens, extend_seq_lens
+        )
+    return positions, extend_start_loc
+
+
 def compute_position_triton(
     extend_prefix_lens: torch.Tensor, extend_seq_lens: torch.Tensor, extend_seq_lens_sum
 ):
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 10e8278a63f5..225caaf60c69 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -229,6 +229,7 @@ class ServerArgs:
     enable_dp_attention: bool = False
     enable_dp_lm_head: bool = False
     enable_two_batch_overlap: bool = False
+    tbo_token_distribution_threshold: float = 0.48
     enable_torch_compile: bool = False
     torch_compile_max_bs: int = 32
     torchao_config: str = ""
@@ -1689,6 +1690,12 @@ def add_cli_args(parser: argparse.ArgumentParser):
             action="store_true",
             help="Enabling two micro batches to overlap.",
         )
+        parser.add_argument(
+            "--tbo-token-distribution-threshold",
+            type=float,
+            default=ServerArgs.tbo_token_distribution_threshold,
+            help="The threshold of token distribution between two batches in micro-batch-overlap, determines whether to two-batch-overlap or two-chunk-overlap. Set to 0 denote disable two-chunk-overlap.",
+        )
         parser.add_argument(
             "--enable-torch-compile",
             action="store_true",
diff --git a/python/sglang/srt/two_batch_overlap.py b/python/sglang/srt/two_batch_overlap.py
index 34afd043fafb..7e0602a20865 100644
--- a/python/sglang/srt/two_batch_overlap.py
+++ b/python/sglang/srt/two_batch_overlap.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+import copy
 import dataclasses
 import logging
 from dataclasses import replace
@@ -17,7 +18,11 @@
 from sglang.srt.layers.moe.utils import DeepEPMode
 from sglang.srt.layers.quantization import deep_gemm_wrapper
 from sglang.srt.managers.schedule_batch import ScheduleBatch, global_server_args_dict
-from sglang.srt.model_executor.forward_batch_info import ForwardBatch, ForwardMode
+from sglang.srt.model_executor.forward_batch_info import (
+    ForwardBatch,
+    ForwardMode,
+    compute_position,
+)
 from sglang.srt.operations import execute_operations, execute_overlapped_operations
 from sglang.srt.operations_strategy import OperationsStrategy
 from sglang.srt.speculative.eagle_utils import EagleDraftInput, EagleVerifyInput
@@ -58,7 +63,7 @@ def compute_split_seq_index(
 ) -> Optional[int]:
     if forward_mode == ForwardMode.EXTEND:
         assert extend_lens is not None
-        return _split_array_by_half_sum(extend_lens)
+        return _split_extend_seqs(extend_lens)
     elif forward_mode.is_target_verify() or forward_mode.is_decode():
         assert token_num_per_seq is not None
         return (num_tokens // token_num_per_seq) // 2
@@ -69,7 +74,43 @@ def compute_split_seq_index(
         raise NotImplementedError()
 
 
-def _split_array_by_half_sum(arr: Sequence[int]) -> int:
+def _is_two_chunk_split_enabled(extend_lens: Sequence[int]) -> bool:
+    if extend_lens is None:
+        return False
+
+    vanilla_split_seq_index = _split_array_by_balanced_sum(extend_lens)
+    left_sum = sum(extend_lens[:vanilla_split_seq_index])
+    overall_sum = sum(extend_lens)
+    threshold = global_server_args_dict["tbo_token_distribution_threshold"]
+    assert threshold <= 0.5, f"{threshold=}"
+    return left_sum < overall_sum * threshold or left_sum > overall_sum * (
+        1 - threshold
+    )
+
+
+def _split_extend_seqs(arr: Sequence[int]) -> int:
+    if _is_two_chunk_split_enabled(arr):
+        return _split_array_by_cum_less_than_half(arr)
+
+    return _split_array_by_balanced_sum(arr)
+
+
+def _split_array_by_cum_less_than_half(arr: Sequence[int]) -> int:
+    left_sum = 0
+    overall_sum = sum(arr)
+    half_sum = overall_sum // 2
+    chosen_index = 0
+
+    for i in range(len(arr)):
+        left_sum += arr[i]
+        if left_sum > half_sum:
+            chosen_index = i
+            break
+
+    return chosen_index
+
+
+def _split_array_by_balanced_sum(arr: Sequence[int]) -> int:
     overall_sum = sum(arr)
     left_sum = 0
     min_diff = float("inf")
@@ -88,6 +129,34 @@ def _split_array_by_half_sum(arr: Sequence[int]) -> int:
     return best_index
 
 
+def _update_device_and_sum_field_from_cpu_field(
+    batch: ForwardBatch, cpu_field: str, device_field: str, sum_field: str = None
+):
+    cpu_value = getattr(batch, cpu_field, None)
+    old_device_value = getattr(batch, device_field, None)
+    if (
+        cpu_value is None
+        or old_device_value is None
+        or not (isinstance(cpu_value, torch.Tensor) or isinstance(cpu_value, list))
+    ):
+        return
+
+    new_device_value = (
+        cpu_value
+        if isinstance(cpu_value, torch.Tensor)
+        else torch.tensor(cpu_value, dtype=old_device_value.dtype)
+    ).to(device=global_server_args_dict["device"], non_blocking=True)
+    setattr(batch, device_field, new_device_value)
+
+    if sum_field is not None:
+        sum_value = (
+            cpu_value.sum().item()
+            if isinstance(cpu_value, torch.Tensor)
+            else sum(cpu_value)
+        )
+        setattr(batch, sum_field, sum_value)
+
+
 def _compute_mask_offset(seq_index: int, spec_info: Optional[EagleVerifyInput]) -> int:
     if seq_index == 0:
         return 0
@@ -181,6 +250,8 @@ def compute_split_token_index(
 ) -> int:
     if forward_mode == ForwardMode.EXTEND:
         assert extend_seq_lens is not None
+        if _is_two_chunk_split_enabled(extend_seq_lens):
+            return sum(extend_seq_lens) // 2
         return sum(extend_seq_lens[:split_seq_index])
     elif forward_mode.is_target_verify() or forward_mode.is_decode():
         assert token_num_per_seq is not None
@@ -388,9 +459,15 @@ def prepare_raw(
 
         tbo_split_token_index = cls._compute_split_token_index(batch)
 
+        is_enable_two_chunk = (
+            batch.forward_mode == ForwardMode.EXTEND
+            and _is_two_chunk_split_enabled(batch.extend_seq_lens_cpu)
+        )
+
         if _tbo_debug:
             logger.info(
                 f"TboForwardBatchPreparer.prepare "
+                f"is_enable_two_chunk={is_enable_two_chunk} "
                 f"tbo_split_seq_index={batch.tbo_split_seq_index} "
                 f"tbo_split_token_index={tbo_split_token_index} "
                 f"extend_seq_lens={batch.extend_seq_lens_cpu} "
@@ -410,7 +487,11 @@ def prepare_raw(
             start_token_index=0,
             end_token_index=tbo_split_token_index,
             start_seq_index=0,
-            end_seq_index=batch.tbo_split_seq_index,
+            end_seq_index=(
+                batch.tbo_split_seq_index + 1
+                if is_enable_two_chunk
+                else batch.tbo_split_seq_index
+            ),
             output_attn_backend=attn_backend_child_a,
             out_num_token_non_padded=out_num_token_non_padded_a,
         )
@@ -424,9 +505,79 @@ def prepare_raw(
             out_num_token_non_padded=out_num_token_non_padded_b,
         )
 
+        if is_enable_two_chunk:
+            cls.derive_fields_related_to_seq_len_for_two_chunk(
+                batch,
+                child_a=child_a,
+                child_b=child_b,
+                tbo_split_seq_index=batch.tbo_split_seq_index,
+            )
+
         assert batch.tbo_children is None
         batch.tbo_children = [child_a, child_b]
 
+    @classmethod
+    def derive_fields_related_to_seq_len_for_two_chunk(
+        cls,
+        batch: ForwardBatch,
+        *,
+        child_a: ForwardBatch,
+        child_b: ForwardBatch,
+        tbo_split_seq_index: int,
+    ):
+        extend_seq_lens_cpu = batch.extend_seq_lens_cpu
+        overall_seq_lens_sum = sum(extend_seq_lens_cpu)
+        half_seq_lens_sum = overall_seq_lens_sum // 2
+        left_last_seq_token_num = half_seq_lens_sum - sum(
+            extend_seq_lens_cpu[:tbo_split_seq_index]
+        )
+        right_first_seq_token_num = (
+            extend_seq_lens_cpu[tbo_split_seq_index] - left_last_seq_token_num
+        )
+
+        # making deepcopy to be extra safe
+        child_a.extend_seq_lens_cpu = copy.deepcopy(child_a.extend_seq_lens_cpu)
+        child_a.extend_seq_lens_cpu[-1] = left_last_seq_token_num
+        child_b.extend_seq_lens_cpu = copy.deepcopy(child_b.extend_seq_lens_cpu)
+        child_b.extend_seq_lens_cpu[0] = right_first_seq_token_num
+        for child in [child_a, child_b]:
+            _update_device_and_sum_field_from_cpu_field(
+                batch=child,
+                cpu_field="extend_seq_lens_cpu",
+                device_field="extend_seq_lens",
+                sum_field="extend_num_tokens",
+            )
+
+        assert (
+            child_a.extend_num_tokens == half_seq_lens_sum
+        ), f"{child_a.extend_num_tokens=}, {half_seq_lens_sum=}"
+
+        child_a.seq_lens_cpu = copy.deepcopy(child_a.seq_lens_cpu)
+        child_a.seq_lens_cpu[-1] = (
+            child_a.extend_seq_lens_cpu[-1] + child_a.extend_prefix_lens_cpu[-1]
+        )
+        _update_device_and_sum_field_from_cpu_field(
+            batch=child_a,
+            cpu_field="seq_lens_cpu",
+            device_field="seq_lens",
+            sum_field="seq_lens_sum",
+        )
+
+        child_b.extend_prefix_lens_cpu = copy.deepcopy(child_b.extend_prefix_lens_cpu)
+        child_b.extend_prefix_lens_cpu[0] += left_last_seq_token_num
+        _update_device_and_sum_field_from_cpu_field(
+            batch=child_b,
+            cpu_field="extend_prefix_lens_cpu",
+            device_field="extend_prefix_lens",
+            sum_field=None,
+        )
+        _, child_b.extend_start_loc = compute_position(
+            global_server_args_dict["attention_backend"],
+            child_b.extend_prefix_lens,
+            child_b.extend_seq_lens,
+            child_b.extend_num_tokens,
+        )
+
     @classmethod
     def filter_batch(
         cls,
diff --git a/test/srt/test_two_batch_overlap.py b/test/srt/test_two_batch_overlap.py
index 257d43ca8522..6aa550c46dad 100644
--- a/test/srt/test_two_batch_overlap.py
+++ b/test/srt/test_two_batch_overlap.py
@@ -5,7 +5,10 @@
 import requests
 
 from sglang.srt.model_executor.forward_batch_info import ForwardMode
-from sglang.srt.two_batch_overlap import compute_split_seq_index
+from sglang.srt.two_batch_overlap import (
+    compute_split_seq_index,
+    compute_split_token_index,
+)
 from sglang.srt.utils import kill_process_tree
 from sglang.test.run_eval import run_eval
 from sglang.test.test_utils import (
@@ -73,35 +76,46 @@ def test_mmlu(self):
 
 
 class TestTwoBatchOverlapUnitTest(unittest.TestCase):
-    # TODO change tests when having 6328
-    def test_compute_split_seq_index(self):
+    def test_compute_split_seq_and_token_index(self):
         for num_tokens, expect in [
             (0, 0),
             (100, 50),
             (99, 49),
         ]:
             actual = compute_split_seq_index(
-                forward_mode=ForwardMode.DECODE, num_tokens=num_tokens, extend_lens=None
+                forward_mode=ForwardMode.DECODE,
+                num_tokens=num_tokens,
+                extend_lens=None,
+                token_num_per_seq=1,
             )
             self.assertEqual(actual, expect)
 
         for extend_lens, expect in [
-            ([], 0),
-            ([42], 0),
-            ([42, 999], 1),
-            ([999, 42], 1),
-            ([4096, 4096, 4096, 4096], 2),
-            ([4095, 4096, 4096, 4096, 1], 2),
-            ([1, 4095, 4096, 4096, 4096], 3),
-            ([4097, 4096, 4096, 4095, 1], 2),
-            ([1, 1, 1, 1, 99999], 4),
-            ([99999, 1, 1, 1, 1], 1),
+            ([], (0, 0)),
+            ([42], (0, 21)),
+            ([42, 999], (1, 520)),
+            ([999, 42], (0, 520)),
+            ([498, 502], (1, 498)),
+            ([4096, 4096, 4096, 4096], (2, 8192)),
+            ([4095, 4096, 4096, 4096, 1], (2, 8191)),
+            ([1, 4095, 4096, 4096, 4096], (3, 8192)),
+            ([4097, 4096, 4096, 4095, 1], (2, 8193)),
+            ([1, 1, 1, 1, 99999], (4, 50001)),
+            ([99999, 1, 1, 1, 1], (0, 50001)),
         ]:
-            actual = compute_split_seq_index(
+            actual_seq_idx = compute_split_seq_index(
                 forward_mode=ForwardMode.EXTEND,
                 num_tokens=None,
                 extend_lens=extend_lens,
+                token_num_per_seq=None,
+            )
+            actual_token_idx = compute_split_token_index(
+                split_seq_index=actual_seq_idx,
+                forward_mode=ForwardMode.EXTEND,
+                extend_seq_lens=extend_lens,
+                token_num_per_seq=None,
             )
+            actual = (actual_seq_idx, actual_token_idx)
             print(f"{extend_lens=} {expect=} {actual=}")
             self.assertEqual(actual, expect)
 

From 8c7bb39dfb502b05e0d0cc1df5cc0889f61284ab Mon Sep 17 00:00:00 2001
From: Simo Lin <linsimo.mark@gmail.com>
Date: Tue, 5 Aug 2025 21:20:38 -0700
Subject: [PATCH 375/396] [router] PD Router Simplification and Reorganization
 (#8838)

---
 sgl-router/benches/request_processing.rs     |  159 +-
 sgl-router/scripts/run_benchmarks.py         |    3 -
 sgl-router/src/routers/bootstrap_injector.rs |  334 ++++
 sgl-router/src/routers/mod.rs                |    2 +-
 sgl-router/src/routers/pd_router.rs          | 1120 +++++++------
 sgl-router/src/routers/pd_types.rs           |  432 -----
 sgl-router/src/routers/request_adapter.rs    | 1512 ------------------
 sgl-router/tests/benchmark_integration.rs    |   91 +-
 8 files changed, 1098 insertions(+), 2555 deletions(-)
 create mode 100644 sgl-router/src/routers/bootstrap_injector.rs
 delete mode 100644 sgl-router/src/routers/request_adapter.rs

diff --git a/sgl-router/benches/request_processing.rs b/sgl-router/benches/request_processing.rs
index a997b8dfd121..b72e97a0ae7f 100644
--- a/sgl-router/benches/request_processing.rs
+++ b/sgl-router/benches/request_processing.rs
@@ -1,12 +1,22 @@
 use criterion::{black_box, criterion_group, criterion_main, BenchmarkId, Criterion, Throughput};
-use serde_json::{from_str, to_string, to_vec};
+use serde_json::{from_str, to_string, to_value, to_vec};
 use std::time::Instant;
 
+use sglang_router_rs::core::{BasicWorker, WorkerType};
 use sglang_router_rs::openai_api_types::{
     ChatCompletionRequest, ChatMessage, CompletionRequest, GenerateParameters, GenerateRequest,
     SamplingParams, StringOrArray, UserMessageContent,
 };
-use sglang_router_rs::routers::request_adapter::{RouteableRequest, ToPdRequest};
+use sglang_router_rs::routers::bootstrap_injector::inject_bootstrap_fields;
+
+fn create_test_worker() -> BasicWorker {
+    BasicWorker::new(
+        "http://test-server:8000".to_string(),
+        WorkerType::Prefill {
+            bootstrap_port: Some(5678),
+        },
+    )
+}
 
 /// Create a default GenerateRequest for benchmarks with minimal fields set
 fn default_generate_request() -> GenerateRequest {
@@ -312,49 +322,54 @@ fn bench_json_deserialization(c: &mut Criterion) {
     group.finish();
 }
 
-// Benchmark request adaptation from OpenAI to PD format
-fn bench_request_adaptation(c: &mut Criterion) {
-    let mut group = c.benchmark_group("request_adaptation");
+// Benchmark bootstrap injection (replaces request adaptation)
+fn bench_bootstrap_injection(c: &mut Criterion) {
+    let mut group = c.benchmark_group("bootstrap_injection");
 
     let generate_req = create_sample_generate_request();
     let chat_req = create_sample_chat_completion_request();
     let completion_req = create_sample_completion_request();
     let large_chat_req = create_large_chat_completion_request();
+    let worker = create_test_worker();
 
-    group.bench_function("generate_to_pd", |b| {
+    group.bench_function("generate_bootstrap_injection", |b| {
         b.iter(|| {
-            let pd_req = black_box(generate_req.clone()).to_pd_request();
-            black_box(pd_req);
+            let mut json = to_value(black_box(&generate_req)).unwrap();
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            black_box(json);
         });
     });
 
-    group.bench_function("chat_completion_to_pd", |b| {
+    group.bench_function("chat_completion_bootstrap_injection", |b| {
         b.iter(|| {
-            let pd_req = black_box(chat_req.clone()).to_pd_request();
-            black_box(pd_req);
+            let mut json = to_value(black_box(&chat_req)).unwrap();
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            black_box(json);
         });
     });
 
-    group.bench_function("completion_to_pd", |b| {
+    group.bench_function("completion_bootstrap_injection", |b| {
         b.iter(|| {
-            let pd_req = black_box(completion_req.clone()).to_pd_request();
-            black_box(pd_req);
+            let mut json = to_value(black_box(&completion_req)).unwrap();
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            black_box(json);
         });
     });
 
-    group.bench_function("large_chat_completion_to_pd", |b| {
+    group.bench_function("large_chat_completion_bootstrap_injection", |b| {
         b.iter(|| {
-            let pd_req = black_box(large_chat_req.clone()).to_pd_request();
-            black_box(pd_req);
+            let mut json = to_value(black_box(&large_chat_req)).unwrap();
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            black_box(json);
         });
     });
 
     group.finish();
 }
 
-// Benchmark regular routing (RouteableRequest methods)
-fn bench_regular_routing(c: &mut Criterion) {
-    let mut group = c.benchmark_group("regular_routing");
+// Benchmark direct JSON routing (replaces regular routing)
+fn bench_direct_json_routing(c: &mut Criterion) {
+    let mut group = c.benchmark_group("direct_json_routing");
 
     let generate_req = create_sample_generate_request();
     let chat_req = create_sample_chat_completion_request();
@@ -362,35 +377,42 @@ fn bench_regular_routing(c: &mut Criterion) {
 
     group.bench_function("generate_to_json", |b| {
         b.iter(|| {
-            let json = black_box(&generate_req).to_json().unwrap();
+            let json = to_value(black_box(&generate_req)).unwrap();
+            black_box(json);
+        });
+    });
+
+    group.bench_function("generate_to_json_string", |b| {
+        b.iter(|| {
+            let json = to_string(black_box(&generate_req)).unwrap();
             black_box(json);
         });
     });
 
     group.bench_function("generate_to_bytes", |b| {
         b.iter(|| {
-            let bytes = black_box(&generate_req).to_bytes().unwrap();
+            let bytes = to_vec(black_box(&generate_req)).unwrap();
             black_box(bytes);
         });
     });
 
     group.bench_function("chat_completion_to_json", |b| {
         b.iter(|| {
-            let json = black_box(&chat_req).to_json().unwrap();
+            let json = to_value(black_box(&chat_req)).unwrap();
             black_box(json);
         });
     });
 
-    group.bench_function("chat_completion_to_bytes", |b| {
+    group.bench_function("chat_completion_to_json_string", |b| {
         b.iter(|| {
-            let bytes = black_box(&chat_req).to_bytes().unwrap();
-            black_box(bytes);
+            let json = to_string(black_box(&chat_req)).unwrap();
+            black_box(json);
         });
     });
 
     group.bench_function("completion_to_json", |b| {
         b.iter(|| {
-            let json = black_box(&completion_req).to_json().unwrap();
+            let json = to_value(black_box(&completion_req)).unwrap();
             black_box(json);
         });
     });
@@ -418,6 +440,8 @@ fn bench_throughput_by_size(c: &mut Criterion) {
         ..default_generate_request()
     };
 
+    let worker = create_test_worker();
+
     for (name, req) in [
         ("small", &small_generate),
         ("medium", &medium_generate),
@@ -445,33 +469,41 @@ fn bench_throughput_by_size(c: &mut Criterion) {
             },
         );
 
-        group.bench_with_input(BenchmarkId::new("adapt_to_pd", name), &req, |b, req| {
-            b.iter(|| {
-                let pd_req = (*req).clone().to_pd_request();
-                black_box(pd_req);
-            });
-        });
+        group.bench_with_input(
+            BenchmarkId::new("bootstrap_inject", name),
+            &req,
+            |b, req| {
+                b.iter(|| {
+                    let mut json = to_value(req).unwrap();
+                    inject_bootstrap_fields(&mut json, &worker).unwrap();
+                    black_box(json);
+                });
+            },
+        );
     }
 
     group.finish();
 }
 
-// Benchmark full round-trip: deserialize -> adapt -> serialize
+// Benchmark full round-trip: deserialize -> inject bootstrap -> serialize
 fn bench_full_round_trip(c: &mut Criterion) {
     let mut group = c.benchmark_group("full_round_trip");
 
     let generate_json = to_string(&create_sample_generate_request()).unwrap();
     let chat_json = to_string(&create_sample_chat_completion_request()).unwrap();
     let completion_json = to_string(&create_sample_completion_request()).unwrap();
+    let worker = create_test_worker();
 
     group.bench_function("generate_openai_to_pd_pipeline", |b| {
         b.iter(|| {
             // Deserialize OpenAI request
             let req: GenerateRequest = from_str(black_box(&generate_json)).unwrap();
-            // Adapt to PD format
-            let pd_req = req.to_pd_request();
-            // Serialize PD request
-            let pd_json = to_string(&pd_req).unwrap();
+            // Convert to JSON Value
+            let mut json = to_value(&req).unwrap();
+            // Inject bootstrap fields
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            // Serialize final request
+            let pd_json = to_string(&json).unwrap();
             black_box(pd_json);
         });
     });
@@ -479,8 +511,9 @@ fn bench_full_round_trip(c: &mut Criterion) {
     group.bench_function("chat_completion_openai_to_pd_pipeline", |b| {
         b.iter(|| {
             let req: ChatCompletionRequest = from_str(black_box(&chat_json)).unwrap();
-            let pd_req = req.to_pd_request();
-            let pd_json = to_string(&pd_req).unwrap();
+            let mut json = to_value(&req).unwrap();
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            let pd_json = to_string(&json).unwrap();
             black_box(pd_json);
         });
     });
@@ -488,19 +521,21 @@ fn bench_full_round_trip(c: &mut Criterion) {
     group.bench_function("completion_openai_to_pd_pipeline", |b| {
         b.iter(|| {
             let req: CompletionRequest = from_str(black_box(&completion_json)).unwrap();
-            let pd_req = req.to_pd_request();
-            let pd_json = to_string(&pd_req).unwrap();
+            let mut json = to_value(&req).unwrap();
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+            let pd_json = to_string(&json).unwrap();
             black_box(pd_json);
         });
     });
 
-    group.bench_function("generate_regular_routing_pipeline", |b| {
+    group.bench_function("generate_direct_json_pipeline", |b| {
         b.iter(|| {
             // Deserialize OpenAI request
             let req: GenerateRequest = from_str(black_box(&generate_json)).unwrap();
-            // Convert to JSON for regular routing
-            let routing_json = req.to_json().unwrap();
-            black_box(routing_json);
+            // Convert to JSON for direct routing (no bootstrap injection)
+            let routing_json = to_value(&req).unwrap();
+            let json_string = to_string(&routing_json).unwrap();
+            black_box(json_string);
         });
     });
 
@@ -515,6 +550,7 @@ fn benchmark_summary(c: &mut Criterion) {
 
     // Quick performance overview
     let generate_req = create_sample_generate_request();
+    let worker = create_test_worker();
 
     println!("\nQuick Performance Overview:");
 
@@ -538,32 +574,39 @@ fn benchmark_summary(c: &mut Criterion) {
         deserialize_time
     );
 
-    // Measure adaptation
+    // Measure bootstrap injection (replaces adaptation)
     let start = Instant::now();
     for _ in 0..1000 {
-        let _ = black_box(generate_req.clone().to_pd_request());
+        let mut json = to_value(&generate_req).unwrap();
+        let _ = black_box(inject_bootstrap_fields(&mut json, &worker));
     }
-    let adapt_time = start.elapsed().as_nanos() / 1000;
-    println!("  * PD Adaptation (avg):     {:>8} ns/req", adapt_time);
+    let inject_time = start.elapsed().as_nanos() / 1000;
+    println!("  * Bootstrap Injection (avg): {:>6} ns/req", inject_time);
 
     // Calculate ratios
-    let total_pipeline = serialize_time + deserialize_time + adapt_time;
+    let total_pipeline = serialize_time + deserialize_time + inject_time;
     println!("  * Total Pipeline (avg):    {:>8} ns/req", total_pipeline);
 
     println!("\nPerformance Insights:");
     if deserialize_time > serialize_time * 2 {
         println!("  • Deserialization is significantly faster than serialization");
     }
-    if adapt_time < serialize_time / 10 {
+    if inject_time < serialize_time / 10 {
         println!(
-            "  • PD adaptation overhead is negligible ({:.1}% of serialization)",
-            (adapt_time as f64 / serialize_time as f64) * 100.0
+            "  • Bootstrap injection overhead is negligible ({:.1}% of serialization)",
+            (inject_time as f64 / serialize_time as f64) * 100.0
         );
     }
-    if total_pipeline < 10_000 {
-        println!("  • Total pipeline latency is excellent (< 10μs)");
+    if total_pipeline < 100_000 {
+        println!("  • Total pipeline latency is excellent (< 100μs)");
     }
 
+    println!("\nSimplification Benefits:");
+    println!("  • Eliminated complex type conversion layer");
+    println!("  • Reduced memory allocations");
+    println!("  • Automatic field preservation (no manual mapping)");
+    println!("  • Direct JSON manipulation improves performance");
+
     println!("\nRecommendations:");
     if serialize_time > deserialize_time {
         println!("  • Focus optimization efforts on serialization rather than deserialization");
@@ -581,8 +624,8 @@ criterion_group!(
     benchmark_summary,
     bench_json_serialization,
     bench_json_deserialization,
-    bench_request_adaptation,
-    bench_regular_routing,
+    bench_bootstrap_injection,
+    bench_direct_json_routing,
     bench_throughput_by_size,
     bench_full_round_trip
 );
diff --git a/sgl-router/scripts/run_benchmarks.py b/sgl-router/scripts/run_benchmarks.py
index 307c3557b8a3..76bf37f2a347 100755
--- a/sgl-router/scripts/run_benchmarks.py
+++ b/sgl-router/scripts/run_benchmarks.py
@@ -121,8 +121,6 @@ def parse_benchmark_results(self, output: str) -> Dict[str, str]:
                     results["serialization_time"] = self._extract_time(line)
                 elif "Deserialization (avg):" in line:
                     results["deserialization_time"] = self._extract_time(line)
-                elif "PD Adaptation (avg):" in line:
-                    results["adaptation_time"] = self._extract_time(line)
                 elif "Total Pipeline (avg):" in line:
                     results["total_time"] = self._extract_time(line)
 
@@ -145,7 +143,6 @@ def validate_thresholds(self, results: Dict[str, str]) -> bool:
         thresholds = {
             "serialization_time": 2000,  # 2μs max
             "deserialization_time": 2000,  # 2μs max
-            "adaptation_time": 5000,  # 5μs max
             "total_time": 10000,  # 10μs max
         }
 
diff --git a/sgl-router/src/routers/bootstrap_injector.rs b/sgl-router/src/routers/bootstrap_injector.rs
new file mode 100644
index 000000000000..e7cad384dfac
--- /dev/null
+++ b/sgl-router/src/routers/bootstrap_injector.rs
@@ -0,0 +1,334 @@
+// Bootstrap field injection for PD routing
+// Directly injects bootstrap fields into JSON requests without intermediate type conversions
+
+use crate::core::{Worker, WorkerType};
+use crate::routers::pd_types::get_hostname;
+use serde_json::{json, Value};
+
+/// Inject bootstrap fields directly into a JSON request
+/// This replaces the complex ToPdRequest -> Bootstrap trait pattern
+pub fn inject_bootstrap_fields(json: &mut Value, worker: &dyn Worker) -> Result<(), String> {
+    let batch_size = extract_batch_size(json)?;
+
+    // Extract bootstrap port from prefill worker if it's a prefill type
+    let bootstrap_port = match worker.worker_type() {
+        WorkerType::Prefill { bootstrap_port } => bootstrap_port,
+        _ => None,
+    };
+
+    let hostname = get_hostname(worker.url());
+
+    if let Some(batch_size) = batch_size {
+        // Batch scenario - create arrays of bootstrap values
+        json["bootstrap_host"] = json!(vec![hostname; batch_size]);
+        json["bootstrap_port"] = json!(vec![bootstrap_port; batch_size]);
+        json["bootstrap_room"] = json!((0..batch_size)
+            .map(|_| {
+                // Generate a value in the range [0, 2^63 - 1] to match Python's random.randint(0, 2**63 - 1)
+                rand::random::<u64>() & (i64::MAX as u64)
+            })
+            .collect::<Vec<_>>());
+    } else {
+        // Single scenario - create single bootstrap values
+        json["bootstrap_host"] = json!(hostname);
+        json["bootstrap_port"] = json!(bootstrap_port);
+        json["bootstrap_room"] = json!(rand::random::<u64>() & (i64::MAX as u64));
+    }
+
+    Ok(())
+}
+
+/// Extract batch size from various JSON request formats
+/// Handles chat completions, completions, and generate requests
+fn extract_batch_size(json: &Value) -> Result<Option<usize>, String> {
+    // Check for chat completions 'n' parameter (number of choices)
+    if let Some(n) = json.get("n").and_then(|v| v.as_u64()) {
+        if n > 1 {
+            return Ok(Some(n as usize));
+        }
+    }
+
+    // Check for array prompts (completions API)
+    if let Some(prompt) = json.get("prompt") {
+        if let Some(arr) = prompt.as_array() {
+            if arr.is_empty() {
+                return Err("Batch prompt array is empty".to_string());
+            }
+            return Ok(Some(arr.len()));
+        }
+    }
+
+    // Check for array texts (generate API)
+    if let Some(text) = json.get("text") {
+        if let Some(arr) = text.as_array() {
+            if arr.is_empty() {
+                return Err("Batch text array is empty".to_string());
+            }
+            return Ok(Some(arr.len()));
+        }
+    }
+
+    // Check for batch input_ids (generate API)
+    if let Some(input_ids) = json.get("input_ids") {
+        if let Some(arr) = input_ids.as_array() {
+            if arr.is_empty() {
+                return Err("Batch input_ids array is empty".to_string());
+            }
+            return Ok(Some(arr.len()));
+        }
+    }
+
+    // No batch indicators found - single request
+    Ok(None)
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::core::BasicWorker;
+    use serde_json::json;
+
+    fn create_test_worker() -> BasicWorker {
+        BasicWorker::new(
+            "http://test-server:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(5678),
+            },
+        )
+    }
+
+    #[test]
+    fn test_inject_bootstrap_single_request() {
+        let worker = create_test_worker();
+        let mut json = json!({
+            "model": "test-model",
+            "prompt": "Hello world",
+            "max_tokens": 100
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify bootstrap fields were added
+        assert_eq!(json["bootstrap_host"], json!("test-server"));
+        assert_eq!(json["bootstrap_port"], json!(5678));
+        assert!(json["bootstrap_room"].is_number());
+
+        // Verify original fields preserved
+        assert_eq!(json["model"], json!("test-model"));
+        assert_eq!(json["prompt"], json!("Hello world"));
+        assert_eq!(json["max_tokens"], json!(100));
+    }
+
+    #[test]
+    fn test_inject_bootstrap_batch_prompt() {
+        let worker = create_test_worker();
+        let mut json = json!({
+            "model": "test-model",
+            "prompt": ["Hello", "World"],
+            "max_tokens": 100
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify batch bootstrap fields
+        assert_eq!(
+            json["bootstrap_host"],
+            json!(["test-server", "test-server"])
+        );
+        assert_eq!(json["bootstrap_port"], json!([5678, 5678]));
+
+        let bootstrap_rooms = json["bootstrap_room"].as_array().unwrap();
+        assert_eq!(bootstrap_rooms.len(), 2);
+        for room in bootstrap_rooms {
+            assert!(room.is_number());
+            let room_val = room.as_u64().unwrap();
+            assert!(room_val <= i64::MAX as u64);
+        }
+    }
+
+    #[test]
+    fn test_inject_bootstrap_chat_n_parameter() {
+        let worker = create_test_worker();
+        let mut json = json!({
+            "model": "gpt-4",
+            "messages": [{"role": "user", "content": "Hello"}],
+            "n": 3
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify batch bootstrap fields for n=3
+        let bootstrap_hosts = json["bootstrap_host"].as_array().unwrap();
+        assert_eq!(bootstrap_hosts.len(), 3);
+        assert_eq!(bootstrap_hosts[0], json!("test-server"));
+
+        let bootstrap_ports = json["bootstrap_port"].as_array().unwrap();
+        assert_eq!(bootstrap_ports.len(), 3);
+        assert_eq!(bootstrap_ports[0], json!(5678));
+
+        let bootstrap_rooms = json["bootstrap_room"].as_array().unwrap();
+        assert_eq!(bootstrap_rooms.len(), 3);
+    }
+
+    #[test]
+    fn test_inject_bootstrap_generate_text_array() {
+        let worker = create_test_worker();
+        let mut json = json!({
+            "text": ["First prompt", "Second prompt"],
+            "stream": false
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify batch bootstrap fields
+        let bootstrap_hosts = json["bootstrap_host"].as_array().unwrap();
+        assert_eq!(bootstrap_hosts.len(), 2);
+
+        let bootstrap_rooms = json["bootstrap_room"].as_array().unwrap();
+        assert_eq!(bootstrap_rooms.len(), 2);
+        // Ensure room values are different (randomness)
+        assert_ne!(bootstrap_rooms[0], bootstrap_rooms[1]);
+    }
+
+    #[test]
+    fn test_inject_bootstrap_input_ids_array() {
+        let worker = create_test_worker();
+        let mut json = json!({
+            "input_ids": [[1, 2, 3], [4, 5, 6]],
+            "stream": false
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify batch bootstrap fields
+        let bootstrap_hosts = json["bootstrap_host"].as_array().unwrap();
+        assert_eq!(bootstrap_hosts.len(), 2);
+    }
+
+    #[test]
+    fn test_extract_batch_size_empty_array_error() {
+        let json = json!({
+            "prompt": [],
+            "model": "test"
+        });
+
+        let result = extract_batch_size(&json);
+        assert!(result.is_err());
+        assert!(result.unwrap_err().contains("empty"));
+    }
+
+    #[test]
+    fn test_extract_batch_size_single_requests() {
+        // Single string prompt
+        let json = json!({
+            "prompt": "Hello world",
+            "model": "test"
+        });
+        assert_eq!(extract_batch_size(&json).unwrap(), None);
+
+        // Single text
+        let json = json!({
+            "text": "Hello world",
+            "stream": false
+        });
+        assert_eq!(extract_batch_size(&json).unwrap(), None);
+
+        // Chat with n=1 (default)
+        let json = json!({
+            "messages": [{"role": "user", "content": "Hello"}],
+            "n": 1
+        });
+        assert_eq!(extract_batch_size(&json).unwrap(), None);
+
+        // Chat without n parameter
+        let json = json!({
+            "messages": [{"role": "user", "content": "Hello"}]
+        });
+        assert_eq!(extract_batch_size(&json).unwrap(), None);
+    }
+
+    #[test]
+    fn test_inject_bootstrap_preserves_sglang_fields() {
+        let worker = create_test_worker();
+        let mut json = json!({
+            "model": "test-model",
+            "prompt": "Hello",
+            // SGLang extensions should be preserved
+            "top_k": 40,
+            "min_p": 0.05,
+            "repetition_penalty": 1.1,
+            "regex": "test_pattern",
+            "lora_path": "test.bin",
+            "no_stop_trim": true,
+            "ignore_eos": false
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify bootstrap fields added
+        assert!(json.get("bootstrap_host").is_some());
+        assert!(json.get("bootstrap_port").is_some());
+        assert!(json.get("bootstrap_room").is_some());
+
+        // Verify all SGLang fields preserved
+        assert_eq!(json["top_k"], json!(40));
+        assert_eq!(json["min_p"], json!(0.05));
+        assert_eq!(json["repetition_penalty"], json!(1.1));
+        assert_eq!(json["regex"], json!("test_pattern"));
+        assert_eq!(json["lora_path"], json!("test.bin"));
+        assert_eq!(json["no_stop_trim"], json!(true));
+        assert_eq!(json["ignore_eos"], json!(false));
+    }
+
+    #[test]
+    fn test_bootstrap_room_range() {
+        let worker = create_test_worker();
+
+        // Test single request room generation
+        for _ in 0..1000 {
+            let mut json = json!({"prompt": "test"});
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+
+            let room = json["bootstrap_room"].as_u64().unwrap();
+            assert!(room <= i64::MAX as u64, "Room {} exceeds i64::MAX", room);
+        }
+
+        // Test batch request room generation
+        for _ in 0..100 {
+            let mut json = json!({"prompt": ["test1", "test2"]});
+            inject_bootstrap_fields(&mut json, &worker).unwrap();
+
+            let rooms = json["bootstrap_room"].as_array().unwrap();
+            for room_val in rooms {
+                let room = room_val.as_u64().unwrap();
+                assert!(room <= i64::MAX as u64, "Room {} exceeds i64::MAX", room);
+            }
+        }
+    }
+
+    #[test]
+    fn test_worker_without_bootstrap_port() {
+        let worker = BasicWorker::new(
+            "http://decode-only:8000".to_string(),
+            WorkerType::Decode, // No bootstrap port
+        );
+
+        let mut json = json!({
+            "prompt": "Hello world"
+        });
+
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify bootstrap fields with null port
+        assert_eq!(json["bootstrap_host"], json!("decode-only"));
+        assert_eq!(json["bootstrap_port"], json!(null));
+        assert!(json["bootstrap_room"].is_number());
+    }
+}
diff --git a/sgl-router/src/routers/mod.rs b/sgl-router/src/routers/mod.rs
index 75f12c63b342..ab6d6c1aa34e 100644
--- a/sgl-router/src/routers/mod.rs
+++ b/sgl-router/src/routers/mod.rs
@@ -11,10 +11,10 @@ use std::fmt::Debug;
 
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 
+pub mod bootstrap_injector;
 pub mod factory;
 pub mod pd_router;
 pub mod pd_types;
-pub mod request_adapter;
 pub mod router;
 
 pub use factory::RouterFactory;
diff --git a/sgl-router/src/routers/pd_router.rs b/sgl-router/src/routers/pd_router.rs
index dccb68e8f0e1..8b10d95db2b4 100644
--- a/sgl-router/src/routers/pd_router.rs
+++ b/sgl-router/src/routers/pd_router.rs
@@ -1,14 +1,16 @@
 // PD (Prefill-Decode) Router Implementation
 // This module handles routing for disaggregated prefill-decode systems
 
-use super::pd_types::{api_path, Bootstrap, ChatReqInput, GenerateReqInput, PDRouterError};
-use super::request_adapter::ToPdRequest;
+use super::bootstrap_injector::inject_bootstrap_fields;
+use super::pd_types::{api_path, PDRouterError};
 use crate::config::types::RetryConfig;
 use crate::core::{HealthChecker, Worker, WorkerFactory, WorkerLoadGuard};
 use crate::metrics::RouterMetrics;
 use crate::openai_api_types::{ChatCompletionRequest, CompletionRequest, GenerateRequest};
 use crate::policies::LoadBalancingPolicy;
+use crate::routers::{RouterTrait, WorkerManagement};
 use crate::tree::Tree;
+use async_trait::async_trait;
 use axum::{
     body::Body,
     extract::Request,
@@ -46,18 +48,26 @@ pub struct PDRouter {
 
 impl PDRouter {
     // Dynamic worker management methods for service discovery
+
+    // Private helper method to perform health check on a new server
+    async fn wait_for_server_health(&self, url: &str) -> Result<(), PDRouterError> {
+        crate::routers::router::Router::wait_for_healthy_workers(
+            &[url.to_string()],
+            self.timeout_secs,
+            self.interval_secs,
+        )
+        .map_err(|_| PDRouterError::HealthCheckFailed {
+            url: url.to_string(),
+        })
+    }
+
     pub async fn add_prefill_server(
         &self,
         url: String,
         bootstrap_port: Option<u16>,
     ) -> Result<String, PDRouterError> {
         // Wait for the new server to be healthy
-        crate::routers::router::Router::wait_for_healthy_workers(
-            &[url.clone()],
-            self.timeout_secs,
-            self.interval_secs,
-        )
-        .map_err(|_| PDRouterError::HealthCheckFailed { url: url.clone() })?;
+        self.wait_for_server_health(&url).await?;
 
         // Create Worker for the new prefill server
         let worker = WorkerFactory::create_prefill(url.clone(), bootstrap_port);
@@ -88,12 +98,7 @@ impl PDRouter {
 
     pub async fn add_decode_server(&self, url: String) -> Result<String, PDRouterError> {
         // Wait for the new server to be healthy
-        crate::routers::router::Router::wait_for_healthy_workers(
-            &[url.clone()],
-            self.timeout_secs,
-            self.interval_secs,
-        )
-        .map_err(|_| PDRouterError::HealthCheckFailed { url: url.clone() })?;
+        self.wait_for_server_health(&url).await?;
 
         // Create Worker for the new decode server
         let worker = WorkerFactory::create_decode(url.clone());
@@ -332,189 +337,6 @@ impl PDRouter {
             .into_response()
     }
 
-    // Route a typed generate request
-    pub async fn route_generate(
-        &self,
-        headers: Option<&HeaderMap>,
-        mut typed_req: GenerateReqInput,
-        route: &str,
-    ) -> Response {
-        let start = Instant::now();
-
-        // Get stream flag and return_logprob flag before moving the request
-        let is_stream = typed_req.stream;
-        let return_logprob = typed_req
-            .other
-            .get("return_logprob")
-            .and_then(|v| v.as_bool())
-            .unwrap_or(false);
-
-        // Extract text for cache-aware routing from the typed request
-        let request_text = typed_req.text.as_ref().and_then(|t| match t {
-            super::pd_types::InputText::Single(s) => Some(s.as_str()),
-            super::pd_types::InputText::Batch(v) => v.first().map(|s| s.as_str()),
-        });
-
-        // Select servers
-        let (prefill, decode) = match self.select_pd_pair(request_text).await {
-            Ok(pair) => pair,
-            Err(e) => return Self::handle_server_selection_error(e),
-        };
-
-        // Log routing decision
-        info!(
-            "PD routing decision route={} prefill_url={} decode_url={}",
-            route,
-            prefill.url(),
-            decode.url()
-        );
-
-        // Add bootstrap info using the trait method
-        if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            return Self::handle_bootstrap_error(e);
-        }
-
-        // Convert to JSON after bootstrap injection
-        let json_with_bootstrap = match serde_json::to_value(&typed_req) {
-            Ok(json) => json,
-            Err(e) => return Self::handle_serialization_error(e),
-        };
-
-        // Execute dual dispatch
-        self.execute_dual_dispatch(
-            headers,
-            json_with_bootstrap,
-            route,
-            prefill.as_ref(),
-            decode.as_ref(),
-            is_stream,
-            return_logprob,
-            start,
-        )
-        .await
-    }
-
-    // Route a typed chat request
-    pub async fn route_chat(
-        &self,
-        headers: Option<&HeaderMap>,
-        mut typed_req: ChatReqInput,
-        route: &str,
-    ) -> Response {
-        let start = Instant::now();
-
-        // Get stream flag and return_logprob flag before moving the request
-        let is_stream = typed_req.stream;
-        let return_logprob = typed_req
-            .other
-            .get("return_logprob")
-            .and_then(|v| v.as_bool())
-            .unwrap_or(false);
-
-        // Extract text for cache-aware routing from chat messages
-        let request_text = typed_req
-            .other
-            .get("messages")
-            .and_then(|messages| messages.as_array())
-            .and_then(|arr| arr.first())
-            .and_then(|msg| msg.get("content"))
-            .and_then(|content| content.as_str());
-
-        // Select servers
-        let (prefill, decode) = match self.select_pd_pair(request_text).await {
-            Ok(pair) => pair,
-            Err(e) => return Self::handle_server_selection_error(e),
-        };
-
-        // Log routing decision
-        info!(
-            "PD routing decision route={} prefill_url={} decode_url={}",
-            route,
-            prefill.url(),
-            decode.url()
-        );
-
-        if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            return Self::handle_bootstrap_error(e);
-        }
-
-        // Convert to JSON after bootstrap injection
-        let json_with_bootstrap = match serde_json::to_value(&typed_req) {
-            Ok(json) => json,
-            Err(e) => return Self::handle_serialization_error(e),
-        };
-
-        // Execute dual dispatch
-        self.execute_dual_dispatch(
-            headers,
-            json_with_bootstrap,
-            route,
-            prefill.as_ref(),
-            decode.as_ref(),
-            is_stream,
-            return_logprob,
-            start,
-        )
-        .await
-    }
-
-    // Route a completion request while preserving OpenAI format
-    pub async fn route_completion(
-        &self,
-        headers: Option<&HeaderMap>,
-        mut typed_req: CompletionRequest,
-        route: &str,
-    ) -> Response {
-        let start = Instant::now();
-
-        // Get stream flag and return_logprob flag before moving the request
-        let is_stream = typed_req.stream;
-        let return_logprob = typed_req.logprobs.is_some();
-
-        // Extract text for cache-aware routing from the typed request
-        let request_text = match &typed_req.prompt {
-            crate::openai_api_types::StringOrArray::String(s) => Some(s.as_str()),
-            crate::openai_api_types::StringOrArray::Array(arr) => arr.first().map(|s| s.as_str()),
-        };
-
-        // Select servers
-        let (prefill, decode) = match self.select_pd_pair(request_text).await {
-            Ok(pair) => pair,
-            Err(e) => return Self::handle_server_selection_error(e),
-        };
-
-        // Log routing decision
-        info!(
-            "PD routing decision route={} prefill_url={} decode_url={}",
-            route,
-            prefill.url(),
-            decode.url()
-        );
-
-        if let Err(e) = typed_req.add_bootstrap_info(prefill.as_ref()) {
-            return Self::handle_bootstrap_error(e);
-        }
-
-        // Convert to JSON after bootstrap injection
-        let json_with_bootstrap = match serde_json::to_value(&typed_req) {
-            Ok(json) => json,
-            Err(e) => return Self::handle_serialization_error(e),
-        };
-
-        // Execute dual dispatch
-        self.execute_dual_dispatch(
-            headers,
-            json_with_bootstrap,
-            route,
-            prefill.as_ref(),
-            decode.as_ref(),
-            is_stream,
-            return_logprob,
-            start,
-        )
-        .await
-    }
-
     // Execute the dual dispatch to prefill and decode servers with retry logic
     async fn execute_dual_dispatch(
         &self,
@@ -1090,7 +912,7 @@ impl PDRouter {
 
 // Helper functions
 
-async fn get_worker_load(client: &reqwest::Client, worker_url: &str) -> Option<isize> {
+async fn get_worker_load(client: &Client, worker_url: &str) -> Option<isize> {
     match client.get(format!("{}/get_load", worker_url)).send().await {
         Ok(res) if res.status().is_success() => match res.bytes().await {
             Ok(bytes) => match serde_json::from_slice::<Value>(&bytes) {
@@ -1123,9 +945,96 @@ async fn get_worker_load(client: &reqwest::Client, worker_url: &str) -> Option<i
     }
 }
 
-// PD-specific endpoints
-impl PDRouter {
-    pub async fn health_generate(&self) -> Response {
+#[async_trait]
+impl WorkerManagement for PDRouter {
+    async fn add_worker(&self, _worker_url: &str) -> Result<String, String> {
+        // For PD router, we don't support adding workers via this generic method
+        Err(
+            "PD router requires specific add_prefill_server or add_decode_server methods"
+                .to_string(),
+        )
+    }
+
+    fn remove_worker(&self, worker_url: &str) {
+        // For PD router, we would need to know if it's a prefill or decode server
+        // For now, try both
+        if let Ok(mut workers) = self.prefill_workers.write() {
+            if let Some(index) = workers.iter().position(|w| w.url() == worker_url) {
+                workers.remove(index);
+                info!("Removed prefill worker: {}", worker_url);
+                return;
+            }
+        }
+
+        if let Ok(mut workers) = self.decode_workers.write() {
+            if let Some(index) = workers.iter().position(|w| w.url() == worker_url) {
+                workers.remove(index);
+                info!("Removed decode worker: {}", worker_url);
+            }
+        }
+    }
+
+    fn get_worker_urls(&self) -> Vec<String> {
+        let mut urls = Vec::new();
+
+        // Add prefill worker URLs
+        if let Ok(workers) = self.prefill_workers.read() {
+            for worker in workers.iter() {
+                urls.push(worker.url().to_string());
+            }
+        }
+
+        // Add decode worker URLs
+        if let Ok(workers) = self.decode_workers.read() {
+            for worker in workers.iter() {
+                urls.push(worker.url().to_string());
+            }
+        }
+
+        urls
+    }
+}
+
+#[async_trait]
+impl RouterTrait for PDRouter {
+    fn as_any(&self) -> &dyn std::any::Any {
+        self
+    }
+
+    async fn health(&self, _req: Request<Body>) -> Response {
+        // This is a server readiness check - checking if we have healthy workers
+        // Workers handle their own health checks in the background
+        let mut all_healthy = true;
+        let mut unhealthy_servers = Vec::new();
+
+        // Check prefill servers
+        for worker in self.prefill_workers.read().unwrap().iter() {
+            if !worker.is_healthy() {
+                all_healthy = false;
+                unhealthy_servers.push(format!("Prefill: {}", worker.url()));
+            }
+        }
+
+        // Check decode servers
+        for worker in self.decode_workers.read().unwrap().iter() {
+            if !worker.is_healthy() {
+                all_healthy = false;
+                unhealthy_servers.push(format!("Decode: {}", worker.url()));
+            }
+        }
+
+        if all_healthy {
+            (StatusCode::OK, "All servers healthy").into_response()
+        } else {
+            (
+                StatusCode::SERVICE_UNAVAILABLE,
+                format!("Unhealthy servers: {:?}", unhealthy_servers),
+            )
+                .into_response()
+        }
+    }
+
+    async fn health_generate(&self, _req: Request<Body>) -> Response {
         // Test model generation capability by selecting a random pair and testing them
         // Note: This endpoint actually causes the model to generate tokens, so we only test one pair
 
@@ -1206,7 +1115,7 @@ impl PDRouter {
         }
     }
 
-    pub async fn get_server_info(&self) -> Response {
+    async fn get_server_info(&self, _req: Request<Body>) -> Response {
         // Get info from the first decode server to match sglang's server info format
         let first_decode_url = if let Ok(workers) = self.decode_workers.read() {
             workers.first().map(|w| w.url().to_string())
@@ -1269,7 +1178,7 @@ impl PDRouter {
         }
     }
 
-    pub async fn get_models(&self, req: Request<Body>) -> Response {
+    async fn get_models(&self, req: Request<Body>) -> Response {
         // Extract headers first to avoid Send issues
         let headers = crate::routers::router::copy_request_headers(&req);
 
@@ -1285,32 +1194,43 @@ impl PDRouter {
         };
 
         if let Some(worker_url) = first_worker_url {
-            // Send request directly without going through Router
-            let mut request_builder = self.client.get(format!("{}/v1/models", worker_url));
+            let url = format!("{}/v1/models", worker_url);
+            let mut request_builder = self.client.get(&url);
+
+            // Add headers
             for (name, value) in headers {
-                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
-                {
-                    request_builder = request_builder.header(name, value);
-                }
+                request_builder = request_builder.header(name, value);
             }
+
             match request_builder.send().await {
-                Ok(res) => {
-                    let status = StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
-                    match res.bytes().await {
-                        Ok(body) => (status, body).into_response(),
-                        Err(e) => (
+                Ok(res) if res.status().is_success() => match res.bytes().await {
+                    Ok(body) => (StatusCode::OK, body).into_response(),
+                    Err(e) => {
+                        error!("Failed to read response body: {}", e);
+                        (
                             StatusCode::INTERNAL_SERVER_ERROR,
                             format!("Failed to read response body: {}", e),
                         )
-                            .into_response(),
+                            .into_response()
                     }
+                },
+                Ok(res) => {
+                    let status = StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
+                    (
+                        status,
+                        format!("Prefill server returned status: {}", res.status()),
+                    )
+                        .into_response()
+                }
+                Err(e) => {
+                    error!("Failed to get models: {}", e);
+                    (
+                        StatusCode::INTERNAL_SERVER_ERROR,
+                        format!("Failed to get models: {}", e),
+                    )
+                        .into_response()
                 }
-                Err(e) => (
-                    StatusCode::INTERNAL_SERVER_ERROR,
-                    format!("Failed to send request: {}", e),
-                )
-                    .into_response(),
             }
         } else {
             (
@@ -1321,53 +1241,10 @@ impl PDRouter {
         }
     }
 
-    pub async fn get_loads(&self, client: &reqwest::Client) -> Response {
-        let p_urls: Vec<_> = self
-            .prefill_workers
-            .read()
-            .unwrap()
-            .iter()
-            .map(|w| w.url().to_string())
-            .collect();
-        let d_urls: Vec<_> = self
-            .decode_workers
-            .read()
-            .unwrap()
-            .iter()
-            .map(|w| w.url().to_string())
-            .collect();
-
-        let mut prefill_loads = Vec::new();
-        let mut decode_loads = Vec::new();
-
-        for url in &p_urls {
-            let load = get_worker_load(client, url).await.unwrap_or(-1);
-            prefill_loads.push(serde_json::json!({
-                "engine": format!("(Prefill@{})", url),
-                "load": load as i64
-            }));
-        }
-
-        for url in &d_urls {
-            let load = get_worker_load(client, url).await.unwrap_or(-1);
-            decode_loads.push(serde_json::json!({
-                "engine": format!("(Decode@{})", url),
-                "load": load as i64
-            }));
-        }
-
-        Json(serde_json::json!({
-            "prefill": prefill_loads,
-            "decode": decode_loads
-        }))
-        .into_response()
-    }
-
-    pub async fn get_model_info(&self, req: Request<Body>) -> Response {
+    async fn get_model_info(&self, req: Request<Body>) -> Response {
         // Extract headers first to avoid Send issues
         let headers = crate::routers::router::copy_request_headers(&req);
 
-        // Get model info from the first prefill server (matches original Rust PDLB behavior)
         // Get first prefill worker URL to avoid holding lock across await
         let first_worker_url = if let Ok(workers) = self.prefill_workers.read() {
             workers.first().map(|w| w.url().to_string())
@@ -1380,31 +1257,43 @@ impl PDRouter {
         };
 
         if let Some(worker_url) = first_worker_url {
-            let mut request_builder = self.client.get(format!("{}/get_model_info", worker_url));
+            let url = format!("{}/get_model_info", worker_url);
+            let mut request_builder = self.client.get(&url);
+
+            // Add headers
             for (name, value) in headers {
-                if name.to_lowercase() != "content-type" && name.to_lowercase() != "content-length"
-                {
-                    request_builder = request_builder.header(name, value);
-                }
+                request_builder = request_builder.header(name, value);
             }
+
             match request_builder.send().await {
-                Ok(res) => {
-                    let status = StatusCode::from_u16(res.status().as_u16())
-                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
-                    match res.bytes().await {
-                        Ok(body) => (status, body).into_response(),
-                        Err(e) => (
+                Ok(res) if res.status().is_success() => match res.bytes().await {
+                    Ok(body) => (StatusCode::OK, body).into_response(),
+                    Err(e) => {
+                        error!("Failed to read response body: {}", e);
+                        (
                             StatusCode::INTERNAL_SERVER_ERROR,
                             format!("Failed to read response body: {}", e),
                         )
-                            .into_response(),
+                            .into_response()
                     }
+                },
+                Ok(res) => {
+                    let status = StatusCode::from_u16(res.status().as_u16())
+                        .unwrap_or(StatusCode::INTERNAL_SERVER_ERROR);
+                    (
+                        status,
+                        format!("Prefill server returned status: {}", res.status()),
+                    )
+                        .into_response()
+                }
+                Err(e) => {
+                    error!("Failed to get model info: {}", e);
+                    (
+                        StatusCode::INTERNAL_SERVER_ERROR,
+                        format!("Failed to get model info: {}", e),
+                    )
+                        .into_response()
                 }
-                Err(e) => (
-                    StatusCode::INTERNAL_SERVER_ERROR,
-                    format!("Failed to send request: {}", e),
-                )
-                    .into_response(),
             }
         } else {
             (
@@ -1415,205 +1304,319 @@ impl PDRouter {
         }
     }
 
-    pub async fn flush_cache(&self, client: &reqwest::Client) -> Response {
-        let mut tasks = Vec::new();
+    async fn route_generate(
+        &self,
+        headers: Option<&HeaderMap>,
+        body: &GenerateRequest,
+    ) -> Response {
+        let start = Instant::now();
 
-        // Flush cache on all prefill servers
-        for worker in self.prefill_workers.read().unwrap().iter() {
-            let url = format!("{}/flush_cache", worker.url());
-            tasks.push(client.post(&url).send());
-        }
+        // Convert directly to JSON to preserve all fields automatically
+        let mut json = match serde_json::to_value(body) {
+            Ok(json) => json,
+            Err(e) => return Self::handle_serialization_error(e),
+        };
 
-        // Flush cache on all decode servers
-        for worker in self.decode_workers.read().unwrap().iter() {
-            let url = format!("{}/flush_cache", worker.url());
-            tasks.push(client.post(&url).send());
-        }
+        // Extract flags for routing logic
+        let is_stream = body.stream;
+        let return_logprob = body.return_logprob;
 
-        let results = futures_util::future::join_all(tasks).await;
+        // Extract text for cache-aware routing
+        let request_text = body.text.as_deref().or_else(|| {
+            body.prompt.as_ref().and_then(|p| match p {
+                crate::openai_api_types::StringOrArray::String(s) => Some(s.as_str()),
+                crate::openai_api_types::StringOrArray::Array(v) => v.first().map(|s| s.as_str()),
+            })
+        });
 
-        let mut all_success = true;
-        for (i, result) in results.into_iter().enumerate() {
-            match result {
-                Ok(res) if res.status().is_success() => {}
-                Ok(res) => {
-                    all_success = false;
-                    warn!(
-                        "Server {} returned status {} for flush_cache",
-                        i,
-                        res.status()
-                    );
-                }
-                Err(e) => {
-                    all_success = false;
-                    error!("Server {} error during flush_cache: {}", i, e);
-                }
-            }
-        }
+        // Select servers
+        let (prefill, decode) = match self.select_pd_pair(request_text).await {
+            Ok(pair) => pair,
+            Err(e) => return Self::handle_server_selection_error(e),
+        };
 
-        if all_success {
-            (StatusCode::OK, "Cache flushed on all servers").into_response()
-        } else {
-            (
-                StatusCode::INTERNAL_SERVER_ERROR,
-                "Cache flush failed on one or more servers",
-            )
-                .into_response()
-        }
-    }
-}
+        // Log routing decision
+        info!(
+            "PD routing decision route=/generate prefill_url={} decode_url={}",
+            prefill.url(),
+            decode.url()
+        );
 
-use crate::routers::{RouterTrait, WorkerManagement};
-use async_trait::async_trait;
+        // Inject bootstrap fields directly into JSON
+        if let Err(e) = inject_bootstrap_fields(&mut json, prefill.as_ref()) {
+            return Self::handle_bootstrap_error(e);
+        }
 
-#[async_trait]
-impl WorkerManagement for PDRouter {
-    async fn add_worker(&self, _worker_url: &str) -> Result<String, String> {
-        // For PD router, we don't support adding workers via this generic method
-        Err(
-            "PD router requires specific add_prefill_server or add_decode_server methods"
-                .to_string(),
+        // Execute dual dispatch
+        self.execute_dual_dispatch(
+            headers,
+            json,
+            "/generate",
+            prefill.as_ref(),
+            decode.as_ref(),
+            is_stream,
+            return_logprob,
+            start,
         )
+        .await
     }
 
-    fn remove_worker(&self, worker_url: &str) {
-        // For PD router, we would need to know if it's a prefill or decode server
-        // For now, try both
-        if let Ok(mut workers) = self.prefill_workers.write() {
-            if let Some(index) = workers.iter().position(|w| w.url() == worker_url) {
-                workers.remove(index);
-                info!("Removed prefill worker: {}", worker_url);
-                return;
-            }
-        }
+    async fn route_chat(
+        &self,
+        headers: Option<&HeaderMap>,
+        body: &ChatCompletionRequest,
+    ) -> Response {
+        let start = Instant::now();
 
-        if let Ok(mut workers) = self.decode_workers.write() {
-            if let Some(index) = workers.iter().position(|w| w.url() == worker_url) {
-                workers.remove(index);
-                info!("Removed decode worker: {}", worker_url);
+        // Convert directly to JSON to preserve all fields automatically
+        let mut json = match serde_json::to_value(body) {
+            Ok(json) => json,
+            Err(e) => return Self::handle_serialization_error(e),
+        };
+
+        // Extract flags for routing logic
+        let is_stream = body.stream;
+        let return_logprob = body.logprobs;
+
+        // Extract text for cache-aware routing from chat messages
+        let request_text = body.messages.first().and_then(|msg| match msg {
+            crate::openai_api_types::ChatMessage::User { content, .. } => {
+                match content {
+                    crate::openai_api_types::UserMessageContent::Text(text) => Some(text.as_str()),
+                    crate::openai_api_types::UserMessageContent::Parts(_) => None, // Skip complex content
+                }
             }
+            crate::openai_api_types::ChatMessage::System { content, .. } => Some(content.as_str()),
+            _ => None,
+        });
+
+        // Select servers
+        let (prefill, decode) = match self.select_pd_pair(request_text).await {
+            Ok(pair) => pair,
+            Err(e) => return Self::handle_server_selection_error(e),
+        };
+
+        // Log routing decision
+        info!(
+            "PD routing decision route=/v1/chat/completions prefill_url={} decode_url={}",
+            prefill.url(),
+            decode.url()
+        );
+
+        // Inject bootstrap fields directly into JSON
+        if let Err(e) = inject_bootstrap_fields(&mut json, prefill.as_ref()) {
+            return Self::handle_bootstrap_error(e);
         }
+
+        // Execute dual dispatch
+        self.execute_dual_dispatch(
+            headers,
+            json,
+            "/v1/chat/completions",
+            prefill.as_ref(),
+            decode.as_ref(),
+            is_stream,
+            return_logprob,
+            start,
+        )
+        .await
     }
 
-    fn get_worker_urls(&self) -> Vec<String> {
-        let mut urls = Vec::new();
+    async fn route_completion(
+        &self,
+        headers: Option<&HeaderMap>,
+        body: &CompletionRequest,
+    ) -> Response {
+        let start = Instant::now();
 
-        // Add prefill worker URLs
-        if let Ok(workers) = self.prefill_workers.read() {
-            for worker in workers.iter() {
-                urls.push(worker.url().to_string());
-            }
-        }
+        // Convert directly to JSON to preserve all fields automatically
+        let mut json = match serde_json::to_value(body) {
+            Ok(json) => json,
+            Err(e) => return Self::handle_serialization_error(e),
+        };
 
-        // Add decode worker URLs
-        if let Ok(workers) = self.decode_workers.read() {
-            for worker in workers.iter() {
-                urls.push(worker.url().to_string());
-            }
+        // Extract flags for routing logic
+        let is_stream = body.stream;
+        let return_logprob = body.logprobs.is_some();
+
+        // Extract text for cache-aware routing
+        let request_text = match &body.prompt {
+            crate::openai_api_types::StringOrArray::String(s) => Some(s.as_str()),
+            crate::openai_api_types::StringOrArray::Array(v) => v.first().map(|s| s.as_str()),
+        };
+
+        // Select servers
+        let (prefill, decode) = match self.select_pd_pair(request_text).await {
+            Ok(pair) => pair,
+            Err(e) => return Self::handle_server_selection_error(e),
+        };
+
+        // Log routing decision
+        info!(
+            "PD routing decision route=/v1/completions prefill_url={} decode_url={}",
+            prefill.url(),
+            decode.url()
+        );
+
+        // Inject bootstrap fields directly into JSON
+        if let Err(e) = inject_bootstrap_fields(&mut json, prefill.as_ref()) {
+            return Self::handle_bootstrap_error(e);
         }
 
-        urls
+        // Execute dual dispatch
+        self.execute_dual_dispatch(
+            headers,
+            json,
+            "/v1/completions",
+            prefill.as_ref(),
+            decode.as_ref(),
+            is_stream,
+            return_logprob,
+            start,
+        )
+        .await
     }
-}
 
-#[async_trait]
-impl RouterTrait for PDRouter {
-    fn as_any(&self) -> &dyn std::any::Any {
-        self
-    }
+    async fn flush_cache(&self) -> Response {
+        let mut results = Vec::new();
+        let mut errors = Vec::new();
 
-    async fn health(&self, _req: Request<Body>) -> Response {
-        // This is a server readiness check - checking if we have healthy workers
-        // Workers handle their own health checks in the background
-        let mut all_healthy = true;
-        let mut unhealthy_servers = Vec::new();
+        // Get prefill worker URLs first to avoid holding lock across await
+        let prefill_urls = if let Ok(workers) = self.prefill_workers.read() {
+            workers
+                .iter()
+                .map(|w| w.url().to_string())
+                .collect::<Vec<_>>()
+        } else {
+            errors.push("Failed to access prefill workers".to_string());
+            Vec::new()
+        };
 
-        // Check prefill servers
-        for worker in self.prefill_workers.read().unwrap().iter() {
-            if !worker.is_healthy() {
-                all_healthy = false;
-                unhealthy_servers.push(format!("Prefill: {}", worker.url()));
+        // Flush prefill workers
+        for worker_url in prefill_urls {
+            let url = format!("{}/flush_cache", worker_url);
+            match self.client.post(&url).send().await {
+                Ok(res) if res.status().is_success() => {
+                    results.push(format!("Prefill {}: OK", worker_url));
+                }
+                Ok(res) => {
+                    errors.push(format!(
+                        "Prefill {} returned status: {}",
+                        worker_url,
+                        res.status()
+                    ));
+                }
+                Err(e) => {
+                    errors.push(format!("Prefill {} error: {}", worker_url, e));
+                }
             }
         }
 
-        // Check decode servers
-        for worker in self.decode_workers.read().unwrap().iter() {
-            if !worker.is_healthy() {
-                all_healthy = false;
-                unhealthy_servers.push(format!("Decode: {}", worker.url()));
+        // Get decode worker URLs first to avoid holding lock across await
+        let decode_urls = if let Ok(workers) = self.decode_workers.read() {
+            workers
+                .iter()
+                .map(|w| w.url().to_string())
+                .collect::<Vec<_>>()
+        } else {
+            errors.push("Failed to access decode workers".to_string());
+            Vec::new()
+        };
+
+        // Flush decode workers
+        for worker_url in decode_urls {
+            let url = format!("{}/flush_cache", worker_url);
+            match self.client.post(&url).send().await {
+                Ok(res) if res.status().is_success() => {
+                    results.push(format!("Decode {}: OK", worker_url));
+                }
+                Ok(res) => {
+                    errors.push(format!(
+                        "Decode {} returned status: {}",
+                        worker_url,
+                        res.status()
+                    ));
+                }
+                Err(e) => {
+                    errors.push(format!("Decode {} error: {}", worker_url, e));
+                }
             }
         }
 
-        if all_healthy {
-            (StatusCode::OK, "All servers healthy").into_response()
+        if errors.is_empty() {
+            (
+                StatusCode::OK,
+                format!("Cache flushed successfully: {:?}", results),
+            )
+                .into_response()
         } else {
             (
-                StatusCode::SERVICE_UNAVAILABLE,
-                format!("Unhealthy servers: {:?}", unhealthy_servers),
+                StatusCode::PARTIAL_CONTENT,
+                format!(
+                    "Partial success. Results: {:?}, Errors: {:?}",
+                    results, errors
+                ),
             )
                 .into_response()
         }
     }
 
-    async fn health_generate(&self, _req: Request<Body>) -> Response {
-        // Use the existing PDRouter health_generate method
-        PDRouter::health_generate(self).await
-    }
-
-    async fn get_server_info(&self, _req: Request<Body>) -> Response {
-        // Use the existing PDRouter get_server_info method
-        PDRouter::get_server_info(self).await
-    }
-
-    async fn get_models(&self, req: Request<Body>) -> Response {
-        // Use the existing PDRouter get_models method
-        PDRouter::get_models(self, req).await
-    }
-
-    async fn get_model_info(&self, req: Request<Body>) -> Response {
-        // Use the existing PDRouter get_model_info method
-        PDRouter::get_model_info(self, req).await
-    }
-
-    async fn route_generate(
-        &self,
-        headers: Option<&HeaderMap>,
-        body: &GenerateRequest,
-    ) -> Response {
-        // Convert OpenAI format to PD format
-        let pd_req = body.clone().to_pd_request();
+    async fn get_worker_loads(&self) -> Response {
+        let mut loads = HashMap::new();
+        let mut errors = Vec::new();
 
-        PDRouter::route_generate(self, headers, pd_req, "/generate").await
-    }
+        // Get prefill worker URLs first to avoid holding lock across await
+        let prefill_urls = if let Ok(workers) = self.prefill_workers.read() {
+            workers
+                .iter()
+                .map(|w| w.url().to_string())
+                .collect::<Vec<_>>()
+        } else {
+            errors.push("Failed to access prefill workers".to_string());
+            Vec::new()
+        };
 
-    async fn route_chat(
-        &self,
-        headers: Option<&HeaderMap>,
-        body: &ChatCompletionRequest,
-    ) -> Response {
-        // Convert OpenAI format to PD format
-        let pd_req = body.clone().to_pd_request();
+        // Get loads from prefill workers
+        for worker_url in prefill_urls {
+            match get_worker_load(&self.client, &worker_url).await {
+                Some(load) => {
+                    loads.insert(format!("prefill_{}", worker_url), load);
+                }
+                None => {
+                    errors.push(format!("Failed to get load from prefill {}", worker_url));
+                }
+            }
+        }
 
-        PDRouter::route_chat(self, headers, pd_req, "/v1/chat/completions").await
-    }
+        // Get decode worker URLs first to avoid holding lock across await
+        let decode_urls = if let Ok(workers) = self.decode_workers.read() {
+            workers
+                .iter()
+                .map(|w| w.url().to_string())
+                .collect::<Vec<_>>()
+        } else {
+            errors.push("Failed to access decode workers".to_string());
+            Vec::new()
+        };
 
-    async fn route_completion(
-        &self,
-        headers: Option<&HeaderMap>,
-        body: &CompletionRequest,
-    ) -> Response {
-        // Use the new method that preserves OpenAI format
-        PDRouter::route_completion(self, headers, body.clone(), "/v1/completions").await
-    }
+        // Get loads from decode workers
+        for worker_url in decode_urls {
+            match get_worker_load(&self.client, &worker_url).await {
+                Some(load) => {
+                    loads.insert(format!("decode_{}", worker_url), load);
+                }
+                None => {
+                    errors.push(format!("Failed to get load from decode {}", worker_url));
+                }
+            }
+        }
 
-    async fn flush_cache(&self) -> Response {
-        // Use the existing PDRouter flush_cache method
-        PDRouter::flush_cache(self, &self.client).await
-    }
+        let response_data = serde_json::json!({
+            "loads": loads,
+            "errors": errors
+        });
 
-    async fn get_worker_loads(&self) -> Response {
-        // Use the existing PDRouter get_loads method
-        PDRouter::get_loads(self, &self.client).await
+        (StatusCode::OK, Json(response_data)).into_response()
     }
 
     fn router_type(&self) -> &'static str {
@@ -1688,7 +1691,6 @@ mod tests {
     use super::*;
     use crate::core::{BasicWorker, WorkerType};
     use crate::policies::{CacheAwarePolicy, RandomPolicy};
-    use crate::routers::pd_types::SingleOrBatch;
 
     fn create_test_pd_router() -> PDRouter {
         let prefill_policy = Arc::new(RandomPolicy::new());
@@ -1935,90 +1937,6 @@ mod tests {
         assert!(result.is_ok());
     }
 
-    // ============= Bootstrap Injection Tests =============
-
-    #[test]
-    fn test_bootstrap_injection_with_existing_fields() {
-        let mut req = GenerateReqInput {
-            text: Some(SingleOrBatch::Single("Test".to_string())),
-            input_ids: None,
-            stream: false,
-            bootstrap_host: Some(SingleOrBatch::Single("existing-host".to_string())),
-            bootstrap_port: Some(SingleOrBatch::Single(Some(9999))),
-            bootstrap_room: Some(SingleOrBatch::Single(12345)),
-            other: Value::Object(serde_json::Map::new()),
-        };
-
-        let prefill_worker = create_test_worker(
-            "http://new-host:8000".to_string(),
-            WorkerType::Prefill {
-                bootstrap_port: Some(8080),
-            },
-            true,
-        );
-
-        // Bootstrap info is added regardless of existing fields
-        let result = req.add_bootstrap_info(prefill_worker.as_ref());
-        assert!(result.is_ok());
-
-        // Bootstrap info should be updated with new values
-        assert_eq!(
-            req.bootstrap_host,
-            Some(SingleOrBatch::Single("new-host".to_string()))
-        );
-        assert_eq!(req.bootstrap_port, Some(SingleOrBatch::Single(Some(8080))));
-        // Room should be regenerated (different from original)
-        if let Some(SingleOrBatch::Single(room)) = req.bootstrap_room {
-            assert_ne!(room, 12345);
-        } else {
-            panic!("Expected single room ID");
-        }
-    }
-
-    #[test]
-    fn test_bootstrap_room_generation() {
-        let mut req1 = GenerateReqInput {
-            text: Some(SingleOrBatch::Single("Test".to_string())),
-            input_ids: None,
-            stream: false,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(serde_json::Map::new()),
-        };
-
-        let mut req2 = GenerateReqInput {
-            text: Some(SingleOrBatch::Single("Test".to_string())),
-            input_ids: None,
-            stream: false,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(serde_json::Map::new()),
-        };
-
-        let prefill_worker = create_test_worker(
-            "http://host:8000".to_string(),
-            WorkerType::Prefill {
-                bootstrap_port: Some(8080),
-            },
-            true,
-        );
-
-        // Add bootstrap info to both requests
-        let _ = req1.add_bootstrap_info(prefill_worker.as_ref());
-        let _ = req2.add_bootstrap_info(prefill_worker.as_ref());
-
-        // Room IDs should be different
-        if let (Some(SingleOrBatch::Single(room1)), Some(SingleOrBatch::Single(room2))) =
-            (req1.bootstrap_room, req2.bootstrap_room)
-        {
-            assert_ne!(room1, room2, "Room IDs should be unique");
-        } else {
-            panic!("Expected single room IDs");
-        }
-    }
-
     // ============= Worker Selection Tests =============
 
     #[tokio::test]
@@ -2196,4 +2114,158 @@ mod tests {
         let workers = router.prefill_workers.read().unwrap();
         assert_eq!(workers.len(), 5);
     }
+
+    #[tokio::test]
+    async fn test_simplified_routing_preserves_sglang_fields() {
+        use crate::openai_api_types::GenerateRequest;
+        use crate::routers::bootstrap_injector::inject_bootstrap_fields;
+
+        // Create a test worker
+        let worker = BasicWorker::new(
+            "http://test-server:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(5678),
+            },
+        );
+
+        // Create a GenerateRequest with SGLang extensions
+        let mut session_params = std::collections::HashMap::new();
+        session_params.insert("test_key".to_string(), serde_json::json!("test_value"));
+
+        let request = GenerateRequest {
+            text: Some("Test prompt".to_string()),
+            stream: false,
+            return_logprob: true,
+            // SGLang extensions
+            lora_path: Some(crate::openai_api_types::LoRAPath::Single(Some(
+                "test.bin".to_string(),
+            ))),
+            session_params: Some(session_params.clone()),
+            return_hidden_states: true,
+            rid: Some("test-request-id".to_string()),
+            // Other fields default to None/false
+            prompt: None,
+            input_ids: None,
+            parameters: None,
+            sampling_params: None,
+        };
+
+        // Convert to JSON (simulating the simplified routing path)
+        let mut json = serde_json::to_value(&request).unwrap();
+
+        // Inject bootstrap fields
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify all SGLang fields are preserved
+        assert_eq!(json["text"], serde_json::json!("Test prompt"));
+        assert_eq!(json["stream"], serde_json::json!(false));
+        assert_eq!(json["return_logprob"], serde_json::json!(true));
+        assert_eq!(json["lora_path"], serde_json::json!("test.bin")); // LoRAPath::Single serializes as just the inner value
+        assert_eq!(
+            json["session_params"],
+            serde_json::to_value(&session_params).unwrap()
+        );
+        assert_eq!(json["return_hidden_states"], serde_json::json!(true));
+        assert_eq!(json["rid"], serde_json::json!("test-request-id"));
+
+        // Verify bootstrap fields were added
+        assert_eq!(json["bootstrap_host"], serde_json::json!("test-server"));
+        assert_eq!(json["bootstrap_port"], serde_json::json!(5678));
+        assert!(json["bootstrap_room"].is_number());
+    }
+
+    #[tokio::test]
+    async fn test_simplified_routing_chat_completion() {
+        use crate::openai_api_types::{ChatCompletionRequest, ChatMessage, UserMessageContent};
+        use crate::routers::bootstrap_injector::inject_bootstrap_fields;
+
+        // Create a test worker
+        let worker = BasicWorker::new(
+            "http://chat-server:8000".to_string(),
+            WorkerType::Prefill {
+                bootstrap_port: Some(9999),
+            },
+        );
+
+        // Create a ChatCompletionRequest with SGLang extensions
+        let request = ChatCompletionRequest {
+            model: "gpt-4".to_string(),
+            messages: vec![ChatMessage::User {
+                role: "user".to_string(),
+                content: UserMessageContent::Text("Hello world!".to_string()),
+                name: None,
+            }],
+            stream: false,
+            n: Some(2), // This should create batch bootstrap
+            // SGLang extensions
+            top_k: Some(50),
+            separate_reasoning: false,
+            stream_reasoning: true,
+            // Set all other fields to defaults
+            temperature: None,
+            top_p: None,
+            stream_options: None,
+            stop: None,
+            max_tokens: None,
+            max_completion_tokens: None,
+            presence_penalty: None,
+            frequency_penalty: None,
+            logit_bias: None,
+            user: None,
+            seed: None,
+            logprobs: false,
+            top_logprobs: None,
+            response_format: None,
+            tools: None,
+            tool_choice: None,
+            parallel_tool_calls: None,
+            functions: None,
+            function_call: None,
+            min_p: None,
+            min_tokens: None,
+            repetition_penalty: None,
+            regex: None,
+            ebnf: None,
+            stop_token_ids: None,
+            no_stop_trim: false,
+            ignore_eos: false,
+            continue_final_message: false,
+            skip_special_tokens: true,
+            lora_path: None,
+            session_params: None,
+            return_hidden_states: false,
+        };
+
+        // Convert to JSON (simulating the simplified routing path)
+        let mut json = serde_json::to_value(&request).unwrap();
+
+        // Inject bootstrap fields
+        let result = inject_bootstrap_fields(&mut json, &worker);
+        assert!(result.is_ok());
+
+        // Verify original fields preserved
+        assert_eq!(json["model"], serde_json::json!("gpt-4"));
+        assert_eq!(json["stream"], serde_json::json!(false));
+        assert_eq!(json["n"], serde_json::json!(2));
+        assert_eq!(json["top_k"], serde_json::json!(50));
+        assert_eq!(json["separate_reasoning"], serde_json::json!(false));
+        assert_eq!(json["stream_reasoning"], serde_json::json!(true));
+
+        // Verify batch bootstrap fields for n=2
+        let bootstrap_hosts = json["bootstrap_host"].as_array().unwrap();
+        assert_eq!(bootstrap_hosts.len(), 2);
+        assert_eq!(bootstrap_hosts[0], serde_json::json!("chat-server"));
+        assert_eq!(bootstrap_hosts[1], serde_json::json!("chat-server"));
+
+        let bootstrap_ports = json["bootstrap_port"].as_array().unwrap();
+        assert_eq!(bootstrap_ports.len(), 2);
+        assert_eq!(bootstrap_ports[0], serde_json::json!(9999));
+        assert_eq!(bootstrap_ports[1], serde_json::json!(9999));
+
+        let bootstrap_rooms = json["bootstrap_room"].as_array().unwrap();
+        assert_eq!(bootstrap_rooms.len(), 2);
+        // Rooms should be different (randomness)
+        assert_ne!(bootstrap_rooms[0], bootstrap_rooms[1]);
+    }
 }
diff --git a/sgl-router/src/routers/pd_types.rs b/sgl-router/src/routers/pd_types.rs
index 34dabdd26d61..7fa52e6d7ea9 100644
--- a/sgl-router/src/routers/pd_types.rs
+++ b/sgl-router/src/routers/pd_types.rs
@@ -1,10 +1,3 @@
-// Essential PDLB types extracted for PD routing
-
-use crate::core::{Worker, WorkerType};
-use crate::openai_api_types::{CompletionRequest, StringOrArray};
-use serde::{Deserialize, Serialize};
-use serde_json::Value;
-
 // Custom error type for PD router operations
 #[derive(Debug, thiserror::Error)]
 pub enum PDRouterError {
@@ -58,428 +51,3 @@ pub enum PDSelectionPolicy {
         balance_rel_threshold: f32,
     },
 }
-// Bootstrap types from PDLB
-#[derive(Debug, Deserialize, Serialize, PartialEq)]
-#[serde(untagged)]
-pub enum SingleOrBatch<T> {
-    Single(T),
-    Batch(Vec<T>),
-}
-
-pub type InputIds = SingleOrBatch<Vec<i32>>;
-pub type InputText = SingleOrBatch<String>;
-pub type BootstrapHost = SingleOrBatch<String>;
-pub type BootstrapPort = SingleOrBatch<Option<u16>>;
-pub type BootstrapRoom = SingleOrBatch<u64>;
-
-// Bootstrap trait for request handling
-pub trait Bootstrap: Send + Sync {
-    fn is_stream(&self) -> bool;
-    fn get_batch_size(&self) -> Result<Option<usize>, String>;
-    fn set_bootstrap_info(
-        &mut self,
-        bootstrap_host: BootstrapHost,
-        bootstrap_port: BootstrapPort,
-        bootstrap_room: BootstrapRoom,
-    );
-
-    fn add_bootstrap_info(&mut self, prefill_worker: &dyn Worker) -> Result<(), String> {
-        let batch_size = self.get_batch_size()?;
-
-        // Extract bootstrap port from prefill worker if it's a prefill type
-        let bootstrap_port = match prefill_worker.worker_type() {
-            WorkerType::Prefill { bootstrap_port } => bootstrap_port,
-            _ => None,
-        };
-
-        let hostname = get_hostname(prefill_worker.url());
-
-        if let Some(batch_size) = batch_size {
-            self.set_bootstrap_info(
-                BootstrapHost::Batch(vec![hostname; batch_size]),
-                BootstrapPort::Batch(vec![bootstrap_port; batch_size]),
-                // Use high-quality random numbers to minimize collision risk
-                BootstrapRoom::Batch(
-                    (0..batch_size)
-                        .map(|_| {
-                            // Generate a value in the range [0, 2^63 - 1] to match Python's random.randint(0, 2**63 - 1)
-                            rand::random::<u64>() & (i64::MAX as u64)
-                        })
-                        .collect(),
-                ),
-            );
-        } else {
-            self.set_bootstrap_info(
-                BootstrapHost::Single(hostname),
-                BootstrapPort::Single(bootstrap_port),
-                BootstrapRoom::Single(
-                    // Generate a value in the range [0, 2^63 - 1] to match Python's random.randint(0, 2**63 - 1)
-                    rand::random::<u64>() & (i64::MAX as u64),
-                ),
-            );
-        }
-        Ok(())
-    }
-}
-
-// Request types
-#[derive(Debug, Deserialize, Serialize)]
-pub struct GenerateReqInput {
-    pub text: Option<InputText>,
-    pub input_ids: Option<InputIds>,
-    #[serde(default)]
-    pub stream: bool,
-    pub bootstrap_host: Option<BootstrapHost>,
-    pub bootstrap_port: Option<BootstrapPort>,
-    pub bootstrap_room: Option<BootstrapRoom>,
-
-    #[serde(flatten)]
-    pub other: Value,
-}
-
-impl GenerateReqInput {
-    pub fn get_batch_size(&self) -> Result<Option<usize>, String> {
-        if self.text.is_some() && self.input_ids.is_some() {
-            return Err("Both text and input_ids are present in the request".to_string());
-        }
-
-        // Check text batch
-        if let Some(InputText::Batch(texts)) = &self.text {
-            if texts.is_empty() {
-                return Err("Batch text array is empty".to_string());
-            }
-            return Ok(Some(texts.len()));
-        }
-
-        // Check input_ids batch
-        if let Some(InputIds::Batch(ids)) = &self.input_ids {
-            if ids.is_empty() {
-                return Err("Batch input_ids array is empty".to_string());
-            }
-            // Validate each sequence is not empty
-            for (i, seq) in ids.iter().enumerate() {
-                if seq.is_empty() {
-                    return Err(format!("Input sequence at index {} is empty", i));
-                }
-            }
-            return Ok(Some(ids.len()));
-        }
-
-        Ok(None)
-    }
-}
-
-impl Bootstrap for GenerateReqInput {
-    fn is_stream(&self) -> bool {
-        self.stream
-    }
-
-    fn get_batch_size(&self) -> Result<Option<usize>, String> {
-        self.get_batch_size()
-    }
-
-    fn set_bootstrap_info(
-        &mut self,
-        bootstrap_host: BootstrapHost,
-        bootstrap_port: BootstrapPort,
-        bootstrap_room: BootstrapRoom,
-    ) {
-        self.bootstrap_host = Some(bootstrap_host);
-        self.bootstrap_port = Some(bootstrap_port);
-        self.bootstrap_room = Some(bootstrap_room);
-    }
-}
-
-#[derive(Debug, Deserialize, Serialize)]
-pub struct ChatReqInput {
-    #[serde(default)]
-    pub stream: bool,
-    pub bootstrap_host: Option<BootstrapHost>,
-    pub bootstrap_port: Option<BootstrapPort>,
-    pub bootstrap_room: Option<BootstrapRoom>,
-
-    #[serde(flatten)]
-    pub other: Value,
-}
-
-impl Bootstrap for ChatReqInput {
-    fn is_stream(&self) -> bool {
-        self.stream
-    }
-
-    fn get_batch_size(&self) -> Result<Option<usize>, String> {
-        // Check if 'n' parameter is present and > 1
-        if let Some(n_value) = self.other.get("n") {
-            if let Some(n) = n_value.as_u64() {
-                if n > 1 {
-                    return Ok(Some(n as usize));
-                }
-            }
-        }
-        Ok(None)
-    }
-
-    fn set_bootstrap_info(
-        &mut self,
-        bootstrap_host: BootstrapHost,
-        bootstrap_port: BootstrapPort,
-        bootstrap_room: BootstrapRoom,
-    ) {
-        self.bootstrap_host = Some(bootstrap_host);
-        self.bootstrap_port = Some(bootstrap_port);
-        self.bootstrap_room = Some(bootstrap_room);
-    }
-}
-
-// Bootstrap implementation for CompletionRequest to preserve OpenAI format
-impl Bootstrap for CompletionRequest {
-    fn is_stream(&self) -> bool {
-        self.stream
-    }
-
-    fn get_batch_size(&self) -> Result<Option<usize>, String> {
-        if let StringOrArray::Array(prompts) = &self.prompt {
-            if prompts.is_empty() {
-                return Err("Batch prompt array is empty".to_string());
-            }
-            return Ok(Some(prompts.len()));
-        }
-
-        // Single string prompt
-        Ok(None)
-    }
-
-    fn set_bootstrap_info(
-        &mut self,
-        bootstrap_host: BootstrapHost,
-        bootstrap_port: BootstrapPort,
-        bootstrap_room: BootstrapRoom,
-    ) {
-        // Insert bootstrap_host - it serializes correctly whether Single or Batch
-        if let Ok(host_value) = serde_json::to_value(&bootstrap_host) {
-            self.other.insert("bootstrap_host".to_string(), host_value);
-        }
-
-        // Insert bootstrap_port - it serializes correctly whether Single or Batch
-        if let Ok(port_value) = serde_json::to_value(&bootstrap_port) {
-            self.other.insert("bootstrap_port".to_string(), port_value);
-        }
-
-        // Insert bootstrap_room - it serializes correctly whether Single or Batch
-        if let Ok(room_value) = serde_json::to_value(&bootstrap_room) {
-            self.other.insert("bootstrap_room".to_string(), room_value);
-        }
-    }
-}
-
-#[cfg(test)]
-mod bootstrap_tests {
-    use super::*;
-    use crate::core::BasicWorker;
-    use crate::openai_api_types::StringOrArray;
-
-    /// Create a default CompletionRequest for testing with minimal fields set
-    fn default_completion_request() -> CompletionRequest {
-        CompletionRequest {
-            model: String::new(),
-            prompt: StringOrArray::String(String::new()),
-            n: None,
-            other: serde_json::Map::new(),
-            suffix: None,
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            // SGLang Extensions
-            top_k: None,
-            min_p: None,
-            min_tokens: None,
-            repetition_penalty: None,
-            regex: None,
-            ebnf: None,
-            json_schema: None,
-            stop_token_ids: None,
-            no_stop_trim: false,
-            ignore_eos: false,
-            skip_special_tokens: true,
-            // SGLang Extensions
-            lora_path: None,
-            session_params: None,
-            return_hidden_states: false,
-        }
-    }
-
-    #[test]
-    fn test_completion_batch_size_with_array_prompt() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
-            ..default_completion_request()
-        };
-
-        // Should return batch size for array prompt
-        assert_eq!(req.get_batch_size().unwrap(), Some(2));
-    }
-
-    #[test]
-    fn test_completion_batch_size_with_single_prompt() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::String("single prompt".to_string()),
-            ..default_completion_request()
-        };
-
-        // Should return None for single prompt
-        assert_eq!(req.get_batch_size().unwrap(), None);
-    }
-
-    #[test]
-    fn test_completion_batch_size_with_n_parameter() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::String("single prompt".to_string()),
-            n: Some(3),
-            ..default_completion_request()
-        };
-
-        // Should return None for single string prompt, even with n > 1
-        // SGLang handles n parameter differently than batch requests
-        assert_eq!(req.get_batch_size().unwrap(), None);
-    }
-
-    #[test]
-    fn test_completion_bootstrap_single_values() {
-        let mut req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
-            ..default_completion_request()
-        };
-
-        // Set bootstrap info - should always use single values
-        req.set_bootstrap_info(
-            BootstrapHost::Single("test-server".to_string()),
-            BootstrapPort::Single(Some(5678)),
-            BootstrapRoom::Single(12345),
-        );
-
-        // Verify single values were created
-        assert!(req.other.get("bootstrap_host").unwrap().is_string());
-        assert!(req.other.get("bootstrap_port").unwrap().is_number());
-        assert!(req.other.get("bootstrap_room").unwrap().is_number());
-
-        assert_eq!(
-            req.other.get("bootstrap_host").unwrap().as_str().unwrap(),
-            "test-server"
-        );
-        assert_eq!(
-            req.other.get("bootstrap_port").unwrap().as_u64().unwrap(),
-            5678
-        );
-        assert_eq!(
-            req.other.get("bootstrap_room").unwrap().as_u64().unwrap(),
-            12345
-        );
-    }
-
-    #[test]
-    fn test_completion_bootstrap_array_values() {
-        let mut req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::Array(vec!["prompt1".to_string(), "prompt2".to_string()]),
-            ..default_completion_request()
-        };
-
-        // Set bootstrap info with arrays
-        req.set_bootstrap_info(
-            BootstrapHost::Batch(vec!["test-server".to_string(); 2]),
-            BootstrapPort::Batch(vec![Some(5678); 2]),
-            BootstrapRoom::Batch(vec![12345, 67890]),
-        );
-
-        // Verify arrays were created correctly
-        assert!(req.other.get("bootstrap_host").unwrap().is_array());
-        assert!(req.other.get("bootstrap_port").unwrap().is_array());
-        assert!(req.other.get("bootstrap_room").unwrap().is_array());
-
-        let hosts = req.other.get("bootstrap_host").unwrap().as_array().unwrap();
-        assert_eq!(hosts.len(), 2);
-        assert_eq!(hosts[0].as_str().unwrap(), "test-server");
-
-        let ports = req.other.get("bootstrap_port").unwrap().as_array().unwrap();
-        assert_eq!(ports.len(), 2);
-        assert_eq!(ports[0].as_u64().unwrap(), 5678);
-
-        let rooms = req.other.get("bootstrap_room").unwrap().as_array().unwrap();
-        assert_eq!(rooms.len(), 2);
-        assert_eq!(rooms[0].as_u64().unwrap(), 12345);
-        assert_eq!(rooms[1].as_u64().unwrap(), 67890);
-    }
-
-    #[test]
-    fn test_bootstrap_room_range() {
-        // Test that bootstrap_room values are within the expected range [0, 2^63 - 1]
-        let worker = BasicWorker::new(
-            "http://test:8000".to_string(),
-            WorkerType::Prefill {
-                bootstrap_port: Some(8080),
-            },
-        );
-
-        // Test single request
-        let mut single_req = GenerateReqInput {
-            text: Some(InputText::Single("test".to_string())),
-            input_ids: None,
-            stream: false,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(serde_json::Map::new()),
-        };
-
-        for _ in 0..200000 {
-            single_req.add_bootstrap_info(&worker).unwrap();
-            if let Some(BootstrapRoom::Single(room)) = single_req.bootstrap_room {
-                // Verify the room value is within signed 64-bit range
-                assert!(room <= i64::MAX as u64, "Room {} exceeds i64::MAX", room);
-            } else {
-                panic!("Expected single bootstrap room");
-            }
-        }
-
-        // Test batch request
-        let mut batch_req = GenerateReqInput {
-            text: Some(InputText::Batch(vec![
-                "test1".to_string(),
-                "test2".to_string(),
-            ])),
-            input_ids: None,
-            stream: false,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(serde_json::Map::new()),
-        };
-
-        for _ in 0..200000 {
-            batch_req.add_bootstrap_info(&worker).unwrap();
-            if let Some(BootstrapRoom::Batch(rooms)) = &batch_req.bootstrap_room {
-                for room in rooms {
-                    // Verify each room value is within signed 64-bit range
-                    assert!(*room <= i64::MAX as u64, "Room {} exceeds i64::MAX", room);
-                }
-            } else {
-                panic!("Expected batch bootstrap rooms");
-            }
-        }
-    }
-}
diff --git a/sgl-router/src/routers/request_adapter.rs b/sgl-router/src/routers/request_adapter.rs
deleted file mode 100644
index 8092447933a4..000000000000
--- a/sgl-router/src/routers/request_adapter.rs
+++ /dev/null
@@ -1,1512 +0,0 @@
-// Request adapter to bridge OpenAI API types with PD routing requirements
-
-use super::pd_types::{Bootstrap, ChatReqInput, GenerateReqInput, SingleOrBatch};
-use crate::openai_api_types::{
-    ChatCompletionRequest, CompletionRequest, GenerateRequest, GenerationRequest, StringOrArray,
-};
-use serde_json::Value;
-
-/// Adapter trait to convert OpenAI requests to PD-compatible requests
-pub trait ToPdRequest {
-    type Output: Bootstrap;
-    fn to_pd_request(self) -> Self::Output;
-}
-
-// Helper macro to insert optional fields into a map
-macro_rules! insert_if_some {
-    ($map:expr, $($field:expr => $key:expr),* $(,)?) => {
-        $(
-            if let Some(value) = $field {
-                $map.insert($key.to_string(), serde_json::to_value(value).unwrap_or(Value::Null));
-            }
-        )*
-    };
-}
-
-// Helper macro for simple value insertions
-macro_rules! insert_value {
-    ($map:expr, $($field:expr => $key:expr),* $(,)?) => {
-        $(
-            $map.insert($key.to_string(), $field.into());
-        )*
-    };
-}
-
-// ============= Generate Request Adapter =============
-
-impl ToPdRequest for GenerateRequest {
-    type Output = GenerateReqInput;
-
-    fn to_pd_request(self) -> Self::Output {
-        // Build the other fields first
-        let mut other = serde_json::Map::new();
-
-        // Handle text input - check in priority order: text (SGLang), prompt (OpenAI)
-        let (text, input_ids) = if let Some(text_str) = self.text {
-            // SGLang native format
-            (Some(SingleOrBatch::Single(text_str)), None)
-        } else if let Some(prompt) = self.prompt {
-            // OpenAI style prompt
-            let text = match prompt {
-                StringOrArray::String(s) => Some(SingleOrBatch::Single(s)),
-                StringOrArray::Array(v) => Some(SingleOrBatch::Batch(v)),
-            };
-            (text, None)
-        } else if let Some(ids) = self.input_ids {
-            // Input IDs case
-            let input_ids = match ids {
-                crate::openai_api_types::InputIds::Single(ids) => Some(SingleOrBatch::Single(ids)),
-                crate::openai_api_types::InputIds::Batch(ids) => Some(SingleOrBatch::Batch(ids)),
-            };
-            (None, input_ids)
-        } else {
-            // No input provided
-            (None, None)
-        };
-
-        // Add parameters to other - handle both old and new style
-        if let Some(params) = self.parameters {
-            // For generate endpoint, extract max_new_tokens to top level if present
-            let mut params_value = serde_json::to_value(&params).unwrap_or(Value::Null);
-            if let Value::Object(ref mut params_map) = params_value {
-                // Move max_new_tokens to top level if it exists
-                if let Some(max_new_tokens) = params_map.remove("max_new_tokens") {
-                    other.insert("max_new_tokens".to_string(), max_new_tokens);
-                }
-                // Move temperature to top level if it exists
-                if let Some(temperature) = params_map.remove("temperature") {
-                    other.insert("temperature".to_string(), temperature);
-                }
-            }
-            // Only add parameters if there are remaining fields
-            if !params_value.is_null() && params_value.as_object().map_or(false, |m| !m.is_empty())
-            {
-                other.insert("parameters".to_string(), params_value);
-            }
-        }
-
-        // Add sampling_params if present
-        if let Some(sampling_params) = self.sampling_params {
-            let params_value = serde_json::to_value(&sampling_params).unwrap_or(Value::Null);
-            if !params_value.is_null() {
-                // Extract commonly used fields to top level
-                if let Value::Object(ref params_map) = params_value {
-                    if let Some(max_new_tokens) = params_map.get("max_new_tokens") {
-                        other.insert("max_new_tokens".to_string(), max_new_tokens.clone());
-                    }
-                    if let Some(temperature) = params_map.get("temperature") {
-                        other.insert("temperature".to_string(), temperature.clone());
-                    }
-                }
-                other.insert("sampling_params".to_string(), params_value);
-            }
-        }
-
-        // Add other fields
-        insert_value!(other,
-            self.stream => "stream",
-            self.return_logprob => "return_logprob"
-        );
-
-        GenerateReqInput {
-            text,
-            input_ids,
-            stream: self.stream,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(other),
-        }
-    }
-}
-
-// ============= Completion Request Adapter =============
-
-impl ToPdRequest for CompletionRequest {
-    type Output = GenerateReqInput;
-
-    fn to_pd_request(self) -> Self::Output {
-        // Convert CompletionRequest to GenerateReqInput
-        let text = match self.prompt {
-            StringOrArray::String(s) => Some(SingleOrBatch::Single(s)),
-            StringOrArray::Array(v) => Some(SingleOrBatch::Batch(v)),
-        };
-
-        // Map OpenAI parameters to generate parameters
-        let mut other = serde_json::Map::new();
-
-        // Create parameters object
-        let mut params = serde_json::Map::new();
-
-        // Map OpenAI fields to internal parameter names
-        insert_if_some!(params,
-            self.max_tokens => "max_new_tokens",
-            self.temperature => "temperature",
-            self.top_p => "top_p",
-            self.n => "best_of",
-            self.logprobs => "top_n_tokens",
-            self.seed => "seed"
-        );
-
-        // Special handling for fields that need transformation
-        if let Some(presence_penalty) = self.presence_penalty {
-            params.insert(
-                "repetition_penalty".to_string(),
-                (1.0 + presence_penalty).into(),
-            );
-        }
-
-        if let Some(stop) = self.stop {
-            let stop_sequences = match stop {
-                StringOrArray::String(s) => vec![s],
-                StringOrArray::Array(v) => v,
-            };
-            params.insert("stop".to_string(), stop_sequences.into());
-        }
-
-        if self.echo {
-            params.insert("return_full_text".to_string(), true.into());
-        }
-
-        other.insert("parameters".to_string(), Value::Object(params));
-
-        // Store original model and stream flag
-        insert_value!(other,
-            self.model => "model",
-            self.stream => "stream"
-        );
-
-        // Add SGLang extension fields
-        insert_if_some!(other,
-            // SGLang Extensions - Priority 1
-            self.top_k => "top_k",
-            self.min_p => "min_p",
-            self.min_tokens => "min_tokens",
-            self.repetition_penalty => "repetition_penalty",
-            self.regex => "regex",
-            self.ebnf => "ebnf",
-            self.stop_token_ids => "stop_token_ids",
-            // SGLang Extensions - Priority 2
-            self.lora_path => "lora_path",
-            self.session_params => "session_params"
-        );
-
-        // SGLang boolean extensions (CompletionRequest has these as bool, not Option<bool>)
-        other.insert("no_stop_trim".to_string(), self.no_stop_trim.into());
-        other.insert("ignore_eos".to_string(), self.ignore_eos.into());
-        other.insert(
-            "skip_special_tokens".to_string(),
-            self.skip_special_tokens.into(),
-        );
-        other.insert(
-            "return_hidden_states".to_string(),
-            self.return_hidden_states.into(),
-        );
-
-        GenerateReqInput {
-            text,
-            input_ids: None,
-            stream: self.stream,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(other),
-        }
-    }
-}
-
-// ============= Chat Completion Request Adapter =============
-
-impl ToPdRequest for ChatCompletionRequest {
-    type Output = ChatReqInput;
-
-    fn to_pd_request(self) -> Self::Output {
-        let mut other = serde_json::Map::new();
-
-        // Add required fields
-        insert_if_some!(other,
-            Some(&self.messages) => "messages"
-        );
-
-        insert_value!(other,
-            self.model => "model",
-            self.stream => "stream"
-        );
-
-        // Add all optional fields
-        insert_if_some!(other,
-            self.temperature => "temperature",
-            self.top_p => "top_p",
-            self.n => "n",
-            self.stream_options => "stream_options",
-            self.stop => "stop",
-            self.max_tokens => "max_tokens",
-            self.max_completion_tokens => "max_completion_tokens",
-            self.presence_penalty => "presence_penalty",
-            self.frequency_penalty => "frequency_penalty",
-            self.logit_bias => "logit_bias",
-            self.user => "user",
-            self.seed => "seed",
-            self.top_logprobs => "top_logprobs",
-            self.response_format => "response_format",
-            self.tools => "tools",
-            self.tool_choice => "tool_choice",
-            self.parallel_tool_calls => "parallel_tool_calls",
-            self.functions => "functions",
-            self.function_call => "function_call",
-            // SGLang Extensions - Priority 1
-            self.top_k => "top_k",
-            self.min_p => "min_p",
-            self.min_tokens => "min_tokens",
-            self.repetition_penalty => "repetition_penalty",
-            self.regex => "regex",
-            self.ebnf => "ebnf",
-            self.stop_token_ids => "stop_token_ids",
-            // SGLang Extensions - Priority 2
-            self.lora_path => "lora_path",
-            self.session_params => "session_params"
-        );
-
-        // Handle boolean flags
-        if self.logprobs {
-            other.insert("logprobs".to_string(), true.into());
-        }
-
-        // SGLang boolean extensions (ChatCompletionRequest has these as bool, not Option<bool>)
-        other.insert("no_stop_trim".to_string(), self.no_stop_trim.into());
-        other.insert("ignore_eos".to_string(), self.ignore_eos.into());
-        other.insert(
-            "continue_final_message".to_string(),
-            self.continue_final_message.into(),
-        );
-        other.insert(
-            "skip_special_tokens".to_string(),
-            self.skip_special_tokens.into(),
-        );
-        other.insert(
-            "separate_reasoning".to_string(),
-            self.separate_reasoning.into(),
-        );
-        other.insert("stream_reasoning".to_string(), self.stream_reasoning.into());
-        other.insert(
-            "return_hidden_states".to_string(),
-            self.return_hidden_states.into(),
-        );
-
-        ChatReqInput {
-            stream: self.stream,
-            bootstrap_host: None,
-            bootstrap_port: None,
-            bootstrap_room: None,
-            other: Value::Object(other),
-        }
-    }
-}
-
-// ============= Direct routing support for regular router =============
-
-/// Extension trait for routing without PD conversion
-pub trait RouteableRequest: GenerationRequest + serde::Serialize + Clone {
-    /// Convert to JSON for sending to backend
-    fn to_json(&self) -> Result<Value, serde_json::Error> {
-        serde_json::to_value(self)
-    }
-
-    /// Convert to bytes for legacy routing
-    fn to_bytes(&self) -> Result<bytes::Bytes, serde_json::Error> {
-        let json = serde_json::to_vec(self)?;
-        Ok(bytes::Bytes::from(json))
-    }
-}
-
-impl RouteableRequest for GenerateRequest {}
-impl RouteableRequest for CompletionRequest {}
-impl RouteableRequest for ChatCompletionRequest {}
-
-#[cfg(test)]
-mod tests {
-    use super::*;
-    use crate::openai_api_types::*;
-    use serde_json::json;
-    use std::collections::HashMap;
-
-    // ============= Test Helper Functions =============
-    //
-    // These helper functions create default request instances with all required SGLang extension fields
-    // properly initialized. Use the struct spread operator `..default_*_request()` to override only
-    // the fields you need for specific tests, avoiding repetitive boilerplate code.
-    //
-    // Example usage:
-    //   let req = GenerateRequest {
-    //       text: Some("Custom text".to_string()),
-    //       stream: true,
-    //       ..default_generate_request()
-    //   };
-
-    /// Create a default GenerateRequest with minimal fields set
-    fn default_generate_request() -> GenerateRequest {
-        GenerateRequest {
-            text: None,
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
-            // SGLang Extensions
-            lora_path: None,
-            session_params: None,
-            return_hidden_states: false,
-            rid: None,
-        }
-    }
-
-    /// Create a default CompletionRequest with minimal fields set
-    fn default_completion_request() -> CompletionRequest {
-        CompletionRequest {
-            model: "test-model".to_string(),
-            prompt: StringOrArray::String("test prompt".to_string()),
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            suffix: None,
-            // SGLang Extensions
-            top_k: None,
-            min_p: None,
-            min_tokens: None,
-            repetition_penalty: None,
-            regex: None,
-            ebnf: None,
-            json_schema: None,
-            stop_token_ids: None,
-            no_stop_trim: false,
-            ignore_eos: false,
-            skip_special_tokens: true,
-            // SGLang Extensions
-            lora_path: None,
-            session_params: None,
-            return_hidden_states: false,
-            other: serde_json::Map::new(),
-        }
-    }
-
-    /// Create a default ChatCompletionRequest with minimal fields set
-    fn default_chat_completion_request() -> ChatCompletionRequest {
-        ChatCompletionRequest {
-            model: "test-model".to_string(),
-            messages: vec![ChatMessage::User {
-                role: "user".to_string(),
-                content: UserMessageContent::Text("test message".to_string()),
-                name: None,
-            }],
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            stop: None,
-            max_tokens: None,
-            max_completion_tokens: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            logit_bias: None,
-            logprobs: false,
-            top_logprobs: None,
-            user: None,
-            seed: None,
-            response_format: None,
-            tools: None,
-            tool_choice: None,
-            parallel_tool_calls: None,
-            functions: None,
-            function_call: None,
-            // SGLang Extensions
-            top_k: None,
-            min_p: None,
-            min_tokens: None,
-            repetition_penalty: None,
-            regex: None,
-            ebnf: None,
-            stop_token_ids: None,
-            no_stop_trim: false,
-            ignore_eos: false,
-            continue_final_message: false,
-            skip_special_tokens: true,
-            // SGLang Extensions
-            lora_path: None,
-            session_params: None,
-            separate_reasoning: true,
-            stream_reasoning: true,
-            return_hidden_states: false,
-        }
-    }
-
-    // ============= GenerateRequest to_pd_request Tests =============
-
-    #[test]
-    fn test_generate_to_pd_request_with_text_only() {
-        let req = GenerateRequest {
-            text: Some("Hello world".to_string()),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        // Check text field conversion
-        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Hello world"));
-        assert!(pd_req.input_ids.is_none());
-
-        // Check bootstrap fields are None
-        assert!(pd_req.bootstrap_host.is_none());
-        assert!(pd_req.bootstrap_port.is_none());
-        assert!(pd_req.bootstrap_room.is_none());
-
-        // Check stream flag
-        assert_eq!(pd_req.stream, false);
-
-        // Check other fields
-        let other = pd_req.other.as_object().unwrap();
-        assert_eq!(other.get("stream"), Some(&json!(false)));
-        assert_eq!(other.get("return_logprob"), Some(&json!(false)));
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_with_prompt_string() {
-        let req = GenerateRequest {
-            prompt: Some(StringOrArray::String("Test prompt".to_string())),
-            stream: true,
-            return_logprob: true,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Test prompt"));
-        assert!(pd_req.input_ids.is_none());
-        assert_eq!(pd_req.stream, true);
-
-        let other = pd_req.other.as_object().unwrap();
-        assert_eq!(other.get("stream"), Some(&json!(true)));
-        assert_eq!(other.get("return_logprob"), Some(&json!(true)));
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_with_prompt_array() {
-        let req = GenerateRequest {
-            text: None,
-            prompt: Some(StringOrArray::Array(vec![
-                "Prompt 1".to_string(),
-                "Prompt 2".to_string(),
-                "Prompt 3".to_string(),
-            ])),
-            input_ids: None,
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        match pd_req.text {
-            Some(SingleOrBatch::Batch(ref batch)) => {
-                assert_eq!(batch.len(), 3);
-                assert_eq!(batch[0], "Prompt 1");
-                assert_eq!(batch[1], "Prompt 2");
-                assert_eq!(batch[2], "Prompt 3");
-            }
-            _ => panic!("Expected batch text"),
-        }
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_with_single_input_ids() {
-        let req = GenerateRequest {
-            input_ids: Some(InputIds::Single(vec![100, 200, 300, 400])),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        assert!(pd_req.text.is_none());
-        assert!(matches!(
-            pd_req.input_ids,
-            Some(SingleOrBatch::Single(ref ids)) if ids == &vec![100, 200, 300, 400]
-        ));
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_with_batch_input_ids() {
-        let req = GenerateRequest {
-            input_ids: Some(InputIds::Batch(vec![
-                vec![1, 2, 3],
-                vec![4, 5, 6, 7],
-                vec![8, 9],
-            ])),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        match pd_req.input_ids {
-            Some(SingleOrBatch::Batch(ref batch)) => {
-                assert_eq!(batch.len(), 3);
-                assert_eq!(batch[0], vec![1, 2, 3]);
-                assert_eq!(batch[1], vec![4, 5, 6, 7]);
-                assert_eq!(batch[2], vec![8, 9]);
-            }
-            _ => panic!("Expected batch input_ids"),
-        }
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_priority_text_over_prompt() {
-        let req = GenerateRequest {
-            text: Some("SGLang text".to_string()),
-            prompt: Some(StringOrArray::String("OpenAI prompt".to_string())),
-            input_ids: Some(InputIds::Single(vec![1, 2, 3])),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        // text should take priority
-        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "SGLang text"));
-        assert!(pd_req.input_ids.is_none());
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_priority_prompt_over_input_ids() {
-        let req = GenerateRequest {
-            prompt: Some(StringOrArray::String("OpenAI prompt".to_string())),
-            input_ids: Some(InputIds::Single(vec![1, 2, 3])),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        // prompt should take priority over input_ids
-        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "OpenAI prompt"));
-        assert!(pd_req.input_ids.is_none());
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_with_parameters() {
-        let params = GenerateParameters {
-            max_new_tokens: Some(100),
-            temperature: Some(0.8),
-            top_p: Some(0.95),
-            seed: Some(12345),
-            stop: Some(vec!["END".to_string(), "STOP".to_string()]),
-            repetition_penalty: Some(1.1),
-            ..Default::default()
-        };
-
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            parameters: Some(params),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Check that max_new_tokens and temperature were extracted to top level
-        assert_eq!(other.get("max_new_tokens"), Some(&json!(100)));
-        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.8 < 0.0001);
-
-        // Check that other parameters remain under "parameters"
-        let params = other.get("parameters").unwrap().as_object().unwrap();
-        assert!(params.get("top_p").unwrap().as_f64().unwrap() - 0.95 < 0.0001);
-        assert_eq!(params.get("seed"), Some(&json!(12345)));
-        assert_eq!(params.get("stop"), Some(&json!(vec!["END", "STOP"])));
-        assert!(params.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.1 < 0.0001);
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_with_sampling_params() {
-        let sampling = SamplingParams {
-            max_new_tokens: Some(200),
-            temperature: Some(0.7),
-            top_p: Some(0.9),
-            top_k: Some(50),
-            frequency_penalty: Some(0.1),
-            presence_penalty: Some(0.2),
-            repetition_penalty: Some(1.05),
-            ..Default::default()
-        };
-
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            sampling_params: Some(sampling),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Check extracted top-level fields
-        assert_eq!(other.get("max_new_tokens"), Some(&json!(200)));
-        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.7 < 0.0001);
-
-        // Check full sampling_params is preserved
-        let sampling = other.get("sampling_params").unwrap().as_object().unwrap();
-        assert_eq!(sampling.get("max_new_tokens"), Some(&json!(200)));
-        assert!(sampling.get("temperature").unwrap().as_f64().unwrap() - 0.7 < 0.0001);
-        assert!(sampling.get("top_p").unwrap().as_f64().unwrap() - 0.9 < 0.0001);
-        assert_eq!(sampling.get("top_k"), Some(&json!(50)));
-        assert!(sampling.get("frequency_penalty").unwrap().as_f64().unwrap() - 0.1 < 0.0001);
-        assert!(sampling.get("presence_penalty").unwrap().as_f64().unwrap() - 0.2 < 0.0001);
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_sampling_params_override_parameters() {
-        // When both parameters and sampling_params have max_new_tokens/temperature,
-        // sampling_params should take precedence (processed last)
-        let params = GenerateParameters {
-            max_new_tokens: Some(100),
-            temperature: Some(0.5),
-            ..Default::default()
-        };
-
-        let sampling = SamplingParams {
-            max_new_tokens: Some(200),
-            temperature: Some(0.9),
-            ..Default::default()
-        };
-
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: Some(params),
-            sampling_params: Some(sampling),
-            return_logprob: false,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Should use values from sampling_params since they're processed last
-        assert_eq!(other.get("max_new_tokens"), Some(&json!(200)));
-        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.9 < 0.0001);
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_empty_parameters() {
-        let params = GenerateParameters::default();
-
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: Some(params),
-            sampling_params: None,
-            return_logprob: false,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Should not have parameters field if all values are None/default
-        assert!(!other.contains_key("parameters"));
-        assert!(!other.contains_key("max_new_tokens"));
-        assert!(!other.contains_key("temperature"));
-    }
-
-    #[test]
-    fn test_generate_to_pd_request_all_fields() {
-        let params = GenerateParameters {
-            max_new_tokens: Some(150),
-            temperature: Some(0.6),
-            top_k: Some(40),
-            ..Default::default()
-        };
-
-        let sampling = SamplingParams {
-            max_new_tokens: Some(250), // Will override parameters
-            temperature: Some(0.8),    // Will override parameters
-            presence_penalty: Some(0.1),
-            ..Default::default()
-        };
-
-        let req = GenerateRequest {
-            text: Some("Complex test".to_string()),
-            prompt: Some(StringOrArray::String("Ignored prompt".to_string())),
-            input_ids: None,
-            stream: true,
-            parameters: Some(params),
-            sampling_params: Some(sampling),
-            return_logprob: true,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        // Verify all fields
-        assert!(matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Complex test"));
-        assert!(pd_req.input_ids.is_none());
-        assert_eq!(pd_req.stream, true);
-        assert!(pd_req.bootstrap_host.is_none());
-        assert!(pd_req.bootstrap_port.is_none());
-        assert!(pd_req.bootstrap_room.is_none());
-
-        let other = pd_req.other.as_object().unwrap();
-        assert_eq!(other.get("stream"), Some(&json!(true)));
-        assert_eq!(other.get("return_logprob"), Some(&json!(true)));
-        // Sampling params override parameters
-        assert_eq!(other.get("max_new_tokens"), Some(&json!(250)));
-        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.8 < 0.0001);
-        assert!(other.contains_key("parameters"));
-        assert!(other.contains_key("sampling_params"));
-    }
-
-    // ============= CompletionRequest to_pd_request Tests =============
-
-    #[test]
-    fn test_completion_to_pd_request_basic() {
-        let req = CompletionRequest {
-            model: "gpt-3.5-turbo".to_string(),
-            prompt: StringOrArray::String("Complete this sentence".to_string()),
-            ..default_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        assert!(
-            matches!(pd_req.text, Some(SingleOrBatch::Single(ref s)) if s == "Complete this sentence")
-        );
-        assert!(pd_req.input_ids.is_none());
-        assert_eq!(pd_req.stream, false);
-
-        let other = pd_req.other.as_object().unwrap();
-        assert_eq!(other.get("model"), Some(&json!("gpt-3.5-turbo")));
-        assert_eq!(other.get("stream"), Some(&json!(false)));
-    }
-
-    #[test]
-    fn test_completion_to_pd_request_array_prompt() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::Array(vec![
-                "First prompt".to_string(),
-                "Second prompt".to_string(),
-            ]),
-            ..default_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        match pd_req.text {
-            Some(SingleOrBatch::Batch(ref batch)) => {
-                assert_eq!(batch.len(), 2);
-                assert_eq!(batch[0], "First prompt");
-                assert_eq!(batch[1], "Second prompt");
-            }
-            _ => panic!("Expected batch text"),
-        }
-    }
-
-    #[test]
-    fn test_completion_to_pd_request_parameter_mapping() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::String("test".to_string()),
-            max_tokens: Some(150), // -> max_new_tokens
-            temperature: Some(0.75),
-            top_p: Some(0.92),
-            n: Some(3), // -> best_of
-            stream: true,
-            stream_options: None,
-            logprobs: Some(10), // -> top_n_tokens
-            echo: true,         // -> return_full_text
-            stop: Some(StringOrArray::Array(vec![
-                "\\n".to_string(),
-                "END".to_string(),
-            ])),
-            presence_penalty: Some(0.5), // -> repetition_penalty = 1.5
-            frequency_penalty: Some(0.2),
-            best_of: Some(5),
-            logit_bias: None,
-            user: Some("user123".to_string()),
-            seed: Some(42),
-            suffix: Some("...".to_string()),
-            ..default_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-        let params = other.get("parameters").unwrap().as_object().unwrap();
-
-        // Check parameter mappings
-        assert_eq!(params.get("max_new_tokens"), Some(&json!(150)));
-        assert!(params.get("temperature").unwrap().as_f64().unwrap() - 0.75 < 0.0001);
-        assert!(params.get("top_p").unwrap().as_f64().unwrap() - 0.92 < 0.0001);
-        assert_eq!(params.get("best_of"), Some(&json!(3)));
-        assert_eq!(params.get("top_n_tokens"), Some(&json!(10)));
-        assert_eq!(params.get("return_full_text"), Some(&json!(true)));
-        assert_eq!(params.get("stop"), Some(&json!(vec!["\\n", "END"])));
-        assert!(params.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.5 < 0.0001);
-        assert_eq!(params.get("seed"), Some(&json!(42)));
-
-        // Check other fields
-        assert_eq!(other.get("model"), Some(&json!("test")));
-        assert_eq!(other.get("stream"), Some(&json!(true)));
-    }
-
-    #[test]
-    fn test_completion_to_pd_request_stop_string() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::String("test".to_string()),
-            stop: Some(StringOrArray::String("STOP".to_string())),
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            presence_penalty: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            suffix: None,
-            ..default_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-        let params = other.get("parameters").unwrap().as_object().unwrap();
-
-        // Single string stop should be converted to array
-        assert_eq!(params.get("stop"), Some(&json!(vec!["STOP"])));
-    }
-
-    #[test]
-    fn test_completion_to_pd_request_no_presence_penalty() {
-        let req = CompletionRequest {
-            model: "test".to_string(),
-            prompt: StringOrArray::String("test".to_string()),
-            presence_penalty: None,
-            max_tokens: None,
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            logprobs: None,
-            echo: false,
-            stop: None,
-            frequency_penalty: None,
-            best_of: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            suffix: None,
-            ..default_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-        let params = other.get("parameters").unwrap().as_object().unwrap();
-
-        // Should not have repetition_penalty if presence_penalty is None
-        assert!(!params.contains_key("repetition_penalty"));
-    }
-
-    // ============= ChatCompletionRequest to_pd_request Tests =============
-
-    #[test]
-    fn test_chat_to_pd_request_basic() {
-        let messages = vec![
-            ChatMessage::System {
-                role: "system".to_string(),
-                content: "You are a helpful assistant".to_string(),
-                name: None,
-            },
-            ChatMessage::User {
-                role: "user".to_string(),
-                content: UserMessageContent::Text("Hello!".to_string()),
-                name: None,
-            },
-        ];
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "gpt-4".to_string(),
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        assert_eq!(pd_req.stream, false);
-        assert!(pd_req.bootstrap_host.is_none());
-        assert!(pd_req.bootstrap_port.is_none());
-        assert!(pd_req.bootstrap_room.is_none());
-
-        let other = pd_req.other.as_object().unwrap();
-        assert!(other.contains_key("messages"));
-        assert_eq!(other.get("model"), Some(&json!("gpt-4")));
-        assert_eq!(other.get("stream"), Some(&json!(false)));
-
-        // Check messages are preserved
-        let messages = other.get("messages").unwrap().as_array().unwrap();
-        assert_eq!(messages.len(), 2);
-    }
-
-    #[test]
-    fn test_chat_to_pd_request_with_all_optional_fields() {
-        let messages = vec![ChatMessage::User {
-            role: "user".to_string(),
-            content: UserMessageContent::Text("Test".to_string()),
-            name: Some("test_user".to_string()),
-        }];
-
-        let mut logit_bias = HashMap::new();
-        logit_bias.insert("50256".to_string(), -100.0f32);
-
-        let tool = Tool {
-            tool_type: "function".to_string(),
-            function: Function {
-                name: "get_weather".to_string(),
-                description: Some("Get weather info".to_string()),
-                parameters: json!({"type": "object"}),
-            },
-        };
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "gpt-4".to_string(),
-            temperature: Some(0.8),
-            top_p: Some(0.95),
-            n: Some(2),
-            stream: true,
-            stream_options: Some(StreamOptions {
-                include_usage: Some(true),
-            }),
-            stop: Some(StringOrArray::String("\\n\\n".to_string())),
-            max_tokens: Some(200),
-            max_completion_tokens: Some(150),
-            presence_penalty: Some(0.1),
-            frequency_penalty: Some(0.2),
-            logit_bias: Some(logit_bias),
-            logprobs: true,
-            top_logprobs: Some(5),
-            user: Some("user456".to_string()),
-            seed: Some(12345),
-            response_format: Some(ResponseFormat::JsonObject),
-            tools: Some(vec![tool]),
-            tool_choice: Some(ToolChoice::Auto),
-            parallel_tool_calls: Some(false),
-            functions: None,
-            function_call: None,
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Check all fields are preserved
-        assert!(other.get("temperature").unwrap().as_f64().unwrap() - 0.8 < 0.0001);
-        assert!(other.get("top_p").unwrap().as_f64().unwrap() - 0.95 < 0.0001);
-        assert_eq!(other.get("n"), Some(&json!(2)));
-        assert_eq!(other.get("stream"), Some(&json!(true)));
-        assert!(other.contains_key("stream_options"));
-        assert!(other.contains_key("stop"));
-        assert_eq!(other.get("max_tokens"), Some(&json!(200)));
-        assert_eq!(other.get("max_completion_tokens"), Some(&json!(150)));
-        assert!(other.get("presence_penalty").unwrap().as_f64().unwrap() - 0.1 < 0.0001);
-        assert!(other.get("frequency_penalty").unwrap().as_f64().unwrap() - 0.2 < 0.0001);
-        assert!(other.contains_key("logit_bias"));
-        assert_eq!(other.get("logprobs"), Some(&json!(true)));
-        assert_eq!(other.get("top_logprobs"), Some(&json!(5)));
-        assert_eq!(other.get("user"), Some(&json!("user456")));
-        assert_eq!(other.get("seed"), Some(&json!(12345)));
-        assert!(other.contains_key("response_format"));
-        assert!(other.contains_key("tools"));
-        assert!(other.contains_key("tool_choice"));
-        assert_eq!(other.get("parallel_tool_calls"), Some(&json!(false)));
-    }
-
-    #[test]
-    fn test_chat_to_pd_request_multimodal_content() {
-        let messages = vec![ChatMessage::User {
-            role: "user".to_string(),
-            content: UserMessageContent::Parts(vec![
-                ContentPart::Text {
-                    text: "What's in this image?".to_string(),
-                },
-                ContentPart::ImageUrl {
-                    image_url: ImageUrl {
-                        url: "https://example.com/image.jpg".to_string(),
-                        detail: Some("high".to_string()),
-                    },
-                },
-            ]),
-            name: None,
-        }];
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "gpt-4-vision".to_string(),
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Messages with multimodal content should be preserved
-        assert!(other.contains_key("messages"));
-        let messages = other.get("messages").unwrap().as_array().unwrap();
-        assert_eq!(messages.len(), 1);
-
-        // Verify the message structure is preserved
-        let msg = &messages[0];
-        assert_eq!(msg["role"], "user");
-        assert!(msg["content"].is_array());
-    }
-
-    #[test]
-    fn test_chat_to_pd_request_logprobs_boolean() {
-        let messages = vec![ChatMessage::User {
-            role: "user".to_string(),
-            content: UserMessageContent::Text("Test".to_string()),
-            name: None,
-        }];
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "test".to_string(),
-            logprobs: true, // Boolean logprobs flag
-            top_logprobs: Some(3),
-            temperature: None,
-            top_p: None,
-            n: None,
-            stream: false,
-            stream_options: None,
-            stop: None,
-            max_tokens: None,
-            max_completion_tokens: None,
-            presence_penalty: None,
-            frequency_penalty: None,
-            logit_bias: None,
-            user: None,
-            seed: None,
-            response_format: None,
-            tools: None,
-            tool_choice: None,
-            parallel_tool_calls: None,
-            functions: None,
-            function_call: None,
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        assert_eq!(other.get("logprobs"), Some(&json!(true)));
-        assert_eq!(other.get("top_logprobs"), Some(&json!(3)));
-    }
-
-    #[test]
-    fn test_chat_to_pd_request_minimal_fields() {
-        let messages = vec![ChatMessage::Assistant {
-            role: "assistant".to_string(),
-            content: Some("I can help with that.".to_string()),
-            name: None,
-            tool_calls: None,
-            function_call: None,
-            reasoning_content: None,
-        }];
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "gpt-3.5-turbo".to_string(),
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Should only have required fields
-        assert!(other.contains_key("messages"));
-        assert!(other.contains_key("model"));
-        assert!(other.contains_key("stream"));
-
-        // Optional fields should not be present
-        assert!(!other.contains_key("temperature"));
-        assert!(!other.contains_key("top_p"));
-        assert!(!other.contains_key("max_tokens"));
-        assert!(!other.contains_key("stop"));
-    }
-
-    #[test]
-    fn test_routeable_request_to_json() {
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            ..default_generate_request()
-        };
-
-        let json = req.to_json().unwrap();
-        assert_eq!(json["text"], "test");
-        assert_eq!(json["stream"], false);
-    }
-
-    // ============= Macro Tests =============
-
-    #[test]
-    fn test_insert_if_some_macro() {
-        let mut map = serde_json::Map::new();
-
-        let some_value: Option<i32> = Some(42);
-        let none_value: Option<i32> = None;
-
-        insert_if_some!(map,
-            some_value => "present",
-            none_value => "absent"
-        );
-
-        assert_eq!(map.get("present"), Some(&json!(42)));
-        assert!(!map.contains_key("absent"));
-    }
-
-    #[test]
-    fn test_insert_value_macro() {
-        let mut map = serde_json::Map::new();
-
-        let value1 = "test";
-        let value2 = 42;
-
-        insert_value!(map,
-            value1 => "string_field",
-            value2 => "int_field"
-        );
-
-        assert_eq!(map.get("string_field"), Some(&json!("test")));
-        assert_eq!(map.get("int_field"), Some(&json!(42)));
-    }
-
-    // ============= Edge Cases and Error Handling =============
-
-    #[test]
-    fn test_null_value_handling() {
-        let params = GenerateParameters {
-            max_new_tokens: None,
-            temperature: None,
-            ..Default::default()
-        };
-
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: Some(params),
-            sampling_params: None,
-            return_logprob: false,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Should not have parameters field if all fields are None
-        assert!(!other.contains_key("parameters"));
-    }
-
-    #[test]
-    fn test_large_batch_conversion() {
-        let large_batch: Vec<String> = (0..1000).map(|i| format!("item_{}", i)).collect();
-
-        let req = GenerateRequest {
-            text: None,
-            prompt: Some(StringOrArray::Array(large_batch.clone())),
-            input_ids: None,
-            stream: false,
-            parameters: None,
-            sampling_params: None,
-            return_logprob: false,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        if let Some(SingleOrBatch::Batch(batch)) = pd_req.text {
-            assert_eq!(batch.len(), 1000);
-            assert_eq!(batch[0], "item_0");
-            assert_eq!(batch[999], "item_999");
-        } else {
-            panic!("Expected batch text");
-        }
-    }
-
-    #[test]
-    fn test_unicode_string_handling() {
-        let unicode_text = "Hello 世界 🌍 नमस्ते мир".to_string();
-
-        let req = GenerateRequest {
-            text: Some(unicode_text.clone()),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        if let Some(SingleOrBatch::Single(text)) = pd_req.text {
-            assert_eq!(text, unicode_text);
-        } else {
-            panic!("Expected single text");
-        }
-    }
-
-    #[test]
-    fn test_deeply_nested_parameters() {
-        let mut nested_params = serde_json::Map::new();
-        nested_params.insert(
-            "nested".to_string(),
-            json!({
-                "level1": {
-                    "level2": {
-                        "level3": "value"
-                    }
-                }
-            }),
-        );
-
-        let params = GenerateParameters {
-            max_new_tokens: Some(100),
-            ..Default::default()
-        };
-
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            prompt: None,
-            input_ids: None,
-            stream: false,
-            parameters: Some(params),
-            sampling_params: None,
-            return_logprob: false,
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Parameters should be preserved even with nested structures
-        assert!(other.contains_key("max_new_tokens"));
-    }
-
-    // ============= Bootstrap Field Tests =============
-
-    #[test]
-    fn test_bootstrap_fields_none() {
-        let req = GenerateRequest {
-            text: Some("test".to_string()),
-            ..default_generate_request()
-        };
-
-        let pd_req = req.to_pd_request();
-
-        assert_eq!(pd_req.bootstrap_host, None);
-        assert_eq!(pd_req.bootstrap_port, None);
-        assert_eq!(pd_req.bootstrap_room, None);
-    }
-
-    // ============= SGLang Extension Field Pass-Through Tests =============
-
-    #[test]
-    fn test_chat_completion_sglang_extensions_passed_through() {
-        let messages = vec![ChatMessage::User {
-            role: "user".to_string(),
-            content: UserMessageContent::Text("Test".to_string()),
-            name: None,
-        }];
-
-        let mut session_params = std::collections::HashMap::new();
-        session_params.insert(
-            "key".to_string(),
-            serde_json::Value::String("value".to_string()),
-        );
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "test-model".to_string(),
-            // SGLang Extensions - Priority 1
-            top_k: Some(40),
-            min_p: Some(0.05),
-            min_tokens: Some(10),
-            repetition_penalty: Some(1.1),
-            regex: Some("test_regex".to_string()),
-            ebnf: Some("test_ebnf".to_string()),
-            stop_token_ids: Some(vec![1, 2, 3]),
-            // SGLang Extensions - Priority 2
-            lora_path: Some(LoRAPath::Single(Some("test_lora.bin".to_string()))),
-            session_params: Some(session_params.clone()),
-            // Boolean extensions (ChatCompletionRequest has these as bool, not Option<bool>)
-            no_stop_trim: true,
-            ignore_eos: false,
-            continue_final_message: true,
-            skip_special_tokens: false,
-            separate_reasoning: true,
-            stream_reasoning: false,
-            return_hidden_states: true,
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Verify SGLang extensions are passed through
-        assert_eq!(other.get("top_k"), Some(&json!(40)));
-        assert!((other.get("min_p").unwrap().as_f64().unwrap() - 0.05).abs() < 0.0001);
-        assert_eq!(other.get("min_tokens"), Some(&json!(10)));
-        assert!((other.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.1).abs() < 0.0001);
-        assert_eq!(other.get("regex"), Some(&json!("test_regex")));
-        assert_eq!(other.get("ebnf"), Some(&json!("test_ebnf")));
-        assert_eq!(other.get("stop_token_ids"), Some(&json!(vec![1, 2, 3])));
-        assert_eq!(other.get("lora_path"), Some(&json!("test_lora.bin")));
-        assert_eq!(
-            other.get("session_params"),
-            Some(&serde_json::to_value(&session_params).unwrap())
-        );
-
-        // Verify boolean extensions
-        assert_eq!(other.get("no_stop_trim"), Some(&json!(true)));
-        assert_eq!(other.get("ignore_eos"), Some(&json!(false)));
-        assert_eq!(other.get("continue_final_message"), Some(&json!(true)));
-        assert_eq!(other.get("skip_special_tokens"), Some(&json!(false)));
-        assert_eq!(other.get("separate_reasoning"), Some(&json!(true)));
-        assert_eq!(other.get("stream_reasoning"), Some(&json!(false)));
-        assert_eq!(other.get("return_hidden_states"), Some(&json!(true)));
-    }
-
-    #[test]
-    fn test_completion_request_sglang_extensions_passed_through() {
-        let mut session_params = std::collections::HashMap::new();
-        session_params.insert(
-            "key".to_string(),
-            serde_json::Value::String("value".to_string()),
-        );
-
-        let req = CompletionRequest {
-            prompt: StringOrArray::String("Test prompt".to_string()),
-            model: "test-model".to_string(),
-            // SGLang Extensions - Priority 1
-            top_k: Some(40),
-            min_p: Some(0.05),
-            min_tokens: Some(10),
-            repetition_penalty: Some(1.1),
-            regex: Some("test_regex".to_string()),
-            ebnf: Some("test_ebnf".to_string()),
-            stop_token_ids: Some(vec![1, 2, 3]),
-            // SGLang Extensions - Priority 2
-            lora_path: Some(LoRAPath::Single(Some("test_lora.bin".to_string()))),
-            session_params: Some(session_params.clone()),
-            // Boolean extensions (CompletionRequest only has these 4 boolean fields)
-            no_stop_trim: true,
-            ignore_eos: false,
-            skip_special_tokens: false,
-            return_hidden_states: true,
-            ..default_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Verify SGLang extensions are passed through
-        assert_eq!(other.get("top_k"), Some(&json!(40)));
-        assert!((other.get("min_p").unwrap().as_f64().unwrap() - 0.05).abs() < 0.0001);
-        assert_eq!(other.get("min_tokens"), Some(&json!(10)));
-        assert!((other.get("repetition_penalty").unwrap().as_f64().unwrap() - 1.1).abs() < 0.0001);
-        assert_eq!(other.get("regex"), Some(&json!("test_regex")));
-        assert_eq!(other.get("ebnf"), Some(&json!("test_ebnf")));
-        assert_eq!(other.get("stop_token_ids"), Some(&json!(vec![1, 2, 3])));
-        assert_eq!(other.get("lora_path"), Some(&json!("test_lora.bin")));
-        assert_eq!(
-            other.get("session_params"),
-            Some(&serde_json::to_value(&session_params).unwrap())
-        );
-
-        // Verify boolean extensions (only the ones CompletionRequest has)
-        assert_eq!(other.get("no_stop_trim"), Some(&json!(true)));
-        assert_eq!(other.get("ignore_eos"), Some(&json!(false)));
-        assert_eq!(other.get("skip_special_tokens"), Some(&json!(false)));
-        assert_eq!(other.get("return_hidden_states"), Some(&json!(true)));
-    }
-
-    #[test]
-    fn test_sglang_extensions_none_values_not_passed_through() {
-        let messages = vec![ChatMessage::User {
-            role: "user".to_string(),
-            content: UserMessageContent::Text("Test".to_string()),
-            name: None,
-        }];
-
-        let req = ChatCompletionRequest {
-            messages,
-            model: "test-model".to_string(),
-            // All SGLang extensions as None/default - Optional fields won't appear, bools will use defaults
-            top_k: None,
-            min_p: None,
-            min_tokens: None,
-            repetition_penalty: None,
-            regex: None,
-            ebnf: None,
-            stop_token_ids: None,
-            lora_path: None,
-            session_params: None,
-            // Boolean fields use defaults (false for most, true for some with default_true)
-            no_stop_trim: false,
-            ignore_eos: false,
-            continue_final_message: false,
-            skip_special_tokens: true, // This has default_true
-            separate_reasoning: true,  // This has default_true
-            stream_reasoning: true,    // This has default_true
-            return_hidden_states: false,
-            ..default_chat_completion_request()
-        };
-
-        let pd_req = req.to_pd_request();
-        let other = pd_req.other.as_object().unwrap();
-
-        // Verify None values are not included
-        assert!(!other.contains_key("top_k"));
-        assert!(!other.contains_key("min_p"));
-        assert!(!other.contains_key("min_tokens"));
-        assert!(!other.contains_key("repetition_penalty"));
-        assert!(!other.contains_key("regex"));
-        assert!(!other.contains_key("ebnf"));
-        assert!(!other.contains_key("stop_token_ids"));
-        assert!(!other.contains_key("lora_path"));
-        assert!(!other.contains_key("session_params"));
-
-        // Boolean fields are always present with their values (can't be None)
-        assert_eq!(other.get("no_stop_trim"), Some(&json!(false)));
-        assert_eq!(other.get("ignore_eos"), Some(&json!(false)));
-        assert_eq!(other.get("continue_final_message"), Some(&json!(false)));
-        assert_eq!(other.get("skip_special_tokens"), Some(&json!(true))); // default_true
-        assert_eq!(other.get("separate_reasoning"), Some(&json!(true))); // default_true
-        assert_eq!(other.get("stream_reasoning"), Some(&json!(true))); // default_true
-        assert_eq!(other.get("return_hidden_states"), Some(&json!(false)));
-    }
-}
diff --git a/sgl-router/tests/benchmark_integration.rs b/sgl-router/tests/benchmark_integration.rs
index 75c55986f6e6..196e509cad40 100644
--- a/sgl-router/tests/benchmark_integration.rs
+++ b/sgl-router/tests/benchmark_integration.rs
@@ -1,12 +1,15 @@
 // Integration test to ensure benchmarks compile and basic functionality works
 // This prevents benchmarks from breaking in CI
+//
+// UPDATED: Removed deprecated ToPdRequest usage, now uses direct JSON serialization
 
-use serde_json::{from_str, to_string};
+use serde_json::{from_str, to_string, to_value};
+use sglang_router_rs::core::{BasicWorker, WorkerType};
 use sglang_router_rs::openai_api_types::{
     ChatCompletionRequest, ChatMessage, CompletionRequest, GenerateParameters, GenerateRequest,
     SamplingParams, StringOrArray, UserMessageContent,
 };
-use sglang_router_rs::routers::request_adapter::{RouteableRequest, ToPdRequest};
+use sglang_router_rs::routers::bootstrap_injector::inject_bootstrap_fields;
 
 /// Create a default GenerateRequest for benchmarks with minimal fields set
 fn default_generate_request() -> GenerateRequest {
@@ -114,6 +117,15 @@ fn default_completion_request() -> CompletionRequest {
     }
 }
 
+fn create_test_worker() -> BasicWorker {
+    BasicWorker::new(
+        "http://test-server:8000".to_string(),
+        WorkerType::Prefill {
+            bootstrap_port: Some(5678),
+        },
+    )
+}
+
 #[test]
 fn test_benchmark_request_creation() {
     // Ensure all benchmark request types can be created without panicking
@@ -197,8 +209,8 @@ fn test_benchmark_serialization_roundtrip() {
 }
 
 #[test]
-fn test_benchmark_request_adaptation() {
-    // Test that PD request adaptation works for benchmark types
+fn test_benchmark_bootstrap_injection() {
+    // Test that bootstrap injection works for benchmark types (replaces PD request adaptation)
 
     let generate_req = GenerateRequest {
         text: Some("Test prompt".to_string()),
@@ -236,24 +248,40 @@ fn test_benchmark_request_adaptation() {
         ..default_completion_request()
     };
 
-    // Test PD adaptation (should not panic)
-    let _pd_generate = generate_req.to_pd_request();
-    let _pd_chat = chat_req.to_pd_request();
-    let _pd_completion = completion_req.to_pd_request();
+    let worker = create_test_worker();
+
+    // Test bootstrap injection (should not panic)
+    let mut generate_json = to_value(&generate_req).unwrap();
+    let mut chat_json = to_value(&chat_req).unwrap();
+    let mut completion_json = to_value(&completion_req).unwrap();
+
+    assert!(inject_bootstrap_fields(&mut generate_json, &worker).is_ok());
+    assert!(inject_bootstrap_fields(&mut chat_json, &worker).is_ok());
+    assert!(inject_bootstrap_fields(&mut completion_json, &worker).is_ok());
+
+    // Verify bootstrap fields were added
+    assert!(generate_json.get("bootstrap_host").is_some());
+    assert!(generate_json.get("bootstrap_port").is_some());
+    assert!(generate_json.get("bootstrap_room").is_some());
 }
 
 #[test]
-fn test_benchmark_regular_routing() {
-    // Test regular routing functionality for benchmark types
+fn test_benchmark_direct_json_routing() {
+    // Test direct JSON routing functionality for benchmark types (replaces regular routing)
 
     let generate_req = GenerateRequest {
         text: Some("Test prompt".to_string()),
         ..default_generate_request()
     };
 
-    // Test regular routing methods (should not panic)
-    let _json = generate_req.to_json();
-    let _bytes = generate_req.to_bytes();
+    // Test direct JSON conversion (replaces regular routing methods)
+    let json = to_value(&generate_req).unwrap();
+    let json_string = to_string(&json).unwrap();
+    let bytes = json_string.as_bytes();
+
+    // Verify conversions work
+    assert!(!json_string.is_empty());
+    assert!(!bytes.is_empty());
 }
 
 #[test]
@@ -266,23 +294,36 @@ fn test_benchmark_performance_baseline() {
         ..default_generate_request()
     };
 
-    // Serialization should be fast (< 1ms for simple requests)
+    // Test the actual simplified pipeline: to_value + bootstrap injection
     let start = Instant::now();
-    let _json = to_string(&generate_req).unwrap();
-    let serialize_duration = start.elapsed();
+    let worker = create_test_worker();
+
+    // This mirrors the actual router pipeline
+    let mut json = to_value(&generate_req).unwrap();
+    let _ = inject_bootstrap_fields(&mut json, &worker);
+
+    let total_duration = start.elapsed();
     assert!(
-        serialize_duration.as_millis() < 1,
-        "Serialization took too long: {:?}",
-        serialize_duration
+        total_duration.as_millis() < 5,
+        "Simplified pipeline took too long: {:?} (should be faster than old adapter approach)",
+        total_duration
     );
 
-    // PD adaptation should be very fast (< 1ms)
+    // Individual components should also be fast
     let start = Instant::now();
-    let _pd_req = generate_req.to_pd_request();
-    let adapt_duration = start.elapsed();
+    let _json = to_value(&generate_req).unwrap();
+    let to_value_duration = start.elapsed();
+
+    let start = Instant::now();
+    let mut json = to_value(&generate_req).unwrap();
+    let _ = inject_bootstrap_fields(&mut json, &worker);
+    let inject_duration = start.elapsed();
+
+    // Bootstrap injection should be faster than the JSON conversion
     assert!(
-        adapt_duration.as_millis() < 1,
-        "PD adaptation took too long: {:?}",
-        adapt_duration
+        inject_duration <= to_value_duration * 3,
+        "Bootstrap injection ({:?}) should not be much slower than JSON conversion ({:?})",
+        inject_duration,
+        to_value_duration
     );
 }

From 89588179cfe4ab7c378b1a901a0e96ae4441de5a Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Tue, 5 Aug 2025 22:07:54 -0700
Subject: [PATCH 376/396] [1/3] Optimize Slime Update Weights: Remove QWen3MOE
 Load Weight Overhead (#8751)

---
 python/sglang/srt/models/qwen3_moe.py | 32 ++++++++++++++++++++++-----
 1 file changed, 26 insertions(+), 6 deletions(-)

diff --git a/python/sglang/srt/models/qwen3_moe.py b/python/sglang/srt/models/qwen3_moe.py
index c531dd0b4818..c7dc17444f99 100644
--- a/python/sglang/srt/models/qwen3_moe.py
+++ b/python/sglang/srt/models/qwen3_moe.py
@@ -766,7 +766,10 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
             num_experts=self.config.num_experts,
         )
 
-        params_dict = dict(self.named_parameters())
+        # Cache params_dict to avoid repeated expensive traversal of model parameters
+        if not hasattr(self, "_cached_params_dict"):
+            self._cached_params_dict = dict(self.named_parameters())
+        params_dict = self._cached_params_dict
         for name, loaded_weight in weights:
             layer_id = get_layer_id(name)
             if (
@@ -805,11 +808,22 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
                 weight_loader(param, loaded_weight, shard_id)
                 break
             else:
+                # Track if this is an expert weight to enable early skipping
+                is_expert_weight = False
+
                 for mapping in expert_params_mapping:
                     param_name, weight_name, expert_id, shard_id = mapping
                     if weight_name not in name:
                         continue
+
+                    # Mark as expert weight regardless of whether we can process it
+                    is_expert_weight = True
+
                     name = name.replace(weight_name, param_name)
+                    if name not in params_dict:
+                        # Expert weight not on this rank, will be skipped below
+                        continue
+
                     param = params_dict[name]
                     weight_loader = param.weight_loader
                     weight_loader(
@@ -821,6 +835,10 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
                     )
                     break
                 else:
+                    if is_expert_weight:
+                        # This is an expert weight but not mapped to this rank, skip all remaining processing
+                        continue
+
                     # Skip loading extra bias for GPTQ models.
                     if name.endswith(".bias") and name not in params_dict:
                         continue
@@ -837,11 +855,13 @@ def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
                         logger.warning(f"Parameter {name} not found in params_dict")
 
         # TODO mimic deepseek
-        self.routed_experts_weights_of_layer = {
-            layer_id: self.model.layers[layer_id].mlp.get_moe_weights()
-            for layer_id in range(self.start_layer, self.end_layer)
-            if isinstance(self.model.layers[layer_id].mlp, Qwen3MoeSparseMoeBlock)
-        }
+        # Lazy initialization of expert weights cache to avoid slowing down load_weights
+        if not hasattr(self, "routed_experts_weights_of_layer"):
+            self.routed_experts_weights_of_layer = {
+                layer_id: self.model.layers[layer_id].mlp.get_moe_weights()
+                for layer_id in range(self.start_layer, self.end_layer)
+                if isinstance(self.model.layers[layer_id].mlp, Qwen3MoeSparseMoeBlock)
+            }
 
     @classmethod
     def get_model_config_for_expert_location(cls, config):

From cbbb738371a183f4a1eace147c9614ae6c8a2037 Mon Sep 17 00:00:00 2001
From: Stefan He <hebiaobuaa@gmail.com>
Date: Tue, 5 Aug 2025 22:09:52 -0700
Subject: [PATCH 377/396] [2/3]  Optimize Slime Update Weights: Avoid
 GPU-to-CPU Device Sync when update expert weights (#8753)

---
 python/sglang/srt/eplb/expert_location.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/python/sglang/srt/eplb/expert_location.py b/python/sglang/srt/eplb/expert_location.py
index ef35ce7a64d0..be0e236534b3 100644
--- a/python/sglang/srt/eplb/expert_location.py
+++ b/python/sglang/srt/eplb/expert_location.py
@@ -35,6 +35,7 @@ class ExpertLocationMetadata:
     physical_to_logical_map: torch.Tensor  # (layers, num_physical_experts)
     physical_to_logical_map_cpu: torch.Tensor
     logical_to_all_physical_map: torch.Tensor  # (layers, num_logical_experts, X)
+    logical_to_all_physical_map_cpu: torch.Tensor  # CPU copy for performance
     logical_to_all_physical_map_num_valid: torch.Tensor  # (layers, num_logical_experts)
     # (layers, num_logical_experts)
     logical_to_rank_dispatch_physical_map: Optional[torch.Tensor]
@@ -221,6 +222,7 @@ def _init_raw(
             physical_to_logical_map=physical_to_logical_map,
             physical_to_logical_map_cpu=physical_to_logical_map.cpu(),
             logical_to_all_physical_map=logical_to_all_physical_map_padded,
+            logical_to_all_physical_map_cpu=logical_to_all_physical_map_padded.cpu(),
             logical_to_all_physical_map_num_valid=logical_to_all_physical_map_num_valid,
             logical_to_rank_dispatch_physical_map=(
                 compute_logical_to_rank_dispatch_physical_map(
@@ -251,6 +253,7 @@ def update(
             "physical_to_logical_map",
             "physical_to_logical_map_cpu",
             "logical_to_all_physical_map",
+            "logical_to_all_physical_map_cpu",
             "logical_to_all_physical_map_num_valid",
             "logical_to_rank_dispatch_physical_map",
         ]:
@@ -270,9 +273,10 @@ def update(
     def logical_to_all_physical(
         self, layer_id: int, logical_expert_id: int
     ) -> List[int]:
+        # Use CPU copy to avoid GPU→CPU sync on every call, which is expensive in update weights scenario
         return [
             physical_expert_id
-            for physical_expert_id in self.logical_to_all_physical_map[
+            for physical_expert_id in self.logical_to_all_physical_map_cpu[
                 layer_id, logical_expert_id
             ].tolist()
             if physical_expert_id != -1

From 168033d5fb1ea1744cd82d9f42f732d2327337fd Mon Sep 17 00:00:00 2001
From: Ying Sheng <sqy1415@gmail.com>
Date: Wed, 6 Aug 2025 00:05:25 -0700
Subject: [PATCH 378/396] Support mxfp4 for GPT-OSS (#8843)

Co-authored-by: Co-author fzyzcjy <ch271828n@outlook.com>
Co-authored-by: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Co-authored-by: zhuofan1123 <zhuofanl@nvidia.com>
Co-authored-by: liz-badada <jinyanc@nvidia.com>
Co-authored-by: xutizhou <xutingz@nvidia.com>
Co-authored-by: linhu-nv <linhu@nvidia.com>
---
 .../srt/layers/moe/fused_moe_triton/layer.py  |  64 ++-
 .../fused_moe_triton/triton_kernels_moe.py    |  40 +-
 .../srt/layers/quantization/__init__.py       |  14 +-
 python/sglang/srt/layers/quantization/fp4.py  | 321 ++-----------
 .../sglang/srt/layers/quantization/mxfp4.py   | 443 ++++++++++++++++++
 .../sglang/srt/layers/quantization/unquant.py |   2 +
 python/sglang/srt/models/gpt_oss.py           | 218 ++++++++-
 python/sglang/srt/server_args.py              |  10 +
 python/sglang/srt/utils.py                    |   4 +
 9 files changed, 791 insertions(+), 325 deletions(-)
 create mode 100644 python/sglang/srt/layers/quantization/mxfp4.py

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 56ffe371b5c5..35f06c6de78e 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -389,7 +389,7 @@ def _load_w2(
         # Narrow parameter and load.
         if is_bias:
             # this expert_data is a bias, not weight,
-            # for w2_bias in TP, it does not need to be sharded
+            # for w2_weight_bias in TP, it does not need to be sharded
             shard_size = expert_data.shape[-1]
         else:
             # this parameter is a weight matrix
@@ -410,10 +410,6 @@ def _load_w2(
             if not is_bias and not self.use_presharded_weights:
                 if self.use_triton_kernels:
                     loaded_weight = loaded_weight.transpose(-2, -1)
-                if shard_size * tp_rank + shard_size > loaded_weight.shape[shard_dim]:
-                    raise ValueError(
-                        f"Shard size {shard_size} at rank {tp_rank} exceeds loaded_weight dimension {loaded_weight.shape[shard_dim]}"
-                    )
                 loaded_weight = loaded_weight.narrow(
                     shard_dim, shard_size * tp_rank, shard_size
                 )
@@ -461,9 +457,25 @@ def weight_loader(
         loaded_weight: torch.Tensor,
         weight_name: str,
         shard_id: str,
-        expert_id: int,
+        expert_id: Optional[int],
     ) -> None:
 
+        # if expert_id is None, then
+        # all the experts are loaded at the same time
+        if (
+            not expert_id
+            and self.quant_config is not None
+            and self.quant_config.get_name() == "mxfp4"
+        ):
+            if "bias" in weight_name:
+                dim1 = loaded_weight.shape[1]
+                param.data[:, :dim1].copy_(loaded_weight)
+            else:
+                dim1 = loaded_weight.shape[1]
+                dim2 = loaded_weight.shape[2]
+                param.data[:, :dim1, :dim2].copy_(loaded_weight)
+            return
+
         global_expert_location_metadata = get_global_expert_location_metadata()
         if global_expert_location_metadata is None:
             self._weight_loader_impl(
@@ -502,6 +514,7 @@ def _weight_loader_physical(
         shard_id: str,
         expert_id: int,
     ) -> None:
+
         expert_id = self._map_global_expert_id_to_local_expert_id(expert_id)
         if expert_id == -1:
             return
@@ -705,6 +718,18 @@ def weight_loader_fused(
     ) -> None:
         tp_rank = self.moe_tp_rank
 
+        if self.quant_config is not None and self.quant_config.get_name() == "mxfp4":
+            if "bias" in weight_name:
+                dim1 = loaded_weight.shape[1]
+                param.data[:, :dim1].copy_(loaded_weight)
+            elif "scale" in weight_name:
+                param.data.copy_(loaded_weight)
+            else:
+                dim1 = loaded_weight.shape[1]
+                dim2 = loaded_weight.shape[2]
+                param.data[:, :dim1, :dim2].copy_(loaded_weight)
+            return
+
         # compressed-tensors checkpoints with packed weights are stored flipped
         # TODO: check self.quant_method.quant_config.quant_format
         # against known CompressionFormat enum values that have this quality
@@ -854,6 +879,33 @@ def make_expert_params_mapping_fused(
             ("experts.w2_weight_bias", f"experts.{ckpt_down_proj_bias_name}", "w2"),
         ]
 
+    @classmethod
+    def make_expert_params_mapping_fused_mxfp4(
+        cls,
+        ckpt_gate_up_proj_name: str,
+        ckpt_down_proj_name: str,
+        ckpt_gate_up_proj_bias_name: str,
+        ckpt_down_proj_bias_name: str,
+        ckpt_gate_up_proj_scale_name: str,
+        ckpt_down_proj_scale_name: str,
+    ):
+        return [
+            ("experts.w13_weight", f"experts.{ckpt_gate_up_proj_name}", "w13"),
+            (
+                "experts.w13_weight_bias",
+                f"experts.{ckpt_gate_up_proj_bias_name}",
+                "w13",
+            ),
+            ("experts.w2_weight", f"experts.{ckpt_down_proj_name}", "w2"),
+            ("experts.w2_weight_bias", f"experts.{ckpt_down_proj_bias_name}", "w2"),
+            (
+                "experts.w13_weight_scale",
+                f"experts.{ckpt_gate_up_proj_scale_name}",
+                "w13",
+            ),
+            ("experts.w2_weight_scale", f"experts.{ckpt_down_proj_scale_name}", "w2"),
+        ]
+
     @classmethod
     def make_expert_input_scale_params_mapping(
         cls,
diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
index 36466661d04a..e99dc683a6c6 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py
@@ -186,8 +186,10 @@ def triton_kernel_fused_experts(
 def triton_kernel_moe_with_bias_forward(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
+    w1_pcg,
     b1: torch.Tensor,
     w2: torch.Tensor,
+    w2_pcg,
     b2: torch.Tensor,
     topk_output: TopKOutput,
     inplace: bool = False,
@@ -209,13 +211,15 @@ def triton_kernel_moe_with_bias_forward(
 
     return triton_kernel_fused_experts_with_bias(
         hidden_states,
-        w1,
-        b1,
-        w2,
-        b2,
-        routing_data,
-        gather_idx,
-        scatter_idx,
+        w1=w1,
+        w1_pcg=w1_pcg,
+        b1=b1,
+        w2=w2,
+        w2_pcg=w2_pcg,
+        b2=b2,
+        routing_data=routing_data,
+        gather_indx=gather_idx,
+        scatter_indx=scatter_idx,
         inplace=inplace,
         activation=activation,
         use_fp8_w8a8=use_fp8_w8a8,
@@ -235,8 +239,10 @@ def triton_kernel_moe_with_bias_forward(
 def triton_kernel_fused_experts_with_bias(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
+    w1_pcg,
     b1: torch.Tensor,
     w2: torch.Tensor,
+    w2_pcg,
     b2: torch.Tensor,
     routing_data: RoutingData,
     gather_indx: GatherIndx,
@@ -267,8 +273,10 @@ def triton_kernel_fused_experts_with_bias(
 
     # type check
     assert hidden_states.dtype == torch.bfloat16, "hidden_states must be bfloat16"
-    assert w1.dtype == torch.bfloat16, "w1 must be bfloat16"
-    assert w2.dtype == torch.bfloat16, "w2 must be bfloat16"
+    for w in (w1, w2):
+        # TODO assert bf16 or mxfp4
+        # assert (w.dtype == torch.bfloat16) or check-is-mxfp4, f"w must be bfloat16 or mxfp4 {w1.dtype=}"
+        pass
 
     # Shape check
     assert hidden_states.ndim == 2, "hidden_states must be 2D"
@@ -287,13 +295,15 @@ def triton_kernel_fused_experts_with_bias(
     if global_num_experts == -1:
         global_num_experts = E
 
-    device = "cuda"
-    optg = dict()
-    w1, w1_flex = quantize(w1, "bf16", device, **optg)
-    w1_pcg = PrecisionConfig(flex_ctx=FlexCtx(rhs_data=w1_flex))
+    # TODO maybe completely remove this branch
+    if w1.dtype == torch.bfloat16:
+        device = "cuda"
+        optg = dict()
+        w1, w1_flex = quantize(w1, "bf16", device, **optg)
+        w1_pcg = PrecisionConfig(flex_ctx=FlexCtx(rhs_data=w1_flex))
 
-    w2, w2_flex = quantize(w2, "bf16", device, **optg)
-    w2_pcg = PrecisionConfig(flex_ctx=FlexCtx(rhs_data=w2_flex))
+        w2, w2_flex = quantize(w2, "bf16", device, **optg)
+        w2_pcg = PrecisionConfig(flex_ctx=FlexCtx(rhs_data=w2_flex))
 
     act = FusedActivation(
         FnSpecs("swiglu", swiglu_fn, ("alpha", "limit")),
diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
index 455e8ac8f86c..19977012a766 100644
--- a/python/sglang/srt/layers/quantization/__init__.py
+++ b/python/sglang/srt/layers/quantization/__init__.py
@@ -47,7 +47,7 @@ def override_quantization_method(self, *args, **kwargs):
 from sglang.srt.layers.quantization.compressed_tensors.compressed_tensors import (
     CompressedTensorsConfig,
 )
-from sglang.srt.utils import mxfp_supported
+from sglang.srt.utils import is_cuda, is_hip, mxfp_supported
 
 is_mxfp_supported = mxfp_supported()
 if is_mxfp_supported:
@@ -66,6 +66,7 @@ def override_quantization_method(self, *args, **kwargs):
     ModelOptFp8Config,
 )
 from sglang.srt.layers.quantization.moe_wna16 import MoeWNA16Config
+from sglang.srt.layers.quantization.mxfp4 import Mxfp4Config
 from sglang.srt.layers.quantization.petit import PetitNvFp4Config
 from sglang.srt.layers.quantization.qoq import QoQConfig
 from sglang.srt.layers.quantization.utils import get_linear_quant_method
@@ -90,7 +91,16 @@ def override_quantization_method(self, *args, **kwargs):
     "w4afp8": W4AFp8Config,
     "petit_nvfp4": PetitNvFp4Config,
 }
-if is_mxfp_supported:
+
+
+if is_cuda():
+    BASE_QUANTIZATION_METHODS.update(
+        {
+            "quark": Mxfp4Config,
+            "mxfp4": Mxfp4Config,
+        }
+    )
+elif is_mxfp_supported and is_hip():
     BASE_QUANTIZATION_METHODS.update(
         {
             "quark": MxFp4Config,
diff --git a/python/sglang/srt/layers/quantization/fp4.py b/python/sglang/srt/layers/quantization/fp4.py
index ad40ed142627..68d463cc32b3 100644
--- a/python/sglang/srt/layers/quantization/fp4.py
+++ b/python/sglang/srt/layers/quantization/fp4.py
@@ -50,315 +50,50 @@
 OCP_MX_BLOCK_SIZE = 32
 
 
-class MxFp4Config(QuantizationConfig):
+class Mxfp4Config(QuantizationConfig):
 
-    def __init__(
-        self,
-        is_checkpoint_fp4_serialized: bool = False,
-        quant_config: dict[str, Any] = None,
-        kv_cache_group: Optional[list[str]] = None,
-        kv_cache_config: Optional[dict[str, Any]] = None,
-        pack_method: str = "reorder",
-        ignored_layers: Optional[List[str]] = None,
-    ):
+    def __init__(self, ignored_layers: Optional[list[str]] = None):
         super().__init__()
-        if kv_cache_group is None:
-            kv_cache_group = []
-
-        self.is_checkpoint_fp4_serialized = is_checkpoint_fp4_serialized
-        self.quant_config = quant_config
-        self.kv_cache_group = kv_cache_group
-        self.kv_cache_config = kv_cache_config
-        self.pack_method = pack_method
-
-        self.packed_modules_mapping = (
-            self.quant_config["packed_modules_mapping"]
-            if is_checkpoint_fp4_serialized
-            else None
-        )
+        self.ignored_layers = ignored_layers
 
-        self.ignored_layers = ignored_layers or []
-
-    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
+    @classmethod
+    def from_config(cls, config):
+        return cls()
 
     @classmethod
     def get_min_capability(cls) -> int:
-        return 70
-
-    def get_name(self) -> str:
-        return "fp4"
-
-    def get_quant_method(
-        self, layer: torch.nn.Module, prefix: str
-    ) -> Optional["QuantizeMethodBase"]:
-
-        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
-
-        # Check if the layer is skipped for quantization.
-        if len(self.ignored_layers) > 0 and should_ignore_layer(
-            prefix,
-            ignore=self.ignored_layers,
-            fused_mapping=self.packed_modules_mapping,
-        ):
-            return UnquantizedLinearMethod()
-
-        if isinstance(layer, LinearBase):
-            if self.is_checkpoint_fp4_serialized:
-                scheme = self.get_scheme(layer=layer, layer_name=prefix)
-                layer.scheme = scheme
-                return MxFp4LinearMethod(self)
-
-            elif use_dynamic_mxfp4_linear:
-                return MxFp4LinearMethod(self)
-            else:
-                return UnquantizedLinearMethod()
-
-        if isinstance(layer, RadixAttention):
-            return MxFp4KVCacheMethod(self)
-
-        if isinstance(layer, FusedMoE):
-            return MxFp4MoEMethod.get_moe_method(self, module=layer, layer_name=prefix)
-
-        return None
+        return 80
 
     @classmethod
-    def from_config(cls, config: dict[str, Any]) -> "MxFp4Config":
-        if not mxfp_supported():
-            platform = torch.cuda.get_device_properties(0).gcnArchName
-            raise ValueError(
-                f"Current platform {platform} not support mxfp4 computation"
-            )
-        quant_method = cls.get_from_keys(config, ["quant_method"])
-        is_checkpoint_fp4_serialized = (
-            True if quant_method else False
-        )  # "quark" in quant_method
-
-        kv_cache_group = []
-        pack_method = None
-
-        if is_checkpoint_fp4_serialized:
-            export_config = config.get("export")
-            if export_config is None:
-                raise ValueError(
-                    "The export key should be included in "
-                    "the configurations of Quark quantized model"
-                )
-
-            kv_cache_group = cast(list[str], export_config.get("kv_cache_group"))
-            pack_method = cast(str, export_config.get("pack_method"))
-
-        # In the export model of quark, the quantization configuration
-        # of kv_cache is stored in layer_quant_config. First, it is
-        # judged whether kv_cache_group exists, and then it is judged
-        # whether layer_quant_config has a quantization configuration
-        # that matches kv_cache.
-        if len(kv_cache_group) == 0:
-            kv_cache_config = None
-        else:
-            kv_cache_set = set(kv_cache_group)
-            layer_quant_config = cast(dict[str, Any], config.get("layer_quant_config"))
-            layer_quant_names = list(layer_quant_config.keys())
-            layer_quant_set = set(layer_quant_names)
-
-            if not kv_cache_set.issubset(layer_quant_set):
-                raise ValueError(
-                    "The Quark quantized model has the "
-                    "kv_cache_group parameter setting, "
-                    "but no kv_cache quantization settings "
-                    "were found in the quantization "
-                    "configuration."
-                )
+    def get_name(cls) -> QuantizationMethods:
+        return "mxfp4"
 
-            q_configs = [
-                cast(dict[str, Any], layer_quant_config.get(name))
-                for name in kv_cache_group
-            ]
-            if not all(deep_compare(q_config, q_configs[0]) for q_config in q_configs):
-                raise ValueError(
-                    "The quantization method used for kv_cache should "
-                    "be the same, but the quantization method for the "
-                    "kv_cache layer in the config is different."
-                )
-            kv_cache_config = q_configs[0].get("output_tensors")
-            if kv_cache_config is None:
-                raise ValueError("The kv_cache quantization configuration is empty.")
-
-            # Since we have already set kv_cache quantization configurations,
-            # we will remove the quantization configuration for the
-            # output_tensors corresponding to the kv_cache layer.
-            for q_config in q_configs:
-                q_config["output_tensors"] = None
-
-            # In case q_proj output is also quantized, remove the configuration
-            # to keep qkv consistency.
-            q_proj_q_config = cast(dict[str, Any], layer_quant_config.get("*q_proj"))
-            if q_proj_q_config is not None:
-                q_proj_q_config["output_tensors"] = None
-
-        ignored_layers = cls.get_from_keys_or(config, ["exclude"], None)
-
-        return cls(
-            is_checkpoint_fp4_serialized=is_checkpoint_fp4_serialized,
-            quant_config=config,
-            kv_cache_group=kv_cache_group,
-            kv_cache_config=kv_cache_config,
-            pack_method=pack_method,
-            ignored_layers=ignored_layers,
-        )
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16]
 
     @classmethod
     def get_config_filenames(cls) -> list[str]:
         return []
 
-    def _check_scheme_supported(self, min_capability: int, error: bool = True) -> bool:
-        capability_tuple = get_device_capability()
-
-        if capability_tuple is not None:
-            assert 0 <= capability_tuple[1] < 10
-            capability = capability_tuple[0] * 10 + capability_tuple[1]
-
-            supported = capability >= min_capability
-            if error and not supported:
-                raise RuntimeError(
-                    "Quantization scheme is not supported for ",
-                    f"the current GPU. Min capability: {min_capability}. ",
-                    f"Current capability: {capability}.",
-                )
-            return supported
-        else:
-            return False
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        from vllm.attention.layer import Attention  # Avoid circular import
 
-    def _is_mx_fp4(
-        self,
-        weight_quant: Optional[dict[str, Any]],
-        input_quant: Optional[dict[str, Any]],
-    ) -> bool:
-        # Confirm weights and input quantized.
-        if weight_quant is None or input_quant is None:
-            logger.debug(
-                "Quark model is not in MX-FP4 format: "
-                "weight_quant or input_quant not set"
-            )
-            return False
-
-        # Input and weight dtype needs to be fp4.
-        if weight_quant.get("dtype") != "fp4" or input_quant.get("dtype") != "fp4":
-            logger.debug("Quark model is not in MX-FP4 format: dtype not fp4")
-            return False
-
-        # Input and weight qscheme needs to be per group.
-        if (
-            weight_quant.get("qscheme") != "per_group"
-            or input_quant.get("qscheme") != "per_group"
-        ):
-            logger.debug("Quark model is not in MX-FP4 format: not per_group")
-            return False
-
-        # Input and weight group size needs to be 32.
-        if weight_quant.get("group_size") != 32 or input_quant.get("group_size") != 32:
-            logger.debug("Quark model is not in MX-FP4 format: not group_size=32")
-            return False
-
-        # Weights need to use static quantization.
-        if weight_quant.get("is_dynamic") is True:
-            logger.debug("Quark model is not in MX-FP4 format: not weight static")
-            return False
-
-        # Activations need to use dynamic quantization.
-        if input_quant.get("is_dynamic") is False:
-            logger.debug("Quark model is not in MX-FP4 format: not activation dynamic")
-            return False
-
-        # Activations and weight scales need to be in e8m0 format.
-        if (
-            weight_quant.get("scale_format") != "e8m0"
-            or input_quant.get("scale_format") != "e8m0"
-        ):
-            logger.debug("Quark model is not in MX-FP4 format: not scale_format e8m0")
-            return False
-
-        return True
-
-    def _find_matched_config(
-        self, layer_name: str, module: torch.nn.Module
-    ) -> dict[str, Any]:
-
-        proj_name = layer_name.split(".")[-1]
-        if proj_name in self.packed_modules_mapping:
-            shard_proj_names = self.packed_modules_mapping[proj_name]
-
-            # Convert fused_name --> [shard_names]
-            shard_names = [
-                layer_name.replace(proj_name, shard_proj_name)
-                for shard_proj_name in shard_proj_names
-            ]
-            shard_configs = [
-                self._find_matched_config(shard_name, module)
-                for shard_name in shard_names
-            ]
-            if not all(
-                deep_compare(q_config, shard_configs[0]) for q_config in shard_configs
+        if isinstance(layer, LinearBase):
+            if self.ignored_layers and is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignored_layers,
+                fused_mapping=self.packed_modules_mapping,
             ):
-                raise ValueError(
-                    f"Found a different quantization configuration for "
-                    f"{shard_proj_names=} in {layer_name=}. vLLM "
-                    "requires all to use the same scheme."
-                )
-            return shard_configs[0]
-        else:
-            layer_quant_config = cast(
-                dict[str, Any], self.quant_config.get("layer_quant_config")
-            )
-            for name_pattern in layer_quant_config:
-                if fnmatch.fnmatch(layer_name, name_pattern):
-                    return layer_quant_config[name_pattern]
-
-            layer_type = cast(str, type(module))
-            layer_type_quant_config = cast(
-                dict[str, Any], self.quant_config.get("layer_type_quant_config")
-            )
-            if layer_type in layer_type_quant_config:
-                return layer_type_quant_config[layer_type]
-
-            global_quant_config = cast(
-                dict[str, Any], self.quant_config.get("global_quant_config")
-            )
-            return global_quant_config
-
-    def _get_scheme_from_config(self, config: dict[str, Any]) -> "QuarkScheme":
-        if config.get("output_tensors") or config.get("bias"):
-            raise NotImplementedError(
-                "Currently, Quark models with output_tensors "
-                "and bias quantized are not supported"
-            )
-        weight_config = cast(dict[str, Any], config.get("weight"))
-        input_config = cast(dict[str, Any], config.get("input_tensors"))
-
-        if self._is_mx_fp4(weight_config, input_config):
-            return QuarkW4A4MXFP4(weight_config, input_config)
-
-        raise NotImplementedError(
-            "No quark compatible scheme was found. "
-            f"{weight_config=}, "
-            f"{input_config=}"
-        )
-
-    def get_scheme(self, layer: torch.nn.Module, layer_name: str) -> "QuarkScheme":
-
-        layer_quant_config = self._find_matched_config(layer_name, layer)
-
-        # Find the quant_scheme
-        scheme = self._get_scheme_from_config(layer_quant_config)
-
-        # Raise error if device does not support the scheme
-        # (e.g. fp8 needs ada lovelace)
-        self._check_scheme_supported(scheme.get_min_capability())
-
-        return scheme
-
-    def get_scaled_act_names(self) -> List[str]:
-        return []
+                return UnquantizedLinearMethod()
+            raise NotImplementedError("Mxfp4 linear layer is not implemented")
+        elif isinstance(layer, FusedMoE):
+            return Mxfp4MoEMethod(layer.moe_config)
+        elif isinstance(layer, Attention):
+            raise NotImplementedError("Mxfp4 attention layer is not implemented")
+        return None
 
 
 class MxFp4LinearMethod(LinearMethodBase):
diff --git a/python/sglang/srt/layers/quantization/mxfp4.py b/python/sglang/srt/layers/quantization/mxfp4.py
new file mode 100644
index 000000000000..7103cb8bee5a
--- /dev/null
+++ b/python/sglang/srt/layers/quantization/mxfp4.py
@@ -0,0 +1,443 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from __future__ import annotations
+
+import importlib
+import logging
+from typing import TYPE_CHECKING, Callable, List, Optional
+
+import torch
+from torch.nn.parameter import Parameter
+
+# from vllm.model_executor.layers.fused_moe import (
+#     FusedMoE, FusedMoEActivationFormat, FusedMoEConfig, FusedMoEMethodBase,
+#     FusedMoEPermuteExpertsUnpermute, FusedMoEPrepareAndFinalize)
+from sglang.srt.layers.quantization.base_config import (
+    FusedMoEMethodBase,
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from sglang.srt.layers.quantization.utils import is_layer_skipped
+from sglang.srt.utils import (
+    direct_register_custom_op,
+    is_cuda,
+    is_flashinfer_available,
+    is_hip,
+    next_power_of_2,
+    round_up,
+    set_weight_attrs,
+)
+
+has_triton_kernels = importlib.util.find_spec("triton_kernels") is not None
+
+if is_flashinfer_available():
+    # from flashinfer.fused_moe import cutlass_fused_moe
+    from flashinfer import (
+        mxfp8_quantize,
+        shuffle_matrix_a,
+        shuffle_matrix_sf_a,
+        trtllm_fp4_block_scale_moe,
+    )
+
+logger = logging.getLogger(__name__)
+
+if TYPE_CHECKING:
+    from sglang.srt.layers.moe.topk import TopKOutput
+
+OCP_MX_BLOCK_SIZE = 32
+
+
+def _swizzle_mxfp4(quant_tensor, scale, num_warps):
+    """weight swizzle for mxfp4 moe, used for OAI mxfp4 kernel"""
+    import triton_kernels.matmul_ogs_details.opt_flags as opt_flags
+    from triton_kernels.numerics import InFlexData
+    from triton_kernels.tensor import FP4, convert_layout, wrap_torch_tensor
+    from triton_kernels.tensor_details import layout
+
+    value_layout, value_layout_opts = layout.make_default_matmul_mxfp4_w_layout(
+        mx_axis=1
+    )
+    scale_layout, scale_layout_opts = layout.make_default_matmul_mxfp4_w_scale_layout(
+        mx_axis=1, num_warps=num_warps
+    )
+    if is_cuda() and torch.cuda.get_device_capability()[0] == 10:
+        constraints = {
+            "is_persistent": True,
+            "epilogue_subtile": 1,
+        }
+        opt_flags.update_opt_flags_constraints(constraints)
+    # transpose the tensor so that the quantization axis is on dim1
+    quant_tensor = quant_tensor.transpose(-2, -1)
+    scale = scale.transpose(-2, -1)
+    quant_tensor = convert_layout(
+        wrap_torch_tensor(quant_tensor, dtype=FP4), value_layout, **value_layout_opts
+    )
+    scale = convert_layout(wrap_torch_tensor(scale), scale_layout, **scale_layout_opts)
+    return quant_tensor, InFlexData(), scale
+
+
+def _dequant_mxfp4(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype
+) -> torch.Tensor:
+    try:
+        from quark.torch.kernel import mx
+    except ImportError as err:
+        raise ImportError(
+            "The package `amd-quark` is required to use "
+            "MX-FP4 models. Please install it with `pip install "
+            "amd-quark`."
+        ) from err
+
+    return mx.dq_mxfp4(x, scale, float_dtype)
+
+
+def _dequant_mxfp4_fake(
+    x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype
+) -> torch.Tensor:
+    return torch.empty(
+        (*x.shape[:-1], x.shape[-1] * 2), dtype=float_dtype, device=x.device
+    )
+
+
+def _quant_dequant_mxfp4(
+    x: torch.Tensor, scale_calculation_mode: str = "even"
+) -> torch.Tensor:
+    try:
+        from quark.torch.kernel import mx
+    except ImportError as err:
+        raise ImportError(
+            "The package `amd-quark` is required to use "
+            "MX-FP4 models. Please install it with `pip install "
+            "amd-quark`."
+        ) from err
+
+    return mx.qdq_mxfp4(x, scale_calculation_mode)
+
+
+def _quant_dequant_mxfp4_fake(
+    x: torch.Tensor, scale_calculation_mode: str = "even"
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+try:
+    direct_register_custom_op(
+        op_name="dequant_mxfp4",
+        op_func=_dequant_mxfp4,
+        mutates_args=[],
+        fake_impl=_dequant_mxfp4_fake,
+    )
+    dequant_mxfp4 = torch.ops.sglang.dequant_mxfp4
+except AttributeError as error:
+    raise error
+
+try:
+    direct_register_custom_op(
+        op_name="quant_dequant_mxfp4",
+        op_func=_quant_dequant_mxfp4,
+        mutates_args=[],
+        fake_impl=_quant_dequant_mxfp4_fake,
+    )
+    quant_dequant_mxfp4 = torch.ops.sglang.quant_dequant_mxfp4
+except AttributeError as error:
+    raise error
+
+
+class Mxfp4Config(QuantizationConfig):
+
+    def __init__(self, ignored_layers: Optional[list[str]] = None):
+        super().__init__()
+        self.ignored_layers = ignored_layers
+
+    @classmethod
+    def from_config(cls, config):
+        return cls()
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 80
+
+    @classmethod
+    def get_name(cls) -> str:
+        return "mxfp4"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.bfloat16, torch.float16]
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return []
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+
+        from sglang.srt.layers.linear import LinearBase
+        from sglang.srt.layers.moe.fused_moe_triton import FusedMoE
+        from sglang.srt.layers.quantization.unquant import UnquantizedLinearMethod
+
+        if isinstance(layer, LinearBase):
+            if self.ignored_layers and is_layer_skipped(
+                prefix=prefix,
+                ignored_layers=self.ignored_layers,
+                fused_mapping=self.packed_modules_mapping,
+            ):
+                return UnquantizedLinearMethod()
+        elif isinstance(layer, FusedMoE):
+            return Mxfp4MoEMethod(use_triton_kernels=True, with_bias=True)
+        else:
+            raise NotImplementedError("Mxfp4 attention layer is not implemented")
+        return None
+
+    def get_scaled_act_names(self) -> List[str]:
+        return []
+
+
+class Mxfp4MoEMethod(FusedMoEMethodBase):
+
+    def __init__(self, use_triton_kernels: bool = True, with_bias: bool = True):
+        super().__init__()
+        self.topk_indices_dtype = None
+        self.use_triton_kernels = use_triton_kernels
+        self.with_bias = with_bias
+        self.triton_kernel_moe_forward = None
+        self.triton_kernel_moe_with_bias_forward = None
+        if torch.cuda.is_available() and has_triton_kernels:
+            from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
+                triton_kernel_moe_forward as _tk_forward,
+            )
+            from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
+                triton_kernel_moe_with_bias_forward as _tk_with_bias_forward,
+            )
+
+            self.triton_kernel_moe_forward = _tk_forward
+            self.triton_kernel_moe_with_bias_forward = _tk_with_bias_forward
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        # print(f"hi {self=} create_weights {layer=}")
+        self.num_experts = num_experts
+        weight_dtype = torch.uint8
+        scale_dtype = torch.uint8
+
+        intermediate_size *= 2
+        mxfp4_block = 32
+
+        self.intermediate_size = intermediate_size
+        self.hidden_size = hidden_size
+        # Fused gate_up_proj (column parallel)
+        w13_weight = torch.nn.Parameter(
+            torch.zeros(
+                num_experts, 2 * intermediate_size, hidden_size // 2, dtype=weight_dtype
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w13_weight_scale = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size,
+                hidden_size // mxfp4_block,
+                dtype=scale_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+
+        w13_weight_bias = torch.nn.Parameter(
+            torch.zeros(num_experts, 2 * intermediate_size, dtype=torch.bfloat16),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight_bias", w13_weight_bias)
+        set_weight_attrs(w13_weight_bias, extra_weight_attrs)
+
+        # down_proj (row parallel)
+        w2_weight = torch.nn.Parameter(
+            torch.zeros(
+                num_experts, hidden_size, intermediate_size // 2, dtype=weight_dtype
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        w2_weight_scale = torch.nn.Parameter(
+            torch.zeros(
+                num_experts,
+                hidden_size,
+                intermediate_size // mxfp4_block,
+                dtype=scale_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        w2_weight_bias = torch.nn.Parameter(
+            torch.zeros(num_experts, hidden_size, dtype=torch.bfloat16),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight_bias", w2_weight_bias)
+        set_weight_attrs(w2_weight_bias, extra_weight_attrs)
+
+    def process_weights_after_loading(self, layer):
+
+        from triton_kernels.matmul_ogs import FlexCtx, PrecisionConfig
+
+        w13_weight_bias = layer.w13_weight_bias.to(torch.float32)
+        w2_weight_bias = layer.w2_weight_bias.to(torch.float32)
+
+        layer.w13_weight_bias = Parameter(w13_weight_bias, requires_grad=False)
+        layer.w2_weight_bias = Parameter(w2_weight_bias, requires_grad=False)
+
+        num_warps = 8
+
+        w13_weight, w13_flex, w13_scale = _swizzle_mxfp4(
+            layer.w13_weight, layer.w13_weight_scale, num_warps
+        )
+        w2_weight, w2_flex, w2_scale = _swizzle_mxfp4(
+            layer.w2_weight, layer.w2_weight_scale, num_warps
+        )
+
+        self.w13_precision_config = PrecisionConfig(
+            weight_scale=w13_scale, flex_ctx=FlexCtx(rhs_data=w13_flex)
+        )
+        self.w2_precision_config = PrecisionConfig(
+            weight_scale=w2_scale, flex_ctx=FlexCtx(rhs_data=w2_flex)
+        )
+
+        self.w13_weight_triton_tensor = w13_weight
+        self.w2_weight_triton_tensor = w2_weight
+
+        # need to delete the original weights to save memory on single GPU
+        del layer.w13_weight
+        del layer.w2_weight
+        layer.w13_weight = None
+        layer.w2_weight = None
+        torch.cuda.empty_cache()
+
+    def _get_tile_tokens_dim(self, x: torch.Tensor, top_k: int):
+        # Number of tokens in the input tensor.
+        num_tokens = x.shape[0]
+        # Factor to account for the imbalance of the experts.
+        # factor equals to the
+        # max_real_num_tokens_per_expert / perfect_num_tokens_per_expert
+        # - 1.0 means perfect expert distribution.
+        # - > 1.0 means some experts have more
+        #     tokens than the perfect distribution.
+        # - < 1.0 does not make sense.
+        imbalance_factor = 1.3
+        # Calculate the number of tokens per expert
+        # assuming perfect distribution.
+        num_tokens_per_expert = (num_tokens * top_k) // self.num_experts
+        # Apply the imbalance factor.
+        num_tokens_per_expert = int(num_tokens_per_expert * imbalance_factor)
+        # And pad the number to the next power of 2.
+        tile_tokens_dim = next_power_of_2(num_tokens_per_expert)
+        # Cap to 8-64 tokens per CTA tile
+        # as it's the range supported by the kernel.
+        tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
+
+        return tile_tokens_dim
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        topk_output: TopKOutput,
+        *,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        inplace: bool = True,
+        no_combine: bool = False,
+        routed_scaling_factor: Optional[float] = None,
+        activation_alpha: Optional[float] = None,
+        swiglu_limit: Optional[float] = None,
+    ) -> torch.Tensor:
+        # avoid import error when triton_kernel is not installed
+        # from vllm.model_executor.layers.fused_moe.triton_kernels_moe import (
+        #     triton_kernel_moe_forward)
+
+        """
+        if (envs.VLLM_USE_FLASHINFER_MXFP4_MOE
+                or envs.VLLM_USE_FLASHINFER_MXFP4_BF16_MOE):
+            assert not self.moe.use_ep, (
+                "EP is not supported for flashinfer mxfp4 moe backend yet.")
+            if envs.VLLM_USE_FLASHINFER_MXFP4_BF16_MOE:
+                assert x.dtype == torch.bfloat16
+                x_quant = x
+                x_scale = None
+            else:
+                x_quant, x_scale = mxfp8_quantize(x, False)  # to mxfp8
+                x_scale = x_scale.view(torch.float8_e4m3fn).reshape(-1)
+            trtllm_gen_output = trtllm_fp4_block_scale_moe(
+                router_logits.to(torch.bfloat16),
+                None,  # routing_bias
+                x_quant,
+                x_scale,
+                layer.w13_weight,  # uint8 (e2m1 x 2)
+                layer.w13_weight_scale,  # uint8 (e4m3 x 2)
+                layer.w13_weight_bias,  # fp32 per expert per channel
+                layer.gemm1_alpha,  # fp32 per expert
+                layer.gemm1_beta,  # fp32 per expert
+                layer.gemm1_clamp_limit,  # fp32 per expert
+                layer.w2_weight,  # uint8 (e2m1 x 2)
+                layer.w2_weight_scale,  # ue8m0
+                layer.w2_weight_bias,  # fp32 per expert per channel
+                None,  # output1_scale_scalar
+                None,  # output1_scale_gate_scalar
+                None,  # output2_scale_scalar
+                self.num_experts,
+                top_k,
+                None,  # n_group
+                None,  # topk_group
+                self.intermediate_size,  # padded to multiple of 256
+                0,  # local_expert_offset
+                self.num_experts,  # local num experts
+                None,
+                self._get_tile_tokens_dim(x, top_k),
+                1,  # routing_method_type, renormalize
+                True,  # do finalize
+            )[0]
+            return trtllm_gen_output
+        """
+
+        if self.use_triton_kernels:
+            if self.with_bias:
+                # TODO why we do not put weights on layer?
+                assert layer.w13_weight is None
+                assert layer.w2_weight is None
+                return self.triton_kernel_moe_with_bias_forward(
+                    hidden_states=x,
+                    w1=self.w13_weight_triton_tensor,
+                    w1_pcg=self.w13_precision_config,
+                    w2=self.w2_weight_triton_tensor,
+                    w2_pcg=self.w2_precision_config,
+                    b1=layer.w13_weight_bias,
+                    b2=layer.w2_weight_bias,
+                    topk_output=topk_output,
+                    activation=activation,
+                    activation_alpha=activation_alpha,
+                    swiglu_limit=swiglu_limit,
+                )
+            else:
+                return self.triton_kernel_moe_forward(
+                    hidden_states=x,
+                    w1=layer.w13_weight,
+                    w2=layer.w2_weight,
+                    topk_output=topk_output,
+                )
+        else:
+            raise NotImplementedError()
diff --git a/python/sglang/srt/layers/quantization/unquant.py b/python/sglang/srt/layers/quantization/unquant.py
index 8fc4a5be164f..c5558e3c18d5 100644
--- a/python/sglang/srt/layers/quantization/unquant.py
+++ b/python/sglang/srt/layers/quantization/unquant.py
@@ -272,6 +272,8 @@ def forward_cuda(
                     activation=activation,
                     activation_alpha=activation_alpha,
                     swiglu_limit=swiglu_limit,
+                    w1_pcg=None,
+                    w2_pcg=None,
                 )
             else:
                 return self.triton_kernel_moe_forward(
diff --git a/python/sglang/srt/models/gpt_oss.py b/python/sglang/srt/models/gpt_oss.py
index cf40c652bed8..4ca9c40c5d5f 100644
--- a/python/sglang/srt/models/gpt_oss.py
+++ b/python/sglang/srt/models/gpt_oss.py
@@ -25,6 +25,8 @@
 from transformers import PretrainedConfig
 
 from sglang.srt.distributed import (
+    get_moe_expert_parallel_rank,
+    get_moe_expert_parallel_world_size,
     get_moe_tensor_parallel_rank,
     get_pp_group,
     get_tensor_model_parallel_rank,
@@ -108,11 +110,15 @@ def __init__(
         experts_type = get_moe_impl_class()
         extra_kwargs = {}
         if experts_type.__name__ == "FusedMoE":
+            quant_config_name = (
+                quant_config.get_name() if quant_config is not None else None
+            )
             extra_kwargs = {
                 "enable_flashinfer_cutlass_moe": global_server_args_dict[
                     "enable_flashinfer_cutlass_moe"
                 ],
-                "use_weight_loader_fused": True,  # for moe gate_up_proj and down_proj and their bias loading
+                # for moe gate_up_proj and down_proj and their bias loading
+                "use_weight_loader_fused": quant_config_name != "mxfp4",
             }
         self.experts = experts_type(
             num_experts=config.num_local_experts
@@ -350,7 +356,6 @@ def __init__(
             head_dim=head_dim,
             rms_norm_eps=rms_norm_eps,
             attention_bias=attention_bias,
-            quant_config=quant_config,
             prefix=add_prefix("self_attn", prefix),
             sliding_window_size=self.sliding_window_size,
             layer_type=config.layer_types[layer_id],
@@ -538,7 +543,7 @@ def __init__(
         self.lm_head = ParallelLMHead(
             config.vocab_size,
             config.hidden_size,
-            quant_config=quant_config,
+            # quant_config=quant_config,
             prefix=add_prefix("lm_head", prefix),
             use_attn_tp_group=global_server_args_dict["enable_dp_lm_head"],
         )
@@ -652,11 +657,188 @@ def _get_default_weight_mapping(self):
 
         return weight_mapping
 
+    # TODO beautify code
     def load_weights(
         self,
         weights: Iterable[Tuple[str, torch.Tensor]],
         is_nextn: bool = False,
         weight_name_mapping: dict = None,
+    ):
+        quant_config_name = (
+            self.quant_config.get_name() if self.quant_config is not None else None
+        )
+        if quant_config_name != "mxfp4":
+            self._load_normal_weights(
+                weights, is_nextn=is_nextn, weight_name_mapping=weight_name_mapping
+            )
+        else:
+            self._load_weights_mxfp4(
+                weights, is_nextn=is_nextn, weight_name_mapping=weight_name_mapping
+            )
+
+    def _load_weights_mxfp4(self, weights, is_nextn, weight_name_mapping):
+        mxfp4_weights = []
+        normal_weights = []
+
+        for name, weight in weights:
+            if (
+                ".experts" in name
+                and self.quant_config is not None
+                and self.quant_config.get_name() == "mxfp4"
+            ):
+                mxfp4_weights.append((name, weight))
+            else:
+                normal_weights.append((name, weight))
+
+        mxfp4_loaded_params = self._load_mxfp4_experts_weights(mxfp4_weights)
+        self._load_normal_weights(
+            normal_weights,
+            is_nextn=is_nextn,
+            weight_name_mapping=weight_name_mapping,
+            other_loaded_param_names=mxfp4_loaded_params,
+        )
+
+    def _load_mxfp4_experts_weights(self, weights):
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        mxfp4_block = 32
+
+        tp_rank = get_tensor_model_parallel_rank()
+        tp_size = get_tensor_model_parallel_world_size()
+        intermediate_size = self.config.intermediate_size
+        intermediate_size_block = intermediate_size // mxfp4_block
+        per_rank_intermediate_size_block = intermediate_size_block // tp_size
+        per_rank_intermediate_size = per_rank_intermediate_size_block * mxfp4_block
+
+        # Calculate common slicing bounds for current rank
+        tp_rank_start = tp_rank * per_rank_intermediate_size
+        tp_rank_end = min((tp_rank + 1) * per_rank_intermediate_size, intermediate_size)
+
+        # Attention heads per rank
+        heads_per_rank = self.config.num_attention_heads // tp_size
+        head_start = tp_rank * heads_per_rank
+
+        num_experts = self.config.num_local_experts
+
+        for name, weight in weights:
+            weight = weight.cuda()
+
+            if "gate_up_proj_blocks" in name:
+                # Handle MLP gate and up projection weights
+                new_name = name.replace("gate_up_proj_blocks", "w13_weight")
+
+                # flat weight from (E, 2 * N, block_size, entry_per_block)
+                # to (E, 2 * N, -1), shouldn't trigger copy for contiguous
+                weight = weight.view(
+                    num_experts, 2 * intermediate_size, -1
+                ).contiguous()
+
+                narrow_weight = weight[:, 2 * tp_rank_start : 2 * tp_rank_end, ...]
+
+                param = params_dict[new_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=new_name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(new_name)
+
+            elif "down_proj_blocks" in name:
+                # Handle MLP down projection weights
+                new_name = name.replace("down_proj_blocks", "w2_weight")
+                # same flatten here, but since 2 mx4 value are packed in 1
+                # uint8, divide by 2
+                weight = weight.view(
+                    num_experts, -1, intermediate_size // 2
+                ).contiguous()
+                narrow_weight = weight[..., tp_rank_start // 2 : tp_rank_end // 2]
+
+                param = params_dict[new_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=new_name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(new_name)
+
+            elif "gate_up_proj_scales" in name:
+                # Handle MLP gate and up projection weights scale
+                new_name = name.replace("gate_up_proj_scales", "w13_weight_scale")
+                narrow_weight = weight[:, 2 * tp_rank_start : 2 * tp_rank_end, ...]
+
+                param = params_dict[new_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=new_name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(new_name)
+
+            elif "down_proj_scales" in name:
+                # Handle MLP down projection weights
+                new_name = name.replace("down_proj_scales", "w2_weight_scale")
+                narrow_weight = weight[
+                    ..., tp_rank_start // mxfp4_block : tp_rank_end // mxfp4_block
+                ]
+
+                param = params_dict[new_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=new_name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(new_name)
+            elif "gate_up_proj_bias" in name:
+                # Handle MLP gate and up projection biases
+                new_name = name.replace("gate_up_proj_bias", "w13_weight_bias")
+
+                narrow_weight = weight[:, 2 * tp_rank_start : 2 * tp_rank_end]
+
+                param = params_dict[new_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param,
+                    narrow_weight,
+                    weight_name=new_name,
+                    shard_id=None,
+                    expert_id=None,
+                )
+                loaded_params.add(new_name)
+
+            elif "down_proj_bias" in name:
+                if get_moe_tensor_parallel_rank() != 0:
+                    weight = torch.zeros_like(weight)
+
+                # Handle MLP down projection bias
+                new_name = name.replace("down_proj_bias", "w2_weight_bias")
+                param = params_dict[new_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(
+                    param, weight, weight_name=new_name, shard_id=None, expert_id=None
+                )
+                loaded_params.add(new_name)
+
+        return loaded_params
+
+    def _load_normal_weights(
+        self,
+        weights,
+        is_nextn: bool,
+        weight_name_mapping: dict,
+        other_loaded_param_names=[],
     ):
         tp_rank = get_tensor_model_parallel_rank()
         if is_nextn:
@@ -725,15 +907,33 @@ def load_weights(
             ("qkv_proj", "v_proj", "v"),
         ]
 
-        expert_params_mapping = get_moe_impl_class().make_expert_params_mapping_fused(
-            ckpt_gate_up_proj_name="gate_up_proj",
-            ckpt_down_proj_name="down_proj",
-            ckpt_gate_up_proj_bias_name="gate_up_proj_bias",
-            ckpt_down_proj_bias_name="down_proj_bias",
-        )
+        if self.quant_config is not None and (self.quant_config.get_name() == "mxfp4"):
+            expert_params_mapping = (
+                get_moe_impl_class().make_expert_params_mapping_fused_mxfp4(
+                    ckpt_gate_up_proj_name="gate_up_proj_blocks",
+                    ckpt_down_proj_name="down_proj_blocks",
+                    ckpt_gate_up_proj_bias_name="gate_up_proj_bias",
+                    ckpt_down_proj_bias_name="down_proj_bias",
+                    ckpt_gate_up_proj_scale_name="gate_up_proj_scales",
+                    ckpt_down_proj_scale_name="down_proj_scales",
+                )
+            )
+        else:
+            expert_params_mapping = (
+                get_moe_impl_class().make_expert_params_mapping_fused(
+                    ckpt_gate_up_proj_name="gate_up_proj",
+                    ckpt_down_proj_name="down_proj",
+                    ckpt_gate_up_proj_bias_name="gate_up_proj_bias",
+                    ckpt_down_proj_bias_name="down_proj_bias",
+                )
+            )
 
         params_dict = dict(self.named_parameters())
         params_checker = {k: False for k, v in params_dict.items()}
+
+        for other_loaded_param_name in other_loaded_param_names:
+            params_checker[other_loaded_param_name] = True
+
         for name, loaded_weight in weights:
             loaded_weight = _WeightCreator.maybe_materialize(loaded_weight)
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 225caaf60c69..69c840a7b68e 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -464,6 +464,16 @@ def print_deprecated_warning(message: str):
             self.enable_triton_kernel_moe = True
             self.disable_hybrid_swa_memory = True
 
+            quantization_config = getattr(
+                self.get_hf_config(), "quantization_config", None
+            )
+            if (
+                quantization_config is not None
+                and quantization_config.get("quant_method") == "mxfp4"
+            ):
+                # use bf16 for mxfp4 triton kernels
+                self.dtype = "bfloat16"
+
         # Set page size
         if self.page_size is None:
             self.page_size = 1
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 2772cd119f6c..2eb0d28b2e57 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -2124,6 +2124,10 @@ def next_power_of_2(n: int):
     return 1 << (n - 1).bit_length() if n > 0 else 1
 
 
+def round_up(x: int, y: int) -> int:
+    return ((x - 1) // y + 1) * y
+
+
 setattr(triton, "next_power_of_2", next_power_of_2)
 
 

From 4fc5f2f977412bc72e6a3185aac5ef9a398a6743 Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 6 Aug 2025 16:10:38 +0800
Subject: [PATCH 379/396] Add unit test for triton swa kernel (#8853)

---
 test/srt/test_triton_attention_kernels.py | 184 ++++++++++++++++++++++
 1 file changed, 184 insertions(+)

diff --git a/test/srt/test_triton_attention_kernels.py b/test/srt/test_triton_attention_kernels.py
index 47eb16a9bab8..b15684f9a8e3 100644
--- a/test/srt/test_triton_attention_kernels.py
+++ b/test/srt/test_triton_attention_kernels.py
@@ -2,6 +2,7 @@
 import unittest
 
 import torch
+import torch.nn.functional as F
 
 from sglang.srt.layers.attention.triton_ops.decode_attention import (
     decode_attention_fwd,
@@ -18,6 +19,80 @@
 from sglang.test.test_utils import CustomTestCase
 
 
+def extend_attention_fwd_torch(
+    q: torch.Tensor,  # [extend_tokens, H_Q, D]
+    k: torch.Tensor,  # [extend_tokens, H_KV, D]
+    v: torch.Tensor,  # [extend_tokens, H_KV, D]
+    o: torch.Tensor,  # [extend_tokens, H_Q, D]
+    k_cache: torch.Tensor,  # [total_tokens, H_KV, D]
+    v_cache: torch.Tensor,  # [total_tokens, H_KV, D]
+    qo_indptr: torch.Tensor,  # [B+1]
+    kv_indptr: torch.Tensor,  # [B+1]
+    kv_indices: torch.Tensor,  # [prefix_tokens]
+    sliding_window_size: int,
+):
+    B = qo_indptr.size(0) - 1
+    _, H_Q, D = q.shape
+    _, H_KV, _ = k.shape
+
+    group_size = H_Q // H_KV
+    scale = 1.0 / D**0.5
+
+    for i in range(B):
+        q_start = int(qo_indptr[i].item())
+        q_end = int(qo_indptr[i + 1].item())
+        kv_start = int(kv_indptr[i].item())
+        kv_end = int(kv_indptr[i + 1].item())
+
+        prefix_indices = kv_indices[kv_start:kv_end]
+        k_prefix = k_cache[prefix_indices]  # [prefix_len, H_KV, D]
+        v_prefix = v_cache[prefix_indices]  # [prefix_len, H_KV, D]
+
+        k_extend = k[q_start:q_end]  # [extend_len, H_KV, D]
+        v_extend = v[q_start:q_end]  # [extend_len, H_KV, D]
+        q_extend = q[q_start:q_end]  # [extend_len, H_Q,  D]
+
+        k_full = torch.cat([k_prefix, k_extend], dim=0)  # [total_len, H_KV, D]
+        v_full = torch.cat([v_prefix, v_extend], dim=0)  # [total_len, H_KV, D]
+
+        if group_size != 1:
+            k_full_hq = k_full.repeat_interleave(
+                group_size, dim=1
+            )  # [total_len, H_Q, D]
+            v_full_hq = v_full.repeat_interleave(
+                group_size, dim=1
+            )  # [total_len, H_Q, D]
+        else:
+            k_full_hq = k_full
+            v_full_hq = v_full
+
+        prefix_len = k_prefix.size(0)
+        extend_len = k_extend.size(0)
+        total_len = prefix_len + extend_len
+
+        # causal
+        pos_keys = torch.arange(total_len, device=q.device)
+        t = prefix_len + torch.arange(extend_len, device=q.device)  # [extend_len]
+        causal_mask = pos_keys.unsqueeze(0) <= t.unsqueeze(1)
+
+        # sliding window
+        if sliding_window_size is not None and sliding_window_size > 0:
+            start = (t - (sliding_window_size)).clamp_min(0)  # [extend_len]
+        else:
+            start = torch.zeros_like(t)
+        window_mask = pos_keys.unsqueeze(0) >= start.unsqueeze(1)
+
+        final_mask = causal_mask & window_mask
+
+        attn_scores = (
+            torch.einsum("qhd,khd->qhk", q_extend, k_full_hq) * scale
+        )  # [extend_len, H_Q, total_len]
+        attn_scores = attn_scores.masked_fill(~final_mask.unsqueeze(1), float("-inf"))
+
+        attn_weights = F.softmax(attn_scores, dim=-1)
+        o[q_start:q_end] = torch.einsum("qhk,khd->qhd", attn_weights, v_full_hq)
+
+
 class TestTritonAttention(CustomTestCase):
 
     def _set_all_seeds(self, seed):
@@ -180,6 +255,115 @@ def test_extend_attention(self):
         for value in attention_values:
             self._test_extend_attention_once(19, 12331, 12, 4, value)
 
+    def _test_extend_attention_sliding_window_once(
+        self, B, N_CTX, H_Q, H_KV, D, WINDOW_SIZE
+    ):
+        dtype = torch.bfloat16
+
+        b_seq_len_prefix = torch.randint(
+            1, N_CTX // 2, (B,), dtype=torch.int32, device="cuda"
+        )
+        b_seq_len_extend = torch.randint(
+            1, N_CTX // 2, (B,), dtype=torch.int32, device="cuda"
+        )
+        b_seq_len = b_seq_len_prefix + b_seq_len_extend
+
+        b_start_loc = torch.zeros((B,), dtype=torch.int32, device="cuda")
+        b_start_loc[1:] = torch.cumsum(b_seq_len[:-1], 0)
+        b_start_loc_extend = torch.zeros((B,), dtype=torch.int32, device="cuda")
+        b_start_loc_extend[1:] = torch.cumsum(b_seq_len_extend[:-1], 0)
+
+        kv_indptr = torch.zeros((B + 1,), dtype=torch.int32, device="cuda")
+        kv_indptr[1 : B + 1] = torch.cumsum(b_seq_len_prefix[:B], dim=0)
+        kv_indices = torch.zeros(
+            (b_seq_len_prefix.sum().item(),), dtype=torch.int32, device="cuda"
+        )
+
+        for i in range(B):
+            kv_indices[kv_indptr[i] : kv_indptr[i + 1]] = torch.arange(
+                b_start_loc[i], b_start_loc[i] + b_seq_len_prefix[i]
+            )
+
+        total_token_num = torch.sum(b_seq_len).item()
+        extend_token_num = torch.sum(b_seq_len_extend).item()
+        k_buffer = torch.empty(
+            (total_token_num, H_KV, D), dtype=dtype, device="cuda"
+        ).normal_(mean=0.1, std=0.2)
+        v_buffer = torch.empty(
+            (total_token_num, H_KV, D), dtype=dtype, device="cuda"
+        ).normal_(mean=0.1, std=0.2)
+
+        k_extend = torch.empty((extend_token_num, H_KV, D), dtype=dtype, device="cuda")
+        v_extend = torch.empty((extend_token_num, H_KV, D), dtype=dtype, device="cuda")
+        q_extend = torch.empty((extend_token_num, H_Q, D), dtype=dtype, device="cuda")
+        for i in range(B):
+            extend_start_in_buffer = b_start_loc[i] + b_seq_len_prefix[i]
+            extend_end_in_buffer = b_start_loc[i] + b_seq_len[i]
+            extend_start = b_start_loc_extend[i]
+            extend_end = b_start_loc_extend[i] + b_seq_len_extend[i]
+            k_extend[extend_start:extend_end] = k_buffer[
+                extend_start_in_buffer:extend_end_in_buffer
+            ]
+            v_extend[extend_start:extend_end] = v_buffer[
+                extend_start_in_buffer:extend_end_in_buffer
+            ]
+            q_extend[extend_start:extend_end] = torch.empty(
+                (b_seq_len_extend[i], H_Q, D), dtype=dtype, device="cuda"
+            ).normal_(mean=0.1, std=0.2)
+
+        o_extend_triton = torch.empty(
+            (extend_token_num, H_Q, D), dtype=dtype, device="cuda"
+        )
+        o_extend_torch = torch.empty(
+            (extend_token_num, H_Q, D), dtype=dtype, device="cuda"
+        )
+
+        b_seq_len_extend = b_seq_len - b_seq_len_prefix
+        max_len_extend = torch.max(b_seq_len_extend, 0)[0].item()
+        qo_indptr = torch.zeros((B + 1,), dtype=torch.int32, device="cuda")
+        qo_indptr[1 : B + 1] = torch.cumsum(b_seq_len_extend[:B], dim=0)
+
+        extend_attention_fwd(
+            q_extend,
+            k_extend,
+            v_extend,
+            o_extend_triton,
+            k_buffer,
+            v_buffer,
+            qo_indptr,
+            kv_indptr,
+            kv_indices,
+            custom_mask=None,
+            is_causal=True,
+            mask_indptr=None,
+            max_len_extend=max_len_extend,
+            sliding_window_size=WINDOW_SIZE,
+        )
+
+        extend_attention_fwd_torch(
+            q_extend,
+            k_extend,
+            v_extend,
+            o_extend_torch,
+            k_buffer,
+            v_buffer,
+            qo_indptr,
+            kv_indptr,
+            kv_indices,
+            WINDOW_SIZE,
+        )
+
+        self.assertTrue(
+            torch.allclose(o_extend_triton, o_extend_torch, rtol=1e-3, atol=1e-3)
+        )
+
+    def test_extend_attention_sliding_window(self):
+        window_sizes = [-1, 127]
+        for window_size in window_sizes:
+            self._test_extend_attention_sliding_window_once(
+                19, 12331, 64, 8, 128, window_size
+            )
+
     def _test_context_attention_once(self, head_dim, is_causal):
         # Set up a simple test case
         num_heads = 4

From aeac900ca23149c1f16eafbafe01f6e93f1a313a Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Wed, 6 Aug 2025 02:28:14 -0700
Subject: [PATCH 380/396] fix: resolve ci issue (#8859)

---
 .github/workflows/vllm-dependency-test.yml | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/vllm-dependency-test.yml b/.github/workflows/vllm-dependency-test.yml
index e7c43b4c3327..1c5630fb6721 100644
--- a/.github/workflows/vllm-dependency-test.yml
+++ b/.github/workflows/vllm-dependency-test.yml
@@ -29,9 +29,10 @@ jobs:
 
       - name: Install dependencies
         run: |
+          bash scripts/ci_install_dependency.sh
           pip install "vllm==0.10.0"
           pip install "bitsandbytes>=0.44.0"
-          bash scripts/ci_install_dependency.sh
+          pip3 install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu126
 
       - name: Run VLLM dependency tests
         timeout-minutes: 60

From 1bd5316873ee0ce327a5e92c0dc6bc799ff0d59c Mon Sep 17 00:00:00 2001
From: Yuan Luo <yuan.luo@hotmail.com>
Date: Wed, 6 Aug 2025 21:02:21 +0800
Subject: [PATCH 381/396] fix benchmark fp8 blockwise group gemm (#8815)

---
 sgl-kernel/benchmark/bench_fp8_blockwise_group_gemm.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/sgl-kernel/benchmark/bench_fp8_blockwise_group_gemm.py b/sgl-kernel/benchmark/bench_fp8_blockwise_group_gemm.py
index 2a0a8e410a34..6aa1312446f6 100644
--- a/sgl-kernel/benchmark/bench_fp8_blockwise_group_gemm.py
+++ b/sgl-kernel/benchmark/bench_fp8_blockwise_group_gemm.py
@@ -97,9 +97,7 @@ def bench_deepgemm(
     )
 
     def run_deepgemm():
-        deep_gemm.m_grouped_gemm_fp8_fp8_bf16_nt_contiguous(
-            x_fp8, y_fp8, out, m_indices
-        )
+        deep_gemm.m_grouped_fp8_gemm_nt_contiguous(x_fp8, y_fp8, out, m_indices)
 
     # warmup
     for _ in range(num_warmup):

From 399e7ec8b3bcc681ed55e98a761466a6e6d78f6b Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 6 Aug 2025 21:37:02 +0800
Subject: [PATCH 382/396] Refine naming (#8868)

---
 .../srt/layers/attention/triton_backend.py    |  8 ++---
 .../attention/triton_ops/decode_attention.py  | 32 +++++++++----------
 .../attention/triton_ops/extend_attention.py  | 18 +++++------
 python/sglang/srt/models/gpt_oss.py           |  2 +-
 4 files changed, 30 insertions(+), 30 deletions(-)

diff --git a/python/sglang/srt/layers/attention/triton_backend.py b/python/sglang/srt/layers/attention/triton_backend.py
index 469e4fde3d01..10d242ebe568 100644
--- a/python/sglang/srt/layers/attention/triton_backend.py
+++ b/python/sglang/srt/layers/attention/triton_backend.py
@@ -686,7 +686,7 @@ def forward_extend(
         layer: RadixAttention,
         forward_batch: ForwardBatch,
         save_kv_cache=True,
-        sk=None,
+        sinks=None,
     ):
         # TODO: reuse the buffer across layers
         if layer.qk_head_dim != layer.v_head_dim:
@@ -731,7 +731,7 @@ def forward_extend(
             layer.scaling,
             layer.logit_cap,
             sliding_window_size=sliding_window_size,
-            sk=sk,
+            sinks=sinks,
         )
         return o
 
@@ -743,7 +743,7 @@ def forward_decode(
         layer: RadixAttention,
         forward_batch: ForwardBatch,
         save_kv_cache=True,
-        sk=None,
+        sinks=None,
     ):
         # During torch.compile, there is a bug in rotary_emb that causes the
         # output value to have a 3D tensor shape. This reshapes the output correctly.
@@ -780,7 +780,7 @@ def forward_decode(
             self.max_kv_splits,
             layer.scaling,
             layer.logit_cap,
-            sk=sk,
+            sinks=sinks,
         )
         return o
 
diff --git a/python/sglang/srt/layers/attention/triton_ops/decode_attention.py b/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
index 5e345586ee38..014eadab7941 100644
--- a/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
+++ b/python/sglang/srt/layers/attention/triton_ops/decode_attention.py
@@ -495,7 +495,7 @@ def _fwd_kernel_stage2(
     O,
     kv_indptr,
     num_kv_splits,
-    sk_ptr,
+    sink_ptr,
     stride_mid_ob,
     stride_mid_oh,
     stride_mid_os,
@@ -505,7 +505,7 @@ def _fwd_kernel_stage2(
     MIN_BLOCK_KV: tl.constexpr,
     BLOCK_DV: tl.constexpr,
     Lv: tl.constexpr,
-    HAS_SK: tl.constexpr,
+    HAS_SINK: tl.constexpr,
 ):
     cur_batch = tl.program_id(0)
     cur_head = tl.program_id(1)
@@ -547,9 +547,9 @@ def _fwd_kernel_stage2(
             e_sum = e_sum * old_scale + exp_logic
             e_max = n_e_max
 
-    if HAS_SK:
-        cur_sk = tl.load(sk_ptr + cur_head)
-        e_sum += tl.exp(cur_sk - e_max)
+    if HAS_SINK:
+        cur_sink = tl.load(sink_ptr + cur_head)
+        e_sum += tl.exp(cur_sink - e_max)
 
     tl.store(
         O + cur_batch * stride_obs + cur_head * stride_oh + offs_d,
@@ -567,14 +567,14 @@ def _decode_softmax_reducev_fwd(
     kv_indptr,
     num_kv_splits,
     max_kv_splits,
-    sk=None,
+    sinks=None,
 ):
     batch, head_num = q.shape[0], q.shape[1]
     Lv = v_buffer.shape[-1]
     BLOCK_DV = triton.next_power_of_2(Lv)
 
     MAX_KV_SPLITS = max_kv_splits
-    HAS_SK = sk is not None
+    HAS_SINK = sinks is not None
 
     extra_kargs = {}
     if _is_hip:
@@ -589,7 +589,7 @@ def _decode_softmax_reducev_fwd(
         o,
         kv_indptr,
         num_kv_splits,
-        sk,
+        sinks,
         logits.stride(0),
         logits.stride(1),
         logits.stride(2),
@@ -599,7 +599,7 @@ def _decode_softmax_reducev_fwd(
         MIN_BLOCK_KV=_MIN_BLOCK_KV,
         BLOCK_DV=BLOCK_DV,
         Lv=Lv,
-        HAS_SK=HAS_SK,
+        HAS_SINK=HAS_SINK,
         num_warps=4,
         num_stages=2,
         **extra_kargs,
@@ -619,7 +619,7 @@ def decode_attention_fwd_normal(
     max_kv_splits,
     sm_scale,
     logit_cap=0.0,
-    sk=None,
+    sinks=None,
 ):
     _decode_att_m_fwd(
         q,
@@ -643,7 +643,7 @@ def decode_attention_fwd_normal(
         kv_indptr,
         num_kv_splits,
         max_kv_splits,
-        sk,
+        sinks,
     )
 
 
@@ -660,7 +660,7 @@ def decode_attention_fwd_grouped(
     max_kv_splits,
     sm_scale,
     logit_cap=0.0,
-    sk=None,
+    sinks=None,
 ):
     _decode_grouped_att_m_fwd(
         q,
@@ -684,7 +684,7 @@ def decode_attention_fwd_grouped(
         kv_indptr,
         num_kv_splits,
         max_kv_splits,
-        sk,
+        sinks,
     )
 
 
@@ -701,7 +701,7 @@ def decode_attention_fwd(
     max_kv_splits,
     sm_scale,
     logit_cap=0.0,
-    sk=None,
+    sinks=None,
 ):
     assert max_kv_splits == attn_logits.shape[2]
     assert q.shape[0] <= kv_indptr.shape[0] - 1
@@ -724,7 +724,7 @@ def decode_attention_fwd(
             max_kv_splits,
             sm_scale,
             logit_cap=logit_cap,
-            sk=sk,
+            sinks=sinks,
         )
     else:
         # GQA/MQA/MLA
@@ -741,5 +741,5 @@ def decode_attention_fwd(
             max_kv_splits,
             sm_scale,
             logit_cap=logit_cap,
-            sk=sk,
+            sinks=sinks,
         )
diff --git a/python/sglang/srt/layers/attention/triton_ops/extend_attention.py b/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
index e1b707f3970c..89f816a27965 100644
--- a/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
+++ b/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
@@ -51,7 +51,7 @@ def _fwd_kernel(
     kv_indices,
     mask_ptr,
     mask_indptr,
-    sk_ptr,
+    sink_ptr,
     sm_scale,
     kv_group_num,
     stride_qbs,
@@ -79,7 +79,7 @@ def _fwd_kernel(
     IS_CAUSAL: tl.constexpr,
     SKIP_PREFIX_CUSTOM_MASK: tl.constexpr,
     STORE_TRANSPOSE: tl.constexpr,
-    HAS_SK: tl.constexpr,
+    HAS_SINK: tl.constexpr,
 ):
     cur_seq = tl.program_id(0)
     cur_head = tl.program_id(1)
@@ -302,9 +302,9 @@ def _fwd_kernel(
 
         e_max = n_e_max
 
-    if HAS_SK:
-        cur_sk = tl.load(sk_ptr + cur_head)
-        deno += tl.exp(cur_sk - e_max)
+    if HAS_SINK:
+        cur_sink = tl.load(sink_ptr + cur_head)
+        deno += tl.exp(cur_sink - e_max)
 
     offs_o = (
         (cur_seq_extend_start_idx + cur_block_m * BLOCK_M + offs_m[:, None])
@@ -344,7 +344,7 @@ def extend_attention_fwd(
     logit_cap=0.0,
     skip_prefix_custom_mask=True,
     sliding_window_size=-1,
-    sk=None,
+    sinks=None,
 ):
     """
     q_extend, k_extend, v_extend, o_extend: contiguous tensors
@@ -410,7 +410,7 @@ def extend_attention_fwd(
     # Skip custom mask for prefix part
     SKIP_PREFIX_CUSTOM_MASK = skip_prefix_custom_mask
 
-    HAS_SK = sk is not None
+    HAS_SINK = sinks is not None
 
     grid = (batch_size, head_num, triton.cdiv(max_len_extend, BLOCK_M))
     num_stages = 1
@@ -431,7 +431,7 @@ def extend_attention_fwd(
         kv_indices,
         custom_mask,
         mask_indptr,
-        sk,
+        sinks,
         sm_scale,
         kv_group_num,
         q_extend.stride(0),
@@ -458,7 +458,7 @@ def extend_attention_fwd(
         USE_CUSTOM_MASK=USE_CUSTOM_MASK,
         IS_CAUSAL=is_causal,
         SKIP_PREFIX_CUSTOM_MASK=SKIP_PREFIX_CUSTOM_MASK,
-        HAS_SK=HAS_SK,
+        HAS_SINK=HAS_SINK,
         STORE_TRANSPOSE=_is_hip,
         num_warps=num_warps,
         num_stages=num_stages,
diff --git a/python/sglang/srt/models/gpt_oss.py b/python/sglang/srt/models/gpt_oss.py
index 4ca9c40c5d5f..58b68fb385ca 100644
--- a/python/sglang/srt/models/gpt_oss.py
+++ b/python/sglang/srt/models/gpt_oss.py
@@ -301,7 +301,7 @@ def forward_core(self, intermediate_state):
         hidden_states, forward_batch, inner_state = intermediate_state
         if inner_state is None:
             return hidden_states
-        attn_output = self.attn(*inner_state, sk=self.sinks)
+        attn_output = self.attn(*inner_state, sinks=self.sinks)
         output, _ = self.o_proj(attn_output)
         return output
 

From 0475448ee303a361d00783274d544ae10977a3ff Mon Sep 17 00:00:00 2001
From: Ke Bao <ispobaoke@gmail.com>
Date: Wed, 6 Aug 2025 21:37:50 +0800
Subject: [PATCH 383/396] Optimize triton swa kernel by skipping computation
 (#8860)

---
 .../bench_triton_swa_kernel.py                | 283 ++++++++++++++++++
 .../attention/triton_ops/extend_attention.py  | 213 +++++++------
 2 files changed, 398 insertions(+), 98 deletions(-)
 create mode 100644 benchmark/kernels/sliding_window_attention_triton/bench_triton_swa_kernel.py

diff --git a/benchmark/kernels/sliding_window_attention_triton/bench_triton_swa_kernel.py b/benchmark/kernels/sliding_window_attention_triton/bench_triton_swa_kernel.py
new file mode 100644
index 000000000000..98144d47043a
--- /dev/null
+++ b/benchmark/kernels/sliding_window_attention_triton/bench_triton_swa_kernel.py
@@ -0,0 +1,283 @@
+import itertools
+
+import torch
+import torch.nn.functional as F
+import triton.testing as tt
+
+from sglang.srt.layers.attention.triton_ops.extend_attention import extend_attention_fwd
+
+
+def extend_attention_fwd_torch(
+    q: torch.Tensor,  # [extend_tokens, H_Q, D]
+    k: torch.Tensor,  # [extend_tokens, H_KV, D]
+    v: torch.Tensor,  # [extend_tokens, H_KV, D]
+    o: torch.Tensor,  # [extend_tokens, H_Q, D]
+    k_cache: torch.Tensor,  # [total_tokens, H_KV, D]
+    v_cache: torch.Tensor,  # [total_tokens, H_KV, D]
+    qo_indptr: torch.Tensor,  # [B+1]
+    kv_indptr: torch.Tensor,  # [B+1]
+    kv_indices: torch.Tensor,  # [prefix_tokens]
+    sliding_window_size: int,
+):
+    B = qo_indptr.size(0) - 1
+    _, H_Q, D = q.shape
+    _, H_KV, _ = k.shape
+
+    group_size = H_Q // H_KV
+    scale = 1.0 / D**0.5
+
+    for i in range(B):
+        q_start = int(qo_indptr[i].item())
+        q_end = int(qo_indptr[i + 1].item())
+        kv_start = int(kv_indptr[i].item())
+        kv_end = int(kv_indptr[i + 1].item())
+
+        prefix_indices = kv_indices[kv_start:kv_end]
+        k_prefix = k_cache[prefix_indices]  # [prefix_len, H_KV, D]
+        v_prefix = v_cache[prefix_indices]  # [prefix_len, H_KV, D]
+
+        k_extend = k[q_start:q_end]  # [extend_len, H_KV, D]
+        v_extend = v[q_start:q_end]  # [extend_len, H_KV, D]
+        q_extend = q[q_start:q_end]  # [extend_len, H_Q,  D]
+
+        k_full = torch.cat([k_prefix, k_extend], dim=0)  # [total_len, H_KV, D]
+        v_full = torch.cat([v_prefix, v_extend], dim=0)  # [total_len, H_KV, D]
+
+        if group_size != 1:
+            k_full_hq = k_full.repeat_interleave(
+                group_size, dim=1
+            )  # [total_len, H_Q, D]
+            v_full_hq = v_full.repeat_interleave(
+                group_size, dim=1
+            )  # [total_len, H_Q, D]
+        else:
+            k_full_hq = k_full
+            v_full_hq = v_full
+
+        prefix_len = k_prefix.size(0)
+        extend_len = k_extend.size(0)
+        total_len = prefix_len + extend_len
+
+        # causal
+        pos_keys = torch.arange(total_len, device=q.device)
+        t = prefix_len + torch.arange(extend_len, device=q.device)  # [extend_len]
+        causal_mask = pos_keys.unsqueeze(0) <= t.unsqueeze(1)
+
+        # sliding window
+        if sliding_window_size is not None and sliding_window_size > 0:
+            start = (t - (sliding_window_size)).clamp_min(0)  # [extend_len]
+        else:
+            start = torch.zeros_like(t)
+        window_mask = pos_keys.unsqueeze(0) >= start.unsqueeze(1)
+
+        final_mask = causal_mask & window_mask
+
+        attn_scores = (
+            torch.einsum("qhd,khd->qhk", q_extend, k_full_hq) * scale
+        )  # [extend_len, H_Q, total_len]
+        attn_scores = attn_scores.masked_fill(~final_mask.unsqueeze(1), float("-inf"))
+
+        attn_weights = F.softmax(attn_scores, dim=-1)
+        o[q_start:q_end] = torch.einsum("qhk,khd->qhd", attn_weights, v_full_hq)
+
+
+def _build_batch(
+    B, N_CTX, H_Q, H_KV, D, WINDOW_SIZE, dtype=torch.bfloat16, device="cuda"
+):
+    b_seq_len_prefix = torch.randint(
+        1, max(2, N_CTX // 2), (B,), dtype=torch.int32, device=device
+    )
+    b_seq_len_extend = torch.randint(
+        1, max(2, N_CTX // 2), (B,), dtype=torch.int32, device=device
+    )
+    b_seq_len = b_seq_len_prefix + b_seq_len_extend
+
+    b_start_loc = torch.zeros((B,), dtype=torch.int32, device=device)
+    b_start_loc[1:] = torch.cumsum(b_seq_len[:-1], 0)
+    b_start_loc_extend = torch.zeros((B,), dtype=torch.int32, device=device)
+    b_start_loc_extend[1:] = torch.cumsum(b_seq_len_extend[:-1], 0)
+
+    kv_indptr = torch.zeros((B + 1,), dtype=torch.int32, device=device)
+    kv_indptr[1 : B + 1] = torch.cumsum(b_seq_len_prefix[:B], dim=0)
+
+    kv_indices = torch.zeros(
+        (int(b_seq_len_prefix.sum().item()),), dtype=torch.int32, device=device
+    )
+    for i in range(B):
+        s = kv_indptr[i].item()
+        e = kv_indptr[i + 1].item()
+        kv_indices[s:e] = torch.arange(
+            b_start_loc[i],
+            b_start_loc[i] + b_seq_len_prefix[i],
+            dtype=torch.int32,
+            device=device,
+        )
+
+    total_token_num = int(torch.sum(b_seq_len).item())
+    extend_token_num = int(torch.sum(b_seq_len_extend).item())
+
+    k_buffer = torch.empty(
+        (total_token_num, H_KV, D), dtype=dtype, device=device
+    ).normal_(mean=0.1, std=0.2)
+    v_buffer = torch.empty(
+        (total_token_num, H_KV, D), dtype=dtype, device=device
+    ).normal_(mean=0.1, std=0.2)
+
+    k_extend = torch.empty((extend_token_num, H_KV, D), dtype=dtype, device=device)
+    v_extend = torch.empty((extend_token_num, H_KV, D), dtype=dtype, device=device)
+    q_extend = torch.empty((extend_token_num, H_Q, D), dtype=dtype, device=device)
+
+    for i in range(B):
+        extend_start_in_buffer = b_start_loc[i] + b_seq_len_prefix[i]
+        extend_end_in_buffer = b_start_loc[i] + b_seq_len[i]
+        extend_start = b_start_loc_extend[i]
+        extend_end = b_start_loc_extend[i] + b_seq_len_extend[i]
+
+        k_extend[extend_start:extend_end] = k_buffer[
+            extend_start_in_buffer:extend_end_in_buffer
+        ]
+        v_extend[extend_start:extend_end] = v_buffer[
+            extend_start_in_buffer:extend_end_in_buffer
+        ]
+        q_extend[extend_start:extend_end] = torch.empty(
+            (int(b_seq_len_extend[i].item()), H_Q, D), dtype=dtype, device=device
+        ).normal_(mean=0.1, std=0.2)
+
+    o_extend_triton = torch.empty(
+        (extend_token_num, H_Q, D), dtype=dtype, device=device
+    )
+    o_extend_torch = torch.empty((extend_token_num, H_Q, D), dtype=dtype, device=device)
+
+    b_seq_len_extend = b_seq_len - b_seq_len_prefix
+    max_len_extend = int(torch.max(b_seq_len_extend, 0)[0].item())
+    qo_indptr = torch.zeros((B + 1,), dtype=torch.int32, device=device)
+    qo_indptr[1 : B + 1] = torch.cumsum(b_seq_len_extend[:B], dim=0)
+
+    inputs = dict(
+        q_extend=q_extend,
+        k_extend=k_extend,
+        v_extend=v_extend,
+        k_buffer=k_buffer,
+        v_buffer=v_buffer,
+        o_extend_triton=o_extend_triton,
+        o_extend_torch=o_extend_torch,
+        qo_indptr=qo_indptr,
+        kv_indptr=kv_indptr,
+        kv_indices=kv_indices,
+        max_len_extend=max_len_extend,
+        WINDOW_SIZE=WINDOW_SIZE,
+    )
+    meta = dict(
+        B=B, N_CTX=N_CTX, H_Q=H_Q, H_KV=H_KV, D=D, extend_token_num=extend_token_num
+    )
+    return inputs, meta
+
+
+def _run_triton(inputs):
+    extend_attention_fwd(
+        inputs["q_extend"],
+        inputs["k_extend"],
+        inputs["v_extend"],
+        inputs["o_extend_triton"],
+        inputs["k_buffer"],
+        inputs["v_buffer"],
+        inputs["qo_indptr"],
+        inputs["kv_indptr"],
+        inputs["kv_indices"],
+        custom_mask=None,
+        is_causal=True,
+        mask_indptr=None,
+        max_len_extend=inputs["max_len_extend"],
+        sliding_window_size=inputs["WINDOW_SIZE"],
+    )
+
+
+def _run_torch_ref(inputs):
+    extend_attention_fwd_torch(
+        inputs["q_extend"],
+        inputs["k_extend"],
+        inputs["v_extend"],
+        inputs["o_extend_torch"],
+        inputs["k_buffer"],
+        inputs["v_buffer"],
+        inputs["qo_indptr"],
+        inputs["kv_indptr"],
+        inputs["kv_indices"],
+        inputs["WINDOW_SIZE"],
+    )
+
+
+N_CTXS = [1024, 2048, 4096, 8192]
+WINDOW_SIZES = [-1, 127, 256, 512]
+
+CONFIGS = list(itertools.product(N_CTXS, WINDOW_SIZES))
+
+PROVIDERS = ["torch", "triton"]
+
+
+@tt.perf_report(
+    tt.Benchmark(
+        x_names=["N_CTX", "WINDOW_SIZE"],
+        x_vals=CONFIGS,
+        line_arg="provider",
+        line_vals=PROVIDERS,
+        line_names=PROVIDERS,
+        ylabel="Runtime (ms)",
+        plot_name="extend_attention_triton_vs_torch",
+        args={
+            "B": 32,
+            "H_Q": 64,
+            "H_KV": 8,
+            "D": 128,
+            "dtype": "bf16",
+            "device": "cuda",
+            "check_correctness": False,
+            "warmup": 25,
+            "rep": 100,
+        },
+    )
+)
+def bench(
+    N_CTX,
+    provider,
+    B,
+    H_Q,
+    H_KV,
+    D,
+    dtype,
+    device,
+    WINDOW_SIZE,
+    check_correctness,
+    warmup,
+    rep,
+):
+    torch.manual_seed(0)
+    torch.cuda.manual_seed(0)
+    dtype_map = {"bf16": torch.bfloat16, "fp16": torch.float16, "fp32": torch.float32}
+    dt = dtype_map[dtype]
+
+    inputs, _ = _build_batch(
+        B, N_CTX, H_Q, H_KV, D, WINDOW_SIZE, dtype=dt, device=device
+    )
+
+    if check_correctness and provider == "triton":
+        _run_triton(inputs)
+        _run_torch_ref(inputs)
+        torch.cuda.synchronize()
+        if not torch.allclose(
+            inputs["o_extend_triton"], inputs["o_extend_torch"], rtol=1e-3, atol=1e-3
+        ):
+            raise AssertionError("Mismatch between triton and torch reference.")
+
+    if provider == "triton":
+        ms = tt.do_bench(lambda: _run_triton(inputs), warmup=warmup, rep=rep)
+    elif provider == "torch":
+        ms = tt.do_bench(lambda: _run_torch_ref(inputs), warmup=warmup, rep=rep)
+    else:
+        raise ValueError(provider)
+
+    return ms
+
+
+if __name__ == "__main__":
+    bench.run(print_data=True, show_plots=False)
diff --git a/python/sglang/srt/layers/attention/triton_ops/extend_attention.py b/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
index 89f816a27965..8b459861d419 100644
--- a/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
+++ b/python/sglang/srt/layers/attention/triton_ops/extend_attention.py
@@ -134,38 +134,6 @@ def _fwd_kernel(
         start_n = tl.multiple_of(start_n, BLOCK_N)
         mask_n = (start_n + offs_n) < cur_seq_len_prefix
 
-        offs_kv_loc = tl.load(
-            kv_indices + cur_seq_kv_start_idx + start_n + offs_n, mask=mask_n, other=0
-        )
-
-        # load k in transposed way
-        offs_buf_k = (
-            offs_kv_loc[None, :] * stride_buf_kbs
-            + cur_kv_head * stride_buf_kh
-            + offs_d[:, None]
-        )
-        k = tl.load(
-            K_Buffer + offs_buf_k, mask=(mask_n[None, :]) & (mask_d[:, None]), other=0.0
-        )
-
-        qk = tl.dot(q.to(k.dtype), k)
-        if BLOCK_DPE > 0:
-            offs_kpe = (
-                offs_kv_loc[None, :] * stride_buf_kbs
-                + cur_kv_head * stride_buf_kh
-                + offs_dpe[:, None]
-            )
-            kpe = tl.load(
-                K_Buffer + offs_kpe,
-                mask=mask_n[None, :],
-                other=0.0,
-            )
-            qk += tl.dot(qpe.to(kpe.dtype), kpe)
-        qk *= sm_scale
-
-        if logit_cap > 0:
-            qk = logit_cap * tanh(qk / logit_cap)
-
         final_mask = mask_m[:, None] & mask_n[None, :]
         if USE_CUSTOM_MASK and not SKIP_PREFIX_CUSTOM_MASK:
             custom_mask = tl.load(
@@ -185,28 +153,72 @@ def _fwd_kernel(
                 cur_seq_len_prefix + cur_block_m * BLOCK_M + offs_m[:, None]
             ) <= (start_n + offs_n[None, :] + SLIDING_WINDOW_SIZE)
             final_mask &= window_mask
-        qk = tl.where(final_mask, qk, float("-inf"))
 
-        row_max = tl.max(qk, 1)
-        row_max_fixed = tl.where(row_max == float("-inf"), -1e20, row_max)
-        n_e_max = tl.maximum(row_max_fixed, e_max)
+        SKIP_TILE = False
+        if (USE_CUSTOM_MASK and not SKIP_PREFIX_CUSTOM_MASK) or SLIDING_WINDOW_SIZE > 0:
+            SKIP_TILE = tl.max(tl.max(final_mask.to(tl.int32), axis=1), axis=0) == 0
 
-        re_scale = tl.exp(e_max - n_e_max)
-        p = tl.exp(qk - n_e_max[:, None])
-        deno = deno * re_scale + tl.sum(p, 1)
+        if not SKIP_TILE:
+            offs_kv_loc = tl.load(
+                kv_indices + cur_seq_kv_start_idx + start_n + offs_n,
+                mask=mask_n,
+                other=0,
+            )
 
-        offs_buf_v = (
-            offs_kv_loc[:, None] * stride_buf_vbs
-            + cur_kv_head * stride_buf_vh
-            + offs_dv[None, :]
-        )
-        v = tl.load(
-            V_Buffer + offs_buf_v, mask=mask_n[:, None] & mask_dv[None, :], other=0.0
-        )
-        p = p.to(v.dtype)
-        acc = acc * re_scale[:, None] + tl.dot(p, v)
+            # load k in transposed way
+            offs_buf_k = (
+                offs_kv_loc[None, :] * stride_buf_kbs
+                + cur_kv_head * stride_buf_kh
+                + offs_d[:, None]
+            )
+            k = tl.load(
+                K_Buffer + offs_buf_k,
+                mask=(mask_n[None, :]) & (mask_d[:, None]),
+                other=0.0,
+            )
 
-        e_max = n_e_max
+            qk = tl.dot(q.to(k.dtype), k)
+            if BLOCK_DPE > 0:
+                offs_kpe = (
+                    offs_kv_loc[None, :] * stride_buf_kbs
+                    + cur_kv_head * stride_buf_kh
+                    + offs_dpe[:, None]
+                )
+                kpe = tl.load(
+                    K_Buffer + offs_kpe,
+                    mask=mask_n[None, :],
+                    other=0.0,
+                )
+                qk += tl.dot(qpe.to(kpe.dtype), kpe)
+            qk *= sm_scale
+
+            if logit_cap > 0:
+                qk = logit_cap * tanh(qk / logit_cap)
+
+            qk = tl.where(final_mask, qk, float("-inf"))
+
+            row_max = tl.max(qk, 1)
+            row_max_fixed = tl.where(row_max == float("-inf"), -1e20, row_max)
+            n_e_max = tl.maximum(row_max_fixed, e_max)
+
+            re_scale = tl.exp(e_max - n_e_max)
+            p = tl.exp(qk - n_e_max[:, None])
+            deno = deno * re_scale + tl.sum(p, 1)
+
+            offs_buf_v = (
+                offs_kv_loc[:, None] * stride_buf_vbs
+                + cur_kv_head * stride_buf_vh
+                + offs_dv[None, :]
+            )
+            v = tl.load(
+                V_Buffer + offs_buf_v,
+                mask=mask_n[:, None] & mask_dv[None, :],
+                other=0.0,
+            )
+            p = p.to(v.dtype)
+            acc = acc * re_scale[:, None] + tl.dot(p, v)
+
+            e_max = n_e_max
 
     # stage 2: compute the triangle part
 
@@ -219,35 +231,6 @@ def _fwd_kernel(
         start_n = tl.multiple_of(start_n, BLOCK_N)
         mask_n = (start_n + offs_n) < cur_block_m_end
 
-        # load k in transposed way
-        offs_k = (
-            (cur_seq_extend_start_idx + start_n + offs_n[None, :]) * stride_kbs
-            + cur_kv_head * stride_kh
-            + offs_d[:, None]
-        )
-        k = tl.load(
-            K_Extend + offs_k, mask=(mask_n[None, :]) & (mask_d[:, None]), other=0.0
-        )
-
-        qk = tl.dot(q, k, out_dtype=tl.float32)
-        if BLOCK_DPE > 0:
-            offs_kpe = (
-                (cur_seq_extend_start_idx + start_n + offs_n[None, :]) * stride_kbs
-                + cur_kv_head * stride_kh
-                + offs_dpe[:, None]
-            )
-            kpe = tl.load(
-                K_Extend + offs_kpe,
-                mask=mask_n[None, :],
-                other=0.0,
-            )
-            qk += tl.dot(qpe, kpe)
-
-        qk *= sm_scale
-
-        if logit_cap > 0:
-            qk = logit_cap * tanh(qk / logit_cap)
-
         final_mask = mask_m[:, None] & mask_n[None, :]
         if USE_CUSTOM_MASK:
             custom_mask = tl.load(
@@ -279,28 +262,62 @@ def _fwd_kernel(
             )
             final_mask &= window_mask
 
-        qk = tl.where(final_mask, qk, float("-inf"))
-
-        row_max = tl.max(qk, 1)
-        row_max_fixed = tl.where(row_max == float("-inf"), -1e20, row_max)
-        n_e_max = tl.maximum(row_max_fixed, e_max)
+        SKIP_TILE = False
+        if USE_CUSTOM_MASK or SLIDING_WINDOW_SIZE > 0:
+            SKIP_TILE = tl.max(tl.max(final_mask.to(tl.int32), axis=1), axis=0) == 0
 
-        re_scale = tl.exp(e_max - n_e_max)
-        p = tl.exp(qk - n_e_max[:, None])
-        deno = deno * re_scale + tl.sum(p, 1)
+        if not SKIP_TILE:
+            # load k in transposed way
+            offs_k = (
+                (cur_seq_extend_start_idx + start_n + offs_n[None, :]) * stride_kbs
+                + cur_kv_head * stride_kh
+                + offs_d[:, None]
+            )
+            k = tl.load(
+                K_Extend + offs_k, mask=(mask_n[None, :]) & (mask_d[:, None]), other=0.0
+            )
 
-        offs_v = (
-            (cur_seq_extend_start_idx + start_n + offs_n[:, None]) * stride_vbs
-            + cur_kv_head * stride_vh
-            + offs_dv[None, :]
-        )
-        v = tl.load(
-            V_Extend + offs_v, mask=mask_n[:, None] & mask_dv[None, :], other=0.0
-        )
-        p = p.to(v.dtype)
-        acc = acc * re_scale[:, None] + tl.dot(p, v)
+            qk = tl.dot(q, k, out_dtype=tl.float32)
+            if BLOCK_DPE > 0:
+                offs_kpe = (
+                    (cur_seq_extend_start_idx + start_n + offs_n[None, :]) * stride_kbs
+                    + cur_kv_head * stride_kh
+                    + offs_dpe[:, None]
+                )
+                kpe = tl.load(
+                    K_Extend + offs_kpe,
+                    mask=mask_n[None, :],
+                    other=0.0,
+                )
+                qk += tl.dot(qpe, kpe)
+
+            qk *= sm_scale
+
+            if logit_cap > 0:
+                qk = logit_cap * tanh(qk / logit_cap)
+
+            qk = tl.where(final_mask, qk, float("-inf"))
+
+            row_max = tl.max(qk, 1)
+            row_max_fixed = tl.where(row_max == float("-inf"), -1e20, row_max)
+            n_e_max = tl.maximum(row_max_fixed, e_max)
+
+            re_scale = tl.exp(e_max - n_e_max)
+            p = tl.exp(qk - n_e_max[:, None])
+            deno = deno * re_scale + tl.sum(p, 1)
+
+            offs_v = (
+                (cur_seq_extend_start_idx + start_n + offs_n[:, None]) * stride_vbs
+                + cur_kv_head * stride_vh
+                + offs_dv[None, :]
+            )
+            v = tl.load(
+                V_Extend + offs_v, mask=mask_n[:, None] & mask_dv[None, :], other=0.0
+            )
+            p = p.to(v.dtype)
+            acc = acc * re_scale[:, None] + tl.dot(p, v)
 
-        e_max = n_e_max
+            e_max = n_e_max
 
     if HAS_SINK:
         cur_sink = tl.load(sink_ptr + cur_head)

From b114a8105bea0a252dc7b810dbe5b9739e8c3ffb Mon Sep 17 00:00:00 2001
From: fzyzcjy <5236035+fzyzcjy@users.noreply.github.com>
Date: Wed, 6 Aug 2025 21:42:44 +0800
Subject: [PATCH 384/396] Support B200 in CI (#8861)

---
 .github/workflows/pr-test.yml    | 22 ++++++++++++++++
 scripts/ci_install_dependency.sh | 43 +++++++++++++++++++++++---------
 test/srt/run_suite.py            |  3 +++
 3 files changed, 56 insertions(+), 12 deletions(-)

diff --git a/.github/workflows/pr-test.yml b/.github/workflows/pr-test.yml
index cf1398c36459..d99d68bc7a7d 100644
--- a/.github/workflows/pr-test.yml
+++ b/.github/workflows/pr-test.yml
@@ -401,3 +401,25 @@ jobs:
           done
           echo "All jobs completed successfully"
           exit 0
+
+  unit-test-backend-8-gpu-b200:
+    needs: [check-changes, unit-test-frontend, unit-test-backend-2-gpu]
+    if: (github.repository == 'sgl-project/sglang' || github.event_name == 'pull_request') &&
+      github.event.pull_request.draft == false &&
+      needs.check-changes.outputs.src == 'true'
+    runs-on: b200-runner
+    strategy:
+      fail-fast: false
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Install dependencies
+        run: |
+          MODE_BLACKWELL=1 bash scripts/ci_install_dependency.sh
+
+      - name: Run test
+        timeout-minutes: 20
+        run: |
+          cd test/srt
+          python3 run_suite.py --suite per-commit-8-gpu-b200 --auto-partition-id 0 --auto-partition-size 1
diff --git a/scripts/ci_install_dependency.sh b/scripts/ci_install_dependency.sh
index 73721da65532..aa00f86b55cb 100755
--- a/scripts/ci_install_dependency.sh
+++ b/scripts/ci_install_dependency.sh
@@ -2,44 +2,63 @@
 # Install the dependency in CI.
 set -euxo pipefail
 
+MODE_BLACKWELL=${MODE_BLACKWELL:-0}
+
+CU_VERSION="cu126"
+if [ "$MODE_BLACKWELL" = "1" ]; then
+    CU_VERSION="cu129"
+fi
+
 # Kill existing processes
 SCRIPT_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
 bash "${SCRIPT_DIR}/killall_sglang.sh"
 
+if ! command -v git >/dev/null 2>&1; then
+    apt update
+    apt install -y git
+fi
+
 # Update pip
-pip install --upgrade pip
+if [ "$MODE_BLACKWELL" != "1" ]; then
+    pip install --upgrade pip --break-system-packages
+fi
 
 # Clean up existing installations
-pip uninstall -y flashinfer flashinfer_python sgl-kernel sglang vllm || true
+pip uninstall -y flashinfer flashinfer_python sgl-kernel sglang vllm --break-system-packages || true
 pip cache purge || true
 rm -rf /root/.cache/flashinfer
+# TODO handle other python versions
 rm -rf /usr/local/lib/python3.10/dist-packages/flashinfer*
 rm -rf /usr/local/lib/python3.10/dist-packages/sgl_kernel*
 
 # Install the main package
-pip install -e "python[dev]" --extra-index-url https://download.pytorch.org/whl/test/cu126
+pip install -e "python[dev]" --extra-index-url https://download.pytorch.org/whl/test/${CU_VERSION} --break-system-packages
 
 # Show current packages
 pip list
 
 # Install additional dependencies
-pip install mooncake-transfer-engine==0.3.5 nvidia-cuda-nvrtc-cu12
+pip install mooncake-transfer-engine==0.3.5 nvidia-cuda-nvrtc-cu12 --break-system-packages
 
-# For lmms_evals evaluating MMMU
-git clone --branch v0.3.3 --depth 1 https://github.com/EvolvingLMMs-Lab/lmms-eval.git
-pip install -e lmms-eval/
+if [ "$MODE_BLACKWELL" != "1" ]; then
+    # For lmms_evals evaluating MMMU
+    git clone --branch v0.3.3 --depth 1 https://github.com/EvolvingLMMs-Lab/lmms-eval.git
+    pip install -e lmms-eval/ --break-system-packages
+fi
 
 # Install FlashMLA for attention backend tests
-# pip install git+https://github.com/deepseek-ai/FlashMLA.git
+# pip install git+https://github.com/deepseek-ai/FlashMLA.git --break-system-packages
 
 # Install hf_xet
-pip install huggingface_hub[hf_xet]
+pip install huggingface_hub[hf_xet] --break-system-packages
 
-# Install xformers
-pip install -U xformers --index-url https://download.pytorch.org/whl/cu126 --no-deps --force-reinstall
+if [ "$MODE_BLACKWELL" != "1" ]; then
+    # Install xformers
+    pip install -U xformers --index-url https://download.pytorch.org/whl/${CU_VERSION} --no-deps --force-reinstall --break-system-packages
+fi
 
 # To help dumping traces when timeout occurred
-pip install py-spy
+pip install py-spy --break-system-packages
 
 # Show current packages
 pip list
diff --git a/test/srt/run_suite.py b/test/srt/run_suite.py
index 93b8189664a9..aecea44986bd 100644
--- a/test/srt/run_suite.py
+++ b/test/srt/run_suite.py
@@ -203,6 +203,9 @@ class TestFile:
     "per-commit-8-gpu-amd": [
         TestFile("test_full_deepseek_v3.py", 250),
     ],
+    "per-commit-8-gpu-b200": [
+        # add more here
+    ],
     "per-commit-cpu": [
         TestFile("cpu/test_activation.py"),
         TestFile("cpu/test_binding.py"),

From 01c99a9959e06205ec58a440a29023878967ecc0 Mon Sep 17 00:00:00 2001
From: Mick <mickjagger19@icloud.com>
Date: Thu, 7 Aug 2025 00:30:33 +0800
Subject: [PATCH 385/396] chore: update Dockerfile (#8872)

Co-authored-by: zhyncs <me@zhyncs.com>
---
 docker/Dockerfile | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index a3b8556b1202..d52eac47aaf3 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -14,7 +14,7 @@ ENV PATH="${PATH}:/usr/local/nvidia/bin" \
 
 RUN apt update && apt install wget -y && apt install software-properties-common -y \
  && add-apt-repository ppa:deadsnakes/ppa -y \
- && apt install python3.12-full -y \
+  && apt install python3.12-full python3.12-dev python3.10-venv -y \
  && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.10 1 \
  && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.12 2 \
  && update-alternatives --set python3 /usr/bin/python3.12 \
@@ -28,7 +28,6 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     tzdata \
     software-properties-common netcat-openbsd kmod unzip openssh-server \
     curl wget lsof zsh ccache tmux htop git-lfs tree \
-    python3 python3-pip python3-dev libpython3-dev python3-venv \
     build-essential cmake \
     libopenmpi-dev libnuma1 libnuma-dev \
     libibverbs-dev libibverbs1 libibumad3 \
@@ -44,7 +43,7 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     patchelf \
     nvidia-dkms-550 \
     devscripts debhelper fakeroot dkms check libsubunit0 libsubunit-dev \
- && ln -sf /usr/bin/python3 /usr/bin/python \
+ && ln -sf /usr/bin/python3.12 /usr/bin/python \
  && rm -rf /var/lib/apt/lists/* \
  && apt-get clean
 
@@ -67,12 +66,16 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
  && case "$CUDA_VERSION" in \
       12.6.1) CUINDEX=126 ;; \
       12.8.1) CUINDEX=128 ;; \
+      12.9.1) CUINDEX=129 ;; \
       *) echo "Unsupported CUDA version: $CUDA_VERSION" && exit 1 ;; \
     esac \
- && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
+ && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/test/cu${CUINDEX} \
  && python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
-      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.2.9/sgl_kernel-0.2.9+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.3.2/sgl_kernel-0.3.2+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
+    fi \
+ && if [ "$CUDA_VERSION" = "12.9.1" ]; then \
+      python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.3.2/sgl_kernel-0.3.2-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
     fi
 
 # Build and install NVSHMEM + DeepEP

From 288ae41f7ae9203d3c87a07bf6a86f5ac0486de6 Mon Sep 17 00:00:00 2001
From: Shu Wang <shuw@nvidia.com>
Date: Wed, 6 Aug 2025 16:35:07 -0500
Subject: [PATCH 386/396] [NVIDIA] Fix num_experts in modelopt_quant (#8811)

---
 python/sglang/srt/layers/moe/fused_moe_triton/layer.py  | 5 +++++
 python/sglang/srt/layers/quantization/modelopt_quant.py | 6 ++----
 2 files changed, 7 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 35f06c6de78e..2c02a7463ca0 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -1063,10 +1063,15 @@ def forward(self, hidden_states: torch.Tensor, topk_output):
             gemm1_weights_scale=self.gemm1_scales_fp4_shuffled.data.view(
                 torch.float8_e4m3fn
             ),
+            gemm1_bias=None,
+            gemm1_alpha=None,
+            gemm1_beta=None,
+            gemm1_clamp_limit=None,
             gemm2_weights=self.gemm2_weights_fp4_shuffled.data,
             gemm2_weights_scale=self.gemm2_scales_fp4_shuffled.data.view(
                 torch.float8_e4m3fn
             ),
+            gemm2_bias=None,
             output1_scale_scalar=self.g1_scale_c.data,
             output1_scale_gate_scalar=self.g1_alphas.data,
             output2_scale_scalar=self.g2_alphas.data,
diff --git a/python/sglang/srt/layers/quantization/modelopt_quant.py b/python/sglang/srt/layers/quantization/modelopt_quant.py
index fca0ee38b9c0..4e2b3a53e916 100755
--- a/python/sglang/srt/layers/quantization/modelopt_quant.py
+++ b/python/sglang/srt/layers/quantization/modelopt_quant.py
@@ -764,8 +764,6 @@ def create_weights(
             )
 
         # TODO(ch-wan): check if this is needed
-        layer.num_experts = num_experts
-        layer.num_local_experts = num_experts
         layer.intermediate_size_per_partition = intermediate_size_per_partition
         layer.params_dtype = params_dtype
         layer.quant_config = self.quant_config
@@ -1106,7 +1104,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
                 layer.w13_weight_scale,
             )
 
-            print("Applied flashinfer weight processing for both w13 and w2")
+            logger.info_once("Applied flashinfer weight processing for both w13 and w2")
 
         else:
             # CUTLASS processing - handle w13 and w2 separately
@@ -1126,7 +1124,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
             layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
 
             # Both flashinfer cutlass and regular cutlass use same processing for w2
-            print("Applied weight processing for both w13 and w2")
+            logger.info_once("Applied weight processing for both w13 and w2")
 
             # Set up CUTLASS MoE parameters
             device = layer.w13_weight.device

From 78aad910372f4681eba54b5f79408c0333934ff4 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Wed, 6 Aug 2025 15:02:32 -0700
Subject: [PATCH 387/396] [CI] fix pip upgrade (#8881)

---
 scripts/ci_install_dependency.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scripts/ci_install_dependency.sh b/scripts/ci_install_dependency.sh
index aa00f86b55cb..35e7d46a969e 100755
--- a/scripts/ci_install_dependency.sh
+++ b/scripts/ci_install_dependency.sh
@@ -20,7 +20,7 @@ fi
 
 # Update pip
 if [ "$MODE_BLACKWELL" != "1" ]; then
-    pip install --upgrade pip --break-system-packages
+    pip install --upgrade pip
 fi
 
 # Clean up existing installations

From cbbd685a46cd9345c0a87f243292c3ea59e5db32 Mon Sep 17 00:00:00 2001
From: Yineng Zhang <me@zhyncs.com>
Date: Wed, 6 Aug 2025 15:51:40 -0700
Subject: [PATCH 388/396] chore: use torch 2.8 stable (#8880)

---
 docker/Dockerfile                | 2 +-
 scripts/ci_install_dependency.sh | 2 +-
 sgl-kernel/build.sh              | 6 +++---
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index d52eac47aaf3..49d2c9089aed 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -69,7 +69,7 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip setuptools wheel html5li
       12.9.1) CUINDEX=129 ;; \
       *) echo "Unsupported CUDA version: $CUDA_VERSION" && exit 1 ;; \
     esac \
- && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/test/cu${CUINDEX} \
+ && python3 -m pip install --no-cache-dir -e "python[${BUILD_TYPE}]" --extra-index-url https://download.pytorch.org/whl/cu${CUINDEX} \
  && python3 -m pip install --no-cache-dir nvidia-nccl-cu12==2.27.6 --force-reinstall --no-deps \
  && if [ "$CUDA_VERSION" = "12.8.1" ]; then \
       python3 -m pip install --no-cache-dir https://github.com/sgl-project/whl/releases/download/v0.3.2/sgl_kernel-0.3.2+cu128-cp39-abi3-manylinux2014_x86_64.whl --force-reinstall --no-deps ; \
diff --git a/scripts/ci_install_dependency.sh b/scripts/ci_install_dependency.sh
index 35e7d46a969e..07379bed6fea 100755
--- a/scripts/ci_install_dependency.sh
+++ b/scripts/ci_install_dependency.sh
@@ -32,7 +32,7 @@ rm -rf /usr/local/lib/python3.10/dist-packages/flashinfer*
 rm -rf /usr/local/lib/python3.10/dist-packages/sgl_kernel*
 
 # Install the main package
-pip install -e "python[dev]" --extra-index-url https://download.pytorch.org/whl/test/${CU_VERSION} --break-system-packages
+pip install -e "python[dev]" --extra-index-url https://download.pytorch.org/whl/${CU_VERSION} --break-system-packages
 
 # Show current packages
 pip list
diff --git a/sgl-kernel/build.sh b/sgl-kernel/build.sh
index b8db578b64d6..8ae22294a21b 100755
--- a/sgl-kernel/build.sh
+++ b/sgl-kernel/build.sh
@@ -23,13 +23,13 @@ fi
 
 if [ ${CUDA_VERSION} = "12.9" ]; then
    DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
-   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu129"
+   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/cu129"
 elif [ ${CUDA_VERSION} = "12.8" ]; then
    DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
-   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu128"
+   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/cu128"
 else
    DOCKER_IMAGE="${BUILDER_NAME}:cuda${CUDA_VERSION}"
-   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu126"
+   TORCH_INSTALL="pip install --no-cache-dir torch==2.8.0 --index-url https://download.pytorch.org/whl/cu126"
 fi
 
 docker run --rm \

From 92cc32d9fcee0ab6c020891e723f27daeef232ee Mon Sep 17 00:00:00 2001
From: Chang Su <chang.s.su@oracle.com>
Date: Wed, 6 Aug 2025 16:20:34 -0700
Subject: [PATCH 389/396] Support v1/responses and use harmony in serving_chat
 (#8837)

Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Co-authored-by: Xinyuan Tong <justinning0323@outlook.com>
Co-authored-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
---
 python/pyproject.toml                         |    3 +-
 python/sglang/srt/entrypoints/context.py      |  244 ++++
 .../sglang/srt/entrypoints/harmony_utils.py   |  370 +++++
 python/sglang/srt/entrypoints/http_server.py  |   69 +
 .../sglang/srt/entrypoints/openai/protocol.py |  228 ++-
 .../srt/entrypoints/openai/serving_chat.py    |  299 +++-
 .../entrypoints/openai/serving_responses.py   | 1273 +++++++++++++++++
 .../srt/entrypoints/openai/tool_server.py     |  174 +++
 python/sglang/srt/entrypoints/tool.py         |   87 ++
 .../srt/function_call/harmony_tool_parser.py  |  130 ++
 .../srt/managers/detokenizer_manager.py       |    2 +-
 python/sglang/srt/managers/io_struct.py       |    6 +
 .../scheduler_output_processor_mixin.py       |    3 +-
 .../sglang/srt/managers/tokenizer_manager.py  |   21 +-
 python/sglang/srt/server_args.py              |   11 +
 python/sglang/srt/utils.py                    |    5 +
 16 files changed, 2880 insertions(+), 45 deletions(-)
 create mode 100644 python/sglang/srt/entrypoints/context.py
 create mode 100644 python/sglang/srt/entrypoints/harmony_utils.py
 create mode 100644 python/sglang/srt/entrypoints/openai/serving_responses.py
 create mode 100644 python/sglang/srt/entrypoints/openai/tool_server.py
 create mode 100644 python/sglang/srt/entrypoints/tool.py
 create mode 100644 python/sglang/srt/function_call/harmony_tool_parser.py

diff --git a/python/pyproject.toml b/python/pyproject.toml
index 3e63ed50cb6e..753d281be75e 100644
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -29,6 +29,7 @@ runtime_common = [
     "modelscope",
     "msgspec",
     "ninja",
+    "openai-harmony==0.0.3",
     "orjson",
     "outlines==0.1.11",
     "packaging",
@@ -96,7 +97,7 @@ srt_cpu = ["sglang[runtime_common]", "einops"]
 # https://vllm-ascend.readthedocs.io/en/latest/installation.html
 srt_npu = ["sglang[runtime_common]"]
 
-openai = ["openai>=1.0", "tiktoken"]
+openai = ["openai>=1.99.1", "tiktoken"]
 anthropic = ["anthropic>=0.20.0"]
 litellm = ["litellm>=1.0.0"]
 torch_memory_saver = ["torch_memory_saver>=0.0.8"]
diff --git a/python/sglang/srt/entrypoints/context.py b/python/sglang/srt/entrypoints/context.py
new file mode 100644
index 000000000000..0c8bc116d5dc
--- /dev/null
+++ b/python/sglang/srt/entrypoints/context.py
@@ -0,0 +1,244 @@
+# SPDX-License-Identifier: Apache-2.0
+# Copied from vLLM
+import json
+import logging
+from abc import ABC, abstractmethod
+from typing import Union
+
+logger = logging.getLogger(__name__)
+
+try:
+    from mcp import ClientSession
+except ImportError:
+    logger.warning("Ignoring mcp import error")
+
+from openai_harmony import Author, Message, Role, StreamState, TextContent
+
+from sglang.srt.entrypoints.harmony_utils import (
+    get_encoding,
+    get_streamable_parser_for_assistant,
+    render_for_completion,
+)
+from sglang.srt.entrypoints.tool import Tool
+
+
+class ConversationContext(ABC):
+
+    @abstractmethod
+    def append_output(self, output) -> None:
+        pass
+
+    @abstractmethod
+    async def call_tool(self) -> list[Message]:
+        pass
+
+    @abstractmethod
+    def need_builtin_tool_call(self) -> bool:
+        pass
+
+    @abstractmethod
+    def render_for_completion(self) -> list[int]:
+        pass
+
+
+class SimpleContext(ConversationContext):
+
+    def __init__(self):
+        self.last_output = None
+
+    def append_output(self, output) -> None:
+        self.last_output = output
+
+    def need_builtin_tool_call(self) -> bool:
+        return False
+
+    async def call_tool(self) -> list[Message]:
+        raise NotImplementedError("Should not be called.")
+
+    def render_for_completion(self) -> list[int]:
+        raise NotImplementedError("Should not be called.")
+
+
+class HarmonyContext(ConversationContext):
+
+    def __init__(
+        self,
+        messages: list,
+        tool_sessions: dict[str, Union["ClientSession", Tool]],
+    ):
+        # TODO: Remove the hack of Union[ClientSession, Tool] by using MCP
+        # when demo.
+        self._messages = messages
+        self.tool_sessions = tool_sessions
+
+        self.parser = get_streamable_parser_for_assistant()
+        self.num_init_messages = len(messages)
+        # TODO
+        self.num_prompt_tokens = 0
+        self.num_cached_tokens = 0
+        self.num_output_tokens = 0
+        self.num_reasoning_tokens = 0
+
+    def append_output(self, output) -> None:
+        if isinstance(output, dict) and "output_ids" in output:
+            output_token_ids = output["output_ids"]
+
+            # TODO: REMOVE here:
+            # Very hacky, find the first occurrence of token 200006 and cut from there
+            try:
+                start_index = output_token_ids.index(200006)
+                output_token_ids = output_token_ids[start_index:]
+            except ValueError:
+                pass
+
+            for token_id in output_token_ids:
+                self.parser.process(token_id)
+            output_msgs = self.parser.messages
+
+            meta_info = output["meta_info"]
+
+            if isinstance(meta_info, dict):
+                if "prompt_token_ids" in meta_info:
+                    self.num_prompt_tokens = meta_info["prompt_tokens"]
+                if "cached_tokens" in meta_info:
+                    self.num_cached_tokens = meta_info["cached_tokens"]
+                if "completion_tokens" in meta_info:
+                    self.num_output_tokens += meta_info["completion_tokens"]
+
+        else:
+            output_msgs = output
+
+        self._messages.extend(output_msgs)
+
+    @property
+    def messages(self) -> list:
+        return self._messages
+
+    def need_builtin_tool_call(self) -> bool:
+        last_msg = self.messages[-1]
+        recipient = last_msg.recipient
+        return recipient is not None and (
+            recipient.startswith("browser.") or recipient.startswith("python")
+        )
+
+    async def call_tool(self) -> list[Message]:
+        if not self.messages:
+            return []
+        last_msg = self.messages[-1]
+        recipient = last_msg.recipient
+        if recipient is not None:
+            if recipient.startswith("browser."):
+                return await self.call_search_tool(
+                    self.tool_sessions["browser"], last_msg
+                )
+            elif recipient.startswith("python"):
+                return await self.call_python_tool(
+                    self.tool_sessions["python"], last_msg
+                )
+        raise ValueError("No tool call found")
+
+    def render_for_completion(self) -> list[int]:
+        return render_for_completion(self.messages)
+
+    async def call_search_tool(
+        self, tool_session: Union["ClientSession", Tool], last_msg: Message
+    ) -> list[Message]:
+        if isinstance(tool_session, Tool):
+            return await tool_session.get_result(self)
+        tool_name = last_msg.recipient.split(".")[1]
+        args = json.loads(last_msg.content[0].text)
+        result = await tool_session.call_tool(tool_name, args)
+        result_str = result.content[0].text
+        content = TextContent(text=result_str)
+        author = Author(role=Role.TOOL, name=last_msg.recipient)
+        return [Message(author=author, content=[content], recipient=Role.ASSISTANT)]
+
+    async def call_python_tool(
+        self, tool_session: Union["ClientSession", Tool], last_msg: Message
+    ) -> list[Message]:
+        if isinstance(tool_session, Tool):
+            return await tool_session.get_result(self)
+        param = {
+            "code": last_msg.content[0].text,
+        }
+        result = await tool_session.call_tool("python", param)
+        result_str = result.content[0].text
+
+        content = TextContent(text=result_str)
+        author = Author(role=Role.TOOL, name="python")
+
+        return [
+            Message(
+                author=author,
+                content=[content],
+                channel=last_msg.channel,
+                recipient=Role.ASSISTANT,
+            )
+        ]
+
+
+class StreamingHarmonyContext(HarmonyContext):
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.last_output = None
+
+        self.parser = get_streamable_parser_for_assistant()
+        self.encoding = get_encoding()
+        self.last_tok = None
+
+    @property
+    def messages(self) -> list:
+        return self.parser.messages
+
+    def append_output(self, output) -> None:
+        if isinstance(output, dict) and "output_ids" in output:
+            # RequestOutput from SGLang with outputs
+            output_token_ids = output["output_ids"]
+
+            # TODO: REMOVE here:
+            # Very hacky, find the first occurrence of token 200006 and cut from there
+            # Find the first occurrence of token 200006 and cut from there
+            try:
+                start_index = output_token_ids.index(200006)
+                output_token_ids = output_token_ids[start_index:]
+            except ValueError:
+                pass
+
+            for token_id in output_token_ids:
+                self.parser.process(token_id)
+
+        else:
+            # Handle the case of tool output in direct message format
+            assert len(output) == 1, "Tool output should be a single message"
+            msg = output[0]
+            # Sometimes the recipient is not set for tool messages,
+            # so we set it to "assistant"
+            if msg.author.role == Role.TOOL and msg.recipient is None:
+                msg.recipient = "assistant"
+            toks = self.encoding.render(msg)
+            for tok in toks:
+                self.parser.process(tok)
+            self.last_tok = toks[-1]
+
+    def is_expecting_start(self) -> bool:
+        return self.parser.state == StreamState.EXPECT_START
+
+    def is_assistant_action_turn(self) -> bool:
+        return self.last_tok in self.encoding.stop_tokens_for_assistant_actions()
+
+    def render_for_completion(self) -> list[int]:
+        # now this list of tokens as next turn's starting tokens
+        # `<|start|>assistant``,
+        # we need to process them in parser.
+        rendered_tokens = super().render_for_completion()
+
+        last_n = -1
+        to_process = []
+        while rendered_tokens[last_n] != self.last_tok:
+            to_process.append(rendered_tokens[last_n])
+            last_n -= 1
+        for tok in reversed(to_process):
+            self.parser.process(tok)
+
+        return rendered_tokens
diff --git a/python/sglang/srt/entrypoints/harmony_utils.py b/python/sglang/srt/entrypoints/harmony_utils.py
new file mode 100644
index 000000000000..635c37187069
--- /dev/null
+++ b/python/sglang/srt/entrypoints/harmony_utils.py
@@ -0,0 +1,370 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import datetime
+import json
+from collections.abc import Iterable
+from typing import Literal, Optional, Union
+
+from openai.types.responses import (
+    ResponseOutputItem,
+    ResponseOutputMessage,
+    ResponseOutputText,
+    ResponseReasoningItem,
+)
+from openai.types.responses.response_function_tool_call import ResponseFunctionToolCall
+from openai.types.responses.response_function_web_search import (
+    ActionFind,
+    ActionOpenPage,
+    ActionSearch,
+    ResponseFunctionWebSearch,
+)
+from openai.types.responses.response_reasoning_item import (
+    Content as ResponseReasoningTextContent,
+)
+from openai.types.responses.tool import Tool
+from openai_harmony import (
+    Author,
+    Conversation,
+    DeveloperContent,
+    HarmonyEncodingName,
+    Message,
+    ReasoningEffort,
+    Role,
+    StreamableParser,
+    SystemContent,
+    TextContent,
+    ToolDescription,
+    load_harmony_encoding,
+)
+
+from sglang.srt.entrypoints.openai.protocol import ResponseInputOutputItem
+from sglang.srt.utils import random_uuid
+
+REASONING_EFFORT = {
+    "high": ReasoningEffort.HIGH,
+    "medium": ReasoningEffort.MEDIUM,
+    "low": ReasoningEffort.LOW,
+}
+
+_harmony_encoding = None
+
+
+def get_encoding():
+    global _harmony_encoding
+    if _harmony_encoding is None:
+        _harmony_encoding = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)
+    return _harmony_encoding
+
+
+def get_system_message(
+    model_identity: Optional[str] = None,
+    reasoning_effort: Optional[Literal["high", "medium", "low"]] = None,
+    start_date: Optional[str] = None,
+    browser_description: Optional[str] = None,
+    python_description: Optional[str] = None,
+) -> Message:
+    sys_msg_content = SystemContent.new()
+    if model_identity is not None:
+        sys_msg_content = sys_msg_content.with_model_identity(model_identity)
+    if reasoning_effort is not None:
+        sys_msg_content = sys_msg_content.with_reasoning_effort(
+            REASONING_EFFORT[reasoning_effort]
+        )
+    if start_date is None:
+        start_date = datetime.datetime.now().strftime("%Y-%m-%d")
+    sys_msg_content = sys_msg_content.with_conversation_start_date(start_date)
+    if browser_description is not None:
+        sys_msg_content = sys_msg_content.with_tools(browser_description)
+    if python_description is not None:
+        sys_msg_content = sys_msg_content.with_tools(python_description)
+    sys_msg = Message.from_role_and_content(Role.SYSTEM, sys_msg_content)
+    return sys_msg
+
+
+def get_developer_message(
+    instructions: Optional[str] = None, tools: Optional[list[Tool]] = None
+) -> Message:
+    dev_msg_content = DeveloperContent.new()
+    if instructions is not None:
+        dev_msg_content = dev_msg_content.with_instructions(instructions)
+    if tools is not None:
+        function_tools = []
+        for tool in tools:
+            if tool.type in ("web_search_preview", "code_interpreter"):
+                # These are built-in tools that are added to the system message.
+                pass
+            elif tool.type == "function":
+                function_tools.append(tool)
+            else:
+                raise ValueError(f"tool type {tool.type} not supported")
+        if function_tools:
+            function_tool_descriptions = [
+                ToolDescription.new(
+                    name=tool.name,
+                    description=tool.description,
+                    parameters=tool.parameters,
+                )
+                for tool in function_tools
+            ]
+            dev_msg_content = dev_msg_content.with_function_tools(
+                function_tool_descriptions
+            )
+    dev_msg = Message.from_role_and_content(Role.DEVELOPER, dev_msg_content)
+    return dev_msg
+
+
+def get_user_message(content: str) -> Message:
+    return Message.from_role_and_content(Role.USER, content)
+
+
+def parse_response_input(
+    response_msg: ResponseInputOutputItem,
+    prev_responses: list[Union[ResponseOutputItem, ResponseReasoningItem]],
+) -> Message:
+    if not isinstance(response_msg, dict):
+        response_msg = response_msg.model_dump()
+    if "type" not in response_msg or response_msg["type"] == "message":
+        role = response_msg["role"]
+        content = response_msg["content"]
+        if role == "system":
+            # User is trying to set a system message. Change it to:
+            # <|start|>developer<|message|># Instructions
+            # {instructions}<|end|>
+            role = "developer"
+            text_prefix = "Instructions:\n"
+        else:
+            text_prefix = ""
+        if isinstance(content, str):
+            msg = Message.from_role_and_content(role, text_prefix + content)
+        else:
+            contents = [TextContent(text=text_prefix + c["text"]) for c in content]
+            msg = Message.from_role_and_contents(role, contents)
+    elif response_msg["type"] == "function_call_output":
+        call_id = response_msg["call_id"]
+        call_response: Optional[ResponseFunctionToolCall] = None
+        for prev_response in reversed(prev_responses):
+            if (
+                isinstance(prev_response, ResponseFunctionToolCall)
+                and prev_response.call_id == call_id
+            ):
+                call_response = prev_response
+                break
+        if call_response is None:
+            raise ValueError(f"No call message found for {call_id}")
+        msg = Message.from_author_and_content(
+            Author.new(Role.TOOL, f"functions.{call_response.name}"),
+            response_msg["output"],
+        )
+    elif response_msg["type"] == "reasoning":
+        content = response_msg["content"]
+        assert len(content) == 1
+        msg = Message.from_role_and_content(Role.ASSISTANT, content[0]["text"])
+    elif response_msg["type"] == "function_call":
+        msg = Message.from_role_and_content(Role.ASSISTANT, response_msg["arguments"])
+        msg = msg.with_channel("commentary")
+        msg = msg.with_recipient(f"functions.{response_msg['name']}")
+        msg = msg.with_content_type("json")
+    else:
+        raise ValueError(f"Unknown input type: {response_msg['type']}")
+    return msg
+
+
+def parse_response_output(output: ResponseOutputItem) -> Message:
+    if isinstance(output, ResponseOutputMessage):
+        role = output.role
+        contents = [TextContent(text=c.text) for c in output.content]
+        msg = Message.from_role_and_contents(role, contents)
+        return msg
+    elif isinstance(output, ResponseFunctionToolCall):
+        msg = Message.from_role_and_content(Role.ASSISTANT, output.arguments)
+        msg = msg.with_channel("commentary")
+        msg = msg.with_recipient(output.name)
+        msg = msg.with_content_type("json")
+        return msg
+    else:
+        raise ValueError(f"Unknown output type: {type(output)}")
+
+
+def parse_chat_input(chat_msg) -> Message:
+    role = chat_msg.role
+    content = chat_msg.content
+    if isinstance(content, str):
+        contents = [TextContent(text=content)]
+    else:
+        # TODO: Support refusal.
+        contents = [TextContent(text=c.text) for c in content]
+    msg = Message.from_role_and_contents(role, contents)
+    return msg
+
+
+def render_for_completion(messages: list[Message]) -> list[int]:
+    conversation = Conversation.from_messages(messages)
+    token_ids = get_encoding().render_conversation_for_completion(
+        conversation, Role.ASSISTANT
+    )
+    return token_ids
+
+
+def get_stop_tokens_for_assistant_actions() -> list[int]:
+    return get_encoding().stop_tokens_for_assistant_actions()
+
+
+def get_streamable_parser_for_assistant() -> StreamableParser:
+    return StreamableParser(get_encoding(), role=Role.ASSISTANT)
+
+
+def parse_output_message(message: Message):
+    if message.author.role != "assistant":
+        # This is a message from a tool to the assistant (e.g., search result).
+        # Don't include it in the final output for now. This aligns with
+        # OpenAI's behavior on models like o4-mini.
+        return []
+
+    output_items = []
+    recipient = message.recipient
+    if recipient is not None and recipient.startswith("browser."):
+        if len(message.content) != 1:
+            raise ValueError("Invalid number of contents in browser message")
+        content = message.content[0]
+        browser_call = json.loads(content.text)
+        # TODO: translate to url properly!
+        if recipient == "browser.search":
+            action = ActionSearch(
+                query=f"cursor:{browser_call.get('query', '')}", type="search"
+            )
+        elif recipient == "browser.open":
+            action = ActionOpenPage(
+                url=f"cursor:{browser_call.get('url', '')}", type="open_page"
+            )
+        elif recipient == "browser.find":
+            action = ActionFind(
+                pattern=browser_call["pattern"],
+                url=f"cursor:{browser_call.get('url', '')}",
+                type="find",
+            )
+        else:
+            raise ValueError(f"Unknown browser action: {recipient}")
+        web_search_item = ResponseFunctionWebSearch(
+            id=f"ws_{random_uuid()}",
+            action=action,
+            status="completed",
+            type="web_search_call",
+        )
+        output_items.append(web_search_item)
+    elif message.channel == "analysis":
+        for content in message.content:
+            reasoning_item = ResponseReasoningItem(
+                id=f"rs_{random_uuid()}",
+                type="reasoning",
+                summary=[],
+                content=[
+                    ResponseReasoningTextContent(
+                        text=content.text, type="reasoning_text"
+                    )
+                ],
+                status=None,
+            )
+            output_items.append(reasoning_item)
+    elif message.channel == "commentary":
+        if message.recipient.startswith("functions."):
+            function_name = message.recipient.split(".")[-1]
+            for content in message.content:
+                random_id = random_uuid()
+                response_item = ResponseFunctionToolCall(
+                    arguments=content.text,
+                    call_id=f"call_{random_id}",
+                    type="function_call",
+                    name=function_name,
+                    id=f"ft_{random_id}",
+                )
+                output_items.append(response_item)
+        elif message.recipient.startswith("python") or message.recipient.startswith(
+            "browser"
+        ):
+            for content in message.content:
+                reasoning_item = ResponseReasoningItem(
+                    id=f"rs_{random_uuid()}",
+                    type="reasoning",
+                    summary=[],
+                    content=[
+                        ResponseReasoningTextContent(
+                            text=content.text, type="reasoning_text"
+                        )
+                    ],
+                    status=None,
+                )
+                output_items.append(reasoning_item)
+        else:
+            raise ValueError(f"Unknown recipient: {message.recipient}")
+    elif message.channel == "final":
+        contents = []
+        for content in message.content:
+            output_text = ResponseOutputText(
+                text=content.text,
+                annotations=[],  # TODO
+                type="output_text",
+                logprobs=None,  # TODO
+            )
+            contents.append(output_text)
+        text_item = ResponseOutputMessage(
+            id=f"msg_{random_uuid()}",
+            content=contents,
+            role=message.author.role,
+            status="completed",
+            type="message",
+        )
+        output_items.append(text_item)
+    else:
+        raise ValueError(f"Unknown channel: {message.channel}")
+    return output_items
+
+
+def parse_remaining_state(parser: StreamableParser):
+    if not parser.current_content:
+        return []
+    if parser.current_role != Role.ASSISTANT:
+        return []
+    current_recipient = parser.current_recipient
+    if current_recipient is not None and current_recipient.startswith("browser."):
+        return []
+
+    if parser.current_channel == "analysis":
+        reasoning_item = ResponseReasoningItem(
+            id=f"rs_{random_uuid()}",
+            type="reasoning",
+            summary=[],
+            content=[
+                ResponseReasoningTextContent(
+                    text=parser.current_content, type="reasoning_text"
+                )
+            ],
+            status=None,
+        )
+        return [reasoning_item]
+    elif parser.current_channel == "final":
+        output_text = ResponseOutputText(
+            content=[
+                ResponseReasoningTextContent(
+                    text=parser.current_content, type="reasoning_text"
+                )
+            ],
+            annotations=[],  # TODO
+            type="output_text",
+            logprobs=None,  # TODO
+        )
+        text_item = ResponseOutputMessage(
+            id=f"msg_{random_uuid()}",
+            content=[output_text],
+            role="assistant",
+            status="completed",
+            type="message",
+        )
+        return [text_item]
+    return []
+
+
+def parse_output_into_messages(token_ids: Iterable[int]):
+    parser = get_streamable_parser_for_assistant()
+    for token_id in token_ids:
+        parser.process(token_id)
+    return parser
diff --git a/python/sglang/srt/entrypoints/http_server.py b/python/sglang/srt/entrypoints/http_server.py
index 180d33820807..c4d36088f394 100644
--- a/python/sglang/srt/entrypoints/http_server.py
+++ b/python/sglang/srt/entrypoints/http_server.py
@@ -32,6 +32,7 @@
 setattr(threading, "_register_atexit", lambda *args, **kwargs: None)
 
 from contextlib import asynccontextmanager
+from typing import AsyncGenerator
 
 import numpy as np
 import orjson
@@ -56,6 +57,7 @@
     ErrorResponse,
     ModelCard,
     ModelList,
+    ResponsesRequest,
     ScoringRequest,
     V1RerankReqInput,
 )
@@ -147,6 +149,37 @@ async def lifespan(fast_api_app: FastAPI):
     )
 
     server_args: ServerArgs = fast_api_app.server_args
+
+    tool_server = None
+    if server_args.tool_server == "demo":
+        from sglang.srt.entrypoints.openai.tool_server import DemoToolServer
+
+        tool_server = DemoToolServer()
+    elif server_args.tool_server:
+        from sglang.srt.entrypoints.openai.tool_server import MCPToolServer
+
+        tool_server = MCPToolServer()
+        await tool_server.add_tool_server(server_args.tool_server)
+
+    try:
+        from sglang.srt.entrypoints.openai.serving_responses import (
+            OpenAIServingResponses,
+        )
+
+        fast_api_app.state.openai_serving_responses = OpenAIServingResponses(
+            _global_state.tokenizer_manager,
+            _global_state.template_manager,
+            enable_prompt_tokens_details=True,
+            enable_force_include_usage=True,
+            tool_server=tool_server,
+        )
+    except Exception as e:
+        # print stack trace
+        import traceback
+
+        traceback.print_exc()
+        logger.warning(f"Can not initialize OpenAIServingResponses, error: {e}")
+
     if server_args.warmups is not None:
         await execute_warmups(
             server_args.disaggregation_mode,
@@ -843,6 +876,42 @@ async def v1_score_request(request: ScoringRequest, raw_request: Request):
     )
 
 
+@app.post("/v1/responses", dependencies=[Depends(validate_json_request)])
+async def v1_responses_request(request: dict, raw_request: Request):
+    """Endpoint for the responses API with reasoning support."""
+
+    request_obj = ResponsesRequest(**request)
+    result = await raw_request.app.state.openai_serving_responses.create_responses(
+        request_obj, raw_request
+    )
+
+    # Handle streaming responses
+    if isinstance(result, AsyncGenerator):
+        return StreamingResponse(
+            result,
+            media_type="text/event-stream",
+            headers={"Cache-Control": "no-cache", "Connection": "keep-alive"},
+        )
+
+    return result
+
+
+@app.get("/v1/responses/{response_id}")
+async def v1_retrieve_responses(response_id: str, raw_request: Request):
+    """Retrieve a response by ID."""
+    return await raw_request.app.state.openai_serving_responses.retrieve_responses(
+        response_id
+    )
+
+
+@app.post("/v1/responses/{response_id}/cancel")
+async def v1_cancel_responses(response_id: str, raw_request: Request):
+    """Cancel a background response."""
+    return await raw_request.app.state.openai_serving_responses.cancel_responses(
+        response_id
+    )
+
+
 @app.api_route(
     "/v1/rerank", methods=["POST", "PUT"], dependencies=[Depends(validate_json_request)]
 )
diff --git a/python/sglang/srt/entrypoints/openai/protocol.py b/python/sglang/srt/entrypoints/openai/protocol.py
index f7596c975828..fb12eee1ca9a 100644
--- a/python/sglang/srt/entrypoints/openai/protocol.py
+++ b/python/sglang/srt/entrypoints/openai/protocol.py
@@ -14,9 +14,18 @@
 """Pydantic models for OpenAI API protocol"""
 
 import time
+import uuid
 from dataclasses import dataclass
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Dict, List, Optional, TypeAlias, Union
 
+from openai.types.responses import (
+    ResponseFunctionToolCall,
+    ResponseInputItemParam,
+    ResponseOutputItem,
+    ResponseReasoningItem,
+)
+from openai.types.responses.response import ToolChoice
+from openai.types.responses.tool import Tool
 from pydantic import (
     BaseModel,
     Field,
@@ -84,6 +93,7 @@ class UsageInfo(BaseModel):
     completion_tokens: Optional[int] = 0
     # only used to return cached tokens when --enable-cache-report is set
     prompt_tokens_details: Optional[Dict[str, int]] = None
+    reasoning_tokens: Optional[int] = 0
 
 
 class StreamOptions(BaseModel):
@@ -428,6 +438,13 @@ class ChatCompletionRequest(BaseModel):
         default="auto", examples=["none"]
     )  # noqa
     return_hidden_states: bool = False
+    reasoning_effort: Optional[Literal["low", "medium", "high"]] = Field(
+        default="medium",
+        description="Constrains effort on reasoning for reasoning models. "
+        "'low' is the least effort, 'high' is the most effort. Reducing reasoning effort can "
+        "result in faster responses and fewer tokens used on reasoning in a response. "
+        "Currently only supported for OpenAI models.",
+    )
 
     @model_validator(mode="before")
     @classmethod
@@ -619,6 +636,196 @@ class RerankResponse(BaseModel):
 ]
 
 
+# Response API protocol definitions
+class ResponseReasoningParam(BaseModel):
+    """Reasoning parameters for responses."""
+
+    effort: Optional[Literal["low", "medium", "high"]] = Field(
+        default="medium",
+        description="Constrains effort on reasoning for reasoning models.",
+    )
+
+
+class ResponseTool(BaseModel):
+    """Tool definition for responses."""
+
+    type: Literal["web_search_preview", "code_interpreter"] = Field(
+        description="Type of tool to enable"
+    )
+
+
+ResponseInputOutputItem: TypeAlias = Union[
+    ResponseInputItemParam,
+    "ResponseReasoningItem",
+    ResponseFunctionToolCall,
+]
+
+
+class ResponsesRequest(BaseModel):
+    """Request body for v1/responses endpoint."""
+
+    # Core OpenAI API fields (ordered by official documentation)
+    background: Optional[bool] = False
+    include: Optional[
+        List[
+            Literal[
+                "code_interpreter_call.outputs",
+                "computer_call_output.output.image_url",
+                "file_search_call.results",
+                "message.input_image.image_url",
+                "message.output_text.logprobs",
+                "reasoning.encrypted_content",
+            ]
+        ]
+    ] = None
+    input: Union[str, List[ResponseInputOutputItem]]
+    instructions: Optional[str] = None
+    max_output_tokens: Optional[int] = None
+    max_tool_calls: Optional[int] = None
+    metadata: Optional[Dict[str, Any]] = None
+    model: Optional[str] = None  # Made optional to match vLLM
+    parallel_tool_calls: Optional[bool] = True
+    previous_response_id: Optional[str] = None
+    reasoning: Optional[ResponseReasoningParam] = None
+    service_tier: Literal["auto", "default", "flex", "scale", "priority"] = "auto"
+    store: Optional[bool] = True
+    stream: Optional[bool] = False
+    temperature: Optional[float] = None
+    tool_choice: Literal["auto", "required", "none"] = "auto"
+    tools: List[ResponseTool] = Field(default_factory=list)
+    top_logprobs: Optional[int] = 0
+    top_p: Optional[float] = None
+    truncation: Optional[Literal["auto", "disabled"]] = "disabled"
+    user: Optional[str] = None
+
+    # Extra SGLang parameters
+    request_id: str = Field(
+        default_factory=lambda: f"resp_{uuid.uuid4().hex}",
+        description="The request_id related to this request. If the caller does not set it, a random uuid will be generated.",
+    )
+    priority: int = Field(default=0, description="Request priority")
+
+    # SGLang-specific sampling parameters
+    frequency_penalty: float = 0.0
+    presence_penalty: float = 0.0
+    stop: Optional[Union[str, List[str]]] = None
+    top_k: int = -1
+    min_p: float = 0.0
+    repetition_penalty: float = 1.0
+
+    # Default sampling parameters
+    _DEFAULT_SAMPLING_PARAMS = {
+        "temperature": 0.7,
+        "top_p": 1.0,
+        "top_k": -1,
+        "min_p": 0.0,
+        "repetition_penalty": 1.0,
+    }
+
+    def to_sampling_params(
+        self, default_max_tokens: int, default_params: Optional[Dict] = None
+    ) -> Dict[str, Any]:
+        """Convert to sampling parameters for generation."""
+        if default_params is None:
+            default_params = {}
+
+        # Use max_output_tokens if available, otherwise use max_tokens for backwards compatibility
+        if self.max_output_tokens is not None:
+            max_tokens = min(self.max_output_tokens, default_max_tokens)
+        else:
+            max_tokens = default_max_tokens
+
+        # Avoid exceed the context length by minus 1 token
+        max_tokens -= 1
+
+        # Get parameters with defaults
+        temperature = self.temperature
+        if temperature is None:
+            temperature = default_params.get(
+                "temperature", self._DEFAULT_SAMPLING_PARAMS["temperature"]
+            )
+
+        top_p = self.top_p
+        if top_p is None:
+            top_p = default_params.get("top_p", self._DEFAULT_SAMPLING_PARAMS["top_p"])
+
+        params = {
+            "max_new_tokens": max_tokens,
+            "temperature": temperature,
+            "top_p": top_p,
+            "frequency_penalty": self.frequency_penalty,
+            "presence_penalty": self.presence_penalty,
+            "stop": self.stop,
+            "top_k": self.top_k,
+            "min_p": self.min_p,
+            "repetition_penalty": self.repetition_penalty,
+        }
+
+        # Apply any additional default parameters
+        for key, value in default_params.items():
+            if key not in params or params[key] is None:
+                params[key] = value
+
+        return params
+
+
+class PromptTokenUsageInfo(BaseModel):
+    """Prompt token usage details."""
+
+    cached_tokens: int = 0
+
+
+class ResponsesResponse(BaseModel):
+    """Response body for v1/responses endpoint."""
+
+    id: str = Field(default_factory=lambda: f"resp_{time.time()}")
+    object: Literal["response"] = "response"
+    created_at: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+
+    output: List[
+        Union[ResponseOutputItem, ResponseReasoningItem, ResponseFunctionToolCall]
+    ] = Field(default_factory=list)
+    status: Literal["queued", "in_progress", "completed", "failed", "cancelled"]
+    usage: Optional[UsageInfo] = None
+    parallel_tool_calls: bool = True
+    tool_choice: str = "auto"
+    tools: List[ResponseTool] = Field(default_factory=list)
+
+    @classmethod
+    def from_request(
+        cls,
+        request: ResponsesRequest,
+        sampling_params: Any,
+        model_name: str,
+        created_time: int,
+        output: List[
+            Union[ResponseOutputItem, ResponseReasoningItem, ResponseFunctionToolCall]
+        ],
+        status: str,
+        usage: Optional[UsageInfo],
+    ) -> "ResponsesResponse":
+        """Create a response from a request."""
+        return cls(
+            id=request.request_id,
+            created_at=created_time,
+            model=model_name,
+            output=output,
+            status=status,
+            usage=usage,
+            parallel_tool_calls=request.parallel_tool_calls or True,
+            tool_choice=request.tool_choice,
+            tools=request.tools,
+        )
+
+
+class RequestResponseMetadata(BaseModel):
+    """Metadata for request/response tracking."""
+
+    request_id: str
+    final_usage_info: Optional[UsageInfo] = None
+
+
 @dataclass
 class MessageProcessingResult:
     """Result of processing chat messages and applying templates.
@@ -645,3 +852,22 @@ class MessageProcessingResult:
     modalities: List[str]
     stop: List[str]
     tool_call_constraint: Optional[Any] = None
+
+
+class ResponseReasoningTextContent(BaseModel):
+    text: str
+    type: Literal["reasoning_text"] = "reasoning_text"
+
+
+class ResponseReasoningItem(BaseModel):
+    id: str
+    content: list[ResponseReasoningTextContent] = Field(default_factory=list)
+    summary: list = Field(default_factory=list)
+    type: Literal["reasoning"] = "reasoning"
+    encrypted_content: Optional[str] = None
+    status: Optional[Literal["in_progress", "completed", "incomplete"]]
+
+
+ResponseInputOutputItem: TypeAlias = Union[
+    ResponseInputItemParam, "ResponseReasoningItem", ResponseFunctionToolCall
+]
diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index a7beccf93057..c8918ed4c062 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -7,8 +7,18 @@
 
 from fastapi import Request
 from fastapi.responses import ORJSONResponse, StreamingResponse
+from openai_harmony import Message as OpenAIMessage
 
 from sglang.srt.conversation import generate_chat_conv
+from sglang.srt.entrypoints.harmony_utils import (
+    get_developer_message,
+    get_stop_tokens_for_assistant_actions,
+    get_streamable_parser_for_assistant,
+    get_system_message,
+    parse_chat_input,
+    parse_output_into_messages,
+    render_for_completion,
+)
 from sglang.srt.entrypoints.openai.protocol import (
     ChatCompletionRequest,
     ChatCompletionResponse,
@@ -51,6 +61,26 @@ def __init__(
     ):
         super().__init__(tokenizer_manager)
         self.template_manager = template_manager
+        self.use_harmony = (
+            self.tokenizer_manager.model_config.hf_config.model_type == "gpt_oss"
+        )
+
+        if self.use_harmony:
+            from sglang.srt.function_call.harmony_tool_parser import (
+                HarmonyToolCallParser,
+            )
+
+            self.harmony_tool_parser = HarmonyToolCallParser()
+
+        # NOTE While OpenAI's chat completion API supports browsing
+        # for some models, currently vLLM doesn't support it. Please use the
+        # Responses API instead.
+        self.supports_browsing = False
+        self.browser_tool = None
+        # NOTE: Chat completion API does not support code interpreter.
+        # Please use the Responses API instead.
+        self.supports_code_interpreter = False
+        self.python_tool = None
 
     def _request_id_prefix(self) -> str:
         return "chatcmpl-"
@@ -77,41 +107,66 @@ def _convert_to_internal_request(
         is_multimodal = self.tokenizer_manager.model_config.is_multimodal
 
         # Process messages and apply chat template
-        processed_messages = self._process_messages(request, is_multimodal)
-
-        # Build sampling parameters
-        sampling_params = self._build_sampling_params(
-            request, processed_messages.stop, processed_messages.tool_call_constraint
-        )
+        if not self.use_harmony:
+            processed_messages = self._process_messages(request, is_multimodal)
+
+            # Build sampling parameters
+            sampling_params = self._build_sampling_params(
+                request,
+                processed_messages.stop,
+                processed_messages.tool_call_constraint,
+            )
 
-        # Handle single vs multiple requests
-        if is_multimodal:
-            prompt_kwargs = {"text": processed_messages.prompt}
-        else:
-            if isinstance(processed_messages.prompt_ids, str):
-                prompt_kwargs = {"text": processed_messages.prompt_ids}
+            # Handle single vs multiple requests
+            if is_multimodal:
+                prompt_kwargs = {"text": processed_messages.prompt}
             else:
-                prompt_kwargs = {"input_ids": processed_messages.prompt_ids}
-
-        adapted_request = GenerateReqInput(
-            **prompt_kwargs,
-            image_data=processed_messages.image_data,
-            video_data=processed_messages.video_data,
-            audio_data=processed_messages.audio_data,
-            sampling_params=sampling_params,
-            return_logprob=request.logprobs,
-            logprob_start_len=-1,
-            top_logprobs_num=request.top_logprobs or 0,
-            stream=request.stream,
-            return_text_in_logprobs=True,
-            modalities=processed_messages.modalities,
-            lora_path=request.lora_path,
-            bootstrap_host=request.bootstrap_host,
-            bootstrap_port=request.bootstrap_port,
-            bootstrap_room=request.bootstrap_room,
-            return_hidden_states=request.return_hidden_states,
-            rid=request.rid,
-        )
+                if isinstance(processed_messages.prompt_ids, str):
+                    prompt_kwargs = {"text": processed_messages.prompt_ids}
+                else:
+                    prompt_kwargs = {"input_ids": processed_messages.prompt_ids}
+
+            adapted_request = GenerateReqInput(
+                **prompt_kwargs,
+                image_data=processed_messages.image_data,
+                video_data=processed_messages.video_data,
+                audio_data=processed_messages.audio_data,
+                sampling_params=sampling_params,
+                return_logprob=request.logprobs,
+                logprob_start_len=-1,
+                top_logprobs_num=request.top_logprobs or 0,
+                stream=request.stream,
+                return_text_in_logprobs=True,
+                modalities=processed_messages.modalities,
+                lora_path=request.lora_path,
+                bootstrap_host=request.bootstrap_host,
+                bootstrap_port=request.bootstrap_port,
+                bootstrap_room=request.bootstrap_room,
+                return_hidden_states=request.return_hidden_states,
+                rid=request.rid,
+            )
+        else:
+            processed_messages, prompt_ids = self._make_request_with_harmony(request)
+
+            adapted_request = GenerateReqInput(
+                input_ids=prompt_ids,
+                sampling_params=self._build_sampling_params(
+                    request,
+                    request.stop,
+                    tool_call_constraint=None,
+                ),
+                stream=request.stream,
+                return_logprob=request.logprobs,
+                logprob_start_len=-1,
+                top_logprobs_num=request.top_logprobs or 0,
+                return_text_in_logprobs=True,
+                lora_path=request.lora_path,
+                bootstrap_host=request.bootstrap_host,
+                bootstrap_port=request.bootstrap_port,
+                bootstrap_room=request.bootstrap_room,
+                return_hidden_states=request.return_hidden_states,
+                rid=request.rid,
+            )
 
         return adapted_request, request
 
@@ -402,6 +457,12 @@ async def _generate_chat_stream(
         cached_tokens = {}
         hidden_states = {}
 
+        # Harmony tracking
+        if self.use_harmony:
+            harmony_parsers = [
+                get_streamable_parser_for_assistant() for _ in range(request.n)
+            ]
+
         try:
             async for content in self.tokenizer_manager.generate_request(
                 adapted_request, raw_request
@@ -449,14 +510,57 @@ async def _generate_chat_stream(
                     yield f"data: {chunk.model_dump_json()}\n\n"
 
                 # Process content delta
-                stream_buffer = stream_buffers.get(index, "")
-                delta = content["text"][len(stream_buffer) :]
-                stream_buffers[index] = stream_buffer + delta
+                if self.use_harmony:
+                    harmony_parser = harmony_parsers[index]
+
+                    new_token_ids = content["output_ids"]
+                    for token_id in new_token_ids:
+                        harmony_parser.process(token_id)
+
+                    is_final = harmony_parser.current_channel == "final"
+                    is_analysis = harmony_parser.current_channel == "analysis"
+                    delta = harmony_parser.last_content_delta or ""
+
+                    if is_analysis:
+                        choice_data = ChatCompletionResponseStreamChoice(
+                            index=index,
+                            delta=DeltaMessage(reasoning_content=delta),
+                            finish_reason=None,
+                        )
+                        chunk = ChatCompletionStreamResponse(
+                            id=content["meta_info"]["id"],
+                            created=int(time.time()),
+                            choices=[choice_data],
+                            model=request.model,
+                        )
+                        yield f"data: {chunk.model_dump_json()}\n\n"
+                        continue
+
+                    choice_data = ChatCompletionResponseStreamChoice(
+                        index=index,
+                        delta=DeltaMessage(content=delta if delta else None),
+                        finish_reason=None,
+                        matched_stop=None,
+                        logprobs=choice_logprobs,
+                    )
+                    chunk = ChatCompletionStreamResponse(
+                        id=content["meta_info"]["id"],
+                        created=int(time.time()),
+                        choices=[choice_data],
+                        model=request.model,
+                    )
+                    yield f"data: {chunk.model_dump_json()}\n\n"
+                    continue
+                else:
+                    stream_buffer = stream_buffers.get(index, "")
+                    delta = content["text"][len(stream_buffer) :]
+                    stream_buffers[index] = stream_buffer + delta
 
                 # Handle reasoning content
                 if (
                     self.tokenizer_manager.server_args.reasoning_parser
                     and request.separate_reasoning
+                    and not self.use_harmony
                 ):
                     reasoning_text, delta = self._process_reasoning_stream(
                         index, delta, reasoning_parser_dict, content, request
@@ -475,8 +579,27 @@ async def _generate_chat_stream(
                         )
                         yield f"data: {chunk.model_dump_json()}\n\n"
 
+                if self.use_harmony and not is_final:
+                    choice_data = ChatCompletionResponseStreamChoice(
+                        index=index,
+                        delta=DeltaMessage(reasoning_content=delta),
+                        finish_reason=None,
+                    )
+                    chunk = ChatCompletionStreamResponse(
+                        id=content["meta_info"]["id"],
+                        created=int(time.time()),
+                        choices=[choice_data],
+                        model=request.model,
+                    )
+                    yield f"data: {chunk.model_dump_json()}\n\n"
+
                 # Handle tool calls
-                if request.tool_choice != "none" and request.tools:
+                # TODO: support tool call parsing for harmony
+                if (
+                    request.tool_choice != "none"
+                    and request.tools
+                    and not self.use_harmony
+                ):
                     async for chunk in self._process_tool_call_stream(
                         index,
                         delta,
@@ -502,7 +625,7 @@ async def _generate_chat_stream(
                     if delta:
                         choice_data = ChatCompletionResponseStreamChoice(
                             index=index,
-                            delta=DeltaMessage(content=delta if delta else None),
+                            delta=DeltaMessage(content=delta),
                             finish_reason=None,
                             matched_stop=None,
                             logprobs=choice_logprobs,
@@ -640,6 +763,76 @@ def _build_chat_response(
 
             finish_reason = ret_item["meta_info"]["finish_reason"]
             text = ret_item["text"]
+            output_ids = ret_item["output_ids"]
+
+            if self.use_harmony:
+                parser = parse_output_into_messages(output_ids)
+                output_msgs = parser.messages
+                if len(output_msgs) == 0:
+                    # The generation has stopped during reasoning.
+                    is_tool_call = False
+                    reasoning_content = parser.current_content
+                    final_content = None
+                elif len(output_msgs) == 1:
+                    # The generation has stopped during final message.
+                    is_tool_call = False
+                    reasoning_content = output_msgs[0].content[0].text
+                    final_content = parser.current_content
+                else:
+                    if len(output_msgs) != 2:
+                        raise ValueError(
+                            "Expected 2 output messages (reasoning and final), "
+                            f"but got {len(output_msgs)}."
+                        )
+                    reasoning_msg, final_msg = output_msgs
+                    reasoning_content = reasoning_msg.content[0].text
+                    final_content = final_msg.content[0].text
+                    is_tool_call = final_msg.recipient is not None
+
+                if is_tool_call:
+                    # Extract tool call information from final message
+                    tool_call = (
+                        self.harmony_tool_parser.extract_tool_calls_from_message(
+                            final_msg
+                        )
+                    )
+                    tool_calls = [tool_call] if tool_call else []
+
+                    message = ChatMessage(
+                        role="assistant",
+                        reasoning_content=reasoning_content,
+                        content=None,  # Tool calls don't have regular content
+                        tool_calls=tool_calls,
+                    )
+                else:
+                    # Normal message
+                    message = ChatMessage(
+                        role="assistant",
+                        reasoning_content=reasoning_content,
+                        content=final_content,
+                    )
+
+                if is_tool_call:
+                    finish_reason_type = "tool_calls"
+                elif finish_reason:
+                    finish_reason_type = (
+                        finish_reason["type"] if finish_reason else "stop"
+                    )
+                else:
+                    finish_reason_type = "stop"
+                choice_data = ChatCompletionResponseChoice(
+                    index=idx,
+                    message=message,
+                    logprobs=choice_logprobs,
+                    finish_reason=finish_reason_type,
+                    matched_stop=(
+                        finish_reason["matched"]
+                        if finish_reason and "matched" in finish_reason
+                        else None
+                    ),
+                )
+                choices.append(choice_data)
+                continue
 
             # Handle reasoning content
             reasoning_text = None
@@ -978,3 +1171,33 @@ def _check_for_unstreamed_tool_args(
             return f"data: {chunk.model_dump_json()}\n\n"
 
         return None
+
+    def _make_request_with_harmony(
+        self,
+        request: ChatCompletionRequest,
+    ):
+        messages: list[OpenAIMessage] = []
+
+        # Add system message.
+        # In Chat Completion API, browsing is enabled by default if the model
+        # supports it.
+        assert not self.supports_browsing
+        assert not self.supports_code_interpreter
+        sys_msg = get_system_message(
+            reasoning_effort=request.reasoning_effort,
+            browser_description=None,
+            python_description=None,
+        )
+        messages.append(sys_msg)
+
+        # Add developer message.
+        dev_msg = get_developer_message()
+        messages.append(dev_msg)
+
+        # Add user message.
+        for chat_msg in request.messages:
+            messages.append(parse_chat_input(chat_msg))
+
+        # Render prompt token ids.
+        prompt_token_ids = render_for_completion(messages)
+        return messages, prompt_token_ids
diff --git a/python/sglang/srt/entrypoints/openai/serving_responses.py b/python/sglang/srt/entrypoints/openai/serving_responses.py
new file mode 100644
index 000000000000..a9efe4f3b089
--- /dev/null
+++ b/python/sglang/srt/entrypoints/openai/serving_responses.py
@@ -0,0 +1,1273 @@
+# SPDX-License-Identifier: Apache-2.0
+# Adapted from vLLM's OpenAIServingResponses
+"""Handler for /v1/responses requests"""
+
+import asyncio
+import copy
+import json
+import logging
+import time
+from contextlib import AsyncExitStack
+from http import HTTPStatus
+from typing import Any, AsyncGenerator, AsyncIterator, Optional, Union
+
+import jinja2
+import openai.types.responses as openai_responses_types
+from fastapi import Request
+from fastapi.responses import ORJSONResponse
+from openai.types.responses import (
+    ResponseOutputMessage,
+    ResponseOutputText,
+    ResponseReasoningItem,
+)
+from openai.types.responses.response_function_tool_call import ResponseFunctionToolCall
+from openai.types.responses.response_reasoning_item import (
+    Content as ResponseReasoningTextContent,
+)
+from openai_harmony import Message as OpenAIMessage
+
+from sglang.srt.entrypoints.context import (
+    ConversationContext,
+    HarmonyContext,
+    SimpleContext,
+    StreamingHarmonyContext,
+)
+from sglang.srt.entrypoints.harmony_utils import (
+    get_developer_message,
+    get_stop_tokens_for_assistant_actions,
+    get_system_message,
+    get_user_message,
+    parse_output_message,
+    parse_remaining_state,
+    parse_response_input,
+    render_for_completion,
+)
+from sglang.srt.entrypoints.openai.protocol import (
+    ChatCompletionMessageParam,
+    ChatCompletionRequest,
+    PromptTokenUsageInfo,
+    RequestResponseMetadata,
+    ResponsesRequest,
+    ResponsesResponse,
+    UsageInfo,
+)
+from sglang.srt.entrypoints.openai.serving_chat import OpenAIServingChat
+from sglang.srt.entrypoints.openai.tool_server import MCPToolServer, ToolServer
+from sglang.srt.managers.io_struct import GenerateReqInput
+from sglang.srt.managers.template_manager import TemplateManager
+from sglang.srt.managers.tokenizer_manager import TokenizerManager
+from sglang.srt.reasoning_parser import ReasoningParser
+from sglang.srt.utils import random_uuid
+
+logger = logging.getLogger(__name__)
+
+
+class OpenAIServingResponses(OpenAIServingChat):
+    """Handler for /v1/responses requests"""
+
+    def __init__(
+        self,
+        tokenizer_manager: TokenizerManager,
+        template_manager: TemplateManager,
+        *,
+        enable_prompt_tokens_details: bool = False,
+        enable_force_include_usage: bool = False,
+        tool_server: Optional[ToolServer] = None,
+    ) -> None:
+        super().__init__(tokenizer_manager, template_manager)
+
+        # template_manager is already set by parent class
+        self.reasoning_parser = self.tokenizer_manager.server_args.reasoning_parser
+        self.enable_prompt_tokens_details = enable_prompt_tokens_details
+        self.enable_force_include_usage = enable_force_include_usage
+
+        # Get default sampling params from model config if available
+        self.default_sampling_params = {}
+
+        self.supports_browsing = (
+            tool_server.has_tool("browser") if tool_server else False
+        )
+        self.supports_code_interpreter = (
+            tool_server.has_tool("python") if tool_server else False
+        )
+        self.tool_server = tool_server
+        # Get from model config
+        self.use_harmony = (
+            self.tokenizer_manager.model_config.hf_config.model_type == "gpt_oss"
+        )
+
+        if self.use_harmony:
+            # OpenAI models have two EOS-like tokens: <|return|> and <|call|>.
+            # We need to add them to the stop token ids.
+            if "stop_token_ids" not in self.default_sampling_params:
+                self.default_sampling_params["stop_token_ids"] = []
+            self.default_sampling_params["stop_token_ids"].extend(
+                get_stop_tokens_for_assistant_actions()
+            )
+
+        # Response storage for background and retrieval operations
+        # Note: In production, this should use a proper storage backend (Redis, database)
+        # with TTL/expiration to prevent memory leaks
+        self.response_store: dict[str, ResponsesResponse] = {}
+        self.response_store_lock = asyncio.Lock()
+
+        # Message storage for conversation continuity
+        # Note: In production, this should use a proper storage backend (Redis, database)
+        # with TTL/expiration to prevent memory leaks
+        self.msg_store: dict[
+            str, Union[list[ChatCompletionMessageParam], list["OpenAIMessage"]]
+        ] = {}
+
+        self.background_tasks: dict[str, asyncio.Task] = {}
+
+    def _request_id_prefix(self) -> str:
+        return "resp_"
+
+    async def create_responses(
+        self,
+        request: ResponsesRequest,
+        raw_request: Optional[Request] = None,
+    ) -> Union[AsyncGenerator[str, None], ResponsesResponse, ORJSONResponse]:
+        # Validate model
+        if not self.tokenizer_manager:
+            return self.create_error_response("Model not loaded")
+
+        # FIXME: If the engine is dead, raise an error
+        # This is required for the streaming case
+
+        # Handle the previous response ID
+        prev_response_id = request.previous_response_id
+        if prev_response_id is not None:
+            if not prev_response_id.startswith("resp_"):
+                return self._make_invalid_id_error(prev_response_id)
+            async with self.response_store_lock:
+                prev_response = self.response_store.get(prev_response_id)
+            if prev_response is None:
+                return self._make_not_found_error(prev_response_id)
+        else:
+            prev_response = None
+
+        try:
+            model_name = request.model
+            tokenizer = self.tokenizer_manager.tokenizer
+
+            if self.use_harmony:
+                messages, request_prompts, engine_prompts = (
+                    self._make_request_with_harmony(request, prev_response)
+                )
+            else:
+                messages, request_prompts, engine_prompts = await self._make_request(
+                    request, prev_response, tokenizer
+                )
+
+        except (ValueError, TypeError, RuntimeError, jinja2.TemplateError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(f"{e} {e.__cause__}")
+
+        request_metadata = RequestResponseMetadata(request_id=request.request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        if (
+            self.tool_server is not None
+            and isinstance(self.tool_server, MCPToolServer)
+            and (request.background or request.stream)
+            and request.tools
+            and any(
+                tool.type in ["web_search_preview", "code_interpreter"]
+                for tool in request.tools
+            )
+        ):
+            return self.create_error_response(
+                "MCP tool server is not supported in background mode and "
+                "streaming mode"
+            )
+
+        # Schedule the request and get the result generator
+        generators: list[AsyncGenerator[Any, None]] = []
+        tool_list = []
+        if self.use_harmony:
+            if self.supports_browsing:
+                tool_list.append("browser")
+            if self.supports_code_interpreter:
+                tool_list.append("python")
+        async with AsyncExitStack() as exit_stack:
+            try:
+                if self.tool_server is not None:
+                    tool_session_ctxs: dict[str, Any] = {
+                        tool_name: exit_stack.enter_async_context(
+                            self.tool_server.get_tool_session(tool_name)
+                        )
+                        for tool_name in tool_list
+                    }
+                    tool_sessions = {}
+                    for tool_name in tool_list:
+                        tool_sessions[tool_name] = await tool_session_ctxs[tool_name]
+                else:
+                    assert len(tool_list) == 0
+                    tool_sessions = {}
+                for i, engine_prompt in enumerate(engine_prompts):
+                    # Calculate default max tokens from context length minus prompt length
+                    if hasattr(engine_prompt, "__len__"):
+                        prompt_length = len(engine_prompt)
+                    elif isinstance(engine_prompt, list):
+                        prompt_length = len(engine_prompt)
+                    else:
+                        prompt_length = 0
+
+                    context_len = (
+                        self.tokenizer_manager.model_config.context_len
+                        if hasattr(self.tokenizer_manager.model_config, "context_len")
+                        else 4096
+                    )
+                    default_max_tokens = max(
+                        context_len - prompt_length, 512
+                    )  # Ensure minimum 512 tokens
+                    sampling_params = request.to_sampling_params(
+                        default_max_tokens, self.default_sampling_params
+                    )
+
+                    context: ConversationContext
+                    if self.use_harmony:
+                        if request.stream:
+                            context = StreamingHarmonyContext(messages, tool_sessions)
+                        else:
+                            context = HarmonyContext(messages, tool_sessions)
+                    else:
+                        context = SimpleContext()
+
+                    # Create GenerateReqInput for SGLang
+                    adapted_request = GenerateReqInput(
+                        input_ids=engine_prompt,
+                        sampling_params=sampling_params,
+                        stream=request.stream,
+                        rid=request.request_id,
+                        background=request.background,
+                    )
+
+                    generator = self._generate_with_builtin_tools(
+                        request.request_id,
+                        request_prompts[i],
+                        adapted_request,
+                        sampling_params,
+                        context,
+                        raw_request=raw_request,
+                        priority=request.priority,
+                    )
+                    generators.append(generator)
+            except ValueError as e:
+                return self.create_error_response(str(e))
+
+            assert len(generators) == 1
+            (result_generator,) = generators
+
+            # Store the input messages
+            if request.store:
+                self.msg_store[request.request_id] = messages
+
+            if request.background:
+                created_time = int(time.time())
+                response = ResponsesResponse.from_request(
+                    request,
+                    sampling_params,
+                    model_name=model_name,
+                    created_time=created_time,
+                    output=[],
+                    status="queued",
+                    usage=None,
+                )
+                async with self.response_store_lock:
+                    self.response_store[response.id] = response
+
+                # Run the request in the background
+                task = asyncio.create_task(
+                    self._run_background_request(
+                        request,
+                        sampling_params,
+                        result_generator,
+                        context,
+                        model_name,
+                        tokenizer,
+                        request_metadata,
+                        created_time,
+                    ),
+                    name=f"create_{response.id}",
+                )
+
+                # For cleanup
+                self.background_tasks[response.id] = task
+                task.add_done_callback(
+                    lambda _: self.background_tasks.pop(response.id, None)
+                )
+                return response
+
+            if request.stream:
+                return self.responses_stream_generator(
+                    request,
+                    sampling_params,
+                    result_generator,
+                    context,
+                    model_name,
+                    tokenizer,
+                    request_metadata,
+                )
+            try:
+                result: Union[ORJSONResponse, ResponsesResponse] = (
+                    await self.responses_full_generator(
+                        request,
+                        sampling_params,
+                        result_generator,
+                        context,
+                        model_name,
+                        tokenizer,
+                        request_metadata,
+                    )
+                )
+                return result
+            except Exception as e:
+                return self.create_error_response(str(e))
+        return self.create_error_response("Unknown error")
+
+    async def _make_request(
+        self,
+        request: ResponsesRequest,
+        prev_response: Optional[ResponsesResponse],
+        tokenizer: Any,
+    ):
+        # Construct the input messages
+        messages = self._construct_input_messages(request, prev_response)
+
+        # Follow SGLang's pattern: create a ChatCompletionRequest and process messages
+        try:
+            # Convert ResponsesRequest to ChatCompletionRequest for processing
+            chat_request = ChatCompletionRequest(
+                model=request.model,
+                messages=messages,
+                stream=request.stream,
+            )
+
+            # Follow SGLang's _process_messages pattern
+            is_multimodal = self.tokenizer_manager.model_config.is_multimodal
+            processed_messages = self._process_messages(chat_request, is_multimodal)
+
+            # Extract the results
+            if is_multimodal:
+                request_prompts = [processed_messages.prompt]
+                engine_prompts = [processed_messages.prompt]
+            else:
+                request_prompts = [processed_messages.prompt_ids]
+                engine_prompts = [processed_messages.prompt_ids]
+
+        except Exception as e:
+            logger.warning(f"Chat processing failed, using fallback: {e}")
+            # Fallback to simple encoding
+            prompt_text = ""
+            for msg in messages:
+                role = msg.get("role", "user")
+                content = msg.get("content", "")
+                prompt_text += f"{role}: {content}\n"
+            prompt_ids = tokenizer.encode(prompt_text)
+            request_prompts = [prompt_ids]
+            engine_prompts = [prompt_ids]
+
+        return messages, request_prompts, engine_prompts
+
+    def _make_request_with_harmony(
+        self,
+        request: ResponsesRequest,
+        prev_response: Optional[ResponsesResponse],
+    ):
+        if request.tool_choice != "auto":
+            raise NotImplementedError(
+                "Only 'auto' tool_choice is supported in " "response API"
+            )
+        messages = self._construct_input_messages_with_harmony(request, prev_response)
+        prompt_token_ids = render_for_completion(messages)
+        engine_prompt = prompt_token_ids
+        return messages, [prompt_token_ids], [engine_prompt]
+
+    async def responses_full_generator(
+        self,
+        request: ResponsesRequest,
+        sampling_params: Any,
+        result_generator: AsyncIterator[Any],
+        context: ConversationContext,
+        model_name: str,
+        tokenizer: Any,
+        request_metadata: RequestResponseMetadata,
+        created_time: Optional[int] = None,
+    ) -> Union[ResponsesResponse, ORJSONResponse]:
+        if created_time is None:
+            created_time = int(time.time())
+
+        try:
+            async for _ in result_generator:
+                pass
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        if self.use_harmony:
+            assert isinstance(context, HarmonyContext)
+            output = self._make_response_output_items_with_harmony(context)
+            # TODO: these are all 0 for now!
+            num_prompt_tokens = context.num_prompt_tokens
+            num_generated_tokens = context.num_output_tokens
+            num_cached_tokens = context.num_cached_tokens
+            num_reasoning_tokens = context.num_reasoning_tokens
+        else:
+            assert isinstance(context, SimpleContext)
+            final_res = context.last_output
+            assert final_res is not None
+
+            output = self._make_response_output_items(
+                request, final_res["text"], tokenizer
+            )
+
+            # Calculate usage from actual output
+            if hasattr(final_res, "meta_info"):
+                num_prompt_tokens = final_res.meta_info.get("prompt_tokens", 0)
+                num_generated_tokens = final_res.meta_info.get("completion_tokens", 0)
+                num_cached_tokens = final_res.meta_info.get("cached_tokens", 0)
+            elif hasattr(final_res, "prompt_token_ids") and hasattr(
+                final_res, "outputs"
+            ):
+                # Fallback calculation if meta_info not available
+                num_prompt_tokens = (
+                    len(final_res.prompt_token_ids) if final_res.prompt_token_ids else 0
+                )
+                num_generated_tokens = (
+                    len(final_res.outputs[0].token_ids)
+                    if final_res.outputs and final_res.outputs[0].token_ids
+                    else 0
+                )
+                num_cached_tokens = getattr(final_res, "num_cached_tokens", 0)
+                num_reasoning_tokens = 0
+            else:
+                # Final fallback
+                num_prompt_tokens = 0
+                num_generated_tokens = 0
+                num_cached_tokens = 0
+                num_reasoning_tokens = 0
+
+        usage = UsageInfo(
+            prompt_tokens=num_prompt_tokens,
+            completion_tokens=num_generated_tokens,
+            total_tokens=num_prompt_tokens + num_generated_tokens,
+            reasoning_tokens=num_reasoning_tokens,
+        )
+        if self.enable_prompt_tokens_details and num_cached_tokens:
+            usage.prompt_tokens_details = PromptTokenUsageInfo(
+                cached_tokens=num_cached_tokens
+            )
+        request_metadata.final_usage_info = usage
+
+        response = ResponsesResponse.from_request(
+            request,
+            sampling_params,
+            model_name=model_name,
+            created_time=created_time,
+            output=output,
+            status="completed",
+            usage=usage,
+        )
+
+        if request.store:
+            async with self.response_store_lock:
+                stored_response = self.response_store.get(response.id)
+                # If the response is already cancelled, don't update it
+                if stored_response is None or stored_response.status != "cancelled":
+                    self.response_store[response.id] = response
+
+        return response
+
+    def _make_response_output_items(
+        self,
+        request: ResponsesRequest,
+        final_output: Any,
+        tokenizer: Any,
+    ):
+        # Handle reasoning parsing if enabled
+        if self.reasoning_parser:
+            # Use standard reasoning parser (openai maps to T4Detector internally)
+            reasoning_parser = ReasoningParser(
+                model_type=self.reasoning_parser, stream_reasoning=False
+            )
+            reasoning_content, content = reasoning_parser.parse_non_stream(final_output)
+        else:
+            reasoning_content = None
+            content = final_output
+
+        output_items = []
+        if reasoning_content:
+            reasoning_item = ResponseReasoningItem(
+                id=f"rs_{random_uuid()}",
+                type="reasoning",
+                summary=[],
+                content=[
+                    ResponseReasoningTextContent(
+                        type="reasoning_text", text=reasoning_content
+                    ),
+                ],
+                status=None,
+            )
+            output_items.append(reasoning_item)
+        if content:
+            output_text = ResponseOutputText(
+                text=content,
+                annotations=[],  # TODO
+                type="output_text",
+                logprobs=None,  # TODO
+            )
+            message = ResponseOutputMessage(
+                id=f"msg_{random_uuid()}",
+                content=[output_text],
+                role="assistant",
+                status="completed",
+                type="message",
+            )
+            output_items.append(message)
+        return output_items
+
+    def _make_response_output_items_with_harmony(
+        self,
+        context: HarmonyContext,
+    ):
+        output_items = []
+        num_init_messages = context.num_init_messages
+        for msg in context.messages[num_init_messages:]:
+            output_items.extend(parse_output_message(msg))
+        # Handle the generation stopped in the middle (if any).
+        last_items = parse_remaining_state(context.parser)
+        if last_items:
+            output_items.extend(last_items)
+        return output_items
+
+    def _construct_input_messages(
+        self,
+        request: ResponsesRequest,
+        prev_response: Optional[ResponsesResponse] = None,
+    ) -> list[ChatCompletionMessageParam]:
+        messages: list[ChatCompletionMessageParam] = []
+        if request.instructions:
+            messages.append(
+                {
+                    "role": "system",
+                    "content": request.instructions,
+                }
+            )
+
+        # Prepend the conversation history
+        if prev_response is not None:
+            # Add the previous messages
+            prev_msg = self.msg_store[prev_response.id]
+            messages.extend(prev_msg)
+
+            # Add the previous output
+            for output_item in prev_response.output:
+                # NOTE: We skip the reasoning output of the previous response
+                if isinstance(output_item, ResponseReasoningItem):
+                    continue
+                for content in output_item.content:
+                    messages.append(
+                        {
+                            "role": "system",
+                            "content": request.instructions,
+                        }
+                    )
+
+        # Append the new input
+        # Responses API supports simple text inputs without chat format
+        if isinstance(request.input, str):
+            messages.append({"role": "user", "content": request.input})
+        else:
+            messages.extend(request.input)  # type: ignore
+        return messages
+
+    def _construct_input_messages_with_harmony(
+        self,
+        request: ResponsesRequest,
+        prev_response: Optional[ResponsesResponse],
+    ) -> list["OpenAIMessage"]:
+        messages: list["OpenAIMessage"] = []
+        if prev_response is None:
+            # New conversation.
+            reasoning_effort = request.reasoning.effort if request.reasoning else None
+            tool_types = [tool.type for tool in request.tools]
+            enable_browser = (
+                "web_search_preview" in tool_types and self.tool_server is not None
+            )
+            enable_code_interpreter = (
+                "code_interpreter" in tool_types and self.tool_server is not None
+            )
+            sys_msg = get_system_message(
+                reasoning_effort=reasoning_effort,
+                browser_description=(
+                    self.tool_server.get_tool_description("browser")
+                    if self.tool_server and enable_browser
+                    else None
+                ),
+                python_description=(
+                    self.tool_server.get_tool_description("python")
+                    if self.tool_server and enable_code_interpreter
+                    else None
+                ),
+            )
+            messages.append(sys_msg)
+            dev_msg = get_developer_message(request.instructions, request.tools)
+            messages.append(dev_msg)
+        else:
+            # Continue the previous conversation.
+            # FIXME: Currently, request params like reasoning and
+            # instructions are ignored.
+            prev_msgs = self.msg_store[prev_response.id]
+            # Remove the previous chain-of-thoughts if there is a new "final"
+            # message.
+            if (
+                len(prev_msgs) > 0
+                and hasattr(prev_msgs[-1], "channel")
+                and prev_msgs[-1].channel == "final"
+            ):  # type: ignore[union-attr]
+                prev_final_msg_idx = -1
+                for i in range(len(prev_msgs) - 2, -1, -1):
+                    if (
+                        hasattr(prev_msgs[i], "channel")
+                        and prev_msgs[i].channel == "final"
+                    ):  # type: ignore[union-attr]
+                        prev_final_msg_idx = i
+                        break
+                recent_turn_msgs = prev_msgs[prev_final_msg_idx + 1 :]
+                del prev_msgs[prev_final_msg_idx + 1 :]
+                for msg in recent_turn_msgs:
+                    if (
+                        hasattr(msg, "channel") and msg.channel != "analysis"
+                    ):  # type: ignore[union-attr]
+                        prev_msgs.append(msg)
+            messages.extend(prev_msgs)
+        # Append the new input.
+        # Responses API supports simple text inputs without chat format.
+        if isinstance(request.input, str):
+            messages.append(get_user_message(request.input))
+        else:
+            if prev_response is not None:
+                prev_outputs = copy(prev_response.output)
+            else:
+                prev_outputs = []
+            for response_msg in request.input:
+                messages.append(parse_response_input(response_msg, prev_outputs))
+                if isinstance(response_msg, ResponseFunctionToolCall):
+                    prev_outputs.append(response_msg)
+        return messages
+
+    async def _run_background_request(
+        self,
+        request: ResponsesRequest,
+        sampling_params: Any,
+        result_generator: AsyncIterator[Any],
+        context: ConversationContext,
+        model_name: str,
+        tokenizer: Any,
+        request_metadata: RequestResponseMetadata,
+        created_time: Optional[int] = None,
+        *args,
+        **kwargs,
+    ):
+        try:
+            # Update the status to "in_progress"
+            async with self.response_store_lock:
+                stored_response = self.response_store.get(request.request_id)
+                assert stored_response is not None
+                stored_response.status = "in_progress"
+
+            response = await self.responses_full_generator(
+                request,
+                sampling_params,
+                result_generator,
+                context,
+                model_name,
+                tokenizer,
+                request_metadata,
+                created_time,
+                *args,
+                **kwargs,
+            )
+        except Exception as e:
+            logger.exception("Background request failed for %s", request.request_id)
+            response = self.create_error_response(str(e))
+
+        if isinstance(response, ORJSONResponse):
+            # If the request has failed, update the status to "failed"
+            response_id = request.request_id
+            async with self.response_store_lock:
+                stored_response = self.response_store.get(response_id)
+                assert stored_response is not None
+                if stored_response.status not in ("completed", "cancelled"):
+                    stored_response.status = "failed"
+
+    async def retrieve_responses(
+        self,
+        response_id: str,
+    ) -> Union[ResponsesResponse, ORJSONResponse]:
+        if not response_id.startswith("resp_"):
+            return self._make_invalid_id_error(response_id)
+
+        async with self.response_store_lock:
+            response = self.response_store.get(response_id)
+
+        if response is None:
+            return self._make_not_found_error(response_id)
+        return response
+
+    async def cancel_responses(
+        self,
+        response_id: str,
+    ) -> Union[ResponsesResponse, ORJSONResponse]:
+        if not response_id.startswith("resp_"):
+            return self._make_invalid_id_error(response_id)
+
+        async with self.response_store_lock:
+            response = self.response_store.get(response_id)
+            if response is None:
+                return self._make_not_found_error(response_id)
+
+            prev_status = response.status
+            if prev_status not in ("queued", "in_progress"):
+                return self.create_error_response(
+                    err_type="invalid_request_error",
+                    message="Cannot cancel a synchronous response.",
+                )
+
+            # Update the status to "cancelled"
+            response.status = "cancelled"
+
+        # Abort the request
+        if task := self.background_tasks.get(response_id):
+            task.cancel()
+            try:
+                await task
+            except asyncio.CancelledError:
+                logger.exception("Background task for %s was cancelled", response_id)
+        return response
+
+    def _make_invalid_id_error(self, response_id: str):
+        return self.create_error_response(
+            message=(
+                f"Invalid 'response_id': '{response_id}'. "
+                "Expected an ID that begins with 'resp'."
+            ),
+            err_type="invalid_request_error",
+            param="response_id",
+        )
+
+    def _make_not_found_error(self, response_id: str):
+        return self.create_error_response(
+            message=f"Response with id '{response_id}' not found.",
+            err_type="invalid_request_error",
+            status_code=HTTPStatus.NOT_FOUND,
+            param="response_id",
+        )
+
+    async def responses_stream_generator(
+        self,
+        request: ResponsesRequest,
+        sampling_params: Any,
+        result_generator: AsyncIterator[StreamingHarmonyContext],
+        context: StreamingHarmonyContext,
+        model_name: str,
+        tokenizer: Any,
+        request_metadata: RequestResponseMetadata,
+        created_time: Optional[int] = None,
+    ) -> AsyncGenerator[str, None]:
+        # TODO:
+        # 1. Handle disconnect
+
+        created_time = created_time or int(time.time())
+
+        sequence_number = 0
+
+        def _send_event(event):
+            nonlocal sequence_number
+            # Set sequence_number if the event has this attribute
+            if hasattr(event, "sequence_number"):
+                event.sequence_number = sequence_number
+            sequence_number += 1
+            # Get event type from the event's type field if it exists
+            event_type = getattr(event, "type", "unknown")
+            return (
+                f"event: {event_type}\n"
+                f"data: {event.model_dump_json(indent=None)}\n\n"
+            )
+
+        current_content_index = 0
+        current_output_index = 0
+        current_item_id = f"item_{random_uuid()}"
+        sent_output_item_added = False
+
+        initial_response = ResponsesResponse.from_request(
+            request,
+            sampling_params,
+            model_name=model_name,
+            created_time=created_time,
+            output=[],
+            status="in_progress",
+            usage=None,
+        ).model_dump()
+        yield _send_event(
+            openai_responses_types.ResponseCreatedEvent(
+                type="response.created",
+                sequence_number=-1,
+                response=initial_response,
+            )
+        )
+        yield _send_event(
+            openai_responses_types.ResponseInProgressEvent(
+                type="response.in_progress",
+                sequence_number=-1,
+                response=initial_response,
+            )
+        )
+
+        async for ctx in result_generator:
+
+            if ctx.is_expecting_start():
+                current_output_index += 1
+                sent_output_item_added = False
+
+                if len(ctx.parser.messages) > 0:
+                    previous_item = ctx.parser.messages[-1]
+                    if previous_item.recipient is not None:
+                        # Deal with tool call here
+                        pass
+                    elif previous_item.channel == "analysis":
+                        reasoning_item = ResponseReasoningItem(
+                            id=f"rs_{random_uuid()}",
+                            type="reasoning",
+                            summary=[],
+                            content=[
+                                ResponseReasoningTextContent(
+                                    text=previous_item.content[0].text,
+                                    type="reasoning_text",
+                                ),
+                            ],
+                            status="completed",
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseReasoningTextDoneEvent(
+                                type="response.reasoning_text.done",
+                                item_id=current_item_id,
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                text=previous_item.content[0].text,
+                            )
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseOutputItemDoneEvent(
+                                type="response.output_item.done",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=reasoning_item,
+                            )
+                        )
+                    elif previous_item.channel == "final":
+                        text_content = openai_responses_types.ResponseOutputText(
+                            type="output_text",
+                            text=previous_item.content[0].text,
+                            annotations=[],
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseTextDoneEvent(
+                                type="response.output_text.done",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                text=previous_item.content[0].text,
+                                logprobs=[],
+                                item_id=current_item_id,
+                            )
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseContentPartDoneEvent(
+                                type="response.content_part.done",
+                                sequence_number=-1,
+                                item_id=current_item_id,
+                                output_index=current_output_index,
+                                content_index=current_content_index,
+                                part=text_content,
+                            )
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseOutputItemDoneEvent(
+                                type="response.output_item.done",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=openai_responses_types.ResponseOutputMessage(
+                                    id=current_item_id,
+                                    type="message",
+                                    role="assistant",
+                                    content=[text_content],
+                                    status="completed",
+                                ),
+                            )
+                        )
+
+            if ctx.parser.last_content_delta:
+                if (
+                    ctx.parser.current_channel == "final"
+                    and ctx.parser.current_recipient is None
+                ):
+                    if not sent_output_item_added:
+                        sent_output_item_added = True
+                        yield _send_event(
+                            openai_responses_types.ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=openai_responses_types.ResponseOutputMessage(
+                                    id=current_item_id,
+                                    type="message",
+                                    role="assistant",
+                                    content=[],
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseContentPartAddedEvent(
+                                type="response.content_part.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item_id=current_item_id,
+                                content_index=current_content_index,
+                                part=openai_responses_types.ResponseOutputText(
+                                    type="output_text",
+                                    text="",
+                                    annotations=[],
+                                    logprobs=[],
+                                ),
+                            )
+                        )
+                    yield _send_event(
+                        openai_responses_types.ResponseTextDeltaEvent(
+                            type="response.output_text.delta",
+                            sequence_number=-1,
+                            content_index=current_content_index,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            delta=ctx.parser.last_content_delta,
+                            # TODO, use logprobs from ctx.last_request_output
+                            logprobs=[],
+                        )
+                    )
+                elif (
+                    ctx.parser.current_channel == "analysis"
+                    and ctx.parser.current_recipient is None
+                ):
+                    if not sent_output_item_added:
+                        sent_output_item_added = True
+                        yield _send_event(
+                            openai_responses_types.ResponseOutputItemAddedEvent(
+                                type="response.output_item.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item=openai_responses_types.ResponseReasoningItem(
+                                    type="reasoning",
+                                    id=current_item_id,
+                                    summary=[],
+                                    status="in_progress",
+                                ),
+                            )
+                        )
+                        yield _send_event(
+                            openai_responses_types.ResponseContentPartAddedEvent(
+                                type="response.content_part.added",
+                                sequence_number=-1,
+                                output_index=current_output_index,
+                                item_id=current_item_id,
+                                content_index=current_content_index,
+                                # TODO: migrate this to
+                                # ResponseReasoningTextContent for now
+                                part=openai_responses_types.ResponseOutputText(
+                                    type="output_text",
+                                    text="",
+                                    annotations=[],
+                                    logprobs=[],
+                                ),
+                            )
+                        )
+                    # TODO: migrate to OpenAI types once updated.
+                    yield _send_event(
+                        openai_responses_types.ResponseReasoningTextDeltaEvent(
+                            type="response.reasoning_text.delta",
+                            item_id=current_item_id,
+                            output_index=current_output_index,
+                            content_index=current_content_index,
+                            delta=ctx.parser.last_content_delta,
+                            sequence_number=-1,
+                        )
+                    )
+
+            if ctx.is_assistant_action_turn() and len(ctx.parser.messages) > 0:
+                previous_item = ctx.parser.messages[-1]
+                if (
+                    self.supports_browsing
+                    and previous_item.recipient is not None
+                    and previous_item.recipient.startswith("browser.")
+                ):
+                    function_name = previous_item.recipient[len("browser.") :]
+                    action = None
+                    parsed_args = json.loads(previous_item.content[0].text)
+                    if function_name == "search":
+                        action = openai_responses_types.response_function_web_search.ActionSearch(
+                            type="search",
+                            query=parsed_args["query"],
+                        )
+                    elif function_name == "open":
+                        action = openai_responses_types.response_function_web_search.ActionOpenPage(
+                            type="open_page",
+                            # TODO: translate to url
+                            url=f"cursor:{parsed_args.get('cursor', '')}",
+                        )
+                    elif function_name == "find":
+                        action = openai_responses_types.response_function_web_search.ActionFind(
+                            type="find",
+                            pattern=parsed_args["pattern"],
+                            # TODO: translate to url
+                            url=f"cursor:{parsed_args.get('cursor', '')}",
+                        )
+                    else:
+                        raise ValueError(f"Unknown function name: {function_name}")
+
+                    yield _send_event(
+                        openai_responses_types.ResponseOutputItemAddedEvent(
+                            type="response.output_item.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=openai_responses_types.response_function_web_search.ResponseFunctionWebSearch(
+                                # TODO: generate a unique id for web search call
+                                type="web_search_call",
+                                id=current_item_id,
+                                action=action,
+                                status="in_progress",
+                            ),
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseWebSearchCallInProgressEvent(
+                            type="response.web_search_call.in_progress",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseWebSearchCallSearchingEvent(
+                            type="response.web_search_call.searching",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+
+                    # enqueue
+                    yield _send_event(
+                        openai_responses_types.ResponseWebSearchCallCompletedEvent(
+                            type="response.web_search_call.completed",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseOutputItemDoneEvent(
+                            type="response.output_item.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=openai_responses_types.ResponseFunctionWebSearch(
+                                type="web_search_call",
+                                id=current_item_id,
+                                action=action,
+                                status="completed",
+                            ),
+                        )
+                    )
+
+                if (
+                    self.supports_code_interpreter
+                    and previous_item.recipient is not None
+                    and previous_item.recipient.startswith("python")
+                ):
+                    yield _send_event(
+                        openai_responses_types.ResponseOutputItemAddedEvent(
+                            type="response.output_item.added",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=openai_responses_types.ResponseCodeInterpreterToolCallParam(
+                                type="code_interpreter_call",
+                                id=current_item_id,
+                                code="",
+                                container_id="auto",
+                                outputs=[],
+                                status="in_progress",
+                            ),
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseCodeInterpreterCallInProgressEvent(
+                            type="response.code_interpreter_call.in_progress",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    # TODO: do we need to add delta event here?
+                    yield _send_event(
+                        openai_responses_types.ResponseCodeInterpreterCallCodeDoneEvent(
+                            type="response.code_interpreter_call_code.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                            code=previous_item.content[0].text,
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseCodeInterpreterCallInterpretingEvent(
+                            type="response.code_interpreter_call.interpreting",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseCodeInterpreterCallCompletedEvent(
+                            type="response.code_interpreter_call.completed",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item_id=current_item_id,
+                        )
+                    )
+                    yield _send_event(
+                        openai_responses_types.ResponseOutputItemDoneEvent(
+                            type="response.output_item.done",
+                            sequence_number=-1,
+                            output_index=current_output_index,
+                            item=openai_responses_types.ResponseCodeInterpreterToolCallParam(
+                                type="code_interpreter_call",
+                                id=current_item_id,
+                                code=previous_item.content[0].text,
+                                container_id="auto",
+                                # TODO: add outputs here
+                                outputs=[],
+                                status="completed",
+                            ),
+                        )
+                    )
+
+        async def empty_async_generator():
+            if False:
+                yield
+
+        final_response = await self.responses_full_generator(
+            request,
+            sampling_params,
+            empty_async_generator(),
+            context,
+            model_name,
+            tokenizer,
+            request_metadata,
+            created_time=created_time,
+        )
+        # Convert final_response to the format expected by ResponseCompletedEvent
+        response_dict = final_response.model_dump()
+
+        # Convert UsageInfo to ResponseUsage format
+        if response_dict.get("usage"):
+            usage_info = response_dict["usage"]
+            response_dict["usage"] = {
+                "input_tokens": usage_info.get("prompt_tokens", 0),
+                "input_tokens_details": {
+                    "cached_tokens": usage_info.get("cached_tokens", 0)
+                },
+                "output_tokens": usage_info.get("completion_tokens", 0),
+                "output_tokens_details": {
+                    "reasoning_tokens": usage_info.get("reasoning_tokens", 0)
+                },
+                "total_tokens": usage_info.get("total_tokens", 0),
+            }
+
+        yield _send_event(
+            openai_responses_types.ResponseCompletedEvent(
+                type="response.completed",
+                sequence_number=-1,
+                response=response_dict,
+            )
+        )
+
+    async def _generate_with_builtin_tools(
+        self,
+        request_id: str,
+        request_prompt: Any,
+        adapted_request: GenerateReqInput,
+        sampling_params: Any,
+        context: ConversationContext,
+        raw_request: Optional[Request] = None,
+        priority: Optional[int] = None,
+        **kwargs,
+    ) -> AsyncGenerator[Any, None]:
+        """Generate with builtin tool support for harmony-based models."""
+        orig_priority = priority or 0
+
+        while True:
+            # Generate using SGLang's tokenizer manager
+            generator = self.tokenizer_manager.generate_request(
+                adapted_request, raw_request
+            )
+
+            async for res in generator:
+                context.append_output(res)
+                # NOTE(woosuk): The stop condition is handled by the engine.
+                yield context
+
+            if not context.need_builtin_tool_call():
+                # The model did not ask for a tool call, so we're done.
+                break
+
+            # Call the tool and update the context with the result.
+            tool_output = await context.call_tool()
+            context.append_output(tool_output)
+
+            # Prepare for the next generation turn
+            # Render the updated conversation for the next completion
+            prompt_token_ids = context.render_for_completion()
+
+            # Update the adapted request with new prompt
+            adapted_request = GenerateReqInput(
+                input_ids=prompt_token_ids,
+                sampling_params=sampling_params,
+                stream=adapted_request.stream,
+                rid=request_id,
+                return_logprob=adapted_request.return_logprob,
+                logprob_start_len=adapted_request.logprob_start_len,
+                top_logprobs_num=adapted_request.top_logprobs_num,
+                return_text_in_logprobs=adapted_request.return_text_in_logprobs,
+                return_hidden_states=adapted_request.return_hidden_states,
+                background=adapted_request.background,
+            )
+
+            # Update sampling params with reduced max_tokens
+            if hasattr(sampling_params, "max_new_tokens") or isinstance(
+                sampling_params, dict
+            ):
+                context_len = getattr(
+                    self.tokenizer_manager.model_config, "context_len", 4096
+                )
+                remaining_tokens = context_len - len(prompt_token_ids) - 1
+
+                if isinstance(sampling_params, dict):
+                    sampling_params["max_new_tokens"] = max(remaining_tokens, 1)
+                else:
+                    sampling_params.max_new_tokens = max(remaining_tokens, 1)
+
+            # Slightly reduce priority for subsequent tool calls
+            priority = orig_priority - 1
diff --git a/python/sglang/srt/entrypoints/openai/tool_server.py b/python/sglang/srt/entrypoints/openai/tool_server.py
new file mode 100644
index 000000000000..fd66eb42b4de
--- /dev/null
+++ b/python/sglang/srt/entrypoints/openai/tool_server.py
@@ -0,0 +1,174 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import logging
+from abc import ABC, abstractmethod
+from contextlib import AbstractAsyncContextManager, asynccontextmanager
+from typing import Any
+
+logger = logging.getLogger(__name__)
+try:
+    from mcp import ClientSession
+    from mcp.client.sse import sse_client
+    from mcp.types import ListToolsResult
+except ImportError:
+    logger.warning("Ignoring mcp import error")
+
+from openai_harmony import ToolDescription, ToolNamespaceConfig
+
+
+async def list_server_and_tools(server_url: str):
+
+    async with sse_client(url=server_url) as streams, ClientSession(
+        *streams
+    ) as session:
+        initialize_response = await session.initialize()
+        list_tools_response = await session.list_tools()
+        return initialize_response, list_tools_response
+
+
+def trim_schema(schema: dict) -> dict:
+    # Turn JSON Schema from MCP generated into Harmony's variant.
+    if "title" in schema:
+        del schema["title"]
+    if "default" in schema and schema["default"] is None:
+        del schema["default"]
+    if "anyOf" in schema:
+        # Turn "anyOf": [{"type": "type-1"}, {"type": "type-2"}]
+        # into "type": ["type-1", "type-2"]
+        # if there's more than 1 types, also remove "null" type as Harmony will
+        # just ignore it
+        types = [
+            type_dict["type"]
+            for type_dict in schema["anyOf"]
+            if type_dict["type"] != "null"
+        ]
+        schema["type"] = types
+        del schema["anyOf"]
+    if "properties" in schema:
+        schema["properties"] = {
+            k: trim_schema(v) for k, v in schema["properties"].items()
+        }
+    return schema
+
+
+def post_process_tools_description(
+    list_tools_result: "ListToolsResult",
+) -> "ListToolsResult":
+    # Adapt the MCP tool result for Harmony
+    for tool in list_tools_result.tools:
+        tool.inputSchema = trim_schema(tool.inputSchema)
+
+    # Some tools schema don't need to be part of the prompt (e.g. simple text
+    # in text out for Python)
+    list_tools_result.tools = [
+        tool
+        for tool in list_tools_result.tools
+        if getattr(tool.annotations, "include_in_prompt", True)
+    ]
+
+    return list_tools_result
+
+
+class ToolServer(ABC):
+
+    @abstractmethod
+    def has_tool(self, tool_name: str):
+        pass
+
+    @abstractmethod
+    def get_tool_description(self, tool_name: str):
+        pass
+
+    @abstractmethod
+    def get_tool_session(self, tool_name: str) -> AbstractAsyncContextManager[Any]: ...
+
+
+class MCPToolServer(ToolServer):
+
+    def __init__(self):
+        self.harmony_tool_descriptions = {}
+
+    async def add_tool_server(self, server_url: str):
+        tool_urls = server_url.split(",")
+        self.harmony_tool_descriptions = {}
+        self.urls: dict[str, str] = {}
+        for url in tool_urls:
+            url = f"http://{url}/sse"
+            initialize_response, list_tools_response = await list_server_and_tools(url)
+
+            list_tools_response = post_process_tools_description(list_tools_response)
+
+            tool_from_mcp = ToolNamespaceConfig(
+                name=initialize_response.serverInfo.name,
+                description=initialize_response.instructions,
+                tools=[
+                    ToolDescription.new(
+                        name=tool.name,
+                        description=tool.description,
+                        parameters=tool.inputSchema,
+                    )
+                    for tool in list_tools_response.tools
+                ],
+            )
+            self.harmony_tool_descriptions[tool_from_mcp.name] = tool_from_mcp
+            if tool_from_mcp.name not in self.urls:
+                self.urls[tool_from_mcp.name] = url
+            else:
+                logger.warning(
+                    "Tool %s already exists. Ignoring duplicate tool server %s",
+                    tool_from_mcp.name,
+                    url,
+                )
+
+    def has_tool(self, tool_name: str):
+        return tool_name in self.harmony_tool_descriptions
+
+    def get_tool_description(self, tool_name: str):
+        return self.harmony_tool_descriptions.get(tool_name)
+
+    @asynccontextmanager
+    async def get_tool_session(self, tool_name: str):
+        url = self.urls.get(tool_name)
+        if url:
+            async with sse_client(url=url) as streams, ClientSession(
+                *streams
+            ) as session:
+                await session.initialize()
+                yield session
+        else:
+            logger.warning("Tool %s not found", tool_name)
+
+
+class DemoToolServer(ToolServer):
+
+    def __init__(self):
+        from sglang.srt.entrypoints.tool import (
+            HarmonyBrowserTool,
+            HarmonyPythonTool,
+            Tool,
+        )
+
+        self.tools: dict[str, Tool] = {}
+        browser_tool = HarmonyBrowserTool()
+        if browser_tool.enabled:
+            self.tools["browser"] = browser_tool
+        python_tool = HarmonyPythonTool()
+        if python_tool.enabled:
+            self.tools["python"] = python_tool
+
+    def has_tool(self, tool_name: str):
+        return tool_name in self.tools
+
+    def get_tool_description(self, tool_name: str):
+        if tool_name not in self.tools:
+            return None
+        if tool_name == "browser":
+            return ToolNamespaceConfig.browser()
+        elif tool_name == "python":
+            return ToolNamespaceConfig.python()
+        else:
+            raise ValueError(f"Unknown tool {tool_name}")
+
+    @asynccontextmanager
+    async def get_tool_session(self, tool_name: str):
+        yield self.tools[tool_name]
diff --git a/python/sglang/srt/entrypoints/tool.py b/python/sglang/srt/entrypoints/tool.py
new file mode 100644
index 000000000000..05c1c8eded42
--- /dev/null
+++ b/python/sglang/srt/entrypoints/tool.py
@@ -0,0 +1,87 @@
+# SPDX-License-Identifier: Apache-2.0
+import logging
+import os
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, Any
+
+if TYPE_CHECKING:
+    # Avoid circular import.
+    from sglang.srt.entrypoints.context import ConversationContext
+
+logger = logging.getLogger(__name__)
+
+
+class Tool(ABC):
+
+    @abstractmethod
+    async def get_result(self, context: "ConversationContext") -> Any:
+        pass
+
+
+class HarmonyBrowserTool(Tool):
+
+    def __init__(self):
+        self.enabled = True
+        exa_api_key = os.getenv("EXA_API_KEY")
+        if not exa_api_key:
+            self.enabled = False
+            logger.warning_once("EXA_API_KEY is not set, browsing is disabled")
+            return
+
+        try:
+            from gpt_oss.tools.simple_browser import SimpleBrowserTool
+            from gpt_oss.tools.simple_browser.backend import ExaBackend
+        except ImportError:
+            self.enabled = False
+            logger.warning_once("gpt_oss is not installed, browsing is disabled")
+            return
+
+        browser_backend = ExaBackend(source="web", api_key=exa_api_key)
+        self.browser_tool = SimpleBrowserTool(backend=browser_backend)
+        logger.info_once("Browser tool initialized")
+
+    async def get_result(self, context: "ConversationContext") -> Any:
+        from sglang.srt.entrypoints.context import HarmonyContext
+
+        assert isinstance(context, HarmonyContext)
+        last_msg = context.messages[-1]
+        tool_output_msgs = []
+        async for msg in self.browser_tool.process(last_msg):
+            tool_output_msgs.append(msg)
+        return tool_output_msgs
+
+    @property
+    def tool_config(self) -> Any:
+        return self.browser_tool.tool_config
+
+
+class HarmonyPythonTool(Tool):
+
+    def __init__(self):
+        self.enabled = True
+
+        try:
+            from gpt_oss.tools.python_docker.docker_tool import PythonTool
+        except ImportError:
+            self.enabled = False
+            logger.warning_once(
+                "gpt_oss is not installed, code interpreter is disabled"
+            )
+            return
+
+        self.python_tool = PythonTool()
+        logger.info_once("Code interpreter tool initialized")
+
+    async def get_result(self, context: "ConversationContext") -> Any:
+        from sglang.srt.entrypoints.context import HarmonyContext
+
+        assert isinstance(context, HarmonyContext)
+        last_msg = context.messages[-1]
+        tool_output_msgs = []
+        async for msg in self.python_tool.process(last_msg):
+            tool_output_msgs.append(msg)
+        return tool_output_msgs
+
+    @property
+    def tool_config(self) -> Any:
+        return self.python_tool.tool_config
diff --git a/python/sglang/srt/function_call/harmony_tool_parser.py b/python/sglang/srt/function_call/harmony_tool_parser.py
new file mode 100644
index 000000000000..10f82856b066
--- /dev/null
+++ b/python/sglang/srt/function_call/harmony_tool_parser.py
@@ -0,0 +1,130 @@
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""Harmony tool call parser for processing tool calls in harmony models."""
+
+import uuid
+from typing import List, Optional, Tuple
+
+from sglang.srt.entrypoints.openai.protocol import (
+    ChatMessage,
+    FunctionResponse,
+    ToolCall,
+)
+
+
+class HarmonyToolCallParser:
+    """Parser for extracting tool calls from harmony model outputs."""
+
+    def extract_tool_calls_from_message(self, msg) -> Optional[ToolCall]:
+        """
+        Extract tool call from a single message if it's a tool call.
+
+        Args:
+            msg: The harmony message
+
+        Returns:
+            ToolCall if the message is a tool call, None otherwise
+        """
+        if (
+            msg.channel == "commentary"
+            and msg.recipient
+            and msg.recipient.startswith("functions.")
+        ):
+            function_name = msg.recipient.split(".")[-1]
+            arguments = msg.content[0].text if msg.content else "{}"
+
+            return ToolCall(
+                id=f"call_{uuid.uuid4().hex[:24]}",
+                function=FunctionResponse(
+                    name=function_name,
+                    arguments=arguments,
+                ),
+            )
+        return None
+
+    def process_streaming_chunk(
+        self,
+        harmony_parser,
+        index: int,
+        tool_call_trackers: dict,
+        stream_buffers: dict,
+    ) -> Tuple[Optional[dict], bool, Optional[str]]:
+        """
+        Process a streaming chunk for tool calls.
+
+        Args:
+            harmony_parser: The harmony parser instance
+            index: The choice index
+            tool_call_trackers: Dict tracking tool calls per choice
+            stream_buffers: Dict for buffering content
+
+        Returns:
+            Tuple of (tool_call_data, is_tool_call, delta)
+        """
+        # Check if we're in a tool call
+        is_tool_call = (
+            harmony_parser.current_channel == "commentary"
+            and harmony_parser.current_recipient
+            and harmony_parser.current_recipient.startswith("functions.")
+        )
+
+        delta = harmony_parser.last_content_delta or ""
+        tool_call_data = None
+
+        if is_tool_call:
+            # Handle tool call streaming
+            function_name = harmony_parser.current_recipient.split(".")[-1]
+
+            # Track tool call indices per choice
+            if index not in tool_call_trackers:
+                tool_call_trackers[index] = {"count": 0, "current_function": None}
+
+            # Check if we just started a new tool call
+            tool_call_tracker = tool_call_trackers[index]
+            if tool_call_tracker["current_function"] != function_name:
+                # New tool call started
+                tool_call_tracker["current_function"] = function_name
+                tool_call_index = tool_call_tracker["count"]
+                tool_call_tracker["count"] += 1
+
+                # Store the tool call index for this function
+                tool_call_key = f"{index}_{function_name}"
+                stream_buffers[tool_call_key] = {
+                    "index": tool_call_index,
+                    "content": "",
+                }
+
+                tool_call_data = {
+                    "id": f"call_{uuid.uuid4().hex[:24]}",
+                    "index": tool_call_index,
+                    "function_name": function_name,
+                    "arguments": delta,
+                    "is_first_chunk": True,
+                }
+            else:
+                # Subsequent chunks for the same tool call
+                tool_call_key = f"{index}_{function_name}"
+                tool_call_index = stream_buffers[tool_call_key]["index"]
+
+                tool_call_data = {
+                    "id": None,
+                    "index": tool_call_index,
+                    "function_name": None,
+                    "arguments": delta,
+                    "is_first_chunk": False,
+                }
+
+            stream_buffers[tool_call_key]["content"] += delta
+
+        return tool_call_data, is_tool_call, delta
diff --git a/python/sglang/srt/managers/detokenizer_manager.py b/python/sglang/srt/managers/detokenizer_manager.py
index 811f108c71dc..29757b4b295c 100644
--- a/python/sglang/srt/managers/detokenizer_manager.py
+++ b/python/sglang/srt/managers/detokenizer_manager.py
@@ -216,7 +216,7 @@ def handle_batch_token_id_out(self, recv_obj: BatchTokenIDOut):
             rids=recv_obj.rids,
             finished_reasons=recv_obj.finished_reasons,
             output_strs=output_strs,
-            output_ids=None,
+            output_ids=recv_obj.decode_ids,
             prompt_tokens=recv_obj.prompt_tokens,
             completion_tokens=recv_obj.completion_tokens,
             cached_tokens=recv_obj.cached_tokens,
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index c1c5f0735436..1a0cbeadbd0a 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -126,6 +126,9 @@ class GenerateReqInput:
     # For data parallel rank routing
     data_parallel_rank: Optional[int] = None
 
+    # For background responses (OpenAI responses API)
+    background: bool = False
+
     def contains_mm_input(self) -> bool:
         return (
             has_valid_data(self.image_data)
@@ -560,6 +563,9 @@ class EmbeddingReqInput:
     # For cross-encoder requests
     is_cross_encoder_request: bool = False
 
+    # For background responses (OpenAI responses API)
+    background: bool = False
+
     def normalize_batch_and_arguments(self):
         # at least one of text, input_ids, or image should be provided
         if self.text is None and self.input_ids is None and self.image_data is None:
diff --git a/python/sglang/srt/managers/scheduler_output_processor_mixin.py b/python/sglang/srt/managers/scheduler_output_processor_mixin.py
index 635121920479..a86899f6e79b 100644
--- a/python/sglang/srt/managers/scheduler_output_processor_mixin.py
+++ b/python/sglang/srt/managers/scheduler_output_processor_mixin.py
@@ -571,8 +571,7 @@ def stream_output_generation(
 
                 req.send_decode_id_offset = len(decode_ids)
                 read_offsets.append(read_offset)
-                if self.skip_tokenizer_init:
-                    output_ids.append(req.output_ids[send_token_offset:])
+                output_ids.append(req.output_ids[send_token_offset:])
                 req.send_token_offset = len(req.output_ids)
                 skip_special_tokens.append(req.sampling_params.skip_special_tokens)
                 spaces_between_special_tokens.append(
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 63cbfd59e055..498f0daefac1 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -750,7 +750,11 @@ async def _wait_one_response(
             try:
                 await asyncio.wait_for(state.event.wait(), timeout=4)
             except asyncio.TimeoutError:
-                if request is not None and await request.is_disconnected():
+                if (
+                    request is not None
+                    and not obj.background
+                    and await request.is_disconnected()
+                ):
                     # Abort the request for disconnected requests (non-streaming, waiting queue)
                     self.abort_request(obj.rid)
                     # Use exception to kill the whole call stack and asyncio task
@@ -805,7 +809,11 @@ async def _wait_one_response(
             if obj.stream:
                 yield out
             else:
-                if request is not None and await request.is_disconnected():
+                if (
+                    request is not None
+                    and not obj.background
+                    and await request.is_disconnected()
+                ):
                     # Abort the request for disconnected requests (non-streaming, running)
                     self.abort_request(obj.rid)
                     # Use exception to kill the whole call stack and asyncio task
@@ -1548,8 +1556,17 @@ def _handle_batch_output(
 
             if isinstance(recv_obj, BatchStrOut):
                 state.text += recv_obj.output_strs[i]
+                if state.obj.stream:
+                    state.output_ids.extend(recv_obj.output_ids[i])
+                    output_token_ids = state.output_ids[state.last_output_offset :]
+                    state.last_output_offset = len(state.output_ids)
+                else:
+                    state.output_ids.extend(recv_obj.output_ids[i])
+                    output_token_ids = state.output_ids.copy()
+
                 out_dict = {
                     "text": state.text,
+                    "output_ids": output_token_ids,
                     "meta_info": meta_info,
                 }
             elif isinstance(recv_obj, BatchTokenIDOut):
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 69c840a7b68e..2623a1027c1f 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -274,6 +274,9 @@ class ServerArgs:
     enable_pdmux: bool = False
     sm_group_num: int = 3
 
+    # For tool server
+    tool_server: Optional[str] = None
+
     # Deprecated arguments
     enable_ep_moe: bool = False
     enable_deepep_moe: bool = False
@@ -1916,6 +1919,14 @@ def add_cli_args(parser: argparse.ArgumentParser):
             help="Disable mmap while loading weight using safetensors.",
         )
 
+        # For tool server
+        parser.add_argument(
+            "--tool-server",
+            type=str,
+            default=None,
+            help="Either 'demo' or a comma-separated list of tool server urls to use for the model. If not specified, no tool server will be used.",
+        )
+
         # Deprecated arguments
         parser.add_argument(
             "--enable-ep-moe",
diff --git a/python/sglang/srt/utils.py b/python/sglang/srt/utils.py
index 2eb0d28b2e57..1e07a413630a 100644
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -41,6 +41,7 @@
 import threading
 import time
 import traceback
+import uuid
 import warnings
 from collections import OrderedDict, defaultdict
 from contextlib import contextmanager
@@ -233,6 +234,10 @@ def is_flashinfer_available():
     return importlib.util.find_spec("flashinfer") is not None and is_cuda()
 
 
+def random_uuid() -> str:
+    return str(uuid.uuid4().hex)
+
+
 _ENABLE_TORCH_INFERENCE_MODE = get_bool_env_var(
     "SGLANG_ENABLE_TORCH_INFERENCE_MODE", "false"
 )

From c0e84297c2c1ecac614f7595ff757390465107a6 Mon Sep 17 00:00:00 2001
From: Trevor Morris <tmorris@nvidia.com>
Date: Wed, 6 Aug 2025 16:21:26 -0700
Subject: [PATCH 390/396] Use reduce scatter for DP (#8539)

---
 python/sglang/srt/layers/communicator.py      | 25 +++++++++--
 python/sglang/srt/layers/dp_attention.py      | 12 ++++++
 python/sglang/srt/layers/linear.py            |  4 +-
 .../srt/model_executor/forward_batch_info.py  |  6 ++-
 python/sglang/srt/models/deepseek_v2.py       | 42 +++++++++++++++----
 python/sglang/srt/models/glm4_moe.py          |  2 +-
 6 files changed, 73 insertions(+), 18 deletions(-)

diff --git a/python/sglang/srt/layers/communicator.py b/python/sglang/srt/layers/communicator.py
index 2e20c01bd80c..4ef752d75e9c 100644
--- a/python/sglang/srt/layers/communicator.py
+++ b/python/sglang/srt/layers/communicator.py
@@ -27,6 +27,7 @@
     attn_tp_all_gather_into_tensor,
     attn_tp_reduce_scatter_tensor,
     dp_gather_partial,
+    dp_reduce_scatter_tensor,
     dp_scatter,
     get_attention_dp_size,
     get_attention_tp_rank,
@@ -149,10 +150,13 @@ def __init__(
         layer_scatter_modes: LayerScatterModes,
         input_layernorm: torch.nn.Module,
         post_attention_layernorm: torch.nn.Module,
+        # Reduce scatter requires skipping all-reduce in model code after MoE/MLP, so only enable for models which have that implemented. Remove flag once done for all models that use LayerCommunicator.
+        allow_reduce_scatter: bool = False,
     ):
         self.layer_scatter_modes = layer_scatter_modes
         self.input_layernorm = input_layernorm
         self.post_attention_layernorm = post_attention_layernorm
+        self.allow_reduce_scatter = allow_reduce_scatter
 
         self._context = CommunicateContext.init_new()
         self._communicate_simple_fn = CommunicateSimpleFn.get_fn(
@@ -239,6 +243,15 @@ def postprocess_layer(
             residual=residual,
             forward_batch=forward_batch,
             context=self._context,
+            allow_reduce_scatter=self.allow_reduce_scatter,
+        )
+
+    def should_use_reduce_scatter(self, forward_batch: ForwardBatch):
+        return (
+            self.allow_reduce_scatter
+            and self._communicate_summable_tensor_pair_fn
+            is CommunicateSummableTensorPairFn._scatter_hidden_states
+            and forward_batch.dp_padding_mode.is_max_len()
         )
 
 
@@ -524,6 +537,7 @@ def _trivial(
         residual: torch.Tensor,
         forward_batch: ForwardBatch,
         context: CommunicateContext,
+        **kwargs,
     ):
         return hidden_states, residual
 
@@ -533,15 +547,17 @@ def _scatter_hidden_states(
         residual: torch.Tensor,
         forward_batch: ForwardBatch,
         context: CommunicateContext,
+        allow_reduce_scatter: bool = False,
     ):
-        # TODO(ch-wan): use reduce-scatter in MLP to avoid this scatter
-        # important: forward batch.gathered_buffer is used both after scatter and after gather.
-        # be careful about this!
         hidden_states, global_hidden_states = (
             forward_batch.gathered_buffer[: forward_batch.input_ids.shape[0]],
             hidden_states,
         )
-        dp_scatter(hidden_states, global_hidden_states, forward_batch)
+        if allow_reduce_scatter and forward_batch.dp_padding_mode.is_max_len():
+            # When using padding, all_reduce is skipped after MLP and MOE and reduce scatter is used here instead.
+            dp_reduce_scatter_tensor(hidden_states, global_hidden_states)
+        else:
+            dp_scatter(hidden_states, global_hidden_states, forward_batch)
         return hidden_states, residual
 
     @staticmethod
@@ -550,6 +566,7 @@ def _gather(
         residual: torch.Tensor,
         forward_batch: ForwardBatch,
         context: CommunicateContext,
+        **kwargs,
     ):
         hidden_states += residual
         residual = None
diff --git a/python/sglang/srt/layers/dp_attention.py b/python/sglang/srt/layers/dp_attention.py
index 55db1333663e..79397cce5290 100644
--- a/python/sglang/srt/layers/dp_attention.py
+++ b/python/sglang/srt/layers/dp_attention.py
@@ -12,6 +12,7 @@
 
 from sglang.srt.distributed import (
     GroupCoordinator,
+    get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
     get_tp_group,
     tensor_model_parallel_all_reduce,
@@ -355,6 +356,17 @@ def dp_scatter(
         )
 
 
+def dp_reduce_scatter_tensor(output: torch.Tensor, input: torch.Tensor):
+    if get_tensor_model_parallel_world_size() == get_attention_dp_size():
+        get_tp_group().reduce_scatter_tensor(output, input)
+    else:
+        scattered_local_tokens = input.tensor_split(
+            get_tensor_model_parallel_world_size()
+        )[get_tensor_model_parallel_rank()]
+        get_tp_group().reduce_scatter_tensor(scattered_local_tokens, input)
+        get_attention_tp_group().all_gather_into_tensor(output, scattered_local_tokens)
+
+
 def attn_tp_reduce_scatter_tensor(output: torch.Tensor, input: torch.Tensor):
     return get_attention_tp_group().reduce_scatter_tensor(output, input)
 
diff --git a/python/sglang/srt/layers/linear.py b/python/sglang/srt/layers/linear.py
index 78269974912c..2a9dfda59792 100644
--- a/python/sglang/srt/layers/linear.py
+++ b/python/sglang/srt/layers/linear.py
@@ -1277,7 +1277,7 @@ def weight_loader_v2(self, param: BasevLLMParameter, loaded_weight: torch.Tensor
             # It does not support additional parameters.
             param.load_row_parallel_weight(loaded_weight)
 
-    def forward(self, input_, can_fuse_mlp_allreduce=False):
+    def forward(self, input_, skip_all_reduce=False):
         if self.input_is_parallel:
             input_parallel = input_
         else:
@@ -1294,7 +1294,7 @@ def forward(self, input_, can_fuse_mlp_allreduce=False):
         with use_symmetric_memory(parallel_state.get_tp_group()) as sm:
             output_parallel = self.quant_method.apply(self, input_parallel, bias=bias_)
             sm.tag(output_parallel)
-        if self.reduce_results and self.tp_size > 1 and not can_fuse_mlp_allreduce:
+        if self.reduce_results and self.tp_size > 1 and not skip_all_reduce:
             output = tensor_model_parallel_all_reduce(output_parallel)
         else:
             output = output_parallel
diff --git a/python/sglang/srt/model_executor/forward_batch_info.py b/python/sglang/srt/model_executor/forward_batch_info.py
index 6d09f1fdbff0..4c47f319d182 100644
--- a/python/sglang/srt/model_executor/forward_batch_info.py
+++ b/python/sglang/srt/model_executor/forward_batch_info.py
@@ -628,8 +628,10 @@ def prepare_mlp_sync_batch(self, model_runner: ModelRunner):
         self.dp_padding_mode = dp_padding_mode
 
         if dp_padding_mode.is_max_len():
-            # when DP gather mode is all gather, we will use all_gather_into_tensor to gather hidden states,
-            # where transferred tokens should be padded to the same length.
+            # when DP gather mode is all gather, we will use
+            # all_gather_into_tensor to gather hidden states, where transferred
+            # tokens should be padded to the same length. We will also use
+            # reduce-scatter instead of all-reduce after MLP.
             max_num_tokens = max(global_num_tokens)
             global_num_tokens = [max_num_tokens] * sync_group_size
             buffer_len = max_num_tokens * sync_group_size
diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
index 913764b45f82..04acda74687a 100644
--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -208,13 +208,21 @@ def __init__(
             )
         self.act_fn = SiluAndMul()
 
-    def forward(self, x, forward_batch=None, can_fuse_mlp_allreduce=False):
+    def forward(
+        self,
+        x,
+        forward_batch=None,
+        can_fuse_mlp_allreduce: bool = False,
+        use_reduce_scatter: bool = False,
+    ):
         if (self.tp_size == 1) and x.shape[0] == 0:
             return x
 
         gate_up, _ = self.gate_up_proj(x)
         x = self.act_fn(gate_up)
-        x, _ = self.down_proj(x, can_fuse_mlp_allreduce=can_fuse_mlp_allreduce)
+        x, _ = self.down_proj(
+            x, skip_all_reduce=can_fuse_mlp_allreduce or use_reduce_scatter
+        )
         return x
 
 
@@ -441,6 +449,7 @@ def forward(
         hidden_states: torch.Tensor,
         forward_batch: Optional[ForwardBatch] = None,
         can_fuse_mlp_allreduce: bool = False,
+        use_reduce_scatter: bool = False,
     ) -> torch.Tensor:
         if not self._enable_deepep_moe:
             DUAL_STREAM_TOKEN_THRESHOLD = 1024
@@ -450,15 +459,20 @@ def forward(
                 and hidden_states.shape[0] <= DUAL_STREAM_TOKEN_THRESHOLD
             ):
                 return self.forward_normal_dual_stream(
-                    hidden_states, can_fuse_mlp_allreduce
+                    hidden_states, can_fuse_mlp_allreduce, use_reduce_scatter
                 )
             else:
-                return self.forward_normal(hidden_states, can_fuse_mlp_allreduce)
+                return self.forward_normal(
+                    hidden_states, can_fuse_mlp_allreduce, use_reduce_scatter
+                )
         else:
             return self.forward_deepep(hidden_states, forward_batch)
 
     def forward_normal_dual_stream(
-        self, hidden_states: torch.Tensor, can_fuse_mlp_allreduce: bool = False
+        self,
+        hidden_states: torch.Tensor,
+        can_fuse_mlp_allreduce: bool = False,
+        use_reduce_scatter: bool = False,
     ) -> torch.Tensor:
 
         current_stream = torch.cuda.current_stream()
@@ -486,12 +500,15 @@ def forward_normal_dual_stream(
         torch.add(final_hidden_states, shared_output, out=final_hidden_states_out)
         final_hidden_states = final_hidden_states_out
         sm.tag(final_hidden_states)
-        if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+        if self.tp_size > 1 and not can_fuse_mlp_allreduce and not use_reduce_scatter:
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
         return final_hidden_states
 
     def forward_normal(
-        self, hidden_states: torch.Tensor, can_fuse_mlp_allreduce: bool = False
+        self,
+        hidden_states: torch.Tensor,
+        can_fuse_mlp_allreduce: bool = False,
+        use_reduce_scatter: bool = False,
     ) -> torch.Tensor:
         if hasattr(self, "shared_experts") and use_intel_amx_backend(
             self.shared_experts.gate_up_proj
@@ -520,7 +537,7 @@ def forward_normal(
             torch.add(final_hidden_states, shared_output, out=final_hidden_states_out)
             final_hidden_states = final_hidden_states_out
             sm.tag(final_hidden_states)
-        if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+        if self.tp_size > 1 and not can_fuse_mlp_allreduce and not use_reduce_scatter:
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
         return final_hidden_states
 
@@ -1822,6 +1839,7 @@ def __init__(
             layer_scatter_modes=self.layer_scatter_modes,
             input_layernorm=self.input_layernorm,
             post_attention_layernorm=self.post_attention_layernorm,
+            allow_reduce_scatter=True,
         )
 
     def _is_layer_sparse(self, layer_id: int, is_nextn: bool) -> bool:
@@ -1884,7 +1902,13 @@ def forward(
             and not self.is_nextn
         )
 
-        hidden_states = self.mlp(hidden_states, forward_batch, can_fuse_mlp_allreduce)
+        # For DP with padding, reduce scatter can be used instead of all-reduce.
+        use_reduce_scatter = self.layer_communicator.should_use_reduce_scatter(
+            forward_batch
+        )
+        hidden_states = self.mlp(
+            hidden_states, forward_batch, can_fuse_mlp_allreduce, use_reduce_scatter
+        )
 
         if can_fuse_mlp_allreduce:
             hidden_states._sglang_needs_allreduce_fusion = True
diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 32cf01362c90..4744c0c31859 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -160,7 +160,7 @@ def forward(self, x, forward_batch=None, can_fuse_mlp_allreduce=False):
 
         gate_up, _ = self.gate_up_proj(x)
         x = self.act_fn(gate_up)
-        x, _ = self.down_proj(x, can_fuse_mlp_allreduce=can_fuse_mlp_allreduce)
+        x, _ = self.down_proj(x, skip_all_reduce=can_fuse_mlp_allreduce)
         return x
 
 

From 4373df55258e1eff6bf2b3899c78acf90eccfa83 Mon Sep 17 00:00:00 2001
From: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
Date: Thu, 7 Aug 2025 07:23:41 +0800
Subject: [PATCH 391/396] add flashinfer mxfp4 (#8847)

---
 .../srt/layers/moe/fused_moe_triton/layer.py  |  22 +-
 .../sglang/srt/layers/quantization/mxfp4.py   | 214 ++++++++++++++++--
 python/sglang/srt/server_args.py              |  16 +-
 3 files changed, 230 insertions(+), 22 deletions(-)

diff --git a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
index 2c02a7463ca0..ca0c2c5f0423 100644
--- a/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/layer.py
@@ -38,6 +38,7 @@
     is_flashinfer_available,
     is_hip,
     next_power_of_2,
+    round_up,
 )
 
 if is_flashinfer_available():
@@ -146,7 +147,6 @@ def __init__(
 
         self.layer_id = layer_id
         self.top_k = top_k
-        self.hidden_size = hidden_size
         self.num_experts = num_experts
         self.num_fused_shared_experts = num_fused_shared_experts
         self.expert_map_cpu = None
@@ -206,6 +206,16 @@ def __init__(
         assert self.quant_method is not None
 
         self.quant_config = quant_config
+        if (
+            self.quant_config is not None
+            and self.quant_config.get_name() == "mxfp4"
+            and (
+                get_bool_env_var("SGLANG_USE_FLASHINFER_MXFP4_MOE")
+                or get_bool_env_var("SGLANG_USE_FLASHINFER_MXFP4_BF16_MOE")
+            )
+        ):
+            hidden_size = round_up(hidden_size, 256)
+        self.hidden_size = hidden_size
         self.quant_method.create_weights(
             layer=self,
             num_experts=self.num_local_experts,
@@ -784,6 +794,14 @@ def weight_loader_fused(
             )
 
     def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
+        origin_hidden_states_dim = hidden_states.shape[-1]
+        if self.hidden_size != origin_hidden_states_dim:
+            hidden_states = torch.nn.functional.pad(
+                hidden_states,
+                (0, self.hidden_size - origin_hidden_states_dim),
+                mode="constant",
+                value=0.0,
+            )
         assert self.quant_method is not None
 
         if self.moe_ep_size > 1 and not self.enable_flashinfer_cutlass_moe:
@@ -829,7 +847,7 @@ def forward(self, hidden_states: torch.Tensor, topk_output: StandardTopKOutput):
         if self.reduce_results and (self.moe_tp_size > 1 or self.moe_ep_size > 1):
             final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
 
-        return final_hidden_states
+        return final_hidden_states[..., :origin_hidden_states_dim].contiguous()
 
     @classmethod
     def make_expert_params_mapping(
diff --git a/python/sglang/srt/layers/quantization/mxfp4.py b/python/sglang/srt/layers/quantization/mxfp4.py
index 7103cb8bee5a..db5d23accd2d 100644
--- a/python/sglang/srt/layers/quantization/mxfp4.py
+++ b/python/sglang/srt/layers/quantization/mxfp4.py
@@ -21,6 +21,7 @@
 from sglang.srt.layers.quantization.utils import is_layer_skipped
 from sglang.srt.utils import (
     direct_register_custom_op,
+    get_bool_env_var,
     is_cuda,
     is_flashinfer_available,
     is_hip,
@@ -31,6 +32,12 @@
 
 has_triton_kernels = importlib.util.find_spec("triton_kernels") is not None
 
+# Environment variables for FlashInfer MXFP4 MoE backend
+USE_FLASHINFER_MXFP4_MOE = get_bool_env_var("SGLANG_USE_FLASHINFER_MXFP4_MOE", "false")
+USE_FLASHINFER_MXFP4_BF16_MOE = get_bool_env_var(
+    "SGLANG_USE_FLASHINFER_MXFP4_BF16_MOE", "false"
+)
+
 if is_flashinfer_available():
     # from flashinfer.fused_moe import cutlass_fused_moe
     from flashinfer import (
@@ -228,16 +235,28 @@ def create_weights(
         self.num_experts = num_experts
         weight_dtype = torch.uint8
         scale_dtype = torch.uint8
-
-        intermediate_size *= 2
         mxfp4_block = 32
 
-        self.intermediate_size = intermediate_size
+        # pad the intermediate size to be a multiple of 2 * mxfp4_block
+        # for to hold non-uniform sharded tensor as well as swizzling
+        if USE_FLASHINFER_MXFP4_MOE or USE_FLASHINFER_MXFP4_BF16_MOE:
+            intermediate_size_per_partition_after_pad = round_up(intermediate_size, 256)
+            hidden_size = round_up(hidden_size, 256)
+        elif is_hip():
+            intermediate_size_per_partition_after_pad = round_up(intermediate_size, 128)
+        else:
+            intermediate_size_per_partition_after_pad = round_up(intermediate_size, 64)
+
+        self.intermediate_size = intermediate_size_per_partition_after_pad
+
         self.hidden_size = hidden_size
         # Fused gate_up_proj (column parallel)
         w13_weight = torch.nn.Parameter(
             torch.zeros(
-                num_experts, 2 * intermediate_size, hidden_size // 2, dtype=weight_dtype
+                num_experts,
+                2 * intermediate_size_per_partition_after_pad,
+                hidden_size // 2,
+                dtype=weight_dtype,
             ),
             requires_grad=False,
         )
@@ -247,7 +266,7 @@ def create_weights(
         w13_weight_scale = torch.nn.Parameter(
             torch.zeros(
                 num_experts,
-                2 * intermediate_size,
+                2 * intermediate_size_per_partition_after_pad,
                 hidden_size // mxfp4_block,
                 dtype=scale_dtype,
             ),
@@ -257,7 +276,11 @@ def create_weights(
         set_weight_attrs(w13_weight_scale, extra_weight_attrs)
 
         w13_weight_bias = torch.nn.Parameter(
-            torch.zeros(num_experts, 2 * intermediate_size, dtype=torch.bfloat16),
+            torch.zeros(
+                num_experts,
+                2 * intermediate_size_per_partition_after_pad,
+                dtype=torch.bfloat16,
+            ),
             requires_grad=False,
         )
         layer.register_parameter("w13_weight_bias", w13_weight_bias)
@@ -266,7 +289,10 @@ def create_weights(
         # down_proj (row parallel)
         w2_weight = torch.nn.Parameter(
             torch.zeros(
-                num_experts, hidden_size, intermediate_size // 2, dtype=weight_dtype
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition_after_pad // 2,
+                dtype=weight_dtype,
             ),
             requires_grad=False,
         )
@@ -277,7 +303,7 @@ def create_weights(
             torch.zeros(
                 num_experts,
                 hidden_size,
-                intermediate_size // mxfp4_block,
+                intermediate_size_per_partition_after_pad // mxfp4_block,
                 dtype=scale_dtype,
             ),
             requires_grad=False,
@@ -293,6 +319,158 @@ def create_weights(
         set_weight_attrs(w2_weight_bias, extra_weight_attrs)
 
     def process_weights_after_loading(self, layer):
+        if USE_FLASHINFER_MXFP4_MOE or USE_FLASHINFER_MXFP4_BF16_MOE:
+            logger.info(
+                "Shuffling MoE weights for FlashInfer, it might take a while..."
+            )
+            layer.gemm1_alpha = Parameter(
+                torch.tensor([1.702] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            layer.gemm1_beta = Parameter(
+                torch.tensor([1.0] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            layer.gemm1_clamp_limit = Parameter(
+                torch.tensor([7.0] * self.num_experts, dtype=torch.float32).cuda(),
+                requires_grad=False,
+            )
+            sf_block_size = 32  # mxfp4 block size
+
+            assert (
+                layer.w13_weight.dim() == 3
+                and layer.w13_weight.shape[0] == self.num_experts
+                and layer.w13_weight.shape[1] == self.intermediate_size * 2
+                and layer.w13_weight.shape[2] == self.hidden_size // 2
+            )
+            assert (
+                layer.w13_weight_scale.dim() == 3
+                and layer.w13_weight_scale.shape[0] == self.num_experts
+                and layer.w13_weight_scale.shape[1] == self.intermediate_size * 2
+                and layer.w13_weight_scale.shape[2] == self.hidden_size // sf_block_size
+            )
+            assert (
+                layer.w2_weight.dim() == 3
+                and layer.w2_weight.shape[0] == self.num_experts
+                and layer.w2_weight.shape[1] == self.hidden_size
+                and layer.w2_weight.shape[2] == self.intermediate_size // 2
+            )
+            assert (
+                layer.w2_weight_scale.dim() == 3
+                and layer.w2_weight_scale.shape[1] == self.hidden_size
+                and layer.w2_weight_scale.shape[2]
+                == self.intermediate_size // sf_block_size
+            )
+            assert (
+                layer.w13_weight_bias.dim() == 2
+                and layer.w13_weight_bias.shape[0] == self.num_experts
+                and layer.w13_weight_bias.shape[1] == self.intermediate_size * 2
+            )
+            assert (
+                layer.w2_weight_bias.dim() == 2
+                and layer.w2_weight_bias.shape[0] == self.num_experts
+                and layer.w2_weight_bias.shape[1] == self.hidden_size
+            )
+
+            w13_weight_scale = layer.w13_weight_scale.data
+            w2_weight_scale = layer.w2_weight_scale.data
+            w13_weight = layer.w13_weight.data
+            w2_weight = layer.w2_weight.data
+            w13_bias = layer.w13_weight_bias.data.to(torch.float32)
+            w2_bias = layer.w2_weight_bias.data.to(torch.float32)
+
+            # Swap w1 and w3 as the definition of
+            # swiglu is different in the trtllm-gen
+            def swap_every_two_rows(x, axis=-1):
+                shape = x.shape
+                if axis < 0:
+                    axis = len(shape) + axis
+
+                # Create a new shape with pairs swapped along specified axis
+                new_shape = list(shape)
+                new_shape[axis] = shape[axis] // 2
+                new_shape.insert(axis + 1, 2)
+
+                # Reshape to expose pairs, swap them, and reshape back
+                x = x.reshape(*new_shape)
+                x = x.flip(axis + 1)
+                new_shape = list(shape)
+                return x.reshape(*new_shape)
+
+            w13_weight_scale = swap_every_two_rows(w13_weight_scale, -2)
+            w13_weight = swap_every_two_rows(w13_weight, -2)
+            w13_bias = swap_every_two_rows(w13_bias, -1)
+
+            # Shuffle weights and scaling factors for transposed mma output
+            gemm1_weights_mxfp4_shuffled = []
+            gemm1_scales_mxfp4_shuffled = []
+            gemm2_weights_mxfp4_shuffled = []
+            gemm2_scales_mxfp4_shuffled = []
+            gemm1_bias_shuffled = []
+            gemm2_bias_shuffled = []
+            epilogue_tile_m = 128  # FIXME: this depends on the kernel internals
+            for i in range(self.num_experts):
+                gemm1_weights_mxfp4_shuffled.append(
+                    shuffle_matrix_a(w13_weight[i].view(torch.uint8), epilogue_tile_m)
+                )
+                gemm1_scales_mxfp4_shuffled.append(
+                    shuffle_matrix_sf_a(
+                        w13_weight_scale[i].view(torch.uint8), epilogue_tile_m
+                    )
+                )
+                gemm1_bias_shuffled.append(
+                    shuffle_matrix_a(
+                        w13_bias[i].clone().reshape(-1, 1), epilogue_tile_m
+                    )
+                )
+
+                gemm2_weights_mxfp4_shuffled.append(
+                    shuffle_matrix_a(w2_weight[i].view(torch.uint8), epilogue_tile_m)
+                )
+                gemm2_scales_mxfp4_shuffled.append(
+                    shuffle_matrix_sf_a(
+                        w2_weight_scale[i].view(torch.uint8), epilogue_tile_m
+                    )
+                )
+                gemm2_bias_shuffled.append(
+                    shuffle_matrix_a(w2_bias[i].clone().reshape(-1, 1), epilogue_tile_m)
+                )
+
+            w13_weight = torch.stack(gemm1_weights_mxfp4_shuffled)
+            w13_weight_scale = (
+                torch.stack(gemm1_scales_mxfp4_shuffled)
+                .reshape(
+                    self.num_experts,
+                    2 * self.intermediate_size,
+                    self.hidden_size // sf_block_size,
+                )
+                .view(torch.float8_e4m3fn)
+            )
+
+            w2_weight = torch.stack(gemm2_weights_mxfp4_shuffled)
+            w2_weight_scale = (
+                torch.stack(gemm2_scales_mxfp4_shuffled)
+                .reshape(
+                    self.num_experts,
+                    self.hidden_size,
+                    self.intermediate_size // sf_block_size,
+                )
+                .view(torch.float8_e4m3fn)
+            )
+
+            layer.w13_weight = Parameter(w13_weight, requires_grad=False)
+            layer.w13_weight_scale = Parameter(w13_weight_scale, requires_grad=False)
+            layer.w2_weight = Parameter(w2_weight, requires_grad=False)
+            layer.w2_weight_scale = Parameter(w2_weight_scale, requires_grad=False)
+            layer.w13_weight_bias = Parameter(
+                torch.stack(gemm1_bias_shuffled).reshape(self.num_experts, -1),
+                requires_grad=False,
+            )
+            layer.w2_weight_bias = Parameter(
+                torch.stack(gemm2_bias_shuffled).reshape(self.num_experts, -1),
+                requires_grad=False,
+            )
+            return
 
         from triton_kernels.matmul_ogs import FlexCtx, PrecisionConfig
 
@@ -366,22 +544,21 @@ def apply(
         activation_alpha: Optional[float] = None,
         swiglu_limit: Optional[float] = None,
     ) -> torch.Tensor:
-        # avoid import error when triton_kernel is not installed
-        # from vllm.model_executor.layers.fused_moe.triton_kernels_moe import (
-        #     triton_kernel_moe_forward)
-
-        """
-        if (envs.VLLM_USE_FLASHINFER_MXFP4_MOE
-                or envs.VLLM_USE_FLASHINFER_MXFP4_BF16_MOE):
-            assert not self.moe.use_ep, (
-                "EP is not supported for flashinfer mxfp4 moe backend yet.")
-            if envs.VLLM_USE_FLASHINFER_MXFP4_BF16_MOE:
+        if USE_FLASHINFER_MXFP4_MOE or USE_FLASHINFER_MXFP4_BF16_MOE:
+            # When USE_FLASHINFER_MXFP4_BF16_MOE is enabled, we don't need to quantize the input,
+            # TRT-LLM automatically handles quantization in the kernel implementation and pipelines it with GEMM operations,
+            # which can theoretically improve performance
+            if USE_FLASHINFER_MXFP4_BF16_MOE:
                 assert x.dtype == torch.bfloat16
                 x_quant = x
                 x_scale = None
             else:
                 x_quant, x_scale = mxfp8_quantize(x, False)  # to mxfp8
                 x_scale = x_scale.view(torch.float8_e4m3fn).reshape(-1)
+
+            topk_weights, topk_ids, router_logits = topk_output
+            top_k = topk_weights.shape[-1]
+
             trtllm_gen_output = trtllm_fp4_block_scale_moe(
                 router_logits.to(torch.bfloat16),
                 None,  # routing_bias
@@ -412,7 +589,6 @@ def apply(
                 True,  # do finalize
             )[0]
             return trtllm_gen_output
-        """
 
         if self.use_triton_kernels:
             if self.with_bias:
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 2623a1027c1f..6412398bb734 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -464,7 +464,21 @@ def print_deprecated_warning(message: str):
         model_arch = self.get_hf_config().architectures[0]
         if model_arch in ["GptOssForCausalLM"]:
             self.attention_backend = "triton"
-            self.enable_triton_kernel_moe = True
+
+            # Check if FlashInfer MXFP4 MoE is enabled
+            from sglang.srt.utils import get_bool_env_var
+
+            USE_FLASHINFER_MXFP4_MOE = get_bool_env_var(
+                "SGLANG_USE_FLASHINFER_MXFP4_MOE", "false"
+            )
+            USE_FLASHINFER_MXFP4_BF16_MOE = get_bool_env_var(
+                "SGLANG_USE_FLASHINFER_MXFP4_BF16_MOE", "false"
+            )
+
+            # Only enable Triton kernel MoE if FlashInfer is not enabled
+            if not (USE_FLASHINFER_MXFP4_MOE or USE_FLASHINFER_MXFP4_BF16_MOE):
+                self.enable_triton_kernel_moe = True
+
             self.disable_hybrid_swa_memory = True
 
             quantization_config = getattr(

From 5b6acc1495f4c4d44bfdb0ce8090426de280b002 Mon Sep 17 00:00:00 2001
From: Cheng Wan <54331508+ch-wan@users.noreply.github.com>
Date: Wed, 6 Aug 2025 18:02:31 -0700
Subject: [PATCH 392/396] fix glm4 moe (#8883)

---
 python/sglang/srt/models/glm4_moe.py | 23 +++++++++++++++++++----
 1 file changed, 19 insertions(+), 4 deletions(-)

diff --git a/python/sglang/srt/models/glm4_moe.py b/python/sglang/srt/models/glm4_moe.py
index 4744c0c31859..67ef6ca79d12 100644
--- a/python/sglang/srt/models/glm4_moe.py
+++ b/python/sglang/srt/models/glm4_moe.py
@@ -527,7 +527,10 @@ def __init__(
         self._enable_deepep_moe = global_server_args_dict["moe_a2a_backend"].is_deepep()
 
     def forward_normal_dual_stream(
-        self, hidden_states: torch.Tensor, can_fuse_mlp_allreduce: bool = False
+        self,
+        hidden_states: torch.Tensor,
+        can_fuse_mlp_allreduce: bool = False,
+        use_reduce_scatter: bool = False,
     ) -> torch.Tensor:
 
         current_stream = torch.cuda.current_stream()
@@ -548,21 +551,32 @@ def forward_normal_dual_stream(
         current_stream.wait_stream(self.alt_stream)
 
         if self.ep_size > 1:
-            if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+            if (
+                self.tp_size > 1
+                and not can_fuse_mlp_allreduce
+                and not use_reduce_scatter
+            ):
                 final_hidden_states = tensor_model_parallel_all_reduce(
                     final_hidden_states
                 )
             final_hidden_states += shared_output
         else:
             final_hidden_states += shared_output
-            if self.tp_size > 1 and not can_fuse_mlp_allreduce:
+            if (
+                self.tp_size > 1
+                and not can_fuse_mlp_allreduce
+                and not use_reduce_scatter
+            ):
                 final_hidden_states = tensor_model_parallel_all_reduce(
                     final_hidden_states
                 )
         return final_hidden_states
 
     def forward_normal(
-        self, hidden_states: torch.Tensor, can_fuse_mlp_allreduce: bool = False
+        self,
+        hidden_states: torch.Tensor,
+        can_fuse_mlp_allreduce: bool = False,
+        use_reduce_scatter: bool = False,
     ) -> torch.Tensor:
         if hasattr(self, "shared_experts") and use_intel_amx_backend(
             self.shared_experts.gate_up_proj
@@ -681,6 +695,7 @@ def __init__(
             layer_scatter_modes=self.layer_scatter_modes,
             input_layernorm=self.input_layernorm,
             post_attention_layernorm=self.post_attention_layernorm,
+            allow_reduce_scatter=True,
         )
 
     def forward(

From 6ad6c8c9e6623fba797379566e4d1a3887bfee7f Mon Sep 17 00:00:00 2001
From: eigen <52445717+yyihuang@users.noreply.github.com>
Date: Wed, 6 Aug 2025 22:18:27 -0400
Subject: [PATCH 393/396] feat: openai oss attention sink support with
 trtllm-gen backend #8825 (#8834)

Co-authored-by: averyhuang <averyh@nvidia.com>
---
 .../layers/attention/trtllm_mha_backend.py    | 34 +++++++++++--------
 .../sglang/srt/model_executor/model_runner.py |  6 ++--
 python/sglang/srt/models/gpt_oss.py           |  2 +-
 python/sglang/srt/server_args.py              | 17 ++++++++--
 4 files changed, 37 insertions(+), 22 deletions(-)

diff --git a/python/sglang/srt/layers/attention/trtllm_mha_backend.py b/python/sglang/srt/layers/attention/trtllm_mha_backend.py
index 1d197c5da969..d9868b30712a 100644
--- a/python/sglang/srt/layers/attention/trtllm_mha_backend.py
+++ b/python/sglang/srt/layers/attention/trtllm_mha_backend.py
@@ -1,7 +1,8 @@
 from __future__ import annotations
 
 """
-Support attention backend for TRTLLM MLA kernels from flashinfer.
+Support attention backend for TRTLLM MHA kernels from flashinfer.
+The kernel supports sm100 only, with sliding window and attention sink features.
 """
 
 from dataclasses import dataclass
@@ -57,11 +58,6 @@ def __init__(
 
         # MHA-specific dimensions
         self.max_context_len = model_runner.model_config.context_len
-        self.sliding_window_size = (
-            model_runner.sliding_window_size
-            if model_runner.sliding_window_size is not None
-            else -1  # -1 indicates full attention
-        )
         self.hidden_size = config.hidden_size
 
         # Runtime parameters
@@ -117,10 +113,10 @@ def init_forward_metadata_capture_cuda_graph(
         metadata = TRTLLMMHAMetadata()
 
         # Get sequence information
-        metadata.cache_seqlens_int32 = seq_lens.to(torch.int32)
+        metadata.cache_seqlens_int32 = seq_lens[:bs].to(torch.int32)
 
         # Precompute maximum sequence length
-        metadata.max_seq_len_k = seq_lens.max().item()
+        metadata.max_seq_len_k = self.max_context_len
 
         # Precompute page table
         metadata.page_table = self.decode_cuda_graph_metadata["page_table"][:bs, :]
@@ -149,7 +145,7 @@ def init_forward_metadata_replay_cuda_graph(
         metadata = self.decode_cuda_graph_metadata[bs]
         max_len = seq_lens_cpu.max().item()
         max_seq_pages = (max_len + self.page_size - 1) // self.page_size
-        metadata.max_seq_len_k = max_len
+        metadata.max_seq_len_k = self.max_context_len
 
         metadata.cache_seqlens_int32.copy_(seq_lens)
         page_indices = self.req_to_token[
@@ -217,6 +213,7 @@ def forward_decode(
         layer: RadixAttention,
         forward_batch: ForwardBatch,
         save_kv_cache: bool = True,
+        **kwargs,
     ) -> torch.Tensor:
         """Run forward for decode using TRTLLM MHA kernel."""
         cache_loc = forward_batch.out_cache_loc
@@ -228,7 +225,7 @@ def forward_decode(
         q = q.contiguous().view(-1, layer.tp_q_head_num, layer.head_dim)
         k_cache, v_cache = forward_batch.token_to_kv_pool.get_kv_buffer(layer.layer_id)
         # shape conversion:
-        # [bs, page_size, num_kv_heads, head_dim] -> [bs, num_kv_heads, page_size, head_dim]
+        # [num_pages, page_size, num_kv_heads, head_dim] -> [num_pages, num_kv_heads, page_size, head_dim]
         k_cache = k_cache.view(
             -1, self.page_size, layer.tp_k_head_num, layer.head_dim
         ).permute(0, 2, 1, 3)
@@ -237,7 +234,7 @@ def forward_decode(
         ).permute(0, 2, 1, 3)
         kv_cache = (k_cache, v_cache)
 
-        # TODO: bmm1_scale and bmm2_scale might require modification
+        # TODO: add support for quantization
         q_scale = 1.0
         k_scale = (
             layer.k_scale_float
@@ -246,6 +243,8 @@ def forward_decode(
         )
         bmm1_scale = q_scale * k_scale * layer.scaling
         bmm2_scale = 1.0
+        # sink: additional value per head in the denominator of the softmax.
+        attention_sink = kwargs.get("sinks", None)
 
         # Call TRT-LLM kernel
         # raw_out: like q, [bs, acc_q_len, num_q_heads, head_dim] but with output dtype
@@ -258,8 +257,9 @@ def forward_decode(
             max_seq_len=self.forward_metadata.max_seq_len_k,
             bmm1_scale=bmm1_scale,
             bmm2_scale=bmm2_scale,
-            window_left=self.sliding_window_size,
+            window_left=layer.sliding_window_size,
             # TODO: add attention_sink operation or nvfp4 scale factor if needed
+            sinks=attention_sink,
         )
 
         return o.view(-1, layer.tp_q_head_num * layer.head_dim)
@@ -272,6 +272,7 @@ def forward_extend(
         layer: RadixAttention,
         forward_batch: ForwardBatch,
         save_kv_cache=True,
+        **kwargs,
     ):
         cache_loc = forward_batch.out_cache_loc
         if save_kv_cache and k is not None:
@@ -279,6 +280,7 @@ def forward_extend(
                 layer, cache_loc, k, v, layer.k_scale, layer.v_scale
             )
         q = q.contiguous().view(-1, layer.tp_q_head_num, layer.head_dim)
+        # [num_pages, page_size, num_kv_heads, head_dim] -> [num_pages, num_kv_heads, page_size, head_dim]
         k_cache, v_cache = forward_batch.token_to_kv_pool.get_kv_buffer(layer.layer_id)
         k_cache = k_cache.view(
             -1, self.page_size, layer.tp_k_head_num, layer.head_dim
@@ -288,8 +290,9 @@ def forward_extend(
         ).permute(0, 2, 1, 3)
         kv_cache = (k_cache, v_cache)
 
-        # TODO: bmm1_scale and bmm2_scale might require modification
-        # TODO: Change once quantization is supported
+        # sink: additional value per head in the denominator of the softmax.
+        attention_sink = kwargs.get("sinks", None)
+        # TODO: add support for quantization
         q_scale = 1.0
         k_scale = (
             layer.k_scale_float
@@ -312,8 +315,9 @@ def forward_extend(
             batch_size=forward_batch.batch_size,
             cum_seq_lens_q=self.forward_metadata.cu_seqlens_q,
             cum_seq_lens_kv=self.forward_metadata.cu_seqlens_k,
-            window_left=self.sliding_window_size,
+            window_left=layer.sliding_window_size,
             # TODO: add attention_sink operation or nvfp4 scale factor if needed
+            sinks=attention_sink,
         )
 
         return o.view(-1, layer.tp_q_head_num * layer.head_dim)
diff --git a/python/sglang/srt/model_executor/model_runner.py b/python/sglang/srt/model_executor/model_runner.py
index 53c3d51f6eea..fe5d2c47871a 100644
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -1443,13 +1443,13 @@ def _get_attention_backend_from_str(self, backend_str: str):
             )
 
             return CutlassMLABackend(self)
-        elif self.server_args.attention_backend == "trtllm_mla":
+        elif backend_str == "trtllm_mla":
             if not self.use_mla_backend:
                 raise ValueError("trtllm_mla backend can only be used with MLA models.")
             from sglang.srt.layers.attention.trtllm_mla_backend import TRTLLMMLABackend
 
             return TRTLLMMLABackend(self)
-        elif self.server_args.attention_backend == "trtllm_mha":
+        elif backend_str == "trtllm_mha":
             if self.use_mla_backend:
                 raise ValueError(
                     "trtllm_mha backend can only be used with non-MLA models."
@@ -1460,7 +1460,7 @@ def _get_attention_backend_from_str(self, backend_str: str):
 
             return TRTLLMHAAttnBackend(self)
 
-        elif self.server_args.attention_backend == "intel_amx":
+        elif backend_str == "intel_amx":
             from sglang.srt.layers.attention.intel_amx_backend import (
                 IntelAMXAttnBackend,
             )
diff --git a/python/sglang/srt/models/gpt_oss.py b/python/sglang/srt/models/gpt_oss.py
index 58b68fb385ca..b523c2e1bd4a 100644
--- a/python/sglang/srt/models/gpt_oss.py
+++ b/python/sglang/srt/models/gpt_oss.py
@@ -301,7 +301,7 @@ def forward_core(self, intermediate_state):
         hidden_states, forward_batch, inner_state = intermediate_state
         if inner_state is None:
             return hidden_states
-        attn_output = self.attn(*inner_state, sinks=self.sinks)
+        attn_output = self.attn(*inner_state, sinks=self.sinks.to(torch.float32))
         output, _ = self.o_proj(attn_output)
         return output
 
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 6412398bb734..605214a9823c 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -445,7 +445,11 @@ def print_deprecated_warning(message: str):
                     "trtllm_mla backend does not support speculative decoding yet."
                 )
 
-        if self.attention_backend == "trtllm_mha":
+        if (
+            self.attention_backend == "trtllm_mha"
+            or self.decode_attention_backend == "trtllm_mha"
+            or self.prefill_attention_backend == "trtllm_mha"
+        ):
             if not is_sm100_supported():
                 raise ValueError(
                     "TRTLLM MHA backend is only supported on Blackwell GPUs (SM100). Please use a different backend."
@@ -459,11 +463,18 @@ def print_deprecated_warning(message: str):
 
             if self.speculative_algorithm is not None:
                 raise ValueError(
-                    "trtllm_mla backend does not support speculative decoding yet."
+                    "trtllm_mha backend does not support speculative decoding yet."
                 )
+
         model_arch = self.get_hf_config().architectures[0]
         if model_arch in ["GptOssForCausalLM"]:
-            self.attention_backend = "triton"
+            if self.attention_backend is None:
+                # default is triton, but we could have trtllm_mha as an option
+                self.attention_backend = "triton"
+            assert (
+                self.attention_backend == "trtllm_mha"
+                or self.attention_backend == "triton"
+            )
 
             # Check if FlashInfer MXFP4 MoE is enabled
             from sglang.srt.utils import get_bool_env_var

From 6210e2c4f0fb666e1d942857d028ec39cc7527e1 Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Wed, 6 Aug 2025 19:39:45 -0700
Subject: [PATCH 394/396] Support GPU pinning for LoRA (#8697)

---
 docs/backend/lora.ipynb                       |  72 ++++
 python/sglang/srt/entrypoints/engine.py       |   3 +-
 python/sglang/srt/lora/lora_manager.py        |  67 +++-
 python/sglang/srt/lora/lora_registry.py       |   5 +-
 python/sglang/srt/lora/mem_pool.py            |  48 ++-
 python/sglang/srt/managers/io_struct.py       |   3 +
 python/sglang/srt/managers/scheduler.py       |  13 +-
 .../sglang/srt/managers/tokenizer_manager.py  |   3 +-
 python/sglang/srt/managers/tp_worker.py       |   3 +
 .../srt/managers/tp_worker_overlap_thread.py  |   3 +
 python/sglang/srt/server_args.py              |  10 +-
 python/sglang/test/runners.py                 |   4 +-
 test/srt/models/lora/test_lora_update.py      | 325 ++++++++++++------
 13 files changed, 425 insertions(+), 134 deletions(-)

diff --git a/docs/backend/lora.ipynb b/docs/backend/lora.ipynb
index 4967b9c75d28..733f751789ff 100644
--- a/docs/backend/lora.ipynb
+++ b/docs/backend/lora.ipynb
@@ -381,6 +381,78 @@
     "print(f\"Output from lora1 (updated): \\n{response.json()[1]['text']}\\n\")"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### LoRA GPU Pinning"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Another advanced option is to specify adapters as `pinned` during loading. When an adapter is pinned, it is permanently assigned to one of the available GPU pool slots (as configured by `--max-loras-per-batch`) and will not be evicted from GPU memory during runtime. Instead, it remains resident until it is explicitly unloaded.\n",
+    "\n",
+    "This can improve performance in scenarios where the same adapter is frequently used across requests, by avoiding repeated memory transfers and reinitialization overhead. However, since GPU pool slots are limited, pinning adapters reduces the flexibility of the system to dynamically load other adapters on demand. If too many adapters are pinned, it may lead to degraded performance, or in the most extreme case (`Number of pinned adapters == max-loras-per-batch`), halt all unpinned requests. Therefore, currently SGLang limits maximal number of pinned adapters to `max-loras-per-batch - 1` to prevent unexpected starvations. \n",
+    "\n",
+    "In the example below, we unload `lora1` and reload it as a `pinned` adapter:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "response = requests.post(\n",
+    "    url + \"/unload_lora_adapter\",\n",
+    "    json={\n",
+    "        \"lora_name\": \"lora1\",\n",
+    "    },\n",
+    ")\n",
+    "\n",
+    "response = requests.post(\n",
+    "    url + \"/load_lora_adapter\",\n",
+    "    json={\n",
+    "        \"lora_name\": \"lora1\",\n",
+    "        \"lora_path\": lora1,\n",
+    "        \"pinned\": True,  # Pin the adapter to GPU\n",
+    "    },\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Verify that the result is identical as before:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "url = f\"http://127.0.0.1:{port}\"\n",
+    "json_data = {\n",
+    "    \"text\": [\n",
+    "        \"List 3 countries and their capitals.\",\n",
+    "        \"List 3 countries and their capitals.\",\n",
+    "    ],\n",
+    "    \"sampling_params\": {\"max_new_tokens\": 32, \"temperature\": 0},\n",
+    "    # The first input uses lora0, and the second input uses lora1\n",
+    "    \"lora_path\": [\"lora0\", \"lora1\"],\n",
+    "}\n",
+    "response = requests.post(\n",
+    "    url + \"/generate\",\n",
+    "    json=json_data,\n",
+    ")\n",
+    "print(f\"Output from lora0: \\n{response.json()[0]['text']}\\n\")\n",
+    "print(f\"Output from lora1 (pinned): \\n{response.json()[1]['text']}\\n\")"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
diff --git a/python/sglang/srt/entrypoints/engine.py b/python/sglang/srt/entrypoints/engine.py
index 73f0f76d04de..c09a128b53a0 100644
--- a/python/sglang/srt/entrypoints/engine.py
+++ b/python/sglang/srt/entrypoints/engine.py
@@ -492,12 +492,13 @@ def get_weights_by_name(self, name: str, truncate_size: int = 100):
             self.tokenizer_manager.get_weights_by_name(obj, None)
         )
 
-    def load_lora_adapter(self, lora_name: str, lora_path: str):
+    def load_lora_adapter(self, lora_name: str, lora_path: str, pinned: bool = False):
         """Load a new LoRA adapter without re-launching the engine."""
 
         obj = LoadLoRAAdapterReqInput(
             lora_name=lora_name,
             lora_path=lora_path,
+            pinned=pinned,
         )
 
         loop = asyncio.get_event_loop()
diff --git a/python/sglang/srt/lora/lora_manager.py b/python/sglang/srt/lora/lora_manager.py
index e4fe1d0d1955..e9fdd0a11f11 100644
--- a/python/sglang/srt/lora/lora_manager.py
+++ b/python/sglang/srt/lora/lora_manager.py
@@ -144,6 +144,7 @@ def load_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
 
             # keep metadata for displayed messages
             self.lora_refs[lora_ref.lora_id] = lora_ref
+            self.num_pinned_loras += int(lora_ref.pinned)
         except Exception as e:
             return self.create_lora_update_result(
                 success=False,
@@ -157,13 +158,22 @@ def validate_new_adapter(self, lora_config: LoRAConfig, lora_ref: LoRARef):
         Validate if an adapter can be loaded into the current LoRA memory pool and generate error if it is incompatible.
         """
 
+        # Check if the LoRA adapter shape is compatible with the current LoRA memory pool configuration.
         memory_pool = getattr(self, "memory_pool", None)
         incompatible = memory_pool and not memory_pool.can_support(lora_config)
         if incompatible:
             raise ValueError(
-                f"LoRA adapter {lora_ref.lora_name} with rank {lora_config.r} is incompatible with the current LoRA memory pool configuration. "
-                "Please ensure that the LoRA adapter's rank is within the configured `--max_lora_rank` and that the target modules are "
-                "included in `--enable_lora_modules`."
+                f"LoRA adapter {lora_ref.lora_name} with rank {lora_config.r} is incompatible with the current "
+                "LoRA memory pool configuration. Please ensure that the LoRA adapter's rank is within the configured "
+                "`--max-lora-rank` and that the target modules are included in `--lora-target-modules`."
+            )
+
+        # Ensure pinned LoRA adapters does not exceed maximal limit or cause starvation.
+        if lora_ref.pinned and self.num_pinned_loras >= self.max_loras_per_batch - 1:
+            raise ValueError(
+                f"Failed to load LoRA adapter {lora_ref.lora_name} as a pinned adapter. It is not allowed to pin all slots "
+                "in the LoRA memory pool to avoid starvation for unpinned adapters and base models. Please increase your "
+                "`--max-loras-per-batch` or load it as unpinned LoRA adapters."
             )
 
     def unload_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
@@ -172,15 +182,17 @@ def unload_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
         delete the corresponding LoRA modules.
         """
 
-        adapter = self.configs.get(lora_ref.lora_id, None)
+        adapter = self.configs.get(lora_ref.lora_id)
+        lora_ref = self.lora_refs.get(lora_ref.lora_id)
         assert (
-            adapter is not None
+            adapter is not None and lora_ref is not None
         ), f"LoRA adapter with ID {lora_ref.lora_id} is not loaded. This should have been verified before request is sent to the backend."
 
         try:
             del self.configs[lora_ref.lora_id]
             del self.loras[lora_ref.lora_id]
             del self.lora_refs[lora_ref.lora_id]
+            self.num_pinned_loras -= int(lora_ref.pinned)
         except Exception as e:
             return self.create_lora_update_result(
                 success=False,
@@ -189,11 +201,49 @@ def unload_lora_adapter(self, lora_ref: LoRARef) -> LoRAUpdateResult:
 
         return self.create_lora_update_result(success=True)
 
+    def validate_lora_batch(self, lora_ids: set[str]) -> bool:
+        """
+        Validate if the LoRA IDs in the batch can be loaded into the current LoRA memory pool.
+        """
+        if len(lora_ids) > self.max_loras_per_batch:
+            return False
+
+        # skip pinned LoRA check if no pinned LoRA adapters are loaded.
+        if self.num_pinned_loras == 0:
+            return True
+
+        # counting the number of pinned LoRA adapters in the batch.
+        pinned_loras_in_batch = 0
+        for lora_id in lora_ids:
+            if lora_id is not None:
+                lora_ref = self.lora_refs.get(lora_id)
+                assert (
+                    lora_ref is not None
+                ), f"LoRA ID {lora_id} not found in lora_refs."
+                pinned_loras_in_batch += int(lora_ref.pinned)
+
+        assert pinned_loras_in_batch <= self.num_pinned_loras, (
+            f"Number of pinned LoRA adapters in the batch ({pinned_loras_in_batch}) exceeds the total number of pinned adapters "
+            f"({self.num_pinned_loras}). This indicates a bug in the LoRA loading logic."
+        )
+
+        required_slots = len(lora_ids) - pinned_loras_in_batch
+        mem_pool_vacancy = self.memory_pool.max_loras_per_batch - self.num_pinned_loras
+
+        return required_slots <= mem_pool_vacancy
+
     def prepare_lora_batch(self, forward_batch: ForwardBatch):
+
         # Load active loras into lora memory pool
         cur_uids = set(forward_batch.lora_ids)
+
         assert len(cur_uids) <= self.max_loras_per_batch
-        self.memory_pool.prepare_lora_batch(cur_uids, self.loras, self.lora_modules)
+        self.memory_pool.prepare_lora_batch(
+            cur_uids=cur_uids,
+            lora_adapters=self.loras,
+            lora_modules=self.lora_modules,
+            lora_refs=self.lora_refs.copy(),  # copy snapshot of current lora_refs to avoid mutation during the batch preparation.
+        )
 
         # set up batch info shared by all lora modules
         bs = forward_batch.batch_size
@@ -366,6 +416,9 @@ def init_lora_adapters(self, lora_paths: Optional[Dict[str, LoRARef]] = None):
         # Mapping from LoRA ID to LoRARef object.
         self.lora_refs: Dict[str, LoRARef] = {}
 
+        # Count of pinned LoRA adapters.
+        self.num_pinned_loras: int = 0
+
         if lora_paths:
             for lora_ref in lora_paths.values():
                 result = self.load_lora_adapter(lora_ref)
@@ -399,7 +452,7 @@ def init_lora_shapes(
             self.max_lora_rank = max_lora_rank
         else:
             self.max_lora_rank = max(
-                [x.hf_config["r"] for x in self.configs.values()],
+                [x.r for x in self.configs.values()],
                 default=0,
             )
 
diff --git a/python/sglang/srt/lora/lora_registry.py b/python/sglang/srt/lora/lora_registry.py
index bb2fc56591e2..082f9a2d3566 100644
--- a/python/sglang/srt/lora/lora_registry.py
+++ b/python/sglang/srt/lora/lora_registry.py
@@ -28,14 +28,15 @@ class LoRARef:
     """
     Reference record for a LoRA model.
 
-    This object guarantees a unique ``lora_id`` and may include ``lora_name`` and ``lora_path``. The ID
-    eliminates conflicts from reused LoRA names or paths and can be used to generate deterministic cache
+    This object guarantees a unique ``lora_id`` and may include ``lora_name``, ``lora_path``, and ``pinned``.
+    The ID eliminates conflicts from reused LoRA names or paths and can be used to generate deterministic cache
     keys (e.g., radix cache).
     """
 
     lora_id: str = field(default_factory=lambda: uuid4().hex)
     lora_name: Optional[str] = None
     lora_path: Optional[str] = None
+    pinned: Optional[bool] = None
 
     def __post_init__(self):
         if self.lora_id is None:
diff --git a/python/sglang/srt/lora/mem_pool.py b/python/sglang/srt/lora/mem_pool.py
index ae856246dd92..cc00c721238d 100644
--- a/python/sglang/srt/lora/mem_pool.py
+++ b/python/sglang/srt/lora/mem_pool.py
@@ -1,3 +1,4 @@
+import logging
 from typing import Callable, Dict, Iterable, List, Optional, Set, Tuple, Union
 
 import torch
@@ -7,6 +8,7 @@
 from sglang.srt.lora.layers import BaseLayerWithLoRA
 from sglang.srt.lora.lora import LoRAAdapter
 from sglang.srt.lora.lora_config import LoRAConfig
+from sglang.srt.lora.lora_registry import LoRARef
 from sglang.srt.lora.utils import (
     ROW_PARALLELISM_LINEAR_LORA_NAMES,
     LoRAType,
@@ -16,6 +18,28 @@
     get_weight_name,
 )
 
+logger = logging.getLogger(__name__)
+
+
+class EmptySlot:
+    """
+    Singleton class to represent an empty slot in the memory pool.
+    This is used to improve readability by not using special str as a placeholder.
+    """
+
+    __slots__ = ()
+
+    def __repr__(self):
+        return "|EMPTY|"
+
+    def __new__(cls):
+        if not hasattr(cls, "_instance"):
+            cls._instance = super().__new__(cls)
+        return cls._instance
+
+
+EMPTY_SLOT = EmptySlot()
+
 
 class LoRAMemoryPool:
     """Class for memory pool management of lora modules"""
@@ -54,9 +78,11 @@ def __init__(
         self.uid_to_buffer_id: Dict[Optional[str], int] = {}
 
         # Buffer idx -> lora uid in memory pool
-        # All uids are initialized as empty strings for empty buffer slots
+        # All uids are initialized as `EmptySlot` for empty buffer slots
         # Here we don't initialize to None since None is a valid uid
-        self.buffer_id_to_uid: List[Optional[str]] = [""] * self.max_loras_per_batch
+        self.buffer_id_to_uid: List[Union[str, None, EmptySlot]] = [
+            EMPTY_SLOT
+        ] * self.max_loras_per_batch
 
         self.init_buffers(base_model)
 
@@ -154,17 +180,29 @@ def prepare_lora_batch(
         cur_uids: Set[Optional[str]],
         lora_adapters: Dict[str, LoRAAdapter],
         lora_modules: List[Dict[str, BaseLayerWithLoRA]],
+        lora_refs: Dict[str, LoRARef],
     ):
         def get_available_buffer_slot():
             for buffer_id in range(self.max_loras_per_batch):
                 # Prioritize empty slots
-                if self.buffer_id_to_uid[buffer_id] == "":
+                if self.buffer_id_to_uid[buffer_id] == EMPTY_SLOT:
                     return buffer_id
 
             for buffer_id in range(self.max_loras_per_batch):
+                uid = self.buffer_id_to_uid[buffer_id]
+
                 # Evict unneeded lora
-                if self.buffer_id_to_uid[buffer_id] not in cur_uids:
-                    self.uid_to_buffer_id.pop(self.buffer_id_to_uid[buffer_id])
+                if uid not in cur_uids:
+                    # Skip pinned LoRAs
+                    # TODO (lifuhuang): we might consider supporting pinning base model (uid == None) in the future.
+                    if uid is not None:
+                        lora_ref = lora_refs.get(uid)
+                        if lora_ref is not None and lora_ref.pinned:
+                            continue
+
+                    self.uid_to_buffer_id.pop(uid)
+                    logger.debug(f"Evicting LoRA {uid} from buffer slot {buffer_id}.")
+                    self.buffer_id_to_uid[buffer_id] = EMPTY_SLOT
                     return buffer_id
 
             raise ValueError(
diff --git a/python/sglang/srt/managers/io_struct.py b/python/sglang/srt/managers/io_struct.py
index 1a0cbeadbd0a..5461282125dc 100644
--- a/python/sglang/srt/managers/io_struct.py
+++ b/python/sglang/srt/managers/io_struct.py
@@ -1082,6 +1082,8 @@ class LoadLoRAAdapterReqInput:
     lora_name: str
     # The path of loading.
     lora_path: str
+    # Whether to pin the LoRA adapter in memory.
+    pinned: bool = False
     # The unique identifier for the LoRA adapter, which automatically generated in the `TokenizerManager`.
     lora_id: Optional[str] = None
 
@@ -1090,6 +1092,7 @@ def to_ref(self) -> LoRARef:
             lora_id=self.lora_id,
             lora_name=self.lora_name,
             lora_path=self.lora_path,
+            pinned=self.pinned,
         )
 
 
diff --git a/python/sglang/srt/managers/scheduler.py b/python/sglang/srt/managers/scheduler.py
index 6f6dee027dfc..6fd6ffe6437d 100644
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -1538,14 +1538,11 @@ def get_new_batch_prefill(self) -> Optional[ScheduleBatch]:
 
         # Get requests from the waiting queue to a new prefill batch
         for req in self.waiting_queue:
-            if (
-                self.enable_lora
-                and len(
-                    lora_set
-                    | set([req.lora_id for req in adder.can_run_list])
-                    | set([req.lora_id])
-                )
-                > self.max_loras_per_batch
+
+            if self.enable_lora and not self.tp_worker.can_run_lora_batch(
+                lora_set
+                | set([req.lora_id for req in adder.can_run_list])
+                | set([req.lora_id])
             ):
                 self.running_batch.batch_is_full = True
                 break
diff --git a/python/sglang/srt/managers/tokenizer_manager.py b/python/sglang/srt/managers/tokenizer_manager.py
index 498f0daefac1..50ac39f8859e 100644
--- a/python/sglang/srt/managers/tokenizer_manager.py
+++ b/python/sglang/srt/managers/tokenizer_manager.py
@@ -1129,6 +1129,7 @@ async def load_lora_adapter(
                 new_adapter = LoRARef(
                     lora_name=obj.lora_name,
                     lora_path=obj.lora_path,
+                    pinned=obj.pinned,
                 )
 
                 # Trigger the actual loading operation at the backend processes.
@@ -1186,7 +1187,7 @@ async def unload_lora_adapter(
 
                 return result
         except ValueError as e:
-            return UnloadLoRAAdapterReqOutput(success=False, rror_message=str(e))
+            return UnloadLoRAAdapterReqOutput(success=False, error_message=str(e))
 
     async def get_weights_by_name(
         self, obj: GetWeightsByNameReqInput, request: Optional[fastapi.Request] = None
diff --git a/python/sglang/srt/managers/tp_worker.py b/python/sglang/srt/managers/tp_worker.py
index 0b2900b37a7e..77dac1ea6c68 100644
--- a/python/sglang/srt/managers/tp_worker.py
+++ b/python/sglang/srt/managers/tp_worker.py
@@ -311,3 +311,6 @@ def load_lora_adapter(self, recv_req: LoadLoRAAdapterReqInput):
     def unload_lora_adapter(self, recv_req: UnloadLoRAAdapterReqInput):
         result = self.model_runner.unload_lora_adapter(recv_req.to_ref())
         return result
+
+    def can_run_lora_batch(self, lora_ids: list[str]) -> bool:
+        return self.model_runner.lora_manager.validate_lora_batch(lora_ids)
diff --git a/python/sglang/srt/managers/tp_worker_overlap_thread.py b/python/sglang/srt/managers/tp_worker_overlap_thread.py
index 76498514d663..674a941955cd 100644
--- a/python/sglang/srt/managers/tp_worker_overlap_thread.py
+++ b/python/sglang/srt/managers/tp_worker_overlap_thread.py
@@ -288,6 +288,9 @@ def load_lora_adapter(self, recv_req: LoadLoRAAdapterReqInput):
     def unload_lora_adapter(self, recv_req: UnloadLoRAAdapterReqInput):
         return self.worker.unload_lora_adapter(recv_req)
 
+    def can_run_lora_batch(self, lora_ids: list[str]) -> bool:
+        return self.worker.can_run_lora_batch(lora_ids)
+
     def __delete__(self):
         self.input_queue.put((None, None))
         self.copy_queue.put((None, None, None))
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
index 605214a9823c..8f8774f2a2fe 100644
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -2067,21 +2067,23 @@ def check_lora_server_args(self):
 
         if self.enable_lora:
             # Normalize lora_paths to a dictionary if it is a list.
+            # TODO (lifuhuang): support specifying pinned adapters in server_args.
             if isinstance(self.lora_paths, list):
                 lora_paths = self.lora_paths
                 self.lora_paths = {}
                 for lora_path in lora_paths:
                     if "=" in lora_path:
                         name, path = lora_path.split("=", 1)
-                        self.lora_paths[name] = LoRARef(lora_name=name, lora_path=path)
+                        self.lora_paths[name] = LoRARef(
+                            lora_name=name, lora_path=path, pinned=False
+                        )
                     else:
                         self.lora_paths[lora_path] = LoRARef(
-                            lora_name=lora_path,
-                            lora_path=lora_path,
+                            lora_name=lora_path, lora_path=lora_path, pinned=False
                         )
             elif isinstance(self.lora_paths, dict):
                 self.lora_paths = {
-                    k: LoRARef(lora_name=k, lora_path=v)
+                    k: LoRARef(lora_name=k, lora_path=v, pinned=False)
                     for k, v in self.lora_paths.items()
                 }
             elif self.lora_paths is None:
diff --git a/python/sglang/test/runners.py b/python/sglang/test/runners.py
index ee49584a0665..ba1519951a81 100644
--- a/python/sglang/test/runners.py
+++ b/python/sglang/test/runners.py
@@ -568,8 +568,8 @@ def __init__(
         else:
             self.tokenizer = None
 
-    def load_lora_adapter(self, lora_name: str, lora_path: str):
-        return self.engine.load_lora_adapter(lora_name, lora_path)
+    def load_lora_adapter(self, lora_name: str, lora_path: str, pinned: bool = False):
+        return self.engine.load_lora_adapter(lora_name, lora_path, pinned)
 
     def unload_lora_adapter(self, lora_name: str):
         return self.engine.unload_lora_adapter(lora_name)
diff --git a/test/srt/models/lora/test_lora_update.py b/test/srt/models/lora/test_lora_update.py
index ef5a4c845b92..5024a9c5dba1 100644
--- a/test/srt/models/lora/test_lora_update.py
+++ b/test/srt/models/lora/test_lora_update.py
@@ -231,88 +231,6 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
             ),
         ],
     ),
-    TestCase(
-        description="dynamic lora update with evictions",
-        base="meta-llama/Llama-3.1-8B-Instruct",
-        max_loras_per_batch=1,
-        all_adapters=[
-            "philschmid/code-llama-3-1-8b-text-to-sql-lora",
-            "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
-            "pbevan11/llama-3.1-8b-ocr-correction",
-        ],
-        initial_adapters=["philschmid/code-llama-3-1-8b-text-to-sql-lora"],
-        op_sequence=[
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data(
-                    "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"
-                ),
-                expected_error="not loaded",
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
-                expected_error="not loaded",
-            ),
-            Operation(
-                type=OperationType.LOAD,
-                data="pbevan11/llama-3.1-8b-ocr-correction",
-            ),
-            Operation(
-                type=OperationType.UNLOAD,
-                data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
-                expected_error="not loaded",
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
-            ),
-            Operation(
-                type=OperationType.LOAD,
-                data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
-            ),
-            Operation(
-                type=OperationType.LOAD,
-                data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data(
-                    "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"
-                ),
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data(
-                    "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"
-                ),
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
-            ),
-            Operation(
-                type=OperationType.FORWARD,
-                data=create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
-            ),
-        ],
-    ),
 ]
 TARGET_MODULE_TESTS = [
     TestCase(
@@ -593,9 +511,135 @@ def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
         ],
     ),
 ]
+EVICTION_TESTS = [
+    TestCase(
+        description="dynamic lora update with evictions",
+        base="meta-llama/Llama-3.1-8B-Instruct",
+        max_loras_per_batch=2,
+        all_adapters=[
+            "lora1=philschmid/code-llama-3-1-8b-text-to-sql-lora",
+            "lora2=Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+            "lora3=pbevan11/llama-3.1-8b-ocr-correction",
+        ],
+        enable_lora=True,
+        max_lora_rank=256,
+        lora_target_modules=["all"],
+        op_sequence=[
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora1",
+                    "lora_path": "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+                    "pinned": True,
+                },
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora2",
+                    "lora_path": "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+                    "pinned": True,
+                },
+                expected_error="starvation",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora2",
+                    "lora_path": "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
+                    "pinned": False,
+                },
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora3",
+                    "lora_path": "pbevan11/llama-3.1-8b-ocr-correction",
+                    "pinned": False,
+                },
+            ),
+            Operation(
+                type=OperationType.UNLOAD,
+                data="lora1",
+            ),
+            Operation(
+                type=OperationType.UNLOAD,
+                data="lora3",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora3",
+                    "lora_path": "pbevan11/llama-3.1-8b-ocr-correction",
+                    "pinned": True,
+                },
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora1",
+                    "lora_path": "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+                    "pinned": True,
+                },
+                expected_error="starvation",
+            ),
+            Operation(
+                type=OperationType.LOAD,
+                data={
+                    "lora_name": "lora1",
+                    "lora_path": "philschmid/code-llama-3-1-8b-text-to-sql-lora",
+                    "pinned": False,
+                },
+            ),
+            # pinned: lora3
+            # unpinned: lora1, lora2
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data(
+                    [
+                        "lora1",
+                        "lora2",
+                    ]
+                ),
+            ),
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data(
+                    [
+                        "lora1",
+                        "lora3",
+                    ]
+                ),
+            ),
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data(
+                    [
+                        "lora1",
+                        "lora2",
+                    ]
+                ),
+            ),
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data(
+                    [
+                        "lora1",
+                        "lora2",
+                        None,
+                    ]
+                ),
+            ),
+        ],
+    ),
+]
 
 ALL_TESTS = (
-    BASIC_TESTS + TARGET_MODULE_TESTS + MAX_LORA_RANK_TESTS + MAX_LOADED_LORAS_TESTS
+    BASIC_TESTS
+    + TARGET_MODULE_TESTS
+    + MAX_LORA_RANK_TESTS
+    + MAX_LOADED_LORAS_TESTS
+    + EVICTION_TESTS
 )
 
 
@@ -714,6 +758,7 @@ def load_lora_adapter(
         lora_name: str,
         lora_path: Optional[str] = None,
         expected_error: Optional[str] = None,
+        pinned: bool = False,
     ):
         """
         Load a LoRA adapter by name and path.
@@ -724,17 +769,31 @@ def load_lora_adapter(
         response = self.handle.load_lora_adapter(
             lora_name=lora_name,
             lora_path=lora_path,
+            pinned=pinned,
         )
         if expected_error:
-            self.testcase.assertFalse(response.success)
-            self.testcase.assertIn(expected_error, response.error_message)
+            self.testcase.assertFalse(
+                response.success, f"Expected failure for {lora_name}, but got success."
+            )
+            self.testcase.assertIn(
+                expected_error,
+                response.error_message,
+                f"Expected error message to contain '{expected_error}', but got '{response.error_message}'",
+            )
             print(f"Received error as expected: {response.error_message}")
         else:
             self.expected_adapters.add(lora_name)
-            self.testcase.assertTrue(response.success)
+            self.testcase.assertTrue(
+                response.success,
+                f"Failed to load LoRA adapter {lora_name}: {response.error_message}",
+            )
             loaded_adapters = set(response.loaded_adapters)
             print(f"loaded_adapters: {loaded_adapters}")
-            self.testcase.assertEqual(loaded_adapters, self.expected_adapters)
+            self.testcase.assertEqual(
+                loaded_adapters,
+                self.expected_adapters,
+                f"Expected loaded adapters to be {self.expected_adapters}, but got {loaded_adapters}",
+            )
 
     def unload_lora_adapter(self, lora_name: str):
         """
@@ -745,11 +804,18 @@ def unload_lora_adapter(self, lora_name: str):
         response = self.handle.unload_lora_adapter(
             lora_name=lora_name,
         )
-        self.testcase.assertTrue(response.success)
+        self.testcase.assertTrue(
+            response.success,
+            f"Failed to unload LoRA adapter {lora_name}: {response.error_message}",
+        )
         loaded_adapters = set(response.loaded_adapters)
 
         print(f"loaded_adapters: {loaded_adapters}")
-        self.testcase.assertEqual(loaded_adapters, self.expected_adapters)
+        self.testcase.assertEqual(
+            loaded_adapters,
+            self.expected_adapters,
+            f"Expected loaded adapters to be {self.expected_adapters}, but got {loaded_adapters}",
+        )
 
     def forward(
         self,
@@ -770,13 +836,21 @@ def forward(
         except ValueError as e:
             if expected_error:
                 error_message = str(e)
-                self.testcase.assertIn(expected_error, error_message)
+                self.testcase.assertIn(
+                    expected_error,
+                    error_message,
+                    f"Expected error message to contain '{expected_error}', but got '{error_message}'",
+                )
                 print(f"Received error as expected: {error_message}")
                 return error_message
 
             raise e
 
-        self.testcase.assertEqual(len(response.output_strs), len(prompts))
+        self.testcase.assertEqual(
+            len(response.output_strs),
+            len(prompts),
+            f"Expected {len(prompts)} outputs, but got {len(response.output_strs)}",
+        )
         output = response.output_strs
         print(f"output_strs: {output}")
 
@@ -837,6 +911,7 @@ def load_lora_adapter(
         lora_name: str,
         lora_path: Optional[str] = None,
         expected_error: Optional[str] = None,
+        pinned: bool = False,
     ):
         """
         Load a LoRA adapter by name and path.
@@ -846,18 +921,32 @@ def load_lora_adapter(
 
         response = requests.post(
             DEFAULT_URL_FOR_TEST + "/load_lora_adapter",
-            json={"lora_name": lora_name, "lora_path": lora_path},
+            json={"lora_name": lora_name, "lora_path": lora_path, "pinned": pinned},
         )
         if expected_error:
-            self.testcase.assertEqual(response.status_code, 400)
-            self.testcase.assertIn(expected_error, response.text)
+            self.testcase.assertEqual(
+                response.status_code,
+                400,
+                f"Expected error for {lora_name}, but got success.",
+            )
+            self.testcase.assertIn(
+                expected_error,
+                response.text,
+                f"Expected error message to contain '{expected_error}', but got '{response.text}'",
+            )
             print(f"Received error as expected: {response.text}")
         else:
             self.expected_adapters.add(lora_name)
-            self.testcase.assertTrue(response.ok)
+            self.testcase.assertTrue(
+                response.ok, f"Failed to load LoRA adapter {lora_name}: {response.text}"
+            )
             loaded_adapters = set(response.json()["loaded_adapters"])
             print(f"loaded_adapters: {loaded_adapters}")
-            self.testcase.assertEqual(loaded_adapters, self.expected_adapters)
+            self.testcase.assertEqual(
+                loaded_adapters,
+                self.expected_adapters,
+                f"Expected loaded adapters to be {self.expected_adapters}, but got {loaded_adapters}",
+            )
 
     def unload_lora_adapter(self, lora_name: str):
         """
@@ -869,11 +958,17 @@ def unload_lora_adapter(self, lora_name: str):
             DEFAULT_URL_FOR_TEST + "/unload_lora_adapter",
             json={"lora_name": lora_name},
         )
-        self.testcase.assertTrue(response.ok)
+        self.testcase.assertTrue(
+            response.ok, f"Failed to unload LoRA adapter {lora_name}: {response.text}"
+        )
         loaded_adapters = set(response.json()["loaded_adapters"])
 
         print(f"loaded_adapters: {loaded_adapters}")
-        self.testcase.assertEqual(loaded_adapters, self.expected_adapters)
+        self.testcase.assertEqual(
+            loaded_adapters,
+            self.expected_adapters,
+            f"Expected loaded adapters to be {self.expected_adapters}, but got {loaded_adapters}",
+        )
 
     def forward(
         self,
@@ -898,15 +993,29 @@ def forward(
             },
         )
         if expected_error:
-            self.testcase.assertEqual(response.status_code, 400)
-            self.testcase.assertIn(expected_error, response.text)
+            self.testcase.assertEqual(
+                response.status_code,
+                400,
+                f"Expected error for forward pass, but got success: {response.text}",
+            )
+            self.testcase.assertIn(
+                expected_error,
+                response.text,
+                f"Expected error message to contain '{expected_error}', but got '{response.text}'",
+            )
             output = response.text
             print(f"Received error as expected: {response.text}")
             return output
         else:
-            self.testcase.assertTrue(response.ok)
+            self.testcase.assertTrue(
+                response.ok, f"Failed to generate text: {response.text}"
+            )
             output = [r["text"] for r in response.json()]
-            self.testcase.assertEqual(len(output), len(prompts))
+            self.testcase.assertEqual(
+                len(output),
+                len(prompts),
+                f"Expected {len(prompts)} outputs, but got {len(output)}",
+            )
             print(f"output_strs: {output}")
             return output
 
@@ -974,10 +1083,18 @@ def _run_operation_sequence(
                     f"Running operation: {op_type} --- data: {data} --- mode: {mode} ---"
                 )
                 if op_type == OperationType.LOAD:
+                    if isinstance(data, str):
+                        adapter_info = {
+                            "lora_name": data,
+                            "lora_path": data,
+                            "pinned": False,
+                        }
+                    else:
+                        adapter_info = data
+
                     result = session.load_lora_adapter(
-                        lora_name=data,
-                        lora_path=data,
                         expected_error=expected_error,
+                        **adapter_info,
                     )
                 elif op_type == OperationType.UNLOAD:
                     result = session.unload_lora_adapter(

From 3fa3c6cd6aed593eac39ff26bae294fc33696609 Mon Sep 17 00:00:00 2001
From: Xinyuan Tong <115166877+JustinTong0323@users.noreply.github.com>
Date: Wed, 6 Aug 2025 20:02:47 -0700
Subject: [PATCH 395/396] Enables force reasoning based on chat template for
 Qwen3-Thinking (#8369)

Signed-off-by: Xinyuan Tong <xinyuantong.cs@gmail.com>
Signed-off-by: Xinyuan Tong <justinning0323@outlook.com>
Co-authored-by: Chang Su <csu272@usc.edu>
---
 docs/backend/openai_api_completions.ipynb     | 13 ++---
 docs/backend/separate_reasoning.ipynb         |  7 ++-
 .../srt/entrypoints/openai/serving_chat.py    | 13 +++--
 .../sglang/srt/managers/template_manager.py   | 36 +++++++++++-
 python/sglang/srt/reasoning_parser.py         | 57 ++++++-------------
 test/srt/test_reasoning_parser.py             | 38 ++++++-------
 6 files changed, 88 insertions(+), 76 deletions(-)

diff --git a/docs/backend/openai_api_completions.ipynb b/docs/backend/openai_api_completions.ipynb
index 4ccb2197c7b8..4694b0823fd6 100644
--- a/docs/backend/openai_api_completions.ipynb
+++ b/docs/backend/openai_api_completions.ipynb
@@ -101,19 +101,16 @@
     "\n",
     "**Reasoning Parser Options:**\n",
     "- `--reasoning-parser deepseek-r1`: For DeepSeek-R1 family models (R1, R1-0528, R1-Distill)\n",
-    "- `--reasoning-parser qwen3`: For standard Qwen3 models that support `enable_thinking` parameter\n",
-    "- `--reasoning-parser qwen3-thinking`: For Qwen3-Thinking models (e.g., Qwen/Qwen3-235B-A22B-Thinking-2507) that always generate thinking content\n",
+    "- `--reasoning-parser qwen3`: For both standard Qwen3 models that support `enable_thinking` parameter and Qwen3-Thinking models\n",
+    "- `--reasoning-parser qwen3-thinking`: For Qwen3-Thinking models, force reasoning version of qwen3 parser\n",
     "- `--reasoning-parser kimi`: For Kimi thinking models\n",
     "\n",
     "Here's an example demonstrating how to enable thinking and retrieve the reasoning content separately (using `separate_reasoning: True`):\n",
     "\n",
     "```python\n",
-    "# For standard Qwen3 models with enable_thinking support:\n",
+    "# For Qwen3 models with enable_thinking support:\n",
     "# python3 -m sglang.launch_server --model-path QwQ/Qwen3-32B-250415 --reasoning-parser qwen3 ...\n",
     "\n",
-    "# For Qwen3-Thinking models that always think:\n",
-    "# python3 -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --reasoning-parser qwen3-thinking ...\n",
-    "\n",
     "from openai import OpenAI\n",
     "\n",
     "# Modify OpenAI's API key and API base to use SGLang's API server.\n",
@@ -132,7 +129,7 @@
     "    model=model,\n",
     "    messages=messages,\n",
     "    extra_body={\n",
-    "        \"chat_template_kwargs\": {\"enable_thinking\": True}, # Only for standard Qwen3 models\n",
+    "        \"chat_template_kwargs\": {\"enable_thinking\": True},\n",
     "        \"separate_reasoning\": True\n",
     "    }\n",
     ")\n",
@@ -158,7 +155,7 @@
     "\n",
     "Setting `\"enable_thinking\": False` (or omitting it) will result in `reasoning_content` being `None`.\n",
     "\n",
-    "**Note for Qwen3-Thinking models:** These models always generate thinking content and do not support the `enable_thinking` parameter. When using `--reasoning-parser qwen3-thinking`, the model will always produce reasoning content regardless of the `enable_thinking` setting.\n",
+    "**Note for Qwen3-Thinking models:** These models always generate thinking content and do not support the `enable_thinking` parameter. Use `--reasoning-parser qwen3-thinking` or `--reasoning-parser qwen3` to parse the thinking content.\n",
     "\n",
     "Here is an example of a detailed chat completion request using standard OpenAI parameters:"
    ]
diff --git a/docs/backend/separate_reasoning.ipynb b/docs/backend/separate_reasoning.ipynb
index cd0ab23c4621..aae7dcef930e 100644
--- a/docs/backend/separate_reasoning.ipynb
+++ b/docs/backend/separate_reasoning.ipynb
@@ -14,7 +14,7 @@
     "|---------|-----------------------------|------------------|-------|\n",
     "| [DeepSeek‑R1 series](https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d) | `<think>` … `</think>` | `deepseek-r1` | Supports all variants (R1, R1-0528, R1-Distill) |\n",
     "| [Standard Qwen3 models](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f) | `<think>` … `</think>` | `qwen3` | Supports `enable_thinking` parameter |\n",
-    "| [Qwen3-Thinking models](https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507) | `<think>` … `</think>` | `qwen3-thinking` | Always generates thinking content |\n",
+    "| [Qwen3-Thinking models](https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507) | `<think>` … `</think>` | `qwen3` or `qwen3-thinking` | Always generates thinking content |\n",
     "| [Kimi models](https://huggingface.co/collections/MoonshotAI/kimi-675e30c072b7ba7e79833be7) | `◁think▷` … `◁/think▷` | `kimi` | Uses special thinking delimiters |\n",
     "\n",
     "### Model-Specific Behaviors\n",
@@ -26,7 +26,10 @@
     "\n",
     "**Qwen3 Family:**\n",
     "- Standard Qwen3 (e.g., Qwen3-2507): Use `qwen3` parser, supports `enable_thinking` in chat templates\n",
-    "- Qwen3-Thinking (e.g., Qwen3-235B-A22B-Thinking-2507): Use `qwen3-thinking` parser, always thinks"
+    "- Qwen3-Thinking (e.g., Qwen3-235B-A22B-Thinking-2507): Use `qwen3` or `qwen3-thinking` parser, always thinks\n",
+    "\n",
+    "**Kimi:**\n",
+    "- Kimi: Uses special `◁think▷` and `◁/think▷` tags"
    ]
   },
   {
diff --git a/python/sglang/srt/entrypoints/openai/serving_chat.py b/python/sglang/srt/entrypoints/openai/serving_chat.py
index c8918ed4c062..db7bc252caaa 100644
--- a/python/sglang/srt/entrypoints/openai/serving_chat.py
+++ b/python/sglang/srt/entrypoints/openai/serving_chat.py
@@ -332,6 +332,8 @@ def _apply_conversation_template(
                 prompt = prompt[: -len(conv.sep2)]
         else:
             prompt = conv.get_prompt()
+            if self._get_enable_thinking_from_request(request):
+                prompt += "<think>"  # Note(Xinyuan): hard code thinking token
 
         image_data = conv.image_data if conv.image_data else None
         video_data = conv.video_data if conv.video_data else None
@@ -840,7 +842,9 @@ def _build_chat_response(
             if reasoning_parser and request.separate_reasoning:
                 try:
                     parser = ReasoningParser(
-                        model_type=reasoning_parser, stream_reasoning=False
+                        model_type=reasoning_parser,
+                        stream_reasoning=False,
+                        force_reasoning=self.template_manager.force_reasoning,
                     )
                     reasoning_text, text = parser.parse_non_stream(text)
                 except Exception as e:
@@ -1006,11 +1010,12 @@ def _process_reasoning_stream(
             reasoning_parser_dict[index] = ReasoningParser(
                 self.tokenizer_manager.server_args.reasoning_parser,
                 request.stream_reasoning,
+                self.template_manager.force_reasoning,
             )
         reasoning_parser = reasoning_parser_dict[index]
         return reasoning_parser.parse_stream_chunk(delta)
 
-    def _get_enable_thinking_from_request(request: ChatCompletionRequest) -> bool:
+    def _get_enable_thinking_from_request(self, request: ChatCompletionRequest) -> bool:
         """Extracts the 'enable_thinking' flag from request chat_template_kwargs.
 
         NOTE: This parameter is only useful for models that support enable_thinking
@@ -1019,7 +1024,7 @@ def _get_enable_thinking_from_request(request: ChatCompletionRequest) -> bool:
         Args:
             request_obj: The request object (or an item from a list of requests).
         Returns:
-            The boolean value of 'enable_thinking' if found and not True, otherwise True.
+            The boolean value of 'enable_thinking' if found, otherwise False.
         """
         if (
             hasattr(request, "chat_template_kwargs")
@@ -1027,7 +1032,7 @@ def _get_enable_thinking_from_request(request: ChatCompletionRequest) -> bool:
             and request.chat_template_kwargs.get("enable_thinking") is not None
         ):
             return request.chat_template_kwargs.get("enable_thinking")
-        return True
+        return False
 
     async def _process_tool_call_stream(
         self,
diff --git a/python/sglang/srt/managers/template_manager.py b/python/sglang/srt/managers/template_manager.py
index c98e3d14a6e2..2327f942bb3f 100644
--- a/python/sglang/srt/managers/template_manager.py
+++ b/python/sglang/srt/managers/template_manager.py
@@ -21,6 +21,7 @@
 import json
 import logging
 import os
+import re
 from typing import Optional
 
 from sglang.srt.code_completion_parser import (
@@ -54,6 +55,7 @@ def __init__(self):
         self._chat_template_name: Optional[str] = None
         self._completion_template_name: Optional[str] = None
         self._jinja_template_content_format: Optional[str] = "openai"
+        self._force_reasoning: bool = False
 
     @property
     def chat_template_name(self) -> Optional[str]:
@@ -70,6 +72,31 @@ def jinja_template_content_format(self) -> Optional[str]:
         """Get the detected template content format ('string' or 'openai' or None)."""
         return self._jinja_template_content_format
 
+    @property
+    def force_reasoning(self) -> bool:
+        """
+        Check if the current chat template enforces reasoning/thinking.
+
+        Returns:
+            True if the template contains reasoning patterns like <think> tags
+        """
+        return self._force_reasoning
+
+    def _detect_reasoning_pattern(self, template: str) -> bool:
+        """
+        Detect if the chat template contains reasoning/thinking patterns.
+        """
+        if template is None:
+            return False
+
+        force_reasoning_pattern = r"<\|im_start\|>assistant\\n<think>\\n"
+        has_reasoning = re.search(force_reasoning_pattern, template) is not None
+
+        if has_reasoning:
+            logger.info("Detected the force reasoning pattern in chat template.")
+
+        return has_reasoning
+
     def load_chat_template(
         self, tokenizer_manager, chat_template_arg: Optional[str], model_path: str
     ) -> None:
@@ -93,7 +120,8 @@ def load_chat_template(
                 hf_template = self._resolve_hf_chat_template(tokenizer_manager)
                 if hf_template:
                     # override the chat template
-                    tokenizer_manager.tokenizer.chat_template = hf_template
+                    if tokenizer_manager.tokenizer:
+                        tokenizer_manager.tokenizer.chat_template = hf_template
                     self._jinja_template_content_format = (
                         detect_jinja_template_content_format(hf_template)
                     )
@@ -106,6 +134,12 @@ def load_chat_template(
             self._jinja_template_content_format = "string"
             logger.info("No chat template found, defaulting to 'string' content format")
 
+        # Detect reasoning pattern from chat template
+        if tokenizer_manager.tokenizer:
+            self._force_reasoning = self._detect_reasoning_pattern(
+                tokenizer_manager.tokenizer.chat_template
+            )
+
     def _load_explicit_chat_template(
         self, tokenizer_manager, chat_template_arg: str
     ) -> None:
diff --git a/python/sglang/srt/reasoning_parser.py b/python/sglang/srt/reasoning_parser.py
index a2561a18d101..9e96fa92da5e 100644
--- a/python/sglang/srt/reasoning_parser.py
+++ b/python/sglang/srt/reasoning_parser.py
@@ -131,7 +131,7 @@ class DeepSeekR1Detector(BaseReasoningFormatDetector):
             If True, streams reasoning content as it arrives.
     """
 
-    def __init__(self, stream_reasoning: bool = True):
+    def __init__(self, stream_reasoning: bool = True, force_reasoning: bool = True):
         # DeepSeek-R1 is assumed to be reasoning until `</think>` token
         super().__init__(
             "<think>",
@@ -144,7 +144,7 @@ def __init__(self, stream_reasoning: bool = True):
 
 class Qwen3Detector(BaseReasoningFormatDetector):
     """
-    Detector for standard Qwen3 models (e.g., Qwen/Qwen3-235B-A22B).
+    Detector for Qwen3 models (e.g., Qwen/Qwen3-235B-A22B).
     Assumes reasoning format:
       (<think>)*(.*)</think>
 
@@ -153,47 +153,16 @@ class Qwen3Detector(BaseReasoningFormatDetector):
       - enable_thinking=True: "<think>reasoning content</think>The answer is 42."
       - enable_thinking=False: "The answer is 42." (no thinking tokens)
 
-    This detector handles both cases.
-
-    NOTE: Do NOT use this detector for Qwen3-Thinking models (e.g., Qwen3-Thinking-2507).
-    Those models always generate thinking content without <think> start tags.
-    Use "qwen3-thinking" parser type for those models instead.
-
-    Args:
-        stream_reasoning (bool): If False, accumulates reasoning content until the end tag.
-            If True, streams reasoning content as it arrives.
-    """
-
-    def __init__(self, stream_reasoning: bool = True):
-        super().__init__(
-            "<think>",
-            "</think>",
-            force_reasoning=False,
-            stream_reasoning=stream_reasoning,
-        )
-
-
-class Qwen3ThinkingDetector(BaseReasoningFormatDetector):
-    """
-    Detector for Qwen3-Thinking models (e.g., Qwen3-Thinking-2507).
-    Assumes reasoning format:
-      *(.*)</think>
-
-    These models always generate thinking content without <think> start tag.
-    They do not support the enable_thinking parameter and always think.
-
-    Format: "I need to think about this...</think>The answer is 42."
-
     Args:
         stream_reasoning (bool): If False, accumulates reasoning content until the end tag.
             If True, streams reasoning content as it arrives.
     """
 
-    def __init__(self, stream_reasoning: bool = True):
+    def __init__(self, stream_reasoning: bool = True, force_reasoning: bool = False):
         super().__init__(
             "<think>",
             "</think>",
-            force_reasoning=True,
+            force_reasoning=force_reasoning,
             stream_reasoning=stream_reasoning,
         )
 
@@ -207,7 +176,7 @@ class KimiDetector(BaseReasoningFormatDetector):
     and the rest of the text as `normal_text`.
     """
 
-    def __init__(self, stream_reasoning: bool = True):
+    def __init__(self, stream_reasoning: bool = True, force_reasoning: bool = False):
         super().__init__(
             "◁think▷",
             "◁/think▷",
@@ -230,13 +199,18 @@ class ReasoningParser:
     DetectorMap: Dict[str, Type[BaseReasoningFormatDetector]] = {
         "deepseek-r1": DeepSeekR1Detector,
         "qwen3": Qwen3Detector,
-        "qwen3-thinking": Qwen3ThinkingDetector,
+        "qwen3-thinking": Qwen3Detector,
         "glm45": Qwen3Detector,
         "kimi": KimiDetector,
         "step3": DeepSeekR1Detector,
     }
 
-    def __init__(self, model_type: Optional[str] = None, stream_reasoning: bool = True):
+    def __init__(
+        self,
+        model_type: Optional[str] = None,
+        stream_reasoning: bool = True,
+        force_reasoning: bool = False,
+    ):
         if not model_type:
             raise ValueError("Model type must be specified")
 
@@ -244,7 +218,12 @@ def __init__(self, model_type: Optional[str] = None, stream_reasoning: bool = Tr
         if not detector_class:
             raise ValueError(f"Unsupported model type: {model_type}")
 
-        self.detector = detector_class(stream_reasoning=stream_reasoning)
+        if model_type.lower() == "qwen3-thinking":
+            force_reasoning = True
+
+        self.detector = detector_class(
+            stream_reasoning=stream_reasoning, force_reasoning=force_reasoning
+        )
 
     def parse_non_stream(self, full_text: str) -> Tuple[str, str]:
         """Non-streaming call: one-time parsing"""
diff --git a/test/srt/test_reasoning_parser.py b/test/srt/test_reasoning_parser.py
index 97eea82b43b2..dca314d35638 100644
--- a/test/srt/test_reasoning_parser.py
+++ b/test/srt/test_reasoning_parser.py
@@ -5,7 +5,6 @@
     DeepSeekR1Detector,
     KimiDetector,
     Qwen3Detector,
-    Qwen3ThinkingDetector,
     ReasoningParser,
     StreamingParseResult,
 )
@@ -216,19 +215,19 @@ def test_detect_and_parse_without_thinking(self):
         self.assertEqual(result.reasoning_text, "")
 
 
-class TestQwen3ThinkingDetector(CustomTestCase):
+class TestQwen3ForcedReasoningDetector(CustomTestCase):
     def setUp(self):
-        self.detector = Qwen3ThinkingDetector()
+        self.detector = Qwen3Detector(force_reasoning=True)
 
     def test_init(self):
-        """Test Qwen3ThinkingDetector initialization."""
+        """Test Qwen3ForcedReasoningDetector initialization."""
         self.assertEqual(self.detector.think_start_token, "<think>")
         self.assertEqual(self.detector.think_end_token, "</think>")
         self.assertTrue(self.detector._in_reasoning)  # force_reasoning=True
         self.assertTrue(self.detector.stream_reasoning)
 
-    def test_detect_and_parse_qwen3_thinking_format(self):
-        """Test parsing Qwen3-Thinking format (no <think> start tag)."""
+    def test_detect_and_parse_qwen3_forced_reasoning_format(self):
+        """Test parsing Qwen3-ForcedReasoning format (no <think> start tag)."""
         text = "I need to think about this step by step.</think>The answer is 42."
         result = self.detector.detect_and_parse(text)
         self.assertEqual(
@@ -237,15 +236,15 @@ def test_detect_and_parse_qwen3_thinking_format(self):
         self.assertEqual(result.normal_text, "The answer is 42.")
 
     def test_detect_and_parse_with_start_token(self):
-        """Test parsing Qwen3-Thinking with optional <think> start tag."""
+        """Test parsing Qwen3-ForcedReasoning with optional <think> start tag."""
         text = "<think>I need to think about this.</think>The answer is 42."
         result = self.detector.detect_and_parse(text)
         # Should work because base class logic handles both force_reasoning=True OR start token
         self.assertEqual(result.reasoning_text, "I need to think about this.")
         self.assertEqual(result.normal_text, "The answer is 42.")
 
-    def test_streaming_qwen3_thinking_format(self):
-        """Test streaming parse of Qwen3-Thinking format."""
+    def test_streaming_qwen3_forced_reasoning_format(self):
+        """Test streaming parse of Qwen3-ForcedReasoning format."""
         # First chunk without <think> start
         result = self.detector.parse_streaming_increment("I need to")
         self.assertEqual(result.reasoning_text, "I need to")
@@ -320,9 +319,6 @@ def test_init_valid_model(self):
         parser = ReasoningParser("qwen3")
         self.assertIsInstance(parser.detector, Qwen3Detector)
 
-        parser = ReasoningParser("qwen3-thinking")
-        self.assertIsInstance(parser.detector, Qwen3ThinkingDetector)
-
         parser = ReasoningParser("kimi")
         self.assertIsInstance(parser.detector, KimiDetector)
 
@@ -370,13 +366,11 @@ def test_case_insensitive_model_type(self):
         """Test case insensitive model type matching."""
         parser1 = ReasoningParser("DeepSeek-R1")
         parser2 = ReasoningParser("QWEN3")
-        parser3 = ReasoningParser("QWEN3-THINKING")
-        parser4 = ReasoningParser("Kimi")
+        parser3 = ReasoningParser("Kimi")
 
         self.assertIsInstance(parser1.detector, DeepSeekR1Detector)
         self.assertIsInstance(parser2.detector, Qwen3Detector)
-        self.assertIsInstance(parser3.detector, Qwen3ThinkingDetector)
-        self.assertIsInstance(parser4.detector, KimiDetector)
+        self.assertIsInstance(parser3.detector, KimiDetector)
 
     def test_stream_reasoning_parameter(self):
         """Test stream_reasoning parameter is passed correctly."""
@@ -458,9 +452,9 @@ def test_empty_reasoning_blocks(self):
         self.assertEqual(reasoning, "")
         self.assertEqual(normal, "Just the answer.")
 
-    def test_qwen3_thinking_complete_response(self):
-        """Test complete Qwen3-Thinking response parsing."""
-        parser = ReasoningParser("qwen3-thinking")
+    def test_qwen3_forced_reasoning_complete_response(self):
+        """Test complete Qwen3-ForcedReasoning response parsing."""
+        parser = ReasoningParser("qwen3", force_reasoning=True)
         text = "Let me solve this step by step. The equation is x + 2 = 5. Subtracting 2 from both sides gives x = 3.</think>The solution is x = 3."
 
         reasoning, normal = parser.parse_non_stream(text)
@@ -468,9 +462,9 @@ def test_qwen3_thinking_complete_response(self):
         self.assertIn("x = 3", reasoning)
         self.assertEqual(normal, "The solution is x = 3.")
 
-    def test_qwen3_thinking_streaming_scenario(self):
-        """Test Qwen3-Thinking streaming scenario."""
-        parser = ReasoningParser("qwen3-thinking")
+    def test_qwen3_forced_reasoning_streaming_scenario(self):
+        """Test Qwen3-ForcedReasoning streaming scenario."""
+        parser = ReasoningParser("qwen3", force_reasoning=True)
 
         chunks = [
             "I need to analyze",

From 4f2e1490c33137316fc17326f1595a177c76a5b4 Mon Sep 17 00:00:00 2001
From: michael-amd <Michael.Zhang@amd.com>
Date: Wed, 6 Aug 2025 20:20:26 -0700
Subject: [PATCH 396/396] [AMD] Pull latest SGLang version for AMD CI (#8787)

---
 scripts/amd_ci_start_container.sh | 30 ++++++++++++++++++++++++++++--
 1 file changed, 28 insertions(+), 2 deletions(-)

diff --git a/scripts/amd_ci_start_container.sh b/scripts/amd_ci_start_container.sh
index 9ce33549bf0b..b9c2902e8f33 100755
--- a/scripts/amd_ci_start_container.sh
+++ b/scripts/amd_ci_start_container.sh
@@ -1,9 +1,35 @@
 #!/bin/bash
 set -euo pipefail
 
+# Get version from SGLang version.py file
+FALLBACK_SGLANG_VERSION="v0.4.10.post2"
+SGLANG_VERSION_FILE="$(dirname "$0")/../python/sglang/version.py"
+
+if [ -f "$SGLANG_VERSION_FILE" ]; then
+  SGLANG_VERSION=$(python3 -c '
+import re, sys
+with open(sys.argv[1], "r") as f:
+    content = f.read()
+    match = re.search(r"__version__\s*=\s*[\"'"'"'](.*?)[\"'"'"']", content)
+    if match:
+        print("v" + match.group(1))
+' "$SGLANG_VERSION_FILE")
+
+  if [ -z "$SGLANG_VERSION" ]; then
+      SGLANG_VERSION="$FALLBACK_SGLANG_VERSION"
+      echo "Warning: Could not parse version from $SGLANG_VERSION_FILE, using fallback version: $SGLANG_VERSION" >&2
+  fi
+else
+  # Fallback version if file is not found
+  SGLANG_VERSION="$FALLBACK_SGLANG_VERSION"
+  echo "Warning: version.py not found, using fallback version: $SGLANG_VERSION" >&2
+fi
+
+echo "Using SGLang version: $SGLANG_VERSION"
+
 # Default base tags (can be overridden by command line arguments)
-DEFAULT_MI30X_BASE_TAG="v0.4.9.post2-rocm630-mi30x"
-DEFAULT_MI35X_BASE_TAG="v0.4.9.post2-rocm700-mi35x"
+DEFAULT_MI30X_BASE_TAG="${SGLANG_VERSION}-rocm630-mi30x"
+DEFAULT_MI35X_BASE_TAG="${SGLANG_VERSION}-rocm700-mi35x"
 
 # Parse command line arguments
 MI30X_BASE_TAG="$DEFAULT_MI30X_BASE_TAG"