sgl-project · zhyncs · Jul 2, 2025 · Jun 30, 2025 · Jun 30, 2025 · Jun 30, 2025
@@ -241,6 +241,10 @@ def __init__(
                     revision=server_args.revision,
                 )
 
+        # Initialize loaded loRA adapters with the initial lora paths in the server_args.
+        # This list will be updated when new LoRA adapters are loaded or unloaded dynamically.
+        self.loaded_lora_adapters: Dict[str, str] = self.server_args.lora_paths.copy()
+
         # Store states
         self.no_create_loop = False
         self.rid_to_state: Dict[str, ReqState] = {}
@@ -444,6 +448,22 @@ async def generate_request(
                     "with --enable-return-hidden-states (ServerArgs.enable_return_hidden_states)."
                 )
 
+            # Verify requested LoRA adapters are loaded.
+            if obj.lora_path:
+                requested_adapters = (
+                    set(obj.lora_path)
+                    if isinstance(obj.lora_path, list)
+                    else {obj.lora_path}
+                )
+                unloaded_adapters = (
+                    requested_adapters - self.loaded_lora_adapters.keys()
+                )
+                if unloaded_adapters:
+                    raise ValueError(
+                        f"The following requested LoRA adapters are not loaded: {unloaded_adapters}\n"
+                        f"Loaded adapters: {self.loaded_lora_adapters}."
+                    )
+
         if self.log_requests:
             max_length, skip_names, _ = self.log_request_metadata
             logger.info(
@@ -992,6 +1012,7 @@ async def load_lora_adapter(
 
         async with self.model_update_lock.writer_lock:
             result = (await self.update_lora_adapter_communicator(obj))[0]
+            self.loaded_lora_adapters = result.loaded_adapters
             return result
 
     async def unload_lora_adapter(
@@ -1013,6 +1034,7 @@ async def unload_lora_adapter(
 
         async with self.model_update_lock.writer_lock:
             result = (await self.update_lora_adapter_communicator(obj))[0]
+            self.loaded_lora_adapters = result.loaded_adapters
             return result
 
     async def get_weights_by_name(

diff --git a/test/srt/models/lora/test_lora_update.py b/test/srt/models/lora/test_lora_update.py
@@ -42,14 +42,14 @@
 class OperationType(Enum):
     LOAD = "load"
     UNLOAD = "unload"
-    NOOP = "noop"
     FORWARD = "forward"
+    EXPECT_ERROR = "expect_error"
 
 
 @dataclass
 class Operation:
     type: OperationType
-    data: Optional[str]
+    data: Union[str, tuple[str, str]]
 
 
 @dataclass
@@ -62,7 +62,7 @@ class TestCase:
     max_new_tokens: int = 32
 
 
-def create_batch_data(adapters: Union[str, list]) -> dict:
+def create_batch_data(adapters: Union[str, list]) -> List[tuple[str, str]]:
     if not isinstance(adapters, list):
         adapters = [adapters]
     return [(prompt, adapter) for prompt in PROMPTS for adapter in adapters]
@@ -80,6 +80,26 @@ def create_batch_data(adapters: Union[str, list]) -> dict:
         ],
         initial_adapters=["philschmid/code-llama-3-1-8b-text-to-sql-lora"],
         op_sequence=[
+            Operation(
+                type=OperationType.FORWARD,
+                data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
+            ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data(
+                        "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"
+                    ),
+                    "not loaded",
+                ),
+            ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
+                    "not loaded",
+                ),
+            ),
             Operation(
                 type=OperationType.LOAD,
                 data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
@@ -102,6 +122,13 @@ def create_batch_data(adapters: Union[str, list]) -> dict:
                 type=OperationType.UNLOAD,
                 data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
             ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
+                    "not loaded",
+                ),
+            ),
             Operation(
                 type=OperationType.FORWARD,
                 data=create_batch_data(
@@ -115,6 +142,15 @@ def create_batch_data(adapters: Union[str, list]) -> dict:
                 type=OperationType.UNLOAD,
                 data="Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16",
             ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data(
+                        "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"
+                    ),
+                    "not loaded",
+                ),
+            ),
             Operation(
                 type=OperationType.FORWARD,
                 data=create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
@@ -149,6 +185,22 @@ def create_batch_data(adapters: Union[str, list]) -> dict:
                 type=OperationType.FORWARD,
                 data=create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
             ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data(
+                        "Nutanix/Meta-Llama-3.1-8B-Instruct_lora_4_alpha_16"
+                    ),
+                    "not loaded",
+                ),
+            ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
+                    "not loaded",
+                ),
+            ),
             Operation(
                 type=OperationType.LOAD,
                 data="pbevan11/llama-3.1-8b-ocr-correction",
@@ -157,6 +209,13 @@ def create_batch_data(adapters: Union[str, list]) -> dict:
                 type=OperationType.UNLOAD,
                 data="philschmid/code-llama-3-1-8b-text-to-sql-lora",
             ),
+            Operation(
+                type=OperationType.EXPECT_ERROR,
+                data=(
+                    create_batch_data("philschmid/code-llama-3-1-8b-text-to-sql-lora"),
+                    "not loaded",
+                ),
+            ),
             Operation(
                 type=OperationType.FORWARD,
                 data=create_batch_data("pbevan11/llama-3.1-8b-ocr-correction"),
@@ -332,19 +391,31 @@ def forward(
         prompts: List[str],
         lora_paths: List[str],
         max_new_tokens: int = 32,
+        expected_error: str = None,
     ):
         """
         Perform a batch forward pass with the current set of loaded LoRA adapters.
         """
-        response = self.handle.batch_forward(
-            prompts=prompts,
-            lora_paths=lora_paths,
-            max_new_tokens=max_new_tokens,
-        )
-        output_strs = response.output_strs
+        try:
+            response = self.handle.batch_forward(
+                prompts=prompts,
+                lora_paths=lora_paths,
+                max_new_tokens=max_new_tokens,
+            )
+        except ValueError as e:
+            if expected_error:
+                error_message = str(e)
+                self.testcase.assertIn(expected_error, error_message)
+                print(f"Received error as expected: {error_message}")
+                return error_message
+
+            raise e
+
+        self.testcase.assertEqual(len(response.output_strs), len(prompts))
+        output = response.output_strs
+        print(f"output_strs: {output}")
 
-        print(f"output_strs: {output_strs}")
-        return output_strs
+        return output
 
 
 class LoRAUpdateServerTestSession(LoRAUpdateTestSessionBase):
@@ -426,6 +497,7 @@ def forward(
         prompts: List[str],
         lora_paths: List[str],
         max_new_tokens: int = 32,
+        expected_error: str = None,
     ):
         """
         Perform a batch forward pass with the current set of loaded LoRA adapters.
@@ -442,11 +514,18 @@ def forward(
                 },
             },
         )
-        self.testcase.assertTrue(response.ok)
-        output_strs = [r["text"] for r in response.json()]
-
-        print(f"output_strs: {output_strs}")
-        return output_strs
+        if expected_error:
+            self.testcase.assertEqual(response.status_code, 400)
+            self.testcase.assertIn(expected_error, response.text)
+            output = response.text
+            print(f"Received error as expected: {response.text}")
+            return output
+        else:
+            self.testcase.assertTrue(response.ok)
+            output = [r["text"] for r in response.json()]
+            self.testcase.assertEqual(len(output), len(prompts))
+            print(f"output_strs: {output}")
+            return output
 
 
 # Factory function to create the appropriate LoRA test session based on mode
@@ -535,14 +614,23 @@ def _run_operation_sequence(
                         max_new_tokens=max_new_tokens,
                     )
                     forward_outputs.append(result)
+                elif op_type == OperationType.EXPECT_ERROR:
+                    input_data, expected_error = data
+                    prompts, adapters = zip(*input_data)
+                    result = session.forward(
+                        prompts=list(prompts),
+                        lora_paths=list(adapters),
+                        max_new_tokens=max_new_tokens,
+                        expected_error=expected_error,
+                    )
 
             return forward_outputs
 
     def test_dynamic_adapter_updates(self):
         for case_idx, test_case in enumerate(TEST_CASES, start=1):
             for mode in [
-                LoRAUpdateTestSessionMode.SERVER,
                 LoRAUpdateTestSessionMode.ENGINE,
+                LoRAUpdateTestSessionMode.SERVER,
             ]:
                 print("=" * 100)
                 print(f"Starting test case {case_idx} in {mode.value} mode.")