vllm-project · DarkLight1337 · Oct 15, 2025 · Oct 15, 2025 · gemini-code-assist · Oct 15, 2025
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
@@ -1264,13 +1264,16 @@ def _apply_hf_processor_tokens_only(
     ) -> list[int]:
         processor = self.info.get_hf_processor()
 
-        # Apply the chat template to the tokens
+        # The chat template is already applied to the prompt tokens
+        # Use message_format="none" to avoid applying it again
+        # Prepend an empty space if `always_start_with_space` is True
         tokens = processor.processor.get_tokens_input(  # type: ignore
             self.info.get_tokenizer().decode(prompt_tokens),
-            message_format=processor.message_format,
+            message_format="none",
             always_start_with_space=processor.always_start_with_space,
         )
-        # The chat template is already applied to the prompt tokens
-        # Use message_format="none" to avoid applying it again
-        # Prepend an empty space if `always_start_with_space` is True
-        tokens = processor.processor.get_tokens_input(  # type: ignore
-            self.info.get_tokenizer().decode(prompt_tokens),
-            message_format=processor.message_format,
-            message_format="none",
-            always_start_with_space=processor.always_start_with_space,
-        )
+        tokenizer = self.info.get_tokenizer()
+
+        # The chat template is already applied. The logic below is an
+        # optimized reimplementation of `processor.get_tokens_input`
+        # with `message_format="none"`. It avoids a decode-encode cycle
+        # if the prompt already starts with a space, improving performance.
+        if processor.always_start_with_space:
+            decoded_prompt = tokenizer.decode(prompt_tokens)
+            if not decoded_prompt.startswith(" "):
+                tokens = tokenizer.encode(" " + decoded_prompt,
+                                          add_special_tokens=False)
+            else:
+                tokens = prompt_tokens
+        else:
+            tokens = prompt_tokens
-        # The chat template is already applied to the prompt tokens
-        # Use message_format="none" to avoid applying it again
-        # Prepend an empty space if `always_start_with_space` is True
-        tokens = processor.processor.get_tokens_input(  # type: ignore
-            self.info.get_tokenizer().decode(prompt_tokens),
-            message_format=processor.message_format,
-            message_format="none",
-            always_start_with_space=processor.always_start_with_space,
-        )
+        tokenizer = self.info.get_tokenizer()
+
+        # The chat template is already applied. The logic below is an
+        # optimized reimplementation of `processor.get_tokens_input`
+        # with `message_format="none"`. It avoids a decode-encode cycle
+        # if the prompt already starts with a space, improving performance.
+        if processor.always_start_with_space:
+            decoded_prompt = tokenizer.decode(prompt_tokens)
+            if not decoded_prompt.startswith(" "):
+                tokens = tokenizer.encode(" " + decoded_prompt,
+                                          add_special_tokens=False)
+            else:
+                tokens = prompt_tokens
+        else:
+            tokens = prompt_tokens
 
+        # Prepend a BOS token id to the tokens
         processed_data = self.info.ctx.call_hf_processor(
             processor,  # type: ignore
             dict(tokens=tokens),