vllm-project · njhill · Nov 19, 2025 · Nov 20, 2025 · Nov 20, 2025 · Nov 20, 2025
@@ -214,6 +214,8 @@ def _update_num_reasoning_tokens(self):
 
     def append_output(self, output: RequestOutput) -> None:
         output_token_ids = output.outputs[0].token_ids
+        # Reset parser for each append_output call to handle multi-turn scenarios
+        # where the parser needs to start fresh for each assistant response
         self.parser = get_streamable_parser_for_assistant()
         for token_id in output_token_ids:
             self.parser.process(token_id)
@@ -519,7 +521,8 @@ def append_output(self, output: RequestOutput) -> None:
         # (finished=True), then the next token processed will mark the
         # beginning of a new message
         self.first_tok_of_message = output.finished
-        for tok in output.outputs[0].token_ids:
+        token_ids = output.outputs[0].token_ids
+        for tok in token_ids:
             self.parser.process(tok)
         self._update_decode_token_usage(output)
 
@@ -529,7 +532,9 @@ def append_output(self, output: RequestOutput) -> None:
             self.current_turn_metrics.reset()
         # Check if the current token is part of reasoning content
         self._update_num_reasoning_tokens()
-        self.last_tok = tok
+        # Only update last_tok if we actually processed tokens
+        if token_ids:
+            self.last_tok = tok
         if len(self._messages) - self.num_init_messages < len(self.parser.messages):
             self._messages.extend(
                 self.parser.messages[len(self._messages) - self.num_init_messages :]
@@ -547,7 +552,8 @@ def append_tool_output(self, output: list[Message]) -> None:
         for tok in toks:
             self.parser.process(tok)
         self.last_tok = toks[-1]
-        # TODO: add tool_output messages to self._messages
+        # Add tool output messages to self._messages
+        self._messages.extend(output)
 
     def is_expecting_start(self) -> bool:
         return self.parser.state == StreamState.EXPECT_START