inclusionAI · garrett4wade · Aug 1, 2025 · Jul 14, 2025 · Jul 14, 2025 · Jul 14, 2025
diff --git a/docs/customization/agent.md b/docs/customization/agent.md
@@ -192,7 +192,7 @@ Finally, let's complete the implementation by collecting trajectories in the
 class MultiTurnWorkflow(RolloutWorkflow):
     # ... previous methods ...
 
-    async def arun_episode(self, engine: InferenceEngine, data):
+    async def arun_episode(self, engine: InferenceEngine, data) -> TensorDict:
         # ... episode logic above ...
 
         while reward == 0 and t < self.max_turns:

diff --git a/functioncall/math/verify.py b/functioncall/math/verify.py
@@ -10,7 +10,12 @@
 
 
 def math_verify(
-    id2info, generateds: List, query_ids: List, batch_size=10, timeout=1000
+    id2info,
+    generateds: List,
+    query_ids: List,
+    batch_size=10,
+    timeout=1000,
+    max_workers=None,
 ) -> List:
     assert len(generateds) == len(query_ids), (
         len(generateds),

diff --git a/realhf/api/core/data_api.py b/realhf/api/core/data_api.py
@@ -74,8 +74,9 @@ def load_hf_processor_and_tokenizer(
     model_name_or_path: str,
     fast_tokenizer=True,
     padding_side: Optional[str] = None,
-) -> Tuple[transformers.AutoProcessor, transformers.PreTrainedTokenizerFast]:
+) -> Tuple["transformers.ProcessorMixin", transformers.PreTrainedTokenizerFast]:
     """Load a tokenizer and processor from Hugging Face."""
+    # NOTE: use the raw type annoation will trigger cuda initialization
     tokenizer = load_hf_tokenizer(model_name_or_path, fast_tokenizer, padding_side)
     try:
         processor = transformers.AutoProcessor.from_pretrained(

diff --git a/realhf/impl/model/backend/sglang.py b/realhf/impl/model/backend/sglang.py
@@ -117,20 +117,28 @@ async def _do_generate(
                             )
 
                         most_recent_timestamps[output_idx] = timestamp
-                        output.output_ids = [data[SGLANG_TOKEN_OUTPUT_IDENTIFIER]]
-                        finish_reason = data["meta_info"]["finish_reason"]
-                        if req.return_logprob:
-                            output.output_logprobs = [
-                                [
-                                    x[0]
-                                    for x in data["meta_info"]["output_token_logprobs"]
-                                ]
-                            ]
+                        meta_info = data["meta_info"]
+                        finish_reason = meta_info["finish_reason"]
                         assert finish_reason["type"] in [
                             "length",
                             "stop",
+                            "abort",
                         ], finish_reason
-                        output.no_eos = [finish_reason["type"] == "length"]
+
+                        if meta_info.get("output_token_logprobs"):
+                            output.output_ids = [
+                                [x[1] for x in meta_info["output_token_logprobs"]]
+                            ]
+                            if req.return_logprob:
+                                output.output_logprobs = [
+                                    [x[0] for x in meta_info["output_token_logprobs"]]
+                                ]
+                        else:
+                            output.output_ids = [[]]
+                            if req.return_logprob:
+                                output.output_logprobs = [[]]
+
+                        output.no_eos = [finish_reason["type"] in ["length", "abort"]]
                         output.latency = latency
 
                         output_idx += 1