allenai · finbarrtimbers · Jul 16, 2025 · Jul 16, 2025
diff --git a/open_instruct/ground_truth_utils.py b/open_instruct/ground_truth_utils.py
@@ -887,7 +887,7 @@ def build_all_verifiers(args) -> Dict[str, VerifierFunction]:
     for judge_type in JUDGE_PROMPT_MAP.keys():
         instance = LMJudgeVerifier(judge_type, LMJudgeVerifierConfig.from_args(args))
         verifiers[instance.name.lower()] = instance
-    
+
     # if we have remap arg, remap!
     if args.remap_verifier:
         remap = args.remap_verifier.split("=")

diff --git a/open_instruct/judge_utils.py b/open_instruct/judge_utils.py
@@ -217,7 +217,7 @@ def extract_json_score_with_fallback(score_str: str) -> "tuple[str, float]":
         # escape newlines
         cleaned_str = cleaned_str.replace("\r\n", "\n").replace("\n", "\\n")
         # escape backslashes
-        cleaned_str = re.sub(r'\\(?!["\\/bfnrtu])', r'\\\\', cleaned_str)
+        cleaned_str = re.sub(r'\\(?!["\\/bfnrtu])', r"\\\\", cleaned_str)
 
         cleaned_str = cleaned_str.strip()
 

diff --git a/open_instruct/model_utils.py b/open_instruct/model_utils.py
@@ -263,7 +263,12 @@ async def apply_verifiable_reward(
             async_tasks.append(task)
             # use reward_func.name to get the name of the verifier, rather than ds in case we have done remapping.
             task_metadata.append(
-                {"response_idx": i, "dataset": reward_func.name, "reward_weight": reward_func.weight, "reward_mult": reward_mult}
+                {
+                    "response_idx": i,
+                    "dataset": reward_func.name,
+                    "reward_weight": reward_func.weight,
+                    "reward_mult": reward_mult,
+                }
             )
 
     # Execute all tasks in parallel