ServiceNow · rafapi · Nov 4, 2025 · Nov 4, 2025 · Nov 4, 2025 · Nov 4, 2025
diff --git a/conf/actor/web.yaml b/conf/actor/web.yaml
@@ -3,9 +3,12 @@ llm_max_rollouts: 128
 rollout_workers: 1
 rollout_policy: pipelinerl.domains.deep_research.tapeagents_rollouts.generate_rollout
 
-environment:
-  _target_: tapeagents.mcp.MCPEnvironment
-  config_path: conf/mcp/web.json
+environments:
+  - key: mcp
+    mode: embedded
+    _target_: tapeagents.mcp.MCPEnvironment
+    config_path: conf/mcp/web.json
+environment_key: mcp
 
 llm:
   _target_: tapeagents.llms.LiteLLM
@@ -105,4 +108,4 @@ only_tasks: #[] # list of (level, task_num)
 - [1, 4]
 - [1, 5]
 - [1, 6]
-- [1, 7]
+- [1, 7]
diff --git a/conf/base.yaml b/conf/base.yaml
@@ -2,6 +2,7 @@ defaults:
   - finetune: actor_critic
   - rewards: pure_success
   - streams: files
+  - domain_mix: null
   - _self_
 
 seed: 42
@@ -18,6 +19,7 @@ actor:
   result_queue_size: 64
   throughput_window_size: 50
   shared_memory_entry_size: 10000000
+  domain_mix: null
 environment: null
 preprocess:
   input: actor
@@ -135,4 +137,3 @@ wandb:
   wandb_dir: null
   # Comma-separated list of keywords to tag the run.
   tags: []
-
diff --git a/conf/coding.yaml b/conf/coding.yaml
@@ -0,0 +1,50 @@
+defaults:
+  - base
+  - _self_
+
+actor:
+  rollout_policy: pipelinerl.domains.coding.generate_coding_rollout
+  system_prompt: ""
+  task_template: |-
+    {task}
+  task_prompt: ""
+  ensure_boxed_answers: false
+
+  coding_time_limit_s: 15.0
+  coding_per_test_timeout_s: 10.0
+  coding_memory_limit_bytes: 1073741824
+  coding_compile_timeout_s: 10.0
+  coding_sandbox_url: ${oc.env:CODING_SANDBOX_URL, "http://sandbox:8080/run_code"}
+
+dataset_loader: pipelinerl.domains.coding.dataset.load_problems
+dataset_loader_params:
+  dataset_id: ServiceNow-AI/mixed-training-text-datasets
+  dataset_config: 80k-if-math-coding-fncalling-stem
+  split_ratios:
+    train: 0.9
+    validation: 0.05
+    test: 0.05
+  allowed_call_types:
+    - assert
+    - std
+  max_examples_per_split: 2048
+  trust_remote_code: true
+  huggingface_token: ${oc.env:CODING_HF_TOKEN, null}
+
+train_dataset_names:
+  - coding@train
+
+test_dataset_names:
+  - coding@validation
+
+environments:
+  - key: coding
+    mode: remote
+    _target_: pipelinerl.domains.coding.CodingSandboxEnvironment
+    sandbox_url: ${actor.coding_sandbox_url}
+    compile_timeout_s: ${actor.coding_compile_timeout_s}
+    run_timeout_s: ${actor.coding_per_test_timeout_s}
+    request_timeout_s: ${actor.coding_time_limit_s}
+    memory_limit_bytes: ${actor.coding_memory_limit_bytes}
+
+environment_key: coding
diff --git a/conf/debug/multi_domain.yaml b/conf/debug/multi_domain.yaml
@@ -0,0 +1,30 @@
+defaults:
+  - base
+  - domain_rollouts: base
+  - override rewards: success_and_format
+  - _self_
+
+actor:
+  rollout_policy: pipelinerl.domains.dispatcher.generate_multidomain_rollout
+  llm_max_rollouts: 2
+  rollout_workers: 1
+  domain_rollouts:
+    math: ${domain_rollouts.math}
+    guessing: ${domain_rollouts.guessing}
+    coding: ${domain_rollouts.coding}
+
+dataset_loader: pipelinerl.domains.multidomain.load_problems
+train_dataset_names:
+  - math_debug
+  - guessing_debug
+  - coding_debug
+test_dataset_names:
+  - math_debug
+  - coding_debug
+
+environment: null
+environment_key: null
+
+world:
+  env_replicas_per_actor: 0
+  environment_mode: embedded
diff --git a/conf/domain_mix/README.md b/conf/domain_mix/README.md
@@ -0,0 +1,12 @@
+# Domain mix presets
+
+Hydra group `domain_mix` stores reusable presets for `actor.domain_mix`.
+
+Usage examples:
+
+```
+python main.py --config-name multi_domain/base +domain_mix=math_coding_70_30
+python main.py --config-name multi_domain/base +domain_mix=balanced
+```
+
+Override or extend these presets by creating new files under `conf/domain_mix/`.
diff --git a/conf/domain_mix/balanced.yaml b/conf/domain_mix/balanced.yaml
@@ -0,0 +1,9 @@
+# @package actor.domain_mix
+
+math: 1.0
+guessing: 1.0
+counting: 1.0
+chartqa: 1.0
+miniwob: 1.0
+coding: 1.0
+fn_calling: 1.0
diff --git a/conf/domain_mix/coding_heavy.yaml b/conf/domain_mix/coding_heavy.yaml
@@ -0,0 +1,4 @@
+# @package actor.domain_mix
+
+math: 0.3
+coding: 0.7
diff --git a/conf/domain_mix/main_mix.yaml b/conf/domain_mix/main_mix.yaml
@@ -0,0 +1,5 @@
+# @package actor.domain_mix
+
+math: 0.4
+coding: 0.3
+fn_calling: 0.3
diff --git a/conf/domain_mix/math_coding_70_30.yaml b/conf/domain_mix/math_coding_70_30.yaml
@@ -0,0 +1,4 @@
+# @package actor.domain_mix
+
+math: 0.7
+coding: 0.3
diff --git a/conf/domain_rollouts/base.yaml b/conf/domain_rollouts/base.yaml
@@ -0,0 +1,8 @@
+# Mapping between domain identifiers and rollout callables.
+math: pipelinerl.domains.math.generate_math_rollout
+guessing: pipelinerl.domains.guessing.generate_guessing_rollout
+counting: pipelinerl.domains.counting.generate_counting_rollout
+miniwob: pipelinerl.domains.miniwob.rollouts.generate_miniwob_rollout
+chartqa: pipelinerl.domains.chartqa.generate_chartqa_rollout
+coding: pipelinerl.domains.coding.generate_coding_rollout
+fn_calling: pipelinerl.domains.fn_calling.generate_fn_calling_rollout
diff --git a/conf/fn_calling.yaml b/conf/fn_calling.yaml
@@ -0,0 +1,36 @@
+defaults:
+  - base
+  - _self_
+
+actor:
+  rollout_policy: pipelinerl.domains.fn_calling.generate_fn_calling_rollout
+  system_prompt: ""
+  task_template: "{task}"
+  task_prompt: ""
+  ensure_boxed_answers: false
+
+dataset_loader: pipelinerl.domains.fn_calling.dataset.load_problems
+dataset_loader_params:
+  dataset_id: ServiceNow-AI/mixed-training-text-datasets
+  dataset_config: 80k-if-math-coding-fncalling-stem
+  split_ratios:
+    train: 0.9
+    validation: 0.05
+    test: 0.05
+  allowed_call_types: []
+  max_examples_per_split: 2048
+  trust_remote_code: true
+  huggingface_token: ${oc.env:CODING_HF_TOKEN, null}
+
+train_dataset_names:
+  - fn_calling@train
+
+test_dataset_names:
+  - fn_calling@validation
+
+environments:
+  - key: fn_calling
+    mode: remote
+    _target_: pipelinerl.domains.fn_calling.AgenticToolsEnvironment
+
+environment_key: fn_calling
diff --git a/conf/math.yaml b/conf/math.yaml
@@ -5,15 +5,18 @@ defaults:
 actor:
   rollout_policy: pipelinerl.domains.math.generate_math_rollout
   system_prompt: Please reason step by step, and put your final answer within \boxed{}.
-  task_template: |-
-    {task}
-environment:
-  _target_: pipelinerl.domains.math.MathEnvironment
+  task_template: "{task}"
+  task_prompt: ""
+environments:
+  - key: math
+    mode: remote
+    _target_: pipelinerl.domains.math.MathEnvironment
+environment_key: math
 dataset_loader: pipelinerl.domains.math.load_datasets
 train_dataset_names:
 - open_reasoner_zero_57k
 - open_reasoner_zero_extended_72k 
 test_dataset_names:
   - aime_2024
   - amc_2023
-  - math_500
+  - math_500
diff --git a/conf/math_code.yaml b/conf/math_code.yaml
@@ -0,0 +1,58 @@
+defaults:
+  - base
+  - /domain_rollouts@domain_rollouts: base
+  - domain_mix: math_coding_70_30
+  - _self_
+
+actor:
+  rollout_policy: pipelinerl.domains.dispatcher.generate_multidomain_rollout
+  system_prompt: ""
+  task_template: |-
+    {task}
+  task_prompt: ""
+  ensure_boxed_answers: false
+  domain_rollouts:
+    math: ${domain_rollouts.math}
+    coding: ${domain_rollouts.coding}
+  coding_time_limit_s: 15.0
+  coding_per_test_timeout_s: 10.0
+  coding_memory_limit_bytes: 1073741824
+  coding_compile_timeout_s: 10.0
+  coding_sandbox_url: ${oc.env:CODING_SANDBOX_URL, "http://sandbox:8080/run_code"}
+
+dataset_loader: pipelinerl.domains.multidomain.loader.load_datasets
+dataset_loader_params:
+  per_domain_params:
+    coding:
+      dataset_id: ServiceNow-AI/mixed-training-text-datasets
+      dataset_config: 80k-if-math-coding-fncalling-stem
+      split_ratios:
+        train: 0.9
+        validation: 0.05
+        test: 0.05
+      allowed_call_types:
+        - assert
+        - std
+      max_examples_per_split: 2048
+      trust_remote_code: true
+      huggingface_token: ${oc.env:CODING_HF_TOKEN, null}
+
+environments:
+  - key: math
+    mode: remote
+    replicas_per_actor: ${world.env_replicas_per_actor}
+    _target_: pipelinerl.domains.math.MathEnvironment
+  - key: coding
+    mode: remote
+    replicas_per_actor: ${world.env_replicas_per_actor}
+    _target_: pipelinerl.domains.coding.CodingSandboxEnvironment
+    sandbox_url: ${actor.coding_sandbox_url}
+    compile_timeout_s: ${actor.coding_compile_timeout_s}
+    run_timeout_s: ${actor.coding_per_test_timeout_s}
+    request_timeout_s: ${actor.coding_time_limit_s}
+    memory_limit_bytes: ${actor.coding_memory_limit_bytes}
+
+environment_key: null
+
+world:
+  env_replicas_per_actor: 1
diff --git a/conf/multi_domain/base.yaml b/conf/multi_domain/base.yaml
@@ -0,0 +1,79 @@
+# @package _global_
+defaults:
+  - /domain_rollouts@domain_rollouts: base
+  - domain_mix: null
+
+actor:
+  rollout_policy: pipelinerl.domains.dispatcher.generate_multidomain_rollout
+  system_prompt: ""
+  task_template: |-
+    {task}
+  task_prompt: ""
+  ensure_boxed_answers: false
+  domain_mix: null
+  domain_rollouts:
+    math: ${domain_rollouts.math}
+    guessing: ${domain_rollouts.guessing}
+    counting: ${domain_rollouts.counting}
+    chartqa: ${domain_rollouts.chartqa}
+    miniwob: ${domain_rollouts.miniwob}
+    coding: ${domain_rollouts.coding}
+    fn_calling: ${domain_rollouts.fn_calling}
+  coding_time_limit_s: 15.0
+  coding_per_test_timeout_s: 10.0
+  coding_memory_limit_bytes: 1073741824
+  coding_compile_timeout_s: 10.0
+  coding_sandbox_url: ${oc.env:CODING_SANDBOX_URL, "http://sandbox:8080/run_code"}
+
+dataset_loader: pipelinerl.domains.multidomain.loader.load_datasets
+dataset_loader_params:
+  per_domain_params:
+    coding:
+      dataset_id: ServiceNow-AI/mixed-training-text-datasets
+      dataset_config: 80k-if-math-coding-fncalling-stem
+      split_ratios:
+        train: 0.9
+        validation: 0.05
+        test: 0.05
+      allowed_call_types:
+        - assert
+        - std
+      max_examples_per_split: 2048
+      trust_remote_code: true
+      huggingface_token: ${oc.env:CODING_HF_TOKEN, null}
+    fn_calling:
+      dataset_id: ServiceNow-AI/mixed-training-text-datasets
+      dataset_config: 80k-if-math-coding-fncalling-stem
+      split_ratios:
+        train: 0.9
+        validation: 0.05
+        test: 0.05
+      allowed_call_types: []
+      max_examples_per_split: 2048
+      trust_remote_code: true
+      huggingface_token: ${oc.env:CODING_HF_TOKEN, null}
+
+environments:
+  - key: math
+    mode: remote
+    replicas_per_actor: ${world.env_replicas_per_actor}
+    _target_: pipelinerl.domains.math.MathEnvironment
+  - key: coding
+    mode: remote
+    replicas_per_actor: ${world.env_replicas_per_actor}
+    _target_: pipelinerl.domains.coding.CodingSandboxEnvironment
+    sandbox_url: ${actor.coding_sandbox_url}
+    compile_timeout_s: ${actor.coding_compile_timeout_s}
+    run_timeout_s: ${actor.coding_per_test_timeout_s}
+    request_timeout_s: ${actor.coding_time_limit_s}
+    memory_limit_bytes: ${actor.coding_memory_limit_bytes}
+  - key: fn_calling
+    mode: remote
+    replicas_per_actor: ${world.env_replicas_per_actor}
+    _target_: pipelinerl.domains.fn_calling.AgenticToolsEnvironment
+    max_workers: 4
+
+environment_key: null
+
+world:
+  env_replicas_per_actor: 1
diff --git a/conf/multi_domain/main_mix.yaml b/conf/multi_domain/main_mix.yaml
@@ -0,0 +1,10 @@
+defaults:
+  - base
+  - domain_mix: main_mix
+  - _self_
+
+actor:
+  domain_rollouts:
+    math: ${domain_rollouts.math}
+    coding: ${domain_rollouts.coding}
+    fn_calling: ${domain_rollouts.fn_calling}
diff --git a/conf/test.yaml b/conf/test.yaml
@@ -3,7 +3,7 @@ defaults:
 finetune:
     seq_length: 4000
     gradient_accumulation_passes: 6
-    max_train_steps: 1
+    max_train_steps: 100
     train_batch_size: 4
     attempts: 4
 llm: