huggingface · lapp0 · Apr 24, 2024 · Apr 24, 2024 · Apr 24, 2024 · Apr 24, 2024
diff --git a/trl/trainer/__init__.py b/trl/trainer/__init__.py
@@ -46,8 +46,10 @@
     "ppo_trainer": ["PPOTrainer"],
     "reward_config": ["RewardConfig"],
     "reward_trainer": ["RewardTrainer", "compute_accuracy"],
+    "rloo_trainer": ["RLOOTrainer", "RLOOConfig"],
     "sft_trainer": ["SFTTrainer"],
     "base": ["BaseTrainer"],
+    "policy_trainer_base": ["PolicyTrainerBase", "PolicyTrainerArguments"],
     "ddpo_config": ["DDPOConfig"],
 }