CarperAI · LouisCastricato · Dec 4, 2022 · Nov 22, 2022 · Nov 23, 2022 · Nov 23, 2022
diff --git a/configs/ppo_gptj.yml b/configs/ppo_gptj.yml
@@ -35,6 +35,10 @@ method:
   cliprange: 0.2  # clip range
   cliprange_value: 0.2  # clip range
   vf_coef: 0.2  # value term weight
+  scale_reward: False # False | "ref" | "running" estimate against which to scale rewards
+  ref_mean: null
+  ref_std: null # rescale rewards with this deviation
+  cliprange_reward: 10
   gen_kwargs:
     max_length: 48  # LM max sample gen length
     min_length: 48  # LM min sample gen length

diff --git a/examples/ppo_sentiments.py b/examples/ppo_sentiments.py
@@ -17,7 +17,7 @@ def get_positive_score(scores):
     return dict(map(lambda x: tuple(x.values()), scores))["POSITIVE"]
 
 
-default_config = yaml.safe_load(open("configs/ppo_config.yml"))
+default_config = yaml.safe_load(open("configs/ppo_gptj.yml"))
 
 
 def main(hparams={}):
@@ -46,7 +46,6 @@ def reward_fn(samples: List[str]) -> List[float]:
     prompts = [" ".join(review.split()[:4]) for review in imdb["text"]]
 
     model = trlx.train(
-        "lvwerra/gpt2-imdb",
         reward_fn=reward_fn,
         prompts=prompts,
         eval_prompts=["I don't know much about Hungarian underground"] * 64,